Nhờ hướng dẫn phân loại văn bản với tập dữ liệu Csv

machine-learning

#1

Mình đang làm quen với cách thực hiện code phân loại văn bản, xin hỏi các bạn: Mình có một file csv văn bản link(https://drive.google.com/file/d/1KXnUv-RL6oMdOeXZVNc7LR75TGqez-r0/view?usp=sharing) Với dữ liệu của văn bản được hiển thị như hình: cautruc

Đoạn Code mình viết như sau:

import numpy as np import pandas as pd from sklearn.feature_extraction.text import CountVectorizer

frame = pd.read_csv(“data_hoc.csv”) data = frame.values

Khai báo nhãn đầu ra vào y

y = frame[‘loaitin’].values

tách thành 2 tập Test và Train

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(data,y,test_size = 0.2, random_state=42)

val = frame[‘loaitin’].values[1000]

thực hiện chuẩn hóa dữ liệu, chuyển dữ liệu về vect

from sklearn.feature_extraction.text import CountVectorizer count_vect = CountVectorizer()

print(frame[[‘noidung’,‘loaitin’]].values[100])

c = frame[[‘noidung’,‘loaitin’]].values.tolist()

X_train_counts = count_vect.fit_transform©

Chỗ này chương trình báo lỗi: AttributeError: ‘list’ object has no attribute ‘lower’

Vậy nhờ các bạn có thể hỗ trợ giúp mình xem phần này bị sai ở đâu và xử lý chỗ nào, xin cám ơn.