Xin bộ dữ liệu Training và Testing - Phân loại văn bản tiếng Việt

classification
machine-learning

#1

Chào mọi người, Hiện tại em đang làm một đề tài về phân loại văn bản tiếng Việt (phân loại nội dung tốt, xấu, nội dung nhạy cảm,…) sử dụng ngôn ngữ lập trình python. Hiện tại em đang tìm bộ dữ liệu Training và Testing cho đề tài mà tìm hoài không ra. Anh chị nào có thông tin về bộ dữ liệu liên quan cho em xin với ạ. Em xin chân thành cảm ơn.


#2

Cái này mình tự làm được mà bạn. Dữ liệu tốt thì crawl từ mấy tin tức từ mấy báo uy tín trong nước, xấu và nhảy cảm thì cứ vào mấy trang báo phản động, quảng cáo đa cấp, mại dâm lấy về không thiếu :slight_smile: :slight_smile:


#3

Vừa rồi trong luận văn của mình làm về Fake News detection mình có làm 1 bộ dataset để phục vụ cho nó, hiệu quả phân loại hiện tại của bộ này chưa cao, hiện mình đang nghiên cứu thêm để hoàn thiện nó. Mình gửi đến bạn để tham khảo:

Link: VFND - https://github.com/thanhhocse96/vfnd-vietnamese-fake-news-datasets

Dữ liệu hiện có 2 label là Fake và Real. Hiện tại nhóm mình dùng định nghĩa: Non-Fake = Real nên còn nhiều điểm bất cập. Size của dataset còn khá ít: 223 báo, 5 FB post. Mong nhận được góp ý của bạn sau khi sử dụng