Về cách tiếp cận lọc comment trong post

nlp

#1

Chào anh chị và các bạn,
Em đang muốn giải quyết bài toán lọc comment phản cảm, chửi bậy, chính trị, etc. Vậy ngoài cách lọc theo keywords, thì bài toán này có thể phân vào lớp bài toán nào ạ? Có thể là sentiment analysis/text classification đơn thuần không ạ?
Một vấn đề nữa là nếu muốn làm theo phương pháp có sử dụng Học máy thì dataset có thể kiếm ở đâu ạ? Em thấy dataset tiềm năng có thể ở comment trong các group fb mà bao gồm cả các comment bị admin xóa vì nội quy nhóm, nhưng kiếm được dataset đó hơi khó.
Mong mọi người cùng thảo luận và gợi ý cách tiếp cận cũng như về dataset ạ.


#2

Đây là bài toán sentiment analysis. Bạn có thể google ra rất nhiều phương pháp, từ tf-idf, Machine Learning, cho tới Deep Learning. Dataset dạng comment chửi bậy các thứ này có lẽ bạn thử crawl comment của YouTube xem sao. Mình nhớ không nhầm thì trong group có một bạn nói về vấn đề crawl comment này rồi.


#3

Về phân lớp, bài toán này nên xếp vào binary-classification hay multi-class classification hay multiple binary-classification ạ? Vì theo em nghĩ nếu không dùng tf-idf mà dùng các phương pháp embedding thì các loại cần filter sẽ có các representation khác nhau.
Về dataset, vấn đề crawl comment thì không khó, em nghĩ khó là ở phần labelling, không biết liệu comment trên youtube hay fb thì có get được riêng comment clean và comment bị hidden hay deleted không.


#4
  1. Tùy số lượng đầu ra mà bạn muốn thì sẽ là bài toán đó: comment tốt/xấu thì là binary classification, chia chi tiết hơn thì là multi-class classification.
  2. Vấn đề crawl này thì mình không nắm rõ lắm. Bạn thử google xem sao, hoặc chờ ai đó giải đáp.