Tìm giải pháp cho bài toán sentiments classification


#1

Em chào anh chị và các bạn, Hiện tại em đang làm bài toán sentiments classification để phân loại bình luận tin tức.

Cách giải quyết của em hiện tại là sử dụng Lexicon based approach để phân biệt comment negative và comment possitive. Kết quả cũng tạm chấp nhận được.

Em cũng đã thử dùng thư viện Fasttextsklearn nhưng không hiệu quả bằng phương pháp trên. Có thể do dữ liệu của em thiếu và bị mất cân bằng(Em không chắc chắn).

Tuy nhiên, hiện tại chương trình của em vẫn chưa thể phát hiện được những bình luận tiêu cực dạng bóng gió, xỉa xói. Xét về góc độ từ vựng thì những bình luận như này không có một điểm tiêu cực nào cả. Một vài ví dụ:

1. Bạn nghĩ bạn là ai
2. GƯƠNG SÁNG PHỐ PHƯỜNG (biển) mà mấy ai dám noi.
3. bác nói cứ như đùa, người ta tốn biết bao tâm huyết mới lên được ghế đó mà bảo từ chức, đùa cứ như thật
4. Cái gì cũng đúng quy trình nhưng rồi đều .. nát như tương Bần!
5. Không phải ngập mà chỉ là tụ nước thôi nhé.
6. Nếu có liêm sỉ thì loại trí tuệ tầm thường đã không bước chân vào đường quan lộ

Nhờ anh/ chị trong forum có kinh nghiệm tư vấn giùm em giải pháp / ý tưởng để giải quyết vấn đề này ạ.

Em cảm ơn rất nhiều!


#2

Mình cũng quan tâm đến câu trả lời.

Em đã tìm thử xem đã có nhóm nào thành công phân tích mấy cái Irony và Sarcasm này chưa? Hi vọng có cao thủ NPL vào đây trả lời.

ps: cái forum thiếu 1 chức năng hay của Facebook là tag. Ko biết có làm được ko Tiệp ơi? Định tag các chuyên gia NPL vào :stuck_out_tongue:


#3

Anh tag vào hộ em với. @Van tag được mà anh :slight_smile:


#4

Thx e. @sonvx chuyên gia trả lời cho ae kìa.

Tiếc là ko tag được facebook users :slight_smile:


#5

Em cảm ơn anh ạ. Em có share bài này lên forum trên fb ở đây. Nếu có thể anh tag giúp em với ạ.


#6

Em tìm hiểu mô hình của bài [1] nhé. Mô hình của nhóm a mới đc top 5 trong vụ phát hiện nói bóng gió ở hội nghị chuyên đề của NAACL2018. Trong bài cũng có link tới code ở github đó em. Nhìn chung sẽ cần dữ liệu và kết hợp với các pre-train embeddings để cải thiện vấn đề.

[1] https://arxiv.org/abs/1804.00520


#8

@sonvx em cảm ơn anh ạ :smiling_face_with_three_hearts:


#9

@nguyenvanhieu.vn bạn đã có thử phương pháp Attention chưa ? https://aclweb.org/anthology/D16-1058 Hơn nữa, tập training của bạn bạn nghĩ đã bao gồm nhưng mẫu câu đại loại như vậy chưa, nếu khác distribution thì mình nghĩ cũng sẽ rất khó để nhận ra.


#10

Em cảm ơn chia sẻ hữu ích của anh ạ.


#11

Mình có viết 1 bài với mục đích trả lời câu hỏi này nhưng vì nó liên quan tới bài toán rộng hơn nên đã tạo 1 bài tutorial ngắn ở đây. Hi vọng cung cấp cho bạn được một số thông tin hữu ích.


#12

Em cảm ơn chia sẻ của anh ạ. Nhưng em đang quan tâm tới một vấn đề cụ thể


#13

Bạn thử thay dữ liệu vào cách này chưa? Nếu ko work mình sẽ check kĩ hơn xem vấn đề ở đâu.


#14

Hiện tại em vẫn chưa thử với dữ liệu em nếu ở trên, do chưa chuẩn bị xong dữ liệu. Nhưng chắc chắn sẽ thử và feedback lại tại đây.

Em cảm ơn ạ!