Chia sẻ ideas cho cuộc thi Phân loại sắc thái bình luận

nlp
demo_nlp_contest

#1

Mình mới thử một số ý tưởng và đem lại kết quả tốt (với mình), hi vọng nó sẽ tốt với model của các bạn. Độ hiệu quả của các idea (với mình) được xếp theo thứ tự từ cao xuống thấp

1. Làm sạch dữ liệu

Rất nhiều bình luận được viết bằng nửa tiếng anh - nửa tiếng việt.
VD: shop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời
Việc làm sạch dữ liệu ở đây là cần thiết
=> cửa hàng Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời.
Mình công bố một phần cho việc làm sạch của mình ở đây, các bạn tự tìm tòi tiếp nhé:

correct_mapping = {
  "ship": "vận chuyển",
  "shop": "cửa hàng",
  " m ": " mình ",
  " mik ": " mình ",
  " k ": " không ",
  " kh ": " không ",
  " tl ": " trả lời ",
  " r ": " rồi ",
  " fb ": " mạng xã hội ", # facebook
  " face ": " mạng xã hội ",
  " thanks ": " cảm ơn ",
  "thank": "cảm ơn",
  " tks ": " cảm ơn ", 
  " tk ": " cảm ơn ",
  ...
}

Mình nhận thấy việc làm sạch ở đây khá nhậy cảm với kết quả, các bạn hãy cẩn thận nhé :wink: . Nhiều thi thêm 1 từ vào kết quả giảm đi, nhưng bớt 1 từ thì nó lại tăng lên đấy :wink:

2. Playground với TFIDF

Thay đổi và thử các hệ số của hàm TfidfVectorizer

3. Đếm số punction, digits, alphabet, …

Khá nhiều từ mới (danh từ riêng) xuất hiện trong comment: A7, Note9, … Bạn nào có thời gian làm hẳn một cái dictionary về công nghệ, máy tính, điện thoại, … thì mình nghĩ sẽ đạt kết quả cao hơn.

4. Thử một vài transform cho statistic feature

Mình sẽ k tiết lộ đây là feature nào. Việc transform như thế này là cần thiết :smiley:

Trước khi transform
Screenshot%20from%202019-02-21%2009-53-50

Sau khi transform
Screenshot%20from%202019-02-21%2009-53-55

5. Hyperparameter tunning cho models

Đã bao giờ bạn băn khoăn giữa việc lụa chọn params hợp lý cho model?. VD: learning rate, subsample, …
Nếu có thì hãy thử:

Vì ví dụ trên mạng khá nhiều và đầy đủ nên mình sẽ k đi chi tiết.

6. Leak ???

Có một chút leak ở data này, nếu bạn nào tinh ý thì có thể tận dụng đc một chút. Nhưng mình nghĩ độ ảnh hưởng (impact) của nó không nhiều.

Chúc các bạn vui vẻ,
Regards,


Mô hình ensemble đơn giản cho phân loại sắc thái bình luận (7th place solution)