Hỏi về model với 2 class hay 3 class tốt hơn?

classification
machine-learning

#1

Chào anh chị và các bạn! Em đang train model với bài toán classification. Câu chuyện như tiêu đề: nên phân loại với 2 class (spam-notspam) rồi tìm cách đặt ngưỡng để tìm ra thằng thực sự là spam sẽ tốt hơn hay là chạy với 3 class (spam-unknown-notspam) ? Với 2 cách đó thì ưu điểm và nhược điểm thế nào ạ? Note: Dữ liệu của e vẫn còn ít và mất cân bằng.


#2

dữ liệu gồm những class nào b?


#3

Dạ gồm 2 class 0-notspam và 1-spam! nhưng nếu chỉ 2 lớp thì có thể có những người bị gán nhầm là spam @@


#4

Có 1 số metrics để đánh gía xem mức độ ưu tiên detect chính xác spam hay not spam.

https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc

CÒn data bạn có 2 class thì nó chỉ học đc 2 class thôi. Nếu ko bạn có thể sử dụng 1 số tricks để detect outlier cx có thể thử