Skewed Classes là gì?

machine-learning

#1

Em đang có chút khó hiểu về Skewed Classes, mong được mọi người giải thích cho rõ.

Theo em hiểu, giả sử với binary classifications, với sự chệnh lệnh về 2 class trong training set dẫn đến đánh giá về accuracy là chưa đủ, (chưa đủ như thế nào thì em cũng chưa hiểu rõ để giải thích được). Dẫn đến là có các độ đo khác để đánh giá trên mỗi class.

Đây là bài viết em tham khảo, nhưng em chưa thật sư hiểu rõ: https://machinelearningmedium.com/2018/04/08/error-metrics-for-skewed-data-and-large-datasets/


#2

Ví dụ training set của bạn có 2 class 0 và 1. Class 1 chiếm 95%, Class 2 chiếm 5%. Một thuật toán luôn phân loại các quan sát vào Class 1 -> Thuật toán đó có độ chính xác rất cao 95% nhưng thực tế nó lại không có khả năng phân loại giữa 2 class.

Do đó độ chính xác là không đủ để đánh giá chất lượng của mô hình phân loại, đặc biệt là đối với dữ liệu mất cân bằng (imbalanced).


#3

Skewed - lệch lạc, ko cân.

Skewed classes: các class có số lượng ko cân xứng nhau.

Ví dụ: trường cấp 3 Chuyên Ngữ Hà Nội, tổng có 3000 học sinh. Trong đó: Nữ: 2999. Nam: 1.

2 class này là skewed.

Nên. Khi chạy classify, ko đủ dữ liệu tiêu biểu >> kết quả phân loại kém.