Kalapa’s Credit Scoring Challenge - Có ai giống e không ?


#1

Chào cả nhà.

Nhìn bảng xếp hạng mấy a có GINI > 29 e thấy nể quá. Không biết các bác ấy dùng kỹ thuật gì cao cấp nhưng e thì chỉ dùng logistic regression thôi.

Khi training thì ra đc model có GINI > 29-32.5 % nhưng khi gửi kq test thì bị drop rất mạnh xuống còn 1-2%. Đời mô hình của e chưa bao giờ gặp tình cảnh này. Có thể model của e bị over-fitting nhưng dù bị over-fitting đi nữa thì không bao giờ bị down mạnh như vậy.

E đã kiểm tra lại distribution của test sample có vẻ khá giống với distribution của train sample --> nếu các label của test sample cũng có phân bổ “gần tương tự” với train sample thì việc down GINI mạnh là không thể.

Từ suy diễn trên thì e đã nghĩ có gì đó sai sai về việc gán nhãn cho label của tập test sample hoặc kno của mình còn hạn chế nên model bị down GINI thế.

Ae có idea gì thì suggest e nhé.

Thanks.


#2

Có thể model của e bị over-fitting nhưng dù bị over-fitting đi nữa thì không bao giờ bị down mạnh như vậy.

Chào bạn!

Khi bạn test thử model của mình để được 29-32.5% gini score thì test data của bạn có đủ lớn không? Có thể là vì chưa rebalance lại data nên variance cao dẫn đến việc gini score thay đổi nhiều, bạn thử sử dụng package imblearn để resample lại data xem sao nhé!

Chúc bạn thành công!