Credit scoring - discussion

machine-learning

#1

Hi cả nhà, hiện tại mình đang làm việc về mảng machine learning cho Credit scoring (link bên dưới). Hiện tại bên mình đang dùng chủ yếu Logistic regression ( dùng WOE) để build model. mình đã làm mảng này được 1.5 năm.

có 2 chủ đề mình muốn share: a. Diễn đàn này mình nghĩ sẽ có nhiều bạn có cùng kinh nghiệm làm mảng này.nếu bạn nào cùng làm mảng này và muốn share kiến thức với nhau. Mình sẽ break ra từng bước và thảo luận cách tối ưu của từng bước. comment ở dưới nha các bạn. b. gần đây, công ty mình có tổ chức cuộc thi trên kaggle, khá nhiều cao thủ thi, em có đọc qua kết quả của mọi người- căn bản cái này quá cao so với trình của mình. :slight_smile:

link question: https://www.kaggle.com/c/home-credit-default-risk one of the resutl: https://www.facebook.com/groups/870665749718859/permalink/1805138579604900/

Thanks, Thinh


#2

Em cũng đang làm một bài tương tự như thế này. Rất mong được anh hướng dẫn về 1 số trick tối ưu. Em xin cảm ơn :sunny:


#3

theo anh đọc thì hiểu em đang làm khóa luân phải ko? vì thị trường này đang khá nóng nên nhu cầu cùng khá cao. người có khả năng làm được cái này. hiểu chi tiết từng vấn đề thì cũng ít. đa phần vẫn bỏ vào package => run ra và lấy kết quả là nhiều! :slight_smile:


#4

Em cũng đang làm 1 bài trên Kaggle anh ạ, bài Two Sigma. Em thấy bài Two Sigma có nhiều đặc điểm rất giống với bài này của anh qua phần mô tả link anh gửi(https://www.facebook.com/groups/870665749718859/permalink/1805138579604900/). Đặc biệt cái em khó xử nhất là cái số 6 “Kết quả cross validation và public LB cũng không thống nhất. Có nghĩa là khi bạn test trên tập train thì thấy AUC tăng nhưng khi submit lên thì public LB score lại đi xuống nên bạn không thể tin CV hay LB score được.” Em đang không biết tối ưu kiểu gì, có khi em kéo score của tập val lên rất cao rồi nhưng khi submit kết quả lại rất kém. Anh có thể chia sẻ chút được không ạ? Rất cảm ơn anh.


#5

Hi em, đọc câu của em thì anh ko dám góp ý. chỉ share ít kinh nghiệm anh làm với các PHD từ Châu Âu qua mình thôi. anh có vài kinh nghiệm nhỏ chia sẻ thôi nha.

  1. đường AUC (gini) thường hay khác nhau giữa training sample, validation và rất khác OOT ( out of time) sample. Why- solution là gì? anh sẽ tách ra 2 trường hợp nhỏ:

a. Training và Validation khác performance (AUC, Gini): khá phổ biến cho các bạn mới (cả với mình :slight_smile: ) Reason: các bạn new data science thường bỏ biến vào package và run ra có kết quả, kết qua hơi hên xui. các biến mình chọn cho model chưa hợp lí hoặc các biến chưa tốt. solution: các bạn nên phân tích từng biến trước, xem ý nghĩa business sense như thế nào? ( ví dụ: diện tích, số phòng ngủ,số phòng khách có thể dự báo tốt cho giá nhà. nhưng màu cửa dự báo được giá nhà thì cần phải check kĩ thêm)

b. (Training và Validation) khác với OOT: OOT thường rất quan trọng. Vì khi bạn build model ở 1 giai đoạn cho (train + validation sample năm 2017), bây giờ mình đang muốn run thực tế (data 2018). mình cần phải kiểm tra model build từ 2017 nó có run đúng cho năm 2018 hay không? model có stable theo thời gian hay ko? final step khi run trên production. Solution: mình cần check lại hết tất cả các biến trong model cũ so với mô hình mới (distribution, performance,) xem biến nào thay đổi. vì sao? tùy trường hợp mình xử lí nó hợp lí.

hi vọng có vài ý hay cho bạn. nếu có anh/chị nào cứng mảng này thì em xin lắng nghe ạ!


#6

Dạ vâng em cảm ơn sự chia sẻ của anh. Em sẽ cố gắng tìm hiểu thêm :frowning: