[Kalapa's Creadit Scoring Challange] Some interesting facts


#1

Chào mọi người, vậy là chỉ còn vài ngày nữa, thì cuộc thi sẽ kết thúc. Mình muốn chia sẻ một số thứ thú vị mà mình do may mắn mà tìm được trong thời gian vừa rồi.

  • Về missing values: Mình nhận thấy rằng đây là missing not at random. Các rows sẽ có dạng missing theo các dạng sau: 0,3,43,45,51… Chia thành group, nếu dùng crosstab có thể nhận thấy rõ ratio của target 2 class khác nhau khi chia kiểu này (có thể coi đây là 1 significant feature)
  • Sẽ có nhiều feature depedent với các feature còn lại. Ví dụ feature 2 và feature 3: thực ra feature 2 chỉ là feature 3 có missing hay không.
  • Hầu như các continous feature trong dataset này, mình không tin tưởng nó là continous thực sự. Ví dụ feature 3: thực ra nó là ngày tháng được encode lại (bạn có thể lấy unique values, sau đó sử dụng diff, sẽ dễ dàng nhận ra gap giữa các tháng, nếu cùng 1 tháng gap=1)
  • Feature 7 và feature 9: nếu tính các giá trị unique của 2 features này sẽ nhận ra nó cùng chỉ đến 1 indicator nào đó.
  • Feature 7, 9, 13, 39, 41: tinh ý một chút, nếu bạn xài crosstab thì feature 41 đều chỉ ra mấy feature này đều chỉ đến 1 indicator. 1 lần nữa, mình không nghĩ nó lại là ngẫu nhiên.
  • Feature 50,51,52,53,54: feature 50,54 dễ dàng nhận ra là 1 (có thể xài pearson correlation). Riêng 51,52,53: consider lấy phần nguyên của những features này sẽ thấy chúng có liên hệ với nhau (1 cách encode khác hay chăng)
  • Về những feature có giá trị bằng 0, mình không đoán được đây là do vô tình hay cố ý, nhưng nếu dùng crosstab với những thằng missing, thì bạn sẽ dẫn đến kết luận, đây là missing values đã được fill (trở lại câu hỏi, vô tình hay cố ý :)))
  • Về việc sử dụng woe: theo mình hiểu nó là 1 các binning thông minh, nhưng hãy cận thận (sẽ leak nếu xài không cẩn thận)

Enjoy competition.


#2

Compete này nhiều cạm bẫy quá. Không thể dùng các cách tiếp cận chuẩn mực để xử lý được.


#3

Hi

  1. mình chưa hiểu ý thứ nhất của bạn lắm. các rows có missing theo dạng 0, 3, 45 chia thành group, … Khúc cuối bạn nói là coi đây là significant feature, bạn tạo nó như thế nào ?

  2. Hầu như các continous feature trong dataset này, mình không tin tưởng nó là continous thực sự. Ví dụ feature 3: thực ra nó là ngày tháng được encode lại (bạn có thể lấy unique values, sau đó sử dụng diff, sẽ dễ dàng nhận ra gap giữa các tháng, nếu cùng 1 tháng gap=1) Nếu là encode ngày tháng thì cũng không xử lý gì bạn nhỉ ?

  3. Feature giá trị 0 là missing đã được fill ở ý kế cuối, bạn có thể cho mình một số columns được không ? mình toàn thấy bool feature, hoặc là giá trị 0 đúng

Mong được giải đáp cũng như hint từ bạn và mọi người ! Thanks.


#4
  1. count missing theo row nè bạn
  2. Mình không hiểu ý bạn ở đây. Đơn giản bạn có thể decode lại để lấy ngày tháng của từng row, có vẻ ổn hơn gộp cả ngày tháng.
  3. FIELD_14, 15 chẳng hạn, bạn có thể cross với những thằng missing khác, sẽ thấy.