Giới thiệu cuộc thi Kalapa’s Credit Scoring Challenge

kalapa

#1

Credit score là chỉ số thể hiện uy tín của một cá nhân, và thường là cơ sở để các Tổ chức tín dụng xét duyệt, cấp hạn mức cho khoản vay hoặc cấp thẻ tín dụng cho khách hàng.

Trong cuộc thi, các bạn sẽ làm việc với một tập dữ liệu gồm nhiều trường thông tin để xây dựng một mô hình dự đoán điểm tín dụng của khách hàng.

Mời các bạn tham gia cuộc thi hấp dẫn tiếp theo tại AIviVN.com.


#2

Cho mình hỏi, description của các trường còn lại trong data của cuộc thi ko dc tiết lộ là gì à? Điều đó khá là khó để hiểu logic và ý nghĩa của các trường đó.


#3

Tôi cũng ko hiểu hơn về file Sample_submission. Sample nộp bài là như vậy á? Trường label là kết quả predict good/bad của model mỗi đội submit à?


#4

Chào bạn NhatHoang, các trường có description là N/A có chứa thông tin nhạy cảm nên Kalapa không thể public được.


#5

Label là xác suất để nhãn của user là Bad (1) nhé bạn


#6

Mình nghĩ bên làm dữ liệu nên nói rõ là dự đoán xác suất. Mình nhìn dữ liệu như thế cũng không hiểu cụ thể là dự đoán gì.


#7

Trên trang chủ của cuộc thi mình thấy là dự đoán nhãn Good mà nhỉ?


#8

Thông tin 20.000 khách hàng không kèm nhãn good / bad. Nhiệm vụ của bạn là xây dựng mô hình Credit Score và đưa ra dự đoán Xác suất thuộc nhãn bad của 20.000 khách hàng.

Trên trang chủ cũng là dự đoán Xác suất bạn nhé.


#9

Đồng ý là dự đoán xác xuất nhưng trên trang chủ là nhãn Good, còn bạn thông báo lại là nhãn Bad nên mình hơi hoang mang.


#10

Cái này trên trang chủ có sai sót, mình đã sửa lại nhé :smiley:


#11

Dear hiepnt,

Các trường có description để N/A rất là không biết tên biến là gì, thì đúng là hỏi contestants mò kim dưới đáy bể. Nếu contestant ko biết attributes của biến đó có ý nghĩa gì thì làm sao mà phân tích dc. Bọn ấy in-house lúc xây mô hình biết với nhau để làm analysis, bây h contestant ko biết thì tự đoán tự bịa ra à. Tớ request là cần phải biết tên biến là gì? và attributes có ý nghĩa gì? Ko biết thì chả cái nào là attributes đúng mà để clean data.


#12

Hi NhatHoang,

Cám ơn bạn đã góp ý, BTC cũng rất muốn public thông tin nhưng dữ liệu nhạy cảm nên đành encode lại. Bạn có thể tham khảo 1 cuộc thi trên Kaggle cũng có format tương tự: https://www.kaggle.com/c/santander-customer-transaction-prediction/data


#13

Hi @hiepnt

Các đội vào vòng trong trình bày về Solution tại Kalapa Challenge Submit (diễn ra ở Hà Nội). BTC đánh giá và trao giải thưởng.

Mình có một số thắc mắc mong bạn làm rõ hơn.

1/ Cho mình hỏi có bao nhiêu đội sẽ được chọn vào vòng trong? Nếu được chọn vào vòng trong nhưng không thể tham gia trình bày Solution thì sao?

2/ Theo như mình hiểu, kết quả cuối cùng không hoàn toàn dựa trên điểm số của tập private test mà nó còn phụ thuộc vào đánh giá của BTC. Không biết mình hiểu như vậy có đúng không? Nếu đúng thì điểm số của tập private test sẽ chiếm bao nhiêu phần trăm?

ps. Mục tiêu của mình là áo thun thì có cần thiết phải dự buổi trình bày solution không?

Cảm ơn bạn.


#14

Không cho desctiption thì thuyết trình thế nào ạ? Không hiểu feature thì sao làm feature engineering được ạ? Làm mò chăng :smiley:


#15

khả năng là bỏ qua bước feature engineering bác ạ. Clean data rồi dùng classifiation/regression model thôi.


#16

Haizzzz. Em hiểu về tính bảo mật thông tin nhưng ở đây cuộc thi chỉ lấy 1 sample khá nhỏ, có 30K train và 50K nếu tính cả train và test, mặt khác ID cũng được mã hóa r, cũng k có feature nào định danh khách hàng mà vẫn không cho column description thì thực sự nó cũng giảm ý nghĩa của cuộc thi í bác ạ


#17

Theo mình thấy thì data rất nhạy cảm với doanh nghiệp nên họ mã hóa đi là việc đương nhiên, sao các bạn lại yêu cầu rõ ràng vậy nhỉ.


#18

Hi bạn

  1. 10 đội sẽ vào vòng trong, nếu không thể tới trình bày thì sẽ tham gia trình bày Online.
  2. Đánh giá của BTC chỉ dùng để loại bỏ các đội cheating kết quả. Điểm số private test sẽ vẫn là chỉ số đánh giá thứ hạng giải.

Buổi trình bày là cơ hội để các đội show các giải pháp/cách làm của mình với cộng đồng. Các đội không tham dự buổi trình bày vẫn được nhận giải thưởng áo thun.

Về phần dữ liệu bị mã hóa, các bạn có thể tham khảo cuộc thi tương tự trên Kaggle: https://www.kaggle.com/c/santander-customer-transaction-prediction/data


#19

Cho mình hỏi thắc mắc một vài câu hỏi:

  1. Mình đang ở Nhật và không có số điện thoại Việt Nam. Có cách nào khác mình có thể nhận dữ liệu tham gia cuộc thi hay không?
  2. Mình có vài người bạn người Nhật Bản muốn tham gia cuộc thi. Ban tổ chức có giới hạn về đối tượng tham gia là người nước ngoài hay không? Và nếu không thì làm cách nào để người nước ngoài tham gia cuộc thi này?

Cảm ơn ban tổ chức!


#20

Chào bạn,

  1. Bạn đăng ký tài khoản trên aivivn.com là tham gia được cuộc thi nhé bạn. Hướng dẫn tham gia cuộc thi có tại https://challenge.kalapa.vn/regulations.html
  2. Cuộc thi không giới hạn đối tượng tham gia là người Việt Nam, có nhiều bạn nước ngoài cũng có tham gia. :smiley:

Cảm ơn bạn.