Kalapa’s Credit Scoring Challenge - một vài ý kiến đóng góp

kalapa

#1

Mình có tham gia cuộc thi và mình có 1 vài ý kiến về data cũng như thể lệ cuộc thi để đảm bảo cuộc thi công bằng và mang lại nhiều giá trị thực chất cho Kalapa:

  • Data nhỏ, nhiều noise và highly imbalanced khiến cho kết quả mang nhiều tính may rủi ( chỉ dựa vào việc chọn ramdomseed tốt có thể cải thiện rất nhiều model )
  • Việc lập nick phụ rất dễ dàng (không cần xác thực email) trên AIviVN có thể khiến nảy sinh 1 vài vấn đề : tạo nhiều nick phụ, với 1 mô hình LogisticRegression và nhiều lần nộp spam kết quả, bạn có thể có 1 model có kết quả tốt với tập Public ( ý tưởng gần tương tự với cuộc thi này: https://www.kaggle.com/cdeotte/lb-probing-strategies-0-890-2nd-place )
    Để hạn chế tính may rủi của cuộc thi, đảm bảo cuộc thi công bằng hơn, mình xin nêu 1 vài ý kiến:
  • Nếu có thể, mong ban tổ chức tăng lượng data của tập train, vì theo mình lượng data này hơi nhỏ.
  • Nên tạo 1 trang để các đội báo danh : Ghi đầy đủ họ tên, địa chỉ email, tránh tình trạng spam nick phụ. Chỉ có các đội báo danh mới có thể nộp model.
  • Các đội sẽ nộp model trước khi công bố private set.
  • Không Public kết quả private set, chỉ khi các đội đã nộp hết file submit mới công bố.
    XIn cảm ơn.

#2

Cảm ơn bạn vì những comments về cuộc thi. Các comments này rất hữu ích cho BTC để tổ chức cuộc thi tốt hơn.

  • Về việc dữ liệu cho cuộc thi, KLP luôn cố gắng làm giàu dữ liệu nhất có thể, dữ liệu này là dữ liệu thực tế với phân bố nhãn tự nhiên, đây cũng là một vấn đề các team sẽ gặp phải khi làm với các bài toán thực tế.

  • Về việc cheating trên AiviVN, BTC đã nhìn ra vấn đề và đang bàn bạc để có phương án tốt nhất để hạn chế cheating cũng như tránh ảnh hướng tới các đội đang tham gia thi.

Một lần nữa, xin cảm ơn bạn vì những ý kiến đóng góp quan trọng này. Rất mong nhận được những comments của mọi người cho cuộc thi để BTC tổ chức cuộc thi tốt.

Trân trọng.


#3

Thật ra mình nghĩ chỉ cần BTC hold private test set như 1 vài cuộc thi ở VN khác thì sẽ tránh được phần lớn số vấn đề trên. Thử làm phép tính nhẩm như đội nào có 5 người thì việc tạo 5-10 acc dò private test set trong thời gian cuộc thi là khá dễ dàng và có thể có perfect score. Việc kiểm tra cheating ở aivivn gần như là ko có nên các cuộc thi sau mong BTC nên để private test set chạy riêng 1 ngày.


#4

Điểm trên LB chỉ là điểm public testing dataset, còn tập private testing dataset sẽ chỉ đc chấm sau khi cuộc thi kết thúc nên các đội không thể dò điểm của private testing dataset đc mà bạn. :smiley:


#5

Có kết quả đúng public LB có nghĩa bạn có thêm data train, tức là đã có thêm nhiều lợi thế rồi. Trong khi data của các cuộc thi này khá nhỏ, nó có thể mang ý nghĩa quyết định lớn.