[AIVIVN - Kalapa's Credit Scoring Challenge] AutoML của Google liệu có tốt hơn người? (0.2025 LB)

kalapa

#1

AutoML Tables

AutoML Tables là dịch vụ của Google Cloud Platform giúp bạn train và deploy mô hình học máy với dữ liệu có cấu trúc. Trong cuộc thi Kalapa’s Credit Scoring Challenge, AutoML đạt được 0.2025 LB mà chưa cần tunning nhiều.

https://console.cloud.google.com/automl-tables

Flow của AutoML là load và chuẩn bị data, training model, đánh giá và cuối cùng là deploy.

Loading Dataset

Đầu tiên bạn cần vào Menu → Tables (tại phần Artificial Intelligence) → Datasets

Tạo mới 1 dataset, rồi upload file train.csv của Kalapa Challenge

Sau khi import, AutoML sẽ cố gắng tự động tạo schema cho dataset. Khá bất ngờ là datatypes của AutoML không phải là các datatype phổ thông như int, float, bool, text, hay date mà là các datatype của riêng AutoML. Mình chỉnh sửa 1 chút cho phù hợp như FIELD_17, province chuyển thành Categorical, bỏ FIELD_7.

Train

Cấu hình mình chọn cho train là 2 node hours, features columns bỏ cột id, Optimization objective là AUC ROC, bấm rồi ngồi chờ

Evaluate

Sau khi ngồi chờ khoảng 1 tiếng thì AutoML đã traning xong (không hiểu sao lâu quá, bình thường mình chạy LightGBM với Bayesian Optimization với khoảng 1000 iterations mới lâu thế này). AUC là 0.583, khá ổn.

Test

Công việc cuối cùng là chạy ra kết quả của tập test, bạn vào phần Test & Use, upload file test.csv, chờ khoảng 5p lấy kết quả về, bỏ các trường không cần thiết rồi upload, nếu cuộc thi kết thúc ngay hôm nay thì đã có áo thun Kalapa mặc rồi :smiley:

Kết luận

Với việc Google ra mắt AutoML, học máy đã trở nên thân thiện với người non-tech hơn rất nhiều. Chỉ với vài bước chỉnh sửa nhỏ đã có thể có một mô hình chạy tạm ổn (0.2025 với Kalapa Challenge). Hy vọng AutoML sẽ tối ưu hơn và đưa học máy tới gần với cuộc sống hơn nữa.

Chúc các bạn một cuộc thi thành công.


#2

Bạn cho mình hỏi một chút, khi mình upload file train.csv lên google cloud thì bị fail, lỗi như thế này:

Due to an error, AutoML Tables was unable to import data into

dataset "kapala1".

Additional Details:

Resource Name:

projects/1052825664140/locations/us-central1/datasets/TBL1906625730331017216

Operation State: Failed with errors

Error Messages: 17461 rows with error message "Invalid UTF-8 record" found.

Khắc phục lỗi này như thế nào ạ?


#3

Có vẻ như dataset của bạn bị lỗi format. Bạn thử tải về rồi upload luôn lên xem có bị không?


#4

Không biết bạn dùng column nào để submit nhỉ. Mình làm theo và dùng column label_1_score để submit thì kết quả trả về là 0.06072 …


#5

Mình cũng dùng columns label_1_score để submit. Bạn vào phần Model xem giá trị ROC AUC của mô hình là bao nhiêu?


#6

giá trị ROC AUC mình nhận được là 0.584, mình cũng không rõ tại sao kết quả ra lại rất thấp khi submit


#7

Bạn gửi mình file output sau khi chạy test mình xem thử xem


#8

cho mình xin email để mình gửi nhé


#9

hiepnt@kalapa.vn, hoặc bạn gửi lên driver rồi share cho mình cũng được


#10

@hiepnt Hello anh. Cảm ơn anh đã chia sẻ bài viết :smiley: Em có một số vấn đề nhờ a giải đáp giúp em được ko ạ. Em đã tạo model và train trên AutoMl xong. Khi test thì input em có 20k row nhưng file output thì chỉ 15k còn file errors thì empty. Anh có gặp trường hợp này chưa ạ. Em cảm ơn.


#11

Hi Sơn,

Thường là mình gặp trường hợp thiếu row nhưng nó sẽ vào phẩn errors, còn không thì vẫn đủ 20k