[Hỏi đáp] Exploratory Data Analysis - Hỏi về quá trình Data Exploration và Feature Engineering

machine-learning

#1

Sau một thời gian đọc các public kernels trên kaggle thì mình nhận thấy muốn đạt được kết quả cao thì EDA gần như quan trọng nhất vì cách tiếp cận vấn đề cũng như models của mọi người gần như là như nhau. Đáng tiếc là gần như mọi kernels mình đã đọc thì chỉ mới nói lên phần Data Exploration và gần như visualize là nhiều chứ đánh giá về các đồ thị rất ít, còn phần Feature Engineering thì chỉ xử lý rất đơn giản như Duplicate values, Missing values, thêm một số feature cơ bản, sử dụng thêm polynomial features,… Kernel mà EDA rõ ràng dễ hiểu nhất cho beginer mình từng đọc được là về bài toán Titanic, nhưng với một bài toán như Santander Customer Transaction Prediction thì kiến thức học từ bài toán Titanic là không đủ.

Mình chưa từng học xác suất thống kê, mình có đọc sách tóm tắt lại kiến thức của a Tiệp nhưng thực sự thì không biết cách áp dụng vào thực tế như nào, cách áp dụng các phân phối như thế nào? làm sao để biết được dạng đúng phân phối của dữ liệu và cách để đưa dữ liệu về dạng phân phối đó?..

Theo quan điểm của một beginner như mình chỉ mới tìm hiểu một số bài toán về ML cũng như DL thì quá trình trích xuất features gần như là quá trình quan trọng nhất, rất mong mọi người có kinh nghiệm về xử lý dữ liệu có thể cho mình xin từ khóa, books, MOOC,… để có thể giải quyết được các bài toán như Santander Customer Transaction Prediction.

Cảm ơn mọi người đã dành thời gian đọc bài !


#2

Cùng ý tưởng, rất mong được các anh chỉ dẫn


#3

minh cũng đang tìm hiểu về Exploratory Data Analysis, b hay đọc các bài này ở đâu cho mình xin link với.