Dự đoán nhóm tuổi người dùng dựa trên các nhóm họ tham gia trên facebook

classification
machine-learning

#1

Xin cào mọi người, em đang có bài toán trên lớp về dự đoán nhóm tuổi vào 5 nhóm: 18-24, 25-34, 35-44, 44-54 và 55++. Dự liệu train gồm có: nhãn nhóm tuổi và các id nhóm các nhóm người đó tham gia, dữ liệu của thầy cho cũng ít gồm tập train có 32k người. Mọi người có ý tưởng với bài này không ạ? Em đang xem xét sẽ dùng social network nhưng không biết sẽ làm thế nào? Cảm ơn mọi người. Dữ liệu là dữ liệu thực và đầu vào sẽ như thế này ạ.


#2

Dùng CountVectorizer biến đổi danh sách id của những group trên mỗi row của bạn thành vector Sử dụng các phương pháp phân loại đơn giản như KNN hoặc SVM


#3

Dân UET đây rồi :)). EDA trước xem có Noise ko, nếu có bỏ noise đi. Bài này có thể dùng vài phương pháp ra vector rồi dùng SVM để phân lớp là đẹp.


#4

anh ơi cho em hỏi thêm khi chuyển mỗi row thành 1 vector nhưng mỗi id như thế sẽ có số chiều khác nhau thì làm sao để dùng SVM ạ ? Hay em phải tìm ra các id quan trọng để làm chiều vector ?


#5

anh có thể chỉ rõ hơn phương pháp ra vector không ạ


#6

Bạn có thể dùng count vectorizer, tf-idf hoặc có thể dùng các thuật toán embedding để học biểu diễn.