Cần bao nhiêu data là đủ để train model theo hướng hành vi người dùng ?

deep-learning
bigdata

#1

Xin chào, Mình đang nghiên cứu cách xây dựng một Recommendation System cho trang web chia sẻ sách. Có 2 mục tiêu được đặt ra cho hệ thống này:

  • Mục tiêu 1: Gợi ý những cuốn sách tương tự với cuốn sách mà người dùng đang xem ở trang chi tiết sách (những cuốn sách được xem là tương tự khi có những đặc điểm tương đồng, ví dụ: thể loại, tác giả, thời lượng đọc, điểm đánh giá,…)
  • Mục tiêu 2: Gợi ý những cuốn sách khác dựa trên hành vi của người dùng (xem, thích, viết review sách,…). Ý tưởng cho mục tiêu này là dựa vào tâm lý đám đông, nếu số sách người A xem là tập hợp X, và người B cũng đang xem một vài trong số những cuốn sách trong tập hợp X đó, thì rất có thể người B cũng sẽ thích những cuốn sách còn lại trong tập X, hệ thống sẽ tiến hành xử lý để gợi ý ra những cuốn sách ấy cho người B. Tương tự cho những người dùng khác.

Hiện tại, với mục tiêu 1 thì mình đã có đầy đủ data sách. Nhưng data hành vi người dùng cho mục tiêu 2 thì mình đang thiếu hụt. Lý do là web của mình vẫn chưa hoàn thiện cho chức năng thu thập data người dùng cần thiết cho việc training.

Hỏi: Vậy cho mình hỏi cần bao nhiêu data là đủ cho mục tiêu 2 để cho ra kết quả train có thể chấp nhận được ? Làm cách nào để mình có thể thu thập đủ lượng data ấy TRONG VÒNG 1 THÁNG tới (mình thật sự mình đang cần rất gấp rút). Cảm ơn mọi người.


#2

Netflix xài 6 tháng .


#3

Dữ liệu thu thập tính theo số user và thậm chí là hàng năm chứ ko phải tính bằng tháng. Netflix là công ty lớn nên họ thu thập dữ liệu được nhiều trong khoảng thời gian đó. Bạn có thể lập model thực hiện một vài feature dựa trên movie rating dataset trước.