Dữ liệu review của Foody


#1

Hi các bạn,

Nhân dịp diễn đàn mới, mình xin chia sẻ bộ dữ liệu mình từng crawl từ foody để thực hành về NLP và recommendation system. Địa chỉ tải tại: https://drive.google.com/file/d/1FKIT248z_vFBARDB8tnwzwDcDv5l6Wqs/view Đây là định dạng pickle của pandas nên các bạn dùng lệnh dưới để đọc: data2 = pd.read_pickle('foody_data.pkl')

Mong rằng các bạn sẽ tìm được nhiều thứ hay ho từ dataset này và cùng post lên diễn đàn để mọi người cùng học hỏi. :smiley:


Khai phá dữ liệu - Dữ liệu review của Foody
#2

Hi vọng bạn có dịp phân tích thử dữ liệu này cũng như hướng dẫn thêm về hệ thống gợi ý sản phẩm :smiley:


#3

Lên đọc review của foody thấy toàn là bài spam, chắc sao cũng tự đánh nốt luôn. Không biết chủ quán hay foody trả tiền mà bình luận có tâm dữ. Kinh nghiệm nhận biết bài viết có tâm như sau:

  1. Bài viết dài
  2. Kèm theo ảnh
  3. Người đăng đã đăng nhiều bài dài kèm theo ảnh.

#4

Cao cấp hơn nữa thì làm một bộ phân lớp để xem bài nào spam luôn. :smiley:


#5

Cám ơn bạn. Mình rất thích những data như thế này vì để sử dụng nó cần nhiều kiến thức về: Machine learning, NLP. time-series. Nếu data có nhiều hơn chút (khoảng vài triệu mẫu, có thêm ảnh càng tốt :smiley: ) thì deeplearning phát huy tác dụng rất tốt.


#6

Thấy mấy chủ shop bảo mấy cái review tốt và sao ấy đều phải mua hết. Nếu không muốn bị hiển thị review xấu cũng phải mua.


#7

Mình đang crawl thì foody họ chặn. ^^ Với mình lấy về nghịch ngợm là chính nên cũng lười đổi proxy để lấy thêm. Bộ này nếu làm tính sentiment analysis thì TF-IDF là đủ tốt. Còn để tìm thêm nhiều thứ hay ho nữa thì cần áp dụng thêm DL. ^^


#8

E chào a! E hiện tại đang rất cần source crawl Review bên Foody ạ! Không biết a có thể share cho e đc k ạ? e cảm ơn a nhiều ạ <3


#9

Bạn cho mình hỏi phương pháp bạn dùng để crawl data này về được k?


#10

Mình dùng thư viện requests của python bạn ạ.


#11

Mình dùng ngôn ngữ R. Bạn cho mình hỏi để đọc file này thì đọc bằng syntax gì được không ạ. Cảm ơn bạn nhiều.