[04/21/2020 20:30] Xin chào mọi người, em đang làm đồ án chuyên . . .


#1

Nguồn post: https://www.facebook.com/257768141347267_941471949643546
Xin chào mọi người, em đang làm đồ án chuyên ngành về fake news detection, phân loại các bài báo là “fake” hoặc “real” thôi ạ. Về dataset, các bài báo thật thì crawl của mấy trang uy tín rất nhanh nhưng bài báo sai tự thật (fake news) thì thực sự rất khó tìm, không biết có ai có dataset tiếng việt về fake news hay nguồn tin sai sự thật không cho em xin với ạ (Mình search google thì có 1 github của anh nào đó có khoảng 120 bài fake thôi)

Em cám ơn.


#2

Bạn tìm các bài báo fake về covid 19 ấy.


#3

Lê Ngọc Huy Sao bạn cười mình


#4

120 bài fake, thì đủ làm với 12000 bài real rồi bạn. Fake real thì làm gì có balance dc.


#5

#6

Em đọc bài này và down data về mà dùng thử.


#7

Tui nghĩ cái này làm tạm đối phó thôi, google thuật toán còn sai mà


#8

Với lại ông học môn gì mà lq bên này thế


#9

Việt Tân, Voa Tiếng Việt, BBC news tiếng Việt, đại kỉ nguyên, Nhật kí yêu nước(fanpage)… Tha hồ quẹo lựa :v


#10

mình thắc mắc là fake news nó sẽ có đặc trưng gì khác biệt với các tin tức bth? Vì ngay cả con người cũng k thể biết tin nào là fake được nếu k xem xét trong mối liên quan ngữ nghĩa tới nhiều tin khác. Nếu bạn làm phân loại thông thường, mình nghĩ nó sẽ giống kiểu phân loại spam/not spam, sentiment analysis hơn là nhận diện được tin fake. k biết bạn định làm theo hướng nào thì cho mình biết với, cảm ơn bạn.


#11

Tùy chủ đề thì bạn có thế tìm tin fake ở 1 số nguồn:

  • Chính trị: mấy trang hội 3 que, việt tân, nhật ký yêu nước
  • Y tế: tìm mấy trang của hội anti vaccine, thực dường,…

#12

Chào bạn, b có thể cho m xin du liệu mà bạn crawl về đc k?