LÀM SẠCH DỮ LIỆU: Làm thế nào để phát hiện hai câu gần giống nhau trong cùng 1 text corpus tiếng Việt nhỉ? Giả sử mỗi câu được viết trên một dòng.


#1

Mình đang xử lý tập dữ liệu facebook comment thấy dữ liệu bị trùng lặp nhiều (spam nhiều) và cần phải lọc bỏ phần trùng lặp này. Có cách nào phát hiện sự trùng lặp nhanh mà không cần sánh từng cặp câu không nhỉ?


#3

Đầu tiên b share data đc k?

b thử sài pandas or những framework như pyspark, … các thử để xử lý với dữ liệu lớn hơn xem?


#4

Dữ liệu ở đây nhé https://github.com/telexyz/data/blob/master/fb_comments.txt.7z

Có cách làm đơn giản, hiệu suất cao dùng Locality Sensitive Hashing https://mattilyra.github.io/2017/05/23/document-deduplication-with-lsh.html