Hỏi về phân cụm văn bản bằng K-means


#1

Chào mọi người ạ, em là newbie mới bước chân vào học ngành này.

Hiện tại em đang tự làm 1 bài toán nhỏ đó là phân cụm văn bản bằng thuật toán k-means. Em đã crawl data, tiền xử lý, vector hóa văn bản thành các điểm và phân cụm thành công. Tuy nhiên lật lại thì em gặp 1 số vướng mắc, đó là làm sao để biêt văn bản nào thuộc về cụm nào? Vì mọi văn bản đều đc vector hóa nên về cơ bản là phân cụm các con số, sau khi phân cụm thì làm cách nào để ánh xạ lại vector đó trỏ về văn bản tương ứng ạ?


#2

K mean nó tự động phân cụm, quan trọng là chưa biết số lượng cụm là bao nhiêu cụm… E chạy tập dữ liệu nhỏ để ước lượng số cụm trước, sau đó biết số cụm thì lấy số đó chạy thuật toán trên cả tập dữ liệu… Còn việc ánh xạ chắc đơn giản, e tự tìm cách nhé,… Lâu a k động đến thuật toán rồi, đăng lên để e tham khảo thôi, k chắc đúng k


#3

tạo biến vector mới, đừng đè lên biến cũ là được mà