Học biểu diễn ngôn ngữ cho máy tính

word-embeddings

#22

Dạ em cảm ơn anh. Em không thấy cái link download model. Em tưởng là chỉ có demo thôi nên em xin phép của anh.


#23

Trc a để link bên trong folder visualization nhưng mới update ra ngoài rồi nhé. E refresh lại sẽ thấy link downloads.


#24

Dạ, em mới thử download về, đang thử chạy xem thế nào. À mà anh cho em hỏi với là :

  • Anh thấy với bộ domain word2vec của em vậy là đủ để train word embedding chưa anh?
  • Em không biết là có papers nào về bộ word2vecVN của anh không để em tham khảo các số liệu không anh.Em mới train nên cũng chưa biết dữ liệu bao nhiêu là đủ để train word2vec? Em cảm ơn anh

#25

em cảm ơn ạ, tuy nhiên nếu trong lúc testing mà vẫn gặp từ không có trong từ điển thì xử lý thế nào ạ? còn cách sử dụng một token UNK với embedding thì kết quả có ảnh hưởng nhiều không ạ?


#26

Bộ của em cũng khá ok để train rồi đó. E refresh repo sẽ thấy thông tin về data a mới push lên nhé.


#27

Mình nghĩ là trong bộ từ điển của bạn sẽ có 1 token “unk” để đại diện cho những từ không có rồi bạn, testing nếu không có thì chắc cứ đẩy vào đây phải ko nhỉ ?


#28

Chào bạn @sonvx mình là Cao Thanh Hà (admin của forum), do quá trình setup có sự cố nên bị mất ảnh đính trong bài này của bạn. Xin được bạn giúp đỡ bằng cách upload lại các ảnh bị mất trong bài viết này. Xin cảm ơn bạn rất nhiều!


[Luận bàn] Vấn đề đạo đức trong học máy
#29

A @sonvx có thể viết một bài về việc tự tạo bộ word2vecVN riêng của anh (dựa trên tập dữ liệu nhất định) được không ạ


#30

Ok em, a đang update để add lên repo.


#31

Em muốn hỏi 1 chút là tại sao vector có thể nhận giá trị âm được không ạ?


#32

Âm hay dương tuỳ thuộc vào cách em biểu diễn các từ. Quan trọng là thông tin tương quan về ngữ nghĩa giữa các từ được bảo lưu trong giá trị của các vector biểu diễn. Em xem ví dụ đơn giản dưới đây sẽ rõ:

Hình 1: Ví dụ đơn giản giải thích tại sao giá trị của vector có thể âm. Các giá trị trong ngoặc chính là vector biểu diễn các từ.

Nguồn ảnh: Xuan-Son Vu

Mình tiện tay vẽ đơn giản như hình trên để biểu diễn 6 từ: thù hận, hận, ghét, mến, yêu, thích. Vì là ví dụ đơn giản nên em sẽ thấy có vấn đề khi so sánh toàn bộ các từ với nhau, tuy nhiên khi so sánh 2 từ đối lập qua 0 thì thông tin về đối lập ngữ nghĩa giữa 2 từ được bảo toàn (ví dụ: yêu đối lập ghét). Do dùng vector 2 chiều nên sẽ có nhiều thông tin bị mất nhưng ví dụ chỉ đơn giản chỉ ra giá trị trong vector có thể âm.


#33

Em cảm ơn vì bài viết. A có thể cho e hỏi là lm sao e có thể conbine giữa model W2CVN (dạng model.bin) của a với domain ở dạng text của e ạ?


ETNLP: A Toolkit for Extraction, Evaluation and Visualization of Pre-trained Word Embeddings
#34

Em tạo 1 word2vec model trên dữ liệu của em, sau đó reload và intersect với pre-trained model là ok nhé. Em xem intersect_word2vec_format ở [1].

[1] https://radimrehurek.com/gensim/models/word2vec.html