Mô hình Sent2vec


#1

Chào mọi người hiện tại em đang đọc về model Sent2Vec sử dụng n-grams features và implement lại nó cho phiên bản tiếng việt. Link: https://arxiv.org/pdf/1703.02507.pdf Em đang khó hiểu ở chỗ cách nó xây dựng tập vocabulary cũng như từ điển học được Em đang khó hiểu output là từ điển sau khi học được là tập n-grams và unigram đã được embedding theo chiều chỉ định rồi từ đó học cách nhúng câu hay là từ điển sẽ là toàn bộ các câu đã được embedding.

Ai đã từng đọc bài này rồi có thể giải đáp giúp em. Em cảm ơn!


#2

Em check model sent2vec t.việt đã đc train sẵn ở đây nhé: https://github.com/vietnlp/etnlp#example-of-using-fasttext-sent2vec :).