ETNLP: A Toolkit for Extraction, Evaluation and Visualization of Pre-trained Word Embeddings


#1

Xin giới thiệu với cả nhà một work mới ra của nhóm mình với rất nhiều pre-trained embeddings tiếng Việt đc đưa ra public cho cộng đồng sử dụng. Sử dụng các embedding này nhóm cũng đạt SOTA mới trên NER task cho tiếng Việt (và hứa hẹn sẽ work trên các down-stream tasks khác cho tiếng Việt - các challenge của AIVIVN chẳng hạn). Các pre-train embeddings này sẽ đc nhóm mình publish đầy đủ trên github repo. Các bạn nhớ star và watch để theo dõi các cập nhật của repo:

Github: https://github.com/vietnlp/etnlp
Video: https://vimeo.com/317599106
Paper: https://arxiv.org/abs/1903.04433

[Screenshoots]

Bài liên quan nếu bạn chưa đọc về word embedding: Học biểu diễn ngôn ngữ cho máy tính.


#2

Anh Sơn ơi, anh cho em hỏi là thông tin dữ liệu text Wikipedia em đọc trên bài báo em không thấy vậy anh? Bao nhiêu câu, bao nhiêu tokens, bao nhiêu vocabulary vậy anh?


#3

Ừ, thank em. A sẽ update lên github.
Tổng số câu: 6,685,621
Tổng số từ: 114,997,587 words em nhé.


#4

Anh Sơn em muốn hỏi chỗ video demo có python ./etnlp_api.py -input $INPUT_FILE -analoglist $ANALOGY_FILE -args eval file etnlp_api.py làm như nào ạ? Em cảm ơn!


#5

A sẽ release code sớm em nhé. E định dùng cho bài toán nào hay cũng để thử kết hợp các embedding?


#6

Code đc release rồi nhé cả nhà. Đã có pip install etnlp. Ví dụ về cách dùng các bạn xem ở link [1]. Các file embedding có thể dùng vào input là bất kỳ embedding nào có format theo word2vec. Có thể dùng converter để chuyển sang word2vec format (xem thêm link [1]).
[1] https://github.com/vietnlp/etnlp/tree/master/src/examples
[2] paper: https://arxiv.org/abs/1903.04433


#7

Chào anh, ở đây em thấy mình có sử dụng bert embedding, anh cho em hỏi mình tự trainning mô hình riêng cho tiếng Việt theo kiến trúc của Bert hay là đang dùng Bert Multilingual của google.


#8

Bọn a train lại from scratch em nhé (dùng kiến trúc của Bert).


#9

Vâng anh, em hiểu rồi