Hỏi về cách tách từ Tiếng Việt của Pyvi, Underthesea

nlp-tiengviet
word-segmentation

#1

Mình mới tới với ML, có sử dụng qua Pyvi / Underthesea và 1 vài thư viện khác thì thấy các libs này chỉ nhận diện đuợc từ nằm trong bộ từ giới hạn.

Như pyvi thì xem qua mình thấy có vài file pickle (pkl) và 1 file words.txt, nếu mình add new word vào đây thì nó sẽ nhận diện thêm nhưng việc này là rất thủ công.

Như pyvi thì xem qua mình thấy có vài file pickle (pkl) 1 file đuôi crfsuite, và 1 file words.txt , nếu mình add new word vào đây thì nó sẽ nhận diện thêm nhưng việc này là rất thủ công.

Có tìm hiểu thì không thấy cách mô tả vận hành của các thư viện này và cách phát triển để mở rộng.

Vậy vai trò của các file pkl, crfsuite là gì? Và làm cách nào để train cho nó nhận diện thêm các từ mới 1 cách tự động?

Có tìm hiểu thì không thấy cách mô tả vận hành của các thư viện này và cách phát triển để mở rộng.


#2

Theo mình xem hồi trước thì underthesea dùng crf để gán nhãn BIO cho tokenize (tương tự như NER), sử dụng dữ liệu là bộ vlsp2013 (POS tagging)


#3

Cảm ơn bạn, BIO là begin, in, out, gắn tag cho 1 cụm từ? Vậy nó dựa vào 1 bộ từ để đánh dấu khi nào kết thúc 1 cụm. Cho mình hỏi vậy file crfsuitepkl là gì?


#4

đúng rồi, dữ liệu vlsp cũng biểu diễn kiểu này, crfsuite là thư viện cho mô hình CRF để gán nhãn cho các phần tử trong chuỗi, còn pkl là file được dump khi sử dụng pickle