[VNLP Core] [1] Bài toán tách từ tiếng Việt - Tokenization, Word Segmentation

nlp-tiengviet
word-segmentation
tokenization

#21

Cho mình hỏi LongestMatching thì dùng tới bộ từ, mình thấy có load bi_grams.txt vs tri_grams.txt. Cái này thì mình hiểu là bộ từ, add thêm keywords trong này thì nó sẽ nhận.

Còn khi dùng CRF , mình cũng thấy trong code load bộ từ này vậy để làm gì? Khi nó đâu dùng tới bộ từ mà dùng training data?