[Hỏi đáp] word_tokenzie trong nltk

nlp

#1

Chào moi người.

Mọi người cho em hỏi chính xác là cái hàm này nltk.word_tokenize khi mà mình dùng với Tiếng việt thì nó return cái gì vậy ạ

Em cám ơn ạ


#2

với tiếng việt thì hơi khó, nó chỉ có thể trả về list các cụm từ đơn thôi. Tiếng Việt muốn chính xác thì bạn dùng: underthesea

>>> from underthesea import word_tokenize
>>> sentence = 'Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò'
>>> word_tokenize(sentence)
['Chàng trai', '9X', 'Quảng Trị', 'khởi nghiệp', 'từ', 'nấm', 'sò']

#3

em nghĩ là từ đơn hoặc âm tiết có đúng không ạ