Xử lí tiếng Việt trong python

nlp-tiengviet

#1

Chào mọi người. Mình đang cần tokenize tiếng Việt ở mức character thì gặp vấn đề là các kí tự có dấu khi tokenize cho kết quả không giống nhau, ví dụ chữ ị khi tokenize ra có 2 trường hợp là:

  • TH 1: 1 kí tự ị
  • TH 2: 2 kí tự gồm i và dấu .

Mọi người xem hình sẽ hiểu rõ hơn.

Không biết có ai gặp vấn đề này chưa và có cách nào để chuyển tất cả về TH 1 không. Cảm ơn mọi người!


#2

Bạn thử convert về chung 1 định dạng UTF-8 xem có ổn không