Text normalization

deep-learning

#1

Chào mọi người, em đang làm về đề tài text normalization cho tiếng việt, em đang cần tìm dataset cho tiếng việt, cũng như xác định một số lỗi tiếng việt phổ biến, mà chưa tìm được, mọi người ai biết có thể chỉ cho em đươc không ạ.

Đây là format tiếng anh của repos ạ

{"tid":"469799863866384384",
"index":"2402",
"output":["rt","@teddyferrari1",":","\"","ah","...","@datzmenoni",":","why","sub","ozil","\"","@lexzydoo_ab",":","opolo","eyes","you","no","fit","open","eyes","\"\""],
"input":["RT","@teddyferrari1",":","\"","Ah","...","@Datzmenoni",":","Why","sub","Ozil","\"","@lexzydoo_ab",":","Opolo","eyes","u","no","fit","open","eyes","\"\""]}

Em cám ơn.


#2

Em tham khảo repo này nhé:


#3

em cám ơn anh, cái này em cũng tìm qua rồi, nhưng chỉ có test thôi ạ. em cũng chưa biết dữ liệu này có thể giúp ích gì cho em ạ.


#4

đây là paper em đang đoc ạ: https://arxiv.org/pdf/1904.06100.pdf

repos: https://github.com/Isminoula/TextNormSeq2Seq


#5

Khi dữ liệu chưa có thì em cần nghĩ đến cách tạo dữ liệu và giảm thiểu việc phải làm manual toàn bộ bằng cách tận dụng những tool đã có sẵn. Nên a mới nhắn em có thể tận dụng tool a gửi.

Về cách tạo dữ liệu em có thể làm giải pháp đơn giản trc rồi refine dần dần. Ví dụ tạo 1 bộ tự điển tiếng Việt, và lấy dữ liệu trên social-media để filter qua cái từ điển đó. Những từ nào ko có trong từ điển thì xác xuất cao là từ cần đc normalize. Từ đấy em có đc hướng tiếp theo để tạo dữ liệu dạng messy text -> normalized text.


#6

vậng ạ, em cám ơn anh.