Dữ liệu train và test khá nhiều lỗi

vietnamese_tone_prediction

#1
  1. Các từ bị viết liền nhau VD: boitruoc
  2. Dấu cách đặt sau chỗ VD: Eml,Nh u ng kho khan ong g a p ph a i trong qua trinh cong tac v o i vai tro Ch u t i ch H o i d o ng B a o v e va Cham soc s u c kh o e T. U phia B a c, Pho tr uo ng Ban B a o v e va Cham soc s u c kh o e can b o T. U ?
  3. Cần viết thêm function để split token và vẫn giữ lại dấu câu.

#2

Hic, challenge mà anh, mấy cái đó mình phải preprocess á