Cách xử lý dữ liệu tiếng Việt khi sử dụng Neural machine translation Keras

keras
nlp
deep-learning

#1

Em có sử dụng thư viện Keras với đường dẫn sau :https://github.com/keras-team/keras/blob/master/examples/lstm_seq2seq.py khi train với dữ liệu mẫu fra-eng thì Kết quả đúng gần như tuyệt đối. Nhưng khi cũng sử dụng dữ liệu mẫu trên :http://www.manythings.org/anki/ để train máy dịch Anh - Việt thì kết quả bị gióng sai hòan toàn. Sau một thời gian tìm hiểu thì em thử nghiệm segment dữ liệu tiếng việt nhưng mà kết quả vẫn gióng sai hoàn toàn. Còn các tham số thì em cũng có chỉnh thử qua nhưng mà cũng vẫn k đạt được kết quả dịch đúng dù chỉ 1 chút :frowning_face: Các bác nào có kinh nghiệm trong việc sử dụng máy dịch thần kinh Keras trả lời giúp em cách xử lý với dữ liệu tiếng Việt với