[spell-checker] Học dữ liệu mới


#1

Hiện tại mình đang nghiên cứu dự án sửa lỗi chính tả Tiếng Việt cho các từ ngắn. Giống như chức năng “Did you mean” của Google. Mình cũng có tham khảo nhiều phương pháp kỹ thuật của mọi người thì thấy mô hình Seq2Seq + Attention cũng đã giúp đạt kết quả tốt. Tuy nhiên theo nhu cầu của project thì phạm vi sửa lỗi chính tả của mình không cần phải fix hoàn toàn tất cả lỗi mà chỉ một số từ có trong database của mình thôi. Tuy nhiên mình đang gặp 1 vấn đề đó là chuyện học dữ liệu mới. Khi mình đưa 1 dữ liệu mới vào thì model lại dự đoán sai dữ liệu cũ (tức học cái mới nhưng quên cái cũ). Mình không biết xử lý chuyện này như thế nào. Mọi người có thể cho mình xin giải pháp


#2

Em cũng đang muốn tìm hiểu về sửa lỗi chính tả. Không biết anh có thể cho em tham gia cùng được không ạ