Hướng đi cho bài toán xử lý nhiễu trong văn bản

deep-learning
noise

#1

Chào các anh chị, em đang làm đề tài thực tập về Named Entity Recognition trong noisy text. Giới thiệu sơ lược về data của em, đó là các đoạn text bị nhiễu (kết quả thu được từ hệ thống OCR - lý do là ảnh dùng để OCR bị mờ hay có background,…). Việc của em không phải là OCR mà là post-OCR correction. Về phần NER, em có model đầy đủ để train và test rồi. Bài toán em đang cần giải quyết là cố gắng chữa các từ ngữ bị sai/hỏng trong dữ liệu text.

Em xin lấy ví dụ về một NE trong data: Japan B-LOC trong file ground truth nhưng ở file OCR từ Japan bị sai thành fiapan và khi đưa qua model NER thì không thể nhận biết.

VD: (Từ ngữ đã OCR và Ground truth)

  • OCR: fiapan, A||ais,…
  • GT: Japan, Allais,…

Em đang nghiên cứu về fastText, symSpell và cả attention để giải quyết bài toán trên. Anh chị nào từng làm về xử lý dữ liệu hậu OCR có thể chỉ cho em hướng đi được không ạ. Em xin cảm ơn anh chị nhiều!


#2

Bạn đọc thử các phương pháp trong cuộc thi này xem:


#3

Em cảm ơn anh. Bài này em cũng đã đọc rồi nhưng nó chủ yếu là xử lý ảnh. Việc của em chỉ làm việc với text thôi ạ