Loại bỏ các kí tự lặp lại trong từ tiếng anh

preprocessing

#1

Xin chào mn

Em đang tiền xử lý dữ liệu đang gặp một chút vấn đề như sau. Em có một số từ muốn chuyển về trạng thái đúng của nó ví dụ:

amazziingggg => amazing

Shccchoooolllll => school

Em có tham khảo được video xử lý vấn đề này Repeated Characters Replacer with WordNet mà gặp vấn đề một số từ xử lý chưa tốt vd:

school => shcol

Hi vọng mọi người có kinh nghiệm trong xử lý phần này có thể cho em một số nguồn tham khảo để tìm hiểu thêm


#2

nếu mình làm thì mình sẽ làm như sau:

  1. regex (import re)
  2. bạn đưa 1 số từ dễ nhầm trong từ điển ra, nếu dạng thu gọn sau khi regex = dạng thu gọn của từ trong list dễ nhầm thì bạn không làm ! . ví dụ list đó là ["school, “deer”, “beer”, …]

#3

như này thì khỏi cần ML luôn :smiley: