Output của CTC loss và độ chính xác

deep-learning
nlp

#1

Mọi người cho mình hỏi, tokens trong tiếng anh có 2 loại một là letter, còn một là words. Tại sao khi train mô hình nhận dạng với words thời gian lại nhanh hơn và hội tụ cũng nhanh hơn nhỉ. Trong khi word thì số class mà một mạng ctc output sẽ có số class lớn hơn ?


#2

Khi nói 1 câu, học để nhận biết được word thì sẽ nhanh hơn là học nhận ra tất cả letter mà :slight_smile:, word nhiều thì cần nhiều data hơn nếu muốn tốt hơn letter, nếu so tốc độ train 1 epoch thì letter nhanh hơn nhưng để hội tụ thì letter cần nhiều epoch hơn. Giải pháp mình hay thấy họ dùng là BPE (tokenizer, băm 1 từ ra thành nhiều subword), là chọn unit giữa word và letter