Giải đáp thắc mắc về NER

classification
nlp

#1

Em chào mọi người. Em đang tìm hiểu về bài toán NER.

Em đang có 1 vần đề là khi em sử dụng các tool bên ngoài để tokenize với đánh pos_tag thì sẽ gom tên người thành 1 cụm từ ví dụ: ‘Nguyễn Văn A’ => ‘Nguyễn_Văn_A’

Nhưng tập dữ liệu để train NER của em thì tên riêng của một người thì tách thành từng từ một Ví dụ: <B-PER>Nguyễn</B-PER> <I-PER>Văn</I-PER> <I-PER>A</I-PER>

Lên khi thử nghiệm model thì tên riêng toàn bị nhầm với location, ví dụ: <B-LOC>Nguyễn_Văn_C</B-LOC>

Mọi người có phương pháp nào có thể chia sẻ cho em với, Em xin cảm ơn ạ.


#2

I guess the problem is with dataset. Did you annotate it correctly? Also, did you do the data processing correctly to tokenize text? The given wrong output may say that the model misunderstand the human name (supposed to be in last-name, middle-name, first-name) and the location name. This could be that the data processing did not tokenize human name correctly.