Embedding từ domain-specific corpus, general corpus hay training corpus

nlp
nlp-tiengviet

#1

Chào anh/chị như phần tiêu đề em đã trình bày, ở đây em có một số ít những thắc mắc. Giả vụ ở đây số lượng về domain-specific corpus rất ít. Thì với case này anh/chị sẽ dùng cách thức nào để số hoá các từ này. Theo cảm quan của em có những suy nghĩ sau:

  • [1] Embedding từ training corpus: thì sẽ giải quyết được phần nhiều về vấn đề Out of Vocabulary (OOV) đồng thời tăng được độ chuẩn xác của model. Tuy nhiên, ở đây có một số vấn đề khác xảy ra:
    • Khả năng đánh giá về mô hình sẽ giảm (khi đổi một bộ dataset mới tỉ lệ cao sẽ dẫn đến trường hợp kết quả không tốt)
    • Vấn đề ở các training corpus thường sẽ ở dưới dạng cần preprocessing nhiều
  • [2] Embedding từ domain-specific: do vấn đề em đã đề cập là mình có rất ít hay đúng hơn là không có, thì liệu phương án [1] có nên được take consider.
  • [3] Embedding từ general corpus (wiki,baomoi,…) dẫn đến trường hợp cao OOV => giảm độ chuẩn xác của model
  • [4] Kết hợp [1] và [3]: đây là phương án em muốn được nghe nhận xét từ phía anh/chị

Reference: Document-specific word2Vec Training Corpuses

Cảm ơn anh/chị đọc qua bài post này và chia sẻ giúp em ạ :hugs::hugs: !