Hỏi về cách install thư viện VnCoreNlp trên Google Colab để sử dụng được POS tagging

nlp-tiengviet

#1

Chào mọi người, mình có làm NLP từ trước nhưng bây giờ mới thử nghiên cứu NLP mảng tiếng Việt. Các bạn cho mình hỏi là với công đoạn Tokenize thì mình nên sử dụng VnCoreNlp hay là underthesea, hoặc các bộ thư viện khác. Và thứ 2 là mình phải cài đặt như thế nào để sử dụng được tính năng POS tagging của VnCoreNlp trên Google Colab. Các bài tutorial hướng dẫn trên Python IDE thì không áp dụng được cho Colab.

Có một bạn up ảnh đoạn code lên nhưng chỉ áp dụng cho việc tokenize chứ không POS tagging được, và code trong ảnh có nhiều kí tự mình không biết làm sao để viết được như thế.

Mình xin cảm ơn nhiều


#2

như code trên chỉ cần sửa thành segmenter.pos_tag(txt) là chạy dc cho pos tag, còn param hông hiểu thì vào code đọc thôi bạn :))


#3

Thanks bạn đã giải đáp, nhưng mình k hiểu cái phần phía sau wget :)), mà code thì bạn kia k up lên mà chỉ up cái ảnh show code toàn kí tự đặc biệt, k code theo mà cũng k cho lên google tìm hiểu được. Bạn có thể up đoạn code tương tự lên được k?


#4

bạn có thể hiểu đơn gian wget là download file từ url đó rồi unzip ra thôi, code thấy dễ hiểu mà, t thấy hông có ký tự đặc biệt đâu


#5

Đoạn code đó là do mình up lên. Có gì bạn cứ hỏi thẳng ở dưới cmt của mình là được mà :smiley: Kí hiệu cũng chỉ có dấu đô la ($) và dấu và (&) mình cũng ko biết có gì khó hiểu (hoặc có thể bạn chưa quen dùng bash command). Mình gửi lại đoạn code in case bạn cần nhé wget 'https://github.com/vncorenlp/VnCoreNLP/archive/v1.1.1.zip' -O ./models.$$ && unzip -o ./models.$$ && rm -r ./models.$$.

API cho word segmentation, POS tagging, NER, dependency parsing bạn có thể xem ở đây https://github.com/vncorenlp/VnCoreNLP


#6

Mình cảm ơn :)), với lại cho mình hỏi là nên dùng bộ thư viện nào xử lí ngôn ngữ tiếng việt bây giờ là tốt nhất nhỉ


#7

tokenize thì mình dùng VnCoreNLP. còn khái niệm “tốt nhất” mình thấy cũng tương đối, tuỳ dataset, nên nếu còn thời gian mình sẽ thử trên nhiều tokenizer khác nữa, vd underthesea, cốc cốc, …


#8

Bạn thêm pos ở chỗ này để có POS tagging nhé: annotators=“wseg,pos trong này có ghi rõ đó: https://github.com/vncorenlp/VnCoreNLP