Có những hướng đi nào cho nlp


#1

Chào mọi người, em hiện đang là sinh viên năm 3 và có hứng thú với AI, ML. Và hiện em đang tìm hướng đi riêng cho mình, cái này cũng là yêu cầu của thầy giáo hướng dẫn lab của em. Không biết ở đây có ai đã và đang làm về mảng nlp chưa ạ ? Mọi người có thể cho em xin 1 vài topic đang hot ở ngành này (kiểu như question and answering, hay tìm các collocation … ) em muốn nhiều hơn nữa để tìm đi 1 hướng đi riêng cho mình, mà thích thì mới học dễ dàng được, nên mạn phép lên đây hỏi mọi người, không biết chủ đề này em có thể đọc ở đâu, hay mọi người có thể gợi ý cho em 1 vài topic đang được quan tâm, và có thể em sẽ lấy đề tài này làm luôn khoá luận tốt nghiệp cho mình, nên em mong nó có tính lâu dài, chứ không phải 1 bài toán nào đó ngắn hạn và dễ giải. Ngoài lề 1 tí, các anh, chị đang làm trong mảng CV cũng có thể cho em xin một vài topic nữa được không ạ ? vì em không gói gọn mình trong nlp, em chỉ đang hơi thiên về nó 1 chút thôi. Vì base cơ bản của em chỉ là các thuật toán ML (của anh tiệp và andrew NG) và deeplearning (cách tạo và train 1 số mạng cơ bản như nn hay cnn…) nên em đang tìm hướng đi để chuyên về nó. Em mong mọi người có thể giúp em ạ ! Em xin cảm ơn mọi người ạ !!


#2

Mình nghĩ NLP thì Question Answering + Speech to Text (and Text to Speech) cho trợ lý ảo, CV thì OCR và Object detection. Hiện nay nhu cầu thị trường những mảng này là chủ yếu.

Tham khảo FPT.AI nha bạn .


#3

Bạn có thể làm trong bộ phận BI, nghiên cứu dữ liệu thị trường, phân tích dữ liệu feedbacks hoặc hệ thống portal nhận thông báo vấn đề (rất nhiều texts) từ khách hàng. OCR trong giấy tờ, formulas trong Logistics và Chatbot


#4

Bạn tham khảo https://cloud.google.com/document-understanding/docs/ Mình đang làm information extraction và knowledge graph


#5

Theo hiểu biết hạn hẹp của mình thì NLP có 3 mảng chính:

  • Language understanding (QA, LM,…)
  • Language generation
  • Conversational AI

Hai mảng trên thì đã có nhiều research và model khá thành công (Bert (for Squad), flair (contextual embedding), GPT2 (language generation)). Nên hiện tại mình thấy nhiều research tập trung vào Conversational AI, cụ thể là cách thức maintain state của một conversation (thứ mà các sort-term memory như LSTM không thể làm được), tất nhiên không đến mức focus vào turing test :v. Bên cạnh đó MANN cũng đang được phát triển (tf mới release NTM trong bản update hồi tháng 5 (thì phải)), do đó hướng đi nghiên cứu về memory có thể sẽ được phát triển :v.


#6

Bạn có thể vào đây đua tốp https://ai.google.com/research/NaturalQuestions/visualization


#7

NLP hiện tại có cách chia khác nhau, ở đây mình chia theo đơn vị từ tăng dần, có 1 số bài toán nổi như sau:

  • mức từ: biểu diễn vector của từ - word embedding, tách từ - tokenizer, …
  • mức câu: biểu diễn vector của câu (sentence embedding), phân tích cảm xúc (sentiment), phân loại chủ đề của câu (short text classification), gán nhãn chuỗi - sequence labeling (gán nhãn từ loại - postag, gán nhãn thực thể - ner, tìm cụm danh từ - chunking, … ), phân tích cú pháp câu, phân tích ngữ nghĩa của câu (semantic role labeling - SRL, semantic parsing, Abstract meaning representation), phân tích cây phụ thuộc (dependency parsing)
  • mức đoạn: biểu diễn vector của đoạn (paragraph embedding), phân loại văn bản (doc classification), trích rút quan hệ (information extraction), Phân giải đồng tham chiếu (Coreference resolution), phân cụm văn bản (clustering) …

Trên là quan điểm cá nhân, b có thể vào https://vlsp.hpda.vn/ để tìm kiếm thêm thông tin đáng tin cậy hơn. :no_mouth:


#8

Bạn có thể theo hướng đi khác đó xây dựng dữ liệu cho bài toán đó. Cụ thể, gắn nhãn dữ liệu theo hướng lập trình.

Ps. Nhóm mình tại trường ĐH đang theo nghiên cứu mảng này.