Hỏi về cách hoạt động của các trợ lý ảo như siri,cortana


#1

Mọi người cho em hỏi , các trợ lý ảo khi trả lời các câu hỏi thì trước đó nó chuyển từ tiếng nói sang chữ rồi xử lý sau đó từ text đã được xử lý xuất ra kiểu tiếng nói phải không ạ . em mới bắt đầu tìm hiểu nên hơi tò mò , anh chị nào biết trả lời giúp em với ạ


#2

Thường là như vậy. Mình chưa từng thấy tài liệu nào mô tả một cách rõ ràng hoạt động của các hệ thống của các ông lớn như Google Assistant, Siri, Cortana. Mình cũng chưa từng thấy hệ thống nào end-to-end từ âm thanh ra âm thanh mà nó có ý nghĩa. Một số hệ thống end-to-end từ text ra text nhưng cực kỳ khó để control logic flow. Đa phần đi theo hướng intent entities và xử lý cho domain nhỏ.

Các nền tảng như google, amazon cho phép bạn định nghĩa các actions, và release actions trên các thiết bị của họ. Các action này được gọi đến khi có các trigger (có thể là do model classification text trích xuất Intent). Điều này cũng 1 phần cho thấy các hệ thống đó based on text.

Ngoài ra nếu b muốn nghiên cứu các hệ thống này hoạt động ntn, b có thể tìm các bài viết như sau:

Hoặc học các khoá về NLP của Stanford để có 1 cái nhìn tổng quan về cách biểu diễn ngữ nghĩa cho văn bản text.


#3

Mình cảm ơn , mình sẽ đọc


#4

Cảm ơn bạn đã chia sẽ tài liệu