Giới thiệu chuyên mục Reinforcement Learning


#1

Thảo luận các bài toán học củng cố/học tăng cường


#2

Chào các anh chị! Em vừa mới bắt đầu tìm hiểu về Reinforcement Learning. Theo em đọc thì thấy người ta thường dùng reinforcement learning trong games. Anh cho em hỏi là có các ứng dụng hay sản phẩm nào áp dụng cái này ngoài games không ạ? Và nhờ các anh chỉ cho em các tài liệu hay về mảng này? Em cám ơn.


#3

Mình cũng mới học RL cơ bản, muốn hỏi mọi người đã từng nghiên cứu, sử dụng nó trong công việc cụ thể nào chưa?


#4

Reinforcement Learning (RL) là ngành áp dụng các kỹ thuật học máy vào lĩnh vực điều khiển tối ưu (optimal control). Mô hình RL thường bao gồm các tác nhân (agents) và môi trường (environments). RL tập trung giải quyết vấn đề hành động ra sao (acting, decision making) ở mỗi thời điểm để thay đổi trạng thái (state) của môi trường từ đó đạt được kết quả tối ưu khi kết thúc. Do đó tôi tạm dịch RL là ‘‘học máy điều khiển’’.

Ứng dụng của RL cực kỳ đa dạng, trong bất cứ lĩnh vực nào cần ra quyết định, trải rộng từ ngành robotics đến ngành quảng cáo trên mạng. Một số ứng dụng ‘‘kool ngầu’’:

– Robot tự học (e.g., Google AI)

Xe tự hành

– Quản lý tiêu thụ điện Google HVAC.

– Hệ thống gợi ý recommender systems, ví dụ trong quảng cáo: đặt panels sao cho xác suất người dùng click lớn nhất (contextual bandit problems), trong hệ thống newsfeed ta đọc hàng ngày.

– Hệ thống hỏi đáp visual question answering VQA, hệ thống tự sinh hội thoại (deep RL for chatbots, e.g., Google Duplex, tóm tắt văn bản summarization, e.g., Salesforce.

– Vô địch cờ vây AlphaGo Zero và các computer games e.g., DQN.

– Tự sinh các mạng neuron để giải quyết các bài toán học máy autoML.

– Tự đặt lệnh mua bán chứng khoán JPMorgan.

Tài liệu tham khảo (nhập môn): sách free!!! của R. Sutton & A. Barto (bible), C. Szepesvari (more math), S. M. LaValle (planning & robotics), J. Norris (Markov chains), và video lectures của D. Silver.


#5

Reinforcement Learning tutorial từ OpenAI https://spinningup.openai.com/en/latest/