VÍ DỤ VỀ HỌC MÁY Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm E Chương trình email theo dõi xem email nào
Trang 2Machine Learning Bài toán
Quá trình quyết định Học tăng cường
Trang 3Quá trình quyết định Học tăng cường
Q-Learning
Bài toán
Trang 4Quá trình quyết định Học tăng cường
Q-Learning
Quá trình quyết định
Trang 5Quá trình quyết định Học tăng cường
Q-Learning
Học tăng cường
Trang 6Quá trình quyết định Học tăng cường
Q-Learning Q-Learning
Trang 88Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
Machine Learning
Học máy
1
Trang 9HỌC MÁY LÀ GÌ
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
“
Tom Mitchell (1998)
Trang 1010Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm
E
HỌC MÁY LÀ GÌ
Trang 11VÍ DỤ VỀ HỌC MÁY
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY
Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm
E
Chương trình email theo dõi xem email nào bạn đánh dấu là thư rác và email nào không Sau đó sử dụng quan sát đó để lọc thư rác chính xác hơn.
Khi đó công việc T là gì?
A Phân loại thư rác
B Theo dõi việc đánh dấu thư rác
C Số thư rác được phân loại chính xác
D Đây không phải là một bài toán học máy.
Trang 1212
Trang 1313
Trang 1414
Trang 1515Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
Problem Bài toán
2
Trang 16BÀI TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 17BÀI TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 18MÔ PHỎNG BÀI TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 19NHỮNG CĂN PHÒNG
F A
B
C D
E
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 20F
C D
E
MÔ PHỎNG VÔ HƯỚNG
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 21F
C D
E
MÔ PHỎNG CÓ HƯỚNG
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 2222
Trang 230 0
F
C D
E
MÔ PHỎNG PHẦN THƯỞNG
10 0
10 0
10 0
0 0
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 2424
Trang 2525Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
Decission Processes
Quá trình quyết định
3
Trang 2626Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH
BÀI TOÁN QUYẾT ĐỊNH
Trang 27CHIẾN LƯỢC
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH
Mỗi chiến lược là một ánh xạ từ
tập trạng thái sang tập hành động
Trang 28QUÁ TRÌNH QUYẾT ĐỊNH MARKOV
• Tập hữu hạn các trạng thái S
• Tập hữu hạn các hành động A
• Hàm sác suất chuyển trạng thái T
• Hàm phần thưởng R(s) Input
Output Chiến lược π đi từ một vị trí
tới một mục tiêu cụ thể
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH
Trang 29BÀI TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN
Trang 30CHIẾN LƯỢC TỐI ƯU
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH
Chiến lược cho tổng giá trị phần thưởng nhận được lớn nhất
Trang 31CHIẾN LƯỢC TỐI ƯU
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH
Càng nhiều bước phần thưởng càng vô nghĩa
Chiến lược cho tổng giá trị phần thưởng nhận được lớn nhất
Trang 3232Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
HÀM GIÁ TRỊ
Phần thưởng đã nhận + Kỳ vọng tương lai
Trang 3333Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
Reinforcement Learning
Học tăng cường
4
Trang 3434Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
Imagine playing a new game whose rules you don’t know; after a hundred
or so moves, your opponent announces, “You lose”.
Russell & Norvig
“
HỌC TĂNG CƯỜNG
Trang 3535Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
Trang 3636Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
ỨNG DỤNG
Lý thuyết trò chơi
Lý thuyết điều khiển
Quản lý giao thông
Mạng truyền thông
Lý thuyết trò chơi
Trang 3737Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
ỨNG DỤNG
Lý thuyết trò chơi
Lý thuyết điều khiển
Quản lý giao thông
Mạng truyền thông
Lý thuyết điều khiển
Trang 3838Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
ỨNG DỤNG
Lý thuyết trò chơi
Lý thuyết điều khiển
Quản lý giao thông
Mạng truyền thông
Quản lý giao thông
Trang 3939Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
ỨNG DỤNG
Lý thuyết trò chơi
Lý thuyết điều khiển
Quản lý giao thông
Mạng truyền thông
Mạng truyền thông
Trang 4040Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
HỌC TĂNG CƯỜNG
• Quá trình quyết định Markov
• KHÔNG biết vị trí bắt đầu
• KHÔNG biết hàm phần thưởng
• KHÔNG biết hàm xác suất
• Output: Chiến lược tối ưu
Trang 4141Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
CÁC PHƯƠNG PHÁP
Trang 4242Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
MÔ HÌNH
Đánh giá hàm giá trị
qua ước lượng các
giá trị của môi trường.
Đánh giá hàm giá trị không nghiên cứu
môi trường.
Không dựa theo mô hình giảm khối lượng tính toán
Trang 4343Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
CÁC PHƯƠNG PHÁP
Trang 4444Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
CÁC PHƯƠNG PHÁP
Trang 4545Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
Trang 4646Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
CÁC PHƯƠNG PHÁP
Trang 4747Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
CÁC PHƯƠNG PHÁP
Trang 4848Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
MONTE CARLOS
Hàm giá trị tính theo kỳ vọng thống kê
Trang 4949Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
TEMPORAL DIFFERENCE
Đánh giá hiện tại bằng kinh nghiệm quá khứ về tương lai
Trang 5050Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
Q-Learning
5
Trang 51ĐỂ HỌC, CHÚNG TA CẦN GÌ?
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING
Trang 52ĐỂ HỌC, CHÚNG TA CẦN GÌ?
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING
Trang 53MÔ PHỎNG BỘ NHỚ
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING
Trang 54MÔ PHỎNG MÔI TRƯỜNG
Trang 5555
Trang 56THUẬT TOÁN
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG
Trang 57CÔNG THỨC
Q(s 0 ,s 1 ) = R(s 0 ,s 1 ) + γ .Max[Q(s 1 ,s)]
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING
Trang 58Q(s Q(s 0 0 ,a ,s 0 1 ) = R(s ) = R(s 0 0 ,a , s 0 1 ) + γ .Max[Q(s ) + 0,8 Max[Q(s 1 1 ,a ,s)] 1 )]
F
C D
E
10 0
10 0
10 0
Trang 59Q( B , s 1 ) = R( B , s 1 ) + 0,8 Max[Q(s 1 ,s)]
F
C D
E
10 0
10 0
10 0
Trang 60F
C D
E
10 0
10 0
10 0
Trang 61F
C D
E
10 0
10 0
10 0
Trang 62Q( D , s 1 ) = R( D , s 1 ) + 0,8 Max[Q(s 1 ,s)]
F
C D
E
10 0
10 0
10 0
Trang 63E
10 0
10 0
10 0
Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING
Trang 64F
C D
E
10 0
10 0
10 0
Trang 65F
C D
E
10 0
10 0
10 0
Trang 6666
Trang 67Từ phòng bất kỳ, đi theo cửa có giá cao nhất
E
40 0
50 0
50 0
50 0 40
0
32 0
40 0
40 0
40 0
32 0
32 0
32 0
25 6
Trang 6868Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
Trang 6969Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST
thank you