1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu thuật toán Reinforcement learning ĐH Bách Khoa HN

69 818 14

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 11,05 MB

Nội dung

VÍ DỤ VỀ HỌC MÁY Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm E Chương trình email theo dõi xem email nào

Trang 2

Machine Learning Bài toán

Quá trình quyết định Học tăng cường

Trang 3

Quá trình quyết định Học tăng cường

Q-Learning

Bài toán

Trang 4

Quá trình quyết định Học tăng cường

Q-Learning

Quá trình quyết định

Trang 5

Quá trình quyết định Học tăng cường

Q-Learning

Học tăng cường

Trang 6

Quá trình quyết định Học tăng cường

Q-Learning Q-Learning

Trang 8

8Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

Machine Learning

Học máy

1

Trang 9

HỌC MÁY LÀ GÌ

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

Tom Mitchell (1998)

Trang 10

10Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm

E

HỌC MÁY LÀ GÌ

Trang 11

VÍ DỤ VỀ HỌC MÁY

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - MACHINE LEARNING - HỌC MÁY

Tăng hiệu quả P thực hiện công việc T dựa trên kinh nghiệm

E

Chương trình email theo dõi xem email nào bạn đánh dấu là thư rác và email nào không Sau đó sử dụng quan sát đó để lọc thư rác chính xác hơn.

Khi đó công việc T là gì?

A Phân loại thư rác

B Theo dõi việc đánh dấu thư rác

C Số thư rác được phân loại chính xác

D Đây không phải là một bài toán học máy.

Trang 12

12

Trang 13

13

Trang 14

14

Trang 15

15Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

Problem Bài toán

2

Trang 16

BÀI TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 17

BÀI TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 18

MÔ PHỎNG BÀI TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 19

NHỮNG CĂN PHÒNG

F A

B

C D

E

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 20

F

C D

E

MÔ PHỎNG VÔ HƯỚNG

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 21

F

C D

E

MÔ PHỎNG CÓ HƯỚNG

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 22

22

Trang 23

0 0

F

C D

E

MÔ PHỎNG PHẦN THƯỞNG

10 0

10 0

10 0

0 0

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 24

24

Trang 25

25Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

Decission Processes

Quá trình quyết định

3

Trang 26

26Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH

BÀI TOÁN QUYẾT ĐỊNH

Trang 27

CHIẾN LƯỢC

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH

Mỗi chiến lược là một ánh xạ từ

tập trạng thái sang tập hành động

Trang 28

QUÁ TRÌNH QUYẾT ĐỊNH MARKOV

• Tập hữu hạn các trạng thái S

• Tập hữu hạn các hành động A

• Hàm sác suất chuyển trạng thái T

• Hàm phần thưởng R(s) Input

Output Chiến lược π đi từ một vị trí

tới một mục tiêu cụ thể

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH

Trang 29

BÀI TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - PROBLEM - BÀI TOÁN

Trang 30

CHIẾN LƯỢC TỐI ƯU

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH

Chiến lược cho tổng giá trị phần thưởng nhận được lớn nhất

Trang 31

CHIẾN LƯỢC TỐI ƯU

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - DECISION PROCESSES - QUÁ TRÌNH QUYẾT ĐỊNH

Càng nhiều bước phần thưởng càng vô nghĩa

Chiến lược cho tổng giá trị phần thưởng nhận được lớn nhất

Trang 32

32Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

HÀM GIÁ TRỊ

Phần thưởng đã nhận + Kỳ vọng tương lai

Trang 33

33Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

Reinforcement Learning

Học tăng cường

4

Trang 34

34Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

Imagine playing a new game whose rules you don’t know; after a hundred

or so moves, your opponent announces, “You lose”.

Russell & Norvig

HỌC TĂNG CƯỜNG

Trang 35

35Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

Trang 36

36Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

ỨNG DỤNG

Lý thuyết trò chơi

Lý thuyết điều khiển

Quản lý giao thông

Mạng truyền thông

Lý thuyết trò chơi

Trang 37

37Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

ỨNG DỤNG

Lý thuyết trò chơi

Lý thuyết điều khiển

Quản lý giao thông

Mạng truyền thông

Lý thuyết điều khiển

Trang 38

38Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

ỨNG DỤNG

Lý thuyết trò chơi

Lý thuyết điều khiển

Quản lý giao thông

Mạng truyền thông

Quản lý giao thông

Trang 39

39Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

ỨNG DỤNG

Lý thuyết trò chơi

Lý thuyết điều khiển

Quản lý giao thông

Mạng truyền thông

Mạng truyền thông

Trang 40

40Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

HỌC TĂNG CƯỜNG

• Quá trình quyết định Markov

• KHÔNG biết vị trí bắt đầu

• KHÔNG biết hàm phần thưởng

• KHÔNG biết hàm xác suất

• Output: Chiến lược tối ưu

Trang 41

41Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

CÁC PHƯƠNG PHÁP

Trang 42

42Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

MÔ HÌNH

Đánh giá hàm giá trị

qua ước lượng các

giá trị của môi trường.

Đánh giá hàm giá trị không nghiên cứu

môi trường.

Không dựa theo mô hình giảm khối lượng tính toán

Trang 43

43Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

CÁC PHƯƠNG PHÁP

Trang 44

44Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

CÁC PHƯƠNG PHÁP

Trang 45

45Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

Trang 46

46Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

CÁC PHƯƠNG PHÁP

Trang 47

47Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

CÁC PHƯƠNG PHÁP

Trang 48

48Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

MONTE CARLOS

Hàm giá trị tính theo kỳ vọng thống kê

Trang 49

49Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

TEMPORAL DIFFERENCE

Đánh giá hiện tại bằng kinh nghiệm quá khứ về tương lai

Trang 50

50Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

Q-Learning

5

Trang 51

ĐỂ HỌC, CHÚNG TA CẦN GÌ?

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING

Trang 52

ĐỂ HỌC, CHÚNG TA CẦN GÌ?

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING

Trang 53

MÔ PHỎNG BỘ NHỚ

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING

Trang 54

MÔ PHỎNG MÔI TRƯỜNG

Trang 55

55

Trang 56

THUẬT TOÁN

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - REINFORCEMENT LEARNING - HỌC TĂNG CƯỜNG

Trang 57

CÔNG THỨC

Q(s 0 ,s 1 ) = R(s 0 ,s 1 ) + γ .Max[Q(s 1 ,s)]

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING

Trang 58

Q(s Q(s 0 0 ,a ,s 0 1 ) = R(s ) = R(s 0 0 ,a , s 0 1 ) + γ .Max[Q(s ) + 0,8 Max[Q(s 1 1 ,a ,s)] 1 )]

F

C D

E

10 0

10 0

10 0

Trang 59

Q( B , s 1 ) = R( B , s 1 ) + 0,8 Max[Q(s 1 ,s)]

F

C D

E

10 0

10 0

10 0

Trang 60

F

C D

E

10 0

10 0

10 0

Trang 61

F

C D

E

10 0

10 0

10 0

Trang 62

Q( D , s 1 ) = R( D , s 1 ) + 0,8 Max[Q(s 1 ,s)]

F

C D

E

10 0

10 0

10 0

Trang 63

E

10 0

10 0

10 0

Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Q-LEARNING

Trang 64

F

C D

E

10 0

10 0

10 0

Trang 65

F

C D

E

10 0

10 0

10 0

Trang 66

66

Trang 67

Từ phòng bất kỳ, đi theo cửa có giá cao nhất

E

40 0

50 0

50 0

50 0 40

0

32 0

40 0

40 0

40 0

32 0

32 0

32 0

25 6

Trang 68

68Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

Trang 69

69Nguyễn Tuấn Anh & Nguyễn Thanh Tùng - Seminar II 2012 - SAMI - HUST

thank you

Ngày đăng: 10/02/2017, 06:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w