Phương Pháp Họ Tăng Ường.pdf

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤ Đ ẠC VÀ ÀO T O TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ọ KHOA H C NGÀNH CÔNG NGHỆ THÔNG TIN PHƯƠNG PHÁP HỌC TĂNG CƯỜNG NGUYỄN THỊ THUẬN HÀ NỘI 2006 N G U Y Ễ N T H Ị T H U Ậ N C Ô[.]

NGUYỄN THỊ THUẬN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN CÔNG NGHỆ THÔNG TIN PHƯƠNG PHÁP HỌC TĂNG CƯỜNG NGUYỄN THỊ THUẬN 2004-2006 HÀ NỘI 2006 HÀ NỘI 2006 1708494002482eafe1fdf-ed83-45c1-b135-495a753e33ec 17084940024822b542055-584f-4369-8096-4304ba6ed14c 17084940024798afc8049-0b1d-4031-8a69-447559e2e37c LỜI CẢM ƠN Trong suốt trình học tập trình làm luận văn, em nhận giúp đỡ thầy cô giáo môn, đặc biệt bảo hướng dẫn tận tình thầy giáo hướng dẫn TS Nguyễn Linh Giang Với lòng biết ơn sâu sắc, em xin chân thành cảm ơn thầy cô giáo môn đặc biệt thầy giáo TS Nguyễn Linh Giang giúp đỡ để em hoàn thành luận văn thạc sỹ khoa học Em xin gửi lời cảm ơn tới ban lãnh đạo đồng nghiệp nơi em công tác tạo điều kiện giúp em có mơi trường nghiên cứu làm việc tốt Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, người thân ln động viên, khích lệ giúp đỡ em suốt trình học tập làm luận văn vừa qua Hà Nội, tháng 10 năm 2006 Học viên Nguyễn Thị Thuận Lớp: Cao học CNTT 2004-2006 MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT MỞ ĐẦU CHƯƠNG BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG 1.1 PHÁT BIỂU BÀI TOÁN 1.2 CÁC PHẦN TỬ CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV 10 1.2.1 Hàm phản hồi 15 1.2.2 Hàm giá trị .16 1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV 20 1.4 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG 26 1.4.1 Ý tưởng chung 26 1.4.2 Một số thuật ngữ 30 1.4.2.1 Khảo sát khai thác 30 1.4.2.2 Kỹ thuật ε-greedy, ε-soft softmax 30 1.4.2.3 Khái niệm học on-policy off-policy 32 1.4.3 Phân loại thuật toán học tăng cường 33 1.4.3.1 Học dựa mơ hình 33 1.4.3.2 Học khơng có mơ hình 33 1.4.4 Lịch sử phát triển lĩnh vực ứng dụng 35 CHƯƠNG CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG 40 2.1 PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DP) 40 2.2 PHƯƠNG PHÁP MONTE CARLO (MC) .41 2.2.1 Phương pháp MC on-policy 44 2.2.2 Phương pháp MC off-policy 45 2.3 PHƯƠNG PHÁP TEMPORAL DIFFERENCE (TD) 45 2.3.1 TD(0) .46 2.3.2 TD(λ) 47 2.3.3 Q-Learning 48 2.3.4 SARSA 49 2.4 2.5 SO SÁNH CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG ĐIỂN HÌNH 50 MỘT SỐ PHƯƠNG PHÁP TIẾN BỘ KHÁC 51 CHƯƠNG THỬ NGHIỆM 52 3.1 BÀI TỐN LỰA CHỌN MƠ PHỎNG 52 3.2 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG LỰA CHỌN MÔ PHỎNG 55 3.2.1 Phương pháp quy hoạch động (DP) 55 3.2.2 Học khơng có mơ hình (Phương pháp Q-Learning) 58 3.2.3 Học dựa mơ hình (Phương pháp prioritized sweeping) 59 3.3 KỊCH BẢN VÀ KẾT QUẢ THỬ NGHIỆM 61 3.3.1 Kịch 1: Thay đổi kích thước khơng gian trạng thái 67 3.3.1.1 3.3.1.2 3.3.1.3 3.3.1.4 3.3.1.5 3.3.2 3.3.2.1 3.3.2.2 3.3.2.3 3.3.2.4 3.3.2.5 3.3.3 Số bước hội tụ .68 Thời gian hội tụ 68 Phân tích kết 69 Giải pháp cải thiện .70 Kết luận 70 Kịch 2: Thay đổi hệ số học .70 Phân rã hệ số học theo số đoạn lặp .71 Mối quan hệ giá trị chiến lược hệ số học .71 Phân tích kết 73 Giải pháp cải thiện .73 Kết luận 74 Kịch 3: Thay đổi số đoạn lặp 74 3.3.3.1 Mối quan hệ giá trị chiến lược số đoạn lặp 74 3.3.3.2 Phân tích đánh giá kết 76 3.3.4 Kịch 4: Thay đổi chiến lược lựa chọn 76 3.3.4.1 Mối quan hệ giá trị chiến lược tham số chiến lược 76 3.3.4.2 Phân tích đánh giá kết 77 ĐÁNH GIÁ KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 79 TÓM TẮT LUẬN VĂN 80 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt Thuật ngữ Học tăng cường (Reinforcement Learning) RL Phương pháp lập trình động (Dynamic Programming) DP Phương pháp Monte Carlo MC Phương pháp Temporal Difference TD MỞ ĐẦU  Tính cấp thiết đề tài Xã hội ngày đại, kỹ thuật công nghệ ngày phát triển, với nghiên cứu phát triển khơng ngừng lĩnh vực trí tuệ nhân tạo học máy, cho đời hệ thống máy móc thơng minh ứng dụng rộng rãi hầu hết lĩnh vực đời sống máy truy tìm liệu, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, … đặc biệt lĩnh vực điều khiển Các phương pháp tự đào tạo (học) đưa từ lâu để khả hệ thống thơng minh q trình hoạt động tự tích luỹ, phân tích thơng tin thu từ tự nâng cao khả thân, mục đích quan trọng lỹ thuyết định toán tự động hoá điều khiển tối ưu Chúng ta có nhiều loại thuật tốn học học có giám sát, học khơng có giám sát, học tăng cường, loại thuật tốn thích ứng với loại tốn cụ thể Trong phạm vi đề tài này, nghiên cứu tìm hiểu vấn đề liên quan đến phương pháp học tăng cường Đây thuật tốn học có khả giải tốn thực tế phức tạp có tương tác giữ hệ thống môi trường Với tình mơi trường khơng đứng n, cố định mà thay đổi phức tạp phương pháp học truyền thống khơng cịn đáp ứng mà phải sử dụng phương pháp học tăng cường Những toán với môi trường thay đổi thực tế không nhỏ ứng dụng nhiều lĩnh vực quan trọng  Mục đích Qua q trình làm luận văn tổng hợp nắm vững kiến thức phương pháp học tăng cường nói chung Hiểu rõ ý tưởng, chế hoạt động thuật toán học tăng cường ứng dụng toán điển hình cụ thể Đồng thời thực mơ toán thử nghiệm, đo đạc thống kê đánh giá kết thử nghiệm thuật toán RL  Giới hạn vấn đề Do hạn chế điều kiện thời gian thực hiện, đề tài nghiên cứu mức lý thuyết cài đặt thử nghiệm, chưa ứng dụng vào thực tiễn  Hướng phát triển Trong thời gian tới, cố gắng ứng dụng kiến thức phương pháp học tăng cường, xây dựng toán thực tiễn cụ thể ứng dụng rộng rãi  Bố cục luận văn Luận văn gồm chương với nội dung sau: Chương 1: Trình bày lý thuyết tổng quan phương pháp học tăng cường, mơ hình tốn định Markov, bên cạnh giới thiệu sơ lược đời, lịch sử phát triển phương pháp học tăng cường, lĩnh vực ứng dụng thực tiễn Chương 2: Trình bày chi tiết đặc điểm, bước thực loại giải thuật học tăng cường sử dụng Chương 3: Trình bày toán lựa chọn thử nghiệm, giới thiệu lại sơ qua loại thuật toán học tăng cường lựa chọn áp dụng toán thử nghiệm Các kịch thử nghiệm kết thu Trên sở đó, kết luận đánh giá đưa giải pháp cải tiến Chương BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG Phương pháp học tăng cường phương pháp phổ biến để giải toán định Markov Bài toán định Markov có nhiều ứng dụng lĩnh vực kỹ thuật lý thuyết định, quy hoạch toán học, điều khiển tối ưu, Trong phần này, trình bày trình định Markov tập trung vào khái niệm trình Markov có số bước vơ hạn có số bước hữu hạn 1.1 PHÁT BIỂU BÀI TỐN Bài tốn định Markov toán học từ tác động để đạt mục đích Người học người định gọi tác tử Tất mà chúng tương tác với, bao gồm thứ bên ngồi tác tử gọi mơi trường Các tác động thực cách liên tục, tác tử lựa chọn hành động, môi trường đáp ứng lại hành động chuyển từ trạng thái thời sang trạng thái Môi trường đem lại mục tiêu, giá trị số mà tác tử cố gắng cực đại hoá qua thời gian Một đặc tả hồn thiện mơi trường coi “nhiệm vụ”, thực thể toán định Markov Tóm lại, tốn định Markov liên quan đến lớp tốn tác tử rút kết luận phân tích chuỗi hành động với tín hiệu vô hướng đưa môi trường Trong khái niệm chung thấy hai đặc tính quan trọng: • Tác tử tương tác với mơi trường cặp “Tác tử + Môi trường” tạo thành hệ thống động • Tín hiệu tăng cường, nhận biết dựa vào mục tiêu, cho phép tác tử thay đổi hành vi Lược đồ tương tác tác tử-mơi trường sau: Hình 1.1: Mơ hình tương tác tác tử môi trường Trong lược đồ trên, tác tử môi trường tác động lẫn bước chuỗi bước thời gian rời rạc, t = 0, 1, 2, 3, …Tại bước thời gian t, tác tử nhận số biểu diễn trạng thái môi trường, st∈S, với S tập trạng thái có thể, lựa chọn hành động at∈A(st), với A(st) tập hành động có hiệu lực trạng thái st Mỗi bước thời gian tiếp theo, tác tử nhận giá trị tăng cường rt+1∈R tự tìm trạng thái st+1 Tại bước tác tử thực ánh xạ từ trạng thái đến hành động lựa chọn Phép ánh xạ gọi chiến lược tác tử, kí hiệu πt với πt(s,a) xác suất thực hành động at=a st=s Như vậy, toán định Markov thực chất phát biểu sau: Biết - Tập trạng thái: S - Tập hành động có thể: A - Tập tín hiệu tăng cường (mục tiêu) Bài tốn Tìm π:S→A cho R lớn Với mơ hình tốn định Markov trên, xem xét qua số ví dụ quen thuộc Ví dụ 1: Máy bán hàng tự động - Trạng thái: cấu hình khe - Hành động: thời gian dừng lại - Mục tiêu: kiếm nhiều tiền - Bài tốn: tìm π:S→A cho R lớn Ví dụ 2: Tic-Tac-Toe Đây trò chơi quen thuộc giới trẻ Hai người chơi thực chơi bảng kích thước 3x3 Một người ghi kí hiệu X người ghi kí hiệu O, đến tận có người thắng nhờ ghi dấu hàng dọc hàng ngang hàng chéo, người ghi dấu X hình vẽ: Nếu bảng bị lấp đầy mà khơng người chơi ghi dấu hàng trận đấu hồ Bài tốn tic-tac-toe tiếp cận sử dụng RL sau: - Trạng thái: bảng 3x3 - Hành động: phép di chuyển - Mục tiêu: thắng, -1 thua, hồ - Bài tốn: tìm π:S→A cho R lớn Ví dụ 3:Robot di động - Trạng thái: vị trí Robot người - Hành động: di chuyển - Mục tiêu: số bước đối mặt thành công

Ngày đăng: 21/02/2024, 12:41

Xem thêm: