Học tăng cường và quyết định markov

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - CHÂU MẠNH QUANG HỌC TĂNG CƯỜNG VÀ QUYẾT ĐỊNH MARKOV LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC: Hà Nội - 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI *********♦********* CHÂU MẠNH QUANG HỌC TĂNG CƯỜNG VÀ QUYẾT ĐỊNH MARKOV LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN LINH GIANG HÀ NỘI 2009 MỤC LỤC CÁC TỪ THUẬT NGỮ VIẾT TẮT LỜI NÓI ĐẦU MỞ ĐẦU HỌC TĂNG CƯỜNG CƠ BẢN 1.1 Các thành phần: 1.2 Lý thuyết học tăng cường 1.2.1 Ation-Value method 1.2.2 Phương pháp Softmax 1.2.3 Incremental evaluation 1.2.4 Vấn đề môi trường bất định (nonstationary environment) 1.2.5 Reinforcement comparison 10 1.2.6 Pursuit method 11 1.2.7 Associative search 11 1.3 Các vấn đề học tăng cường .12 1.3.1 Agent-environment interface 12 1.3.2 Goal reward 13 1.3.3 Giá trị Return 13 1.3.4 Markov Decision Process 14 1.3.4.1 Markov property 14 1.3.4.2 Markov decision process 14 1.3.4.3 Value function 18 1.3.4.4 Optimal value function 19 1.4 Các giải pháp cho học tăng cường .23 1.4.1 Dynamic programming 23 1.4.1.1 Policy evaluation 24 1.4.1.2 Policy improvement 27 1.4.1.3 Policy iteration .28 1.4.1.4 Value iteration 29 1.4.1.5 Generalized policy iteration 30 1.4.1.6 Độ phức tạp thuật toán lập trình động 31 1.4.2 Phương pháp Monte-Carlo 31 1.4.2.1 Policy evaluation 31 1.4.2.2 Vấn đề xác định action value 34 1.4.2.3 Monte-Carlo control 34 1.4.2.4 On-policy Monte-Carrlo control 36 1.4.2.5 Phương pháp đánh giá policy thực policy khác 38 1.4.2.6 Off-policy Monte-Carlo control 38 1.4.2.7 Cách thực theo kiểu incremental 40 1.4.3 Phương pháp Temporal-Difference 40 1.4.3.1 TD prediction 41 1.4.3.2 Sarsa: on-policy TD control 46 1.4.3.3 Q-learning: off-policy TD control 47 1.4.3.4 Actor-critic method 48 1.4.3.5 R-learning 49 1.4.3.6 Phương pháp TD(λ) .51 1.4.4 Học tăng cường có sử dụng approximation function 66 1.4.4.1 Phương pháp gradient-descendent 68 1.4.4.2 Phương pháp tuyến tính .70 1.4.4.3 Control có sử dụng hàm xấp xỉ .74 LÝ THUYẾT HỌC TĂNG CƯỜNG MỞ RỘNG 78 2.1 Thuật toán chuyển giao (Transfer Algorithms) 78 2.1.1 Phương pháp PPR 80 2.1.2 Phương pháp MGE 80 2.1.3 Phương pháp AdaTran 82 2.1.4 Ví dụ minh hoạ: toán gridworld 83 2.2 POMDP phương pháp policy search 86 2.2.1 Giải pháp 86 2.2.2 Giải pháp 93 2.2.3 Giải pháp 95 2.3 Kết hợp học tăng cường với thuật toán đàn kiến – Ant-Q 96 2.3.1 Ant System 98 2.3.2 ACO 98 2.3.3 Ant-Q 99 2.4 Ứng dụng học tăng cường kết hợp với suy diễn ngữ pháp 99 2.4.1 Các khái niệm 101 2.4.2 Mơ hình ngữ pháp cho MDP 102 2.4.3 Simple Context-Free Markov decision process 104 2.4.4 Thuật toán RSG-QL 110 2.4.5 Ví dụ minh hoạ 111 KẾT QUẢ THỰC NGHIỆM 114 KẾT LUẬN 123 TÀI LIỆU THAM KHẢO 126 CÁC TỪ THUẬT NGỮ VIẾT TẮT MDP: Markov Decision Process POMDP: Partially Observable Markov Decision Process GPI: Generalized Policy Iteration TD: Temporal Difference PPR: Probability Policy Reuse MGE: Memory Guided Exploration CFG: Context Free Grammar SG: Simple Grammar VSG: Very Simple Grammar RSG: Right-Unique Simple Grammar PSG: Probabilistic Simple Grammar USG: Unifiable Simple Grammar MỞ ĐẦU Ý tưởng việc học thông qua tương tác với môi trường có lẽ mà ta nghĩ đến ta xem xét đến trình học tự nhiên Khi đứa trẻ chơi, vẫy tay, nhìn ngó xung quanh, lúc khơng có dạy bảo đứa trẻ có tương tác với mơi trường Qua đó, thu nhận nhiều thơng tin nguyên nhân hệ quả, tác động hành động từ đứa trẻ bước xác định làm để đạt mục đích Trong đời chúng ta, tương tác với môi trường mang lại cho nhiều kiến thức môi trường thân Bất kỳ lúc ta lái xe hay nói chuyện nhận thức môi trường đáp ứng lại hành động tìm cách điều chỉnh việc xảy thơng qua hành động Việc học thơng qua tương tác với môi trường ý tưởng sở lý thuyết máy học Phương pháp học gọi học tăng cường Học tăng cường phương pháp học cách hành động thích hợp để đáp ứng với tình cho giá trị reward thu tối ưu Người học không hướng dẫn trước cách hành động phương pháp học khác mà phải tự khám phá hành động cho giá trị reward lớn cách thử thực chúng Trong số trường hợp đặc biệt, action ảnh hưởng đến khơng giá trị reward tức thời mà cịn tình dẫn đến ảnh hưởng reward Hai đặc tính này: trial-and-error search delayed reward hai đặc trưng riêng học tăng cường Quá trình học tăng cường thường áp dụng hồn cảnh mà agent học cách tương tác với môi trường để đạt đến đích Rõ ràng để làm điều agent phải có khả cảm nhận tình mơi trường chừng mực phải có khả thực thi action để thay đổi tình Như trình học tăng cường có yếu tố nhận thức (sensation), hành động (action) đích (goal) Học tăng cường khác với học có giám sát (supervised learning) chỗ học có giám sát học theo mẫu kiến thức xác định trước, ứng với mẫu input cho giá trị output định Với cách học khơng thể đủ để học cách thông qua việc tương tác với môi trường Nguyên nhân chỗ cách tương tác với mơi trường khó xác định mẫu mà cho kết ý xác định hết tất mẫu tình mà agent gặp phải trình hành động Một vấn đề mà trình học tăng cường phải giải phải cân trình khai thác (exploitation) khám phá (exploration) Tại thời điểm agent hành động theo hướng phải bỏ qua hướng Để nhận nhiều reward agent phải ưu tiên thực action mà gặp khứ mà cho nhiều reward (exploitation) Nhưng để khám phá action agent buộc phải thử action mà chưa thử (exploration) Nói cách khác agent phải đồng thời khai thác kiến thức học đồng thời phải học hỏi Vấn đề khác học tăng cường agent phải tương tác với môi trường không xác định Lý thuyết học tăng cường làm cho lĩnh vực engineering trí tuệ nhân tạo xích lại gần Trước trí tuệ nhân tạo tuý LISP programs, không liên quan nhiều đến thứ linear algebra, differential equation, statistic Nhưng gần đây, với phát triển neural network, intelligent control, học tăng cường nhiều lĩnh vực engineering bắt đầu áp dụng trí tuệ nhân tạo Trong thưc tế, học tăng cường đời thúc đẩy phát triển bới nhiều toán cần giải từ quan sát trình học tự nhiên Dưới số ví dụ điển hình: Người chơi bài: đánh quân lựa chọn quân lựa chọn qn đựa thơng tin thu nhận từ nguồn Thứ kết hợp việc lập kế hoạch (planning) đoán khả đáp trả đối phương (anticipation) Nguồn thứ hai từ việc đánh giá tình hình cách trực giác (intuitive) Adaptive controller điều chỉnh thông số nhà máy lọc dầu: controller phải điều chỉnh cách thích hợp tối ưu giá trị yield, cost, quality có cân nhắc đến ảnh hưởng lẫn giá trị Để cơng việc điều chỉnh đạt hiệu cao controller dựa vào tập hợp giá trị định trước kỹ sư Con nai đời phải tập cách giữ thăng để đứng chân, để 30 phút sau chạy với tốc độ 20 dặm/giờ Mobile robot sử dụng lượng acquy hoạt động phải cân nhắc thực công việc cách có hiệu dựa theo lượng điện lại ăcquy để đủ điện để quay trở chỗ nạp điện Những ví dụ có chung đặc điểm dễ nhìn thấy: tất agent phải tương tác với môi trường để từ agent tìm cách đạt đến đích mơi trường khơng xác định agent Các action agent có ảnh hưởng đến bước định (ví dụ: đánh quân nào, lượng dầu bể chứa, vị trí robot), từ ảnh hưởng đến chọn lựa hội đạt đến đích agent giai đoạn sau Để có định xác cần phải áp dụng phương pháp dự đoán (foresight) lập kế hoạch (planning) Tại thời điểm tác động action đến giai đoạn chưa thể xác định khơng dễ tiên đốn Do đó, agent cần phải thường xuyên quan sát môi trường định phù hợp với môi trường thời điểm Agent đánh giá môi trường khả đạt đến đích phần dựa vào những kiến thức mà cảm nhận đánh giá gia đoạn trước Ví dụ, người đánh nhìn vào qn đánh biết họ thắng thua, controller biết có dầu xử lý, mobile robot biết cịn điện Những agent thu nhận qua tương tác với môi trường gọi experience Những experience sử dụng để làm tăng hiệu action theo thời gian Trong học tăng cường thuật tốn tiến hoá (evolutionary methods) genetic algorithms, genetic programming, simulated annealing, vv… sử dụng Nguyên nhân học tăng cường học từ trình tương tác với mơi trường cịn phép tính tiến hố thường khơng quan tâm đến state qua hay action chọn thời điểm Thay vào phép tính tiến hố lại thường xử lý thông tin cách gộp tất lại Đề tài luận văn cao học mang tính lý thuyết kết hợp với thực nghiệm để kiểm chứng số phần lý thuyết Mục đích luận văn gồm có: -Nghiên cứu cách có hệ thống lý thuyết học tăng cường -Nghiên cứu lý thuyết mở rộng học tăng cường việc kết hợp học tăng cường với lý thuyết khác -Tiến hành thực nghiệm với toán để kiểm chứng lý thuyết minh họa cho khác biệt số phương pháp học tăng cường 112 Ngữ pháp để mô tả action agent thuộc loại RSG G= với: Trong MAP={(I,j)|(I,j) vị trí mà agent tới được} a  b có nghĩa agent từ a tới b với bước (1 action) Ngồi có ngữ pháp khác để mơ tả action H= với: L(G) = L(H) Ngữ pháp RSG G*= kết hàm unifyRSG(G,H) xác định sau: Trong WEST nửa trái MAP EAST nửa phải MAP Kết thực nghiệm tác giả sử dụng phương pháp naïve Q-learning RSG-RL so sánh đồ thị đây: 113 Rõ ràng G* RSG Bởi SG-DP dựa G* khơng phải RSG-DP nên khơng xác định với episodic finite-state MDP Qua ta kết luận mơ hình episodic finite-state MDP suy diễn ngữ pháp kết hợp với để xác định policy cho tốn học tăng cường Episodic finite-stateMDP kết hợp với lớp SG lớp VSG, RSG, USG Tuy nhiên số có RSG đáp ứng tốt với mơ hình episodic finite-state MDP Sự kết hợp hai mô hình cho ta thuật tốn RSG-QL giải số toán liên quan đến học tăng cường 114 Kết thực nghiệm Chương trình ứng dụng viết cho toán gridworld Với chương trình ứng dụng ta thực hai thuật tốn Q-learning TD cho toán gridworld với tham số γ (discount rate), α (step size) ε (tham số phương pháp chọn action theo kiểu tham lam) thay đổi Thuật toán TD thực theo kiểu SARSA, tức phương pháp kiểu on-policy Gridworld gồm 100 (10x10) agent bắt đầu từ góc bên trái phía đích góc bên phải phía Policy sử dụng để tạo action ε-greedy ngẫu nhiên Phương pháp Qlearning thuộc loại off-policy learning, trình khám phá trọng Phương pháp TD (đúng SARSA), so với Q-learning, nghiêng nhiều khai thác policy sử dụng Kết thực nghiệm minh hoạ cho khác phương pháp học hai thuật toán ảnh hưởng tham số đến kết toán Bài toán thực việc cho agent tìm đường di chuyển từ điểm khởi đầu đến điểm đích với chướng ngại vật mơ tả hình vẽ Thực nghiệm tiến hành với tham số thay đổi nhằm kiểm tra hiệu thuật toán với điều kiện định Bài toán thực cho phương pháp SARSA Q-learning với tình sau phối hợp với nhau: -Chọn action theo kiểu random -Chọn action theo kiểu ε-greedy -Thay đổi giá trị α, γ, ε khoảng từ – Các thông số cần xác định số tìm policy tối ưu quãng đường ngắn xác định Từ giá trị thu ta kiểm chứng khác biệt kết áp dụng kiểu học khác (ở onpolicy off-policy) ảnh hưởng tham số đến kết toán Việc học chia thành nhiều episode episode giới hạn số lượng movement định Trong trình thực nghiệm số lượng episode 115 movement cho trình học chọn cho thể rõ khác biệt kết phương pháp học, cụ thể chọn mức thích hợp mà phương pháp cho kết tốt phương pháp chưa đạt kết gần với mong muốn Mỗi lần học kết đo lần chọn kết tốt Chương trình thực nghiệm viết ngôn ngữ C++ Việc mô hoạt động agent thực hệ thống thread chạy song song (multithreading) Sơ đồ hệ thống thread mô tả sau: Main Dialog Start Update data Timeout Timer Agent Thread Kill Kill Stop Exit Các bước thực action (iteration) thực hàm iterate() 116 sau: void Iterate() { size_t x(m_pExperiment->GetCurrentLocationX()); size_t y(m_pExperiment->GetCurrentLocationY()); int newAction; if (m_Type==LEARNING_TYPE_Q) { m_Action = ChooseAction(x, y); } else if (m_Type==LEARNING_TYPE_TD) { if (m_Action==ACTION_STAY) m_Action = ChooseAction(x, y); } m_pExperiment->TakeAction(m_Action); size_t newX(m_pExperiment>GetCurrentLocationX()); size_t newY(m_pExperiment->GetCurrentLocationY()); if (m_Type==LEARNING_TYPE_Q) { double maxQ = *max_element(m_Q[newY][newX].begin(), m_Q[newY][newX].end()); m_Q[y][x][m_Action]+= m_Alpha*(Reward(newX, newY) + m_Gamma*maxQ - m_Q[y][x][m_Action]); } else if (m_Type==LEARNING_TYPE_TD) { newAction = ChooseAction(newX, newY); m_Q[y][x][m_Action] += m_Alpha*(Reward(newX, newY) + m_Gamma*m_Q[newY][newX][newAction] m_Q[y][x][m_Action]); } m_Action = newAction; } 117 Hàm để chọn action thực sau: int ChooseAction(const size_t x, const size_t y) { if (m_pExperiment->IsTarget(x, y)) return ACTION_STAY; int action, r; bool chooseRandomAction(false); if (m_ActionSelection==ACTION_SELECT_RANDOM) { chooseRandomAction = true; } else if (m_ActionSelection==ACTION_SELECT_EPSILON) { r = rand(); chooseRandomAction = (rGetPossibleActions(x, y, s_PossibleActions); int r = rand() % s_PossibleActions.size(); return s_PossibleActions[r]; } Hàm thực việc chọn epsilon-action thực sau: int EpsilonAction(const size_t x, const size_t y) { static TRealVec directionsForMax; directionsForMax.clear(); s_PossibleActions.clear(); double maxQ; bool canMoveUp = m_pExperiment->CanMoveTo(x, y-1); bool canMoveDown = m_pExperiment->CanMoveTo(x, y+1); bool canMoveLeft = m_pExperiment->CanMoveTo(x-1, y); bool canMoveRight = m_pExperiment->CanMoveTo(x+1, y); if (canMoveUp) directionsForMax.push_back(m_Q[y][x][ACTION_UP]); if (canMoveDown) directionsForMax.push_back(m_Q[y][x][ACTION_DOWN]); if (canMoveLeft) directionsForMax.push_back(m_Q[y][x][ACTION_LEFT]); if (canMoveRight) 119 directionsForMax.push_back(m_Q[y][x][ACTION_RIGHT]); if (m_ActionSelection==ACTION_SELECT_EPSILON) { maxQ = *max_element(directionsForMax.begin(), directionsForMax.end()); } else { maxQ = *min_element(directionsForMax.begin(), directionsForMax.end()); } // gather all the directions which have the max or Q val if (canMoveUp && maxQ==m_Q[y][x][ACTION_UP]) s_PossibleActions.push_back(ACTION_UP); if (canMoveDown && maxQ==m_Q[y][x][ACTION_DOWN]) s_PossibleActions.push_back(ACTION_DOWN); if (canMoveLeft && maxQ==m_Q[y][x][ACTION_LEFT]) s_PossibleActions.push_back(ACTION_LEFT); if (canMoveRight && maxQ==m_Q[y][x][ACTION_RIGHT]) s_PossibleActions.push_back(ACTION_RIGHT); // now choose one return s_PossibleActions[rand() % s_PossibleActions.size()]; } Thực nghiệm xác định số ô gridworld chưa xác định policy tối ưu Kết thể mức độ khám phá hai thuật tốn Kết trình bày bảng đây: Q-learning, ε = 0.75, 100 trials, max 100 movements 120 γ=1 γ = 0.75 γ = 0.5 γ = 0.25 γ=0 α=1 72 22 31 66 74 α = 0.75 50 64 66 51 74 α = 0.5 55 41 42 46 74 Q-learning, ε = 0.2, 100 trials, max 100 movements γ=1 γ = 0.75 γ = 0.5 γ = 0.25 γ=0 α=1 70 57 63 69 74 α = 0.75 65 62 66 74 74 α = 0.5 75 72 67 75 74 SARSA, ε = 0.75, 100 trials, max 100 movements γ=1 γ = 0.75 γ = 0.5 γ = 0.25 γ=0 α=1 72 74 68 73 74 α = 0.75 72 64 60 73 74 α = 0.5 66 68 51 54 74 SARSA, ε = 0.2, 100 trials, max 100 movements γ=1 γ = 0.75 γ = 0.5 γ = 0.25 γ=0 α=1 71 69 69 72 74 α = 0.75 75 64 71 74 74 α = 0.5 66 69 57 60 76 Từ kết thực nghiêm ta kết luận sau: Q-learning xác định policy tối ưu cho nhiều ô SARSA Đây kết 121 hiển nhiên Q-learning khám phá nhiều SARSA Với giá trị γ: với γ = hay γ = cho kết Nguyên nhân chỗ γ = giá trị value function cho thời điểm có hiệu lực 100% cịn với γ = giá trị value function cho thời điểm hồn tồn khơng có hiệu lực Những điều kiện dẫn đến kết Với giá trị α giảm dần rõ ràng ý nghĩa giá trị reward giảm nên kết thu bị ảnh hưởng giá trị γ Giá trị ε lớn trình khám phá (exploration) thực nhiều trình khai thác (exploitation) thực ngược lại Điều hồn toàn phù hợp với kết thực nghiệm: ε giảm kết học Q-learning xấu (số lượng ô xác định policy tối ưu giảm) Với SARSA khơng phản ánh nhiều SARSA hướng khai thác nhiều khám phá nên số lượng ô xác định policy tối ưu không phản ánh mức độ tốt xấu kết Thực nghiệm so sánh kết thực tế hai phương pháp học điều kiện tham số Kết xác định đường ngắn từ điểm khởi đầu đến đích sau thực phương pháp học, trình bày bảng đây: Q-learning SARSA ε = 0.75, α = 0.5, 80 trials, max 100 movements/trial γ=1 γ = 0.75 γ = 0.5 γ = 0.25 22 75 18 18 75 75 75 75 γ=0 24 75 ε = 0.2, α = 0.5, 80 trials, max 100 movements/trial γ=1 γ = 0.75 γ = 0.5 γ = 0.25 γ=0 Q-learning 75 75 73 75 75 SARSA 75 75 75 26 75 Với kết thu ta kết luận sau: Bài tốn gridworld thích hợp với phương pháp off-policy cần phải tìm kiếm rộng cho Kết thực nghiệm cho thấy với điều kiện thực 122 80 trial, với tối đa 100 bước cho trial với giá trị ε lớn (ở 0.75) phương pháp Q-learning bắt đầu cho kết tối ưu (18 bước) Trong phương pháp SARSA với giá trị ε chưa cho kết tối ưu Trong trường hợp ε đủ bé vài trường hợp tình cờ phương pháp SARSA cho kết tốt (26 bước) thực tìm kiếm đào sâu theo hướng tham lam Các kết thực nghiệm hoàn toàn phản ánh với suy diễn dựa lý thuyết 123 Kết luận Học tăng cường trình học phổ biến tự nhiên Tất loài sịnh vận thu nhận kinh nghiệm qua trình học tăng cường Nguyêntắc học tăng cường agent tự điều chỉnh hành vi dựa vào giá trị return hành vi trước Như để học agent phải tương tác với mơi trường với mục đích đạt đến đích (goal) Từ ta nhận thấy yếu tố quan trọng học tăng cường nhận thức (sensation), hành động (action) đích (goal) Trong trình học tăng cường agent học theo kiểu tối ưu hố policy có sẵn (on-policy hay passive learning), tìm kiếm tối ưu hố policy (off-policy hay active learning) Quá trình tìm kiếm sâu tối ưu hố cho policy có sẵn gọi exploitation Q trình tìm kiếm rộng khoảng không gian action state gọi exploration Hai trình exploitation exploration cần phải thực cách cân bằng, dành phần thời gian với tỉ lệ hợp lý xác định giải pháp tối ưu khoảng thời gian chấp nhận Hàm để xác định mức độ “tốt” policy gọi value function Thơng thường người ta sử dụng state value function V(s) action-state value function V(s,a) Hàm V(s) xác định mức độ “tốt” policy tính từ state s đến agent đạt đích Hàm V(s,a) xác định mức độ “tốt” policy tính cho giai đoạn agent thực action a state s đạt đích Mơ hình trình học tăng cường chủ yếu dựa MDP (Markov decision process) hay POMDP (partially observable markov decision process) Việc xác định giá trị cho hàm value function dựa cơng thức Bellman Q trình tối ưu hố giá trị value function policy thực phương pháp iteration control Các phương pháp học tăng cường gồm có: lập trình động, Monte-Carlo, TD(λ) Phương pháp lập trình động xác định value function cho tất state 124 để từ xác định policy tối ưu Tuy nhiên phương pháp địi hỏi mơi trường phải có mơ hình xác định độ phức tạp tính tốn lớn nên sử dụng Phương pháp Monte-Carlo chia trình học thành episode thực đánh giá sau kết thúc episode Phương pháp khơng địi hỏi mơi trường phải có mơ hình xác định khơng dễ hội tụ giải pháp tối ưu Phương pháp TD(λ) kết hợp hai phương pháp trên, khơng địi hỏi mơi trường phải có mơ hình xác định đồng thời có khả hội tụ cao phương pháp Monte-Carlo Ngồi cịn áp dụng phương pháp gradient để tối ưu hố q trình học Mặt khác, ta cịn kết hợp lý thuyết học tăng cường với lý thuyết củ lĩnh vực khác giải pháp kết hợp Ví dụ trình bày tài liệu kết hợp giẵ mơ hình episodic finite-state MDP với suy diễn ngữ pháp để xác định mô tả policy ngữ pháp RSG Để đẩy nhanh trình học sử dụng lại kết thu từ toán học mà giống với tốn cần giải Có nhiều phương pháp để thực việc chuyển giao kinh nghiệm PPR, MGE, vv… Tất nhiên phải cân việc sử dụng lại kiến thức cũ khám phá kiến thức Đối với POMDP việc học khó khăn nhiều Nguyên nhân chỗ ta agent state mà nhận giá trị quan sát Hiện khơng có gải pháp chung cho tốn POMDP mà có giải pháp cho toán đặc thù Tuy nhiên giải pháp cho POMDP chủ yếu dựa vào nguyên tắc policy search Đây phương pháp tìm kiếm policy thích hợp lớp policy Giải pháp policy search nói chung khơng có thuật tốn chung cho trường hợp mà phải dựa vào tốn đặc thù Có giải pháp biến đổi POMDP thành POMDP khác có chuyển tiếp xác định Giải pháp khác lại áp dụng lập trình động hay có giải pháp lại áp dụng phương pháp so sánh cặp giá trị tương ứng Mỗi giải pháp kể áp dụng trường hợp định 125 Học tăng cường ứng dụng nhiều lĩnh vực games, điều khiển robotic hay giải pháp tìm đường network routing, vv… Tuy nhiên thời điểm hướng nghiên cứu bị chững lại giải pháp đưa chưa đáp ứng nhiều tình thực tế, vấn đề địi hỏi phải có cách học theo kiểu human-like learning Quá trình học để xử lý vấn đề thực tế phức tạp Chúng ta học cách xử tình thơng qua kết hợp nhiều yếu tố, ví dụ kết hợp nhiều toán, nhiều khái niệm hay kết hợp tìm kiếm kinh nghiệm học khứ Nhiều việc định cịn phải dựa yếu tố cảm xúc Vì cần thiết phải có khám phá lĩnh vực để ứng dụng rộng rãi 126 Tài liệu tham khảo Reinforcement Learning: Theory and Application, I-TECH Education and Publishing, 2008 Reinforcement Learning: An Introduction, Richard S Sutton, The MIT Press, 1998 Artificial Intelligence - A Modern Approach, Stuart Russel, Pearson Education Inc 2003 Reinforcement Learning By Policy Search, PhD Dissertation, Leonid Peskin, 2002 Policy search by dynamic programming, J Andrew Bagnell Policy Search using Paired Comparisons, Malcolm J A Strens PEGASUS: A policy search method for large MDPs and POMDPs, Andrew Y Ng Pacific Rim Knowledge Acquisition Workshop 2008 Adaptive Tile Coding for Value Function Approximation, AI Technical Report AI-TR-07-339, University of Texas at Austin, 2007 10 Memory-guided Exploration in Reinforcement Learning, James L Carroll, Todd S Peterson & Nancy E Owens ...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI *********♦********* CHÂU MẠNH QUANG HỌC TĂNG CƯỜNG VÀ QUYẾT ĐỊNH MARKOV LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN... thuộc tính Markov xem xấp xỉ Markov để ứng dụng trình học tăng cường 1.3.4.2 Markov decision process Học tăng cường chủ yếu dựa mơ hình Markov Decision Process (MDP) Với mơi trường ? ?Markov chain”... thích hợp 12 tập action xác định cách học gọi associative search 1.3 Các vấn đề học tăng cường Học tăng cường trình bày trình học từ tương tác agent với mơi trường Q trình học thụ động (passive) chủ

Định dạng
Số trang	131
Dung lượng	3,01 MB