Ứng dụng phương pháp Học tăng cường xây dựng mô hình xe tự hành

11 5 1
Ứng dụng phương pháp Học tăng cường xây dựng mô hình xe tự hành

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài báo Ứng dụng phương pháp Học tăng cường xây dựng mô hình xe tự hành áp dụng thuật toán Q-Learning vào huấn luyện xe tự hành và tránh va chạm với chướng ngại vật. Hiện nay xe tự hành là loại xe đang được rất nhiều công ty tham gia nghiên cứu và mong muốn sản xuất đưa vào thực tiễn sử dụng. Q-Learning (Watkins, 1989) là một hình thức Học tăng cường không cần mô hình và có thể được xem như là một phương pháp lập trình động không đồng bộ (DP).

16 Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Công nghệ Đại học Duy Tân 6(49) (2021) 16-26 6(49) (2021) 16-26 Ứng dụng phương pháp Học tăng cường xây dựng mơ hình xe tự hành Applying Reinforcement Learning method to building self-driving car model Nguyễn Dũnga, Đặng Việt Hùnga*, Lê Thị Ngọc Vâna, Trần Huệ Chia, Phan Văn Sơna, Nguyễn Quang Vinhc Nguyen Dunga, Hung Dang Vieta*, Le Thi Ngoc Vana, Tran Hue Chia, Phan Van Sona, Nguyen Quang Vinhc Khoa Công nghệ Thông tin, Trường Đại học Duy Tân, Đà Nẵng, Việt Nam Faculty of Information Technology, Duy Tan University, 55000, Danang, Vietnam b Viện Nghiên cứu Phát triển Công nghệ Cao, Ðại học Duy Tân, Ðà Nẵng, Việt Nam b Institute of Research and Development, Duy Tan University, Da Nang, 550000, Vietnam c Tổng Cơng ty Điện lực Tp.HCM, Hồ Chí Minh, Việt Nam c Ho Chi Minh city Power Corporation, 700000 Ho Chi Minh city, Vietnam a a (Ngày nhận bài: 03/8/2021, ngày phản biện xong: 02/11/2021, ngày chấp nhận đăng: 02/12/2021) Tóm tắt Bài báo áp dụng tḥt tốn Q-Learning vào huấn luyện xe tự hành tránh va chạm với chướng ngại vật Hiện xe tự hành loại xe rất nhiều công ty tham gia nghiên cứu mong muốn sản xuất đưa vào thực tiễn sử dụng Q-Learning (Watkins, 1989) hình thức Học tăng cường khơng cần mơ hình xem phương pháp lập trình động khơng đồng (DP) Nó cho phép Tác tử khả học tập để hành động tối ưu môi trường có thuộc tính Markov cách trải nghiệm kết hành động, mà không cần phải xây dựng mô hình xác suất Bài báo trình bày trình xây dựng chương trình mơ hệ thống xe tự hành dựa vào thuật toán QLearning Kết cho thấy tḥt tốn Q-Learning thành cơng việc xây dựng kĩ thuật tự huấn luyện để thích nghi với yêu cầu Từ khóa: Q-Learning; Học tăng cường; Markov; xe tự hành Abstract This paper applies Q-Learning algorithm to training a self-driving cars (SDC) model to avoid moving obstacles Currently, SDC is one of the trendy fields that many companies research to produce and put into practice QLearning (Watkins, 1989) is a form of model-free reinforcement learning (RL) It can also be viewed as an asynchronous dynamic programming (DP) method It gives agents an ability to learn how to act optimally in Markov environment by experiencing the results of the action, without building problem model maps In this work, we build a self-driving car simulation program based on the Q-Learning algorithm The results show that Q-learning can successfully equipt an agent to self-train for achieving some target Keywords: Q-Learning: Reinforcement Learning (RL); Markov; self-driving car * Corresponding Author: Dang Viet Hung, Faculty of Information Technology, Duy Tan University, 55000, Danang, Vietnam; Institute of Research and Devolopment, Duy Tan University, 55000, Danang, Vietnam Email: dangviethung@duytan.edu.vn Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Cơng nghệ Đại học Duy Tân 6(49) (2021) 16-26 Giới thiệu Học máy nghiên cứu cách thức để mơ hình hóa toán cho phép máy tính tự động hiểu, xử lý học từ liệu để thực thi nhiệm vụ giao cách đánh giá giúp tăng tính hiệu Dưới góc nhìn trí tuệ nhân tạo, động lực chính học máy nhu cầu thu nhận tri thức Thật vậy, nhiều trường hợp, kiến thức chuyên gia khan hiếm tiến độ thực chậm số nhiệm vụ cần đưa quyết định nhanh chóng dựa xử lý liệu khổng lồ thiếu ổn định dẫn đến việc buộc phải dùng đến máy tính Tom Mitchell, giáo sư tiếng Đại học Carnegie Mellon University - CMU định nghĩa cụ thể chuẩn mực học máy sau: "Một chương trình máy tính xem học cách thực thi lớp nhiệm vụ thông qua trải nghiệm, thang đo lực nếu dùng lực ta đo thấy lực thực thi chương trình có tiến sau trải qua trải nghiệm (máy học)” [1] Reinforcement Learning (RL) lớp phương pháp thuộc học máy, lĩnh vực trí tuệ nhân tạo, trang bị cho Tác tử (có lực tính tốn quyết định hành động để thay đổi trạng thái có) khả tự thu nhận thơng tin, tự huấn luyện để kết hợp hành động thành chuỗi nhằm đạt mục đích Trong kĩ thuật RL, Q-learning giải pháp ưa chuộng tốn có miền trạng thái rời rạc, khơng cần xây dựng mơ hình xác śt chuyển đổi trạng thái Bài báo triển khai Q-learning cho mơ hình xe tự hành nỗ lực di chuyển không va chạm với chướng ngại vật chuyển động[1] Các toán liên quan đến xe tự hành quan tâm nhiều thời gian gần dù lần đầu đề xuất giải quyết rất lâu trước đó, vào năm 1925, Francis Houdina [3] Ông sử dụng khái niệm thuật ngữ “a radio- 17 controlled car” (một chiếc xe điều khiển sóng radio) Tuy nhiên khơng thành cơng mong đợi Sau đến năm 1969 John McCarthy đưa khái niệm tự trị đặt tên ROBO-CHAUFFevo [4] Ông người sáng lập trí tuệ nhân tạo, ông đưa tḥt ngữ ‘Ơ tơ điều khiển máy tính’ Ý tưởng ơng nhắc đến chiếc xe có khả tự động điều hướng qua đường cách sử dụng góc nhìn người có lái xe Các nhà khoa học nhà sản xuất xe ô tô bắt đầu tiếp cận toán, vào năm 2003 Toyota mắt Prius hybrid [5] Chiếc xe sử dụng cảm biến (sensor) camera hoạt động tốt để hoạt động bãi đỗ xe tự động điều mang lại niềm phấn khích lớn Xu hướng sau tiếp nối BMW cách hệ thống đỗ xe tự động Tiếp đời Tesla Autopilot vào năm 2015 Gm Super Cruise – 2017 hỗ trợ tự động với hệ thống phanh, kiểm soát tốc độ thay đổi đường làm gia tăng thoải mái người lái hành khách [6] Và hãng Google mong muốn mắt chiếc xe tự hành thực vào 2021, hoàn tồn khơng cần tương tác người [5], hứa hẹn mang lại thú vị thỏa mãn cho việc trải nghiệm sau rất nhiều năm nghiên cứu Trong báo này, quan tâm đến vấn đề vận hành chuyển động xe Bài toán cụ thể mô giống xe người điều khiển, không gian quan sát vùng hạn chế trước mũi xe Trong trình di chuyển nếu người lái xe phát chướng ngại vật điều khiển xe sang trái sang phải để tránh chướng ngại vật Trong trường hợp xe qua đoạn đường cong người lái xe điều khiển xe theo chiều cong đường để tránh va vào lề Để mô ý tưởng xây dựng hệ thống gồm xe, bốn chướng ngại vật 18 Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Công nghệ Đại học Duy Tân 6(49) (2021) 16-26 đường biên giới hạn Bốn chướng ngại vật chuyển động theo đường tròn với bán kính định trước Đường biên đường giới hạn phạm vi chuyển động xe Xe phép lựa chọn ba hành động là: thẳng, rẽ trái rẽ phải Xe tự huấn luyện chuyển động cho không va chạm vào chướng ngại vật đường biên Cơ sở lý thuyết 2.1 Thuộc tính Markov [2] Trong toán quyết định Markov, Tác tử quyết định tín hiệu từ môi trường gọi trạng thái môi trường Ta định nghĩa thuộc tính môi trường tín hiệu trạng thái chúng thuộc tính Markov Trạng thái hiểu bất thông tin có ích với Tác tử, giả thiết trạng thái đưa số hệ thống tiền xử lý môi trường Để đơn giản biểu thức toán học, giả sử tập trạng thái mục tiêu hữu hạn Quan sát cách thức mơi trường tổng qt đáp ứng thời điểm t+1 hành động thực thời điểm t Trong hầu hết trường hợp, nguyên nhân đáp ứng phụ thuộc vào thứ xảy trước Khi biến động mơi trường định nghĩa cách đặc tả xác suất phân bố khả sau: Pr  st 1  s ', rt 1  r | st , at , rt , st - 1, at - 1, , r1, s0 , a0 với s’, r giá trị kiện trước st , at , rt , st - 1, at - 1, , r1, s0 , a0 Nếu tín hiệu trạng thái có thuộc tính Markov đáp ứng mơi trường thời điểm t+1 phụ thuộc vào trạng thái hành động thời điểm t, trường hợp này, biến động môi trường thể qua hàm: Pr  st 1  s ', rt 1  r | st , at  , (2) Nói cách khác, trạng thái có thuộc tính Markov (là trạng thái Markov) giá trị hai biểu thức (1) (2) với s’, r st , at , rt , st - 1, at - 1, , r1, s0 , a0 Trong trường hợp môi trường gọi có thuộc tính Markov Nếu mơi trường có thuộc tính Markov biến động bước cho phép dự đốn trạng thái mục tiêu kỳ vọng tiếp theo đưa từ trạng thái hành động Bằng cách lặp phương trình (2) này, dự đoán tất trạng thái mục tiêu kỳ vọng tương lai mà với (1) kiến thức từ trạng thái thời điểm Các trạng thái Markov cung cấp khả tốt nhất cho việc lựa chọn hành động, chính sách tốt nhất cho việc lựa chọn hành động hàm trạng thái Markov Nhiều trường hợp RL tín hiệu trạng thái khơng có thuộc tính Markov, xấp xỉ trạng thái thành trạng thái Markov ln mong muốn trạng thái tốt để dự đoán hàm mục tiêu việc lựa chọn hành động tương lai Với tất lý đó, cách tốt nhất xem trạng thái bước thời gian xấp xỉ trạng thái Markov Thuộc tính Markov rất quan trọng toán quyết định Markov quyết định giá trị giả thiết hàm phụ thuộc vào trạng thái Giả thiết khơng có nghĩa áp dụng hồn tồn cho tình RL kể tình khơng thỏa mãn Markov Tuy nhiên lý thuyết phát triển cho thuộc tính Markov giúp hiểu hành vi giải thuật Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Cơng nghệ Đại học Duy Tân 6(49) (2021) 16-26 RL giải thuật áp dụng thành cơng cho nhiệm vụ với trạng thái không thỏa mãn Markov Với giả thiết vậy, tương tác Tác tử mơi trường mơ hình dạng tốn qút định Markov Việc tìm kiếm sách lược điều khiển tối ưu toán quyết định Markov tương ứng với tiêu chí tối ưu khác dẫn tới việc xây dựng phương trình tối ưu Bellman tḥt tốn quy hoạch động Thơng thường, phương pháp quy hoạch động dùng để giải phương trình tối ưu Bellman biết thuộc tính thống kê môi trường Khác với quy hoạch động, phương pháp RL tìm kiếm trực tiếp chính sách quyết định tối ưu từ giá trị phản hồi thu nhận q trình tương tác với mơi trường trạng thái mơi trường 2.2 Quy trình định Markov Một quy trình quyết định Markov [2] tập gồm thành phần liệu: (S , A, P(, ), R(, ),  ) Trong đó, - S tập hữu hạn trạng thái; - A tập hữu hạn hành động (ngoài ra, A( s ) tập hữu hạn hành động có sẵn từ trạng thái s); p  s’ | s, a   Pr(s  s, s  s, a  a) t 1 t t xác suất thực hành động a trạng thái s thời gian t dẫn đến trạng s' thời gian t+1; - r (s, a, s ') phần thưởng trực tiếp (hoặc phần thưởng trực tiếp mong đợi) nhận sau chuyển tiếp sang trạng thái s' từ trạng thái s nếu thực hành động a; -  [0,1) hệ số chiết khấu, đại diện cho khác biệt quan trọng phần thưởng tương lai phần thưởng 19 Bài tốn cốt lõi quy trình qút định Markov tìm “chính sách”  mà xác định phương thức lựa chọn hành động trạng thái s gọi  ( s) cho tối đa hóa hàm tích lũy phần thưởng ngẫu nhiên:    t (st , st 1) , (trong ta t 0 t chọn at   ( st ) ) (3) 2.3 Phương pháp Học tăng cường Phương pháp Học tăng cường [2] (RL) lĩnh vực học máy, nghiên cứu cách thức tác tử môi trường nên chọn thực hành động để cực đại hóa khoản thưởng lâu dài Các tḥt tốn RL cố gắng tìm sách ánh xạ trạng thái thế giới tới hành động mà Tác tử nên chọn trạng thái Mơi trường thường biểu diễn dạng tập trạng thái hữu hạn, thuật tốn RL cho ngữ cảnh có liên quan nhiều đến kỹ thuật quy hoạch động Khác với học có giám sát, RL khơng có cặp liệu vào/kết đúng, hành động gần tối ưu không đánh giá sai cách tường minh Hơn nữa, hoạt động quan tâm, việc tìm kiếm cân khám phá (trạng thái chưa trải nghiệm) khai thác (trạng thái biết) Một cách hình thức, mơ hình RL bao gồm: Tập trạng thái môi trường S, tập hành động A, tập khoản "thưởng" R với giá trị vô hướng Tác tử (agent), chương trình máy tính hoạt động đối tượng thế giới thực 20 Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Cơng nghệ Đại học Duy Tân 6(49) (2021) 16-26 Hình Mơ hình RL [2] Cụ thể, Tác tử tương tác với môi trường chuỗi bước thời gian rời rạc, t=0,1,2,3,… Ở bước thời gian t, Tác tử nhận trạng thái st  S tập hành động A(st) Nó chọn thực hành động at  A(st ) nhận từ môi trường trạng thái st+1 khoản thưởng rt+1 Ở bước thời gian, Tác tử thực ánh xạ từ trạng thái đến xác suất lựa chọn hành động sẵn có Việc lựa chọn gọi chính sách Tác tử ký hiệu  t hay  t (a | s) xác suất mà at = a nếu st=s Phương pháp RL cách Tác tử thay đổi chính sách kết từ kinh nghiệm học Mục tiêu Tác tử tối đa tổng khoản thưởng tích lũy nhận thời gian dài Do đó, RL đặc biệt thích hợp cho tốn có mất khoản thưởng ngắn hạn dài hạn RL áp dụng thành cơng cho nhiều tốn, có điều khiển robot, điều vận thang máy, viễn thơng, trị chơi backgammon cờ vua 2.4 Các thành phần học tăng cường Ngoài tác nhân mơi trường, phương pháp RL cịn có thành phần chính gồm: Chính sách, tín hiệu thưởng, hàm giá trị tùy chọn mơ hình mơi trường [2] 2.4.1 Chính sách Chính sách phương thức xác định hành vi Tác tử thời điểm nhất định Nói chung, chính sách ánh xạ từ trạng thái môi trường hành động thực trạng thái Ở bước thời gian, Tác tử thực ánh xạ từ trạng thái đến xác suất lựa chọn hành động sẵn có Việc lựa chọn gọi chính sách Tác tử ký hiệu  t hay  t (a | s) xác suất mà At = a nếu St=s Phương pháp RL cách Tác tử thay đổi chính sách kết từ kinh nghiệm học 2.4.2 Hàm phản hồi Trong RL, mục đích mục tiêu Tác tử chính tín hiệu thưởng đặc biệt từ môi trường đến Tác tử Ở bước thời gian, giá trị thưởng, hay gọi giá trị phản hồi, số thực rt  Một cách không chính thức, mục tiêu Tác tử tối đa hóa tổng giá trị thưởng nhận Điều có nghĩa việc tối đa hóa khơng giá trị thưởng tức thời mà phần thưởng tích lũy thời gian dài Mục đích Tác tử cực đại hóa mục tiêu tích luỹ tương lai Giá trị phản hồi rt biểu diễn dạng hàm số mục tiêu Trong toán quyết định Markov, hàm phản hồi sử dụng biểu thức dạng tổng Các nhà nghiên cứu tìm ba biểu diễn thường sử dụng hàm phản hồi: Với tốn ta có chuỗi hành động vô hạn Một hệ số suy giảm γ (hệ số chiết khấu), ≤ γ ≤ đưa hàm phản hồi biểu diễn dạng tổng giá trị mục tiêu giảm dần: Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Công nghệ Đại học Duy Tân 6(49) (2021) 16-26 21  Gt  rt 1   1rt    rt 3     k rt k 1 (4) k 0 Hệ số γ cho phép xác định mức độ ảnh hưởng bước chuyển trạng thái tiếp theo đến giá trị phản hồi thời điểm xét Giá trị γ cho phép điều chỉnh giai đoạn Tác tử lấy hàm tăng cường Nếu γ gần 0, Tác tử xem xét mục tiêu gần nhất, giá trị γ gần với Tác tử quan tâm đến mục tiêu xa tương lai Như vậy, thực chất toán quyết định Markov trường hợp chính việc lựa chọn hành động để làm cực đại biểu thức (4) 2.4.3 Hàm giá trị Trong trạng thái st , Tác tử lựa chọn hành động dựa theo chính sách điều khiển,  : at   (st ) Hàm giá trị trạng thái hệ thống tính kỳ vọng toán học hàm phản hồi theo thời gian Hàm giá trị hàm trạng thái xác định mức độ thích hợp chính sách điều khiển π Tác tử hệ thống trạng thái s Hàm giá trị trạng thái s chính sách π tính sau:   v  s   E Gt | st  s  E    k rt  k 1 st  s   k 0  Trong đó, E [.] biểu thị giá trị kỳ vọng biến ngẫu nhiên mà Tác tử theo sách π t bước thời gian bất kỳ  Bài toán tối ưu bao gồm việc xác định chính * sách điều khiển  cho hàm giá trị trạng thái hệ thống đạt cực đại sau số vô hạn hữu hạn bước  *    s0  , 1  s1  ,,  N 1  sN 1    k   E   rt  k 1 | st  s    k 0    *  arg max v  s  Q  s, a  (6)   v*  s   max v  s  Một chính sách tối ưu, kí hiệu  * , cho giá trị thưởng lớn nhất, hay: v *  s   v  s   , Để đơn giản viết v*  v * Hàm giá trị tối ưu trạng thái tương ứng với chính sách tối ưu là: Sử dụng phép biến đổi: v  s   E Gt | st  s  (5) (7) (8) (9) Đây phương trình tối ưu Bellman (hoặc phương trình quy hoạch động) Tóm lại v  hàm giá trị trạng thái cho chính sách π Giá trị trạng thái kết thúc thường Tương tự, định nghĩa Q ( s, a ) giá trị việc thực hành động a trạng thái s chính sách điều khiển π, tính kỳ vọng toán học hàm phản hồi trạng thái s, thực hành động a chính sách π:   k   E Gt | st  s, at  a  E   rt k 1 st  s, at  a   k 0 (10) 22 Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Cơng nghệ Đại học Duy Tân 6(49) (2021) 16-26 Q gọi hàm giá trị hành động cho chính sách π Và hàm giá trị v  , Q ước lượng từ kinh nghiệm Đối với phương pháp Q-learning, công thức cập nhật triển khai cụ thể sau: Q  st , at   Q  st , at     Rt 1   max Q  st 1 , at 1   Q  st , at   (11) Với hệ số chiết khấu cho giá trị Q bước trước hệ số học để điều chỉnh mức độ tối ưu q trình học Trong đó, tỉ lệ học tập α [0,1] xác định thông tin thu ghi đè lên thông tin cũ, α =1 làm cho Tác tử xem xét thông tin gần nhất Hệ số chiết khấu [0,1] xác định tầm quan trọng phần thưởng tương lai Khi =0, làm cho Tác tử tham lam cách xem xét phần thưởng tại, gần làm cho Tác tử phấn đấu cho phần thưởng cao dài hạn Thực nghiệm kết Nhóm chúng tơi triển khai toán phương pháp Q-learning theo bước sau: Xây dựng trạng thái, xác định tập hành động, khởi tạo bảng Q hệ thống vào mơi trường Trong tốn nếu chúng tơi chọn trạng thái tọa độ xe tọa độ chướng ngại vật việc thay khơng gian bổ sung chướng ngại vật ảnh hưởng đến kết h́n luyện Do đó, chúng tơi xác định trạng thái hệ thống trạng thái sensor Các sensor nhận giá trị ứng với trường hợp dò tín hiệu chướng ngại vật gần khơng có tín hiệu Hình mơ tả mơ hình vật lý việc huấn luyện xe tự hành, bao gồm năm sensor trang bị trước mũi xe Nếu phần chướng ngại vật nằm tầm phát sensor (đoạn nối điểm trịn với xe) giá trị trả sensor 1, ngược lại 3.1 Xây dựng chương trình thực nghiệm Trong hệ thống xây dựng chướng ngại động chướng ngại vật tĩnh Chướng ngại vật động bốn vật thể chuyển động quanh đường trịn có bán kính cho trước Chuyển động chướng ngại vật tùy ý, việc chọn chuyển động tròn nhằm tránh tình chướng ngại vật va chạm với Chướng ngại vật tĩnh đường biên giới hạn, ra, để xác định trạng thái xe có va chạm vào chướng ngại vật hay khơng Khi xe di chuyển nếu đầu xe chạm vào chướng ngại vật xem va chạm 3.1.1 Xây dựng trạng thái hàm phản hồi tương ứng Việc đánh giá tổ chức trạng thái cho hệ thống việc làm rất quan trọng, qút định đến việc thành cơng thất bại triển khai hệ thống giảm phụ thuộc Hình Mơ hình vật lý hệ thống xe tự hành Để xây dựng trạng thái không gian nhiều chiều xây dựng trạng thái tập khác Trạng thái s xác định: s(u, v, x, y, z) u, v, x, y, z {0, 1}, ứng với sensor chướng ngại xe, với hai trạng thái có phát chướng ngại (giá trị 1) không phát chướng ngại (giá trị 0) Trạng thái s s’ công thức (11) s(ttd(1), (ttd(2), ttd (3), ttd(4), ttd(5)) (trạng thái Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Cơng nghệ Đại học Duy Tân 6(49) (2021) 16-26 hệ thống trước thực hành động s(tts(1), tts(2), tts(3), tts(4), tts(5)) (trạng thái hệ thống sau thực hành động) cách tương ứng Trong tập trạng thái, Tác tử cần biết phần thưởng cho trạng thái Đối với tốn này, chúng tơi xây dựng hệ phần thưởng R âm (phạt) nếu xe xảy trạng thái va chạm với chướng ngại vật Hàm phản hồi trả giá trị nếu sau thực hành động, đầu xe hướng đến vùng không gian chướng ngại vật, nghĩa khơng sensor phát chướng ngại vật, hay s(u, v, x, y, z) =  =[0 0 0]T Ngược lại hàm phản hồi nhận giá trị -1 (giá trị phạt) nếu sau thực hành động đầu xe không thoát khỏi vùng chứa chướng ngại vật, hay s(u, v, x, y, z)  Khi có va chạm, chương trình dừng episode lại bắt đầu episode 3.1.2 Xây dựng tập hành động bảng Q Đối với hệ thống xe tự hành, để chuyển động, xe thực ba hành động là: Đi thẳng, rẽ trái, rẽ phải Bộ hành động mã hóa thành ba giá trị tương ứng: Giá trị tương ứng cho hành động rẽ trái, giá trị cho hành động thẳng giá trị cho hành động rẽ phải Với hành động lựa chọn trạng thái, bảng Q có chiều tương ứng (s_num) x (a_num) = 25 x Bảng Q thực chất nơi chứa kiến thức Tác tử sau học Hệ thống dựa vào kết lưu bảng Q để đưa quyết định thực hành động tập hành động nhằm đạt mức thưởng tối đa dài hạn Độ lớn bảng Q xác định dựa vào tích số số lượng hành động với số lượng trạng thái 3.1.3 Xây dựng hệ vật lý cho toán + Hàm mô tả hoạt động xe function [xp]=DoAction(action,x,V,dt,GocquayXe,tts) if action ==1 GocquayXe=-GocquayXe; elseif action ==2; GocquayXe=0; end xp(4)=x(4)+GocquayXe*3.14159/180; xp(2) = x(2) + V*cos(xp(4))*dt; xp(3) = x(3) + V*sin(xp(4))*dt; xp(1)=x(1)+1; R = [cos(xp(4)) -sin(xp(4)) sin(xp(4)) cos(xp(4))]; xe_new = R*xe; xe_new(1,:)=xe_new(1,:)+xp(2); xe_new(2,:)=xe_new(2,:)+xp(3); end + Hàm mô tả hoạt động chướng ngại vật động Function Action_barr(phi) phi=phi/50; RR = [cos(phi) -sin(phi); Barrnew1 = (barr + RR*[ra phi = phi+pi/2; RR = [cos(phi) -sin(phi); Barrnew2 = (barr + RR*[ra phi = phi+pi/2; RR = [cos(phi) -sin(phi); Barrnew3 = (barr + RR*[ra phi = phi+pi/2; RR = [cos(phi) -sin(phi); Barrnew4 = (barr + RR*[ra end 23 sin(phi) cos(phi)]; 0]'*ones(1,5)); sin(phi) cos(phi)]; 0]'*ones(1,5)); sin(phi) cos(phi)]; 0]'*ones(1,5)); sin(phi) cos(phi)]; 0]'*ones(1,5)); 24 Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Công nghệ Đại học Duy Tân 6(49) (2021) 16-26 Trong đó: Mảng x chứa vị trí xe trước thực hành động, mảng xp chứa vị trí xe sau thực hành động, bán kính đường tròn mà chướng ngại vật quay quanh, V vận tốc xe, dt bước thời gian xe thực hành động nhận phản hồi từ phần thưởng thay đổi môi trường Chương trình tạo chướng ngại vật hình chữ nhật Barrnewi, sinh từ phép quay /2 Chú ý chướng ngại vật bị tác động phép quay khác theo thời gian để không bị đứng yên 3.1.4 Chương trình sử dụng phương pháp Q_Leaning Các bước tḥt tốn tóm tắt sau: Khởi tạo bảng giá trị Q, Q(s,a) Quan sát trạng thái s Lựa chọn hành động a cho trạng thái dựa vào chiến lược lựa chọn hành động (ε-greedy) Thực hành động quan sát giá trị r trạng thái s’ Cập nhật giá trị Q cho trạng thái sử dụng giá trị tăng cường quan sát giá trị tăng cường lớn nhất cho trạng thái tiếp theo với công thức (11) Thiết lập trạng thái đến trạng thái Quay lại bước nếu số lần lặp tối đa chưa đạt đến Trong trình huấn luyện, Tác tử rơi vào trạng thái nhận giá trị phản hồi trạng thái Sau chương trình thực lặp lại trình thực hành động sau bước thực hành động lại điều chỉnh lại giá trị bảng Q ứng với trạng thái cũ hành động vừa thực Xe huấn luyện nhiều lần học gọi số episode Trong episode, xe phép quyết định nhận phản hồi thay đổi trạng thái nhiều lần để tự thu nhận thông tin học cách quyết định Số lần quyết định nhận phản hồi gọi số step, xác định giá trị trần người lập trình Tuy nhiên, số step episode ít nếu q trình h́n luyện episode có va chạm xảy 3.2 Kết chạy chương trình với Q-learning Đối với môi trường vật lý mô trên, Tác tử xe tự hành tự huấn luyện kĩ tránh vật thể phương pháp Q-learning mô tả phần 2.3 3.1 Các thông số tỉ lệ học hệ số chiếc khấu chọn Ngoài ra, luật lựa chọn hành động sử dụng -greedy Số bước lặp steps thiết lập 200 số lần huấn luyện episode 150 Chương trình chạy 20 lần, lấy kết trung bình biểu diễn Hình Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Công nghệ Đại học Duy Tân 6(49) (2021) 16-26 25 Hình Kết huấn luyện xe tự hành Hình mô tả kết huấn luyện xe tự hành, cụ thể số step trung bình đạt qua episode 20 lần thực ngẫu nhiên Quan sát Hình cho thấy episode đầu tiên, xe 45 step Từ episode thứ đến episode thứ 21, khả tránh vật thể xe liên tục cải thiện đạt số step cao dần Tuy đạt mức step tối đa episode thứ 21, mức tối đa lúc đạt episode tiếp theo Mức lúc có xác suất đạt cao episode tăng Nguyên nhân dẫn đến kết là: Ở episode đầu tiên, xe chưa có kiến thức tránh chướng ngại vật tĩnh động, nên gây va chạm rất sớm Lưu ý chương trình dừng episode nếu xảy va chạm vận tốc xe không đổi 50m/s Do số step thấp ứng với Hình cho thấy xe không đáp ứng tốt với việc tránh chướng ngại Càng huấn luyện, nghĩa ứng với episode lớn hơn, số step tăng cao dần theo thời gian Điều có nghĩa xe di chuyển liên tục mơi trường có hướng ngại vật tĩnh động, xe tự biết điều chỉnh kiến thức học hỏi quyết định lúc chính xác, tránh vật thể Giá trị step đạt bão hòa mức 200 với xác suất cao dần cho thấy xe vận hành tốt môi trường phức hợp đạt số step tối đa lần huấn luyện sau Kết chứng tỏ giải thuật cài đặt thành công Với trang bị giải thuật Học tăng cường Q-learning, xe tự hành tự huấn luyện để đạt kĩ tránh vật thể tĩnh động Một điểm lưu ý với hệ vật lý môi trường xây dựng phức tạp, vận tốc xe cao không đổi, góc quay xe giới hạn ba lựa chọn, xe rơi vào tình khơng thể tránh va chạm Đó lý episode lớn, tồn va chạm sớm trước số step lớn nhất đạt tới Kết luận Bài báo ứng dụng phương pháp Học tăng cường thuật toán Q-learning để xây dựng xe tự hành, xây dựng chương trình hồn chỉnh áp dụng cho giải thuật Q-learning Trong thực tế, xe tự hành khơng hồn tồn h́n luyện theo kiểu tự rút kinh nghiệm mơi trường vật lý thực va chạm dẫn 26 Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Cơng nghệ Đại học Duy Tân 6(49) (2021) 16-26 đến hỏng hóc lập tức Thay vào đó, mơ hình mơ xây dựng, huấn luyện xe môi trường mô sử dụng kiến thức cho Tác tử mơi trường thực Do đó, chương trình mơ kết có ý nghĩa nhất định vấn đề xe tự hành thực tế Kết chạy chương trình nhóm xây dựng cho thấy tính đắn giải pháp Qlearning áp dụng vào việc xây dựng Tác tử tự hành có khả tránh vật thể tĩnh chuyển động Tài liệu tham khảo [1] Mitchell, T (1997), Machine Learning, McGraw Hill ISBN 0-07-042807-7 [2] Richard S Sutton and Andrew G Barto (2016), Reinforcement Learning: An Introduction, The MIT Press Cambridge, Massachusetts London, England [3] George Heinzelman (2019), Autonomous Vehicles, Ethics of Progress, Ethical Issues in Technology, Prof Jason University Bronowitz Arizona State [4] Ronan Glon and Stephen Edelstein (2020), The history of self-driving cars Link: https://www.digitaltrends.com/cars/history-of-selfdriving-cars-milestones/ [5] Kelsey Piper (2020), It’s 2020 Where are our selfdriving cars? Link: https://www.vox.com/futureperfect/2020/2/14/21063487/self-driving-carsautonomous-vehicles-waymo-cruise-uber [6] Henry Payne (2020), GM working on semiautonomous Ultra Cruise to operate on all roads, The Detroit News Link: https://www.detroitnews.com/story/business/autos/g eneral-motors/2020/05/20/gm-working-semiautonomous-ultra-cruise-operate-allroads/5227248002/ ... luận Bài báo ứng dụng phương pháp Học tăng cường thuật toán Q-learning để xây dựng xe tự hành, xây dựng chương trình hoàn chỉnh áp dụng cho giải thuật Q-learning Trong thực tế, xe tự hành khơng... lý mô trên, Tác tử xe tự hành tự huấn luyện kĩ tránh vật thể phương pháp Q-learning mô tả phần 2.3 3.1 Các thông số tỉ lệ học hệ số chiếc khấu chọn Ngoài ra, luật lựa chọn hành động sử dụng. .. bình biểu diễn Hình Nguyễn Dũng, Đặng Việt Hùng, / Tạp chí Khoa học Cơng nghệ Đại học Duy Tân 6(49) (2021) 16-26 25 Hình Kết huấn luyện xe tự hành Hình mơ tả kết h́n luyện xe tự hành, cụ thể

Ngày đăng: 08/07/2022, 13:44

Hình ảnh liên quan

Hình 1. Mô hình RL [2] - Ứng dụng phương pháp Học tăng cường xây dựng mô hình xe tự hành

Hình 1..

Mô hình RL [2] Xem tại trang 5 của tài liệu.
Hình 3. Mô hình vật lý hệ thống xe tự hành - Ứng dụng phương pháp Học tăng cường xây dựng mô hình xe tự hành

Hình 3..

Mô hình vật lý hệ thống xe tự hành Xem tại trang 7 của tài liệu.
Hình 3. Kết quả huấn luyện xe tự hành - Ứng dụng phương pháp Học tăng cường xây dựng mô hình xe tự hành

Hình 3..

Kết quả huấn luyện xe tự hành Xem tại trang 10 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan