Đề án tốt nghiệp thạc sĩ chuyên ngành hệ thống thôn tin 2024

Nghiên cứu giải thuật học tăng cường ứng dụng trong điều khiển robot. Đề án này tập trung vào các phương pháp ứng dụng giải thuật học tăng cường cho đối tượng phi tuyến mô hình bất định. Và để minh họa cho khả năng ứng dụng của giải thuật này vào các đối tượng thực tế thì đề tài chọn robot để kiểm nghiệm chất lượng bộ điều khiển học tăng cường mà đề án tập trung thiết kế. Chất lượng điều khiển của hệ thống được kiểm chứng qua mô phỏng bằng phần mềm matlab & Simulink.

Trang 1

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

NGUYỄN TRUNG DUY

NGHIÊN CỨU GIẢI THUẬT HỌC TĂNG CƯỜNG ỨNG

DỤNG TRONG ĐIỀU KHIỂN ROBOT

ĐỀ ÁN TỐT NGHIỆP THẠC SĨHỆ THỐNG THÔNG TIN

Hà Nội – 2023

Trang 2

NGUYỄN TRUNG DUY

NGHIÊN CỨU GIẢI THUẬT HỌC TĂNG CƯỜNG ỨNG

DỤNG TRONG ĐIỀU KHIỂN ROBOT

Ngành : Hệ thống thông tin Mã số : 8480104

ĐỀ ÁN TỐT NGHIỆP THẠC SĨHỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC :

1 T.S Nguyễn Văn Thiện

Hà Nội – 2023

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan số liệu và kết quả nghiên cứu trong đề án tốt nghiệp nàylà trung thực và chưa hề được sử dụng để bảo vệ một học vị nào Mọi sự giúpđỡ cho việc thực hiện đề án này đã được cảm ơn và các thông tin trích dẫntrong đề án đã được chỉ rõ nguồn gốc rõ ràng và được phép công bố

Hà Nội, Tháng 02 năm 2023

Tác giả đề án tốt nghiệp

Nguyễn Trung Duy

Trang 4

2 MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU

3 BỐ CỤC DỰ KIẾN CỦA ĐỀ ÁN TỐT NGHIỆP

CHƯƠNG 1: TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG VÀÁP DỤNG TRONG BÀI TOÁN ĐIỀU KHIỂN 7

1.1 GIỚI THIỆU TỔNG QUAN

1.2 ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI VÀ HỌC TĂNG CƯỜNG 13

1.3 QUY HOẠCH ĐỘNG THÍCH NGHI TRONG ĐIỀU KHIỂN 18

1.4 HỌC TĂNG CƯỜNG CHO HỆ TUYẾN TÍNH BẤT ĐỊNH 23

1.5 HỌC TĂNG CƯỜNG CHO HỆ PHI TUYẾN BẤT ĐỊNH 24

1.6 MẠNG NƠ-RON VÀ BIẾN TRƯỢT 27

1.7 KẾT LUẬN CHƯƠNG 1 34

CHƯƠNG 2: HỌC TĂNG CƯỜNG CHO HỆ TUYẾN TÍNH BẤT ĐỊNH 36

2.1 NỀN TẢNG CHO GIẢI THUẬT 36

2.2 THUẬT TOÁN 38

2.3 VÍ DỤ MINH HỌA 43

CHƯƠNG 3: HỌC TĂNG CƯỜNG CHO HỆ PHI TUYẾN BẤT ĐỊNH 46

3.1 NỀN TẢNG CHO GIẢI THUẬT 46

Trang 5

4.1 SƠ LƯỢC VỀ CÁNH TAY MÁY ROBOT 55

4.2 BÀI TOÁN ĐIỀU KHIỂN HỌC TĂNG CƯỜNG CHO ROBOTPLANAR 57

4.3 THUẬT TOÁN QUY HOẠCH ĐỘNG THÍCH NGHI TRỰC TUYẾNSỬ DỤNG MỘT MẠNG NƠ-RON 59

4.4 KẾT QUẢ MÔ PHỎNG 63

KẾT LUẬN 69

TÀI LIỆU THAM KHẢO 70

CÔNG TRÌNH CÔNG BỐ CỦA ĐỀ ÁN TỐT NGHIỆP 75

Trang 6

Hình 1.2: Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu 19

Hình 1.3: Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu H ∞20Hình 2.1: Lưu đồ thuật toán lặp PI cho hệ tuyến tính 41

Hình 2.2: Các biến trạng thái 44

Hình 2.3: Sự hội tụ tới ma trận tối ưu P∗¿ 45

Hình 2.4: Sự hội tụ tới ma trận tối ưu K∗¿ 45

Hình 3.1: Cấu trúc Actor – Critic 49

Hình 3.2: Lưu đồ thuật toán lặp PI cho hệ phi tuyến 51

Hình 4.1: Cấu trúc Robot Planar 63

Trang 7

DANH MỤC CÁC BẢNG BIỂU

Bảng 4.1: Tham số mô phỏng của robot 64

Trang 8

LỜI CẢM ƠN

Trong quá trình hoàn thành đề tài, em xin trân trọng cảm ơn sự giúp đỡcủa TS Nguyễn Văn Thiện là người đã đóng góp nhiều ý kiến chuyên mônquý báu Bản trình bày đề án tốt nghiệp sẽ có những lỗi chế bản, rất mongnhận được sự đóng góp của quý thầy cô để đề án tốt nghiệp của em được hoànchỉnh hơn

Trang 9

PHẦN MỞ ĐẦU1 GIỚI THIỆU

1.1 Lý do chọn đề tàiHọc tăng cường thuộc lớp phương pháp học máy (machine learning),dùng để giải bài toán tối ưu bằng cách liên tục điều chỉnh hành vi của tác tử(Agent) Lý thuyết học tăng cường hình thành dựa trên sự quan sát và nghiêncứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thíchnghi và tồn tại Các giải thuật điều khiển dựa vào học tăng cường mô phỏngbản năng của động vật Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình,biết sự dụng thông tin trực tiếp từ môi trường cũng như thông tin đã đánh giátrong quá khứ để củng cố điều chỉnh hành vi nhằm liên tục cải thiện chấtlượng tương tác, tối ưu hóa mục tiêu nào đó theo thời gian

Phương pháp học tăng cường đặc biệt hữu ích nếu trong môi trường thiếuthông tin để ra quyết định chọn hành động Trong trường hợp đó, học tăngcường sử dụng phương pháp thử và sai có đánh giá và lưu trữ, chiến lượcchọn hành động tốt hơn được thực hiện để cải thiện chất lượng tương tác vớimôi trường Các hướng tiếp cận cổ điển cho lời giải của một bài toán điềukhiển tối ưu dựa trên phương pháp biến phân, quy hoạch động, nguyên lý cựcđại của Pontryagin [1], hay các phương pháp tìm nghiệm giải tích của phươngtrình Hamilton-Jacobi-Bellman (HJB) đều cần mô hình toán học một cáchtương đối đầy đủ và chính xác của đối tượng Do vậy các phương pháp nàyrất khó có thể điều khiển chính xác, trong nhiều trường hợp thực tế thì việctìm ra mô hình đối tượng 1 cách rõ rang chính xác là một việc làm không thể.Trong thực tế rất nhiều các thông số của hệ thống thay đổi liên tục trong quátrình làm việc, như cần cẩu treo, máy bay, các phương tiện tàu choán nước,tàu ngầm, các hệ thống mà khối lượng tải thay đổi liên tục, bộ điều khiển sử

Trang 10

dụng phương pháp trên sẽ không thể tự thay đổi để bắt kịp thích ứng tốt vớicác tham số biến đổi của hệ thống Vì vậy các phương pháp điều khiển thíchnghi quy hoạch động đã cho ta thấy hiệu quả về mặt thời gian thực tìm lời giảibài toán để tìm ra nghiệm tối ưu trong trường hợp không sử dụng các phươngpháp giải tích hoặc không cần nhận dạng một cách chính xác để tìm ra cáctham số của mô hình đối tượng một cách chính xác Một ưu điểm nữa đó là bộđiều khiển tối ưu này sẽ cập nhật các thông số một cách trực tuyến với sự biếnthiên các tham số của hệ thống Trong khuôn khổ đề tài này, em nghiên cứucác phương pháp học tăng cường cho đối tượng tuyến tính và đối tượng phi

tuyến với sự thay đổi không biết trước của mô hình từ tài liệu “Robust

Adaptive Dynamic Programming” [2] Để minh họa cho khả năng ứng dụng

của các thuật toán vào các đối tượng thực tế, em áp dụng cho đối tượng RobotPlanar

1.2 Tính cấp thiết của đề tàiRobot thường là một hệ phi tuyến có các thành phần bất định, sai số môhình, nhiễu ngoài tác động Việc thiết kế giải thuật điều khiển cho hệ nàykhông chỉ nhằm cho hệ kín ổn định bền vững mà còn tang cường chất lượngđiều khiển là bài toán được rất nhiều các nhà khoa học quan tâm và giải quyếttiếp Để giải quyết bài toán này là điều khiển thích nghi [5, 6, 7, 8] trong đóphổ biến là nhận dạng gián tiếp hệ thống sau đó thiết kế bộ điều khiển.Phương pháp thứ 2 là nhận dạng online các thành phần bất định trong hệthống được xác định bằng các bộ xấp xỉ như sử dụng hệ logic mờ (fuzzy),hoặc mạng nơ-ron nhân tạo Do xấp xỉ hàm bị giới hạn 1 số hữu hạn các thamsố nên sai số xấp xỉ là không thể tránh khỏi Vì vậy kết hợp thêm thành phầnbền vững vào điều khiển thích nghi thường có tham số hằng nên phải hi sinhchất lượng điều khiển Nói cách khác phương pháp điều khiển thích nghi bềnvững kinh điển chỉ mang đến sự thỏa hiệp chất lượng điều khiển Vì vậy sử

Trang 11

dụng thuật học tăng cường để kết hợp giữa đặc tính thích nghi bền vững vàogiải thuật học tăng cường để giải bài toán tối ưu cho hệ phi tuyến như robotchứa thành phần mà mình không xác định được hoặc khó xác định, bị tácđộng bởi nhiễu là rất cần thiết Giải thuật học thuật tăng cường còn có thểtang tốc độ hội tụ, tăng tính linh hoạt trong thiết kế, giảm độ phức tạp tínhtoán, giảm tài nguyên của hệ thống luôn là động cơ để thúc đẩy hướng nghiêncứu của đề tài đề án tốt nghiệp

2 MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.1 Mục tiêu của đề tàiĐề án này tập trung vào các phương pháp ứng dụng giải thuật học tăngcường cho đối tượng phi tuyến mô hình bất định Và để minh họa cho khảnăng ứng dụng của giải thuật này vào các đối tượng thực tế thì đề tài chọnrobot để kiểm nghiệm chất lượng bộ điều khiển học tăng cường mà đề án tậptrung thiết kế Chất lượng điều khiển của hệ thống được kiểm chứng qua môphỏng bằng phần mềm matlab & Simulink

2.2 Nội dung nghiên cứu- Tổng quan về học tăng cường và ứng dụng trong điều khiển- Học tăng cường cho hệ tuyến tính bất định

- Học tăng cường cho hệ phi tuyến bất định- Ứng dụng học tăng cường trong điều khiển robot2.3 Phương pháp luận và phương pháp nghiên cứu2.3.1 Phương pháp luận

- Nghiên cứu lý thuyết kết hợp với thực nghiệm, đánh giá các ưu điểm,và hạn chế còn tồn tại

Trang 12

2.3.2 Phương pháp nghiên cứu- Nghiên cứu các tài liệu tham khảo có liên quan, phân tích và thiết kế hệthống, tính toán và chứng minh ổn định và hội tụ bằng cơ sở toán học, môphỏng kiểm chứng bằng phần mềm matlab và Simulink.

- Phương pháp so sánh và đánh giá kết quả

3 BỐ CỤC DỰ KIẾN CỦA ĐỀ ÁN TỐT NGHIỆP

(Dự kiến gồm bao nhiêu chương, nội dung từng chương, từng tiểu mụccủa chương…)

Nội dung đề án gồm các chương và phần chính sau:

Chương 1 TỔNG QUAN VỀ HỌC TĂNG CƯỜNG VÀ ỨNGDỤNG TRONG ĐIỀU KHIỂN

Nội dung - Trình bày về điều khiển tối ưu thích nghi và học tăng cường.Ứng dụng quy hoạch động thích nghi trong điều khiển

Trang 13

Kết luận chương 3

Chương 4 ỨNG DỤNG HỌC TĂNG CƯỜNG TRONG ĐIỀUKHIỂN ROBOT PLANAR SỬ DỤNG MỘT MẠNG NƠRON THÔNGQUA BIẾN TRƯỢT

Nội dung – Trình bày mô hình toán học của robot Thuật toán học tăngcường được áp dụng cho hệ này và các kết quả mô phỏng kiểm chứng đượcđưa ra nhằm đánh giá khả năng thực thi của các thuật toán đã được trình bày ởchương 2 và chương 3

Kết luận chương 4

Trang 14

CHƯƠNG 1: TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG

VÀ ÁP DỤNG TRONG BÀI TOÁN ĐIỀU KHIỂN1.1 GIỚI THIỆU TỔNG QUAN

Phương pháp học tăng cường (Reinforcement Learning(RL)) là một trongnhững phương pháp học máy được sử dụng rộng rãi trong các bài toán tươngtác Nói một cách đơn giản, phương pháp này giúp máy tính “học” thông quaviệc tương tác với một môi trường, nhận phản hồi về các hành động của nó vàtìm cách cải thiện kết quả của các hành động đó

Lịch sử phát triển của học tăng cường bắt đầu từ những năm 1950 với cáccông trình của nhà khoa học người Mỹ Richard Bellman

Thập niên 1950-1960: Ban đầu, các nghiên cứu về học tăng cường tậptrung vào việc giải quyết các bài toán điều khiển tự động Richard Bellman đãđưa ra khái niệm về phương trình Bellman, một công cụ tính toán quan trọngđể giải quyết các bài toán điều khiển tối ưu trong môi trường động RichardBellman đã làm việc với các bài toán đeièu khiển tự động, trong đó các hệthống cần đưa ra quyết định để điều khiển trạng thái của một môi trườngđộng Bellman đã phát triển phương pháp quan trọng để giải quyết bài toánnày là phương trình Bellman Để giải quyết các bài toán điều khiển tự động,Bellman đưa ra khái niệm về giá trị của một trạng thái, đó là giá trị trung bìnhcủa tổng các phần thưởng mà hệ thống có thể đạt được từ trạng thái đó trở đi.Bellman đã sử dụng phương trình Bellman để tính toán giá trị của một trạngthái dựa trên các giá trị của các trạng thái liền kề và các phần thưởng tươngứng Ngoài ra, Bellman cũng đã đưa ra khái niệm về hành động tối ưu, đó làhành động mà sẽ dẫn đến tổng giá trị tối đa trong một môi trường động.Bellman đã sử dụng phương pháp lập trình động (dynamic programming) đểtìm ra hành động tối ưu Tuy nhiên, do tính toán phức tạp và kích thước củacác bài toán tăng lên, các phương pháp truyền thống trở nên không hiệu quả

Trang 15

Do đó, các nhà nghiên cứu bắt đầu nghiên cứu các phương pháp học tăngcường mới, chẳng hạn như Q-Learning và SARSA, để giải quyết các bài toánđiều khiển tối ưu trong môi trường động Các phương pháp này đã mở ranhững tiềm năng mới cho học tăng cường và trở thành cơ sở cho những pháttriển sau này trong lĩnh vực này

Thập niên 1970-1980: Lúc này, các nghiên cứu về học tăng cường bắt đầuáp dụng vào các lĩnh vực khác như robot và game Một số công trình đángchú ý của thời kỳ này là nghiên cứu của người Pháp Jacques Pitrat về một hệthống học tăng cường có khả năng tự động lập trình, hệ thống này có thể họccách giải quyết các vấn đề mới thông qua trải nghiệm và có thể cải tiến chínhnó thông qua việc phân tích các chính sách hành động của mình Ngoài ra,công trình của người Mỹ Gerald Tesauro về hệ thống học tăng cường đánh cờcũng được coi là một công trình đáng chú ý trong thời kỳ này Hệ thống nàyđã sử dụng thuật toán học tăng cường để học cách đánh cờ thông qua trảinghiệm, và đã đạt được thành công lớn trong việc đánh bại các đối thủ mạnh.Các phương pháp tăng cường của thập niên 1970-1980 đã mở ra nhiều tiềmnăng mới cho lĩnh vực này, và đã cải tiến và phát triển các phương pháp họctăng cường truyền thống, từ đó là cơ sở cho những phát triển sau này tronglĩnh vực này

Thập niên 1990-2000: Lúc này, học tăng cường được áp dụng rộng rãitrong các lĩnh vực như robot, điều khiển tự động, quản lý tài nguyên và chơigame Các phương pháp học tăng cường cũng được phát triển và cải tiến, baogồm các thuật toán như Q-learning, Sarsa, TD-Learning và Actor-Critic Mộttrong những công trình đáng chú ý trong thời kỳ này là công trình của ngườiAnh Richard Sutton và người Mỹ Andrew Barto về học tăng cường thíchnghi Công trình này giới thiệu khái niệm về học tăng cường thích nghi, nơimà các chính sách hành động của hệ thống tự động được cải thiện thông qua

Trang 16

việc điều chỉnh các trọng số liên kết giữa các đặc trung vào và các hành độngđầu ra của hệ thống Ngoài ra, trong thập niên này, các phương pháp học tăngcường đã được sử dụng để giải quyết các bài toán điều khiển trong các lĩnhvực như tài chính và quản lý Các nghiên cứu đã chỉ ra rằng học tăng cườngcó thể được sử dụng để tối ưu hóa các quyết định liên quan đến đầu tư vàquản lý rủi ro trong các công ty tài chính Trong thời kỳ này, các phương pháphọc tăng cường cũng được sử dụng để xây dựng các hệ thống hỗ trợ y tế, baogồm việc phát hiện ung thư và dự đoán kết quả điều trị cho các bệnh nhân.Trong thập niên này, các nghiên cứu về học tăng cường cũng tập trung vàoviệc giải quyết các bài toán phúc tạp trong lĩnh vực thị giác máy tính, nhưnhận diện khuôn mặt, phân loại ảnh, và nhận dạng đối tượng Các phươngpháp học tăng cường đã giúp cải thiện đáng kể hiệu quả của các hệ thống thịgiác máy tính Ngoài ra, học tăng cường đã được sử dụng để xây dựng các hệthống tự động chơi game Các nghiên cứu đã chỉ ra rằng học tăng cường cóthể được sử dụng để tạo ra các hệ thống chơi game thông minh, có khả năngtự học và tương tác với người chơi một cách tự nhiên Cuối cùng, trong thậpniên này, học tăng cường cũng đã được sử dụng để phát triển các hệ thống tựđộng đàm thoại và trả lời câu hỏi Các nghiên cứu đã chỉ ra rằng học tăngcường có thể được sử dụng để cải thiện khả năng tương tác của các hệ thốngtrả lời tự động và giúp chúng có khả năng học hỏi từ các tương tác với ngườidung.

Thập niên 2010-nay: Với sự phát triển của các công nghệ mới như deeplearning, học tăng cường trở thành một trong những lĩnh vực hot nhất của trítuệ nhân tạo Deep reinforcement learning là một hướng tiếp cận sử dụng cácmô hình học sâu để tối ưu hóa hệ thống học tăng cường Các ứng dụng củahọc tăng cường ngày càng đa dạng, từ robot tự hành cho đến các hệ thốnggiao thông thông minh và trò chơi điện tử Các nghiên cứu trong thập niên

Trang 17

này tập trung vào việc phát triển các mô hình học tăng cường mới và cải tiếncác phương pháp hiện có Một trong những tiến bộ đáng chú ý nhất của họctăng cường trong thập niên này là sự xuất hiện của các mô hình học sâu, nhưmạng nơ-ron và mạng nơ-ron tích chập, đã giúp cải thiện đáng kể khả năngphân tích và xử lý dữ liệu của các hệ thống học tăng cường Học tăng cườngcũng đã được sử dụng rộng rãi trong các ứng dụng liên quan đến y tế, baogồm xử lý ảnh y khoa, phân tích dữ liệu và chuẩn đoán bệnh Ngoài ra, họctăng cường cũng được sử dụng để giải quyết các vấn đề về môi trường vànăng lượng, bao gồm điều khiển các hệ thống điện lưới và các hệ thống sảnxuất năng lượng tái tạo Một trong những tiêu biểu của học tăng cường tronggiai đoạn này là trong lĩnh vực xe tự hành Các nghiên cứu đã chỉ ra rằng họctăng cường có thể được sử dụng để xây dựng các hệ thống xe tự hành thôngminh, có khả năng tự học và tương tác với môi trường xung quanh Ngoài ra,học tăng cường cũng đã được sử dụng để tạo ra các hệ thống robot tự động,có khả năng tự học và tương tác với môi trường xung quanh một cách tựnhiên

Các giải thuật học củng cố:- Q-Learning: là một trong những phương pháp quan trọng nhất trong

lĩnh vực học tăng cường Nó được sử dụng để tìm ra chính sách tối ưucho một tác vụ trong một môi trường động Các thuật toán học tăngcường, bao gồm Q-Learning, bao gồm hai thành phần chính: quá trìnhquyết định Markov (MDP) và hàm giá trị (value function) Trong MDP,môi trường được mô hình hóa dưới dạng một trạng thái, hành động vàphần thưởng liên kết với các hành động Hàm giá trị được sử dụng đểđánh giá mỗi trạng thái hoặc cặp trạng thái-hành động, bằng cách tínhtoán giá trị dự kiến của các phần thưởng trong tương lai Q-Learningđược thiết kế để học hàm giá trị bằng cách sử dụng phương pháp lặp

Trang 18

đơn giản Nói cách khác, Q-Learning thực hiện việc cập nhật giá trị củamỗi cặp trạng thái-hành động một cách độc lập và lặp lại quá trình nàycho đến khi hội tụ đến giá trị tối ưu Cụ thể, giải thuật Q-Learning sửdụng công thức sau để cập nhật giá trị của một cặp trạng thái-hànhđộng:

Q(s ,a)=Q(s , a)+α [r+ϒmax a'Q(s',a')−Q(s,a)]

Trong đó, Q(s, a) là giá trị hiện tại của cặp trạng thái-hành động, s làtrạng thái hiện tại, a là hành động hiện tại, r là phần thưởng thu đượcsau khi thực hiện hành động a trong trạng thái s, s’ là trạng thái tiếptheo và a’ là hành động tối ưu trạng thái s’ Hệ số α được gọi là tỷ lệhọc, xác định mức độ ảnh hưởng của các giá trị mới vào giá trị hiện tại.Hệ số ϒ được gọi là hệ số chiết khấu, xác định mức độ quan trọng củacác phần thưởng tương lai

Giải thuật Q-Learning đã được sử dụng rộng rãi trong nhiều ứng dụng,bao gồm các bài toán điều khiển tự động và trò chơi Nó là một trongnhững phương pháp học tăng cường đơn giản và hiệu quả nhất Tuynhiên, giải thuật Q-Learning cũng có một số hạn chế, bao gồm: Trongmôi trường có số lượng trạng thái lớn, Q-L có thể trở nên rất chậm vàtốn nhiều tài nguyên tính toán Q-L có thể không hoạt động tốt trongcác tình huống mà có nhiều hành động có giá trị gần bằng nhau, hoặckhi phần thưởng tương lai không dễ dàng đoán trước được Q-L khônghiệu quả trong việc học các chính sách liên quan đến thời gian thực,nghĩa là các chính sách phải được thực hiện ngay sau khi chúng đượchọc

Để giải quyết hạn chế của Q-Learning, đã có nhiều phương pháp vàthuật toán được phát triển, bao gồm các phương pháp Deep Q-Learning, Double Q-Learning, và nhiều hơn nữa Các phương pháp này

Trang 19

sử dụng các kiến thức từ các lĩnh vực khác, chẳng hạn như mạng ron sâu (deep neural networks) và thụ giác máy tính, để tăng cường khảnăng học và hiệu quả của giải thuật

nơ Xấp xỉ hàm: Xấp xỉ hàm là một phương pháp được sử dụng trong họctăng cường để tìm ra một hàm số ước tính giá trị của các trạng thái(state) và hành động (action) trong một môi trường (environment) Mụctiêu của xấp xỉ hàm là xác định giá trị tối ưu của một chính sách(policy) dựa trên các trạng thái và hành động của một agent trong môitrường

Trong xấp xỉ hàm, chúng ta sử dụng mô hình xấp xỉ, thường là mộtmạng nơ-ron, để ước tính giá trị của các trạng thái và hành động Môhình này sẽ được huấn luyện bằng cách sử dụng một phương pháp tốiưu hóa như gradient descent để điều chỉnh các tham số của mô hình saocho giá trị dự đoán của nó gần nhất với giá trị thực tế

Các phương pháp xấp xỉ hàm phổ biến trong học tăng cường bao gồmDeep Q-Networks, Actor-Critic và Policy Gradient Trong các phươngpháp này, mô hình xấp xỉ được sử dụng để ước tính giá trị của các trạngthái và hành động, và được cập nhật bằng cách sử dụng các dữ liệu thuthập từ quá trình tương tác của agent với môi trường

Việc xấp xỉ hàm là một phương pháp quan trọng trong học tăng cườngvì nó cho phép chúng ta tìm ra chính sách tối ưu mà không cần thiếtphải biết trước về môi trường và có thể được áp dụng trong các bài toánphức tạp và không rõ ràng

Để hiểu rõ hơn về xấp xỉ hàm trong học tăng cường, ta có thể xem xétphương trình Bellman:

V(s)=E [R+ϒV(s')]

Trong đó, V(s) là giá trị của trạng thái s, R là phần thưởng (reward)

Trang 20

nhận được tại trạng thái s, ϒ là hệ số giảm giá (discount factor) vàV(s’) là giá trị của trạng thái tiếp theo khi thực hiện hành động tại trạngthái s.

Mục tiêu của xấp xỉ hàm là tìm ra hàm số ước tính V(s) cho mỗi trạngthái s, sao cho giá trị được ước tính này gần nhất với giá trị thực tế củaV(s) Để làm được điều này, ta sử dụng một mô hình xấp xỉ, thường làmột mạng nơ-ron, để được ước tính giá trị của V(s)

1.2 ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI VÀ HỌC TĂNG CƯỜNG

Để hiểu rõ hơn về phương pháp học tăng cường, chúng ta cần phải tìmhiểu các thành phần chính của nó Đầu tiên là môi trường, đó là nơi mà máytính tương tác và hành động Môi trường này có thể là một game, một robothoặc bất kỳ thứ gì có thể được mô tả bằng các trạng thái và hành động Thứhai là chính sách (policy), đó là quyết định của máy tính về cách hành độngtại mỗi trạng thái Và cuối cùng là hệ thống phần thưởng (reward system), nócho biết kết quả của hành động của máy tính trong mỗi trạng thái

Phương pháp học tăng cường giúp máy tính tìm ra chính sách tối ưu bằngcách sử dụng một chiến lược thử và sai Khi máy tính thực hiện một hànhđộng trong một trạng thái, nó sẽ nhận được một phần thưởng từ hệ thống phầnthưởng Nếu kết quả của hành động đó là tốt, thì chính sách được cập nhật đểưu tiên hành động đó trong tương lai Nếu kết quả không tốt, thì chính sách sẽđược điều chỉnh để tránh các hành động đó trong tương lai

Dưới đây là một số thông tin chi tiết về phương pháp học tăng cường:- Lý thuyết thưởng và phạt: Đây là lý thuyết cơ bản của phương pháp

học tăng cường Nếu học viên thực hiện một hành động đúng, họ sẽđược thưởng và nếu họ thực hiện một hành động sai, họ sẽ bị phạt

Trang 21

- Phần thưởng: Phần thưởng có thể là những đồ vật, tiền tệ, điểm sốhoặc các lời khen ngợi, động viên để khích lệ học viên tiếp tục thựchiện các hành động đúng

- Phạt: Phạt có thể là một số điểm trừ, sự cố bằng hình thức bị loạikhỏi nhóm hoặc các hình thức kỷ luật khác

- Điều kiện tăng cường: Điều kiện tăng cường là những hành độnghoặc hành vi mà học viên cần thực hiện để nhận được phần thưởnghoặc tránh bị phạt

- Lập kế hoạch: Việc lập kế hoạch là rất quan trọng trong phươngpháp học tăng cường Học viên cần phải xác định các mục tiêu họctập của mình và lập kế hoạch để đạt được các mục tiêu đó

- Điều chỉnh và tái cấu trúc: Học viên có thể cần phải điều chỉnh vàtái cấu trúc phương pháp học tập của mình để đạt được kết quả tốtnhất

- Sự khuyến khích: Sự khuyến khích là rất quan trọng để học viên tiếptục thực hiện các hành động đúng Giáo viên, gia đình và bạn bè cóthể đóng vai trò quan trọng trong việc khuyến khích học viên

- Đánh giá và phản hồi: Đánh giá và phản hồi giúp học viên biết đượcmình đang làm tốt và cần cải thiện những gì Điều này giúp họ cóthể điều chỉnh phương pháp

Phương pháp học tăng cường đã được sử dụng thành công trong nhiều ứngdụng, bao gồm robot tự động, tự động lái xe và cả trò chơi điện tử Tuynghiên, nó vẫn còn đối với nhiều thách thức, bao gồm vấn đề về khả năngdiễn giải và thời gian học

Trong những thập niên trở lại đây các nhà khoa học trong lĩnh vực côngnghệ thông tin, điều khiển và tự động hóa, cơ điện tử luôn dành nhiều sự quantâm lớn đến mảng điều khiển tối ưu Bộ điều khiển được thiết kế theo nghĩa

Trang 22

tối ưu mang nhiều ưu điểm như ổn định toàn cục, cực tiểu hóa hàm chi phícác chỉ tiêu chất lượng đầu vào và đầu ra Kết quả thu được sau khi giải bàitoán trong điều khiển tối ưu là việc áp dụng nguyên lý cực đại của Pontryaginhoặc tìm ra nghiệm của phương trình HJB [1] Để làm được việc này cầnthông tin tương đối chính xác về hệ thống và đối tượng, như các thông tin là:các biến trạng thái, tham số của mô hình Như vậy thực tế của hệ thống rấtkhó xác định một cách chính xác các tham số của mô hình hoặc hệ thống chịutác động bởi những yếu tố ngẫu nhiên, do đó để tìm ra bộ điều khiển tối ưu sửdụng giải tích, tính toán số sẽ khó có thể mang lại chất lượng điều khiển khiđưa ra áp dụng vào đối tượng cụ thể

Điều khiển thích nghi được nghiên cứu, phát triển nhằm áp dụng một cáchphổ biến và thích hợp với các đối tượng khó xác định các thông số của môhình hoặc trong các trường hợp rất khó có thể tìm ra một cách đầy đủ chínhxác Người thiết kế thường cố gắng tập trung vào việc thiết kế bộ điều khiểnvới giả thiết là biết trước tham số của hệ thống hoặc tìm cách xấp xỉ các yếutố không chắc chắn nhưng vẫn thu được một hiệu quả đáng kể cho hệ thốngvà do đó không hoàn toàn phải đảm bảo tối ưu theo một mặt nào đó.Việc đưara một phương pháp điều khiển mới nhằm kết hợp các ưu việt của điều khiểntối ưu, điều khiển thích nghi chính là phương pháp điều khiển tối ưu thíchnghi

Chẳng hạn như một bài toán điều khiển tối ưu thích nghi được phân tíchnhư sau: lời giải của bài toán tối ưu sẽ cho đáp số nếu như ta tìm được nghiệmcủa phương trình HJB Áp dụng với hệ thống tuyến tính thì HJB sẽ trở thànhphương trình đại số Riccati (Algibraic Riccati Equation – ARE) Giả sử haima trận trạng thái (A, B) của hệ tuyến tính biết trước thì việc tìm nghiệmARE có thể sử dụng phương pháp giải tích Ngược lại, nếu không biết trướcmột trong hai ma trận này thì chắc chắn sử dụng giải tích không thể giải được

Trang 23

Với phương diện hệ không phải tuyến tính thì phương trình HJB sẽ làphương trình vi phân phi tuyến tính Việc tìm nghiệm của phương trình này làrất khó khan ngay cả khi hệ thống xác định được các tham số mô hình Đểkhắc phục được nhược điểm này trong những năm trở lại đây nhiều nhànghiên cứu đã đưa ra những thuật toán xấp xỉ nghiệm của phương trình AREhoặc HJB dựa trên một cơ sở lí thuyết điều khiển hiện đại khác đó là học củngcố hay học tăng cường (Reinforcement Learning) Dưới góc độ nhà điềukhiển thì phương pháp học củng cố sẽ xét một cá thể (agent) có tác động vớimôi trường bên ngoài bằng các hành động (action) và thu được các kết quả(reward) Hàm chi phí (cost) là đại diện cho chỉ tiêu chất lượng Như vậy họccủng cố là một hướng nằm trong lĩnh vực của học máy (machine learning) đểđạt được chính sách (policy) là một luật điều khiển tối ưu cho một cá thể(agent) dựa trên các đáp ứng đo được từ việc tác động giữa cá thể và môitrường [3] Quan sát trên Hình 1.1 [2], giải thuật học củng cố nói chung gồmcó 2 bước trước tiên từng cá thể được kiểm chứng kết quả của một chính sáchhiện tại thông qua tác động với môi trường xung quanh (gọi là Đánh giá chínhsách – Policy Evaluation), bước tiếp theo dựa trên kết quả đã được kiểmchứng, cá thể sẽ cập nhật chính sách để cải thiện chất lượng chính là việctương đương với cực tiểu hóa hàm chi phí Bước 2 này gọi là cải tiến chínhsách (Policy Improvement) Trong những năm trở lại đây, các nhà khoa họcđã và đang tập trung nghiên cứu ứng dụng phương pháp học củng cố để điềukhiển có phản hồi các hệ thống có cấu trúc động học

Phương pháp sử dụng kỹ thuật lặp của học củng cố được áp dụng trongđiều khiển học được mô tả trong Hình 1.1 và theo [4] Ở đây ta nhận thấy thayvì việc sử dụng các phương pháp toán học để tìm nghiệm của phương trìnhHJB thì giải thuật Pi sẽ tiến hành đánh giá hàm chi phí của luật điều khiểnkhởi tạo có thể chấp nhận được (admissible control policy)

Trang 24

Môi trườngCá thể

Trang 25

Hình 1.1: Mô tả ý tưởng của học tăng cường

Theo cách này chính là giải phương trình Lyapunov phi tuyến [5] Hàmchi phí mới này được sử dụng để cải tiến luật điều khiển, tương đương với tốithiểu hóa hàm Hamilton ứng với hàm chi phí đó Quá trình lặp hai bước nàyđược tiến hành cho tới khi luật điều khiển hội tụ tới luật điều khiển tối ưu

1.3 QUY HOẠCH ĐỘNG THÍCH NGHI TRONG ĐIỀU KHIỂN

Quy hoạch động thích nghi (Adaptive Dynamic Programming – ADP) làmột phương pháp học tăng cường trong lĩnh vực trí tuệ nhân tạo, được sửdụng để giải quyết các vấn đề quy hoạch không tuyến tính ADP bao gồmviệc sử dụng các thuật toán học tăng cường để tìm ra chính sách tối ưu trongkhi đồng thời ước tính hàm giá trị tối ưu

Môi trường

Trang 26

Xấp xỉ hàm (Actor)

Môi trường (Đối

tượng)

Trạngthái/Ngõ raHành động

(Tín hiệu điều khiển)

Trang 27

Hình 1.2: Cấu trúc ADP sử dụng hai xấpxỉ hàm trong điều khiển tối ưu

Xấp xỉ hàm (Critic)(Hàm chi phí)

Xấp xỉ hàm (Actor 1)

Môi trường (Đối

tượng)

Trạng thái/Ngõ ra

Hành động (Tín hiệu điều khiển)

Xấp xỉ hàm(Actor 2)

Chặntrên củanhiễu

Trang 28

Hình 1.3: Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu H∞

ADP là một phương pháp học tăng cường tự học, nghĩa là nó không yêucầu một số lượng lớn dữ liệu huấn luyện được gán nhãn như các phương pháphọc sâu truyền thống Thay vào đó, nó sử dụng các phương pháp quy hoạchđộng để tối ưu hóa các chính sách và hàm giá trị

ADP đã được áp dụng rộng rãi trong các lĩnh vực như điều khiển tự động,robot học và các hệ thống thông minh nhân tạo khác Tuy nhiên, vì ADP yêucầu tính toán phức tạp, vì vậy nó thường được sử dụng trong các ứng dụngthời gian thực, nơi hiệu suất tính toán là một yếu tố quan trọng

Với sự ra đời và dựa vào phát triển của học củng cố yếu tố đáp ứng thờigian thực đã không còn là một trở ngại nữa đối với các bài toán điều khiển tốiưu trực tuyến mà không xác định một cách chính xác các thông số của môhình đối tượng hoặc hệ thống, giải pháp này gọi là quy hoạch động thích nghi(Adaptive Dynamic Programming – ADP) [2], theo cách gọi của các nguồntại liệu khác thì cũng có thể gọi là quy hoạch động xấp xỉ (ApproximateDynamic Programming) [3] Việc thực thi các giải thuật học lặp sử dụng đặctính xấp xỉ hàm phi tuyến trơn trong tính chất của mạng nơ-ron là một cáchthức rất là hợp lý và có tính khả thi cao Giải thuật này sẽ được chạy trực

Xấp xỉ hàm (Critic)(Hàm chi phí)

Trang 29

tuyến dựa trên cấu trúc Actor - Critic, cấu trúc của tư tưởng này sử dụng songsong hai mạng nơ – ron, mạng nơ-ron đầu tiên được đặt tên là Actor, sử dụngđể xấp xỉ giải thuật điều khiển, mạng nơ-ron còn lại được đặt tên là Critic haylà đại diện giải bài toán tối ưu

Trong tài liệu số [6] đã đưa ra 2 giải thuật lặp PI ngoại tuyến, xét về khíacạnh toán học chính là phương pháp New-ton Như vậy giải thuật này đã khắcphục được yếu tố về không cần biết trước mô hình nội động học của hệ thốngbằng việc sử dụng để đánh giá hàm chi phí với giải thuật điều khiển ổn địnhtrên một quỹ đạo trạng thái Hoặc dung biến trạng thái để chọn hàm trongphương trình Lyapunov

Vrabie và các tác giả đã đưa ra cấu trúc bộ điều khiển bằng cách áp dụnghọc củng cố đó là giải trực tuyến bài toán tối ưu tuyến tính dạng toàn phương(Linear Quadratic Regulator – LQR) nhằm cải tiến trong nghiên cứu củaMurray [6], [7], ở đây để giải lặp phương trình Riccati đã sử dụng phươngpháp giải thuật lặp Pi trên cơ sở dữ liệu động học Như vậy trong cái nghiêncứu này ma trận nội động học của hệ thống đã được bỏ qua còn lại ma trậnngoại động học vẫn giữ lại Vì vậy phương pháp này gọi là giải thuật cho hệkhông chắc chắn một phần (partially model-free) Trong nghiên cứu [8],nhóm tác giả đã trình bày cho hệ không chắc chắn hoàn toàn, ở đây các tácgiả đã đưa tín hiệu nhiễu thăm dò thêm vào tín hiệu đầu vào của quá trình họctăng cường

Một số các phương pháp ngoại tuyến được trình bày trong [9], [10] ápdụng cho hệ phi tuyến tính Ở tài liệu số [11] và số [12] đã đưa ra một giảithuật áp dụng cho hệ phi tuyến tính chính là một thuật toán trực tuyến với cáihệ affine Ở đây mô hình hệ thống là mô hình bất định một phần như vậy lờigiải cho bài toán này chính là lời giải cục bộ cho phương trình HJB phi tuyếntính Nhóm tác giả trong [2] đã đưa ra một thuật toán áp dụng cho hệ thống

Trang 30

không chắc chắn hoàn toàn nó chính là sự phát triển trong phương pháp chogiải thuật đã nêu ra trong tài liệu số [8] Đây là bài toán chỉ giải quyết cáchthức tối ưu bán toàn cục nhưng cũng là một bước tạo ra sự dấu ấn lớn choviệc tìm ra giải thuật điều khiển tối ưu mà không cần biết trước các thông sốcủa mô hình hệ thống và đối tượng Các nghiên cứu tiếp theo mà nhóm tác giảvà các cộng sự ở [13] đã đưa ra giải pháp ổn định toàn cục cho một lớp hệ đathức.

Tính ưu việt của phương pháp học củng cố ở đây đã giải quyết được bàitoán điều khiển tối ưu cho hệ tuyến tính và phi tuyến tính đã đưa những ứngdụng của lý thuyết điều khiển hiện đại gần với thực tế, các giải thuật này cóthể được áp dụng ngay vào trong thực tế vì các hệ thống trong thực tế rất khóxác định một cách chính xác các thông số của mô hình hệ thống, đối tượng.Ngoài ra có các phương pháp thích nghi quy hoạch động với hệ thống chịu tácđộng của nhiễu, ta gọi đó là phương pháp quy hoạch động thích nghi bềnvững [2], hoặc mở rộng cho các hệ thống có cấu trúc multi – player zero –sum game [5], [14] Trong tài liệu [15], [16] đã đưa ra giải pháp khi xét đếncác yếu tố ràng buộc đầu vào Trong tài liệu số [17] các tác giả đã kết hợpgiữa điều khiển tối ưu thích nghi với phương pháp điều khiển trượt để khaithác tối đa những đặc điểm nổi trội của chúng

1.4 HỌC TĂNG CƯỜNG CHO HỆ TUYẾN TÍNH BẤT ĐỊNH

Học tăng cường là một phương pháp học máy trong đó một hệ thống tựđộng tương tác với môi trường và học cách cải thiện hiệu suất của nó thôngqua các phản hồi từ môi trường Đối với hệ tuyến tính bất định, việc áp dụnghọc tăng cường sẽ làm cho hệ thống tự động điều chỉnh các tham số của nó đểđạt được hiệu suất tốt hơn trong các tình huống khác nhau của môi trường

Trang 31

- Xác định hành động: Hành động là các tác động mà hệ thống có thểthực hiện để thay đổi trạng thái của nó Đối với hệ tuyến tính bấtđịnh, các hành động có thể là việc thay đổi các tham số của mô hình.- Xác định hàm phần thưởng: Hàm phần thưởng là một pháp đo củahiệu suất của hệ thống Nó được sử dụng để đánh giá các hành độngvà điều chỉnh các tham số của mô hình Trong hệ tuyến tính bấtđịnh, hàm phần thưởng có thể được định nghĩa dựa trên các chỉ sốhiệu suất như độ chính xác hoặc độ lỗi của mô hình.

- Thiết lập thuật toán học tăng cường: Thuật toán học tăng cườngđược sử dụng để học cách tối ưu hóa hàm phần thưởng thông quaviệc tối ưu hóa các hành động Một số thuật toán phổ biến để ápdụng cho hệ tuyến tính bất định bao gồm Q-Learning và SARSA.- Huấn luyện và đánh giá: Hệ thống được huấn luyện thông qua việc

tương tác với môi trường và sử dụng các thuật toán học tăng cườngđể cải thiện hiệu suất của nó Sau khi huấn luyện, hệ thống đượcđánh giá bằng cách đưa ra các hành động và đo lường hiệu suất củachúng Nếu hiệu suất động tốt hơn so với trước khi áp dụng học tăngcường, thì hệ thống đã học được cách tối ưu hóa hiệu suất của nó.- Tinh chỉnh và cải thiện: Sau khi đánh giá hiệu suất, hệ thống có thể

được điều chỉnh và cải thiện bằng cách tăng cường các hành độngtốt hơn trong tương lai

Trang 32

Tóm lại, áp dụng học tăng cường cho hệ tuyến tính bất định có thể giúp hệthống tự động cải thiện hiệu suất của nó thông qua việc điều chỉnh các thamsố của mô hình Điều này đặc biệt hữu ích khi môi trường có nhiều biến đổivà không thể được dự đoán trước được.

1.5 HỌC TĂNG CƯỜNG CHO HỆ PHI TUYẾN BẤT ĐỊNH

Trong trường hợp của hệ phi tuyến bất định, học tăng cường có thể đượcsử dụng để giải quyết các vấn đề như kiếm soát robot, điều khiển tàu thủy,hoặc tối ưu hóa mạng lưới điện

Một số phương pháp trong học tăng cường cho hệ phi tuyến bất định baogồm:

- Q-Learning: Là một phương pháp học tăng cường cơ bản cho hệthống phi tuyến, phương pháp này sử dụng một hàm giá trị để ướctính giá trị của từng hành động trong một trạng thái cụ thể

- Chính sách Gradient: Phương pháp này dựa trên việc tối ưu hóachính sách để tối đa hóa phần thưởng của hệ thống Phương phápnày phải tính đến việc các thông số hệ số được sử dụng trong chínhsách có thể là phi tuyến

- Học tăng cường dựa trên mô hình: Phương pháp này tạo ra một môhình dự đoán để đưa ra các hành động cho một trạng thái cụ thể Sauđó, phương pháp tối ưu hóa chính sách được sử dụng để tối đa hóaphần thưởng của hệ thống

Trong tất cả các phương pháp này, mục tiêu là tìm ra chính sách tối ưu đểđạt được mục tiêu của hệ thống, đồng thời tối đa hóa phần thưởng nhận đượctrong quá trình thực hiện chính sách này

Để thực hiện học tăng cường cho hệ phi tuyến bất định, các bước chínhbao gồm:

Trang 33

- Xác định trạng thái và hành động: Đầu tiên, phải xác định các trạngthái và hành động có thể được thực hiện trong hệ thống Trạng tháicó thể là các biến số hoặc thông tin về môi trường, trong khi hànhđộng là các hoạt động mà hệ thống có thể thực hiện trong một trạngthái nhất định

- Xác định phần thưởng: Sau đó, phải xác định hệ thống sẽ nhận đượcphần thưởng nào cho mỗi hành động Phần thưởng thường đượcđịnh nghĩa là một số thực và có thể âm hoặc dương, tùy thuộc vàomục tiêu và cấu trúc của hệ thống

- Xác định hàm giá trị: Một hàm giá trị được sử dụng để đánh giáhành động và trạng thái của hệ thống Hàm giá trị có thể được sửdụng để xác định các hành động tối ưu cho một trạng thái cụ thể.- Tối ưu hóa chính sách: Cuối cùng, phải tối ưu hóa chính sách để đạt

được mục tiêu của hệ thống và tối đa hóa phần thưởng Có nhiềuphương pháp để tối ưu hóa chính sách, bao gồm Q-Learning,Gradient Policy và học tăng cường dựa trên mô hình

Tuy nhiên, học tăng cường cho hệ phi tuyến bất định cũng đặt ra một sốthách thức Một trong số đó là các thuật toán phải xử lý các biến số phi tuyếntrong hệ thống, đây là một vấn đề khó khăn trong việc đánh giá các giá trịhành động và tối ưu hóa chính sách Các thuật toán cần phải được thiết kế đểcó thể xử lý được các biến số phi tuyến và đạt được một mức độ ổn định trongviệc học tập và đưa ra quyết định

Ngoài các bước cơ bản đã đề cập ở trên, học tăng cường cho hệ phi tuyếnbất định còn liên quan đến một số khái niệm và kỹ thuật khác, bao gồm:

- Mô hình hóa: Mô hình hóa là quá trình xây dựng một mô hình dựđoán cho hệ thống Trong học tăng cường, mô hình có thể được sử

Trang 34

dụng để đưa ra dự đoán về trạng thái tiếp theo của hệ thống hoặc đểtối ưu hóa chính sách.

- Học tăng cường dựa trên mô hình: Học tăng cường dựa trên môhình là phương pháp sử dụng mô hình để dự đoán hành động tối ưutrong một trạng thái cụ thể Các thuật toán trong học tăng cường dựatrên mô hình thường tập trung vào việc xây dựng mô hình và sửdụng nó để tối ưu hóa chính sách

- Q-Learning: Là một thuật toán học tăng cường phổ biến nhất, đượcsử dụng để tìm hành động tối ưu trong một trạng thái cụ thể Q-Learning sử dụng một hàm giá trị này để tìm hành động tối ưu.- Gradient Policy: Là một phương pháp tối ưu hóa chính sách bằng

cách sử dụng gradient để điều chỉnh các tham số của chính sách.Phương pháp này tập trung vào việc tối ưu hóa chính sách trực tiếpmà không cần xây dựng một mô hình dự đoán

1.6 MẠNG NƠ-RON VÀ BIẾN TRƯỢT

1.6.1 Mạng nơ-ronMạng nơ-ron là một mô hình tính toán bắt chước cách mà hệ thống thầnkinh của con người hoạt động Nó được xây dựng bằng cách kết nối các nút(nơ-ron) với nhau thành các lớp, trong đó thông tin được truyền từ lớp nàysang lớp khác thông qua các trọng số liên kết giữa các nút

Các mạng nơ-ron thường được sử dụng để giải quyết các vấn đề liên quanđến học máy, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, dự đoánvà phân tích dữ liệu Các mạng nơ-ron sử dụng các thuật toán học máy đểđiều chỉnh các trọng số giữa các nút, từ đó cải thiện khả năng dự đoán và xửlý của mạng

Trang 35

Một số kiến trúc mạng nơ-ron phổ biến bao gồm mạng nơ-ron truyềnthẳng (feed forward neural network), mạng nơ-ron hồi quy (recurrent neuralnetwork) và mạng nơ-ron tích chập (convolutional neural network) Mỗi kiếntrúc có những ưu điểm và hạn chế riêng, và được sử dụng cho các bài toánkhác nhau

- Mạng nơ-ron truyền thẳng (feed forward neural network): Là mộtkiến trúc mạng nơ-ron nhân tạo đơn giản và phổ biến nhất trong lĩnhvực học sâu (deep learning) Kiến trúc này bao gồm các lớp nơ-ronliên kết với nhau, trong đó dữ liệu chỉ di chuyển từ lớp đầu vào tớilớp đầu ra mà không có sự tác độngt rở lại

Mỗi lớp trong mạng nơ-ron truyền thẳng được tạo thành từ một sốlượng nơ-ron, mỗi nơ-ron nhận đầu vào từ các nơ-ron ở lớp trước đóvà cho ra đầu ra các nơ-ron ở lớp sau đó Đầu vào của mỗi nơ-ronđược tính toán bằng cách trọng số hóa các đầu vào và cộng thêm vớimột độ lệch (bias), sau đó áp dụng một hàm kích hoạt (activationfunction) để cho ra đầu ra của nơ-ron đó

Các lớp nơ-ron trong mạng nơ-ron truyền thẳng thường được chiathành ba loại chính: lớp đầu vào (input layer), lớp ẩn (hidden layer)và lớp đầu ra (output layer) Lớp đầu vào nhận các đầu vào củamạng nơ-ron và chuyển chúng tới các nơ-ron ở lớp ẩn Các lớp ẩntiếp nhận đầu vào từ lớp trước đó và xử lý chúng thông qua các nơ-ron ở lớp đó Cuối cùng, lớp đầu ra cho kết quả dự đoán của mạngnơ-ron

Mạng nơ-ron truyền thẳng thường được sử dụng để giải quyết cácbài toán phân loại (classification) hoặc dự đoán (prediction) Việchuấn luyện mạng nơ-ron truyền thẳng bao gồm tìm kiếm các trọngsố và độ lệch tối ưu để giảm thiểu sai số giữa đầu ra dự đoán và kết

Trang 36

quả thực tế.Mặc dù mạng nơ-ron truyền thẳng đơn giản và dễ hiểu, nhưng nó cóthể xử lý được nhiều bài toán khác nhau và cho kết quả tốt trongnhiều trường hợp.

- Mạng nơ-ron hồi quy (recurrent neural network): là một kiến trúcmạng nơ-ron nhân tạo mở rộng từ mạng nơ-ron truyền thẳng (feedforward neural network), cho phép xử lý dữ liệu chuỗi (sequencedata) và lưu trữ thông tin trạng thái trước đó

Trong mạng nơ-ron hồi quy, mỗi nơ-ron không chỉ nhận đầu vào từnơ-ron ở lớp trước đó mà còn nhận đầu vào từ chính nó ở thời điểmtrước đó Điều này cho phép mạng nơ-ron hồi quy có khả năng lưutrữ thông tin liên quan đến quá khứ và sử dụng nó để dự đoán kếtquả trong tương lai

Một kiến trúc mạng nơ-ron hồi quy phổ biến là Long Short-TermMemory (LSTM), trong đó các nơ ron được thiết kế để lưu trữ thôngtin trạng thái dài hạn và ngắn hạn LSTM được sử dụng rộng rãitrong các bài toán xử lý dữ liệu chuỗi như dịch máy (machinetranslation), nhận dạng giọng nói (speech recognition) và phân tíchtín hiệu (signal processing)

Tuy nhiên, mạng nơ-ron hồi quy cũng có một số hạn chế như khóhuấn luyện và chi phí tính toán cao do phải tính toán các trạng tháitrước đó Ngoài ra, nó cũng có thể bị mắc kẹt trong các vòng lặp vôhạn nếu không được thiết kế và huấn luyện đúng cách

- Mạng ron tích chập (convolutional neural network): Mạng ron tích chập (convolutional neural network - CNN) là một kiến trúcmạng nơ-ron được sử dụng phổ biến trong xử lý ảnh và video Kiếntrúc này được thiết kế để giúp mạng nơ-ron có khả năng tự động học

Trang 37

Lớp gộp (pooling layer): Lớp này giúp giảm kích thước của bản đồtính năng bằng cách thực hiện các phép lọc như max pooling hoặcaverage pooling Điều này giúp giảm độ phức tạp tính toán và làmcho mạng nơ-ron học các tính năng tổng quát hơn.

Lớp kết nối đầy đủ (fully connected layer): Lớp này nhận đầu vào từcác bản đồ tính năng đã được trích xuất và tính toán đầu ra cuốicùng Nó hoạt động tương tự như một mạng nơ-ron truyền thẳng.Một số kiến trúc CNN phổ biến bao gồm LeNet, AlexNet, VGG,ResNet và Inception

CNN được sử dụng rộng rãi trong các ứng dụng nhận dạng ảnh,nhận dạng khuôn mặt, phân loại vật liệu, phân tích hình ảnh y khoavà nhận dạng vật thể trong thời gian thực

Có nhiều phương pháp học khác nhau được sử dụng trong mạng nơ-ron.Dưới đây là một số phương pháp học phổ biến:

- Học có giám sát (supervised learning) là một phương pháp huấnluyện mạng nơ-ron bằng cách sử dụng một tập dữ liệu huấn luyệnđược gắn nhãn (labeled data), trong đó mỗi mẫu dữ liệu sẽ được gánnhãn với một giá trị đầu ra mong muốn (ground truth) Mục tiêu củahọc có giám sát là tìm ra một hàm ánh xạ từ đầu vào đến đầu ra sao

Trang 38

cho sai số (loss) giữa đầu ra dự đoán và đầu ra thực tế là nhỏ nhất.Trong quá trình huấn luyện mạng nơ-ron, các trọng số của mạng sẽđược cập nhật dần dần thông qua việc tính toán đạo hàm của hàmsai số theo các trọng số, sau đó sử dụng các phương pháp học nhưGradient Descent để điều chỉnh các trọng số sao cho hàm sai sốgiảm dần.

Một số ví dụ về học có giám sát trong mạng nơ-ron bao gồm:Phân loại ảnh: Một tập dữ liệu ảnh được gắn nhãn với các nhãn thểhiện nội dung của ảnh, ví dụ như phân loại chó mèo

Dự đoán giá trị: Dự đoán giá trị nhà đất dựa trên các thông tin nhưdiện tích, vị trí, tiện nghi,…

Dịch máy: Dịch một câu từ ngôn ngữ này sang ngôn ngữ khác.Học có giám sát được coi là phương pháp quan trọng và phổ biếnnhất trong mạng nơ-ron, vì nó cho phép mạng nơ-ron học từ các tậpdữ liệu đã được gắn nhãn, giúp cải thiện độ chính xác của các dựđoán đầu ra

- Học không có giám sát (unsupervised learning): là một phương pháphuấn luyện mạng nơ-ron mà không cần sử dụng tập dữ liệu đượcgắn nhãn Trong học không có giám sát, mạng nơ-ron phải tự tìm racác đặc trưng và cấu trúc của dữ liệu đầu vào

Một số ví dụ về học không có giám sát:Phân cụm dữ liệu: Tìm ra các cụm dữ liệu có tính chất tương đồngvới nhau

Giảm chiều dữ liệu: Giảm số chiều của dữ liệu đầu vào để thuận tiệncho việc xử lý dữ liệu

Phát hiện bất thường: Tìm ra các mẫu dữ liệu khác thường trong tậpdữ liệu

Trang 39

Trong học không có giám sát, các trọng số của mạng nơ-ron sẽ đượcđiều chỉnh dựa trên các tiêu chí như độ giảm thiểu độ lệch(reconstruction error) hoặc độ đo tương đồng (similarity measure)giữa các mẫu dữ liệu

Học không có giám sát là một phương pháp quan trọng để khám phavà tìm hiểu các đặc trưng ẩn của dữ liệu đầu vào Tuy nhiên,phương pháp này thường đòi hỏi nhiều kinh nghiệm và kỹ năng củangười huấn luyện để có thể hiệu quả

- Học bán giám sát (semi-supervised learning): Là một phương pháphuấn luyện mạng nơ-ron sử dụng cả tập dữ liệu được gắn nhãn(labeled data) và tập dữ liệu không được gắn nhãn (unlabeled data).Trong học bán giám sát, một phần nhỏ các mẫu dữ liệu trong tập dữliệu được gắn nhãn được sử dụng để huấn luyện mạng nơ-ron, trongkhi các mẫu dữ liệu còn lại được sử dụng để cải thiện kết quả củamô hình

Phương pháp này được sử dụng khi không đủ tài nguyên để thu thậpđủ lượng dữ liệu được gắn nhãn hoặc khi việc gắn nhãn cho các mẫudữ liệu tốn kém hoặc khó khăn

Một số ví dụ về học bán giám sát trong mạng nơ-ron bao gồm:~Phân loại văn bản: Một tập dữ liệu văn bản lớn được sử dụng, trongđó chỉ một phần nhỏ được gắn nhãn Mô hình được huấn luyện trêntập dữ liệu được gắn nhãn, sau đó được sử dụng để phân loại cácvăn bản không được gắn nhãn

Nhận dạng đối tượng trong ảnh: Một số ảnh được gẵn nhãn để huấnluyện mô hình, sau đó mô hình được sử dụng để nhận dạng đốitượng trong các ảnh không được gắn nhãn

Dự đoán từ khóa: Một số từ khóa trong tập dữ liệu được gắn nhãn

Trang 40

để huấn luyện mô hình, sau đó mô hình được sử dụng để dự đoáncác từ khóa cho các mẫu dữ liệu không được gắn nhãn.

Học bán giám sát là một phương pháp hữu ích để giải quyết các vấnđề liên quan đến việc thu thập và gắn nhãn dữ liệu Tuy nhiên,phương pháp này đòi hỏi sự chú ý đến việc chọn lọc các mẫu dữ liệukhông được gắn nhãn để đạt được hiệu quả cao nhất

Một ưu điểm của mạng nơ-ron là nó có khả năng học và đưa ra dự đoán từdữ liệu không được xác định trước, điều này làm cho mạng nơ-ron trở thànhmột phương pháp học máy mạnh mẽ cho nhiều ứng dụng thực tế Tuy nhiên,một số hạn chế của mạng nơ-ron bao gồm khả năng giải thích dữ liệu và độtin cậy của dự đoán Trong một số trường hợp, mạng nơ-ron có thể phức tạpvà khó hiểu, và việc đưa ra giải thích cho quá trình học và dự đoán có thể trởnên phức tạp

Một số kỹ thuật như tinh chỉnh siêu tham số (hyper parameter tunning) vàchuyển đổi dữ liệu có thể được sử dụng để cải thiện hiệu suất của mạng nơ-ron Ngoài ra, các mạng nơ-ron cũng có thể được kết hợp với các phươngpháp học máy khác như SVM, KNN và cây quyết định để tạo ra các mô hìnhmạnh hơn

Trong những năm gần đây, các mạng nơ-ron sâu đã trở thành một phươngpháp học máy phổ biến, trong đó mạng nơ-ron có rất nhiều lớp Các mạng nơ-ron sâu có khả năng học và biểu diễn các mỗi quan hệ phức tạp như xử lýngôn ngữ tự nhiên và thị giác máy tính

Tóm lại, mạng nơ ron là một phương pháp học máy phổ biến và mạnh mẽ,có khả năng giải quyết nhiều bài toán khác nhau và được sử dụng rộng rãitrong nhiều ứng dụng thực tế Tuy nhiên, để sử dụng mạng nơ-ron hiệu quả,