Mục tiêu Mục đích của đề tài là nghiên cứu, đề xuất và phát triển những bộ điều khiển bám tối ưu quỹ đạo mới nhằm nâng cao chất lượng điều khiển, tiết kiệm nặng lượng và đảm bảo tính ổn
Trang 1TRƯỜNG ĐẠI HỌC HẢI PHÒNG
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NCKH CẤP TRƯỜNG NĂM HỌC 2022 - 2023
THIẾT KÊ BỘ ĐIỀU KHIỂN BÁM TỐI ƯU BỀN VỮNG CHO MỘT LỚP
ĐỐI TƯỢNG CÓ MÔ HÌNH PHI TUYẾN
<ĐT.CN.2023.12>
Chủ nhiệm đề tài: Thạc sĩ Nguyễn Thị Thu Hiền
Thành viên tham gia: Vũ Văn Tú
Đơn vị: Khoa Điện Cơ
Hải Phòng, 01/2024
Trang 2TRƯỜNG ĐẠI HỌC HẢI PHÒNG
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NCKH CẤP TRƯỜNG NĂM HỌC 2022- 2023
THIẾT KÊ BỘ ĐIỀU KHIỂN BÁM TỐI ƯU BỀN VỮNG CHO MỘT LỚP
ĐỐI TƯỢNG CÓ MÔ HÌNH PHI TUYẾN
<ĐT.CN.2023.12>
Chủ nhiệm đề tài: Thạc sĩ Nguyễn Thị Thu Hiền
Thành viên tham gia: Vũ Văn Tú
Đơn vị: Khoa Điện Cơ
Hải Phòng, 01/2024
Trang 3MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC BẢNG iii
DANH MỤC HÌNH VẼ iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv
THÔNG TIN KẾT QUẢ NGHIÊN CỨU viii
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục đích nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu của đề tài 2
4 Ý nghĩa khoa học và thực tiễn của đề tài 2
5 Phương pháp nghiên cứu 2
6 Bố cục của đề tài 3
Chương 1 TỔNG QUAN VỀ MÔ HÌNH ĐỘNG LỰC HỌC TÀU THỦY VÀ TÌNH HÌNH NGHIÊN CỨU 4
1.1 Mô hình động lực học tổng quát của tàu thủy 4
1.1.1 Các chuyển động của tàu thủy trong hệ quy chiếu 4
1.1.2 Mô hình động lực học của tàu thủy sáu bậc tự do 7
1.1.3 Mô hình động lực học của tàu thủy ba bậc tự do trên mặt phẳng nằm ngang 13
1.2 Tổng quan tình hình nghiên cứu trong và ngoài nước về điều khiển chuyển động của tàu thủy 15
1.2.1 Tổng quan tình hình nghiên cứu trong nước 15
1.2.2 Tổng quan tình hình nghiên cứu ngoài nước 15
1.3 Hướng nghiên cứu của đề tài 18
1.4 Kết luận chương 1 18
Chương 2 CƠ SỞ PHƯƠNG PHÁP LUẬN CỦA ĐỀ TÀI 20
2.1 Mạng nơ-ron xấp xỉ hàm 20
2.2 Giải thuật quy hoạch động thích nghi cho hệ phi tuyến 21
2.2.1 Phương trình HJB 21
2.2.2 Quy hoạch động xấp xỉ/thích nghi dựa trên thuật toán OIRL 22
Trang 42.3 Kết luận chương 2 30
Chương 3 ĐIỀU KHIỂN BÁM TỐI ƯU TÀU THỦY KHI KHÔNG CÓ MÔ HÌNH 31
3.1 Xây dựng mô hình động học tàu mặt nước cho bài toán điều khiển bám tối ưu 31
3.2 Thuật toán lặp PI để giải phương trình HJB 33
3.3 Ứng dụng mạng nơ-ron cho thuật toán OIRL 34
3.4 Mô phỏng và đánh giá 35
3.4.1 Tham số mô phỏng 36
3.4.2 Kết quả mô phỏng 37
3.5 Phương trình HJI bám quỹ đạo và sự ổn định của phương pháp 40
3.5.1 Biến đổi mô hình của tàu thủy 40
3.5.2 Phương trình Hamilton-Jacobi-Isaacs cho bài toán điều khiển bám tối ưu quỹ đạo 41
3.5.3 Sự suy giảm nhiễu và độ ổn định của giải pháp cho phương trình HJI
42
3.6 Thuật toán off-policy IRL để giải phương trình HJI bám quỹ đạo 43 3.6.1 Thuật toán off-policy RL cho điều khiển tối ưu bền vững 44
3.6.2 Phân tích sự hội tụ của thuật toán 3.1 44
3.6.3 Thuật toán off-policy IRL cho điều khiển tối ưu bền vững 50
3.6.4 Phân tích sự hội tụ của thuật toán 3.2 52
3.6.5 Thuật toán off-policy IRL cho điều khiển tối ưu bền vững sử dụng mạng nơ-ron 53
3.6.6 Mô phỏng, so sánh và đánh giá 56
3.7 Kết luận chương 3 63
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 64
DANH MỤC CÁC CÔNG TRÌNH ĐƯỢC CÔNG BỐ 66
TÀI LIỆU THAM KHẢO 67 PHỤ LỤC PL1
Trang 5DANH MỤC CÁC BẢNG
Bảng 1.1 Các ký hiệu của SNAME (nguồn: [17]) 4
Bảng 2.1 Thuật toán OIRL 23
Bảng 2.2 Thuật toán OIRL sử dụng NN 24
DANH MỤC HÌNH VẼ Hình 1.1 Mô tả các chuyển động của tàu đại dương (nguồn: [19]) 4
Hình 1.2 Các khung tọa độ quy chiếu (nguồn: [18]) 5
Hình 1.3 Mô tả động lực học tàu thủy trong khung tọa độ quy chiếu quán tính gắn với trái đất và khung tọa độ gắn thân tàu (nguồn:[17]) 8
Hình 1.4 Mô tả các thành phần chuyển động của tàu thủy trong mặt phẳng nằm ngang 13
Hình 2.1 Xấp xỉ hàm bằng mạng MLP một lớp ẩn 20
Hình 3.1 Cấu trúc điều khiển của mô hình tàu mặt nước sử dụng thuật toán OIRL 36
Hình 3.2 Quỹ đạo bám của tàu mặt nước theo quỹ đạo tròn sử dụng thuật toán OIRL 37
Hình 3.3 Sai số bám quỹ đạo theo trục x 37
Hình 3.4 Sai số bám quỹ đạo theo trục y 38
Hình 3.5 Sai số bám quỹ đạo theo trục 38
Hình 3.6 Sự hội tụ của trọng số Wcủa mạng nơ-ron Critic với thuật toán OIRL 39
Hình 3.7 Tín hiệu điều khiển đầu vào của tàu mặt nước 39
Hình 3.8 Cấu trúc điều khiển tối ưu bền vững cho mô hình tàu thủy sử dụng 55
Hình 3.9 So sánh điều khiển bám quỹ đạo tròn của Actor-Critic và off-policy IRL, khi không có nhiễu tác động 57
Hình 3.10 So sánh sai số bám trục x của AC-NNs và off-policy IRL 57
Hình 3.11 So sánh sai số bám trục y của AC-NNs và off-policy IRL 57
Hình 3.12 So sánh sai số bám trục của Actor-Critic và off-policy IRL 58
Hình 3.13 So sánh điều khiển bám quỹ đạo tròn của Actor-Critic và off-policy IRL, khi chịu tác động của nhiễu hàm “1” 59
Hình 3.14 So sánh sai số bám trục x của của off-policy IRL và Actor-Critic, khi chịu tác động của nhiễu hàm “1” 59
Hình 3.15 S So sánh sai số bám trục y của của off-policy IRL và Actor-Critic, khi chịu tác động của nhiễu hàm “1” 59
Hình 3.16 So sánh sai số bám trục của off-policy IRL và Actor-Critic khi chịu tác động của nhiễu hàm “1” 60
Hình 3.17 So sánh điều khiển bám quỹ đạo tròn của Actor-Critic và off-policy IRL, khi chịu tác động của nhiễu hàm “2” 60
Hình 3.18 Sai số bám theo trục x của off-policy IRL với nhiễu hàm “2” 61
Hình 3.19 Sai số bám theo trục y của off-policy IRL với nhiễu hàm “2” 61
Hình 3.20 Sai số bám theo trục của off-policy IRL với nhiễu hàm “2” 61
Hình 3.21 Đầu vào điều khiển trên trục x của off-policy IRL với 62
Hình 3.22 Đầu vào điều khiển trục y của off-policy IRL với 62
Hình 3.23 Đầu vào điều khiển trục của off-policy IRL với 62
Trang 6DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
5 ( ) Tập của các luật điều khiển chấp nhận được
6 C v ( ) Ma trận Coriolis và lực hướng tâm của phương tiện hàng hải
7 C vA( ) Ma trận Coriolis và lực hướng tâm thủy động lực học khối lượng nước kèm
8 D Ma trận suy giảm thủy động lực học tuyến tính
9 D vn( ) Ma trận suy giảm thủy động lực học phi tuyến
10 D v ( ) Ma trận suy giảm thủy động lực học
11 g ( ) Véc-tơ lực đẩy và lực trọng trường
12 I0 Ma trận quán tính hệ thống xung quanh điểm O
13 J 1( ) Ma trận quay chuyển đổi vận tốc dài
14 J 2( ) Ma trận quay chuyển đổi vận tốc góc
15 J ( ) Ma trận quay chuyển đổi vận tốc dài và vận tốc góc
17 MA Ma trận quán tính hệ thống của khối lượng nước kèm
18 MRB Ma trận quán tính hệ thống vật rắn
19 [ , ] 1T T T2 Lực và mô-men tác động lên thân tàu trong hệ tọa độ gắn thân tàu (b-frame)
20 1 X Y ZT Véc-tơ lực tác động lên thân tàu trong hệ tọa độ (b-frame)
21 2 K M NT Véc-tơ mô-men tác động lên thân tàu trong hệ tọa độ (b-frame)
Trang 722 D Véc-tơ lực và momem suy giảm
23 H Véc-tơ lực và momen thủy động lực
24 Véc-tơ lực và mô-men do nhiễu tác động bên ngoài (sóng, gió, dòng chảy,…)
25 RB Véc-tơ lực và mô-men tổng quát tác động lên tàu trong khung tọa độ gắn thân
26 [ , ] 1T T T2 Véc-tơ biểu diễn vị trí và góc hướng của tàu trong hệ tọa độ gắn trái đất
27 1 [ , , ]x y zT Véc-tơ biểu diễn vị trí của tàu trong hệ tọa độ gắn trái đất
28 2 [ ]T Véc-tơ biểu diễn góc hướng của tàu trong hệ tọa độ gắn trái đất
29 v [ , ]v v 1T 2T T Véc-tơ vận tốc dài và vận tốc góc trong hệ tọa độ gắn thân
30 v1 [ , , ]u v wT Véc-tơ vận tốc dài trong hệ tọa độ gắn thân
31 v2 [ , , ]p q rT Véc-tơ vận tốc góc trong hệ tọa độ gắn thân
38 x Tọa độ của tàu theo phương x hệ tọa độ NED
39 y Tọa độ của tàu theo phương y hệ tọa độ NED
40 z Tọa độ của tàu theo phương z hệ tọa độ NED
Trang 848 u Véc tơ đầu vào điều khiển
49 u* Véc tơ đầu vào điều khiển tối ưu
51 In Ma trận đơn vị có chiều n n
52 L 2[0, )
Không gian Banach, nếu d L2[0, ) thì
2 0
ADP Adaptive Dynamic Programming Quy hoạch động thích nghi
OIRL Online Integral Reinforcement
Learning
Học tăng cường trực tuyến trên
cơ sở tích phân
ARE Algebraic Riccati Equation Phương trình đại số Riccati
HJB Hamilton-Jacobi-Bellman Phương trình vi phân đạo hàm
riêng HJB HJI Hamilton-Jacobi-Isaacs Phương trình vi phân đạo hàm
VI Value Iteration
Thuật lặp giá trị để xấp xỉ hàm đánh giá tối ưu của giải thuật quy hoạch động thích nghi
RL Reinforcement Learning Học tăng cường
ZDGT Zero-sum Differential Game
Theory
Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu HLSE Least Square Error Phương pháp bình phương tối
thiểu sai số Off-Policy
IRL
Off-Policy Integral Reinforcement Learning
Học tăng cường tích phân với luật điều khiển ngoại tuyến
Trang 9BODY Body–fixed reference frame Khung tọa độ quy chiếu gắn với
thân tàu
GPS Global Positioning System Hệ thống định vị toàn cầu INS Inertial Navigation System Hệ thống dẫn đường quán tính IFAC International Federation of
Automatic Control Hiệp hội quốc tế về tự động hóa NED North-East-Down
Hệ tọa độ có các trục hướng bắc – hướng đông – hướng tâm trái đất
SNAME Society of Naval Architects and
reference frame
Khung tọa độ tham chiếu có gốc trùng tâm trái đất
Trang 10TRƯỜNG ĐẠI HỌC HẢI PHÒNG Độc lập - Tự do - Hạnh phúc
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
ĐỀ TÀI NCKH CẤP TRƯỜNG NĂM HỌC 2022-2023
1 Thông tin chung
Tên đề tài: Thiết kế bộ điều khiển bám tối ưu bền vững cho một lớp đối tượng có
mô hình phi tuyến
Mã số: ĐT.CN.2023.12
Chủ nhiệm: Thạc sĩ Nguyễn Thị Thu Hiền
Cơ quan chủ trì: Trường Đại học Hải Phòng
Thời gian thực hiện: 12 tháng
2 Mục tiêu
Mục đích của đề tài là nghiên cứu, đề xuất và phát triển những bộ điều khiển bám tối
ưu quỹ đạo mới nhằm nâng cao chất lượng điều khiển, tiết kiệm nặng lượng và đảm bảo tính ổn định cho hệ lái tự động tàu thủy trong điều kiện có nhiễu tác động
3 Tính mới và sáng tạo
Trong hệ lái tàu thủy, cấu trúc mô hình toán của hệ thống lái có thể xác định được chính xác, nhưng các tham số của mô hình cũng như nhiễu môi trường tác động vào tàu rất khó xác định được chính xác Để giải quyết bài toán bám quỹ đạo cho tàu thủy, đề tài tập trung nghiên cứu và phát triển giải thuật điều khiển bám tối ưu thích nghi mới để đảm bảo tàu hoạt động tốt trong điều kiện có nhiễu tác động Các đề xuất đều được phát biểu thành định lý và chứng minh chặt chẽ về mặt phương pháp luận Các bộ điều khiển bám tối ưu mới được đề xuất trong đề tài được kiểm chứng thông qua mô phỏng và các nghiên cứu mới của đề tài cũng được công bố trên tạp chí Trường Đại học Hải Phòng
4 Kết quả nghiên cứu
- Những kết quả nghiên của đề tài được tóm tắt như dưới đây:
a Đề xuất cấu trúc điều khiển tối ưu bám quỹ đạo mới cho hệ lái tàu thủy dựa trên giải thuật quy hoạch động thích nghi (ADP) với cấu trúc điều khiển sử dụng thuật toán OIRL Bộ điều khiển được thiết kế không yêu cầu một phần thông tin động học của hệ thống đảm bảo cho tàu bám quỹ đạo đặt trước và ổn định Đề tài đã phát biểu và chứng minh định lý về tính chất hội tụ các tham số của hệ kín, kiểm định thông qua mô phỏng trên phần mềm Matlab
b Đề xuất cấu trúc điều khiển tối ưu bền vững bám quỹ đạo mới cho hệ lái tàu thủy dựa trên giải thuật ADP với thuật toán off-policy IRL Bộ điều khiển được đề xuất trong
đề tài không yêu cầu thông tin động học của hệ thống, đảm bảo tàu bám quỹ đạo đặt trước và ổn định Đề tài đã phát biểu và chứng minh một định lý về tính chất hội tụ của các thông số về giá trị cận tối ưu khi áp dụng thuật toán off-policy IRL, mô phỏng kiểm chứng trên phần mềm Matlab
Trang 11chí năm xuất bản và minh chứng kèm theo nếu có) hoặc nhận xét, đánh giá của cơ sở đã
áp dụng các kết quả nghiên cứu (nếu có):
Bài báo khoa học:
CT[1]
Vũ Văn Tú, Nguyễn Thị Thu Hiền (09/2023): Bộ điều khiển tối ưu bền vững dựa trên biến trượt cho các hệ cơ khí mô hình phi tuyến bất định, Tạp chí Khoa học kinh tế và Kỹ thuật-Công nghệ, Trường Đại học Hải Phòng, Số
60, pp.84-95
CT[2]
Vũ Văn Tú, Nguyễn Thị Thu Hiền, Phạm Thị Thanh (01/2024): Điều khiển bám tối ưu cho tàu mặt nước đủ cơ cấu chấp hành dựa trên thuật toán học tăng cường tích phân trực tuyến, Tạp Khoa học kinh tế và Kỹ thuật-Công nghệ, Trường Đại học Hải Phòng, Số 62, pp.114-124
6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng 6.1 Phương thức chuyển giao
- Chuyển giao tài liệu và hướng dẫn công nghệ
6.2 Địa chỉ ứng dụng
- Bộ môn Điện, Khoa Điện Cơ, Trường ĐH Hải Phòng
- Cơ sở giáo dục có chuyên ngành Điện
Hải Phòng, ngày 25 tháng 12 năm 2023
Chủ nhiệm đề tài (Ký và ghi rõ họ tên)
Nguyễn Thị Thu Hiền
Trang 12MỞ ĐẦU
1 Tính cấp thiết của đề tài
Vận tải biển đóng một vai trò rất quan trọng trong thương mại quốc tế bởi vì khoảng 80% lượng hàng hóa xuất nhập khẩu được vận chuyển qua đường biển Vận tải biển là một thị trường lớn và vì lợi ích thiết yếu của nó, chẳng hạn như phạm vi vận chuyển rộng, khối lượng vận chuyển lớn, chi phí vận chuyển thấp…Vì vậy, những nghiên cứu cải thiện hệ thống điều khiển bám quỹ đạo của tàu thủy nhằm nâng cao hiệu quả vận chuyển và đảm bảo an toàn hàng hải luôn là cấp thiết và có ý nghĩa to lớn Tuy nhiên, việc điều khiển chuyển động của tàu thủy đạt được chất lượng cao là một thách thức đối với các nhà khoa học vì những lý do chính sau đây:
1) Phương tiện hàng hải hoạt động trong môi trường động, phức tạp, không có cấu trúc xác định và chịu ảnh hưởng của nhiễu đầu vào không dự báo được đối với hệ thống điều khiển, ví dụ như: dòng chảy đại dương, sóng, gió, nên hiệu suất bám quỹ đạo bị giảm đáng kể [1]
2) Mô hình động lực học của tàu thủy là mô hình phi tuyến bất định và các tham số của mô hình phụ thuộc vào các biến trạng thái của tàu Động lực học của tàu thường được mô tả là hệ phương trình vi phân phi tuyến bậc cao Động học của tàu thủy có các tính chất đặc thù như: hằng số thời gian quán tính lớn, biên độ dự trữ ổn định nhỏ và có dao động [2, 3] Để nâng cao độ chính xác bám quỹ đạo cho tàu thủy, có rất nhiều phương pháp điều khiển khác nhau đã được nghiên cứu, đề xuất [2,4–9] Mặc dù vậy, việc đảm bảo bám quỹ đạo và ổn định trong môi trường có nhiễu tác động đối với tàu thủy luôn luôn là một thách thức
Trong khi đó, nguồn năng lượng lữu trữ trên tàu là hữu hạn do vậy để đảm bảo tàu chuyển động trên quãng đường dài, bài toán tối ưu năng lượng cũng cần được đề cập tới Tuy nhiên, cho đến nay, có rất ít các công trình nghiên cứu phương pháp điều khiển tối ưu cho tàu thủy Thông thường, bài toán điều khiển tối ưu cho tàu thủy là bài toán phi tuyến, nên để tìm nghiệm tối ưu người ta thường đưa về bài toán tìm nghiệm của phương trình HJB [10] Đối với hệ tuyến tính phương trình HJB trở thành phương trình Riccati Cho đến nay, chưa có lời giải tổng quát cho phương trình HJB vì việc tìm nghiệm của phương trình này rất khó khăn Trong những năm gần đây nghiên cứu xấp
xỉ nghiệm của phương trình HJB bằng quy hoạch động thích nghi (ADP) được quan tâm phát triển [10, 11, 12, 13] Giải thuật ADP sử dụng NN để xấp xỉ các hàm giá trị, đặc điểm chung của cấu trúc điều khiển ADP thường sử dụng hai NN hoặc ba NN để xấp xỉ hàm Trong đó, một NN xấp xỉ luật điều khiển tối ưu (actor NN), một NN còn lại xấp xỉ hàm chi phí tối ưu (critic NN), một NN (disturber NN) có thể được thêm vào cấu trúc ADP để xấp xỉ luật nhiễu xấu nhất Nghiệm xấp xỉ trên cơ sở giải thuật ADP thường được giải trực tuyến
Những năm gần đây, ứng dụng giải thuật ADP trong bài toán bám tối ưu quỹ đạo cho các hệ thống phi tuyến liên tục được nghiên cứu và phát triển mạnh mẽ [14, 15], nhưng riêng áp dụng cho hệ thống lái tàu thủy được nghiên cứu rất ít Chính vì vậy, việc nghiên cứu phát triển áp dụng giải thuật ADP trong điều khiển bám tối ưu quỹ đạo cho tàu thủy luôn là thách thức và động lực đối với các nhà khoa học Đây cũng chính là động lực thúc đẩy việc lựa chọn đề tài nghiên cứu của tác giả
Trang 132 Mục đích nghiên cứu
Mục đích của đề tài là nghiên cứu, đề xuất và phát triển những bộ điều khiển bám tối
ưu quỹ đạo mới nhằm nâng cao chất lượng điều khiển, tiết kiệm nặng lượng và đảm bảo tính ổn định cho hệ lái tự động tàu thủy trong điều kiện có nhiễu tác động Để thực hiện được mục tiêu này, đề tài đặt ra những nhiệm vụ chính sau:
- Nghiên cứu mô hình động lực học của tàu thủy và các phương pháp điều khiển hiện đại cho hệ lái tàu thủy đã công bố trong nước và ngoài nước những năm gần đây, từ đó tìm ra hướng nghiên cứu mới cho đề tài
- Nghiên cứu, đề xuất thuật toán điều khiển bám tối ưu mới dựa trên thuật toán OIRL trong điều kiện không có nhiễu tác động
- Nghiên cứu, đề xuất giải thuật điều khiển tối ưu bền vững dựa trên thuật toán policy IRL cho hệ lái tàu thủy trong điều kiện có nhiễu tác động
off-3 Đối tượng và phạm vi nghiên cứu của đề tài
Đối tượng nghiên cứu của đề tài: Hệ thống lái tàu nổi như tàu tuần tra, tàu dịch vụ…, có mô hình phi tuyến bất định, chịu ảnh hưởng của nhiễu ngoài không biết trước (sóng, gió, dòng chảy…) và đủ cơ cấu chấp hành
Phạm vi nghi cứu của đề tài: Đề tài tập trung xây dựng bộ điều khiển bám tối ưu mới cho hệ thống dựa trên lý thuyết điều khiển phi tuyến và lý thuyết điều khiển tối ưu, cho các tàu hoạt động trên biển trong điều kiện có các nhiễu (sóng, gió, dòng chảy…)
bị chặn
4 Ý nghĩa khoa học và thực tiễn của đề tài
Đề tài đã đưa ra được cấu trúc điều khiển mới Các bộ điều khiển này được phân tích
ổn định dựa trên lý thuyết ổn định Lyapunov và được đánh giá thông qua mô phỏng bằng phần mềm Matlab, kết quả phân tích lý thuyết và mô phỏng hoàn toàn phù hợp và đáp ứng được các chỉ tiêu chất lượng cho hệ thống lái tàu tự động Đề tài sẽ góp phần
bổ sung các phương pháp điều khiển bám tối ưu quỹ đạo mới cho hệ lái tàu thủy Chính
vì vậy, kết quả nghiên cứu của đề tài vừa có ý nghĩa khoa học vừa có ý nghĩa thực tiễn
5 Phương pháp nghiên cứu
Để đạt được mục tiêu đề ra, phương pháp nghiên cứu của đề tài tiến hành như sau:
- Phân tích các tài liệu khoa học, các công trình mới nhất đã được công bố trong và ngoài nước về điều khiển tàu thủy Đặc biệt là các phương pháp điều khiển hiện đại áp dụng cho mô hình tàu thủy đủ cơ cấu chấp hành, trên cơ sở đó đưa ra định hướng nghiên cứu các giải thuật điều khiển mới cho hệ lái tàu thủy
- Dựa trên lý thuyết điều khiển phi tuyến và điều khiển tối ưu xây dựng bài toán điều khiển bám tối ưu cho hệ lái tàu thủy trong điều kiện không chịu ảnh hưởng của nhiễu
- Chuyển bài toán xác định nghiệm tối ưu về bài toán tìm nghiệm cho phương trình HJB, HJI Nghiên cứu, xấp xỉ nghiệm của HJB dựa trên giải thuật ADP kết hợp các phương pháp kháng nhiễu
- Các giải thuật mới được đề xuất, phân tích tính ổn định dựa trên lý thuyết Lyapunov
và khảo sát đánh giá thông qua mô phỏng bằng phần mềm Matlab
Trang 14và ngoài nước đã công bố và đề xuất hướng nghiên cứu của đề tài
Chương 2: Cơ sở phương pháp luận của đề tài
Phân tích một số thuật toán cơ bản của giải thuật ADP như: thuật toán OIRL, thuật toán off-policy IRL đây là những thuật toán được nghiên cứu trong đề tài tạo nền tảng
để xây dựng bộ điều khiển mới cho hệ lái tự động tàu thủy
Chương 3: Điều khiển bám tối ưu cho tàu thủy khi không có mô hình
Trong chương 3, đề tài tập trung nghiên cứu xây dựng bộ điều khiển bám tối ưu và
bộ điều khiển tối ưu bền vững cho mô hình tàu thủy Bộ điều khiển tối ưu thiết kế cho
hệ lái tàu thủy dựa trên thuật toán OIRL và bộ điều khiển tối ưu bề vững dựa trên thuật toán off-policy IRL không yêu cầu thông tin động học của hệ thống, có xét tới ảnh hưởng của nhiễu đầu vào Sự hội tụ của thuật toán được trình bày và chứng minh trong các định
lý Các kết quả phân tích lý thuyết được đánh giá thông qua mô phỏng bằng phần mềm Matlab
Trang 15Chương 1 TỔNG QUAN VỀ MÔ HÌNH ĐỘNG LỰC HỌC
TÀU THỦY VÀ TÌNH HÌNH NGHIÊN CỨU
Nội dung chính của chương này là xây dựng mô hình động lực học của tàu thủy dựa trên kết quả nghiên cứu của các công trình [16–19] được sử dụng thiết kế hệ thống điều khiển và phân tích ổn định của hệ kín
Trên cơ sở mô hình động lực học của tàu thủy, một số phương pháp điều khiển tàu thủy của các công trình trong và ngoài nước đã công bố trong thời gian gần đây được nghiên cứu, phân tích làm cơ sở cho các đề xuất cấu trúc điều khiển mới trong đề tài 1.1 Mô hình động lực học tổng quát của tàu thủy
1.1.1 Các chuyển động của tàu thủy trong hệ quy chiếu
Tàu thủy là một phương tiện hàng hải chuyển động trên mặt nước, trong một môi trường phức tạp, biến động và không có cấu trúc Để xác định động lực học của tàu dựa vào định luật Newton, coi tàu thủy như một vật rắn chuyển động trong môi trường chất lỏng và chuyển động với sáu bậc tự do, sáu biến chuyển động độc lập dùng để xác định
vị trí và hướng của tàu thủy [17], [18] Các chuyển động của tàu thủy như Hình 1.1 gồm chuyển động trượt dọc (surge), chuyển động trượt ngang (sway), trượt đứng (heave), chuyển động lắc ngang (roll), chuyển động lắc dọc (pitch), chuyển động quay trở (yaw)
Hình 1.1 Mô tả các chuyển động của tàu đại dương (nguồn: [19])
Các ký hiệu được sử dụng như chiều chuyển động, mô-men và lực, tốc độ dài và tốc
độ góc, vị trí được ký hiệu như trong Hình 1.1 và Bảng 1.1, tuân thủ theo hiệp hội hàng hải Quốc tế SNAME
Bảng 1.1 Các ký hiệu của SNAME (nguồn: [17])
Bậc tự do Các loại chuyển động Lực và
mô-men
Tốc độ dài và tốc
độ góc
Vị trí và góc Euler
1 Chuyển động tiến theo trục x (surge) X u x
2 Chuyển động tiến theo trục y (sway) Y v y
Trang 163 Chuyển động tiến theo trục z (heave) Z w z
4
Chuyển động quay quanh trục x
5 Chuyển động quay quanh trục y (pitch) M q
6 Chuyển động quay quanh trụcz (yaw) N r
Ba thông số tọa độ ( , , )x y z là vị trí của tàu thủy và đạo hàm theo thời gian của chúng tương ứng với ( , , )u v là vận tốc chuyển động dọc theo các trục x y, và z Trong khi
ba tọa độ cuối cùng ( , , ) là các góc mô tả hướng của tàu thủy quanh các trục ( , , )x y z
và đạo hàm theo thời gian ( , , )p q r của chúng mô tả chuyển động quay quanh các trục ( , , )x y z
Hình 1.2 Các khung tọa độ quy chiếu (nguồn: [18]) Các hệ quy chiếu được mô tả như trên Hình 1.2 bao gồm:
Hệ quy chiếu ECI (i-frame)- là khung tọa độ quán tính để định vị trái đất (ứng với khung quy chiếu không gia tốc trong định luật Newton để ứng dụng xét các chuyển động) Gốc của khung tọa độ ECI (x y zi i i) được đặt tại tâm của trái đất với các trục được thể hiện trên Hình 1.2
Hệ quy chiếu ECEF (e- frame) (x y ze e e) - có gốc gắn với thân trái đất nhưng trục quay so với khung quán tính ECI, với tốc độ quay là e 7.2921 10 ( 5 rad / s) Đối với những phương tiện hàng hải, sự quay của trái đất có thể được bỏ qua và do đó khung e-frame có thể xem như là khung quán tính Khung tọa độ e–frame được sử dụng cho việc dẫn đường, định vị và điều khiển nói chung
Hệ quy chiếu NED (n-frame) - hệ tọa độ North-East-Down (x y zn n n) Đó là hệ trục tọa
độ chúng ta thường đề cập đến trong cuộc sống hàng ngày Nó thường được định nghĩa như mặt phẳng tiếp tuyến trên bề mặt của trái đất và chuyển động cùng với phương tiện, trục 𝑥 chỉ theo hướng bắc, trục 𝑦 chỉ theo hướng động, trục z chỉ theo hướng tới bề mặt trái đất
Trang 17Hệ quy chiếu BODY (b-frame) - khung quy chiếu gắn thân (x y zb b b) là khung tọa độ được gắn với phương tiện, di chuyển cùng phương tiện
Vị trí và hướng của phương tiện được miêu tả trong khung tọa độ quy chiếu quán tính n-frame (vì khung tọa độ e-frame và n-frame xấp xỉ bằng nhau đối với phương tiện hàng hải), trong khi vận tốc góc và vận tốc dài của phương tiện thường được biểu diễn trong khung tọa độ gắn thân b-frame
Với tàu đại dương nói chung, vị trí thông dụng nhất của khung tọa độ gắn thân là tạo
ra sự đối xứng xung quanh mặt phẳng (o x zb b b) và sự xấp xỉ đối xứng xung quanh mặt phẳng (o y zb b b) Theo nghĩa này, trục gắn thân x yb b, và zb được chọn trùng với trục chính của quán tính và chúng thường được xác định như (Hình 1.1)
Các hệ tọa độ quy chiếu có ý nghĩa rất quan trọng trong thiết kế bộ điều khiển bám
vị trí mong muốn (quỹ đạo đặt) cho hệ lái tự động phương tiện hàng hải vì các hệ tọa độ quy chiếu thường được sử dụng để xác định vị trí của phương tiện hàng hải và cách quy đổi giữa các hệ tọa độ để thể hiện được mối liên hệ giữa vị trí, hướng của tàu với các thông số động học (vận tốc và vận tốc góc) của nó Để thực hiện được điều đó cần phải xác định rõ các hệ tọa độ quy chiếu và cách chuyển đổi giữa các hệ tọa độ Như đã biết,
vị trí và hướng của phương tiện trên toàn cầu phải được xác định trong hệ tọa độ gắn với trái đất, trong khi vận tốc góc và vận tốc dài của phương tiện được biểu diễn một cách thuận lợi trong hệ tọa độ gắn thân Vì vậy để thấy được mối liên hệ và tác động của vận tốc góc và vận tốc dài đến vị trí và hướng của phương tiện thì cần quy đổi chúng
T T T
2 2 2
T T T
trong đó:
– véc-tơ vị trí và hướng trong hệ trục tọa độ Trái đất (n-frame)
v– véc-tơ vận tốc dài và vận tốc góc trong hệ tọa độ gắn thân tàu (b-frame)
– véc-tơ lực và momen tác động lên tàu trong khung tọa độ gắn thân (b-frame) Trong các phương trình toán bắt nguồn từ chuyển động của tàu thủy, nghiên cứu về động lực học của tàu thủy được chia thành hai phần [16], [17]:
- Phân tích động học của tàu thủy (Kinematic)
- Phân tích động lực học của tàu thủy (Dynamic)
Trang 181.1.2 Mô hình động lực học của tàu thủy sáu bậc tự do
1.1.2.1 Mối quan hệ giữa vị trí, hướng chuyển động tàu thủy
Đạo hàm bậc nhất theo thời gian của véc-tơ vị trí 1 có mối liên hệ với véc-tơ vận tốc tuyến tính v1 thông qua sự chuyển đổi sau [17]:
, tuy nhiên tàu ngầm và máy bay đều
có thể hoạt động tại điểm đặc biệt này, chi tiết được trình bày trong tài liệu [17] Kết hợp (1.1) và (1.3) tạo ra phương trình mô tả vị trí và hướng của tàu thủy:
( )
( )( )
Trang 191.1.2.2 Phương trình mô tả động lực học chuyển động tàu thủy
Chuyển động của tàu thủy được mô tả giống như chuyển động của vật rắn trong môi trường chất lỏng, trong hệ trục tọa độ gắn với vật rắn (b-frame) x y zb b b gốc tọa độ O được mô tả như hình sau:
Hình 1.3 Mô tả động lực học tàu thủy trong khung tọa độ quy chiếu quán tính gắn với
trái đất và khung tọa độ gắn thân tàu (nguồn:[17]) Chúng ta định nghĩa các véc-tơ sau đây:
– 1 X Y ZT: Lực được phân tích trong hệ tọa độ gắn thân (b-frame)
– 2 K M NT: Mô-men được phân tích trong hệ tọa độ gắn thân (b-frame) – v u v wT: Vận tốc dài được phân tích trong hệ tọa độ gắn thân (b-frame) – p q rT: Tốc độ góc của hệ tọa độ gắn thân (b-frame) được phân tích trong
hệ tọa độ cố định khung Trái Đất (e-frame)
– rOb x y zg g gT: Véc-tơ từ tâm Ob tới tâm CG (trọng tâm của tàu), phân tích trong hệ tọa độ gắn thân (b-frame)
Ứng dụng công thức Newton-Euler cho vật rắn có khối lượng m, phương trình cân bằng lực và momen tác động lên tàu như sau [17]:
1 2
(
))
Trang 20Trong đó I I và x, y Iz là những momen quán tính xung quanh trục x y zb b b, , và ,
RB
M là ma trận quán tính hệ thống vật rắn
( )
RB
C v là ma trận Coriolis và lực hướng tâm vật rắn
Ma trận quán tính hệ thống của vật rắn được đưa ra như sau:
Trang 21 – lực và mô-men thủy động lực học
– lực và mô-men do nhiễu tác động từ bên ngoài (sóng, gió, dòng chảy…)
– lực và mô-men gây ra bởi cơ cấu chấp hành của tàu thủy (chân vịt, bánh lái, bộ đẩy…)
(3) Lực phục hồi do lực Archimedes (trọng lượng và lực đẩy)
Ba thành phần này tạo thành các lực và momen có thể được biểu diễn toán học như sau:
Trang 22b Lực và mô-men do nhiễu tác động từ bên ngoài
Lực và mô-men do nhiễu loạn môi trường lên tàu bao gồm: sóng, gió, dòng chảy có thể được viết như sau:
- lực và mô-men tương ứng gây ra gió
Mô hình của lực và mô-men nhiễu loạn gây ra bởi sóng, gió, dòng chảy đại dương, phần này sẽ được đề tài phân tích chi tiết trong phụ lục
c Lực và mô-men do tác động của cơ cấu chấp hành
Lực và mô-men do tác động của các cơ cấu chấp hành phụ thuộc vào cấu hình cụ thể của các thiết bị truyền động như cánh quạt, bánh lái, các bộ đẩy dưới nước được trang bị trên một tàu cụ thể
Trang 231.1.2.3 Mô hình động lực học của tàu thủy 6 bậc tự do
Từ những phân tích ở trên, mô hình động lực học mô tả chuyển động của tàu thủy 6 bậc tự do kết quả được đưa ra như sau [16], [17]:
gắn thân tàu (b-frame)
- lực và mô-men gây ra bởi cơ cấu chấp hành như chân vịt, bánh lái, bộ đẩy Trong nhiều trường hợp, ma trận suy giảm thủy động lực học được biểu diễn như sau:
( ) n( )
trong đó: D là ma trận suy giảm tuyến tính, D vn( ) là ma trận suy giảm phi tuyến
Ma trận M luôn xác định dương đối xứng:
Trang 241.1.3 Mô hình động lực học của tàu thủy ba bậc tự do trên mặt phẳng nằm ngang
Chuyển động của tàu thủy xét trong mặt phẳng ngang được đặc trưng bởi các thành phần: chuyển động dọc với tốc độ u(surge), chuyển động ngang với tốc độ v(sway), quay hướng với tốc độ r (yaw), bỏ qua các thành phần lắc ngang p, lắc dọc q và trượt đứng w với các véc-tơ v u v r , , T 3 và x y , , T 3, các thành phần
Trang 25Ma trận suy giảm thủy động lực học:
g - là véc-tơ lực đẩy và lực trọng trường, tàu thủy ba bậc tự do, theo Giả thiết 1.1
có thể coi g ( ) 0 Tuy nhiên nhiễu từ môi trường có thể tác động làm nghiêng tàu, khi đó sẽ xuất hiện lực và momen đẩy để đưa tàu về vị trí cân bằng Vì vậy không mất
đi tính tổng quát khi trong công thức (1.26) vẫn có thành phần g ( )
Trong mô hình động lực học của tàu thủy ba bậc tự do (1.26) việc xác định các thông
số của các ma trận C v D v là rất khó khăn phải dựa trên nhiều giả thiết ( ), ( )
Các thông số trong các ma trận trên phụ thuộc vào trọng tải hàng hóa trên tàu, phụ thuộc vào môi trường biển và vị trí của tàu Vì vậy những thành phần không xác định
và nhiễu từ môi trường trong mô hình động lực học (1.26) được ký hiệu ( )Các công trình nghiên cứu của Fossen [16], [17] mô hình tàu thủy có lực và mô-men
như mô hình (1.26) và v u v r , , T thì mô hình động lực của tàu thủy được gọi là
mô hình đủ cơ cấu chấp hành Đây là mô hình của tàu có những cơ cấu chấp hành như sau: chân vịt chính sau lái tạo ra lực đẩy trượt dọc , chân vịt hai bên mạn tàu (các bộ uđẩy) tạo ra lực đẩy trượt ngang , bánh lái chính sau lái tạo ra mô-men v thay đổi rhướng đi của tàu
Mô hình tàu đủ cơ cấu chấp hành thường được sử dụng nhiều trong những tàu hậu cần, tàu tuần tra đại dương…vv những tàu đặc biệt phải neo đậu tại những vùng biển sâu, các nghiên cứu về điều khiển ổn định động DP (Dynamic Position) và bám cho mô hình tàu
Mô hình tàu thủy đủ cơ cấu chấp hành là đối tượng được nghiên cứu chính trong đề tài, được sử dụng để thiết kế bộ điều khiển và chứng minh tính ổn định
Trang 261.2 Tổng quan tình hình nghiên cứu trong và ngoài nước về điều khiển chuyển động của tàu thủy
1.2.1 Tổng quan tình hình nghiên cứu trong nước
Trong những năm gần đây, ngành công nghiệp đóng tàu Việt Nam đã đạt được những thành tựu to lớn, góp phần thay đổi bộ mặt công nghiệp hóa, hiện đại hóa của nước nhà Cùng với đó là sự phát triển của vận tải biển đóng vai trò quan trọng trong vận chuyển hàng hóa giữa các quốc gia trên thế giới Do đó ngày càng có nhiều nhà khoa học quan tâm nghiên cứu xây dựng bộ điều khiển cho tàu thủy kể cả trong lý thuyết lẫn ứng dụng thực tiễn
Một số tác giả đã nghiên cứu và công bố các tài liệu liên quan đến thiết kế bộ điều khiển cho tàu thủy có tính ứng dụng và thành tựu nhất định Các công trình của tác giả Khương Minh Tuấn [21], Nguyễn Đông [22], Nguyễn Hoài Nam [23] đã tập trung nghiên cứu bộ điều khiển hướng đi cho trước cho các phương tiện tự hành dưới nước không phải là tàu thủy đủ cơ cấu chấp hành
Đề tài đề tài của Đặng Xuân Hoài [24] được thực hiện tại Trường Đại học Bách Khoa
Hà Nội, tác giả nghiên cứu tổng quan và động học tàu thủy và hệ lái tự động tàu thủy, thiết kế bộ điều khiển trượt mờ cho mô hình tàu thủy một bậc tự do của Nomoto Trong công trình nghiên cứu [25] của tác giả Hoàng Thị Tú Uyên, công trình đã tập trung vào nghiên cứu các giải thuật điều khiển thích nghi mới dựa trên các phương pháp điều khiển phi tuyến hiện đại như Backstepping, điều khiển mặt động, trượt tầng kết hợp với NN cho hệ thống lái tàu nổi choán nước Những thành phần bất định trong mô hình
hệ lái tàu cũng như các nhiễu tác động không biết trước có trong thành phần bộ điều khiển được xấp xỉ bằng NN hướng tâm hai lớp và được huấn luyện dựa trên sự tồn tại của hàm điều khiển thích nghi Lyapunov, với đề xuất như vậy công trình đã đề xuất được hai bộ điều khiển thích nghi mới cho hệ thống lái tàu Cũng trong đề tài của tác giả Nguyễn Hữu Quyền [26] đã nghiên cứu xây dựng thành công bộ điều khiển dự báo (MPC) trên cơ sở tuyến tính hóa từng đoạn mô hình phi tuyến cho đối tượng là tàu thủy kết hợp với bộ quan sát trạng thái và ước lượng bù thành phần bất định Nghiên cứu của tác giả đã giải quyết bài toán điều khiển dự báo cho đối tượng là tàu thủy ba bậc tự do thiếu cơ cấu chấp hành, có chứa thành phần bất định và ảnh hưởng nhiễu của môi trường khi làm việc
Nhìn chung, có thể đánh giá rằng các nghiên cứu trong nước đã tập trung giải quyết bài toán thiết kế bộ điều khiển lái tự động hay bám quỹ đạo đặt cho tàu thủy có tính đến yếu tố bất định mô hình và các nhiễu loạn từ bên ngoài Tuy nhiên việc nghiên cứu bộ điều khiển bám tối ưu quỹ đạo cho tàu thủy chưa được thực hiện nhiều trong nước 1.2.2 Tổng quan tình hình nghiên cứu ngoài nước
Khó khăn lớn đối với bài toán điều khiển lái tự động hay bám quỹ đạo đặt của tàu thủy là do mô hình động lực học của tàu có độ phi tuyến cao, bất định, hoạt động trong môi trường biển chịu ảnh hưởng của những yếu tố nhiễu ngẫu nhiên như sóng, gió, dòng chảy hải lưu luôn biến động, phức tạp và không có cấu trúc Vì vậy việc nghiên cứu thiết
kế bộ điều khiển cho hệ lái tàu thủy luôn được các nhà khoa học quan tâm và là một
Trang 27thách thức không nhỏ, rất nhiều công trình khoa học đã được công bố có tính học thuật cũng như tính ứng dụng rất cao liên quan tới vấn đề này
Trong các công trình nghiên cứu của các tác giả thì thiết kế bộ điều khiển cho tàu thủy dựa theo hai mô hình cơ bản: Mô hình tuyến tính và mô hình phi tuyến Các công trình thiết kế theo mô hình tuyến tính thường xây dựng bộ điều khiển của tàu thủy theo hướng đi cho trước như tác giả Nomoto [27], tác giả Fossen [18], [20], [28], [29] Khi
lý thuyết điều khiển được phát triển việc áp dụng các các lý thuyết này để thiết kế các
bộ điều khiển cho các mô hình tàu phi tuyến một bậc tự do của Norrbin [30], mô hình tàu phi tuyến hai bậc tự do của Bech và Wagner Smith [31] thể hiện ở những công trình: điều khiển Backsteping kết hợp với NN [32]–[34] điều khiển thích nghi [35], [36], điều khiển tối ưu LQR, bền vững H[37]–[40] Việc sử dụng mô hình tàu tuyến tính hoặc
mô hình tàu phi tuyến một bậc, hai bậc tự do không mô tả đầy đủ động lực học của tàu thủy trên mặt phẳng nằm ngang, các yếu tố bất định hay ảnh hưởng của nhiễu đầu vào không được xét tới Do đó, việc kết quả thiết kế bộ điều khiển cho các mô hình tàu này chưa đạt kết quả mong muốn
Từ khi mô hình tàu thủy ba bậc tự do trên mặt phẳng nằm ngang được Fossen và các đồng sự xây dựng hoàn thiện [17], các yếu tố ảnh hưởng tới tàu thủy được xem xét một cách cụ thể, đầy đủ hơn trong các công trình thiết kế bộ điều khiển cho tàu thủy [41]–[51] Trong số các phương pháp tiếp cận để nâng cao chất lượng của các bộ điều khiển thích nghi bền vững, mô hình động lực học của tàu thủy có thể được xem xét trong hai trường hợp mô hình tàu thiếu cơ cấu chấp hành [41], [42], [45], [52], mô hình tàu đủ cơ cấu chấp hành [43], [47]–[49], [51] Các hệ thống tàu thiếu cơ cấu chấp hành có sự tương đồng với lớp hệ thống có ràng buộc nonholonomic, như hệ thống xe tự hành (WMR) [53]
Đối với các hệ thống tàu thủy đủ cơ cấu chấp hành, thiết kế điều khiển cho các các
hệ thống trong mô hình có thành phần bất định trở thành một thách thức không nhỏ liên quan đến đầu vào, ràng buộc trạng thái hoàn toàn, thời gian hữu hạn [43], [47]–[49], [51] Để giải quyết các thách thức này, cấu trúc điều khiển thích nghi bền vững dựa trên
kỹ thuật Backstepping và hàm Lyapunov rào cản (Barrier Lyapunov Function (BLF)) được kết hợp một cách khéo léo để hình thành được bộ điều khiển tích hợp [47]–[49], [51]
Trong công trình [46] hệ thống điều khiển tầng cũng được xem xét trong tình huống của tàu thủy đủ cơ cấu chấp hành, nó khác hoàn toàn kỹ thuật tan-BLF giải quyết vấn
đề ràng buộc sai lệch và vấn đề điều khiển thời gian hữu hạn có trong [41] Trong công trình [51] thiết kế điều khiển có thể được nghiên cứu với kỹ thuật trượt (SMC) đầu cuối tác động nhanh cho toàn bộ hệ thống mà không cần sử dụng kỹ thuật Backstepping cho các hệ thống con Điều này trái ngược với kỹ thuật Backstepping truyền thống cho tàu thủy được giới thiệu trong các công trình [47]–[51] Ngoài ra, bộ quan sát nhiễu thời gian hữu hạn cũng được đưa vào để đảm bảo khả năng tiếp cận theo thời gian hữu hạn của bề mặt trượt [51] Mặt khác khi quỹ đạo trạng thái của hệ thống kín nằm trên mặt trượt, vấn đề bám thời gian hữu hạn có thể được thỏa mãn dưới sự mô tả của mặt trượt đầu cuối tác động nhanh [51]
Các công trình [50], [51] phương pháp sử dụng mặt trượt tích phân được đề cập để thu được bộ SMC kết hợp với NN được sử dụng để ước lượng thành phần bất định cũng
Trang 28giống như phương pháp Backstepping được xử lý để thiết kế bộ điều khiển Đối với cấu trúc điều khiển bám quỹ đạo cố định thời gian, có nhiều công trình trong thời gian gần đây đã cố gắng thực hiện vấn đề này, chẳng hạn như bộ điều khiển trong [48], [50] được thiết kế bằng cách sử dụng lý thuyết ổn định hàm mũ để xây dựng bộ điều khiển và một
bộ quan sát trạng thái mở rộng thời gian cố định So với tài liệu [47], cấu trúc SMC được
đề xuất trong tài liệu [48] mở rộng để chuẩn đoán lỗi của cảm biến Tuy nhiên, các bộ điều khiển thời gian không đổi được trình bày trong [48], [50] sẽ gây trở ngại cho các
hệ thống thiếu cơ cấu chấp hành và có ma trận M bất định
Bộ điều khiển dựa trên một cấu trúc mới tin cậy cho các hệ thống tàu thủy đủ cơ cấu chấp hành được trình bày trong [45] dẫn đến độ phức tạp tính toán của bộ điều khiển
Bộ điều khiển được thiết kế trong các tài liệu [54]–[56] được thực hiện bởi cùng một cấu trúc điều khiển nhưng công việc trong [54] phát triển một cấu trúc điều khiển Backstepping thời gian cố định kết hợp với bộ DO để điều khiển bám quỹ đạo thời gian
cố định của tàu thủy mô hình bất định và nhiễu bên ngoài Các tác giả trong công trình [56] đã xử lý các tham số chưa biết với sự hội tụ theo hàm mũ Khác với các phương pháp truyền thống xử lý các ràng buộc trạng thái hoàn toàn, độ bão hòa đầu vào thông qua thành phần thêm vào hàm BLF [57]–[59]
Trong những năm gần đây lý thuyết RL được nghiên cứu và ứng dụng trong thiết kế điều khiển Nhiều tác giả đã nghiên cứu áp dụng vào thiết kế bộ điều khiển tối ưu cho
hệ lái tự động tàu thủy Trong số những phương pháp thiết kế được xem xét, giải thuật ADP đươc phát triển từ lý thuyết RL lấy cảm hứng từ học máy (Machine Learning) để giải phương trình HJB, có nhiều cách tiếp cận ADP như là ADP với cấu trúc điều khiển AC-NNs, kỹ thuật học tăng cường tích phân luật điều khiển trực tuyến (On Policy Intergral Reinforcement Learning), thuật toán off-policy IRL [60]–[66]
Các công trình [60], [61] đã đề xuất thuật toán điều khiển tối ưu bằng cách sử dụng giải thuật ADP cấu trúc AC-NNs cho hệ lái tự động tàu thủy, yêu cầu phải biết thông tin động học của hệ thống Thuật toán điều khiển tối ưu dựa trên giải thuật lặp PI, cấu trúc AC-NNs, trong đó critic NN nhằm xấp xỉ hàm chi phí và actor NN được sử dụng
để xấp xỉ luật điều khiển để tối thiểu hóa hàm chi phí và giảm thiểu sai số bám Cấu trúc AC-NNs đã được mở rộng sang lĩnh vực lĩnh vực điều khiển bám quỹ đạo cho các phương tiện hàng hải bao gồm phương tiện không người lái (USV) [66] và phương tiện
tự hành dưới nước (AUV) [62] Tuy nhiên, trong các nghiên cứu này khi thiết kế bộ điều khiển các tác giả không đề cập tới vấn đề nhiễu tác động và các thành phần bất định có trong mô hình tàu thủy
Trong công trình [63], một kỹ thuật điều khiển mới có tên là tối ưu hóa Backstepping dựa trên kỹ thuật Backstepping kết hợp với cấu trúc AC-NNs để thực hiện các giải pháp
Trang 29tối ưu hóa cho các hệ thống con tương ứng Bởi vì thực hiện các giải pháp tối ưu hóa cho các hệ con, công trình nghiên cứu này nhóm tác giả sử dụng nhiều NN, bộ điều khiển được thiết kế khá phức tạp, đẫn đến tốc độ hội tụ có thể giảm theo Tuy nhiên, công trình trên vấn đề ảnh hưởng của các yếu tố như bất định mô hình và nhiễu tác động tới bộ điều khiển được thiết kế không được xem xét
Công trình [65], đề xuất một phương pháp điều khiển bám thích nghi dựa trên cấu trúc AC-NNs cho hệ lái tự động tàu thủy thiếu cơ cấu chấp hành (USVs) có mô hình phi tuyến, chịu ảnh hưởng của nhiễu đầu vào và ràng buộc tín hiệu đầu ra Bằng cách sử dụng kỹ thuật chuyển đổi sai số bám để xử lý bài toán ràng buộc sai số đảm bảo rằng USVs có thể bám chính xác quỹ đạo đặt Tuy nhiên, luật cập nhật các trọng số của AC-NNs trong công trình là tuần tự vì cấu trúc điều khiển của hệ thống có nhiều bước tính toán, làm giảm tính hội tụ của các tham số Ngoài ra, luật cập nhật của AC-NNs phụ thuộc vào một hàm critic hoàn toàn khác so với hàm chi phí cổ điển và không phụ thuộc vào hàm Hamilton Đối tượng nghiên cứu của công trình này là các tàu thủy thiếu cơ cấu chấp hành không phải tàu thủy đủ cơ cấu chấp hành
Trong [64] đề xuất bộ điều khiển tối ưu dựa trên thuật toán học tăng cường tích phân (IRL) sử dụng cấu trúc AC-NNs, không yêu cầu thông tin động học nội của hệ thống Tuy nhiên, hàm chi phí của hệ thống không phải là dạng toàn phương truyền thống, critic NN chỉ phụ thuộc vào sai số giải thuật dự báo TD (Temporal Difference) có thể tìm được mà không phụ thuộc vào phương trình HJB Trong quá trình tính toán luật điều khiển để không phụ thuộc vào động học nội của hệ thống các tác giả của công trình đã
sử dụng hàm Nussbaum
1.3 Hướng nghiên cứu của đề tài
Sau khi phân tích tổng quan các phương pháp điều khiển cho hệ lái tự động tàu thủy của các công trình nghiên cứu trong và ngoài nước cho thấy: Các phương pháp điều khiển điều động và bám quỹ đạo cho tàu thủy được áp dụng rất nhiều, từ những phương pháp kinh điển cho đến những phương pháp như điều khiển phi tuyến hiện đại, điều khiển thích nghi bền vững,….Trong những năm gần đây, điều khiển tối ưu hiện đại cho
hệ phi tuyến đang dần được nghiên cứu và áp dụng cho mô hình tàu thủy Điều khiển tối ưu không chỉ đảm bảo ổn định hệ thống mà còn tối thiểu hóa hàm chi phí, nhằm nâng cao chất lượng điều khiển hệ thống, tiết kiệm năng lượng Thông thường, điều khiển tối
ưu áp dụng cho các đối tượng có mô hình động lực học chính xác không có nhiễu tác động Do vậy, bài toán điều khiển tối ưu cho hệ tàu thủy có nhiễu tác động vẫn là bài toán mở
Từ đó, đề tài lựa chọn hướng nghiên cứu chính như sau:
Nghiên cứu, đề xuất cấu trúc điều khiển tối ưu bền vững cho hệ lái tàu thủy đủ cơ cấu chấp hành với không yêu cầu biết trước thông tin động học của hệ thống, dựa trên xấp
xỉ nghiệm của phương trình HJI Việc tìm nghiệm xấp xỉ của phương trình HJI dựa vào giải thuật ADP với cấu trúc ba NN dùng để xấp xỉ hàm chi phí tối ưu, luật điều khiển tối ưu và luật nhiễu xấu nhất Cấu trúc điều khiển mới đảm bảo hệ thống ổn định, tàu thủy bám quỹ đạo đặt và có khả năng làm suy giảm nhiễu đầu vào tác động lên hệ thống 1.4 Kết luận chương 1
Với mục đích nghiên cứu thiết kế bộ điều khiển bám tối ưu quỹ đạo cho tàu thủy có
mô hình bất định và chịu ảnh hưởng của nhiễu tác động chưa biết trước dựa trên giải thuật ADP, chương 1 của đề tài đã thực hiện được các nhiệm vụ sau:
Trang 30- Xây dựng mô hình động lực học của tàu thủy sáu bậc tự do, tàu ba bậc tự do đặt trên mặt phẳng nằm ngang Phân tích các mô hình động lực học khác nhau của tàu từ đó xác định tàu thủy đủ cơ cấu chấp hành là đối tượng nghiên cứu Trong chương này, đề tài
đã đưa tất cả thành phần bất định mô hình và nhiễu tác động thành một véc-tơ hàm phi tuyến bất định chưa biết để xử lý khi thiết kế bộ điều khiển Đưa ra các khái niệm ổn định UUB cho hệ thống phi tuyến
- Phân tích đánh giá các công trình nghiên cứu trong và ngoài nước liên quan đến thiết kế bộ điều khiển cho tàu thủy, từ đó đề xuất hướng nghiên cứu cho đề tài với xây dựng bộ điều khiển tối ưu cho hệ lái tự động tàu mà mô hình chứa thành phần bất định
và nhiễu ngoài tác động
Trang 31Chương 2 CƠ SỞ PHƯƠNG PHÁP LUẬN CỦA ĐỀ TÀI
2.1 Mạng nơ-ron xấp xỉ hàm
Do yêu cầu RL dùng NN để xấp xỉ hàm có cấu trúc đơn giản Do vậy cấu trúc NN được sử dụng trong đề tài là mạng MLP truyền thẳng một lớp ẩn, có một đầu ra duy nhất, cấu trúc NN dùng trong đề tài được biểu diễn theo hình dưới:
Hình 2.1 Xấp xỉ hàm bằng mạng MLP một lớp ẩn Hàm đầu ra của mạng được xác định như sau [67], [68]:
1
( ) N w ( ) T ( )
i i i
( ) T ( ) ( ),
x
f x W x x x (2.2) trong đó: W là trọng số “lý tưởng” của NN, N số lượng nút ở lớp ẩn,
véc-tơ hàm kích hoạt và x là sai số xấp xỉ ( )
NN Sai số xấp xỉ sẽ hội tụ 0 khi N Ngoài ra khi N hữu hạn và
Trang 32PE rất khó kiểm tra, hơn nữa điều kiện PE chỉ là điều kiện đủ Do đó, đề tài không kiểm tra tính hội tụ của của trọng số NN nhờ điều kiện PE
2.2 Giải thuật quy hoạch động thích nghi cho hệ phi tuyến
Trong những năm gần đây, điều khiển tối ưu được rất nhiều nhà nghiên cứu quan tâm Điều khiển tối ưu không những đòi hỏi phải đảm bảo mục đích tối ưu mà còn đảm bảo tính ổn định của hệ thống Về mặt toán học, nghiệm của phương trình HJB chính là nghiệm của bài toán tối ưu cần tìm HJB là một phương trình vi phân đạo hàm riêng phi tuyến, trong trường hợp đặc biệt hệ là tuyến tính, HJB trở thành phương trình đại số Riccati Giải thuật ADP được phát triển để tìm nghiệm xấp xỉ của phương trình HJB [11], thông qua các giải thuật lặp PI để giải phương trình Lyapunov (LE) [70] Giải thuật ADP sử dụng hai NN để xấp xỉ nghiệm cho HJB, dựa trên cấu trúc AC-NNs, trong đó actor NN dùng để xấp xỉ luật điều khiển tối ưu, critic NN dùng để xấp xỉ hàm Bellman Việc thực hiệu cấu trúc AC-NNs có thể dựa trên luật cập nhật tuần tự tham số của NN thể hiện trong các công trình [11], [71] hoặc cập nhật tham số song song hay được gọi
là cập nhật trực tuyến (online) [13], [72]–[74] Một vấn đề lớn được quan tâm trong RL,
là việc lựa chọn phương pháp tính toán luật điều khiển sử dụng thông tin động học của
hệ thống, vì vậy có hai phương pháp on-policy RL và off-policy RL
Tổng hợp các công trình nghiên cứu về ADP có thể nhận thấy hai hướng nghiên cứu chính của giải thuật này là: ADP với cấu trúc điều khiển AC-NNs và thuật toán off-policy IRL không cầu thông tin của mô hình Các thuật toán được đề xuất ở đây được
áp dụng cho đối tượng phi không chịu ảnh hưởng của nhiễu đầu vào
Trong đó x n, ( ) f x n, ( ) g x n m là những véc-tơ hàm phi tuyến, um
là đầu vào điều khiển
Giả thiết 2.1: Hệ (2.4) có nghiệm và có điểm cân bằng là gốc
Hàm chi phí của hệ (2.4) được định nghĩa:
Trang 33với ( ) ; ( ) T ;
T
q x q x x Q x xác định dương, R m m là ma trận đối xứng xác định dương
Sử dụng kết quả của công trình [73] thu được phương trình:
* ( )
( )min ( , ) [r V ( ( ) ( ) )] 0
T T
2.2.2 Quy hoạch động xấp xỉ/thích nghi dựa trên thuật toán OIRL
2.2.2.1 Thuật toán lặp PI để giải phương trình HJB
Trong phần này ta đưa ra thuật toán lặp giúp giải bài toán điều khiển tối ưu mà không cần biết tham số động học của hệ thống f x Thay vì giải HJB (2.12) dạng vi phân, ta ( )
có thể giải HJB dạng tích phân Thuật toán PI dựa trên việc giải HJB dạng tích phân, do
đó có tên gọi là OIRL Bằng cách giải HJB dạng tích phân thay vì vi phân, ta có thể bỏ qua yêu cầu về thông tin động học nội của hệ thống Thuật toán OIRL được biểu diễn như sau
Bước 1: Tính V x sử dụng phương trình sau: ( )i ( )
Trang 34Bước 2: Cập nhật luật điều khiển
( )
2
T i
Phương trình (2.13) có thể coi là phương trình HJB dạng tích phân
Bảng 2.1 Thuật toán OIRL
Sự hội tụ của thuật toán IRL được đảm bảo thông qua định lý dưới đây
Định lý 2.1 Giải hệ phương trình (2.13) để tìm nghiệm V x đương với việc tìm ( )i ( )nghiệm của phương trình:
i i
i
VV
Chứng minh: Định lý được chứng minh trong [71]
Định lý 2.2 Thuật toán lặp OIRL hội tụ đều về nghiệm tối ưu, tức là:
Chứng minh: Được trình bày trong tài liệu [71]
2.2.2.2 Ứng dụng NN cho thuật toán OIRL
Với WL L, L là số nơ-ron trong lớp ẩn
Thay xấp xỉ hàm (2.17) vào HJB (2.13) sẽ xuất hiện sai lệch ở như sau: L
Trang 35Ta chỉnh định tham số L( )i
W để tối thiểu hóa đại lượng bình phương sai lệch L2( )t
Vì là hàm tuyến tính của tham số L ( ) i
g x là động học đầu vào của hệ thống và k x( ) n p là động học nhiễu đầu vào
Trang 36Định nghĩa 1.1 [75] Hệ thống (2.23) có độ lợi L nhỏ hơn hoặc bằng 2 tức là với
Để công thức (2.24) có ý nghĩa thì điều kiện nhiễu tác động bị chặn d d
Với là mức độ suy giảm tác động của nhiễu đầu vào d x Điều kiện suy giảm ( )nhiễu (2.24) biết rằng ảnh hưởng nhiễu đầu vào đối với hàm chỉ tiêu chất lượng mong muốn ở đầu ra bị suy giảm nhỏ nhất bằng mức độ suy giảm Giá trị nhỏ nhất mà điều kiện suy giảm nhiễu (2.24) được thỏa mãn gọi là giải pháp điều khiển tối ưu bền vững Tuy nhiên, không có một phương pháp nào để tìm lượng suy giảm nhiễu nhỏ nhất đối với các hệ thống phi tuyến nói chung và một giá trị đủ lớn thường được xác định cho Hàm chi phí được định nghĩa [12]:
Phương trình (2.26) thỏa mãn điều kiện Nash [70], [76]:
*( ( )) min max ( , , ) max min ( , , )
Trong đó V* là hàm Bellman Thay thế luật điều khiển tối ưu u* công thức (2.29)
và luật nhiễu xấu nhất (2.30) vào hàm Hamilton (2.27) thu được phương trình HJI như sau [10], [12], [70], [75]:
Trang 37* * *
1
14
4
T T
Thuật toán 2.1: Thuật toán off-policy RL để giải phương trình HJI
Bước 1: x x khởi tạo luật điều khiển chấp nhận được u x , nhiễu (0)( ) d x và (0)( )giá trị V x (0)( )
2
12
i i
x
Nếu thỏa mãn tiêu chuẩn hội tụ sao cho V ( 1) i V ( ) i , với là số dương đủ nhỏ thì gán u( 1)i ( )x u*( ),x V( 1)i ( )x V*( ),x d( 1)i ( )x d*( )x kết thúc giải thuật
Nếu không thỏa mãn, gán i i 1 và quay lại bước 2
2.2.3.1 Thuật toán off-policy IRL
Hệ thống (2.23) được viết lại như sau:
Trang 38Lấy đạo hàm của V x( )i( ) theo thời gian kết hợp với (2.35) ta được:
Chứng minh: Định lý 2.2 được chứng minh tại mục 3.6.4 của chương 3 đề tài Tuy việc giải phương trình (2.38) cho chung nghiệm với việc giải (2.32), tuy nhiên việc giải (2.38) không yêu cầu thông tin về động học của hệ thống, đây là lợi thế lớn của thuật toán off-policy IRL so với các phương pháp khác trong giải thuật ADP
Thuật toán 1.1: Thuật toán off-policy IRL
Bước 1: x khởi tạo luật điều khiển chấp nhận được u x , nhiễu (0)( ) d x Áp (0)( )dụng vào hệ thống và thu thập giữ liệu
Bước 4: Dừng nếu điều kiện dừng được thỏa mãn, ngược lại đặt i i 1 và chạy lại bước 3
Trang 392.2.3.2 Ứng dụng mạng nơ-ron vào thuật toán off-policy IRL
Áp dụng khả năng xấp xỉ của NN, thuật toán off-policy IRL sử dụng ba NN nhằm xấp xỉ các hàm giá trị sau:
T l
=( ) hjb T ( )
Trang 40t T
t
t T t
t T
q t
xh
W) điểm từ t đến 1 t trong không gian trạng thái, trên khoảng thời gian trích Nmẫu T trong pha 1 Sau đó, với u( 1)i và d( 1)i đã cho, chúng ta có thể sử dụng thông tin này để đánh giá (2.44) và (2.45) trong N điểm để đưa ra:
Thuật toán 2.2: Thuật toán Off-Policy IRL sử dụng NN
Bước 1: x khởi tạo luật điều khiển chấp nhận được u, áp dụng hệ thống để thu thập dữ liệu
Bước 2: Khởi tạo W W1(0), 2(0) và 3(0)
W , u(0), ,i 0 w Bước 3 Cập nhật trọng số NN:
Tính toán H và Y trong công thức (2.46)