Điều khiển thiết bị bay không người lái giám sát môi trường thông qua học sâu tăng cường

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	498,25 KB

Nội dung

Điều khiển thiết bị bay không người lái giám sát môi trường thông qua học sâu tăng cường Nguyễn Trọng Bình∗ Trịnh Văn Chiến† Nguyễn Tiến Hòa∗ ∗ Trường Điện Điện Tử, Đại học Bách khoa Hà Nội, Hà Nội, V[.]

Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Điều khiển thiết bị bay không người lái giám sát môi trường thơng qua học sâu tăng cường Nguyễn Trọng Bình∗ Trịnh Văn Chiến† Nguyễn Tiến Hòa∗ ∗ † Trường Điện - Điện Tử, Đại học Bách khoa Hà Nội, Hà Nội, Việt Nam Trường Công Nghệ Thông Tin Truyền Thông, Đại học Bách khoa Hà Nội, Hà Nội, Việt Nam Email: binh.nt182905@sis.hust.edu.vn;hoa.nguyentien@hust.edu.vn; chientv@soict.hust.edu.vn Tóm tắt nội dung—Phương tiện bay khơng người lái (UAVs) ngày sử dụng rộng rãi mạng 5G định hướng mạng 6G nhiều lĩnh vực ứng dụng đa dạng, dân lẫn qn Một vài ví dụ điển hình ứng dụng UAVs bao gồm: kiểm tra sở hạ tầng, giám sát giao thông, viễn thám, đồ, cứu hộ người động vật Tuy nhiên, việc sử dụng UAVs ứng dụng yêu cầu định tính tự chủ Nói cách khác, UAVs phải có khả hồn thành nhiệm vụ tình khơng có can thiệp người Trong nghiên cứu này, sử dụng học tăng cường sâu với thuật toán Deep deterministic Policy Gradient (DDPG) để giải tốn giám sát mơi trường Các bước nghiên cứu bao gồm: Xây dựng mô hệ thống giám sát môi trường sử dụng thiết bị bay không người lái với tham số bản, áp dụng thuật toán học tăng cường sâu DDPG Kết mô thực python Từ khóa—UAVs, Deep Reinforcement Learning, Coverage Maximization, Connectivity Maintenance I GIỚI THIỆU Các phương tiện bay không người lái (unmanned aerial vehicles-UAV) thực thể mạng nhỏ, nhanh, tính linh động cao sử dụng nhiều ngành công nghiệp khác nhau, bao gồm: Kiểm tra hệ thống điện, giao vận vận chuyển bưu kiện gói hàng, quản lý thảm họa, giám sát giao thông [1]–[3] Việc sử dụng UAV không giới hạn cơng nghiệp học thuật, mà cịn phục vụ nhu cầu cá nhân hàng ngày Người điều khiển UAV phải ln trì đường nhìn thẳng trực quan (visual line of sight - VLOS) UAV số điều kiện ràng buộc quy định hành (ví dụ vùng bay địa điểm cụ thể), hỗ trợ công nghệ khác [4] Trong UAV sử dụng chủ yếu VLOS, có nhiều tình hướng tới khơng phải VLOS để kích hoạt ứng dụng vùng phủ sóng rộng lớn [5], [6] Do đó, cần có đồng thuận bên liên quan nhằm mở rộng phạm vi hoạt động thương mại UAV để bao phủ không phận khu vực đô thị mở rộng vùng dân cư biên giới, núi cao, hải đảo nơi mà tầm nhìn bị hạn chế dẫn đến mơi trường truyền dẫn VLOS Theo xu hướng phát triển cơng nghệ nay, UAV tích hợp vào mạng di động không dây Hệ thống 5G hệ mạng xem xét quản lý UAV minh chứng thiết yếu phát triển mạng thông tin di động [7] Mặt khác, mơ hình mạng mới, chẳng hạn điện toán biên, điện toán đám mây, mạng phi tế bào, trợ giúp UAVs để xử lý ứng dụng điều khiển bay tốc độ ISBN 978-604-80-7468-5 cao Hơn nữa, nhà cung cấp thiết bị phần cứng cho phép tích hợp kiến trúc vi xử lý khác vào UAVs [8] Điều cho phép UAVs xử lý ứng dụng thời gian thực tối ưu tài nguyên vô tuyến phục vụ điều khiển quỹ đạo UAVs Việc triển khai mạng cảm biến không dây ứng dụng thực thông qua trợ giúp UAVs để đáp ứng nhiều yêu cầu hệ thống truyền thơng, vùng phủ sóng kết nối thường coi hai yếu tố tối quan trọng [9] Phạm vi bao phủ định khu vực mục tiêu quan tâm cảm biến giám sát mức độ tin cậy, kết nối liên quan đến khả truyền liệu cảm biến từ cảm biến đến trạm xử lý trung tâm [10] Đảm bảo phạm vi phủ sóng kết nối quan trọng nhiều ứng dụng, mạng yêu cầu theo dõi phân tích mục tiêu khu vực liên tục [11], [12] Bên cạnh đó, mạng cảm biến khơng dây hệ thống động Khi cảm biến xảy lỗ dẫn đến liên kết mạng bị thay đổi bảng định tuyến mạng bị phá vỡ, gây đụng độ trình quy hoạch mạng truyền nhận gói tin Cho đến nay, thuật toán truyền thống giải vấn đề thường có độ phức tạp tính tốn cao, khó đưa vào ứng dụng thực tế với kênh biến thiên nhanh [13] Học tăng cường (reinforcement learning) cung cấp khn khổ tốn học để xây dựng chiến lược phương thức ánh xạ trạng thái thành hành động với mục tiêu tối đa hàm phần thưởng tích lũy [14] Học tăng cường áp dụng rộng rãi để giải vấn đề lĩnh vực khác nhau, chẳng hạn chế tạo sản xuất, tối ưu hóa sách lĩnh vực tài chính, hệ thống điều khiển rơ bốt Cùng với phát triển kỹ thuật học sâu, học tăng cường phát triển theo hướng học sâu tăng cường (Deep reinforcement learning-DRL), mạng nơ-ron học máy sâu (DNN) sử dụng trình hình thành sách [15], [16] Với cấu trúc học ngoại tuyến (offline-learning) mạng DNN dự đoán cập nhật trực tuyến kết hợp với DRL Các kỹ thuật DRL có khả xử lý vấn đề phức tạp ứng với tập liệu nhiều chiều khơng gian hành động (thậm chí cho phép không gian hành động miền liên tục) [17] Những tính làm cho DRL có thêm đóng góp đáng kể so với học tăng cường Và đột phá gần viễn thông minh chứng thành công DRL Ứng dụng DRL hệ thống viễn thông cho phép quy hoạch tài nguyên vô tuyến, hướng tới thiết kế thời gian thực 304 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) cảm biến chức giao tiếp Với chức cảm biến, UAV thu thập liệu tượng quan tâm rò rỉ khí gas/ xạ, chất phóng xạ chất nhiễm độc hại) Với chức thông tin liên lạc, UAV trao đổi liệu với UAV khác hệ thống Khi thực chức cảm biến, UAV đạt liệu cảm biến gọi "giá trị quan tâm" Giá trị quan tâm coi số liệu để đo giá trị chất lượng liệu thu thập Nói chung, giá trị quan tâm khác với vị trí khác UAV Để mơ hình hóa phân bố giá trị quan tâm tượng khu vực, áp dụng phương pháp sử dụng rộng rãi khoa học địa chất môi trường [18] biểu thị ϕ(p) giá trị quan tâm đạt UAV vị trí p Ở đây, vị trí p xác định tọa độ (x, y, z) tương ứng mơ hình hệ thống Do ϕ(p) xác định theo [18]: Tầm cảm biến UAV Thiết bị bay không người lái UAV Phân bố tượng mơi trường Hình 1: Mơ hình hệ thống với nhiều UAVs hoạt động cảm biến giám sát môi trường ϕ(p) = βF(p), Trong báo này, nghiên cứu ứng dụng DRL vào mạng cảm biến nhiều UAVs để giám sát mơi trường Các đóng góp báo bao gồm: • Chúng tơi trình bày ý tưởng thiết kế hệ thống giám sát môi trường sử dụng nhiều UAVs, tạo thành mạng cảm biến dựa tượng quan tâm để giám sát môi trường mở không xác định cho trước Hệ thống mà xem xét áp dụng cho nhiều trường hợp bao gồm giám sát vật liệu nguy hiểm (ví dụ: chất nhiễm độc hại, chất phóng xạ) bị rị rỉ khu vực rộng mà khơng có can thiệp người • Thuật toán học sâu tăng cường DDPG đề xuất để giải thách thức đáp ứng mục tiêu tối đa hóa diện tích bao phủ Thêm vào việc sử dụng quy luật chuyển động phương thức trao đổi thông tin đơn giản khiến cho thuật tốn trở nên thực tế • Thuật tốn Dijkstra sử dụng cho ma trận kết nối UAV Ma trận yếu tố góp phần hình thành nên sách điều khiển chuyển động kết mạng kết nối ln trì suốt q trình thực nhiệm vụ • Mơ thực để xác nhận hiệu suất thuật toán Hàm phần thưởng việc huấn luyện mạng DRL cải thiện sau vài vòng lặp Phần lại báo có cấu trúc sau: Mục II thảo luận mơ hình truyền thơng sử dụng UAVs việc giám sát mơi trường quy trình định dựa vào tiến trình Markov Mục III trình bày cách sử dụng thuật toán DDPG cho việc giám sát môi trường Kết mô đánh giá hiệu suất mạng UAVs mơ hình DRL trình bày Mục IV Cuối cùng, Mục V đưa kết luận báo II MƠ HÌNH HỆ THỐNG A Mơ hình hệ thống Chúng ta xem xét hệ thống giám sát mơi trường theo Hình 1: Hệ thống bao gồm N UAVs cho khu vực không xác định cho trước Mỗi UAV trang bị chức ISBN 978-604-80-7468-5 (1) β = [β1 , , βm ] số F(p) = [f1 (p), fm (p)]T hàm không gian sở với T toán tử chuyển vị Phần tử k th F (p) hàm Gaussion biểu −|p−qk |2 2σ k , với qk σk vị trí diễn fk (p) = e trung tâm phương sai hàm fk (p) Giả định hệ thống có nút đặc biệt, gọi "nút gốc", trang bị với khả cao việc tính tốn lượng so với UAV khác Nút gốc định kỳ xác định hướng di chuyển tối ưu tốc độ cho tất UAV dựa thông tin thu thập vị trí giá trị quan tâm UAV mạng Nó chuyển giá trị quan tâm tất UAV đến trạm trung tâm để phân tích thêm đưa định Là điều khiển trung tâm, nút gốc nhằm mục đích điều khiển hướng chuyển động tốc độ tất UAV hệ thống để tối đa hóa tổng giá trị quan tâm, phạm vi cảm biến tối thiểu hóa mức tiêu thụ lượng UAV đồng thời trì kết nối UAV B Quy trình định Markov Nút gốc định kỳ xác định chuyển động tối ưu đường tốc độ cho tất UAV Như vậy, phân chia thời gian thành khoảng thời gian giống hệt τ giây, thể chu kỳ điều khiển Thời gian bắt đầu tức chu kỳ điều khiển gọi bước thời gian hành động điều khiển thực bước thời gian 1) Tập trạng thái-State space: Gọi pi ϕi biểu thị vị trí giá trị quan tâm UAV i vào bước thời gian tại, vị trí pi tương ứng với tọa độ (xi , yi ) Như vậy, tập trạng thái hệ thống biểu thị S, xác định S = {(p1 , ϕ1 , , pN , ϕN )}, pi ϕi thể vị trí giá trị quan tâm UAV i 2) Tập hành động-Action space: Ký hiệu A tập hành động hệ thống Cho trước trang thái s ∈ S định, hành động điều khiển a ∈ A thực để xác định tốc độ di chuyển hướng N UAVs chu kỳ điểu khiển Do đó, A định nghĩa 305 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) A = {(v1 , α1 , , vN , αN )}, αi , ≤ αi ≤ 2π, hướng di chuyển UAV vi ≥ tốc độ UAV i Lưu ý vi = 0, UAV i không di chuyển chu kỳ tiếp theo, tức UAV di chuyển vị trí tại(trạng thái tĩnh), khơng UAV di chuyển với tốc độ vi 3) Hàm phần thưởng-Reward function: Mục tiêu hệ thống giám sát 1) tối đa hóa tổng giá trị quan tâm đặt UAV, 2) tối đa hóa phạm vi cảm biến tối thiểu hóa lượng tiêu thụ UAV, 3) trì kết nối UAV Do hàm phần thưởng thiết kế sau Năng lượng tiêu thụ: Khi hành động điều khiển a thực vào bước thời gian với trang thái hệ thống s, đặt ei (s, a) biểu thị tổng mức sử dụng lượng chuyển động UAV i khoảng thời gian kiểm soát τ Trong nghiên cứu này, giả định UAV tiêu thụ e0 Joules để di chuyển meter [19] Như vậy, có ei (s,P a) = τ e0 /vi , N tổng lượng tiêu thụ hệ thống Ξ = i=1 ei (s, a) Giá trị quan tâm pham vi cảm biến Giả định tất UAV có tần số lấy mẫu, ký hiệu f Do đó, số lượng mẫu quan tâm mà UAV i thu thập khoảng PM thời gian τ M = f τ Chúng ký hiệu ϕi (s, a) = k=1 ϕi,k tổng giá trị quan tâm UAV i chu kỳ τ ϕi,k xác định Để tối đa hóa tổng giá trị quan tâm, UAVs phải di chuyển đến vị trí với giá trị P quan tâm cao M Tổng giá trị quan tâm đạt hệ thống i=1 ϕi (s, a) Để tối đa phạm vi cảm biến hệ thống, chồng chéo pham vi cảm biến UAV cần giảm thiểu Đối với điều này, gọi rc rs bán kính giao tiếp bán kính cảm biến UAV Chúng đặt Υint (s, a) để xác định mức độ bao phủ giá trị quan tâm đạt hệ thống cho trước cặp (s, a) Do đo Υint xác định sau: Υint = N X ϕ(s, a) + i=1 N X N X max(dij − dth , 0), (2) i=1 j=1 dij khoảng cách UAV i j, dth khoảng cách ngưỡng hai UAV liền kề Các cơng trình [20], [21] cho thấy mẫu lục giác tối đa hóa độ che phủ cảm biến tránh lỗ che phủ Để đạt mục tiêu, đặt ngưỡng khoảng cách dth cho khoảng cách √ hai nốt liền kề theo mơ hình lục giác, tức dth = 3rs Từ (1), UAV tọa độ vị trí có giá trị quan tâm lớn khoảng cách cặp UAV bắt kì lớn dth , Υint tối ưu hóa Duy trì kết nối: Chúng tơi biểu thị ci hệ số kết nối mà UAV i có đường dẫn đến nút gốc trở thành khơng Lưu ý đường dẫn đường dẫn bước đường dẫn nhiều bước Cho vị trí UAV pi , i = 1, , N , thuật tốn Dijkstra tìm đường ngắn [22] đượcPsử dụng để tìm đường từ UAV i đến nút N gốc Đặt Ψc = i=1 ci biểu thị điều kiện mạng kết nối hành động a thực trạng thái s Chúng tơi xác định hàm phần thưởng tức sau: r(s, a) = λ1 Υint + λ2 Ψc − λ3 Ξ, ISBN 978-604-80-7468-5 (3) λ1 , λ2 , λ3 trọng số liên quan đến Υint , Ψc Ξ Như vậy, phần thưởng r(s, a) xác định dựa tổng trọng số giá trị quan tâm, lượng sử dụng di chuyển, mức độ bao phủ trì mạng kết nối Vấn đề điều khiển chuyển động: Bộ điều khiển đặt nút gốc Vào bước thời gian, hệ thống điều khiển quan sát trang thái hệ thống s Sau đó, định hành động a xác định tốc độ chuyển động vi hướng di chuyển αi cho UAV i vào chu kỳ thời gian điều khiển τ giây Tại vào lúc kết thúc chu kỳ điều khiển tiếp theo, hệ thống điều khiển tính tốn hàm phần thưởng tức r(s, a) tín hiệu phản hồi Mục tiêu thiết kế tìm sách điều khiển chuyển động mà định a dựa s để tối đa hóa giá trị mong đợi thời gian dài, i.e., E[r] Tổng quát, thử thách để thiết kế sách điều khiển chuyển động dạng khép kín để tối đa hóa E[r] khu vực quan tâm chưa xác định phát triển hệ thống phức tạp Trong nghiên cứu này, áp dụng học tăng cường sâu khơng mơ hình DDPG để giải thử thách Trong tương tác tác nhân DRL mơi trường, tác nhân học sách kiểm soát tối ưu từ liệu lịch sử bao gồm trạng thái hệ thống, kiểm soát hành động đưa phần thưởng tức III THUẬT TỐN DDPG CHO GIÁM SÁT MÔI TRƯỜNG Trong phần này, sử dụng DDPG để đưa chiến lược hành động cho UAV Về chi tiết, trước tiên chúng tơi giới thiệu sơ lược DDPG, sau trạng thái, hành động phần thưởng DDPG xác định cho tác nhân DDPG phát triển phần mở rộng thuật toán mạng Q sâu (DQN) giới thiệu Mnih et al [23], cách tiếp cận kết hợp học sâu học tăng cường xử lý tập khơng gian hành động có chiều thấp DDPG thuật tốn học tăng cường sâu có khả xử lý với tập không gian hành động nhiều chiều Nó cố gắng tìm chiến thuật hành động hiệu cho tác nhân đặt phần thưởng lớn để hoàn thành nhiệm vụ đưa [24] Thuật tốn DDPG có khả giải tập không gian liên tục, thứ trở ngại lớn phương pháp học sâu cổ điển Q-learning DDPG dựa thuật tốn actor-critic(Chính sách-Đánh giá) Về phương pháp kết hợp gradient policy giá trị hàm Hàm sách µ gọi Tác nhân, hàm giá trị Q gọi mạng Đánh giá Về bản, đầu tác nhân hành động chọn từ không gian hành động liên tục, với trạng thái mơi trường a = µ(s|θµ ), trường hợp chúng tơi, có dạng a = [ρ, ϕ, ψ] Đối với mạng Đánh giá, đầu Q = (s, a|θµ ) tín hiệu có dạng lỗi: Sự khác biệt theo thời gian (TD) để đánh giá hành động tác nhân biết trạng thái mơi trường Sơ đồ tóm tắt kiến trúc đánh giá tác nhân đưa Hình Trong trình huấn luyện, mơ hình DDPG thực thi cho M tập tập diễn T bước Chúng sử dụng số t để biểu thị trình diễn bước tập với t = 1, , T Mạng Chính sách mạng 306 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Algorithm Thuật toán DDPG 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: nâng cao hiệu suất Sự đánh đổi mức khám phá khai thác thực cách sử dụng thuật tốn ϵ, hành động ngẫu nhiên at lựa chọn với xác suất ϵ, hành động xác at = µ(st |θµ ) chọn theo sách theo xác suất − ϵ Hơn nữa, đệm phát lại trải nghiệm b, với kích thước B, sử dụng giai đoạn đào tạo để phá vỡ tương quan thời gian Mỗi tương tác với môi trường lưu trữ dạng giá trị theo dạng [st , a, r, st+1 ], trạng thái tại, hành động để thực hiện, phần thưởng thực hành động a trạng thái st , trạng thái tiếp theo, tương ứng (Thuật toán (dòng 9)) giai đoạn học tập, tập hợp liệu trích xuất ngẫu nhiên từ đệm sử dụng (Thuật tốn (dịng 10)) Ngoài ra, mạng mục tiêu khai thác để tránh phân kỳ thuật toán gây cập nhật trực tiếp trọng số mạng với gradient thu từ tín hiệu lỗi TD Áp dụng thuật tốn DDPG vào mơ hình hệ thống với tác nhân: 20 UAV với UAV gốc thực nhiệm vụ xác định hướng di chuyển tốc độ UAV khác Tập hành động, tập trạng thái hàm phần thưởng xác định phần II Mô hình hệ thống Q Khởi tạo ngẫu nhiên mạng Đánh giá Q(s, a|θ ) mạng Chính sách µ(s|θµ ) với số θQ θµ ′ ′ ′ Q ← θQ , Khởi tạo mạng mục tiêu Q µ với trọng số θ ′ θµ ← θµ Khởi tạo nhớ R for episode = 1, M Khởi tạo trình ngẫu nhiên Nt cho thăm dò hành động Quan sát trạng thái s1 for t=1,T Lựa chọn hành động at = µ(st |θµ )+Nt theo sách nhiễu thăm dò Thực thi hành động at quan sát phần thưởng rt trạng thái st+1 Lưu trữ (st , at , rt , st+1 ) vào nhớ R Lấy mẫu ngẫu nhiên N (st , at , rt , st+1 ) từ R ′ ′ ′ ′ Đặt yi = ri + γQ (si+1 , µ (si+1 |θu )|θQ Cập nhật Pmạng Đánh giá cách giảm tổn hao: L = N1 i (yi − Q(si , |θQ ))2 Cập nhật sách hành động sử dụng sampled policy gradien: P ∇a Q(s, a|θQ )|s=si ,a=µ( si ) ∇θµ µ(s|θµ )|si ∇θµ J ≈ N1 IV MÔ i 15: Cập nhật mạng mục tiêu: ′ A Thiết lập mô ′ θQ ← τ θQ + (1 − τ )θQ ′ Chúng xét tập hợp gồm UAVs, với bán kính cảm biến rs bán kính giao tiếp rc đặt 80m 160m Các UAVs đặt môi trường với giá trị quan tâm phân bố theo hàm Gausian Để làm rõ ràng hơn, xem xét hệ thống UAV hoạt động môi trường 2D (tức hệ tọa độ (x, y)), tương ứng với tất UAVs có độ cao Diện tích hệ thống bao quát 1000 × 1000 [m] Mô thực Python Tác nhân hệ thống sử dụng cấu trúc mạng DDPG bảng III Mạng Chính sách có 521 nút với FC1-2 Output Mạng Đánh giá có giá trị 512 nút với FC1-2 Output Các thông số thể bảng sau ′ θµ ← τ θµ + (1 − τ )θµ 16: 17: end for end for State S Actor µ TD_error PHỎNG VÀ KẾT QUẢ Critic Q Reward r Bảng I: Tham số hệ thống Action a Tham số Bán kính giao tiếp bán kính cảm biến Khu vực giám sát Số lượng UAVs Hệ số tiêu hao lượng EVIRONMENT Hình 2: Cấu trúc mạng sách-đánh giá Đánh giá thiết kế với mạng nơ-ron Mạng giá trị cập nhật dựa phương trình Bellman [25] cách giảm thiểu bình phương trung bình mát giá trị Q cập nhật giá trị gốc, xây dựng Thuật tốn (dịng 11) Như cập nhật mạng sách (dịng 13), dựa định lý gradient sách xác định [24] Ngồi cịn có số thủ thuật thực tế sử dụng để ISBN 978-604-80-7468-5 307 Giá trị 160m 80m 1000mx1000m 15, 20 J/m Bảng II: Tham số huấn luyện Tham số Số tập huấn luyện Beta Gamma Batch size Noise Optimizer Giá trị 500 0.002 0.99 64 0.1 Adam Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Bảng III: Tham số network Network Chính sách Đánh giá kích thước 512 512 512 512 Activation Phần Thưởng Layer FC1 FC2 Output FC1 FC2 Output Relu Số tập huấn luyện Phần Thưởng Hình 4: Hàm phần thưởng trình huấn luyện với N=20 Số tập huấn luyện Hình 3: Hàm phần thưởng trình huấn luyện với N=15 B Kết mơ Trong phần thể kết mô thuật tốn DDPG giám sát mơi trường qua thiết bị bay khơng người lái Các hình vẽ thể giá trị hàm phần thưởng có ứng với số lượng tập huấn luyện 500 trường hợp có số lượng UAV 15 với 20 Chúng ta thấy thuật tốn hội tụ xung quanh tập 60 Với trường hợp N=20 có tầm phủ sóng rộng trả lại phần thưởng lớn V TỔNG KẾT Trong nghiên cứu này, xét vấn đề giám sát môi trường điều khiển thiết bị bay không người lái UAVs thuật tốn học tăng cường sâu Mỗi UAV với bán kính cảm biến ghi lại thông số liên quan đến mơi trường, bán kính giao tiếp kể kết nối với UAV khác, vấn đề đặt tìm kiến sách hoạt động để UAV bao phủ vùng diện tích lớn với giá trị quan tâm mà đảm bảo kết nối UAV Để giải vấn đề này, áp dụng thuật toán học tăng cường sâu DDPG để tối ưu hóa sách hoạt động UAV, giảm thiểu lượng tiêu hao chuyển Các kết mô cho thấy khả áp dụng điều khiển nhiều UAVs vào ứng dụng môi trường thực tế TÀI LIỆU THAM KHẢO [1] Z Zuo, C Liu, Q.-L Han, and J Song, “Unmanned aerial vehicles: Control methods and future challenges,” IEEE/CAA Journal of Automatica Sinica, no 99, pp 1–14, 2022 [2] G Sun, J Li, A Wang, Q Wu, Z Sun, and Y Liu, “Secure and energyefficient uav relay communications exploiting collaborative beamforming,” IEEE Transactions on Communications, vol 70, no 8, pp 5401– 5416, 2022 [3] M Khosravi and H Pishro-Nik, “Unmanned aerial vehicles for package delivery and network coverage,” in 2020 IEEE 91st Vehicular Technology Conference (VTC2020-Spring) IEEE, 2020, pp 1–5 ISBN 978-604-80-7468-5 [4] S Ouahouah, M Bagaa, J Prados-Garzon, and T Taleb, “Deepreinforcement-learning-based collision avoidance in UAV environment,” IEEE Internet of Things Journal, vol 9, no 6, pp 4015–4030, 2022 [5] R J a L Hartley, I L Henderson, and C L Jackson, “BVLOS unmanned aircraft operations in forest environments,” Drones, vol 6, no 7, p 167, 2022 [6] K H Terkildsen, U P Schultz, and K Jensen, “Safely flying BVLOS in the EU with an unreliable UAS,” in 2021 International Conference on Unmanned Aircraft Systems (ICUAS) IEEE, 2021, pp 591–601 [7] H Yang, J Zhao, J Nie, N Kumar, K.-Y Lam, and Z Xiong, “UAVassisted 5G/6G networks: Joint scheduling and resource allocation based on asynchronous reinforcement learning,” in IEEE INFOCOM 2021IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS) IEEE, 2021, pp 1–6 [8] P Smyczy´nski, Ł Starzec, and G Granosik, “Autonomous drone control system for object tracking: Flexible system design with implementation example,” in 2017 22nd International Conference on Methods and Models in Automation and Robotics (MMAR) IEEE, 2017, pp 734– 738 [9] I Jawhar, N Mohamed, and J Al-Jaroodi, “UAV-based data communication in wireless sensor networks: Models and strategies,” in 2015 International Conference on Unmanned Aircraft Systems (ICUAS), 2015, pp 687–694 [10] D Popescu, C Dragana, F Stoican, L Ichim, and G Stamatescu, “A collaborative UAV-WSN network for monitoring large areas,” Sensors, vol 18, no 12, p 4202, 2018 [11] M Mozaffari, W Saad, M Bennis, Y.-H Nam, and M Debbah, “A tutorial on UAVs for wireless networks: Applications, challenges, and open problems,” IEEE communications surveys & tutorials, vol 21, no 3, pp 2334–2360, 2019 [12] J R Antunes, L Brisolara, and P R Ferreira, “UAVs as data collectors in the WSNs: Investigating the effects of back-and-forth and spiral coverage paths in the network lifetime,” in 2020 X Brazilian Symposium on Computing Systems Engineering (SBESC), 2020, pp 1–8 [13] N Tekin and V C Gungor, “Lifetime analysis of error control schemes on wireless sensor networks in industrial environments,” in 2019 27th Signal Processing and Communications Applications Conference (SIU), 2019, pp 1–4 [14] K Arulkumaran, M P Deisenroth, M Brundage, and A A Bharath, “Deep reinforcement learning: A brief survey,” IEEE Signal Processing Magazine, vol 34, no 6, pp 26–38, 2017 [15] G Gupta and R Katarya, “A study of deep reinforcement learning based recommender systems,” in 2021 2nd International Conference on Secure Cyber Computing and Communications (ICSCCC) IEEE, 2021, pp 218–220 [16] H Li, T Wei, A Ren, Q Zhu, and Y Wang, “Deep reinforcement learning: Framework, applications, and embedded implementations: Invited paper,” in 2017 IEEE/ACM International Conference on Computer-Aided Design (ICCAD), 2017, pp 847–854 [17] H van Hasselt and M A Wiering, “Reinforcement learning in continuous action spaces,” in 2007 IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning, 2007, pp 272–279 308 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) [18] N Cressie, Statistics for spatial data John Wiley & Sons, 2015 [19] M Rahimi, H Shah, G S Sukhatme, J Heideman, and D Estrin, “Studying the feasibility of energy harvesting in a mobile sensor network,” in 2003 IEEE International Conference on Robotics and Automation (Cat No 03CH37422), vol IEEE, 2003, pp 19–24 [20] D Van Le, H Oh, and S Yoon, “Virfid: A virtual force (vf)-based interest-driven moving phenomenon monitoring scheme using multiple mobile sensor nodes,” Ad Hoc Networks, vol 27, pp 112–132, 2015 [21] S Yoon, O Soysal, M Demirbas, and C Qiao, “Coordinated locomotion and monitoring using autonomous mobile sensor nodes,” IEEE Transactions on Parallel and Distributed Systems, vol 22, no 10, pp 1742–1756, 2011 [22] T H Cormen, C E Leiserson, R L Rivest, and C Stein, “33.3: Finding the convex hull,” Introduction to Algorithms, pp 955–956, 1990 [23] V Mnih, K Kavukcuoglu, D Silver, A A Rusu, J Veness, M G Bellemare, A Graves, M Riedmiller, A K Fidjeland, G Ostrovski et al., “Human-level control through deep reinforcement learning,” nature, vol 518, no 7540, pp 529–533, 2015 [24] T P Lillicrap, J J Hunt, A Pritzel, N Heess, T Erez, Y Tassa, D Silver, and D Wierstra, “Continuous control with deep reinforcement learning,” arXiv preprint arXiv:1509.02971, 2015 [25] R Bellman, “Dynamic programming,” 2013 ISBN 978-604-80-7468-5 309 ... để giám sát môi trường Các đóng góp báo bao gồm: • Chúng tơi trình bày ý tưởng thiết kế hệ thống giám sát môi trường sử dụng nhiều UAVs, tạo thành mạng cảm biến dựa tượng quan tâm để giám sát môi. .. tụ xung quanh tập 60 Với trường hợp N=20 có tầm phủ sóng rộng trả lại phần thưởng lớn V TỔNG KẾT Trong nghiên cứu này, xét vấn đề giám sát môi trường điều khiển thiết bị bay khơng người lái UAVs... thuật toán mạng Q sâu (DQN) giới thiệu Mnih et al [23], cách tiếp cận kết hợp học sâu học tăng cường xử lý tập không gian hành động có chiều thấp DDPG thuật tốn học tăng cường sâu có khả xử lý

Ngày đăng: 22/02/2023, 20:18