Tối ưu hóa hiệu quả bảo mật của mạng truyền tin UAV ứng dụng học tăng cường

MỤC LỤC

GIẢI PHÁP NÂNG CAO HIỆU QUẢ BẢO MẬT CỦA MẠNG TRUYỀN TIN UAV

MÔ HÌNH HỆ THỐNG MẠNG TRUYỀN TIN UAV 2. Mô hình hệ thống

    Đường dẫn mà người dùng đi theo được xác định trước trước khi mô phỏng một cách ngẫu nhiên bằng cách sử dụng phân phối ngẫu nhiên trên vectơ hành động của riêng mỗi người dùng để mô hình di động của người dùng trong môi trường ổn định và chính xác. Trong hệ thống mạng truyền tin di động sử dụng UAV, mô hình kênh truyền từ UAV đến thiết bị người dùng đóng vai trò quan trọng trong việc đảm bảo hiệu suất và độ tin cậy của kết nối không dây. Trong trường hợp đường thẳng (LoS), khi có tầm nhìn trực tiếp giữa UAV và thiết bị người dùng, tín hiệu có thể truyền qua không gian một cách trực tiếp không bị cản trở, hiệu quả truyền thông cũng như tốc độ truyền tải nhanh và độ tin cậy cao.

    Ngược lại, môi trường bị che khuất (NLoS) như trong các khu vực đô thị có nhiều chướng ngại vật như tòa nhà và cây cỏ, tín hiệu phải đi qua hoặc chảy xung quanh những chướng ngại vật này, có thể dẫn đến giảm chất lượng tín hiệu và tăng độ trễ. Trong đề án này học viên thực hiện mô hình hóa hai kênh truyền theo 2 loại khác nhau trong đó: kênh truyền LoS được mô hình hóa theo kiểu Rician Fading, còn NLoS được mô hình hóa theo phân phối xác suất Rayleigh [20]. Phân phối mũ thường được sử dụng để mô hình hóa thời gian giữa các sự kiện độc lập và đồng nhất, và trong trường hợp mất mát kênh, nó có thể được sử dụng để mô tả sự giảm mạnh của tín hiệu khi truyền qua không gian trong.

    Giá trị SINR cao thường báo hiệu rằng tín hiệu chính là mạnh và không bị ảnh hưởng quá mức bởi nhiễu và tín hiệu ngoại vi, điều này làm tăng khả năng truyền thông ổn định và hiệu quả của kết nối không dây. Ví dụ, trong mạng di động, data rate thường được mô tả dưới dạng bps hoặc Mbps (megabits per second), trong khi trong mạng cáp, nó có thể được đo bằng Mbps hoặc Gbps (gigabits per second).

    CÁC KỸ THUẬT HỌC MÁY

    Chúng được phân thành bốn loại - hữu hạn, vô hạn, liên tục hoặc rời rạc - tùy thuộc vào nhiều yếu tố khác nhau như tập hợp hành động, trạng thái sẵn có và tần suất ra quyết định. Chúng được sử dụng để thiết kế các máy móc hoặc tác nhân thông minh cần hoạt động lâu hơn trong môi trường mà các hành động có thể mang lại kết quả không chắc chắn. Mụ hỡnh MDP sử dụng Thuộc tớnh Markov, trong đú nờu rừ rằng hoạt động ở tương lai chỉ có thể được xác định từ trạng thái hiện tại chứa đựng tất cả thông tin cần thiết từ quá khứ.

    Điều này ngụ ý rằng MDP chỉ sử dụng trạng thái hiện tại để đánh giá các hành động tiếp theo mà không có bất kỳ sự phụ thuộc nào vào các trạng thái hoặc hành động trước đó. Công thức chênh lệch thời gian tính toán giá trị Q bằng cách kết hợp giá trị của trạng thái và hành động hiện tại bằng cách so sánh sự khác biệt với trạng thái và hành động trước đó. DQN hoạt động bằng cách sử dụng mạng thần kinh để ước tính hàm giá trị hành động, hàm này ánh xạ các trạng thái của môi trường với lợi nhuận kỳ vọng (tức là tổng phần thưởng trong tương lai) cho mỗi hành động có thể xảy ra.

     Phát lại trải nghiệm: Lưu trữ trải nghiệm của tác nhân bao gồm các bộ dữ liệu trạng thái, hành động, phần thưởng và trạng thái tiếp theo trong bộ nhớ đệm phát lại. Việc cập nhật được thực hiện bằng cách sử dụng hàm mất mát bắt nguồn từ phương trình Bellman, giúp giảm thiểu sự khác biệt giữa các giá trị hành động được dự đoán và mục tiêu.

    Hình 2.5 Kiến trúc của DQN
    Hình 2.5 Kiến trúc của DQN

    THỰC NGHIỆM VÀ ĐÁNH GIÁ

    KỊCH BẢN THỰC NGHIỆM

    Hàm khen thưởng được xây dựng bằng cách tính toán chênh lệch tổng tỷ lệ của hệ thống giữa trạng thái hiện tại và trạng thái sau đó. Các điều kiện này có vai trò quan trọng trong đánh giá và phân tích hiệu suất của hệ thống mạng truyền tin sử dụng UAV. - Tổn thất kênh truyền(h): Đây là các thông số liên quan đến tổn thất kênh truyền giữa các thành phần trong hệ thống.

    Những giả định được đưa ra giỳp người nghiên cứu xây dựng mô hình toán học, giải quyết vấn đề một cách tiện lợi, nhưng lại có thể không phản ánh chính xác tất cả nhưng yếu tố trong thực tế.  Giả định về phân phối kênh truyền: Trong mô phỏng dựa trên giả định về phân bố Rice (Rice distribution) cho kênh truyền từ BS tới UAV và các kênh truyền từ UAV tới người dùng.  Giả định về nhiễu và tổn thất kênh: Trong mô phỏng các giá trị nhiễu và tổn thất kênh truyền được tính toán dựa trên các công thức được xác định như (2.10),(2.11).

     Giả định về người dùng và vị trí: Mô hình giả định có số lượng người dùng và vị trí, khả năng di chuyển của người dùng trong hệ thống. Tuy nhiên, cần lưu ý rằng các giả định chỉ mang tính chất xấp xỉ và có thể không phản ánh chính xác toàn bộ hoạt động của hệ thống mạng truyền thông sử dụng UAV trong thực tế.

    QUY TRÌNH THỰC NGHIỆM

    Thuật toán DQN sẽ tạo ra hai mạng nơron perceptron đa lớp có cùng cấu trúc là eval-net và target-net, được sử dụng để tính giá trị thực tế của Q và giá trị ước tính của Q tương ứng. Trong thuật toán DQN được tóm tắt trong bảng 3.3, chúng học viên sử dụng kỹ thuật mạng đích và bộ đệm phát lại kinh nghiệm để cải thiện tốc độ hội tụ và tránh tính toán quá mức, như minh họa trong hình 3.2. Tác nhân tương tác lặp đi lặp lại với môi trường bằng cách thực hiện hành động tại và nhận phản hồi với phần thưởng rt tức thì và trạng thái tiếp theo st1.

    Mục tiêu là tìm ra hành động tối ưu * ở trạng thái Q*(s,a) sao cho đạt giá trị lớn nhất và hành động tối ưu này có thể được biểu diễn dưới dạng. Điều này có nghĩa là lợi nhuận tối đa từ trạng thái và hành động là tổng phần thưởng ngay lập tức rt và lợi nhuận ( được chiết khấu bằng  ) thu được bằng cách tuân theo chính sách tối ưu sau đó cho đến hết trạng thái sau (tức là phần thưởng tối đa từ trạng thái tiếp theo s’). Các giá trị của hàm mục tiêu được tính toán và trả về, cho phép đánh giá hiệu suất bảo mật của hệ thống mạng truyền tin sử dụng UAV dưới các điều kiện và tham số khác nhau.

    Bằng cách so sánh các giá trị hàm mục tiêu, ta có thể đánh giá và so sánh hiệu suất của các giải pháp tối ưu khác nhau và chọn ra giải pháp tốt nhất. Từ kết quả mô phỏng, có thể rút ra những thông tin quan trọng về hiệu quả bảo mật của hệ thống mạng truyền tin sử dụng UAV, đưa ra những phân tích và nhận xét về ảnh hưởng của các tham số và điều kiện mô phỏng.

    Bảng 3.1 Các tham số khởi tạo của hệ thống mạng truyền tin
    Bảng 3.1 Các tham số khởi tạo của hệ thống mạng truyền tin

    KẾT QUẢ THỰC NGHIỆM

    Để đánh giá độ hiệu quả của việc dùng thuật toán học tăng cường trong việc nâng cao hiệu quả mạng truyền tin sử dụng UAV ta xem xét dung lượng bảo mật thay đổi như nào khi UAV thực hiện các bước di chuyển. Kết quả mô phỏng đường di chuyển của UAV như trong hình 3.2, cho thấy các UAV di chuyển trong môi trường đã được thiết lập từ trước với kích thước 100m*100m và chiều cao bay được quy định từ 0m – 400m. UAV bay tuân thủ mục đích đặt ra là thực hiện di chuyển sao cho có liên kết ngắn nhất với người dùng thường (màu xanh dương) và xa nhất với nghe lén (màu đỏ).

    Bằng cách mô phỏng và đánh giá dung lượng bảo mật của hệ thống theo độ cao của UAV có thể đưa ra đánh giá về hiệu quả và tìm ra các biện pháp tối ưu để nâng cao hiệu quả bảo mật của hệ thống mạng truyền tin sử dụng UAV. Khi bay ở độ cao 200m dung lượng bảo mật cũng như hiệu quả bảo mật của hệ thống mạng truyền tin là cao nhất và giảm dần khi UAV bay ở độ cao 300m, 400m. Qua mô phỏng chứng minh rằng UAV cho dung lượng bảo mật tốt nhất khi ở một độ cao phù hợp và giảm dần khi bay cao hơn độ cao đó ở đây độ cao phù hợp và hiệu quả nhất là 200m.

    Các kết quả thực hiện đề tài đã tổng hợp thành 01 bài báo qua 02 vòng phản biện đã được chấp nhận, tác giả đã trình bày tại phiên toàn thể của hội nghị quốc tế về truyền thông, hệ thống thông tin và kỹ thuật máy tính lần thứ 6 năm 2024 được tổ chức tại Quảng Châu, Trung Quốc, “2024 6th International Conference on Communications, Information System and Computer Engineering (CISCE 2024)” (Hình 3.6). Theo quy định các bài báo được chấp nhận, thông qua phản biện và trình bày tại phiên toàn thể hội nghị sẽ được đăng trong kỷ yếu hội nghị (có chỉ số Scopus).