Ứng dụng học tăng cường vào bảo mật mạng truyền tin UAV để nâng cao hiệu quả truyền tin

MỤC LỤC

GIẢI PHÁP NÂNG CAO HIỆU QUẢ BẢO MẬT CỦA MẠNG TRUYỀN TIN UAV

MÔ HÌNH HỆ THỐNG MẠNG TRUYỀN TIN UAV 2. Mô hình hệ thống

    Đường dẫn mà người dùng đi theo được xác định trước trước khi mô phỏng một cách ngẫu nhiên bằng cách sử dụng phân phối ngẫu nhiên trên vectơ hành động của riêng mỗi người dùng để mô hình di động của người dùng trong môi trường ổn định và chính xác. Trong trường hợp đường thẳng (LoS), khi có tầm nhìn trực tiếp giữa UAV và thiết bị người dùng, tín hiệu có thể truyền qua không gian một cách trực tiếp không bị cản trở, hiệu quả truyền thông cũng như tốc độ truyền tải nhanh và độ tin cậy cao. Ngược lại, môi trường bị che khuất (NLoS) như trong các khu vực đô thị có nhiều chướng ngại vật như tòa nhà và cây cỏ, tín hiệu phải đi qua hoặc chảy xung quanh những chướng ngại vật này, có thể dẫn đến giảm chất lượng tín hiệu và tăng độ trễ.

    Trong đề án này học viên thực hiện mô hình hóa hai kênh truyền theo 2 loại khác nhau trong đó: kênh truyền LoS được mô hình hóa theo kiểu Rician Fading, còn NLoS được mô hình hóa theo phân phối xác suất Rayleigh [20]. Phân phối mũ thường được sử dụng để mô hình hóa thời gian giữa các sự kiện độc lập và đồng nhất, và trong trường hợp mất mát kênh, nó có thể được sử dụng để mô tả sự giảm mạnh của tín hiệu khi truyền qua không gian trong.

    CÁC KỸ THUẬT HỌC MÁY .1 Học tăng cường

      Công thức chênh lệch thời gian tính toán giá trị Q bằng cách kết hợp giá trị của trạng thái và hành động hiện tại bằng cách so sánh sự khác biệt với trạng thái và hành động trước đó. DQN hoạt động bằng cách sử dụng mạng thần kinh để ước tính hàm giá trị hành động, hàm này ánh xạ các trạng thái của môi trường với lợi nhuận kỳ vọng (tức là tổng phần thưởng trong tương lai) cho mỗi hành động có thể xảy ra. Việc cập nhật được thực hiện thông qua một quy trình gọi là phát lại trải nghiệm, trong đó một loạt trải nghiệm được lấy mẫu ngẫu nhiên từ bộ nhớ đệm và được sử dụng để cập nhật DQN.

      Giá trị mục tiêu được tính bằng phương trỡnh Bellman, trong đú nờu rừ rằng lợi nhuận kỳ vọng cho một hành động nhất định là phần thưởng trước mắt cộng với lợi nhuận kỳ vọng tối đa cho trạng thái tiếp theo. Nó liên quan đến việc lưu trữ một tập hợp trải nghiệm (tức là bộ dữ liệu trạng thái trạng thái-hành động-phần thưởng tiếp theo) trong bộ nhớ đệm và sử dụng những trải nghiệm này để cập nhật DQN trong quá trình đào tạo.

      Hình 2.3 Nguyên lý hoạt động của mô hình MDP
      Hình 2.3 Nguyên lý hoạt động của mô hình MDP

      THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 TỔNG QUAN VỀ PHƯƠNG PHÁP THỰC HIỆN

      Giới thiệu phương pháp mô phỏng

      Còn với thuật toán DQN sẽ sử dụng một mạng nơ- ron để học một ước lượng của hàm giá trị hành động (Q-Function). Mạng này nhận đầu vào là trạng thái của môi trường và đầu ra là ước lượng giá trị của từng hành động có thể thực hiện từ trạng thái đó. DQN sử dụng kỹ thuật lặp kinh nghiệm và mục tiêu cố định để ổn định quá trình học.

      Phương pháp mô phỏng này giúp đánh giá hiệu hiệu suất bảo mật của mạng truyền tin sử dụng UAV dưới điều kiện và tham số khác nhau như số lượng UAV, chiều cao… Bằng cách thay đổi các thông số và điều kiện trong mô hình, có thể phân tích và so sánh các kịch bản khác nhau để đưa ra quyết định và phõn tớch kết quả. Điều này giỳp hiểu rừ hơn về hiệu suất và đặc điểm của hệ thống mạng truyền tin sử dụng UAV và hỗ trợ quyết định trong việc thiết kế và cải tiến bảo mật truyền thông.

      Ưu điểm của phương pháp mô phỏng

      Sử dụng hai thuật toán học tăng cường MDP và DQN, phương pháp mô phỏng cho phép tìm kiếm và tối ưu hóa giải pháp tốt nhất cho vấn đề đang nghiên cứu.

      KỊCH BẢN THỰC NGHIỆM

        Những giả định được đưa ra giỳp người nghiên cứu xây dựng mô hình toán học, giải quyết vấn đề một cách tiện lợi, nhưng lại có thể không phản ánh chính xác tất cả nhưng yếu tố trong thực tế. • Giả định về phân phối kênh truyền: Trong mô phỏng dựa trên giả định về phân bố Rice (Rice distribution) cho kênh truyền từ BS tới UAV và các kênh truyền từ UAV tới người dùng. • Giả định về nhiễu và tổn thất kênh: Trong mô phỏng các giá trị nhiễu và tổn thất kênh truyền được tính toán dựa trên các công thức được xác định như (2.10),(2.11).

        • Giả định về người dùng và vị trí: Mô hình giả định có số lượng người dùng và vị trí, khả năng di chuyển của người dùng trong hệ thống. Tuy nhiên, cần lưu ý rằng các giả định chỉ mang tính chất xấp xỉ và có thể không phản ánh chính xác toàn bộ hoạt động của hệ thống mạng truyền thông sử dụng UAV trong thực tế.

        QUY TRÌNH THỰC NGHIỆM .1 Khởi tạo tham số hệ thống

          Thuật toán DQN sẽ tạo ra hai mạng nơron perceptron đa lớp có cùng cấu trúc là eval-net và target-net, được sử dụng để tính giá trị thực tế của Q và giá trị ước tính của Q tương ứng. Trong thuật toán DQN được tóm tắt trong bảng 3.3, chúng học viên sử dụng kỹ thuật mạng đích và bộ đệm phát lại kinh nghiệm để cải thiện tốc độ hội tụ và tránh tính toán quá mức, như minh họa trong hình 3.2. Tác nhân tương tác lặp đi lặp lại với môi trường bằng cách thực hiện hành động tại và nhận phản hồi với phần thưởng rt tức thì và trạng thái tiếp theo.

          Các giá trị của hàm mục tiêu được tính toán và trả về, cho phép đánh giá hiệu suất bảo mật của hệ thống mạng truyền tin sử dụng UAV dưới các điều kiện và tham số khác nhau. Từ kết quả mô phỏng, có thể rút ra những thông tin quan trọng về hiệu quả bảo mật của hệ thống mạng truyền tin sử dụng UAV, đưa ra những phân tích và nhận xét về ảnh hưởng của các tham số và điều kiện mô phỏng.

          Bảng 3.1 Các tham số khởi tạo của hệ thống mạng truyền tin
          Bảng 3.1 Các tham số khởi tạo của hệ thống mạng truyền tin

          KẾT QUẢ THỰC NGHIỆM

            Để đánh giá độ hiệu quả của việc dùng thuật toán học tăng cường trong việc nâng cao hiệu quả mạng truyền tin sử dụng UAV ta xem xét dung lượng bảo mật thay đổi như nào khi UAV thực hiện các bước di chuyển. Kết quả mô phỏng đường di chuyển của UAV như trong hình 3.2, cho thấy các UAV di chuyển trong môi trường đã được thiết lập từ trước với kích thước 100m*100m và chiều cao bay được quy định từ 0m – 400m. Bằng cách mô phỏng và đánh giá dung lượng bảo mật của hệ thống theo độ cao của UAV có thể đưa ra đánh giá về hiệu quả và tìm ra các biện pháp tối ưu để nâng cao hiệu quả bảo mật của hệ thống mạng truyền tin sử dụng UAV.

            Qua mô phỏng chứng minh rằng UAV cho dung lượng bảo mật tốt nhất khi ở một độ cao phù hợp và giảm dần khi bay cao hơn độ cao đó ở đây độ cao phù hợp và hiệu quả nhất là 200m. Các kết quả thực hiện đề tài đã tổng hợp thành 01 bài báo qua 02 vòng phản biện đã được chấp nhận, tác giả đã trình bày tại phiên toàn thể của hội nghị quốc tế về truyền thông, hệ thống thông tin và kỹ thuật máy tính lần thứ 6 năm 2024 được tổ chức tại Quảng Châu, Trung Quốc, “2024 6th International Conference on Communications, Information System and Computer Engineering (CISCE 2024)” (Hình 3.6).

            Hình 3.2 Kết quả mô phỏng đường di chuyển của UAV
            Hình 3.2 Kết quả mô phỏng đường di chuyển của UAV

            Secrecy performance of the multi-UAVs communication network applying Deep-Q learning

            To the best of our knowledge, publications investigating improving security efficiency for a multi-UAVs relaying network serving multiple ground users in the presence of eavesdroppers (E) using Deep Q-Learning in which UAVs also transmit artificial noise (AN) signals to reduce the impact of E node is still very limited. Without loss of generality, in this proposed model, we assume that (1) GBS is connected to UAVs (UAV1, UAV2, … UAVn) via reliable backhaul connections; (2) the reliability of the backhaul is modelled as a Bernoulli process with success probability as 1; (3) the initiation and termination phases of UAV operations are not considered, specifically omitting considerations related to take-off and landing; Our attention is focus on the UAV's operational duration and its associated altitude as h. (3) Here, mijand mie is denoted for the mean path loss channels from UAV ith at Users j and E respectively; gijand gie is channel gains from UAV ith at User j and E respectively; and Pna I− presents the noise variance and cochannel interference.

            To boost the security quality and decline the influence of Eavesdroppers, we formulate the Markov Decision Processes [9,10] framework defined by the tuple (S, A, P, R) where S is the set of states, A is the set of actions, R is the reward received when switching states, P is the transition probability distribution. This means that the maximum return from state s and action a is the sum of the immediate reward r and the return (discounted by ) obtained by following the optimal policy thereafter until the end of the episode (i.e., the maximum reward from the next state s′).