NGHIÊN CỨU LIÊN QUAN
CHƯƠNG 3. MO HÌNH & PHƯƠNG PHAP DE XUẤT
Khoá luận nay đề xuất mô hình mang sinh đối kháng kết hợp với các khối
Transformer dựa trên học cộng tác nhằm mục đích vừa có thể tạo ra lưu lượng
tấn công đối kháng có khả năng trốn tránh, vừa có khả năng phân loại và nhận diện các mối đe dọa như một hệ thống phát hiện xâm nhập. Đầu tiên, chúng tôi
sẽ giới thiệu ngữ cảnh đặt ra cho mô hình và phương pháp đề xuất của Khoá luận này ở Phần 3.1. Tiếp theo, phần thảo luận về hướng nghiên cứu và phương pháp thực hiện xây dựng mô hình đề xuất được trình bày tại Phần 3.2. Cuối
cùng, chúng tôi sẽ đi sâu vào kiến trúc, cấu tạo của các thành phần bên trong
và mô tả cách thức mô hình hoạt động tại Phần 3.3.
3.1. Ngữ cảnh đặt ra
Trong ngữ cảnh của IoT, an ninh mang van là một vấn đề cực kỳ quan trọng. Các thiết bị loT thường được kết nối với nhiều mô hình kỹ thuật số và giao tiếp thông qua mạng, tạo ra lưu lượng truy cập đặc biệt. Tương tự như
trong mạng máy tính thông thường, khả năng phát hiện xâm nhập vẫn được coi
là một phần thiết yếu để bảo vệ hệ thống IoT' khỏi các mối đe dọa và tấn công.
Vấn đề của mô hình IDS trong IoT vẫn là một lĩnh vực nghiên cứu khó khăn và đòi hỏi sự nỗ lực để đảm bảo an ninh mang cho các hệ thống IoT. Các
chuyên gia nghiên cứu an ninh mạng đang nỗ lực tìm ra các phương pháp và kỹ
thuật mới để xử lý các vấn đề này và tạo ra các giải pháp hiệu quả cho an ninh
mạng IoT.
Mặc dù đề tài này có rất nhiều khó khăn và bất cập, nhưng trong Khoá luận này chúng tối sẽ đề cập đến khả năng ngăn ngừa và phát hiện xâm nhập, xác
32
định các hoạt động bất thường dựa trên các mẫu lưu lượng truy cập. Tuy nhiên, trong các nghiên cứu về IDS, các tệp dữ liệu công khai nhìn chung đều xuất hiện
sự mất cân bằng nghiêm trọng. Diéu này tạo nên một van đề thách thức cho mô hình học máy khi số lượng mẫu bất thường thấp hơn đáng kể so với mẫu bình thường và hiệu suất tổng quát hóa của bộ phân loại bị suy giảm do thiếu dữ liệu từ các lớp thuộc tính thiểu số [31] [3] [32]. Bên cạnh đó, các mô hình IDS cũng dễ bị tấn công và đánh bại bởi các đối thủ sử dụng kỹ thuật học máy hiện đại, bao gồm việc thực hiện các biến đổi nhỏ đối với các mẫu lưu lượng mạng
nhằm mục đích làm giảm độ chính xác trong việc phát hiện mối đe dọa [20].
Cyber Physical System
irs
ra Networl
h
Do đó, phạm vi ngữ cảnh của khóa luận này là nghiên cứu và xây dựng mô
hình đề xuất dựa trên ngữ cảnh mất cân bằng và thiếu hụt dữ liệu, bao gồm sự chênh lệch đáng kể giữa nhãn lành tính so với nhãn độc hại, giữa các lớp thuộc tính thiểu số so với các lớp đa số trong các tệp dit liệu.
33
3.2. Phương pháp đề xuất
Động lực nghiên cứu và phát triển trong Khoá luận này là đề xuất ra mô
hình mạng sinh đối kháng tối ưu khả năng tái tạo các mẫu đối kháng có khả
năng trốn tránh và có thể sử dụng như một hệ thống phát hiện xâm nhập trong ngữ cảnh như đã đề cập ở Phần 3.1. Hơn nữa, chúng tôi sử dụng phương pháp học cộng tác với mô hình đề xuất để vừa làm đa dạng khả năng tạo mẫu của
mô hình mạng sinh đối kháng, vừa có thể tạo ra một hệ thống kết nối, chia sẻ
dit liệu giữa các bên mà vẫn dam bảo tính riêng tư và bảo mật dữ liệu. Từ đó,
đóng góp một giải pháp mới cho việc tạo ra các mẫu có khả năng biến đổi, trốn tránh để huấn luyện các mô hình IDS nhận diện được các lưu lượng này.
3.2.1. Tích hop Transformer vao EVAGAN
Thong thường, các yêu tố can thiết trong việc xây dựng một mô hình GAN bao gồm mục đích xây dựng, ngữ cảnh huấn luyện và nguồn dif liệu đào tạo. Sau
đó, độ hiệu quả của lưu lượng đối kháng và hiệu suất huấn luyện của mô hình. Nguồn dữ liệu huấn luyện, ngữ cảnh huấn luyện, chất lượng mẫu đối kháng và hiệu suất huấn luyện của mô hình là những yếu tố được quan tâm trong các mô
hình GAN được đề xuất. Để đạt được điều đó, dữ liệu huấn luyện đầu vào và
kiến trúc mô hình là hai vấn đề cần chú trọng.
Trong thực tế, nhiều mô hình tăng cường dữ liệu đã đề xuất ra các kỹ thuật
bổ sung dữ liệu mất cân bằng nhằm giảm bớt kết quả sai lệch trong huấn luyện
[34] [35]. Tuy nhiên, các mô hình tăng cường hiện tại dat được hiệu quả còn
thấp, khả năng tổng hợp trong các trường hợp ngoại lệ đặc biệt như dữ liệu vừa chênh lệch giữa nhãn dữ liệu, vừa chênh lệch giữa các thuộc tính thiểu số và đa
số, khiến dit liệu được tạo ra không khả dụng hoặc chưa đạt được hiệu suất tối
ưu cho mô hình hoc máy [36] [37].
Để tăng cường khả năng nhận diện bất thường và lưu lượng tấn công cho IDS, các nghiên cứu về tổng hợp dữ liệu đối kháng bằng mô hình GAN với phương
34
pháp đầu độc dữ liệu hay tạo mẫu có khả năng trốn tránh cũng được sử dụng rất nhiều [38] [39]. Tuy vậy, các mẫu trốn tránh sử dụng các không gian nhiễu
ngẫu nhiên hay thay đổi các yếu tố nhỏ trong thuộc tính cũng có thể gây ra sự
thiếu nhất quán giữa các thuộc tính còn lại trong lưu lượng và giảm hiệu suất
của quá trình học của bộ phân biệt [40].
Majority | Minority
class class
[fake j .
X eat (data)
C (All classes) Z (noise) (c =f _ class) | LZ(noise) |