NGHIÊN CỨU LIÊN QUAN
2.6. Explainable Artificial Intelligence (XAT)
2.7.3. Hệ thông phát hiện xâm nhập sử dung mang sinh đối kháng
dua trên học cộng tác (Federated GAN for IDS)
Nghiên cứu về IDSGAN cho thấy, mô hình tận dụng được khả năng của GAN
để có thể học và tái tạo các mẫu và đặc điểm cơ bản của các loại tấn công khác nhau. Bộ G trong IDSGAN tao ra các mẫu tấn công tổng hợp, trong khi bộ
phân biệt D phân biệt giữa các tấn công thực và tấn công được tạo ra. Qua quá
trình huấn luyện đối kháng, IDSGAN nâng cao khả năng của mạng sinh để tạo
ra các mẫu tấn công gần giống như các tấn công trong thế giới thực [27].
Để vượt qua những hạn chế của việc thu thập dữ liệu tập trung, IDSGAN
tích hợp khái niệm FL. Nó cho phép nhiều IDS phân tán cùng huấn luyện mô hình GAN mà không cần chia sẻ dữ liệu cục bộ nhạy cảm. Mỗi IDS huấn luyện
mô hình cục bộ bằng cách sử dụng tập dữ liệu cục bộ của nó, và chỉ các bản
cập nhật mô hình được trao đổi giữa các nút. Phương pháp FL đảm bảo sự bảo
mật và an toàn dữ liệu trong khi cùng cải thiện khả năng tạo ra tấn công của
IDSGAN.
OoOooooOo Ix|m]mị |m)m)m|m|m|B|B| ooooooo
HHHDDDH , Ooo DoOpooooO , qoo0000
ooooooo 000 oo00000 ooo00000 sonapsovti age Noise socket mand lel enor Normal traffic records
©)
YZ
\
— Predicted labels
as targets in
discriminatar's
adversarial training
Generator Black-box IDS
Losses
Hình 2.7: Kiến trúc mô hình IDSGAN [27]
Bằng cách sử dụng IDSGAN, các tổ chức có thể mở rộng tập dữ liệu tấn công
hạn chế và cải thiện hiệu suất của hệ thống IDS của họ. Các mẫu tấn công được
tạo ra bắt kịp các xu hướng và biến thể tấn công mới nhất, giúp IDS phát hiện
25
và ngăn chặn các mối đe dọa mới nhanh chóng hơn. Ngoài ra, phương pháp học
cộng tác dam bảo tính bảo mật của dit liệu nhạy cảm, làm cho IDSGAN phù
hợp để triển khai trong môi trường yêu cầu bảo mật thông tin.
FL là một mô hình huấn luyện hứa hẹn nhằm tối thiểu hóa việc chia sẻ dữ liệu để cải thiện tính riêng tư và hiệu suất. PL yêu cầu có đủ và đa dạng dữ liệu huấn luyện để xây dựng các mô hình hiệu quả. Thiếu sự cân bằng dữ liệu như các lớp hiếm gặp ảnh hưởng đến độ chính xác của mô hình. Mạng sinh đối kháng là một công cụ đáng chú ý trong việc mở rộng dữ liệu để cân bằng dữ liệu huấn luyện có sẵn.[10]
FEDGAN-IDS sử dụng mang GAN để tạo ra dữ liệu mô phỏng, giúp cân bằng dữ liệu huấn luyện và tăng cường khả năng phát hiện xâm nhập. Mang GAN được phân tán trên các thiết bị IoT, với vai trò là bộ phân loại, và được huấn luyện bằng dữ liệu cục bộ đã được mở rộng. Qua quá trình huấn luyện,
FEDGAN-IDS đạt được sự hội tu và độ chính xác cao, vượt trội hơn so với các
phương pháp phát hiện xâm nhập phi tập trung truyền thống.
Hình 2.8: Kiến trúc mô hình FEDGAN-IDS [10]
26
FEDGAN-IDS là một bước tiến quan trọng trong việc xử lý các mối de dọa
trong mạng IoT thông minh va đóng góp vào su bảo vệ và an toàn của các
hệ thống này. Sự kết hợp giữa Deep Learning, GAN và tính phi tập trung của
FEDGAN-IDS đảm bảo tính hiệu quả và bảo mật trong việc phát hiện xâm nhập trong môi trường IoT ngày càng phức tạp.
2.7.4. Mô hành IDS có kha năng giải thích (X-IDS)
¡ | ƒ Exploratory
‡ | | Data Analysis
be Explainer
B Module 7
ơ +
' é ih
}_ high quality ƒ Explanation ,
T aseo = — | | Evaluation
Explanatien Interface
Việc áp dụng AT và ML vào giải quyết các thách thức về an ninh mạng đã thu hút được sự chú ý trong ngành và giới học thuật. Điều này một phần là do
các cuộc tấn công phần mềm độc hại phổ biến vào các hệ thống quan trọng như
cơ sở hạ tầng đám mây và các tổ chức chính phủ. IDS sử dụng một số dạng
AI, đã được áp dụng rộng rãi nhờ khả năng xử lý lượng dữ liệu khổng lồ với độ
chính xác dự đoán cao.
Hệ thống phát hiện xâm nhập có khả năng giải thích (X-IDS) [28] đã được
áp dụng nhằm cải thiện quyết định của các nhà phân tích tại Trung tâm điều hành An ninh mạng (CSoC). X-IDS cung cấp lời giải thích cho các dự đoán của
mô hình IDS và cho phép nhà phân tích hiểu rõ hơn về cách mô hình hoạt động.
Thông qua việc nắm bắt logic và cơ sở chứng minh của mô hình IDS, nhà phan tích có khả năng tối ưu hóa và điều chỉnh quyết định dựa trên thông tin được
27
cung cấp bởi X-IDS, nâng cao khả năng phát hiện và phan ứng đối với các mối
đe dọa mạng.
IDS phát hiện bất kỳ hoạt động bất thường nào trong lưu lượng mạng mà
tường lửa tiêu chuẩn không thể phát hiện được. Điều quan trọng là phải đạt được mức độ bảo mật cao chống lại các hành động gây nguy hiểm cho tính khả dụng, tính toàn vẹn hoặc bảo mật của hệ thống. IDS có thể được phân loại dựa trên phương pháp phát hiện hoặc triển khai và Hình 5 mô tả việc phân loại
IDS.[29}
Intrusion Detection System
đò
Detection-based IDS Approach Deployment-based IDS Approach
a] cy ey LH
o © Anomaly-based IDS
Host-based IDS Network-based IDS Signature-based IDS
Artificial Intelligence (Al)-based IDS Models
" Machine Learning (ML)
Deep Learning (DL)
ằ Ensemble Learning (EL)
=" Hybrid
Hình 2.10: Các dang phân loại trong IDS [29]
IDS hỗ trợ AI là một biện pháp bảo mật hiệu quả để chống lại các cuộc tấn
công. IDS thông thường bao gồm các kỹ thuật dựa trên quy tắc, dựa trên chữ
ký, dựa trên luồng và dựa trên lưu lượng truy cập. Do tính chất “blackbox” của trí tuệ nhân tạo được áp dụng cho hầu hết các IDS, tính minh bạch hoặc kha năng diễn giải trở thành một van dé; do đó cần có XAI. Trong Khoá luận này,
28
chúng tôi sẽ đề xuất về khung XAI, cu thé là sử dụng 2 phương pháp LIME và SHAP để đánh giá bảo mật trong ngữ cảnh IDS.
Phương pháp LIME cho phép tạo ra các giải thích đơn giản dựa trên các
thuộc tính quan trọng bằng cách sử dụng các tham số tuyến tính cục bộ. LIME
hữu ích cho việc giải thích với độ phức tạp trung bình để và thường được sử dụng trong các ứng dụng nhận dạng mẫu, cụ thể trong trường hợp này là nhận
diện và đánh giá botnet. Mô hình này được tính toán theo công thức sau:
(x) = argmin { L(f,g,wx) + Q(g)} (2.5)
geG
Phương trình này tìm kiếm mô hình giải thích g trong tap hợp các mô hình
có thể giải thích G sao cho ham loss L(f,g,w,) và độ phức tạp Q(g) đạt giá trị
nhỏ nhất. w, xác định trọng số giữa dữ liệu được lấy mau và dữ liệu gốc. Nếu
dữ liệu lay mẫu giống dit liệu gốc thì trọng số càng lớn và ngược lại. Mục tiêu
là tạo ra một mô hình đại diện gần đúng cho mô hình gốc, giúp giải thích quyết
định của mô hình gốc dễ hiểu và giảm độ phức tạp của mô hình giải thích.
Ngoài LIME, phương pháp SHAP là một lựa chọn khác cho việc giải thích
cho các mô hình IDS. Mặc dù có thể tốn thời gian tính toán, nhưng chúng mang
lại tính linh hoạt trong việc 4p dung cho cả các kỹ thuật chỉ định mô hình va
mô hình độc lập. Điều này có nghĩa là SHAP có thể được sử dụng để giải thích hành vi của một mô hình cụ thể hoặc cung cấp giải thích tổng quát trên nhiều
mô hình khác nhau. Đối với một trường hợp cụ thể z, SHAP xác định giải thích,
xem xét sự đóng góp của từng đặc trưng hoặc thuộc tính đối với dự đoán hoặc
quyết định của hệ thống IDS. Điều này cho phép hiểu rõ hơn về các yếu tố ảnh hưởng đến đầu ra của hệ thống IDS. Công thức tổng quát cho một trường hợp
cụ thể như sau:
29
M
Hz) = b+ d- diz; (2.6)
i=1
Phương trình tính giá trị giải thích g(z’) bằng cách tổng hợp các giá tri Shapley
(ứĂ) nhõn với cỏc giỏ trị đặc trưng đơn giản húa tương ứng (2/;).z là cỏc vector/ `" ⁄
liên kết (hay còn gọi là các feature đơn giản hoá), và z e {0,1}. Số 1 trong z
biểu thị các tính năng trong di liệu mới giống với các tính năng của dữ liệu gốc
(trường hợp z), trong khi giá trị 0 có nghĩa là chúng khác nhau. Phương trình
này cung cấp thông tin về tầm quan trọng và đóng góp của từng đặc trưng đối với kết quả dự đoán của mô hình. ¢;¢ R là thuộc tính tính năng cho tính năng
i của ví dụ x. Về giá trị Shapley, số dương lớn của ¢; có nghĩa là tính năng i có tác động tích cực lớn đến dự đoán do mô hình đưa ra.