Để giải quyết các vấn đề trên, chúng tôi xin đã phát triển một bộ khung huấn luyện RobustAdvTrain Robustness Adversarial Training nhằm huấn luyện mô hình IDS có khả năng phát hiện xâm nh
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TINH VÀ TRUYEN THONG
NGUYEN NGỌC TAI — 20521858
NGUYEN ĐỨC TAN - 20520751
KHOA LUAN TOT NGHIEP
HE THONG BEN VUNG VA TIN CAY CHO PHAT HIEN
XÂM NHAP DUA TREN HỌC MAY DOI KHÁNG VA
TRI TUE NHAN TAO KHA DIEN GIAI
A ROBUST AND TRUSTWORTHY INTRUSION DETECTION SYSTEM USING ADVERSARIAL MACHINE LEARNING AND
XAI
CU NHAN NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
THS NGO KHANH KHOA
TP HO CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Đề hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Ban giám hiệu Trường Đại học Công nghệ Thông tin — Đại học Quốc Gia Thành Phố Hồ Chí Minh
vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô giảng dạy tại trường
nói chung và Khoa Mạng máy tính & Truyền thông nói riêng vì đã truyền đạt những kiến
thức chuyên môn bồ ích, những kinh nghiệm thực tế quý báu mà chúng tôi đã học hỏi được trong suốt quá trình học tập, rèn luyện tại trường.
Chúng tôi xin gửi lời tri ân và biết ơn đến Th§ Ngô Khánh Khoa đã trực tiếp quan tâm, đồng hành và hướng dẫn tận tình trong suốt quá trình chúng tôi tìm hiểu và thực
hiện đề tài.
Bên cạnh đó, với tình cảm sâu sắc và chân thành, chúng tôi cũng xin cảm ơn các thầy
cô, anh chi đang công tác tại Phong thí nghiệm An toàn thông tin - InSecLab vì đã luôn tạo
điều kiện về cơ sở vật chất với hệ thong máy chủ hiện đại Đặc biệt, chúng tôi cũng xin gửi lời cảm ơn chân thành đến ThS Phan Thế Duy, thầy đã luôn sẵn sàng nhiệt tình hỗ trợ chúng tôi về chuyên môn lẫn kinh nghiệm trong các hoạt động nghiên cứu và thực hiện
khoá luận.
Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắn không
tránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình từ
quý thầy cô trong hội đồng dé khóa luận được hoàn thiện hơn.
Nhóm thực hiện.
Trang 3Mục lục
1 Tổng quan
11
1.2
1.3
1.4
1.5
Tổng quan để tai ee
Mục tiêu nghiên cứu
Đối tượng nghiên ctu ee Phạm vi nghiên cứu
Cau trúc khóa luận
tốtnghiệp -2 Cơ sở lý thuyết 2.1 2.2 2.3 2.4 2.5 Tổng quan về học sâu - Deep Learning
Mô hình Deep NeuralNetwork
Mang sinh đối kháng GAN (Generative Adversarial Network)
Wasserstein GAN Gradient Penalty (WGAN-GP)
Adversarial Attack 2 0.0 00s 2.3.1 Fast Gradient Sign Method (FGSM)
2.3.2 Basic Iterative Method (BIM)
2.3.3 Jacobian-Based Saliency Map Attack JSMA)
2.3.4 Carlini & Wagner L2-norm Attack (CW L2)
2.3.5 DeepFool Attack ee eee 2.3.6 Zeroth-Order Optimisation Attack (ZOO)
Explainable Artificial Intelligent(XAID
241 ToéngquanXAl 2.2 ee eee 2.4.2 SHapley Additive exPlanations (SHAP)
2.4.3 Saliency Maps 0.0.0.0 Q 0 eee ee eee Co ché tu chu Vo ee 2.5.1 Phương pháp nền
tẳng -2.5.2 Cơ chế tư chú ý (Self-Attention)
10
Trang 43 Phương pháp
3.1 RobustAdvTrain
3.2 sAoEGAN
3.3 self-Attention on Explanalion
4 Triển khai thử nghiệm và đánh giá kết quả 41 Môi trường thửnghiệm
42 Các kịch ban thửnghiệm
421 Kichbản1 4.2.2 Kichbản2 42.3 Kichban3 4.3 Tập dữliệu
4.3.1 Tổng quan - Kiểm tra hiệu quả phát hiện xâm nhập
- Kiểm tra khả năng chống lại mẫu đối khang - Xác định hành vi của mô hìnhlIDS
43.2 Xửlýdataset 00.00.0000 he 44 Kiến trúcmạngsAoEGAN cv 45 Chỉ số đo lường Q2 eee 46 Đánh giá kếtquả ee ee 4.6.1 Khả năng kháng mẫu đối kháng
Đối vớ DNN2L
Đối với DNN4L
46.2 Khả năng phát hiện tấn công
Đối vớ DNN2L
Đối với DNN4L
4.6.3 Độ phân phối các điểm dữ liệu tan côÔng
4.64 Giảitrìnhdự đoán ee 5 Kếtluận 51 Nhậnxétvà đánhgiá Ặ
5.2 Hướng phát triển
Mái
23
23
28
32
36
36 38 38 39 39 40 40
41
45
46 48
48
49
54 58 58
59
62 63
Trang 5Danh sách hình ve
2.1
3.1
3.2
3.3
3.4
3.5
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
Mang DNN 2 eee Qua 9
Bộ khung huấn luyện RobustAdvTrain 24
Adversarial Attack Q Q HQ HQ ee 26 CHECKER 27
SAOEGAN 4” 22227 cư nh ee 29 self-Attention on Explanation 33
Kiến trúc IDSDNN2L 38
Kiến trúc IDSIDNN4L 39
Xếp hạng mức độ quan trọng của từng đặc trưng dựa trên trọng số được tạo bởi XGBoost ẶẶẶẶ 42 Feature selection áp dụng cho dataset CIC-IDS2017 43
Phân chia tap dữ liệu cho train, valid va test 45
Kiến trúc mô hìnhG - 46
Kiến trúc mô hình D - 47
Phân phối mau tan công giữa mẫu dữ liệu thật và mẫu do sAoE-GAN tạo ra trên tập CIC-IDS2017 Sử dụng phương pháp t-SNE để trực quang phân phối các điểm dữ liệu 62
Phân phối mau tan công giữa mẫu dữ liệu thật và mẫu do sAoE-GAN tạo ra trên tập UNSW-NBI5 Su dụng phương pháp t-SNE để trực quang phân phối các điểm dữ liệu 62
vii
Trang 6doan - .aa.a.Ha ee 44
Bảng đánh giá mô hình IDS DNN2L bằng chỉ số Accuracy trên tậpUNSW-NBI15, so sánh hiệu suất dựa trên mẫu dữ liệu của tập TEST
(Original Attack) và mẫu dữ liệu được sinh ra bởi 7 phương pháp
tấn công mẫu đối kháng .- 52Bảng đánh giá mô hình IDS DNN2L bằng chỉ số Accuracy trên tập
CIC-IDS2017, so sánh hiệu suất dựa trên mẫu dữ liệu của tập TEST
(Original Attack) và mẫu dữ liệu được sinh ra bởi 7 phương pháp
tấn công mẫu đối kháng .- 53
Bảng đánh giá mô hình IDS DNN4L bằng chỉ số Accuracy trên tập
UNSW-NBI5, so sánh hiệu suất dựa trên mẫu dữ liệu của tap TEST
(Original Attack) và mẫu dữ liệu được sinh ra bởi 7 phương pháp
tấn công mẫu đối kháng .- 56Bảng đánh giá mô hình IDS DNN4L bằng chỉ số Accuracy trên tập
CIC-IDS2017, so sánh hiệu suất dựa trên mẫu dtr liệu của tập TEST
(Original Attack) và mẫu dữ liệu được sinh ra bởi 7 phương pháp
tấn công mẫu đối kháng 57Bảng đánh giá mô hình IDS DNN2L trên các phương pháp huấn
luyện GAN khác nhau trên tập dữ liệu CIC-IDS2017 59
Bảng đánh giá mô hình IDS DNN2L trên các phương pháp huấn
luyện GAN khác nhau trên tập dữ liệu UNSW-NBI5 60
Bảng đánh giá mô hình IDS DNNAL trên các phương pháp huấn
luyện GAN khác nhau trên tập dữ liệu CIC-IDS2017 61
viii
Trang 74.11 Bảng đánh giá mô hình IDS DNN4L trên các phương pháp huấn
luyện GAN khác nhau trên tập dữ liệu UNSW-NB15 61
4.12 Bảng liệt kê các đặc trưng quan trọng nhất trong dự đoán của các
mô hình trên các mẫu nguyên bản va mẫu đối kháng, được huấn
luyện trên tap dữ liệu UNSW-NB15 và mô hình IDS là DNN2L 66
1X
Trang 8Basic Iterative Method Jabcobian Saliency Map Attacks Carlini-Wanger
Zeroth Order Optimization
Trang 9Danh mục từ tạm dịch
Hệ thống phát hiện xâm nhập IDS
Học sâu Deep Learning
Giá trị mat mát Loss valueHàm mắt mát Loss functionMang sinh déi khang Generative Neural Network
Bộ sinh dữ liệu Generator
Bộ phân biệt dữ liệu Disciminator
Bộ giải thích Explainer Trí tuệ nhân tạo khả giải trình Explainable Artificial Intelligent
Tự chú ý Self-Attention
Lô batch
Độ dốc Gradient
Tấn công đối kháng Adversarial Attacks
Tan công hộp đen Black-box Attacks
Tan công hộp trắng White-box AttacksTấn công hộp xám Gray-box AttacksMẫu đối kháng Adversarial Examples
Bộ khung Framework
xi
Trang 10Tóm tắt đề tài
Ngày nay, tấn công mạng và xâm nhập ngày càng trở nên tỉnh vi và phức tạp
Với sự phát triển vượt bật của lĩnh vực trí tuệ nhân tạo đặc biệt là học sâu, đã
góp phần nâng cao khả năng phát hiện các hành vi xâm nhập của các hệ thống
phát hiện xâm nhập (IDS) Tuy nhiên, việc ứng dụng học sâu vào lĩnh vực an
toàn thông tin như hệ thống phát hiện xâm nhập vẫn còn mang nhiều rủi ro và
không đáng tin cậy Một trong những van dé chính là việc mat cân bằng nhãn của
dit liệu huấn luyện dẫn đến khả năng dự đoán sai Không những thế, hệ thốnghọc sâu còn nhạy cảm trước các cuộc tấn công đối kháng, tức là loại tắn công đãbiến đổi so với loại tân công từng biết trước đó Những điều này khiến cho khảnăng phòng thủ của IDS không hiệu qua và không còn đáng tin cậy Cuối cùng,các hệ thống học sâu cũng gây khó khăn cho người sử dụng để có thể hiểu được
lý do mà IDS đưa ra những quyết định phân loại trên mẫu dữ liệu Sự mù mờtrong hiểu biết về hành vi của mô hình có thể khiến việc sửa chữa, cải tiền cũngnhư mở rộng phương pháp trở nên khó khăn hơn đáng kể Để giải quyết các vấn
đề trên, chúng tôi xin đã phát triển một bộ khung huấn luyện RobustAdvTrain
(Robustness Adversarial Training) nhằm huấn luyện mô hình IDS có khả năng
phát hiện xâm nhập với độ chính xác cao cũng như đạt được tính bền vững trướccác tấn công mẫu đối kháng, và trang bị trí tuệ nhân tạo khả giải trình để manglại sự minh bạch trong dự đoán của IDS Để mô hình IDS được huấn luyện bởiRobustAdvTrain đạt được hiệu quả tốt nhất, chúng tôi dé xuất một mô hình mạngsinh đối kháng sAoEGAN (self-Attention on Explanation Generative AdversarialNetwork), kết hợp trí tuệ nhân tạo khả giải trình và cơ chế tự chú ý, để sinh ra cácmẫu đối kháng chất lượng nhằm tăng số lượng đữ liệu huấn luyện để cân bằngdit liệu cũng như tăng cường tính bền vững trước tân công đối kháng Cách tiếp
cận này của chúng tôi đã cho thấy những cải thiện đáng chú ý trong phát hiện
xâm nhập, bền vững trước mẫu đồi kháng cũng như sự minh bạch của hệ thống
IDS ứng dụng học sâu.
Trang 11Chương 1
Tổng quan
1.1 Tổng quan đề tài
Hệ thống phát hiện xâm nhập hay hệ thống IDS là một hệ thống tự động hóa quá
trình phát hiện xâm nhập Phát hiện xâm nhập là quá trình giám sát các sự kiện
xảy ra trong hệ thống mạng hoặc máy tính và phân tích dấu hiệu của các sự cố
mà chúng là các vi phạm hoặc mối đe doa sắp xảy ra về việc vi phạm chính sáchbảo mật máy tính, chính sách sử dụng được chấp nhận hoặc các biện pháp bảo
mật tiêu chuẩn [23].
Căn cứ vào [23, 1], hệ thống IDS có thể được chia ra làm hai nhóm chính là dựavào phương pháp triển khai và dựa vào phương pháp phát hiện Đối với nhómthứ nhất là dựa trên phương pháp triển khai sẽ bao gồm host-based IDS (HIDS)
và network-based IDS (NIDS) Nhóm thứ hai là IDS dựa trên phương pháp phát
hiện bao gồm dựa trên dấu hiệu và dựa trên sự bắt thường hoặc hành vi
Phương pháp dựa trên dấu hiệu tỏ ra hiệu quả đối với các cuộc tấn công đã
biết trước đó bằng cách lưu trữ danh sách các dâu hiệu cho các cuộc tan công, tuy
nhiên phương pháp này sẽ sẽ tỏ ra yêu kém trước các cuộc tân công mới bởi phụ
thuộc vào các dau hiệu đã biết Đối với phương pháp dựa vào bat thường sẽ khắc
phục được điểm yếu của phương pháp dựa trên dấu hiệu nhưng điểm yếu lớnnhất của phương pháp dựa trên bất thường là tỉ lệ cảnh báo sai cao bởi rất khó đểtạo ra một miền phân định rạch roi giữa hành vi bình thường va bắt thường cho
Trang 12Chương 1 Tổng quan
thống IDS để tăng cường khả năng phát hiện tan công trong ngữ cảnh an ninh
mạng phức tạp như hiện nay [9].
Các nghiên cứu [10, 21, 25, 31] đã cho thấy hiệu quả của học sâu trong lĩnhvực NIDS với tỉ lệ phát hiện cao Tuy nhiên việc ứng dụng học sâu vào hệ thốngIDS vẫn còn một số hạn ché, trong đó có ba vẫn đề lớn nhất khi áp dụng phươngpháp học sâu cho hệ thống IDS bao gồm: 1) Làm sao để tin tưởng dự đoán này
của mô hình học sâu - bởi các mô hình học sâu là những mô hình hộp đen, gây
khó khăn cho thậm chí là các chuyên gia để hiểu được các quyết định của chúng;2) Một số nghiên cứu đã phơi bày điểm yêu của các mô hình học sâu hiện nay là
chúng rất nhạy cảm với các cuộc tan công mẫu đối kháng - những tấn công bằng
cách thực hiện các điều chỉnh tinh vi dẫn đến dự đoán sai lệch mà bình thườngthường không thể nhận biết được; và 3) nguồn đữ liệu để huấn luyện cho các môhình học máy và hoc sâu đều bị mat cân bằng nghiêm trọng và phần lớn các bộ
đữ liệu để huấn luyện hệ thống IDS có thể truy cập công khai để sử dụng cho thínghiệm đều thiếu đặc điểm về lưu lượng truy cập hiện đại
Để giải quyết van dé “làm cách nào để nâng cao sự tin tưởng về dự đoán của
các mô hình hộp đen“ - một vấn đề lớn khi làm việc với các mô hình học sâu
Mô hình học sâu thường đem lại kết quả rất tốt, tuy nhiên, sự đoán của chúng
thường gặp khó khăn trong việc được hiểu rõ hoặc giải thích bởi con người, nên
nó thường gọi với cái tên khác là mô hình hộp đen Vì vậy một phương pháp
thường được sử dụng là trí tuệ nhân tạo khả giải trình, nó được sử dụng để giải
thích cơ chế hoạt động bên trong của mô hình bao gồm cách mô hình học, cáchđưa ra quyết định, các yếu tố ảnh hưởng đến mô hinh, Hiện tại, có có rất nhiềuphương pháp được đề xuất, nhưng chủ yếu được phân loại làm 3 mục chính: Sur-rogate - Sử dụng mô hình hộp trắng để bắt chước lại cách mà mô hình học đenđưa ra dự đoán một cách chính xác nhất, Local explainability - giải thích cách
mô hình đưa ra dự đoán trên một dữ liệu, Global explainability — giải thích hành
vi của mô hình trên toàn bộ tập dữ liệu một cách tổng quát Intrinsically
Inter-pretable, phương pháp các thuật toán học máy như Linear Regression, Decision
Tree, để bắt chước lại hành vi của mô hình học đen Model Agnostic, phươngpháp có khả năng giải thích các quyết định mà không cần dựa vào cầu trúc bêntrong của mô hình, một số thuật toán tiêu biểu như Local Interpretable Model-agnostic Explanations (LIME) - giải thích sự ảnh hưởng của từng đặc trưng đối
Trang 13Chương 1 Tổng quan
với quyết định của mô hình, SHapley Additive exPlanations (SHAP) - tính toántrọng số cho từng đặc trưng, gọi là giá trị SHAP, để xác định mức độ đóng góp
của chúng vào quyết của mô hình Example-Based Explanations, phương pháp
tập trung vào việc sử dụng từng đối tượng cụ thể trong tập đữ liệu để giải thíchhành vi của mô hình và cách các điểm dữ liệu được phân phối trong model-agnostic, tiêu biểu như counterfactual - tìm kiếm các sự thay đổi nhỏ trong đặctrưng mà có thể gây ảnh hưởng đến khả năng quyết định của mô hình, adversar-ial — thêm nhiễu vào trong mẫu hoặc tạo một mẫu mới để cé tình khiến mô hìnhđưa quyết định sai
Đối với bất kỳ hệ thống /thuật toán nào cũng phải ít nhất tồn tại lỗ hổng nào
đó, các mô hình học máy cũng không thể tránh khỏi điều này Đối với IDS, mụctiêu của kẻ tan công là phải làm cách nao đó để có thể thực hiện tấn công và vẫnqua mặt được các mô hình học máy, kỹ thuật chủ yếu được sử dung là tan côngđối kháng Mục tiêu của tấn công sau cùng là khiến cho mô hình đưa quyết định
sai khi gặp một hành vi nào đó, chẳng hạn hành vi là "tan công” nhưng lại được
nhận diện là là "bình thường" Các loại tan công được phân loại dựa trên mức độ
hiểu biết của kẻ tan công đối với mô hình, gồm 3 loại tấn công là tấn công hộp
đen, tan công hộp xám và tan công hộp trắng Với tân công hộp đen, kẻ tân công
không có bat kỳ thông tin gì về mô hình Để thực hiện tan công, kẻ tan công sẽliên tục thay đổi các tính chất, đặc trưng trong các mẫu tân công để dự đoán đượccác tham số của mô hình, xác định các mà mô hình phân loại các mẫu đó là bìnhthường hay bat bình thường Một cách được sử dụng phổ biến là sử dung mạng
sinh đối kháng để tạo mẫu đối kháng nhằm đánh lừa và làm suy yeu m6 hinh.
Một số thuật toán như Zeroth-Order Optimization (ZOO) - sử dung ty lệ hiệuđối xứng để dự đoán đạo hàm của model [7], OnePixel - với ý tưởng từ đánh lừa
thông qua việc làm nhiễu ảnh bằng cách thay đổi một pixel, trong mẫu tấn công
thì chỉ cần thay đổi giá trị của đặc trưng mang đặc trưng liên quan lớn đến hành
vi tan công [26] Tan công hộp trang, là loại tan công nguy hiểm nhất, vì kẻ tấncông hoàn toàn hiểu rõ cau trúc của mô hình, cách phân loại và các đặc trưngđược sử dụng chính, cũng như các tham số được sử dụng trong quá trình huấnluyện và thậm chí biết được cả tập dữ liệu được sử dụng Một số phương phápnhư Fast Gradient Sign Method (FGSM) [12] - phương pháp tao mẫu đối khángthưởng sử dụng cho việc tạo ảnh, bằng việc thay đổi một số giá trị của các đặc
Trang 14Chương 1 Tổng quan
trưng quan trọng mà mô hình sẽ sử dụng, phương pháp này chú trọng nhiều hiệusuất tạo mẫu, không quan tâm đến khả năng đánh lừa của mã đó, Jacobian-Based
Saliency Map Attack (JSMA) [22] - tập trung vào việc xác định một vài đặc trưng
có khả gây ra ảnh hưởng lớn đến mô hình, Carlini-Wanger (CW) Attack [5], mộtphương pháp tấn công hộp xám, kẻ tan công biết được một ít thông tin liên quanđến mô hình như loại đặc trưng được sử dụng, nhưng không biết được tập dữliệu và cách mô hình được huấn luyện, sau đó kết hợp các phương pháp tan công
phù hợp của hộp đen và hộp trắng để khai thác thông tin và thực hiện tấn công
Để chống lại tấn công mẫu đối kháng, nghiên cứu [5] đưa ra một số chiến lược
thủ mẫu đối kháng bao gồm huấn luyện đối kháng và phát triển một bộ phát hiện
mẫu đối kháng Mục tiêu của huấn luyện đối kháng nhằm giúp cho mô hình IDS
có được sự bén vững trước các mẫu đối kháng Trong khi đó việc phát triển một
bộ phát hiện mẫu đối kháng giúp hỗ trợ phân loại được mẫu nào là sạch, cònmẫu nào là đối kháng trước khi được đưa vào trình phân loại của IDS
Đối với việc giải quyết van dé mắt cân bang dữ liệu có thể sử dụng kỹ thuật
Synthetic Minority Oversampling Technique (SMOTE) [6] Tuy nhiên [15] chi ra
rằng sử dung mang sinh đồi kháng để giải quyết tình trang mat cân bằng dữ liệu
thay vì lay mẫu lại và kỹ thuật SMOTE để tránh việc trang bị quá mức do lay
mẫu lại và chồng chéo lớp hoặc nhiễu do SMOTE gây ra GAN là một trò chơiminimax hai người chơi bao gồm hai mô hình được huấn luyện đồng thời: một
bộ sinh để tạo ra dtr liệu và một bộ phân biệt nhận diện được giữa dữ liệu thật vadit liệu được sinh [11] Bởi tính chat học tập đối kháng lẫn nhau của mạng sinhđối kháng, nhiều nghiên cứu đã thực hiện ứng dụng phương pháp này để huấnluyện một bộ phân biệt nhận diện giữa mẫu mẫu sạch và đối kháng bảo vệ môhình hoc sâu [32], tạo ra một bộ sinh có khả năng sinh ra các dữ liệu đối khángchất lượng vượt qua khả năng phân biệt của mô hình hoc sâu [16, 20], cải thiệnhiệu suất dự đoán của các trình phân loại [2] và tăng cường tính bền vững của các
mô hình trước mẫu đối kháng [27] Nghiên cứu này sẽ tập trung vào ứng dụngGAN để phát triển một mô hình IDS có tính bền vững cao
Cơ chế tự chú ý được giới thiệu trong [30] là một cơ chế chú ý liên quan đến
các vị trí khác nhau của một chuỗi để tính toán cách biểu diễn chuỗi đó Cơ chế
chú ý đã được tận dụng trong nhiều các nghiên cứu gần đây nhằm cải thiện và
nâng cao hiệu suất của các mô hình phân loại [8] Trong nghiên cứu [3] phát triển
Trang 15Chương 1 Tổng quan
một framework SGAN-IDS sử dung GAN và sử dung cơ chế tự chú ý kết hợp vớimạng sinh đối kháng để tạo các mẫu đối kháng vượt qua các mô hình học máy
IDS.
Trong nghiên cứu này, chúng tôi dé xuất một mô hình sAoEGAN (self-Attention
on Explanation Generative Adversarial Network) có khả nang vận dụng cơ chế
tự chú ý vào giải thích của XAI hằm mục đích sinh ra các mẫu đối kháng chất
lượng cao để huấn luyện một mô hình IDS đạt được tính bền vững cao và có khảnăng diễn giải Do đó, bên cạnh dé xuất một mô hình mạng sinh đối kháng mới,chúng tôi cũng phát triển một bộ khung để huấn luyện mô hình IDS để chúng cókhả năng tự kháng được các mẫu đối kháng
12 Mục tiêu nghiên cứu
Để xây dựng được một thống IDS hiệu quả và bền vững trước các loại tấn công,chúng tôi xin dé ra một số mục tiêu nghiên cứu để có thé đáp ứng được kỳ vọng
mong đợi:
¢ Áp dụng mô hình học sâu: Tăng cường khả năng phát hiện tan công của
IDS thông qua việc áp dụng kiến trúc mô hình học sâu.
e Nâng cao mức độ tin cậy vào dự đoán của black-box model: Sử dụng các
phương pháp XAI để cung cấp khả năng giải thích các quyết định của mô
hình.
e Giải quyết sự mắt cân bằng dữ liệu: Sử dung mô hình GAN để cân bang lại
số mẫu dữ liệu thay vì các phương pháp truyền thống như SMOTE, nhằmcải thiện hiệu suất của mô hình học sâu
* Bén vững trước các mẫu tấn công đối kháng: Tìm hiểu các phương pháp
tạo mẫu đối kháng phổ biến và huấn luyện mô hình IDS có thể phát hiện ra
chúng.
© Dé xuất mô hình AoE-GAN: Kết hợp cơ chế tự chú ý (self-Attention) vào
XAI trong mô hình GAN để sinh ra các mẫu đối kháng chất lượng cao, từ
đó huấn luyện mô hình IDS đạt được tính bền vững cao và khả năng diễn
giải.
Trang 16Chương 1 Tổng quan
1.3 Đối tượng nghiên cứu
¢ Hệ thống phát hiện xâm nhập (IDS)
¢ Mô hình học sâu (Deep Learning).
* Cơ chế tự chú ý (Self-Attention)
e Explainable Artificial Intelligence (XA]).
¢ Generative Adversarial Network (GAN).
¢ Tan công mẫu đối kháng (Adversarial Attack)
1.4 Pham vi nghiên cứu
Trích xuất các thuộc tính quan trọng của mẫu dữ liệu, được dùng để tạo ra mẫu
dữ liệu mới mang nét đặc trưng của mẫu dữ liệu gốc, góp phan làm cân bằng dữ
liệu và tăng tính bền vững của hệ thống IDS Dé xác định mức độ hiệu quả củaIDS, chúng tôi sử dụng các loại tấn cống đối kháng để kiểm tra
1.5 Cấu trúc khóa luận tốt nghiệp
Chúng tôi xin trình bày nội dung của Luận án theo cấu trúc như sau:
© Chương 2: Các nghiên cứu liên quan và cơ sở lý thuyết
© Chương 3: Đề xuất phương pháp và kiến trúc của mô hình huấn luyện IDS
¢ Chương 4: Thực nghiệm và kết quả huấn luyện
© Chương 5: Kết luận và hướng phát triển của đề tài
Trang 17Chương 2
Cơ sở lý thuyết
Tóm tắt chương
Ở chương này, chúng tôi sẽ trình bày các cơ sở lý thuyết quan trọng trong khóa
luận của nhóm chúng tôi, bao gồm tổng quan về học sâu, mạng sinh đối kháng,các tan công đồi kháng, các trí tuệ nhân tao khả giải trình và cơ chế tự chú ý
2.1 Tổng quan về học sâu - Deep Learning
Mô hình học sâu hiện đang được sử dụng rất phổ biến, đặc biệt trong các bàitoán tự động hóa và giải quyết những van dé phức tạp một cách logic và hiệu
quả như thị giác máy tính và xử lý ngôn ngữ tự nhiên, Một ví dụ điển hình là
ChatGPT, có khả năng cung cấp câu trả lời trong nhiều lĩnh vực khác nhau Nhờnhững ưu điểm vượt trội, học sâu đã được ứng dụng rộng rãi trong lĩnh vực antoàn thông tin, đặc biệt là trong hệ thống phát hiện xâm nhập Các hệ thống IDS
truyền thống, tức không sử dụng mô hình học máy, có điểm yếu là không thể
phát hiện được các dạng tan công mới hoặc phức tạp, điều này không phù hợptrong bối cảnh hiện nay khi các dang tan công 0-day và các kỹ thuật tan công liên
tục được cải tiến Vì vậy, học sâu được áp dụng nhằm giúp IDS không chỉ phát
hiện được các loại tấn công mạng đã biết mà còn có thể nhận diện các dạng tancông mới hoặc biến tau, đảm bảo hiệu suất phòng thủ của hệ thống
Lây ý tưởng từ kiến trúc và hoạt động của hệ thần kinh con người, mô hìnhhọc sâu bao gồm nhiều nơ-ron liên kết với nhau để mô phỏng cách não bộ xử
lý thông tin đầu vào Với cách tiếp cận này, mô hình có khả năng học hỏi vàphân tích các đặc trưng quan trọng của dir liệu, từ đó đưa ra kết quả đầu ra phù
8
Trang 18Chương 2 Cơ sở lý thuyết
Mô hình Deep Neural Network
Mô hình DNN là mô hình cho phép học và trích xuất di liệu thông qua một mạng
lưới gồm nhiều lớp khác nhau, bao gồm lớp đầu vào, các lớp ẩn và lớp đầu ra
Một lớp gồm môt hoặc nhiều nút, gọi là unit, có nhiệm vụ lưu trữ và xử lý dữ
liệu được đưa vào chúng DNN có nhiều ưu điểm quan trọng, giúp nó trở thành
mô hình được sử dụng khá phổ biến hiện nay Như là khả năng học các biễu điễn
phức tạp cả dữ liệu, cho phép hiểu và nắm bắt các mối quan hệ phi tuyến tính vàkhông tuyến tính của tập dir liệu; Hiệu suất tốt trên tập dữ liệu lớn và xử lý các
dang dữ liệu phi cau trúc như văn bản, âm thanh, Tama [29] sử dung mô hìnhDNN để phân loại tan công trong môi trường IoI và đánh giá hiệu suất mô hình
dựa trên tap dữ liệu CIDDS-001 và UNSW-NBI5 Jia [13] sử dụng DNN với 4 lớp
hidden cho hệ thống IDS để phân loại các loại tấn công trong tập dữ liệu KDD
Cup 99 và NSL-KDD.
Trang 19Chương 2 Cơ sở lý thuyết
Theo hình 2.1, các hình tròn biểu thị các unit của từng lớp Màu vàng thuộc vềlớp đầu vào, màu xanh thuộc về các lớp ẩn, và màu đỏ thuộc là của lớp đầu ra
Mỗi lớp thực hiện các nhiệm vụ khác nhau trong mô hình Lớp đầu vào tiếp nhận
các đặc trưng hoặc dữ liệu đầu vào, với mỗi unit tương ứng với một đặc trưngcủa dữ liệu Các lớp ẩn là thành phần chính và quan trọng nhất của mô hình, nơi
mô hình sẽ học và trích xuất các thông tin trừu tượng hoặc biểu diễn phức tạpcủa dt liệu Càng nhiều lớp ẩn, kha năng học của mô hình càng tăng Cuối cùng,lớp đầu ra sẽ đưa ra kết quả dự đoán hoặc phân loại cho dữ liệu đã học Dựa vào
số lượng unit trong lớp này, mô hình có thể được chia làm 2 loại: mô hình phânloại nhị phân (có 1 hoặc 2 unit) và mô hình phân loại đa lớp (có ít nhất 3 unit trở
mô hình phân loại nhị phân, đóng vai trò xác định liệu dữ liệu đầu vào có phải là
thật hay được tạo ra bởi G Mục tiêu chính của G là tạo ra các mẫu dữ liệu mà có
thể đánh lừa D Trong khi đó, mục tiêu của D là cé gắng phát hiện được mẫu dữliệu nào là do G tạo ra Quá trình này sẽ kết thúc khi D không còn khả năng phânbiệt được mẫu dữ liệu gốc và mẫu dữ liệu do G tạo ra Để quá trình này diễn ramột cách tối ưu nhất - tức là tạo ra kết quả có lợi cho bên còn lại, thì mỗi mô hình
cần phải tìm phương pháp tối ưu để khắc chế lẫn nhau, nên quá trình này còn
được gọi là bài toán trò chơi minimax, được biểu diễn qua công thức.
min max V(D, 6) = Ex~p¿„„(x)[log D(x)] + Ez-.o,(z)|log 1— D(G(Z))] (2-1)
10
Trang 20Chương 2 Cơ sở lý thuyết
Trong đó, Pgata là phân phối của mẫu dữ liệu that, Pz là phân phối của mẫunhiễu, và Pg là phân phối của mẫu dữ liệu do G tạo ra D(x) đại diện cho mức
độ tự tin của D đối với mẫu diz liệu x là mẫu thật, D(G(z)) là mức độ tự tin của
D đối với mẫu dữ liệu là do G tạo ra Để phân biệt giữa mau diz liệu thật và mẫu
do G tao ra, ta cần tối đa hóa D(x) và tối thiểu hóa D(G(z)) Khi Pg = Paata, tức
là cả hai phân phối này sẽ tiền đến sự cân bằng, khi đó D sẽ không còn khả năng
phân biệt được giữa các mẫu dữ liệu thật và mẫu được tạo ra bởi G Kết quả là
G sẽ học được cách tạo ra các mẫu dữ liệu mới một cách hiệu quả từ không gian
nhiễu mà không cần thông tin từ dữ liệu thật
Wasserstein GAN Gradient Penalty (WGAN-GP)
Mặc dù phương pháp mang sinh đối kháng trên cho thấy hiệu quả trong việctạo ra dữ liệu mới mang đặc trưng của dữ liệu thật Tuy nhiên, quá trình huấnluyện chúng lại xảy ra một van đẻ, dẫn đến quá trình này trở nên khó kiểm soát
va không ổn định Một trong các van dé là sự cân bằng giữa bộ sinh Gvà bộ phânbiệt D Nếu D trở nên quá tốt, tức là nó có thể hoàn toàn phân biệt được dữ liệu
thật và giả, vì thé độ dốc của D gần như bằng 0, khiến G không tìm thấy thông
tin cần thiết để tạo ra dữ liệu mới, làm cho quá trình huấn luyện chậm lại và kém
hiệu quả Ngược lại, néu G trở nên quá tốt, tức là có thể tao ra dữ liệu hoàn toàn
đánh lừa được D, khi này G có thể ngừng học, từ đó không tạo ra các dạng dữ liệu phong phú hơn, dẫn đến hiện tượng mô hình bị “sụp đổ”.
Do đó WGAN được phát triển để giải quyết các van dé trên Khác với các
mô hình GAN truyền thống sử dụng hàm mat mát binary cross-entropy, WGAN
thay thế bằng hàm mắt mát dựa trên khoảng cách Wasserstein, tính toán chi phí
tối thiểu để chuyển đổi dữ liệu giả thành dữ liệu thật Trong mô hình này, bộ
phân biệt D không còn nhận nhiệm vụ phân biệt giữa dữ liệu thật và giả mà thay
vào đó là đánh giá chất lượng của mẫu dữ liệu do bộ sinh G tạo ra Giá trị outputcủa D càng gần với 1 thì mẫu được đánh giá là càng tốt, tức là gần với mẫu gốc.Khi output của D dat 1, độ đốc của nó gần như bằng 0, điều này ngụ ý rằng bộsinh G đã tạo ra một mẫu giả có đặc trưng hoàn toàn giống với mẫu thật, đây làtrường hợp tốt nhất trong quá trình huấn luyện của WGAN
Thành phần quan trọng nhất giúp mô hình WGAN trở nên ổn định là Lipschitz
continuity, tức là giới hạn biên của độ dốc Bằng cách giới hạn độ dốc của bộ phân
11
Trang 21Chương 2 Cơ sở lý thuyết
biệt D trong một phạm vi nhất định bằng cách sử dụng phương pháp
weight-clipping với trọng số T đảm bảo độ dốc luôn nằm trong khoảng [—T, T] Điềunày giúp tránh việc độ dốc thay đổi quá nhanh hoặc quá lớn, ngăn chặn hiệntượng "sụp đổ" Tuy nhiên, liên tục giới hạn độ dốc cũng có thể làm mô hình mat
ổn định do G học từ thông tin không phù hợp với đầu ra của bộ phân biệt D Đểgiải quyết vấn dé nay, Gradient Penalty được thêm vào hàm mat mát của D:
Lp = Ex~p,[D(X)] — Ex~p,[D(x)] + AEz~; [(IIVaD(8)la—1)2] — 22)
Trong do:
¢ Ex~p,[D(X)] là dự đoán của D trên mẫu dit liệu giả.
® Ex~,|[D(x)] là dự đoán của bộ phân biệt D trên mẫu dữ liệu thật.
© À là hệ số gradient penalty, tham số dùng để kiểm soát độ ảnh hưởng của
gradient penalty đến hàm mât mát
© Es~p; |(IIVxD(8)||a — 1)? ] là hàm tinh gradient penalty.
Thay vì chuyển dé đốc về khoảng [—T, T], biểu thức (|VxD(£)|a — 1)? tính
toán mức độ lệch giữa 12-norm của độ dốc va 1 Khoảng lệch càng lớn thì điểmphạt càng cao Điều này đảm bảo độ dốc của bộ phân biệt D luôn tiệm cận với
1, giúp kết quả của bộ phân biệt D không thay đổi quá lớn khi đầu vào thay đổi
nhỏ.
2.3 Adversarial Attack
Hệ thống IDS là một công cụ vô cùng quan trong trong việc giám sát và ngănchặn các tấn công mạng có thể xảy ra trong hệ thống Tuy nhiên sự xuất hiện củacác phương pháp tấn công mẫu đối kháng đang tạo ra sự thách thức mới đối vớitính hiệu quả và khả năng bền vững của hệ thống IDS Thay vì tấn công trực tiếp,
kẻ tấn công sử dụng các phương pháp này thay đổi và tạo ra các biến thể khác
so với mẫu đữ liệu ban đầu, khiến cho nó trở nên khó phát hiện hoặc gây ra các
dự đoán sai lầm Và kết qua tỷ lệ false-postive hoặc false-negative rất cao Một số
12
Trang 22Chương 2 Cơ sở lý thuyết
phương pháp như FGSM [12], Basic Iterative Method (BIM) [14], thường được
sử dụng rộng rãi để kiểm tra mức độ hiệu quả của hệ thống IDS
2.3.1 Fast Gradient Sign Method (FGSM)
Được đề xuất bởi Goodfellow [12], là một phương pháp tạo mẫu đối kháng đơn
giản nhưng cho ra hiệu quả cao trong việc qua mặt các mô hình học sâu, thường
được áp dụng nhiều trong computer vision Ý tưởng cơ bản của phương pháp
nay là chỉ làm một vài thay đổi trong mẫu dữ liệu ban đầu trước khi đưa vào môhình sao cho có thể khiến mô hình đó đưa ra dự đoán sai lầm, mà không cần phảitối ưu hóa qua nhiều vòng lặp Ví dụ như trong hình ảnh, chỉ cần thay đổi một
số pixel để khiến cho mô hình không thể nhận diện được đối tượng trong đó bức
ảnh đó được nữa.
Cu thể thì FGSM sẽ sử dụng độ dốc từ hàm mat mát của dữ liệu đầu vào
để xác định hướng điều chỉnh sao cho gây ra thay đổi lớn nhất trong dự đoán.Chúng ta điều biết ham mat mát loss dùng để đo mức độ sai lệch giữa dự đoáncủa mô hình và thực tế, vì thế, FGSM sẽ tận dung nó để tính toán độ đốc và sau
đó thêm nhiễu loạn vào trong mẫu dữ liệu sao cho có thể làm tăng giá trị mat mát
đó Nói cách khác thì phương pháp này xác định các đặc trưng của mẫu dữ liệu
từ hàm mắt mát của mô hình, sau đó thêm nhiễu loạn vào, khiến cho mô hình đó
đưa ra dự đoán sai.
adv, =x~+e€ * sign(VxJ(8,x,y)) (2.3)
Trong đó, qdvx là mẫu đối kháng, x là dữ liệu đầu vào, y là nhãn thực sự của
x, Ø là mô hình mục tiêu, J là hàm mat mát Và € được dùng để đảm bảo rằng độ
nhiễu loạn phải đủ nhỏ để sao cho không bị phát hiện bởi con người nhưng lại
đủ lớn để khiến cho mô hình mục tiêu dự doán sai
2.3.2 Basic Iterative Method (BIM)
Lan dau đề xuất bởi Kurakin [14] vào năm 2016, phương pháp nay là một biến thể
khác của FGSM Trái với FGSM, phương pháp này sử dụng một quy trình lặp dé
tạo ra các mẫu đối kháng Thay vì chỉ áp dụng một bước biến đổi duy nhất chotoàn bộ dữ liệu đầu vào, BIM sử dụng một vòng lặp, trong đó mỗi bước áp dụng
13
Trang 23Chương 2 Cơ sở lý thuyết
phương pháp FGSM để điều chỉnh mẫu dữ liệu Tuy hiệu suất có thể sẽ kém hơn
so với FGSM, nhưng điều nay cho phép BIM có khả năng điều chỉnh dan dan cácnhiễu loạn được thêm vào trong mẫu dữ liệu, từ đó tạo ra các mẫu đối kháng
ngày càng tỉnh vi và khó bị mô hình phát hiện hơn.
Algorithm 1 Basic Iterative Method
an input data x, a true label y, a targeted model Ø, epsilon €, alpha @, iteration iter Adversarial sample X
dần trong quá trình lặp lại Trong mỗi vòng lặp (bước 3), thuật toán sử dụng
phương pháp FGSM để điều chỉnh X Điều này được thực hiện bằng cách tính
toán gradient của hàm mất mát và sau đó nhân với một hang số a để định rõ
kích thước bước cần điều chỉnh Sau đó, thuật toán tiếp tục bước tiếp theo là điều
chỉnh X để đảm bảo rằng nó không biến đổi quá nhiều so với diz liệu ban đầu x,
chỉ được phép nằm trong phạm vi giới han của € Quá trình này được lặp lại liên
tục cho đến khi chạm đến điều kiện dừng của iter
2.3.3 Jacobian-Based Saliency Map Attack (JSMA)
Là một biến thể của Saliency Map, được dé xuất bởi Papernot [22], là một phươngpháp tân công mục tiêu Mục đích của nó là thay đổi mẫu X để khiến mô hìnhphân loại nhầm thành nhãn mục tiêu t, thay vì chi đơn giản là đưa ra một nhãnngẫu nhiên khác Phương pháp này chọn ra số lượng đặc trưng tối thiểu của mẫuban đầu X để biến đổi thành X”, nhưng vẫn đủ để khiến cho mô hình phân loại
14
Trang 24Chương 2 Cơ sở lý thuyết
nó thành nhãn mục tiêu f Ý tưởng cơ bản là tăng mức độ tự tin của mô hình rằng
X’ thuộc về nhãn t, trong khi giảm độ tin phân loại về các nhãn khác xuống thấpnhất có thể Để làm điều này, phương pháp sử dụng Jacobian-Based và SaliencyMap để xác định các đặc trưng có liên quan lớn đến nhãn f, sau đó biến đổi các
đặc trưng này để tạo ra mẫu X’.
nụ if Gy <0 or Dize a > 0
SO Old = (2E aFi(X - (2.4) aX; Sit aA otherwise
Trong đó, F đại diện cho mô hình phân loại, í là một đặc trưng trong mẫu
X, và S(X, t)[f| là saliency map cho biết mức độ ảnh hưởng của đặc trưng í đối
aEIX) Biểu thức Jacobian tính toán
“ax; `
2 1A 0Ft(X)
gradient của từng nhãn mà mô hình biết Ở đây, kết quả là 0 khi aX, x
OF j(X
là đặc trưng i không có hoặc ít ảnh hưởng đến nhãn t, hoặc khi Dj 4+F x, 2 0,
với nhãn t dựa trên biểu thức Jacobian-Based
< 0,tức
cho thấy đặc trưng đó đang ảnh hưởng đến các nhãn khác ngoài f Trong trườnghợp không thỏa hai điều kiện trên, chúng ta tính toán cách mà đặc trưng đó ảnh
hưởng đối với nhãn t dựa trên kết quả của biểu thức (9) die Tấn | Kết
quả cuối cùng là sẽ có saliency map S(X, t) để xác định các đặc trưng cần được
biến đổi
2.3.4 Carlini & Wagner L2-norm Attack (CW L2)
Là phương pháp tao mẫu đối khang được đề suất bởi Carlini [5], không giống cácphương pháp được đề cập phía trên chủ yếu biến đổi phụ thuộc vào các giá trị
đạo hàm hoặc hàm mat mát của mô hình Ở đây, phương pháp tập trung vào việc
tạo ra mẫu X” từ mẫu ban đầu X sao cho khoảng khác biệt giữa chúng là nhỏ nhất
dựa trên các công thức tính toán sự khác biệt, nhưng lại vẫn đủ để khiến cho mô
hình phân loại nó thành nhãn mục tiêu t thay vi một nhãn ngẫu nhiên nào khác.
Ý tưởng cơ bản được thể hiện ở công thức sau:
minimize D(X, X + 6)
2.5
sao cho C(X +6) = f và X + ð e [0, 1]” =)
15
Trang 25Chương 2 Cơ sở lý thuyết
Trong đó, D(X, X +6) là khoảng cách giữa mẫu ban đầu X và mẫu đối khángX’ (hay là X + 6), được tính bằng L1— norm, L2— norm hoặc Lo — norm
C(X + 6) là nhãn phân loại của X + 6, ở đây là nhãn mục tiêu t, va 6 là nhiễu
dùng để biến đổi X
Tuy nhiên, công thức trên rất khó triển khai trong thực tế vì C(X + 6) = t là
phi tuyến tính, tức là mối quan hệ giữa X’ va t không phải lúc nào cũng nhấtquán Do đó, cần phải tìm một hàm tính toán khác có thể tối ưu hóa van dé này,
hay còn gọi là hàm mục tiêu ƒ (objective function).
f (X’) = max(max{Z(X/°)¡: ¡ # t} —Z(X”):,—k) (2.6)
Trong đó, Z chính là mô hình phân loại nhưng đã loại bỏ hàm softmax ở
layer cuối cùng, í là các nhãn mà mô hình phân loại đã biết Nhóm tác giả nhận
thấy rằng C(X + 6) = t chỉ khi ƒ(X + ð) < 0 Từ đó, họ đề xuất một phương pháp
ước lượng khác:
minimize ||ô||§ + €.ƒ(X + ô)
2.7
sao cho C(X +6) = t và X + ð e [0, 1]” 2)
Trong đó, c là hằng số nằm trong khoảng [1e + 00, 1e + 02], phạm vi mà
nhóm tác giả đã thử nghiệm và cho kết quả tốt nhất Như vậy, van dé cần quantâm là 6 và cách tính toán hàm ƒ Đối với 6, yêu cầu là nó phải đảm bảo X +6 €[0, 1] Để giải quyết van dé này, nhóm tác giả đã sử dụng giá trị w, được khởitạo ban đầu bằng 0 và có kích thước bằng X Sau đó, họ dùng hàm tối ưu Adam đểtối ưu hóa giá trị này, và cuối cùng tính toán tanh(w) Vì kết quả của tanh(w)luôn nằm trong khoảng [—1, 1], nên với một chút chỉnh sửa, (X + ổ) sẽ luôn nằm
trong khoảng [0, 1] Do đó, công thức sẽ là:
§ = (tanh(w) + 1)~X (2.8)
2.3.5 DeepFool Attack
Được dé xuất bởi Moosavi [18], phương pháp này khác với CW và JSMA, tạo ramẫu đối kháng hướng tới nhãn mục tiêu t; hoặc là FGSM và BIM tập trung vàoviệc tạo ra mẫu đối kháng để đưa ra một nhãn ngẫu nhiên khác Phương pháp
1ó
Trang 26Chương 2 Cơ sở lý thuyết
DeepFool được triển khai hoàn toàn khác Ý tưởng cơ bản là trong không gian
N-chiều, mỗi nhãn có các siêu mặt phẳng riêng biệt, và mẫu dữ liệu thuộc vào
siêu mặt phẳng của nhãn tương ứng Với mẫu dữ liệu ban đầu X thuộc siêu mặt
phẳng A, thuật toán sẽ tìm kiếm một siêu mặt phẳng của một nhãn khác gần Xnhất, sau đó biến đổi X để nó có thể thuộc về siêu mặt phẳng đã tìm được Việc
tìm kiếm siêu mặt phẳng dựa trên khoảng cách L2 giữa X và mặt phẳng đó, nên bài toán khi này sẽ là tìm kiếm L2 nhỏ nhất giữa các siêu mặt phẳng, gọi là Í.
Được xác định bởi công thức:
Wy = Vƒk(Xi)— Vfe(xo) (Xi)
Fi, = Fk (Xi) — fe(x0) (Xi)
[scoreo, SCor€1, , SCOr¡], mỗi score tương ứng với mức độ tự tin của mô
hình đối với mỗi nhãn, nên ƒ¿(x¡) thể hiện độ tự tin của mô hình đối với nhãn i
Ww, được tinh bang hiệu độ dốc giữa nhãn i va nhãn của Xo, dùng để xác định
ranh giới giữa siêu mặt phẳng của i và của Xo; fr cho biết sự khác biệt về mức độ
/
tự tin của mô hình giữa nhãn ( và nhãn cua Xo Sau khi tim được w, và ƒ, ở ta có
k
thể tìm được khoảng cách nhỏ nhất từ Xo đến siêu mặt phẳng gần nhất Sau khi
có được Í, ta sẽ tiền hành tìm kiếm rj, là vec-tơ chứa các giá trị để biến đổi Xo sang
2.3.6 Zeroth-Order Optimisation Attack (ZOO)
Theo Chen [7], phường pháp nay được tạo ra nhằm mục dich tấn công vào các
mô hình hộp đen - tức là những mô hình không tiết lộ câu trúc hoặc cách tínhtoán bên trong của chúng Để làm được điều này, nhóm tác giả dựa trên ý tưởng
17
Trang 27Chương 2 Cơ sở lý thuyết
căn bản là cung cấp một mẫu dữ liệu X cho mô hình và thu nhận kết quả đầu
ra từ nó Dựa trên mẫu X và kết quả đầu ra này, họ dự đoán và ước lượng cách
mô hình tính toán hàm mất mát và độ dốc của nó Từ đó đủ cơ sở để có thể tạo
ra mẫu đối kháng X’ để qua mặt mô hình Sử dung phương pháp Zeroth order, làphương pháp tối ưu hóa phi đạo hàm, chỉ cần xác định giá trị của hàm mục tiêu ƒ
tại hai điểm xung quang mẫu dữ liệu X, tức là xác định giá trị của ƒ(X + h.V) và
ƒ(X— h.V), từ đó xác định được độ dốc của mô hình Sau đó hàm optimize nhưcoordinate descent dé áp dung độ đốc vừa tìm được này cho việc tối ưu
Trong bài báo của tác giả, họ đã chỉnh sửa lại thuật toán Stochastic Coordinate
Descent để có thể tối ưu cho bài toán của mình, vì thuật toán này dùng rất tốtcho mẫu dir liệu có kích thước N-chiéu, bằng cách chi cập nhật coordinate ngẫu
nhiên của mẫu X cho đến khi hội tụ thay vì là cập nhật toàn bộ coordinate có
bên trong Khó khăn của thuật toán Stochastic Coordinate Descent là làm sao tìm
được coordinate phù hợp nhất để cập nhật, nó chủ yếu thể hiện thông qua tìm 6được đề cập trong thuật toán Vì lý do đó, Chen đưa ra công thức khác để có thểtìm được 6 phù hợp đối với X nhất
Với hàm loss, họ dựa trên ý tưởng từ hàm objective ƒ từ CW attack để xác
định:
ƒ(X) = max{log[F(X)]¡— max{log[f(X)jt},—k} (2.11)
Trong đó, F(X)¡noặc t là kết quả đầu ra của mô hình với mẫu X tại nhãn i hoặc
nhãn mục tiêu t log[F(X)]¡— nhớt! Ilog[F(X)]¿} được dùng để xác định mức độ
tự tin của mô hình đối nhãn nó đã phân loại, nếu bé hon 0 thì tức là mẫu X đangđược phân loại cho t và ngược lại đối với nhãn i Giá trị k được dùng để kiểm
soát hàm loss này (thường đặt k > 0), được dùng trong trường hợp mẫu X để
ham không tiến đến oo
Tiếp theo là tim độ dốc g của X theo công thức:
Trang 28Chương 2 Cơ sở lý thuyết
Cuối cùng là tìm Hassien h:
2 :Ì— — ;Ì—
hị= ồ 1) „X+h.ei)—ƒ(X—h.ei)— 2ƒ(X) (2.13)
5X? h2
Sau khi có h, g, thì sử dụng ý tưởng thuật toán Stochastic Coordinate Descent
để ô thích hợp để biến đổi X thành X’, theo nhóm tác giả thì nó được gọi là
ZOO— ADAM (Zeroth Order Stochastic Coordinate Descent sử dụng thuật toán
tối ưu ADAM) va ZOO — Newton (Zeroth Order Stochastic Coordinate Descent
sử dung công thức Newton).
2.4 Explainable Artificial Intelligent (XAD
2.4.1 Tổng quan XAI
Mục tiêu của Explainable Artificial Intelligence, hay còn gọi là XAI, là làm sáng
tỏ quá trình và cơ chế mà một mô hình học sâu sử dụng để đưa ra các dự đoánhoặc quyết định dựa trên dữ liệu đầu vào Trí tuệ nhân tạo khả giải trình giúp conngười hiểu rõ hơn về cách hoạt động của mô hình mà họ đang sử dụng Điều này
cực kỳ quan trọng vì các mô hình học máy, đặc biệt là mô hình học sâu, thường
được coi là các mô hình hộp đen, khó có thể hiểu, dẫn đến việc khó kiểm soát quy
trình tính toán bên trong và gây khó khăn trong việc tìm lỗi hoặc debug Trong
mạng sinh đối kháng, trí tuệ nhân tạo khả giải trình được sử dụng để xác địnhcác đặc trưng quan trọng của từng nhãn Điều này giúp tập trung vào phân tíchcác đặc trưng này để tạo ra các mẫu dữ liệu mới có chất lượng tốt hơn và gầngiống với đặc trưng của mẫu dit liệu gốc nhiều nhất có thể
2.4.2 SHapley Additive exPlanations (SHAP)
SHapley Additive exPlanations (SHAP) [17] là một trong các phương pháp phổ biến để giải thích hoạt động của một mô hình học máy khi đưa ra dự đoán dựa
trên dir liệu đầu vào Ý tưởng cốt lõi của SHAP xuất phát từ lý thuyết trò chơi hợp
tác Lý thuyết này nhấn mạnh vào đánh giá sự đóng góp của mỗi thành viên để cóthể đạt được một mục tiêu chung, được dùng để trả lời cho câu hỏi "Làm thế nào
19
Trang 29Chương 2 Cơ sở lý thuyết
để phân chia phần thưởng một cách công bằng và hợp lý cho tất cả những đặc
trưng đã đóng góp vào dự doan?" Trong ngữ cảnh của học máy, nó có nghĩa xác
định tầm quan trọng của từng đặc trưng đối với kết quả dự đoán của mô hình.Tức là xem xét mức độ ảnh hưởng của từng đặc trưng đối với quyết định của mô
hình Mức độ ảnh hưởng này còn được gọi là "Shapley Value" hay giá trị Shapley.
Giá trị Shapley là một chỉ số thể hiện trung bình sức ảnh hưởng của một đặctrưng trong tất cả các trường hợp mà nó tham gia Ví dụ, giả sử chúng ta có mộttap hợp gồm 4 đặc trưng {A, B, C, D} và kết quả dự đoán của mô hình là "bìnhthường" Chúng ta muốn biết mức độ ảnh hưởng của đặc trưng A đối với kết quả
này Trong trường hợp 1, chỉ có A, B được xem xét, A có ảnh hưởng là 60% Trong trường hợp 2, khi {A, B, C} được xem xét, A chỉ còn 40% Trong trường hợp 3, {B,
C, D}, dù không có sự tham gia của A, kết quả của mô hình vẫn không thay đổiquá nhiễu Bằng cách tính trung bình giữa các trường hợp khác nhau, chúng ta
có thể xác định mức độ ảnh hưởng của đặc trưng đối với kết quả của mô hình.Phương pháp này được thực hiện bằng công thức:
|ŠJ'(IMI—|S|—1)1
$i = XscN/{i} INI: [v(SU{i})— v(S)] (2.14)
Trong đó:
s N: Là tập hợp các feature của input data.
e S: Là tập hợp các feature không chứa feature í.
© |N|: Số lượng feature có trong tập S
¢ v(S): Là mức độ ảnh hưởng tập S đối với output
¢ v(SU {í}): Là mức độ ảnh hưởng tập S và feature í đối với output.
2.4.3 Saliency Maps
Một phương pháp phổ biến trong việc giải thích kết quả của mô hình là Saliency
Maps [24], thường được sử dụng để giải thích dự đoán trong hình ảnh ï Saliency Maps sử dung heat map để làm nổi bật các pixel quan trọng trong I có ảnh hưởng
lớn đến dự đoán của mô hình Nói cách khác, phương pháp này cố gắng trực quan
hóa các đặc trưng quan trong trong I có ảnh hưởng đến dự đoán của mô hình Y
tưởng này được thực hiện bằng cách biến đổi bức ảnh I sao cho kết quả dự đoáncủa nhãn liên quan là cao nhất Quá trình biến đổi này sử dụng L2-regularization
20
Trang 30Chương 2 Cơ sở lý thuyết
để đảm bảo rằng bức ảnh được tạo ra vẫn có ý nghĩa và giữ được các đặc trưng
tin phức tạp, ví dụ khi đọc sách, chúng ta không đọc từng chữ một mà chỉ tập
trung vào những từ và câu thể hiện rõ nội dung, ngữ cảnh được truyền đạt
Bahdanau [4] đã áp dụng ý tưởng này vào xử lý ngôn ngữ tự nhiên (NLP), nhằm
giải quyết van dé thắt cổ chai khi xử lý chuỗi vector có độ dài có định trong mô
hình dịch ngôn ngữ, giúp mô hình tập trung vào các từ ngữ quan trọng trong câu
nguồn để tạo ra bản địch chính xác hơn
2.5.1 Phương pháp nên tảng
Trong cơ chế tự chú ý, có 3 thành phần chính: truy vấn q và cặp key — value
K, V Một cách đơn giản để hiểu là qua ví dụ sau: khi tìm kiếm một nội dungtrong cuốn sách, q là câu truy van để tìm kiếm, K là tiêu dé các chương và V lànội dung của từng chương Khi có một truy van q, chúng ta sẽ sử dụng tiêu dé
K để xác định chương, sau đó đọc nội dung V để tìm kiếm câu trả lời cho q Quá
trình này được áp dụng tương tự cho mô hình học sâu, nó sử dụng truy vấn q vàcặp key — value liên quan để trả về các thông tin cần thiết, từ đó tập trung vàocác thành phan quan trọng của dữ liệu đầu vào Theo [4], với truy vẫn q va cặpkey — value K V, các thông tin cần được chú ý sẽ được tính toán dựa trên tổngtrọng số của q và các giá trị K
Alg,k,v) = reheat
Vị (2.16)
i yj EXP (€gk;)
21
Trang 31Chương 2 Cơ sở lý thuyết
Trong đó, A là attention output gk = q - k, cho biết mức tương quan giữa q
và k.
2.5.2 Cơ chế tư chú ý (Self-Attention)
Cơ chế Self-Attention là một phần quan trọng trong các mô hình học sâu hiện
đại, đặc biệt là trong các lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và nhận diện
ảnh Self-Attention giúp mô hình học cách tự động xác định các phần quan trọngcủa đữ liệu đầu vào, từ đó cải thiện khả năng hiểu và xử lý thông tin Điều này
làm cho Self-Attention trở thành nền tảng của nhiều mô hình tiên tiến như former.
Vdk
Trong đó:
* Q (Query): là đại diện cho vector truy van
¢ K (Key): là đại diện cho vector khóa.
e V (Value): là đại diện cho các vector giá trị
© dự là đại diện cho chiều của các vector khóa
® softmax ham activation softmax.
22
Trang 32Chương 3
Phương pháp
Tóm tắt chương
Trong chương này, chúng tôi dé xuất một bộ khung huấn luyện đối kháng
Robus-tAdvTrain (Robustness Adversarial Training) nhằm tận dụng khả năng sinh các
mẫu đối kháng từ mô hình GAN để huấn luyện cho mô hình hệ thống phát hiện
xâm nhập có khả năng tự kháng mẫu đối kháng Tiếp theo, chúng tôi sẽ trình
bày mô hình sAoEGAN (self-Attention on Explanation Generative Adversarial
Network) kết hợp khả năng giải thích của trí tuệ nhân tạo khả giải trình và cơ chế
tự chú ý nhằm đưa ra các thông tin hữu ích hỗ trợ cho bộ sinh tạo ra các mẫu đối
kháng chất lượng
3.1 RobustAdvTrain
Phần này trình bày một bộ khung RobustnessAdvTrain (Robustness AdversarialTraining framework) dùng để huấn luyện mô hình IDS có tính bền vững cao trướccác mẫu đồi kháng Hình 3.1 biểu diễn phương pháp tổng quát để huấn luyện mộtIDS có tính bền vững trước các mẫu đối kháng Bộ khung bao gồm ba giai đoạn
chính: Robustness Training, Robustness Validation, và Generated Validation.
* Robustness Training: Giai đoạn này tập trung vào việc huấn luyện mô hình
với các mẫu đối kháng được tạo ra nhằm tăng khả năng chịu đựng của mô
hình trước các cuộc tan công Quá trình này bao gồm việc tạo ra các mẫu
đối kháng từ di liệu huấn luyện ban đầu và sau đó huấn luyện mô hình để
nhận diện va chống lại các mẫu này
23
Trang 33Chương 3 Phương pháp
* Robustness Validation: Sau khi mô hình đã được huấn luyện, giai đoạn này
kiểm tra khả năng của mô hình trong việc nhận diện các mẫu đối kháng Các
mẫu đối kháng mới được tạo ra từ dữ liệu kiểm thử để đánh giá hiệu suất
của mô hình.
* Generated Validation: Giai đoạn cuối cùng này tập trung vào việc xác thực
hiệu suất của mô hình dựa trên các mẫu đối kháng đã được tạo ra trongquá trình huấn luyện và kiểm thử Mục tiêu là đảm bảo rằng mô hình cókhả năng duy trì tính bền vững trước các cuộc tân công trong thực tế
HÌNH 3.1: Bộ khung huấn luyện RobustAdvTrain
Bên cạnh đó, với sự hỗ trợ của trí tuệ nhân tạo khả giải trình, chúng ta có thể
đưa ra các giải thích nhằm giúp nhìn ra được sự khác nhau giữa các phiên bản
IDS có tính bền vững cao trong toàn bộ giai đoạn huấn luyện Điều này khôngchỉ giúp cải thiện hiểu biết về cách mà mô hình hoạt động, mà còn cung cấp cácthông tin quan trọng để tối ưu hóa và nâng cao hiệu quả của hệ thống IDS
24
Trang 34Chương 3 Phương pháp
Các thành phần chính trong bộ khung huấn luyện RobustAdvTrain bao gồm:
cơ sở dữ liệu DATABASE, mô hình mạng sinh đối kháng GAN, tan công đối
kháng (Adversarial Attacks), bộ kiểm tra CHECKER, mô hình DL-IDS và trí tuệ
nhân tạo khả giải trình.
Mô hình DL-IDS (Deep Learning based IDS): là một mô hình IDS dựa
trên học sâu thực hiện phân loại mẫu là lành tính hay tấn công
Cơ sở dir liệu DATABASE: là một thành phần cung cấp dit liệu huấn luyệncho giai đoạn huấn luyện bền vững Robustness Training và dit liệu đánh giá
cho giai đoạn đánh giá tính bền vững Robustness Validation Cơ sở dữ liệu
cung cấp các dữ liệu bao gồm các mẫu lành tính nguyên bản Xpen, mẫu tan
công nguyên bản Xatk, mẫu sinh đã được kiểm X°en cho việc huấn luyện
mô hình DL-IDS.
Mô hình mạng sinh đối kháng GAN: thành phần này hỗ trợ sinh mẫu các
mẫu sinh Xgen cho việc huấn luyện mô hình DL-IDS D¿ Thanh phan này
hoạt động tại giai đoạn Robustness Training.
Tan công đối kháng Adversarial Attack: thành phan tạo ra các mẫu đối
kháng Xatk từ các mẫu tan công nguyên bản Xa: bằng cách sử dụng các
thuật toán tân công khai thác điểm yếu của các mô hình học sâu như FGSM,BIM, JSMA, CW, Deep Fool hay ZOO Thành phần này hoạt động tại giai
đoạn Robustness Validation.
Bộ kiểm tra CHECKER: thành phần đánh giá và quyết định mô hình D¿
mới có phải là mô hình DL-IDS có khả năng kháng mẫu đối kháng tốt nhất
và thực hiện lưu Xgen vào cơ sở dữ liệu hay không Thành phần này hoạt
động tại giai đoạn Generated Validation.
Trí tuệ nhân tạo khả giải trình XAI: thành phần này hỗ trợ giải trình các
lựa chon của mô hình DL-IDS D;.
Trong bộ khung huấn luyện RobustAdvTrain của chúng tôi, sẽ thực hiện huấnluyện T bước, tức ta sẽ có T Dt, mỗi mô hình sẽ được huấn luyện N vòng Tại mỗi
mô hình D¿ sé trải qua ba giai đoạn của bộ khung RobustAdVTrain nhằm datđược mô hình tốt nhất mà có khả năng tự kháng mẫu đối kháng
25
Trang 35Chương 3 Phương pháp
Giai đoạn đầu tiên là Giai đoạn Robustness Training, hay còn gọi là bướchuấn luyện mô hình, thực hiện huấn luyện mô hình DL-IDS D; bằng các loại dữ
liệu khác nhau Bao gồm dữ liệu lành tính gốc Xpen (bao gồm dit liệu có nhãn là
bình thường nguyên bản, được ký hiệu bởi biểu tượng tệp màu xanh lá có daukiểm, và mẫu tan công nguyên bản Xatk, được ký hiệu bởi biểu tượng tệp màu
đỏ có hình con bọ), dữ liệu sinh Xã en (được ký hiệu bởi biểu tượng tệp màu vàng
có hình con bọ và có dau kiểm) đã được xác nhận bởi bước Generated Validation,
và dữ liệu sinh mới Xgen Việc sử dụng đa dạng các loại dữ liệu này giúp mô
hình học được các đặc điểm phong phú của cả dit liệu bình thường và dữ liệu tan
công, đồng thời nâng cao khả năng chống chịu trước các mẫu đối kháng.
Danh sách các thuật toán tạo mẫu đối kháng
| Fosm || BIM ch JSMA || cw || Zoo |
Chọn ngẫu MỊ một thuật toán
D; dự đoán la ATTACK D; dự đoán là BENIGN
HINH 3.2: Adversarial Attack
Sau khi hoàn giai đoạn huấn luyện mô hình, chúng ta bước đến giai đoạn
tiếp theo, đó là Robustness Validation, hay còn gọi là bước đánh giá mô hình
Tai đây, thành phần Adversarial Attack sẽ hoạt động như hình 3.2 Các mẫu tan
26
Trang 36Chương 3 Phương pháp
công nguyên bản Xatk sẽ được đưa qua các thuật toán tan công đối kháng để sinh
ra các mẫu đối kháng Xá:x Mỗi mẫu tân công sẽ được thực hiện tấn công ngẫu
nhiên bởi một thuật toán trong một danh sách các thuật toán chẳng hạn FGSM,
BIM, CW, DeepFool, JSMA hoặc ZOO Mau déi kháng Xatk được tạo ra sé đượcđưa cho mô hình DL-IDS D¿ đua ra các dự đoán Dựa vào kết quả dự đoán ta cóthé tính toán giá trị "Robustness Score" pt, nó là giá tri biểu hiện sự hiệu quả của
mô hình trước mẫu đối kháng Việc đánh giá này giúp xác định khả năng của môhình trong việc phát hiện và chống lại các tấn công đối kháng, đảm bảo rằng môhình không chỉ học được từ các mẫu tân công đã biết mà còn có thể phản ứng
hiệu quả với các tân công mới.
"Ro-xác định ở bước trước đó, thì CHECKER chỉ định mô hình D; mới này là mô hình
vượt trội nhất hiện tại với giá tri "Robustness Score" là pt, Đồng thời cũng lưu
27
Trang 37Chương 3 Phương pháp
mẫu sinh mới Xgen vào cơ sở dữ liệu là Xin: Quy trình này đảm bảo rằng mô
hình IDS luôn được cập nhật và cải tiến liên tục, duy trì tính bền vững và khảnăng chống chịu trước các mẫu tan công mới nhất
Bên cạnh việc huấn luyện và đánh giá, sự hỗ trợ của XAI đóng vai trò quan
trọng trong việc cung cấp các giải thích chỉ tiết về các quyết định của mô hình.Điều này không chỉ giúp hiểu rõ hơn về cách mà mô hình phân loại các mẫu dữ
liệu mà còn tăng tính minh bạch và độ tin cậy của hệ thống, đặc biệt là trong các
ứng dụng an ninh mạng, nơi mà việc hiểu rõ lý do tại sao một cảnh báo được đưa
ra là rất quan trọng
Bộ khung RobustnessAdvTrain không chỉ giúp tạo ra các mô hình IDS có khả
năng phát hiện và chống lại các tấn công đối kháng một cách hiệu quả, mà còn
cung cấp các giải thích rõ rang và minh bạch về các quyết định của mô hình, tăngcường sự tin cậy và an toàn của hệ thống
3.2 sAoEGAN
Phan này sẽ trình bày sAoEGAN, một mô hình mạng sinh đối kháng mà có khảnăng sinh ra các mẫu đối kháng chất lượng Bằng sự kết hợp giữa tính năng của trítuệ nhân tạo khả giải trình và cơ chế tự chú ý, sẽ giúp cho việc tao ra các mẫu đốikháng một cách hiệu quả nhằm hỗ trợ bộ khung huấn luyện RobustAdvTrain đạtđược hiệu quả tốt nhất Hình 3.4 miêu tả tổng quát các thành phần của sAoEGANbao gồm bộ sinh AoEG, bộ phân biệt AoED, và bộ giải thích AoEX
Đầu tiên, bộ phân biệt AoED có vai trò thực hiện đưa ra đánh giá cho dữ liệumang s đầu vào là mẫu thật hay mẫu giả Với kết quả này, sẽ là nguồn thông tin
cho trí tuệ nhân tạo khả giải trình tạo ra ma trận giải thích e cho dự đoán Ðp(s)
của AoED với mẫu s Ma trận giải thích e nay sẽ cung cấp các thông tin chỉ tiết
về lý do tại sao dữ liệu mạng s được phân loại là thật hay giả, dựa trên các đặc
điểm nổi bật trong dữ liệu Những thông tin từ ma trận giải thích e sẽ được sử
dụng để hướng dẫn bộ sinh AoEG trong việc tạo ra các mẫu đối kháng tốt hơn
Cụ thể, bộ sinh AoEG sẽ sử dụng các thông tin giải thích này để hiểu rõ hơn vềcách thức mà bộ phân biệt AoED đánh giá các mẫu đầu vào, từ đó điều chỉnh quátrình sinh mẫu đối kháng sao cho các mẫu mới không chỉ vượt qua được đánhgiá của AoED mà còn trở nên chất lượng và thực tế hơn Điều này giúp nâng cao
28
Trang 38Chương 3 Phương pháp
Sample s
generated sample
HINH 3.4: sAoEGAN
khả năng tạo ra các mẫu đối kháng có hiệu quả cao, phục vụ cho quá trình huấnluyện và kiểm thử các mô hình học sâu nhằm tăng cường khả năng chống lại cáctấn công từ mẫu đối kháng
Tiếp theo, bộ sinh AoEG có vai trò thực hiện sinh ra các dữ liệu mạng đốikháng Ê có khả năng đánh lừa bộ phân biệt AoED Dé nâng cao chất lượng cácmẫu sinh ra, bộ sinh AoEG được trang bị cơ chế tự chú ý trên giải thích, cách hoạtđộng của cơ chế này được trình bày ở phần 3.3 Lớp chú ý này giúp mô hình tập
trung vào các phan quan trọng của dt liệu khi tạo ra mẫu đối kháng, cải thiện độ
chân thực và tính đa dạng của các mẫu sinh ra Lớp chú ý tự chú ý có nhiệm vụ làm nổi bật mối quan hệ giữa các đặc điểm của dữ liệu s Điều này có nghĩa là
mô hình có thể xác định các phần quan trọng của dữ liệu và tập trung vào chúngkhi sinh ra các mẫu đối kháng Đồng thời, trí tuệ nhân tạo khả giải trình cung cấp
ma trận giải thích e, đưa ra những thông tin về những đặc điểm nào trong dữliệu s là quan trọng và ảnh hưởng lớn đến dự đoán pp(x) của AoED Sự kết hopgiữa cơ chế tự chú ý và trí tuệ nhân tạo khả giải trình mang lại một góc nhìn toàndiện về dữ liệu s Cơ chế tự chú ý giúp nhận diện và tập trung vào các đặc điểmquan trọng, trong khi ma trận giải thích e cung cấp thông tin chỉ tiết về tam quan
trọng của những đặc điểm đó trong việc đưa ra dự đoán của bộ phân biệt Từ đó,
29
Trang 39Chương 3 Phương pháp
bộ sinh AoEG có thể tạo ra các mẫu đối kháng Ê một cách hiệu quả hơn, vì chúngđược sinh ra dựa trên sự hiểu biết sâu sắc và toàn diện về dữ liệu gốc Điều này
không chỉ giúp nâng cao khả năng đánh lừa bộ phân biệt mà còn cải thiện độ
chân thực và tính đa dạng của các mẫu đối kháng, làm cho quá trình huấn luyện
và kiểm thử mô hình trở nên hiệu quả và toàn diện hơn.
Cuối cùng, bộ giải thích AoEX có nhiệm vụ giải thích các dự đoán pe cua
AoED Cụ thé, AoEX cung cap các giải thích Mz p, p2 8ÌúP hiểu rõ lý do tại saomột mẫu được phân loại là thật hay giả Các giải thích này bao gồm các thông tinchi tiết về những đặc điểm nào của mẫu S đã ảnh hưởng đến quyết định phânloại của bộ phân biệt AoED Khả năng giải thích này rất quan trọng trong cácứng dụng thực tế, nơi mà việc hiểu rõ quyết định của mô hình giúp tăng tínhminh bạch và đáng tin cậy của hệ thống Khi các nhà phát triển và người dùng có
thể thấy được các yéu tố cụ thể dẫn đến quyết định phân loại, họ sẽ có niềm tin
hơn vào tính chính xác và độ tin cậy của mô hình Hơn nữa, những giải thích này
còn giúp phát hiện và sửa chữa các sai sót hoặc thiên vị tiềm ẩn trong mô hình,nâng cao chất lượng và hiệu quả của hệ thống Trong tổng thể, bộ giải thích AoEXkhông chỉ hỗ trợ việc hiểu rõ và tin tưởng vào các quyết định của bộ phân biệt,
mà còn đóng vai trò quan trọng trong việc cải thiện và tối ưu hóa mô hình quacác chu kỳ phát triển liên tục Với khả năng giải thích mạnh mẽ, hệ thống trở nênminh bach hon, dé dàng được chấp nhận và sử dụng trong các ứng dụng thực tế
g — Al1gorithm4(x, m)
Cập nhật AoEG với g =0
30
Trang 40Chương 3 Phương pháp
Quá trình huấn luyện mô hình GAN được mô tả thông qua Thuật toán 2 Cần
thực hiện N vòng lặp để bộ sinh AoEG và bộ phân biệt AoED đạt được kha năng
tối ưu của mỗi chúng Tại mỗi vòng, ta thực hiện huấn luyện theo từng lô (batch).Với mỗi lô, quá trình huấn luyện diễn ra như sau:
1 Đầu tiên, bộ phân biệt AoED thực hiện tính toán dự đoán pp(x) cho lô dữ
liệu đầu vào x Đây là bước quan trọng để xác định liệu mẫu đầu vào là thật
hay giả.
Tiếp theo, ma trận giải thích m cho dự đoán Pp(x) của AoED với 16 x đượcsinh ra từ bộ giải thích AoEX Ma trận giải thích này cung cấp thông tincần thiết về những đặc điểm nào trong lô x đã ảnh hưởng đến dự đoán của
AoED.
Bộ sinh AoEG sử dung thông tin từ ma trận giải thích m để sinh ra lô đốikháng 8 Lô đối kháng này được thiết kế nhằm đánh lừa bộ phân biệt AoED
Với lô dữ liệu x và lô đối kháng X, ta tính toán giá trị mat mát d thông qua
Thuật toán 3 Giá trị mat mát này đo lường hiệu quả của AoED trong việc
phân biệt giữa lô thật và lô đối kháng.
Sau khi tính toán giá trị mất mát đ, trọng số của bộ phân biệt AoED đượcnâng cấp nhằm cải thiện khả năng phân loại của nó
Cuối cùng, ta tính toán giá trị mat mát g bằng Thuật toán 4 Giá trị mat mát
này đo lường hiệu quả của bộ sinh AoEG trong việc tạo ra các lô đối kháng
Ấ có thể đánh lừa bộ phân biệt AoED Sau đó, trọng số của bộ sinh AoEGđược nâng cấp để cải thiện chất lượng của các mẫu đối kháng sinh ra
Quá trình này được lặp lại trong N vòng để đảm bảo cả bộ sinh và bộ phânbiệt đều đạt được mức độ tối ưu, giúp hệ thống GAN hoạt động hiệu quả và tạo
ra các mẫu đối kháng chất lượng cao
31