Nghiên cứu này dé xuất phát triển một bộ phân loại hai lớp cho IDS: lớp đầu tiên sử dụng thuật toán học máy ML dé xử lý dữ liệu trong thời gian ngăn, trong khi lớp thứ hai áp dung mô hìn
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG
DOAN DO LAM TRUONG
KHOA LUAN TOT NGHIEP
PHAT TRIEN BO PHAN LOẠI HAI LỚP DỰA TREN HOC MAY
CHO HE THONG PHAT HIEN XAM NHAP
DEVELOPING MACHINE LEARNING-DRIVEN TWO-LAYER
CLASSIFIER FOR INTRUSION DETECTION SYSTEM
CU NHAN NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
THS DO HOANG HIEN
TP HO CHÍ MINH, 2024
Trang 2LOI CAM ON
Trước hết, tác giả xin bay tỏ lời cảm on chân thành nhất đến Ban giám hiệu vì đã luôntạo mọi điều kiện tốt nhất đề tác giả có thé tận dụng tối đa sự sáng tạo và phát triểntoàn diện bản thân Bên cạnh đó, tác giả muốn gửi lời cảm ơn đến toàn thé quý thầy
cô đã và đang giảng dạy tại trường nói chung và Khoa Mạng máy tính & Truyềnthông nói riêng, trong suốt quá trình học tập tại trường, các thầy cô không chỉ truyềnđạt kiến thức chuyên môn sâu rộng mà còn luôn là những tam gương sáng về daođức, lối sống và tinh thần hoc tập không ngừng Những điều quý báu này sẽ mãi làđộng lực đề tác giả tiếp tục nỗ lực, phát triển bản thân trong tương lai
Đặc biệt, tác giả muốn gửi lời cảm ơn sâu sắc tới ThS Đỗ Hoàng Hiển, người đãkhông ngừng dành thời gian, tâm huyết dé hướng dẫn, góp ý và động viên tác giảtrong suốt quá trình thực hiện khóa luận Xin cảm ơn thầy vì đã kiên nhẫn lắng nghe,
san sàng chia sẻ kinh nghiệm và định hướng cho tác giả trong từng giai đoạn của việc
thực hiện khóa luận Dưới sự chỉ bảo tận tình của thay, tác giả đã được tiếp thu ratnhiều kiến thức quý giá, cũng như rèn luyện được những kỹ năng cần thiết Nhữngbài học giá trị mà thầy truyền đạt sẽ mãi là hành trang giúp tác giả vững chắc trên con
đường phía trước
Ngoài ra, tác giả xin gửi lời cảm ơn chân thành đến gia đình, bạn bè và những người
thân yêu Mọi người đã luôn ở bên, chia sẻ và tạo điều kiện dé tác giả tập trung hoàn
thành khóa luận Sự ủng hộ tinh thần và vật chất của mọi người là nguồn động lực vôgiá đối với tác giả
Cuối cùng, tác giả hoàn toàn nhận thức được kiến thức chuyên môn năng lực cònnhiều hạn chế Vì vậy, tác giả rất mong nhận được sự nhận xét, góp ý quý báu từ cácthầy cô và hội đồng dé tác giả tiếp tục hoàn thiện khóa luận và đạt được những kếtquả tốt hơn trong tương lai
Đoàn Đỗ Lâm Trường.
Trang 3MỤC LỤC
Chương 1 = TONG QUAN DE TAL -2-©22- 5E 2S£2EE£EEE2EEEEEEEEEEEerkrrrrrrrees 2
1.1 Ly do chọn đề tai c.cc.ccecceccecceccsccsscsscssesscssesssssessessesscssessesuesucsuesuesssssssessasesesaes 2
1.2 Mục tiêu nghiÊn CỨU - G -c 119211831119 11 89118 11 11111 1H ng ng rệt 3
1.3 Đối tượng nghiên CỨu - 2: + SE+SE+SE+EEEEESEE2EEEEE2E121121121121121121 21.1 xe 3
1.4 Pham vi nghién Cu na a 3
1.5 Phương pháp nghiên Ctru 0 cc eececeeseeseeeseesceeseeeeeeeceseeeeeseeeensecseeeeeeeeens 3
1.6 Cấu trúc khoá luận -+-©+++++E+++tEtEEkxtrtEkkrtttrirrtriirrrrieiid 4Chương2 KIÊN THUC NEN TANG VÀ NGHIÊN CỨU LIEN QUAN 5
2.1 Hệ thống phát hiện xâm nhập IDS -2 ¿- 2 +¿©++++++zx++zx+zcxzeex 5
2.11 Tông qấ AGE đ>è & ) / 52.1.2 Hệ thống phát hiện xâm nhập dựa trên học máy (AI-based IDS) 8
2.2 Học máy (ML) -.- 2G SG 111 ng TH TH ng nh Hy 10
2.2.1 Một số mô hình Machine Learning phổ biến -2- 2-2-2 12
2.3 TTAHSÍOTIN€T Qui ng 16 2.4 eXplainable Artificial Intelligence (XAD như một Feature Selection 19
QAL XAT A 19
2.4.2 Một số phương pháp XAT phổ biến 2-2 2 2 2+£+Ez£zez 20
2.4.3 Feature S€Ï€CtION nh HH ng nh Hy 21
2.4.4 Phương pháp XAI như một hướng tiếp cận Feature Selection 22
2.5 Tình hình nghiên cứu liên qu41 5 5 S112 E£ESEEeeeeeseeeseeeree 22
2.5.1 _ Tình hình nghiên cứu trong vả ngoài NUGC .- 5< «<+<<+ 22
2.5.2 Tính khoa học và tính mới của để tài, cc chon tnerrererrrkrrves 25
Trang 4Chương 3 PHƯƠNG PHAP DE XUẤTT 2 ¿+£+E£+E++Exerxzzrserxee 26
3.1 Sử dụng XAI để lựa chọn đặc trưng 2¿©+©s++2x++cxe+zxrsrxrsrxee 28
3.1.1 Ranking các đặc trưng sau khi thu được kết quả từ các phương pháp
XAI 28
3.1.2 Sử dụng Decision Tree dé đánh giá top các đặc trưng được chọn lọc
29 3.2 Xây dựng bộ phân loại hai lớp dựa trên học máy - « -«++s<<s+ 31
3.2.1 Quá trình huấn Ly60 woe ccc ecsecsecseesessessessessessessessessessessesseseeseess 323.2.2 _ Quá trình kiểm tra 2 St + EEEEEEEEEEEEEEEEEEErkrrkrkerkrei 33
Chuong 4 HiEn thực - thực nghiệm và đánh giá ¿5+5 cscxcx+xsxsxss 35
4.1 Môi trường thực nghiỆm - c3 S333 1+ EESsEESeeeesrsreeerrereeeee 35
4.2 Tap dữ liệu thực nghiệm và các tham số đánh giá mô hình 35
4.2.1 _ Tập dữ liệu thực nghiệm - s65 2+ 1£ E+skkseeeseeesseeres 35
4.2.2 Tiền xử lý đữ liệu -©-++ckccEeEErEErrkerkrrerrkrree 404.2.3 Các thông số đánh giá (Độ đo) - 2-2 5£+<+E+£E+EEerErrxrrkrree 44
4.3 Hiện thực phương pháp - - - c5 +13 + E*EESeeEsessesersrserrrereeee 45
4.3.1 Sử dung XAT làm Feature Selecfion c- ccsksssesiesee 45 4.3.2 Hiện thực mô hình hai lỚP - - -5 S< + *+*vEeeeseeseeereees 54
Chuong 5 | KETLUAN VA HƯỚNG PHAT TRIEN - 2255: 60
5.I KẾtluận cv Huệ 60
5.2 Hướng phát triỂn - 2c t+Sk+SE+SE9EEEEESEEEEEEEEEE121122121121111 111.1 xe 61
Trang 5DANH MỤC HÌNH ẢNH
Hình 2-1: Kiến trúc cơ bản của IDS 2-22 2 E+SE2EE£EEEEEEEEEEEECEEEErkrrkerrrrree 6Hình 2-2 Sơ đồ venn về mối liên hệ giữa các nền tang trong học máy 11Hình 2-3 Kiến trúc của Transformer [ Ï] -.-¿-¿ss+s+E+E+EEE+E+E+E+EeEeEerertzeresrezsrsrs 16
Hình 2-4 XAI đóng vai trò như một Feature Selection - 5+ ++sx+<s+ecsss 19
Hình 3-1 Tổng quan các giai đoạn theo phương pháp dé xuất - 27Hình 3-2: Tong quan sử dụng XAI làm FS 2 2¿©52+2++2x++x++£xezxezrxerxez 29Hình 3-3: Ví dụ về chia dit liệu k-fold cross-validation với k=5 - -=s 30Hình 3-4 : Tổng quan mô hình kết hợp hai lớp 2-2 2 s2s2+££+£z+sz+s£+s++‡ 32Hình 3-5: Tong quan quá trình huấn luyện - 2 2¿©++22+++z++zx+zx+zzx+zse2 33Hình 3-6: Tổng quan quá trình kiểm tra -. -2 -2¿ 2 5+2++++++zx+zxetxeerseees 34
Hình 4-1: Tỷ lệ các nhãn trong tập dữ liệu - - + +2 + £+EEstEeereererrrerrres 42
Hình 4-2 Biểu đồ thể hiện kết quả kết hợp PI va Multi Classification 53
Hình 4-3: Bộ encoder của Transformer [ Í ] - - - - << <« «+ + + =+**+**‡+£++£+++>z##z.x+ 55
Hình 4-4: Hiệu suất của mô hình kết hợp hai lớp theo T_SHAP_DT 58Hình 4-5: Hiệu suất của mô hình kết hợp hai lớp theo T_PI_DT . 59
Trang 6DANH MỤC BANG BIEU
Bảng 2-1 Bảng phân loại Machine Learning theo phương thức học - 12
Bang 2-2: So sánh một số thuật toán phổ biến trong MIL 2-2 25252: 13 Bang 3-1: Bảng tóm tắt tiến trình sử dụng XAI dé làm Feature Selection 30
Bảng 4-1: Bảng liệt kê các đặc trưng của tập dữ liệu CICIDS2017 35
Bảng 4-2: Các cuộc tan công được tiến hành theo ngày -: -¿z5z 41Bang 4-3 Bang Ranking 30 đặc trưng có giá tri từ cao đến thấp theo PI 46Bảng 4-4 Bang Ranking 60 đặc trưng có giá trị từ cao đến thấp theo SHAP 47
Bảng 4-5: Kết quả đánh giá mô hình theo phương pháp PI và Binary Classification
Trang 7DANH MỤC TỪ VIẾT TẮT
STT Thuật ngữ Mô tả
1 IDS Intrusion Detection System
2 IPS Intrusion Prevention System
10 NIDS Network-based Intrusion Detection System
11 HIDS Host-based Intrusion Detection System
12 |ANNs ——_ Artificial Neural Networks
13 CNNs Convolutional Neural Networks
14 PI Permutation Importance
15 SHAP Shapley Additive exPlainatinons
Trang 8TOM TAT KHÓA LUẬN
Sự gia tăng nhanh chóng của mạng Internet và truyền thông đã dẫn đến sự bùng nổ
dữ liệu kéo theo các mối đe doa, tan công mạng phức tạp Trong bối cảnh đó, hệ thốngphát hiện xâm nhập (IDS) là một lớp phòng thủ quan trọng nhưng vẫn đối mặt vớithách thức về khả năng xử lý và độ chính xác Nghiên cứu này dé xuất phát triển một
bộ phân loại hai lớp cho IDS: lớp đầu tiên sử dụng thuật toán học máy (ML) dé xử lý
dữ liệu trong thời gian ngăn, trong khi lớp thứ hai áp dung mô hình Transformer décải thiện độ chính xác của lớp thứ nhất Hệ thống được đánh giá trên tập dữ liệu công khai CICIDS2017 nhằm kiểm nghiệm hiệu quả Nghiên cứu cũng áp dụng kỹ thuậtcác kỹ thuật eXplainable Artificial Intelligence (XAI) dé lựa chọn các đặc trưng quantrọng, giúp tối ưu thời gian và nguồn lực tính toán Kết quả của nghiên cứu cho thaykhả năng cải thiện đáng kể hiệu suất và mô hình có độ chính xác cao Tác giả cũng
đề xuất một số hướng phát triển cho tương lai
Trang 9Chương 1 TONG QUAN ĐÈ TÀI
1.1 Lý do chọn đề tài
Trong thời đại kỷ nguyên số hiện nay, an ninh mạng đóng vai trò vô cùng quan trọng
và trở thành một mối quan tâm hàng đầu của các tổ chức, doanh nghiệp cũng như cá
nhân Với sự gia tăng đáng kể về số lượng và độ tinh vi của các cuộc tắn công mạng,việc xây dựng các hệ thống phát hiện xâm nhập (IDS) hiệu quả trở nên cấp thiết hơnbao giờ hết
Theo truyền thống, các hệ thống IDS dựa trên các quy tắt hay chữ ký đã không còn
đủ sức đáp ứng với những mối đe dọa mới nồi Các kẻ tấn công liên tục cải tiến vàtạo ra những phương thức tan công tinh vi, vượt qua được các quy tắc phòng thủ cứng
nhắc Trong khi đó, những hệ thống này lại thiếu khả năng thích ứng và tự động học
hỏi Ngoài ra, khi lưu lượng mạng tăng lên, các hệ thống dựa trên quy tắc và chữ kýgặp khó khăn trong việc xử lý lượng dữ liệu lớn, dẫn đến giảm hiệu suất đáng ké
Những năm gần đây cùng sự tiễn bộ trong lĩnh vực trí tuệ nhân tạo, đặc biệt là họcmáy (ML) và học sâu (DL), đã mở ra những cơ hội mới cho việc phát triển các hệthống IDS hiệu quả hơn ML và DL có khả năng học hỏi từ dữ liệu, nhận diện cácmẫu phức tạp và phát hiện các mối đe dọa mới mà không cần đến các chữ ký đã biết
trước Các mô hình DL, đặc biệt là các mạng nơ-ron sâu, có khả năng phân tích dữ
liệu với độ chính xác cao, giúp nâng cao hiệu quả phát hiện xâm nhập Ngoài ra, ML
và DL có thể xử lý khối lượng dữ liệu lớn một cách hiệu quả, phù hợp với sự pháttriển không ngừng của mạng lưới Internet hiện đại.
Hơn nữa, việc kết hợp các kỹ thuật explainable AI như Feature Selection sẽ giúp giảmbớt số lượng đặc trưng cần thiết, giúp cải thiện hiệu suất mô hình và giảm chỉ phí tínhtoán mà không làm mất đi thông tin quan trọng
Đề tài này không chỉ có ý nghĩa thực tiễn cao trong bối cảnh an ninh mạng hiện nay,
mà còn mang lại cơ hội nghiên cứu sâu về các công nghệ xu hướng tiên tiến đang
được quan tâm ngày càng lớn như machine learning, deep learning và explainable AI.
Trang 10Việc ứng dụng thành công các kỹ thuật này vào hệ thống IDS sẽ góp phần nâng cao
độ chính xác và hiệu quả của giải pháp an ninh mạng, đồng thời mở ra nhiều hướngphát triển mới cho lĩnh vực này
Vì những lý do trên, tác giả xin chọn “Phát triển bộ phân loại hai lớp dựa trên họcmáy cho hệ thống phá hiện xâm nhập” làm đề tài nghiên cứu cho khóa luận của mình
1.2 Mục tiêu nghiên cứu
Đề xuất phát triển một mô hình phân loại gồm hai lớp, lớp thứ nhất đảm bao tính tốc
độ, lớp thứ hai đảm bảo độ chính xác, cả hai lớp sẽ bổ trợ cho nhau và giúp phát hiệnxâm nhập một cách hiệu quả Ngoài ra còn tối ưu khả năng tính toán khi sử dụng XAIlàm Feature Selection, mô hình sẽ mang tính thực tiễn và đem lại hiệu suất cao.
1.3 Đối tượng nghiên cứu
- Hệ thống phát hiện xâm nhập dựa trên học máy
- Các mô hình Machine Learning, Deep Learning, Transformers.
- eXplainable Artificial Intelligence va các kỹ thuật, thuật toán XAI
- Bộ đữ liệu tan công phổ biến dùng dé đánh giá IDS: CICIDS-2017
1.4 Phạm vi nghiên cứu
- Xây dựng hệ thống phát hiện xâm nhập mạnh mẽ theo thời gian thực
- Ap dụng các mô hình hoc máy ML, DL, Transformers vào hệ thống.
- Ap dụng các kỹ thuật XAI như một hướng tiếp cận trong Feature Selection
1.5 Phương pháp nghiên cứu
- Tim doc các bài báo, nghiên cứu tài liệu hướng dan dé năm rõ các kiên thức nên
tảng liên quan đến IDS, ML, DL, XAI, Transformer
- Tìm hiểu các công trình nghiên cứu đã được thực hiện trong va ngoài nước.
- Dua ra phương pháp xây dựng và triển khai mô hình
Trang 11- _ Thực nghiệm và đánh giá kết quả
1.6 Cấu trúc khoá luận
Khóa luận được té chức trong 6 chương như sau:
Chương 1 TONG QUAN DE TÀI
Trinh bày ly do chọn đề tài, mục tiêu, đối tượng, phạm vi và các phương pháp nghiêncứu dé tài
Chương 2 KIÊN THỨC NEN TANG VÀ NGHIÊN CỨU LIÊN QUAN
Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tảng để có thể
thực hiện được nghiên cứu Ngoài ra, cũng phân tích tình hình nghiên cứu đã có trong
và ngoải nước
Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT
Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương pháp
thực hiện và mô hình được sử dụng.
Chương 4 HiỆn thực — thực nghiệm và đánh giá
Đề cập đến quá trình thực nghiệm cùng với kết quả thu được
Chương 5 KET LUẬN VA HƯỚNG PHÁT TRIEN
Đưa ra kết luận về đề tài, thuận lợi và khó khăn khi thực hiện đề tài đề xuất một sốhướng phát triển mở rộng cho các nghiên cứu trong tương lai
Trang 12Chương2 KIÊN THỨC NEN TANG VÀ NGHIÊN CỨU LIÊN QUAN
2.1 Hệ thống phát hiện xâm nhập IDS
2.1.1 Tổng quan
Mục đích của quá trình phát hiện xâm nhập là kiểm toán và phân tích các sự kiện bảo
mật đề có thé xác định kịp thời các hoạt động độc hại Thuật ngữ “IDS” được lần đầu
giới thiệu năm 1980, có thể được coi là phần cứng và/hoặc phần mềm tự động hóacác quy trình theo dõi, kiểm tra, phân tích và xác định các mối đe dọa tiềm an Nói
chung, một IDS sẽ tập trung vào các công việc chính như sau:
1) Theo dõi cả người dùng và hệ thống dé xác định các sự cố2) Ghi lại tat cả thông tin nhật ký về chúng
3) Phan tích, rà soát cầu hình hệ thống và các lỗ hông
4) Đánh giá tính toàn vẹn của hệ thống cũng như các tập tin
5) Nhận biết được các hoạt động bat thường va các dấu hiệu điển hình của các
cuộc tan công6) Gửi báo cáo đến quản trị viên hệ thông
Ngoài ra, IDS còn có một số chức năng khác tùy thuộc vào mục đích của người sử
dụng Ví dụ như các doanh nghiệp có thé dùng IDS dé phát hiện các van dé trongchính sách bao mật, b6 sung cập nhật các mối nguy hại hay xác định cá nhân vi phạm
chính sách
Hình 2-1 dưới đây minh họa kiến trúc cơ bản của một IDS, trong đó có 3 mô-đunchính a) một hoặc nhiều agent/sensor b) bộ phận phân tích c) bộ phận phản hồi Các
agent/sensor sẽ chịu trách nhiệm thu thập thông tin, thường là ghi lại nhật ký các sự
kiện, lưu lượng mạng có ích cho việc phân tích Sau đó các thông tin này sẽ được
chuyền đến bộ phận phân tích Đặc biệt, dựa vào vi trí đặt các agent/sensor (hay còn
gọi tùy theo nguồn đữ liệu) mà ta có thé chia IDS thành 2 loại cơ bản như sau:
Trang 13Intrusion Detection Techniques
Signatures Anomalies Specifications
Response
LÌ l8
Computer Tablet Smartphone
Hình 2-1: Kiến trúc cơ bản của IDS
a) Hệ thống phát hiện xâm nhập dựa trên mạng (Network-based IDS)
Là một thiết bị phần cứng độc lập có đầy đủ khả năng phát hiện xâm nhập Thường
được đặt tại các điểm chiến lược trên cơ sở hạ tầng mạng như biên giữa các mạng,
máy chủ mạng riêng ảo (VPN), máy chủ truy cập từ xa và trên mạng không dây NIDS sẽ tập trung giám sát toàn bộ lưu lượng mạng di qua các mang con, sau đó phân
tích dit liệu thu thập được dé phát hiện các cuộc tan công đã biết hoặc các hoạt độngđộc hại, hoặc phân tích các hoạt động của giao thức mạng và ứng dụng dé xác định
hoạt động bat thường và đáng ngờ, từ đó cảnh báo sẽ được gửi đến người quản trị
b) Hệ thống phát hiện xâm nhập dựa trên máy chủ (Host-based IDS)
Thường được đặt trên các thiết bị hoặc máy chủ đơn lẻ quan trọng có trên mạng Cácthông tin được ghi lại là các dữ liệu liên quan đến hệ thống của riêng máy chủ đó, ví
Trang 14dụ như tiến trình hệ điều hành, lời gọi hệ thống HIDS sẽ được giám sát các lưu lượng
đến, đi từ máy chủ đó và sẽ cảnh báo nếu có bất kỳ sự kiện nào được ghi lại được cho
là bất thường hoặc độc hại
Tiếp theo, bộ phận phân tích có chức năng phân tích dữ liệu thu thập được từ các
agent/sensor và dựa vào các kỹ thuật phát hiện xâm nhập dé xác định cuộc tấn công
Cuối cùng, bộ phận phản hồi sẽ báo cho người quản trị hệ thống thông qua các cảnhbáo và cung cấp thêm thông tin từ kết quả thu được bởi bộ phận phân tích Ngoài ra,
bộ phân phản hồi còn có thê thực hiện một số hành động nhất định đề tự động giảmthiểu sự xâm nhập, trong trường hợp này gọi là hệ thống ngăn ngừa xâm nhập IPS
Cần nói thêm liên quan các phương pháp của bộ phận phân tích dé phát hiện các mốinguy hại hay bat thường Ta cũng có thé chia IDS thành 3 loại chính dựa trên kỹ thuật
phát hiện xâm nhập như sau:
a) Hệ thống phát hiện xâm nhập dựa trên chữ ký (Signature-based IDS)
Với phương pháp tiếp cận này, các hoạt động trong hệ thống hay người dùng sẽđược so khớp với tập hợp các mẫu tân công đã được xác định từ trước, hay còngọi là chữ ký Ưu điểm của cách tiếp cận này là thời gian phát hiện nhanh, tỷ lệphát hiện cao cũng như tỷ lệ cảnh báo sai (FAR) thấp với các cuộc tấn công đãbiết Vì vậy, điểm yếu của nó là đối mặt với các cuộc tấn công mới hay biến thểngày càng nhiều và phức tạp như hiện nay Ngoài ra, chi phí dé duy trì một cơ sở
dữ liệu chữ ký không lồ cùng với khả năng đồng bộ trong hệ thống khiến cách
tiếp cận này khó trở thành giải pháp lâu dài
b) Hệ thống phát hiện xâm nhập dựa trên bat thường (Anomaly-based IDS)
Với cách tiếp cận này, dữ liệu được cho là từ các hành vi bình thường của ngườidùng sẽ được thiết lập Khi tiến hành kiểm tra xâm nhập, tập dữ liệu này sẽ được
so sánh với dit liệu thực tế của người dùng Ở đây, giá trị ngưỡng sẽ quyết địnhhành vi của người dùng có phải là bất thường hay không Hiện nay, học máy được
sử dụng để tạo ra một mô hình đáng tin cậy, theo đó bất kỳ hoạt động nào không
nằm trong mô hình sẽ được coi là đáng ngờ Vì mô hình được huấn luyện phù hợp
Trang 15với yêu cầu ứng dụng và cau hình phan cứng nên mang tinh chat tong quát hóa tốt
hơn so với IDS dựa trên chữ ký Tuy tỷ lệ phát hiện xâm nhập kém chính xác hơn
so với cách tiếp cận theo chữ ký nhưng có khả năng phát hiện được các cuộc tan
công mới, chưa xác định từ trước,
c) Hệ thống phát hiện xâm nhập dựa trên thông số kỹ thuật (Specification-based
IDS)
Theo kỹ thuật phát hiện xâm nhập này, một tập hợp các quy tắc theo sự rang buộc
sẽ định nghĩa các hành vi bình thường của hệ thống Nếu có hành vi khác với các
thông số kỹ thuật được xác định trước sẽ được coi là bat thường và sinh ra cảnhbáo Tuy có thé phát hiện các cuộc tấn công mới với tỷ lệ đương tinh giả thấp
nhưng khó có thể triển khai thành một mô hình chính xác hoàn toàn do sự phứctạp cũng như tài nguyên tiêu tốn khá lớn
2.1.2 Hệ thống phát hiện xâm nhập dựa trên hoc máy (AI-based IDS)
Các hệ thống an ninh mạng hỗ trợ ngăn chặn tấn công theo thời gian thực chủ yếu sửdụng các phương pháp dựa trên chữ ký để phát hiện các mẫu nhất định trong lưulượng mạng Phát hiện theo thời gian thực yêu cầu các thuật toán xử lý nằm trong nộituyến dé phát hiện các cuộc tan công ở tốc độ đường truyền Mặc dù tốc độ phát hiện
có thé cải thiện khi sử dụng các hệ thông phân tán, nhưng cũng phải chịu chi phí đồng
bộ tốn kém Vì vậy, cần phải có phương pháp phát hiện nhanh chóng là điều tất yếu
dé triển khai các hệ thống phát hiện theo thời gian thực Điểm mạnh của cách tiếp cận
phát hiện dựa trên chữ ký là độ chính xác và tốc độ cao với các cuộc tân công đã biết.Tuy nhiên, hầu như phương pháp này không thé xác định được các cuộc tan côngchưa rõ như tan công Zero-day và các biến thé có thé bỏ qua cách phát hiện này thôngqua việc làm rỗi mã hay mã hóa Ngoài ra, việc tạo cơ sở dir liệu dé lưu các chữ kývới cách tiếp cận này cũng là vấn đề mang tính gánh nặng cao
Trái ngược với phát hiện dựa trên chữ ký, các tiếp cận phát hiện dựa trên sự bấtthường sẽ quan sát các đặc điểm thống kê theo từng luồng dữ liệu trong mạng và tiếnhành chân đoán phát hiện nếu có sự bất thường vượt quá phạm vi thống kê thông
Trang 16thường Phương pháp này sẽ không dem lại gánh nặng về chi phí để duy trì cơ sở dữliệu giống như phát hiện dựa trên chữ ký, ngoài ra còn hoạt động mạnh mẽ dé phát
hiện các cuộc tân công Zero-day hay các tân công biên thê.
Trong các giải pháp phòng thủ mạng, hệ thống phát hiện xâm nhập IDS đã trở thành
một lớp phòng thủ quan trọng và ngày càng được nâng tầm quan trọng trong cơ sở hạ
tầng bảo mật Cốt lõi của hệ thống phát hiện xâm nhập đó là phát hiện các hành vixâm nhập và phân loại tấn công dựa trên nhiều ngữ cảnh khác nhau Đặc biệt, với sựgiúp sức của công nghệ trí tuệ nhân tạo(A]), bao gồm học máy (ML) và học sâu (DL),
hệ thống phát hiện xâm nhập dựa trên AI (AI-based IDSs) đã và dang dem lại sựnhanh chóng, chính xác cũng như khả năng mở rộng khi phân tích tấn công so với
các kỹ thuật bảo mật thông thường khác.
Ưu điểm của AI-based IDS so với các loại hình IDS truyền thống
Một trong những ưu điểm nồi bật của AI-based IDS là khả năng thích ứng Trong khicác IDS truyền thống dựa vào tập hợp các chữ ký hay quy tắc cố định dé phát hiệnđược các mối de dọa đã biết thì AI-based IDS có thé liên tục học hỏi, điều chỉnh banthân Theo thời gian, AI-based có thé thích nghỉ với các bất thường, các biến thé tan
công, xâm nhập mới, tạo cho chúng một sức mạnh phòng thủ mạnh mẽ và chủ động hơn
Một ưu điểm khác của AI-based IDS đó là kha năng nhận biết các mẫu tan công hayhành vi bất thường trong một lượng lớn dữ liệu mạng Điều này đồng thời cho phépchúng có khả năng mở rộng phạm vi phát hiện các mối đe dọa, ví dụ như các cuộctấn công có chủ đích (APT) hay các cuộc tân công zero-day
Cuối cùng, Al-based IDS cũng tỏ ra là một biện pháp vượt trội hon thông qua việc
phát hiện và phản hồi theo thời gian thực Các thuật toán hiện đại và tối ưu cùng với
kỹ thuật xử lý dữ liệu hiệu quả đã cho phép AI-based IDS có thé phân tích lưu lượngmạng và phát hiện các mối nguy hại theo thời gian cho phép, tạo điều kiện cho các tổchức có đủ thời gian dé lập ra các biện pháp ứng phó kịp thời và hiệu quả hơn
Trang 17Thách thức và giới hạn của AI-based IDS
Như vậy, AI-based IDS như một giải pháp đem đến nhiều lợi ích mà những loại hình
truyền thống khó có thé mang lại Tuy nhiên những thách thức và giới hạn van được
đặt ra và cần chú ý Cùng với sự chuyền biến của dit liệu, bản thân AI-based IDScũng phải thay đối theo, cần có sự liên tục bé sung, cập nhật lại các thuật toán và các
thông số yêu cau dé tạo ra độ chính xác cao hơn Hơn nữa, việc đáp ứng khả năngtính toán và bộ nhớ cũng cần được cân nhắc kỹ lưỡng với mỗi cơ sở hạ tầng hay phầncứng riêng biệt Cuối cùng, vấn đề liên quan đến chính sách bảo mật dữ liệu rất đáng
được quan tâm Dữ liệu chạy trong AI-based IDS là vô cùng quan trọng, vì vậy các
tổ chức cần cân thận đánh giá, tính toán các rủi ro tiềm ấn khi triển khai hệ thống,
bao gồm lưu trữ, vận chuyên, xử lý Đảm bảo các quy trình triển khai phải tuân thủtheo quy định và thực hiện các biện pháp phòng thủ thích hợp nhằm giảm thiểu tối đarủi ro đến hệ thống
2.2 Học máy (ML)
Machine Learning (ML) là một nhánh của trí tuệ nhân tao (AJ) tập trung vào việc
phát triển các thuật toán và mô hình cho phép máy tinh học từ dữ liệu và cải thiệnhiệu suất theo thời gian mà không cần lập trình rõ ràng
Để cung cấp một cái nhìn tông quan về học máy, ta nên phân biệt rõ rang các khái
niệm nền tảng thường nghe, bao gồm: các thuật toán học máy, mạng nơ-ron nhân tạo
(Artificial Neural Networks ANNs), mạng no ron sâu (Deep Neural Networks
DNNs) Ở Hình 2-2 là sơ đồ venn thé hiện mối liên quan giữa các nền tảng này
10
Trang 18Machine Learning
Decesion Tree, Super Vector Machine, Random Forest
Artificial neural network
Perceptron, Back-Propagation
Deep neural network |
Recurrent Neural
Networks (RNN), Transformer Neural
Networks
Hình 2-2 Sơ đồ venn về mối liên hệ giữa các nên tảng trong học máy
Tùy thuộc vào mục đích học tập, ML cung cấp nhiều loại thuật toán khác nhau, mỗi
loại có nhiều biến thé và đặc điểm khác nhau, bao gồm mô hình hồi quy, decision
trees, ANNs
Mang no-ron nhân tạo là một nhánh đặc biệt cua ML do cấu trúc linh hoạt của chúngcho phép điều chỉnh đề phù hợp với nhiều ngữ cảnh khác nhau trong cả ba loại ML.Lay cảm hứng từ nguyên lý xử lý thông tin trong hệ thống sinh học, ANNs bao gồm
các đơn vi xử lý két noi với nhau gọi là nơ-ron nhân tao
Thông thường, các nơ-ron được tổ chức thành các mạng với các lớp khác nhau Mộtlớp đầu vào thường nhận dữ liệu đầu vào (Bao gồm dữ liệu cần được phân loại), vàmột lớp đầu ra tạo ra kết quả cuối cùng (Dữ liệu đã được phân loại) Giữa các lớp này
là các lớp ân
Mạng nơ-ron sâu thường bao gồm nhiều hơn một lớp ẩn, kiến trúc mang phức tạp và
sâu hơn Hơn nữa, chúng thường chứa các nơ-ron nâng cao so với các ANNs đơn
giản, vì vậy cho phép chúng nhận những giá trị đầu vào thô và tự động cho ra giá trị
dau ra cân thiét với mục đích học tap.
II
Trang 19Ngoài ra, các thuật toán ML thường được phân loại dựa trên cách chúng học hỏi từ
dữ liệu hay gọi là phương thức học Ta có thé chia thành 3 loại chính theo Bang 2-1
như sau:
Bảng 2-1 Bang phân loại Machine Learning theo phương thức học
Phương thức học Mô tả cơ bản
Học có giám sát
(Supervised Learning)
May học từ một tập huấn luyện bao gồm đầu vào và đầu
ra được gán nhãn hoặc có kết quả tương ứng Các cặpđầu vào và đầu ra trong quá trình huấn luyện sẽ giúp điềuchỉnh các tham số trong mô hình Khi huấn luyện thànhcông, ta có thể dự đoán được kết quả đầu từ các dữ liệumới hoặc không cần thông qua các thuộc tính của đầuvào Là nhóm phổ biến nhất trong các thuật toán Machine
Learning
Học không giám sát Máy học từ một tập dữ liệu chỉ chứa đầu vào mà không(Unsupervised có nhãn (không có giá trị đầu ra) nhằm mục đích khámLearning) phá cấu trúc ân bên trong dit liệu
Học tăng cường | Máy học không nhận bất kỳ dữ liệu nào mà thay vào đó
(Reinforcement được chúng ta mô tả trạng thái, chỉ định mục tiêu, cung
Learning) cấp các hành động được phép và các rang buộc từ môi
trường Dé cho máy có thé tự tương tác trải nghiệm bằngcách thử đúng sai từ đó phản hồi các hành vi nhằm tối đahóa phần thưởng cao nhất
2.2.1 Một số mô hình Machine Learning pho biến
Một vài mô hình Machine Learning cơ bản hiện nay gồm a) Decision Tree b) Random
Forest
12
Trang 20a) Decision Tree là thuật toán theo phương thức học có giám sát vô cùng phổ biến
hiện nay, được sử dụng rộng rãi trong các bài toán phân loại Đề dễ hiểu, cơ bảnDecision Tree biéu diễn như một cây nhị phân, trong đó nút gốc là dit liệu đầuvào, các nút lá là kết quả đầu ra Các quy tắc hay kết quả tạo ra có thé hiểu bằngcách sử dụng các nhánh đi từ nút gốc đến nút kết quả đó
b) Random Forest là một trong những thuật toán phân loại mạnh mẽ nhất hiện nay
Nhằm tăng hiệu suất của DT, RF là sự kết hợp của nhiều cây được huấn luyện
trên một tập dữ liệu con ngẫu nhiên từ bộ dữ liệu sốc Mỗi cây sẽ đưa ra dự đoán
khác nhau và kết quả cuối cùng được quyết định bằng cách tổng hợp các kết quả
đó
Ngoài ra còn có một số thuật toán ML vô cùng phổ biến như Support Vector
Machines, K-Nearest Neighbors Bảng 2-2 dưới đây sẽ so sánh các thuật toán nay trên các tiêu chí khác nhau
Bảng 2-2: So sánh một số thuật toán pho biến trong ML
Tiêu Chí Decision Tree
Tập hợp của
nhiều câyquyết định
Trang 21không gian nhiêu chiêu
7
- It bi | Có thé overfit | Dé overfit với
Dé bi ,
; , | overfitting néu không | gia tri K nhỏ,
Overfitting overfitting néu , `
hơn do ket hợp | điêu chỉnh các | underfit với
cây quá sâu ` , ;
nhiéu cay tham sô giá trị K lớn
Nhanh với dữ Cham hơn vì | Cham với dữ
Nhanh do chỉ , liệu nhỏ, chậm
Thời gian , phải huân | liệu lớn, đặc
, huân luyện : với dữ liệu lớn huân luyện luyện nhiêu | biệt với kernel :
Trang 22liệu huân
luyện
R , | Không ôn
Nhạy cảm với |, On định nêu
-, | On định hon dinh-, dé bi anh , các thay đôi , chọn đúng
Độ ôn định nhờ kêt hợp hưởng bởi
nhỏ trong dữ ` kernel và tham +
nhiêu cây , nhiêu và dữ
liệu sô
liệu ngoại lai
„ : _ | Yéu câu tài : `
It tài nguyên | Yêu câu nhiêu Yêu câu nhiêu
: : nguyên cao
Yêu câu tài |hơn, chỉ cân | tài nguyên hơn bộ nhớ và thời
với dữ liệu lớn nguyên bộ nhớ choldo lưu trữ gian tính toán
một cây nhiêu cây
Tốt hơn trongviệc đối phó
với dữ liệu mat
mat trước trước
nhiêu cây
Tốt với kernelphi tuyến,
nhưng khó chọn đúng
kernel
Không tốt vớibiến phức tạp,
dé bị nhiễu
15
Trang 23Transformer là một kiến trúc mạng nơ-ron tiên tiễn, được giới thiệu lần đầu trong bài
báo "Attention is All You Need" của Vaswani et al vào năm 2017 Transformer đã cách mang hóa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và cũng được được áp dung
rộng rãi trong nhiều lĩnh vực khác hiện nay
Add & Norm
N Add & Norm
x Add & Norm Masked
Multi- Head Multi-Head Attention Attention
Trang 24Điều đầu tiên cần chú ý là kiến trúc Transformer không có khả năng tự nhiên dé nắmbắt thông tin về vị trí tương đối của các từ trong chuỗi, bởi vì nó không sử dụng cơ
chế tuần tự (recurrence) như các mô hình recurrent neural networks (RNN) hoặc long
short-term memory (LSTM) Có nghĩa là Transformer không thể tự động biết được
thứ tự của các từ trong chuỗi mà nó đang xử lý.
Đề khắc phục vấn đề này, thông tin về vị trí (positional information) phải được thêm
vào các biéu diễn đầu vào (input embeddings) thông qua các mã hóa vị trí (positionalencodings) Các vector mã hóa vi trí này có cùng kích thước với các biểu diễn đầu
vào và được tạo ra băng cách sử dụng các hàm sin và cosin với các tân sô khác nhau
Sau đó, các vector mã hóa vi trí này được cộng vào các biêu diễn dau vào dé truyén tải thông tin vệ vi trí của các từ trong chuỗi Cu thê, moi vector mã hóa vi trí sẽ thêm một thành phân vào mỗi từ trong chuỗi, giúp mô hình Transformer hiệu được vi trí
tương đôi của các từ trong chuỗi đâu vào.
Ngoài ra, lớp Normalization được sử dụng đê giữ cho các giá trị của nơ-ron trong một
phạm vi hợp lý, giúp ôn định quá trình huấn luyện
Hình 2-3 cho ta thay kiến trúc tong quan của Transformer, bao gồm hai phần chính
a) Bộ mã hóa (Encoder)
Bộ mã hóa bao gồm một chuỗi các lớp lặp lại giống nhau Mỗi lớp bao gồm hai thànhphan chính:
e Multi-Head Attention Layer: Cho phép mô hình tập trung vào các phần khác
nhau của chuỗi đầu vào
e Feed-Forward Layer: Một mạng nơ-ron truyền thăng áp dụng một cách độc
lập lên từng vị trí trong chuỗi.
b) Bộ giải mã (Decoder)
17
Trang 25Bộ giải mã cũng bao gồm một chuỗi các lớp lặp lại giống nhau, và có thêm một lớpAttention để tập trung vào đầu ra từ bộ mã hóa Các thành phần chính trong mỗi lớp
gôm:
Masked Multi-Head Attention: Dam bao rang tại mỗi bước, mô hình chỉ cóthé xem các dữ liệu trước đó trong chuỗi dau ra
Encoder-Decoder Attention: Cho phép bộ giải mã tập trung vào các phần quan
trong của biéu diễn từ bộ mã hóa
Feed-Forward Layer: Tương tự như trong bộ mã hóa.
Điêu đặc biệt côt lõi của Transformer là có cơ chê Attention vô cùng độc đáo, cho
phép mô hình tập trung vào các phần quan trọng trong dữ liệu đầu vào Có ba loại
Attention chính trong Transformer:
Self-Attention: Giúp mô hình xem xét các mối quan hệ giữa các dữ liệu trongcùng một chuỗi Self-Attention được tính toán bằng cách sử dụng ba ma trận:
Query (Q), Key (K), và Value (V).
Head Attention: Thay vi tính toán một bộ Attention duy nhất, Head Attention tính toán nhiều bộ Attention Song song và kết hợp chúng lại.Điều này giúp mô hình nắm bắt nhiều loại thông tin khác nhau từ dữ liệu
Multi-Cross-Attention: Được sử dụng trong bộ giải mã dé tập trung vào các phan
quan trọng của biéu diễn từ bộ mã hóa.
Như vậy, ta thấy Transformer đã trở thành một mô hình mang đến nhiều ưu điểmcũng như mang lại nhiều ứng dụng trong nhiều lĩnh vực khác nhau Transformer có
thê xem xét toàn bộ chuỗi đâu vào cùng lúc, không như các mô hình tuân tự
(sequential models) như RNN (Recurrent Neural Networks) hoặc LSTM (Long
Short-Term Memory) Cũng do đó, Transformer có thé được huấn luyện và suy diễn
nhanh hơn Ngoài ra, Transformer còn có thê học môi quan hệ dài hạn trong dt liệu,
điều này rất quan trọng cho các tác vụ như huấn luyện dữ liệu nhật ký hệ thống liên
tuc,
18
Trang 262.4 eXplainable Artificial Intelligence (XAT) như một Feature Selection
2.4.1 XAI
Explainable Artificial Intelligence (XAI) là lĩnh vực nghiên cứu va phát triển cácphương pháp giúp giải thích và diễn giải các quyết định của các mô hình học máy(ML) phức tạp và khó hiểu Các phương pháp XAI nhằm cung cấp sự minh bạchtrong quá trình ra quyết định của các mô hình, giúp người dùng hiểu rõ hơn về cách
mà các mô hình này hoạt động và tại sao chúng lại đưa ra những quyết định cụ thể
19
Trang 27Từ cách tiếp cận thứ hai Post-hoc Explanations, ta có thể phân loại thêm thành các
phương pháp i) Model-Agnostic và ii) Model-Specific Phương pháp Model-Agnostic
được hiéu là có thé áp dụng cho bat kỳ mô hình nào Ngược lại, phương pháp Specific chỉ có thé áp dung cho một số mô hình cụ thé
Model-Ngoài ra còn có một số khái niệm cần chú ý liên quan đến XAI đó là global
explainations và local explainations Global explainations sẽ giải thích tổng thể một
mô hình từ đó hiểu cách mô hình đánh giá các đặc trưng, dir liệu đầu vào Localexplainations sẽ giải thích chi tiết trên từng quyết định cụ thé, giúp hiểu rõ ảnh hưởngcủa các đặc trưng đến một kết quả dự đoán cụ thể nào đó
2.4.2 Một số phương pháp XAI pho biến
Ở Hình 2-4, Permutation Importance(P]) và Shapley Additive exPlainatinons (SHAP)
là các phương pháp global explaination pho biến hiện nay
Permutation feature importance là một kỹ thuật đánh giá hiệu quả tầm quan trọng củacác đặc trưng trong một mô hình học máy Về cơ bản, giá trị của các đặc trưng sẽđược xáo trộn ở tập kiểm tra (testing), sau đó cho đánh giá lại mô hình trên tập dữliệu đã xáo Độ chính xác sẽ được tính toán lại và so với giá tri của mô hình ban đầu
Đây chính là permutation importance của đặc trưng đó.
Những đặc trưng có permutation importance càng cao thì càng quan trọng đối với môhình Nghĩa là khi xáo trộn giá trị của các đặc trưng đó thì hiệu suất của mô hình bịgiảm đáng kể
Một số đặc điểm ma PI có được như ta không cần giả định về các mối quan hệ tuyếntính giữa các đặc trưng, áp dụng với nhiều mô hình học máy khác nhau vì là mộtmodel-agnostic cũng như cung cấp cách tiếp cận dé hiểu về tầm quan trọng của các
đặc trưng.
Một phương pháp XAI khác là SHAP (Shapley Additive Explanations), một phương
pháp giải thích dự đoán của một mô hình machine learning bằng cách tính toán đóng
góp của từng đặc trưng (feature) vào dự đoán đó SHAP được xây dựng dựa trên
20
Trang 28“SHAP values” từ lý thuyết trò chơi coalitional Điều này giúp tránh được các vấn đềnhư thiên vi (bias) hoặc phụ thuộc thứ tự khi đánh gia tầm quan trọng của các đặc
trưng.
Một biến thé khác của SHAP là KernalSHAP, là một phương pháp cụ thé đề tính toán
“SHAP values” trong SHAP KernalSHAP sẽ tạo ra tập hợp các colition khác nhau,
với các đặc trưng được “bật” hoặc “tat” một cách ngẫu nhiên Sau đo xử dụng môhình machine learning ban đầu đề tính toán kết quả dự đoán cho mỗi colition này Từ
đó sử dụng một hàm kernel dé ước tính “SHAP values” của từng đặc trưng, dựa trênkết quả dự đoán của colition
Ưu điểm của KernelSHAP là có thé ước tính “SHAP values” cho bat kỳ mô hình họcmáy nào, tuy nhiên việc tính toán cũng tương đối tốn kém và mắt rất nhiều thời gian.Ngoài KernelSHAP, SHAP còn có các biến thể khác như TreeSHAP (dành cho các
mô hình cây quyết định) và DeepSHAP (dành cho mạng neutral)
2.4.3 Feature Selection
Với sự tăng trưởng của dữ liệu, việc sử dụng các kỹ thuật giảm chiều, trong đó có
Feature Selection (FS) đã trở nên phổ biến và được áp dụng rộng rãi ở nhiều lĩnh vực
Mục dich của các phương pháp này là biến đồi dữ liệu gốc vô cùng phức tạp, nhiều
chiều thành tập dữ liệu mới có số chiều thấp hơn nhưng ý nghĩa ban đầu vẫn đượcduy trì tối đa hết mức có thê Lợi ích đem lại từ việc giảm chiều kích thước là vô cùngđáng kể i) Giảm bộ nhớ lưu trữ đữ liệu ii) Thời gian tính toán nhanh hơn iii) Những
dữ liệu dư thừa hay không cần thiết sẽ bị loại bỏ, chất lượng dir liệu cải thiện iv) Một
số thuật toán hoạt động chính xác hơn so với khi chạy trên lượng dt liệu lớn v) Trựcquan hóa dữ liệu dé dang hơn vi) Cải thiện độ chính xác hiệu quả phân loại của mô
hình.
FS ban đầu được chia thành các loại co bản gồm Filter, Wrapper, Embedded
e Filter: kiểm tra do lường các đặc trưng dựa trên các đặc điểm nội tại theo tiêu
chí khác nhau trước khi thực hiện tác vụ học máy Kỹ thuật có nhiều ưu điểm
như đem lại hiệu suat tot, hiệu quả cao, dé dàng mở rộng theo nhiêu chiêu.
21
Trang 29Tuy nhiên, kỹ thuật này bỏ qua sự tương tác giữa các bộ phân loại cũng như
bỏ qua sự phụ thuộc giữa các đặc trưng với nhau
e Wrapper: ngược lại với phương pháp dau, sau khi mô hình được đánh giá, kỹ
thuật này sẽ được sử dụng đánh giá dựa trên độ chính xác hoặc độ lỗi của mô
hình phân loại dé làm tiêu chí lựa chọn đặc trưng Vì dựa trên mô hình đã quahuấn luyện dé đánh giá nên các đặc trưng tối ưu nhất sẽ được lựa chọn, do đóhiệu suất và độ chính xác sẽ cao hơn so với kỹ thuật Filter Tuy nhiên kỹ thuậtnày cũng có nhược điểm chính là độ phức tạp trong việc tính toán, từ đó khảnăng mở rộng chiều dit liệu bị hạn chế
e Embedded: là một cơ chế tích hợp vào các mô hình học máy, từ đó chọn lọc
ra các đặc trưng từ các thuộc tính của mô hình trong quá trình huấn luyện.Phương pháp này đem lại hiệu qua cao va dé dàng điều khiến hơn kỹ thuậtWrapper song vẫn mang lại hiệu suất tương tự, ngoài ra chi phí tính toán sẽthấp hơn
2.4.4 Phương pháp XAI như một hướng tiếp cận Feature Selection
Ta có thể thấy PI hay SHAP đều có thể ước tính được độ quan trọng của từng đặctrưng từ kết quả du đoán của mô hình Việc áp dụng các phương pháp XAI như mộthướng làm FS sẽ giúp ta hiểu rõ cũng như hỗ trợ việc lựa chọn được các đặc trưngcần thiết cho quá trình phân loại
2.5 Tình hình nghiên cứu liên quan
2.5.1 Tình hình nghiên cứu trong và ngoài nước
Đã có rất nhiều công trình nghiên cứu áp dụng AI và Feature Selection Approaches(FSA) dé làm thuyên giảm van đề số chiều của dữ liệu cũng như tăng độ chính xácphát hiện của IDS trong vài thập kỷ gần đây Tuy nhiên với lưu lượng người dùngtruy cập mạng gia tăng với tốc độ nhanh chóng đã kéo theo không chỉ về số lượng
mà còn đa dạng về hình thức tấn công Các nhà khoa học trong và ngoài nước đã vàđang không ngừng cho ra các dự án nghiên cứu nhằm giải quyết tình trạng khó khăntrong nhiều lĩnh vực khác nhau hiện nay
22
Trang 30W Seo và W Pak [1] đề xuất phương pháp phát hiện xâm nhập dựa trên học máy vớihai cấp độ hỗ trợ xử lý thời gian thực với độ chính xác phát hiện cao Trong đó môhình đã khai thác bộ phân loại cho gói tin và luồng gói tin để hoàn thiện về mặt hiệusuất cũng như độ chính xác Tuy nhiên không có bất kỳ kỹ thuật giảm chiều nào được
sử dụng K Dhanya cùng các cộng sự [2] đã đề xuất hệ thống phát hiện tấn công dựađược đánh giá bởi các mô hình phân loại machine learning kết hợp deep learning trên
bộ dữ liệu UNSW-NB15 Các mô hình phân loại theo binary nhăm xác định các cuộc
tấn công được sử dụng gồm Support Vector Machine(SVM), Adaboost, XGBoost,
RandomForest, K-Nearest Neighbour (KNN), Decision Tree (DT), Multi-Layer
Perceptron(MLP), va Deep Multi-Layer Perceptron (DeepMLP) Các mô hình mang no-ron sâu MLP và DeepMLP đóng vai trò quan trọng trong dự đoán các nhãn Du
đạt được kết qua cao với DT cho ra 99,05% cùng với mô hình deep learning đạt
accuracy 98,44%, tuy nhiên FS cũng không được áp dụng trong dự án này.
A.S Ahanger cùng các cộng [3] sự đã triển khai hệ thống phát hiện xâm nhập dựa trênhọc máy với nhiều bộ phân loại khác nhau Bốn mô hình học máy được sử dụng bao gồm RF, DT, MLP và SVM, kết quả thực nghiệm đánh giá được thực hiện trên 3 tập
con của bộ dữ liệu phát hiện xâm nhập NSL-KDD Feature selection được áp dụng
tuy nhiên chỉ đơn giản là chọn ngẫu nhiên các đặc trưng theo số lượng nhất định(23,15,12) Két quả đạt được cao nhất với RF với accuracy 99%, thấp nhất với DTvới 96,6% Gulab Sah và các cộng sự [4] đã thực hiện kiểm tra các bộ phân loại khác
nhau như Decision Tree(DT), Naive Bayes(NB), K-nearest neighbours(KNN) với các
kỹ thuật FSA khác nhau như Principal component analysis(PCA), Recursive feature
elimination(RFE) dé xây dựng mô hình IDS hiệu qua Dựa trên phân tích, nhómnghiên cứu đã chứng minh rang việc giảm kích thước dữ liệu trong IDS không chỉlàm giảm chi phí xử lý mà còn nâng cao hiệu suất của mô hình
Z A E Houda và các cộng sự [5] đã thiết kế một Framework XAI cho phát hiện xâmnhập theo thời gian thực trong mạng IoT Mô hình sử dụng mạng neural sâu đề pháthiện xâm nhập và sử dụng các phương pháp XAI như LIME, SHAPE và RuleFit dé cung cấp tính minh bạch và giải thích Framework nhằm hỗ trợ người dùng và chuyên
23
Trang 31gia an ninh mạng hiểu và tin tưởng vào kết quả, và đã được kiểm tra trên các bộ dữliệu NSL-KDD và UNSWNBI5 Kết quả thử nghiệm cho thấy hiệu suất cao khi pháthiện tan công IoT và thông tin giải thích về quyết định của mô hình một cách rõ ràng.
S Hariharan và các cộng sự [6] so sánh các framework giải thích khác nhau tập trung
vào các phương pháp XAI không phụ thuộc vào mô hình, bao gồm cả phạm vi toàncục và cục bộ đề diễn giải các dự đoán cho các mô hình RF, XGBoost và LGBoost,
nghiên cứu sử dụng bộ dữ liệu phân loại Kaggle IDS và bộ dữ liệu phân loại
NSL-KDD IDS thu được 15 đặc trưng hàng đầu từ PI và SHAP Ngoài ra, nhóm nghiên
cứu cũng trình bày trường hợp tan công biến thé DoS dé giúp phân tích tác động củacác đặc trưng đến hiệu suất của mô hình D Gaspar và các cộng sự [7] sử dụng haiphương pháp XAI là LIME và SHAP để giải thích kết quả của một mô hình black-box Multi-Layer Perceptron (MLP) trong giải pháp phát hiện xâm nhập cho các thiết
bị IoT Nhờ các giải thích này, nhóm nghiên cứu đã xác định được các lời gọi hệ
thống quan trọng nhất cho việc phân loại từng trường hợp Bằng cách thực hiện cácbiến đổi đầu vào và quan sát kết quả, họ đã tìm ra những lời gọi hệ thống có ảnhhưởng tiêu cực đáng ké đến kết quả Điều này cung cấp thông tin cho chuyên gia anninh mạng về hành vi của mô hình và các đặc điểm cụ thể trong đầu vào có thể dẫn
đên dự đoán sai.
Z Wu cùng các cộng sự [8] đã đề xuất một hệ thong phát hiện xâm nhập dựa trênTransformer (RTIDS) dé phát hiện các hoạt động bat thường và vi phạm trong mạng.RTIDS cung cấp giải pháp phát hiện xâm nhập tat cả trong một bao gồm ba mô-đun:mô-đun chuẩn bị đữ liệu, mô-đun xây dựng mô hình RTIDS và mô-đun phát hiện
xâm nhập theo thời gian thực Bộ khung còn sử dụng mô hình Transformer cho việc
trích xuất và lựa chọn đặc trưng Phương pháp đề xuất được thử nghiệm trên bộ dữliệu CICIDS2017 mang lại kết quả cao với accuracy đạt 98,45% và vượt trội so vớicác thuật toán phát hiện xâm nhập truyền thống
24
Trang 322.5.2 Tính khoa học và tính mới của đề tài
Từ các phan đã trình bày ở trên, với việc xử lý khối dữ liệu khổng 16 trong mạng vàbảo vệ hệ thống khỏi các cuộc tan công tinh vi phức tạp cũng như các tác nhân độc
hại là việc vô cùng cần thiết Trong đề tài này, tác giả xây dựng một hệ thống phát
hiện và ngăn ngừa xâm nhập mạnh mẽ, hiệu suất cao về tốc độ, độ chính xác Việc
áp dung công nghệ AI đã góp công sức to lớn vào van dé này Dé làm được điều này,các phương pháp của XAI như PI hay SHAP sẽ được sử dụng để chọn lọc ra các đặctrưng cần thiết trong việc xác định tấn công Bên cạnh đó, tác giả cũng đề xuất một
mô hình học máy kết hợp hai lớp ML và DL đáp ứng về tốc độ và chính xác Phương
pháp đề xuất này sẽ hứa hẹn đem lại một hệ thống phát hiện xâm nhập đạt hiệu quả
cao.
25
Trang 33Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT
Trong khóa luận này, tác giả xin đề xuất một mô hình phân loại hai lớp dựa trên họcmáy cho hệ thống phát hiện xâm nhập
Việc thiết kế một hệ thống phát hiện xâm nhập (IDS) với hai lớp phân loại nhằm mụctiêu tối ưu hóa cả tốc độ xử lý và độ chính xác của hệ thống Lớp đầu tiên sử dụngcác thuật toán học máy (ML) nhẹ và nhanh, giúp hệ thống xử lý lưu lượng mạng vớitốc độ cao Nhiệm vụ chính của lớp này là thực hiện phân loại sơ bộ, xác định các góitin có dấu hiệu bất thường và giảm thiêu khối lượng dữ liệu cần phân tích chỉ tiết, từ
đó tiết kiệm thời gian và tài nguyên
Lớp thứ hai sử dụng các thuật toán học sâu (DL), vốn có khả năng xử lý thông tinphức tạp và tìm ra các mẫu tan công tinh vi mà lớp đầu tiên có thé bỏ sót Học sâucho phép mô hình học hỏi và nhận diện các đặc điểm tinh vi hơn, phát hiện được cảnhững tấn công phức tạp và ít gặp Bằng cách sử dụng hai lớp này, hệ thống khôngchỉ đảm bảo hiệu suất cao mà còn nâng cao độ chính xác trong việc phát hiện cáccuộc tan công, giảm thiêu nguy cơ bỏ sót những xâm nhập nguy hiểm và tăng cườnghiệu quả bảo mật cho hệ thống mạng
Việc nên có một mô hình kết hợp hai lớp phân loại này được giải thích như sau:
Học máy (ML) và học sâu (DL) có những ưu điểm riêng biệt Sử dụng một bộ phânloại hai lớp giúp khai thác được sức mạnh của cả hai phương pháp Lớp đầu tiên cóthé nhanh chóng loại bỏ các trường hợp dễ nhận biết, trong khi lớp thứ hai có thé xử
lý các trường hợp khó khăn hơn với độ chính xác cao hơn Các dự đoán không chắcchăn của mô hình học máy có thê huấn luyện lại trên mô hình hoc sâu, giúp giảm tỷ
lệ lỗi và tăng độ tin cậy cho mô hình
Học sâu thường yêu cầu nhiều tài nguyên tính toán và thời gian huấn luyện hơn sovới các mô hình ML truyền thống Sử dụng lớp đầu tiên với các mô hình ML nhanhchóng giúp phân loại phần lớn dữ liệu, chỉ để lại một phần nhỏ hơn, phức tạp hơn
26
Trang 34cân đên sức mạnh của lớp học sâu Điêu này sẽ giúp giảm tải tính toán và tôi ưu hóa
sử dụng tài nguyên.
Tác giả sẽ sử dụng cả hai cách phân loại chính của học máy hiện nay đó là Binary
Classification và Multi Classification để đa dạng hóa khả năng phát hiện xâm nhập,đồng thời cung cấp thông tin chỉ tiết hơn để xác định loại tấn công cụ thể Điều này
rất quan trọng đề đưa ra phan ứng nhanh chóng và phù hợp, từ việc ngăn chặn cuộc
tân công đên việc triên khai các biện pháp bảo mật cụ thê hơn.
Tổng quan các giai đoạn đề xuất được mô tả ở Hình 3-1 Đầu tiên (1) tập dữ liệu sẽđược thu thập, tổng hợp và được tiền xử lý (2) Toàn bộ dữ liệu sau khi được tiền xử
lý sẽ được đưa vào mô hình ML nhằm mục đích tiền đề cho việc đánh giá các đặctrưng bang XAI (3) các phương pháp XAI sẽ được sử dụng dé đánh giá các đặc trưng.Sau quá trình (4), phân tích va chon lọc được các đặc trưng quan trọng, (5) lần này
các tập dữ liệu mới hình thành chỉ chứa các đặc trưng được chọn sẽ được chia thành
hai bộ huấn luyện và kiểm tra dé nhất quán cho đầu vào của bộ phân loại chính Cuốicùng (6), huấn luyện và kiểm tra bộ phân loại 2 lớp đã triển khai và (7) đưa ra kết quả
dự đoán
Ấ — MACHINE ») (
COMBINING AND TERRE FEATURE | ANALYSIS AND
= ¬ SELECTION SELECTION PREPROCESSING DATA MODEL FOR USING XAI FEATURE
(1) EVALUTING XAI
(2) (4)
SPLIT NEW DATASET
(3)
TWO-LAYER CLASSIFIER
(6)
PREDICT RESULT
c Ớ
Hình 3-1 Tổng quan các giai đoạn theo phương pháp dé xuất
27
Trang 353.1 Sử dụng XAI để lựa chọn đặc trưng
Việc lựa chọn đặc trưng trong học máy là một bước quan trọng nhằm tối ưu hóa hiệusuất của mô hình và giảm thiêu chi phí tính toán Trong quá trình học, không phải tat
cả các đặc trưng trong dit liệu đều có liên quan hoặc có đóng góp đến việc ra quyếtđịnh của mô hình Một số đặc trưng có thể không có ảnh hưởng hoặc gây nhiễu, làm
giảm hiệu suất của mô hình Bằng cách chọn lọc các đặc trưng quan trọng, mô hình
có thể hoạt động hiệu quả hơn với số lượng dữ liệu đầu vào vào ít hơn, từ đó khôngchỉ giảm độ phức tạp mà còn tăng khả năng tông quát hóa với dữ liệu mới được hìnhthành và huấn luyện
Hiện nay XAI đang là một trong những phương pháp tiếp cận làm Feature Selectionđược đánh giá cao về độ hiệu quả mà nó đem lại XAI cung cap khả năng hiểu sâu vềcách mô hình ra quyết định và mức độ quan trọng của từng đặc trưng, từ đó giúp xácđịnh các đặc trưng thực sự ảnh hưởng đến kết quả dự đoán Với XAI, ta có thể đánh
giá mức độ đóng góp của mỗi đặc trưng một cách rõ ràng và cụ thê
3.1.1 Ranking các đặc trưng sau khi thu được kết quả từ các phương pháp
XAI
Như đã biết, các mô hình phân loại dựa trên học máy có khả năng tính toán mạnh mẽ
và linh hoạt được áp dụng rộng rãi trong các bài toán khác nhau Khả năng xử lý dữ
liệu lớn và mang lại hiệu suất, hiệu quả cao là ưu điểm dé tác giả chọn các mô hìnhhọc máy làm phục vụ tiền đề cho phương pháp sử dụng XAI làm Feature Selection
Kết quả thu được tùy theo từ các phương pháp XAI là các giá trị thể hiện tầm quan
trọng của các đặc trưng Từ kết quả này, ta sẽ ranking theo tầm quan trọng của các
đặc trưng đó Hình 3-2 dưới đây sẽ mô tả tong quan giai đoạn này
28