Từ đó giúp phát triển hệ thống phát hiện xâm nhập sử dụng máy học phải vừa có khả năng hoạt động hiệu quả, vừa có thê đưa ra các giải thích minh bạch cho các quyết định của mình.. Nắm bắ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA MANG MAY TINH VA TRUYEN THONG
NGUYEN THUY LINH — 19520147
KHOA LUAN TOT NGHIEP
PHAT TRIEN HE THONG PHAT HIEN XAM NHAP CO
KHA NANG LY GIAI SU DUNG MAY HOC
DEVELOPING A EXPLAINABLE IDS
USING MACHINE LEARNING
KY SU AN TOAN THONG TIN
GIANG VIEN HUONG DAN TH.S LE MINH KHANH HOI
TP HO CHÍ MINH, 2023
Trang 2LỜI CẢM ƠN
Em xin được bày tỏ lòng biết ơn sâu sắc đến quý thầy, cô và toàn thê nhữngngười công tác tại khoa Mang máy tinh và Truyền thông, cũng như tat cả quý thay,
cô khác đang đảm nhận trách nhiệm giảng dạy tại trường Đại học Công nghệ Thông
tin— ĐHQG HCM Trong suốt quãng thời gian bốn năm qua, quý thầy, cô đã tận tâmtruyền đạt những kiến thức, bài học và kinh nghiệm quý báu cho chúng em
Đặc biệt, chúng em xm gửi lời cảm ơn chân thành nhất đến giảng viên, TS Lê
Kim Hùng và ThS Lê Minh Khánh Hội Quy thay, cô đã dành thời gian và công sức
dé giúp em hiểu rõ hơn về lĩnh vực bảo mật Nhờ những kiến thức mà quý thay, cô
đã truyền đạt, em đã được khám phá cái nhìn sâu hơn và những góc nhìn mới trong
lĩnh vực này Những kiến thức này không chỉ giúp em hiéu rõ về tầm quan trọng và
ý nghĩa của đề tài mà em đã chọn, mà còn giúp em phát triển tư duy phân tích và ứng
dụng trong công việc và cuộc sóng
Tiếp theo, em muốn bày tỏ lòng biết ơn sâu sắc đến gia đình, bạn bè và những
người thân yêu đã luôn ủng hộ và động viên tôi trong suốt quá trình nghiên cứu Sựđồng hành và động viên của mọi người đã truyền sức mạnh và động lực cho em vượt
qua những khó khăn.
Cuối cùng, em biết ơn sự hỗ trợ và sự gắn kết của các anh, chị và các bạn sinh
viên tại trường Dai học Công nghệ Thông tin — ĐHQG HCM, vi đã tạo nên một môi
trường học tập tích cực và sáng tạo Nhờ có sự đồng đội tuyệt vời như các anh, chị
và các bạn sinh viên khác, em đã có cơ hội trau dồi kỹ năng, thực hành và phát triển
bản thân.
Một lần nữa, em xin trân trọng cảm ơn quý thầy, cô vì sự tận tâm và sự cống
hiến không ngừng nghỉ của mình trong việc giảng dạy và hướng dẫn chúng em Chúc
quý thầy, cô luôn khỏe mạnh, hạnh phúc và thành công trong sứ mệnh cao quý này
Trang 3Chương I._ MỞ ĐẦU ee-eeeeereerrertrerteertrertrerrerrrere 2
1.1 Tên đểtài cv HH re 2
1.2 Đặt vấn đề che 2
1.3 Mục tiêu của đề tài -c-ccctttnhhhHH re 3
1.4 Đối tượng và phạm vi nghiên cứu -2- 2+ z+£x£+Exe£Ezerxerrxerrerrxee 3
LAL Đối tượng nghiên cứu -¿+E+2E+EE+EEEEEEEEerkerrkerrerrxee 3
1.4.2 Phạm vi nghiên CỨU Ă S< + E383 ESESEESekEeeeereerreerre 3
Chương2 CO SỞ LÝ THUYÊT 2-s° se vssvssevsseevssecsse 4
2.1 Giới thiệu hệ thống phát hiện xâm nhập -. -¿szsz+cszcss+¿ 4
2.1.1 Các dạng hệ thống phát hiện xâm nhập - ¿s2 sz+s+¿ 4
2.1.2 Áp dụng trí tuệ nhân tạo vào hệ thơng phát hiện xâm nhập 6
2.2 Explainable AI - c-SĂ G1111 HH HH HH HH HH rry 6
2.2.1 Giới thiệu chung - Ă c1 HH ggkt 6
2.2.2 Hệ thống phát hiện xâm nhập sử dụng Explainable AI 7
2.2.3 _ Phương pháp sử dụng Explainable AI - cc++<-<ex+exxxs 8
2.3 Các kỹ thuật Machine Learning phân tích - 5= 5<c+x+++seeseses 16
2.3.1 Decision Tree MOdelL - - 5 «xxx nh Hư 16
2.3.2 Random Forest MOdelL ¿- 6 + ++ 2x #kEs+sEssEeeEskrsessereerkre 19
2.4 Tổng quan các cuộc tấn cơng DDOS - 2-2 2© ++£++2EEtzEzvrxezrxeee 22
2.4.1 VỌUmTIC SGK ng HH ri 23
2.4.2 — Protocol À(aCK ung TH gu H nhgưn 25
2.4.3 Tan cơng tang Application -¿-©cc++k+tEsEkrEkerkeerkerrxees 27
Trang 42.6 T€TSOTÍÏOW G CC QC T03 30
2.7 CICIlowMGIT - sgk 32
Chương 3 NGHIÊN CỨU THUC NGHIỆM HOẶC LÍ THUYÉT 41
3.1 Mô hình tổng quan - 2-2 + ©£+E£+EE+EEE+EE+EEEEEEEEEEEEEEEEECEEErrkrrrkerrkree 4I
3.2 Phương pháp thực hiỆn + 5+5 hệt 48
3.2.1 Lưựa chọn thuật toán - c5 2c 3322111211135 xe 48
3.2.2 _ Sử dụng phương pháp giải thích SHAP - - 2555 c+c+<xs<s2 49
3.3 Học máy đối kháng ¿- 2£ 22+SE£2EE£EEESEE2EEE2112712211712271 21121 xe 52
Chương4 TRÌNH BAY, ĐÁNH GIA BAN LUẬN VE KET QUẢ 56
4.1 Tạo bộ dữ liệu DDOS dựa trên các bộ dữ liệu công khaI 56 4.2 Mô hình có khả năng giải thích - - 5 2+ * 3+ ++vEseeeesereerrsrrsrrses 60
4.2.1 Cách thực hiện trên mô hình - <5 25+ =* + +2 +++ssseecezsxx 60
4.22 Ap dụng phương pháp giải thích ¿¿©++csc+czxsr+s 64
4.3 Đánh giá sự bền vững của mô hình -2- 2 ©¿2+++x++tx++zzxzrxzeex 75
4.3.1 Tấn công Evasion Attack -¿ -¿©-c2cxe+cxeerreerrxrsree 75
4.3.1 Áp dụng SHAP phát hiện cuộc tấn công -2csz©cs+=+2 76
Chương 5 TONG KET VA HƯỚNG PHAT TRIẺN -. - 80
5.1 Kết quả đạt được -:- 5< 5+2 E2 1221117121111121121111211 1.1 xe 805.2 Hướng phat triỀn -©2<+2+++2Ekt2EEEE1EE21122711211271.711211 2112 Le 80
Trang 5DANH MỤC HÌNH ANH
Hình 2.1 Mô hình giải thích cây quyết định dự đoán hình thê người dưới 30 7
Hình 2.2 Giải thích dự đoán hình anh chó, loại nhạc cụ sử dụng LIME 9 Hình 2.3 Decision Tree MO(eÌ - - 5 + + 312111 119119119111 1H HH nh HH gà 17 Hình 2.4 Ví dụ Decision Tree model << 5+2 %3 3223 *£2EE£2 EE+eEEseeeseseeese 18 Hình 2.5 Random Forest MOdeÌ - - 5 <6 +21 311 511911931911 1 E1 11g ng gà, 20
Hình 2.6 Ví dụ Random Forest model - ¿+ ++ +23 ++<E‡+*£E++eE+eeexeeeexesex 21
Hình 2.7 Tan công DDOS Flood Attack ccccsscsssessssessseessssssssssecssecsseessecsssecasecssecees 23
Hình 2.8 Amplification DDOS attack oo ieee eseeeenecneeseeeceecseeseeasesseeseeaeaseeens 24 Hình 2.9 Reflection DDOS attack eeseeseeseeeeeecseeseeececseeseeesetseeseeaseeseeens 25 Hình 2.10 SYN flood DDOS atfacK - 5S 1k9 TH HH HH HH, 26 Hình 2.11 Peer-to-peer DDOS atfaCs 5 nàn HH HH ng nrêp 27 Hình 2.12 Nuke DDOS AtfaCK -.- Ăn HH HH HH HH HH ng Hệ 27 Hình 2.13 Slowloris DDOS affaCK s6 c1 1191 9k9 9T HH HH gưkt 28 Hình 2.14 HTTP flood atfaCK - 2ó 55 c1 11211211151 91 9319111 1 1kg nh HH gikt 29 Hình 2.15 Multi-Vector DDOS AtfaCEKS - - Án SH HH» HH HH HH Hit 30
Hình 2.16 Google COlaE -s- c1 121 11v TH HH TH TH Hà TH Tnhh nrệp 30
Hình 2.17 Cài đặt trực tiếp cicflowmeter bang lệnh pip -¿s¿5¿ 33
Hình 2.18 Download file cIcfÏOWIm€I€T.Z1DD - 5 55 5+ +sE+eEeerskesersrrkrrke 33 Hình 2.19 Giải nén thư mục CICflowjMeter <5 2513 *2 1E + esevsseeses 33 Hình 2.20 Vào thư mục CICFlowMe(€T - - (G13 1112 1112 2111821118111 81 kg 34
Hình 3.1 Mô hình thực hiỆn - + + 39193 9191 91 11 E111 81911 vn rkp 4I
Hình 3.2 Biểu đồ biéu diễn các tinh năng quan trọng khi ghi bàn thắng 51Hình 3.3 Biểu đồ giải thích phân bó của các tính năng 2- 2 ©z©c52 51
Hình 3.4 Công cụ Adversarial Robustness 'ToolOX -.- 625 <+s+svkseessesses 53 Hinh 3.5 Poisoing attack 0 e 54
Hinh 3.6 Evasion attack 0n › 55
Hình 4.1 Giải thích tổng quan cho mô hình Decision Tree : - 64Hình 4.2 Giải thích tong quan Normal - 2-2 2 5£ +£2£+£E£££++2E£+£xzzrxezzeeree 65
Trang 6Hình 4.3 Giải thích tổng quan DDOS attack-HOIC .2- 22 5s£s£2£xzzzsrsz 66Hình 4.4 Giải thích tong quan DDOS attacks-LOIC-HTTP -.2- ¿55252 66Hình 4.5 Giải thích tổng quan DDOS attack-LOIC-UDP 2 2- 5z©5<2=s2 67
Hình 4.6 Giải thích tổng quan DDOS 2- 2: ©2S£22E22EEECEEEC2EESEEeerkeerrkerree 67
Hình 4.7 Giải thích cục bộ cho NormalÌ 55552 223 33+ ‡£+zeeeeeeeeeeeezs 67 Hình 4.8 Giải thích cục bộ DDOS attack-HOIC - 255555522 s+cssseeesss 67 Hình 4.9 Giải thích cục bộ cho DDOS attacks-LOIC-HTTP - ‹- 68 Hình 4.10 Giải thích cục bộ cho DDOS attack-LOIC-UDP - «s52 68
Hình 4.11 Giải thích cục bộ cho DDOS attack - 2555552 +2<<s+csssesesss 68
Hình 4.12 Giải thích tổng quan về các quyết định của mô hình Random Forest 69Hình 4.13 Giải thích tong quan về Normal 2-2 52+ £2E£+£+££EE+EE£2£+zzzsrsz 70
Hình 4.14 Giải thích tông quan DDOS -2- 22-2-5252 S££+EEE£EEEEEvEEErrkerrerree 71
Hình 4.15 Giải thích tong quan DDOS attack-HOIC -¿- 2 5s2©sz2cs2 71
Hình 4.16 Giải thích tổng quan DDOS attacks-LOIC-HTTP 2 5¿-5¿ 72
Hình 4.17 Giải thích tông quan DDOS attack-LOIC-UDE .2- 52522552 72
Hình 4.18 Giải thích cục bộ Normal c5 << 22* 11 33*+££#EEE++zeeeeeezeeeeeezs 73 Hình 4.19 Giải thích cục bộ DDOS attack - 5 scs+sEsersrsererrske 73 Hình 4.20 Giải thích cục bộ DDOS attack-HO]IC - 5555 <2 £+x+s+scseesee 73
Hình 4.21 Giải thích cục bộ DDOS attacks-LOIC-HTTÌP - 5555 <<s£s+2 74
Hình 4.22 Giải thích cục bộ DDOS attack-LOIC-UDP 5 s55 «5< <<scs+2 74
Hình 4.23 Độ chính xác khi bị tấn công AttackEvasion -©2c5z©cscsz 76Hình 4.24 Giải thích tong quan cuộc tan công Decision Tree -: s¿ 76
Hình 4.25 Giải thích tổng quan cuộc tan công Random FOrest - 77
Hình 4.26 Giải thích tong quan cuộc tan công trên phân loại DDOS 78
Trang 7DANH MỤC BANG
Bảng 2.1 Bảng các tinh năng CICFlowmeter thống kê và tính toán 40Bang 3.1 Các tính năng được tính toán và thống kê ¿- 2 ¿©sz+c+2 42
Bang 4.1 Bộ dữ liệu CIC-IDS-2017 và CSE-IDS-2018 - cc«cs+<+<cseres 57
Bảng 4.2 Tính năng bộ dữ liệu tông hợp tan công DDOS từ 2 bộ dữ liệu 58Bảng 4.3 Số lượng bản ghi của bộ dit liệu tong hợp tan công DDOS 58Bang 4.4 Đánh giá hiệu suất mô hình Decision 'Tree ¿-¿©csz+csz+c5se¿ 63Bảng 4.5 Đánh giá hiệu suất mô hình Random FOresi 2 2 2222 63
Trang 8DANH MỤC TU VIET TAT
TU NOI DUNG DIEN GIAI
DDOS Distributed Denial Of Tan công từ chối dich vu phân tán
Service : : :
TCP Transmission Control Protocol Giao thức điều khiến truyền nhân
UDP User Datagram Protocol Giao thức dữ liệu người dùng
HTTP | HyperText Transfer Protocol Giao thức truyén tai siêu văn ban
HTTPS HyperText Transfer Protocol Giao thức HTTP có su dụng mã hóa
Secure
AI Artificial Intelligence Tri tué nhan tao
IP Internet Protocol Giao thức Internet
IDS Intrusion Detection System Hệ thống phát hiện xâm nhập
ML Machine learning Học máy
DL Deep learning Học sâu
Trang 9TOM TAT KHÓA LUẬN
Việc áp dụng trí tuệ nhân tạo trở nên quan trọng trong hệ thống phát hiện xâm
nhập, tính minh bạch và độ phức tạp của hệ thống cũng cần được quan tâm Hệ thốngkết hợp với việc áp dụng trí tuệ nhân tạo vẫn chỉ đưa ra những quyết định mà không
đưa bat cứ bang chứng thông tin hay quy trình đưa ra các dự đoán vi vậy khiến con
người khó có thê tin tưởng vào độ tin cậy của mô hình Trong khóa luận này, em sẽ
đề xuất phương pháp giải thích cho các quyết định mà mô hình máy học đưa ra Giúpcho người bình thường cũng có thé hiểu hoặc các nhà chuyên gia có thé giảm thờigian phân tích và dự đoán được các cuộc tan công mới Từ đó giúp phát triển hệ thống
phát hiện xâm nhập sử dụng máy học phải vừa có khả năng hoạt động hiệu quả, vừa
có thê đưa ra các giải thích minh bạch cho các quyết định của mình
Bên cạnh đó mô hình máy học cây quyết định và rừng ngẫu nhiên được biếtđến là những mô hình nhỏ, nhẹ và độ chính xác cao Em sẽ đánh giá sự bền vững của
hai mô hình thông qua cuộc tan công dau độc và tan công qua mặt Góp phần đánh
giá lại độ bên của thuật toán trước các cuộc tân công máy học.
Trang 10Chương 1 MỞ ĐẦU
1.1 Tên đề tài
Tiếng Việt PHÁT TRIÊN HỆ THÓNG PHÁT HIỆN XÂM NHẬP CÓ KHẢ
NANG LÝ GIẢI SỬ DUNG MAY HỌC
Tiếng Anh: Developing a explainable IDS using machine learning
1.2 Đặt van đề
Khối lượng lớn, đa dạng và tốc độ cao của dit liệu được tạo ra trong mạng đã
làm cho quá trình phân tích dữ liệu bằng các kỹ thuật truyền thống trở nên rất khó
khăn Vi vậy hệ thống phát hiện xâm nhập IDS (The intrusion detection systems) dé
thay thế cho các kỹ thuật truyền thống Đề IDS trở nên tối ưu hơn, các nhà chuyênmôn đã áp dụng thêm học máy (Machine Learning) và học sâu (Deep learning) déhọc các thông tin dữ liệu từ dữ liệu lớn (Big Data) để đưa dự đoán Tuy nhiên, tính
minh bạch của hệ thống IDS là một van dé đáng quan tam Độ chính xác va sự dễhiểu của model luôn tỉ lệ nghịch với nhau, Deep Learning IDS là các blackbox chỉ
đưa ra kết quả, việc nâng cao chat lượng phát hiện các cuộc tan công va sự hiểu biết
về các quyết định của IDS của người quan trị vẫn còn hạn chê.
Bên cạnh đó các cuộc tấn công DDOS ngày càng gia tăng và do các luồng
DDOS không có đặc điểm chung nên các hệ thống phát hiện xâm nhập (IDS) truyềnthống phát hiện chúng chưa được chính xác Nắm bắt vấn đề này, em thực hiện ápdụng phương pháp giải thích các quyết định của mô hình sử dụng SHAP, SHAP giúpđưa các tính năng quan trọng, và mức độ ảnh hưởng của từng tính năng đối với quyết
định của mô hình Với thực nghiệm, em thực hiện dé xuất mô hình máy học trên các
tập dataset phô biến sau đó tiến hành tích hợp SHAP vào dé giải thích[ I]
Ngoài ra em sẽ đánh giá sự bên vững trước các cuộc đâu độc của hai mô hình trước các cuộc tân công đôi kháng.
Trang 111.3 Mục tiêu của đề tài
e Đề xuất hệ thống phát hiện xâm nhập sử dung máy học có khả năng
giải thích.
e© Tạo ra bộ dữ liệu của cuộc tan công DDOS
e Đánh giá hiệu quả phát hiện và độ bền trước các cuộc tấn công
adversarial attack.
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
Khóa luận này hướng đến:
e Đềxuất hệ thống phát hiện xâm nhập sử dụng mô hình máy học có
khả năng lý giải sử dụng máy học.
e©_ Kết hợp framwork Explainable AI vào mô hình dé nâng cao hiệu suất
phát hiện các cuộc tan công DDOS
e© Kiểm sự bền vững mô hình máy học trước các cuộc tan công
1.4.2 Phạm vi nghiên cứu
e Nghiên cứu nghiên cứu framework Explainable cho AI thực
hiện giải thích các quyết định hệ thống phát hiện và ngăn ngừa
Trang 12Chương 2 CƠ SỞ LÝ THUYET
2.1 Giới thiệu hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập (IDS: Intrusion Detection System) là một giải phápphổ biến, các loại IDS hiện nay chủ yếu đã ứng dụng machine learning và deeplearning vào trong IDS Chính vì vậy, hệ thống phát hiện xâm nhập (IDS: IntrusionDetection System) đóng góp quan trọng trong mạng máy tính, cung cấp một môi
trường mạng an toan hon.
IDS (Intrusion Detection Systems - Hệ thong phát hiện xâm nhập) là thiết bị hoặc
phần mềm có thực hiện việc giám sát lưu lượng mạng, thường chủ yếu tập trung chú
trọng việc xác định các xâm nhập, thu thập log các thông tin, thực hiện ngăn chặn
hoặc cảnh báo đến quan tri viên Hệ thong hoạt động dựa trên dựa trên việc phân tích
và so sánh đữ liệu truy cập hoặc hành động hiện tại với các quy tắc, chữ ký hoặc mô
hình đã biết trước Hệ thống thường được triển khai trong các mạng về hệ thống quan
trọng giúp ngăn ngừa các mối đe dọa xâm nhập
2.1.1 Các dạng hệ thống phát hiện xâm nhập
* Network Intrusion Detection Systems
Network Intrusion Detection Systems (NIDS) hoạt động bang cách phân tíchcác gói mang và so sánh chúng với co sở dữ liệu về các dấu hiệu tan công đã biếthoặc các quy tắc được xác định trước Nó được hoạt động dé xác định các mẫu hoặcđiểm bat thường đáng ngờ có thé chỉ ra sự xâm nhập mạng hoặc hoạt động độc hại
Hệ thống được đặt tại nơi được khảo sát theo nhu cầu hoặc những nơi giám sát lưulượng mạng đến và đi từ tất cả các thiết bị trên mạng
* Host Intrusion Detection Systems
Host Intrusion Detection Systems (HIDS) 1a hé thống phát hiện xâm nhập được
sử dụng dé theo đõi các đặc điểm của một host riêng lẻ và phát hiện các hoạt động
xâm nhập trái phép Thường theo dõi các lưu lượng mang, các tiến trình, các hoạtđộng ứng dụng sử dụng, các truy caajpj và thay đổi trong cau hình hay ứng dụng
Trang 13+ Signature-Based
Signature-Based là các IDS hoạt động dựa trên signature là một mẫu đại diện
với các đặc điểm của một nguy cơ tấn công hoặc hành động độc hại đã biết ( cơ sở
dữ liệu tan công đã biết trước) Kỹ thuật phát hiện này là quá trình so sánh các dữ liệuquan sat được với các signature dé xác định các sự cố Hạn chế của kỹ thuật là khixuất hiện cuộc tan công mới hoặc các biến đổi nhỏ hệ thống không thé phát hiện kịp
thời, vì vậy phải thực hiện cập nhật thường xuyên dữ liệu.
+ Anomaly-Based
Kỹ thuật phát hiện dựa so sánh hành vi dé xác định các hoạt động bắt thường:
Tạo bộ dữ liệu đại diện cho hành vi bình thường/ dự đoán trong mạng Từ đó
bat kỳ hoạt động mang được xem xét sẽ được so sánh với bộ dữ liệu hành động bình thường đã tạo, nếu có sự sai lệnh nào sẽ bị xem là bat thường.
Cơ sở dit liệu biểu diễn cho các hành động bình thường hau hết được tao bằngcách theo dỗi và phân tích lưu lượng mạng, nhật ký hệ thống hoặc các hành vi đượcquan sát là đặc điểm điên hình cho hành động bình thường
* Specification-based
Thu thập các hành động của một chương trình hoặc giao thức và theo dõi hoạt
động của một chương trình hoặc giao thức và theo dõi hoạt động dựa trên các các
ràng buộc Kỹ thuật sẽ khó thực hiện và phát triển chính xác với các giao thức, chương
trình có sự thay đổi
+ Hybrid
Đây là kỹ thuật kết hợp các kỹ thuật dựa trên signature, anomaly vaspecification Kỹ thuật là sự kết hợp được các ưu điểm của ba hệ thống, tuy nhiênkhó khăn trong việc kết hợp ba kỹ thuật cùng hoạt động hiệu quả trên mô hình
Trang 142.1.2 Áp dung trí tuệ nhân tao vào hệ thống phát hiện xâm nhập
Đề đáp ứng các yêu cầu của một IDS hiệu quả, các nhà nghiên cứu đã khám phákhả năng sử dụng các kỹ thuật sử dụng AI Ca ML và DL đều nằm dưới sự bảo trợlớn của trí tuệ nhân tạo (AI) và nhằm mục đích học hỏi thông tin hữu ích từ dữ liệulớn Các kỹ thuật này đã trở nên phổ biến rộng rãi trong lĩnh vực an ninh mang, cả
ML và DL đều là những công cụ mạnh mẽ trong việc học các tính năng hữu ích từ
lưu lượng mạng và dự đoán các hoạt động bình thường và bất thường dựa trên các
mâu đã học.
Với mô hình Machine Learning tỷ lệ phát hiện của hệ thống phát hiện xâm nhập
mạng được cải thiện Tuy nhiên việc áp dụng trí tuệ nhân tạo chỉ là các blackbox chỉ
có thé đưa ra kết quả, việc nâng cao chất lượng phát hiện tan công và các hiểu được
các quyết định của IDS của người quản trị vẫn còn hạn chế.
2.2 Explainable AI
2.2.1 Giới thiệu chung
Những thách thức trong việc hiéu các quyết định và rào cản khó có thé giải mãibởi các “black box” cùng với sự phát triển trong lĩnh vực trí tuệ nhân tạo đã thúc đây
sự phát triển Explanable AI trong việc giải thích các quyết định đưa ra của hệ thống
phát hiện xâm nhập sử dụng trí tuệ nhân tạo.
Lời giải thích cho người khác có thé không cần quá nhiều kiến thức AI có thểhiểu cách mô hình hoạt động như thé nào thì lời giải thích phải mức độ dễ hiểu, trựcquan nhất như hình bên dưới
Trang 15Hình 2.1 Mô hình giải thích cây quyết định dự đoán hình thé người dưới 30
Tiếp theo sau khi lời giải thích được đưa ra chúng ta phải xác thực sự độ tin cậy.Chúng ta không thé dựa trên một dit liệu dé kiêm tra, vì tùy vào từng trường hợp tínhnăng nào sẽ ảnh hưởng nhiều nhất tới các quyết định vì vậy dé đảm bảo độ chính xácthì cần một số dé liệu nhất định dé đại diện giải thích cho mô hình
Lời giải thích phải có khả năng khái quát hóa cho đề bài, nghĩa là với các mô
hình khác nhau các lời giải thích vẫn có thé áp dụng được Vì có rất nhiều mô hìnhkhông thé đưa ra lời giải thích cho từng mô hình vì vậy đề hiểu nhanh chóng van dé
chúng ta cần một lời giải thích khái quát
Sự dễ hiểu và độ chính xác là hai yếu tổ được đưa ra lời giải thích cho mô hình.Với một mô hình rõ ràng dễ hiểu, như các mô hình decision tree và random forest, đaphần là công thức có thể giải thích được nhưng lại không thể chính xác bằng cácphương pháp mạng hoc sâu Vì vậy phải có sự đánh đồi giữa độ chính xác và dễ hiéu
2.2.2 Hệ thống phát hiện xâm nhập sử dụng Explainable AI
Các hệ thống phát hiện xâm nhập hiện đại tận dụng Machine Learning dé tươngquan các tính năng của mạng, so sánh các mẫu trong bộ dữ liệu và làm nổi bật cácđiểm bat thường tương ứng với tan công Các nhà bảo mật dành rất nhiều công sức
dé tìm các đặc điểm của các cuộc tan công và cô gang phân tích các loại đã biết nhưscan port, bruteforce password, virus malware Tuy nhiên, do bối cảnh tan công thay
đôi liên tục và sự xuât hiện của các môi đe dọa tin tặc liên tục, các cuộc tân công có
Trang 16quy mô lớn hơn do đó phải tìm ra những cách mới đề bảo vệ hệ thông một cách nhanh
chóng.
Nghiên cứu gần đây về trí tuệ nhân tạo có thé giải thích [2, 6] đã dẫn đến mộtlĩnh vực nghiên cứu chuyên dụng dé giải thích ly do cho các dự đoán được thực hiệnbởi các mô hình machine learning, nếu chúng ta phân loại một cuộc tấn công là'bruteforce password’ và cung cấp bằng chứng răng điều này là do số lượng chỉ sốhost là 1 và byte nguồn là khoảng 125 —né sẽ cho nhà phân tích bảo mật có thé hiểutốt hơn nhiều về lý do cảnh báo được gắn cờ Ngoài ra, nếu lời giải thích phù hợp vớikiến thức, nhà phân tích có thé dé dàng chấp thuận nó Hơn nữa, đối với một cuộc tấn
công mới khi sự bắt thường được gắn cờ và giải thích được đưa ra, nhà phân tích có
thé tốn ít thời gian trong việc quyết định xem đây là cuộc tan công mới chưa biết haykhông và tạo ra bộ quy tac mới cho hệ thống IDS mới như Zeek, Snort
2.2.3 Phương pháp sử dụng Explainable AI
+ LIME (Local Interpretable Model-agnostic Explanations)
LIME có khả nang tiếp cận don giản Phương pháp đưa ra là cung cấp khả năng
diễn giải cục bộ, nghĩa là nó giải thích các dự đoán riêng lẻ trên cơ sở từng trường
hợp thay vì cung cấp sự hiểu biết chung về toàn bộ mô hình Nó giúp người dùnghiểu lý do tại sao một dự đoán trường hợp nào đó bang cách làm nồi bật các tính nănghoặc đầu vào quan trọng ảnh hưởng đến quyết định của mô hình
LIME tạo ra một bộ dữ liệu mới bao gồm các mẫu nhiễu loạn và các dự đoán
tương ứng của mô hình hộp đen Sau đó, trên bộ dữ liệu mới này, LIME [Š ]sẽ đào tạo
một mô hình có thé hiểu được, mô hình này được tính trọng số bởi mức độ gần giống
các phiên bản được lấy mẫu với phiên bản quan tâm Mô hình đã học phải là có kếtquả gần đúng tốt cho các dự đoán của mô hình máy học cục bộ, nhưng nó không cầnthiết phải là gần đúng tốt trên toàn cầu
Trang 17(a) Original Image (b) Explaining Electric guitar (c) Explaining Acoustic guitar (d) Explaining Labrador
Hình 2.2 Giải thích dự đoán hình anh chó, loại nhac cụ sử dung LIME
Vệ mặt toán học, các mô hình cục bộ vê khả năng diễn giải có thê được biêu
diễn như sau:
explanation(x) = argmingeg LU, g, 1x) + Ôy
x là mô hình decision tree được dùng dé giải thích, g (mô hình phân loại), giảm
thiêu loss L (sai số bình phương trung bình), đây là một hàm mắt mát được sử dụng
dé đo lường sai số giữa đầu ra dự đoán của mô hình và giá trị thật Trong trường hợp
này, sai số bình phương trung bình được sử dụng dé đo lường mức độ sai lệch trung
bình giữa dự đoán và giá trị thực tế, f (ví dụ: mô hình decision tree), độ phức tạp của
mô hình Q,, g là tập hợp các giải thích có khả năng xảy ra, 7, là thước đó xác định
độ phân bó lớn của vùng xung quanh quyết định x dé giải thích
Thực tế LIME chỉ tối ưu được phần loss, chúng ta phải xác định độ phức tạp,
ví dụ: bang cách chọn số lượng tối đa các tính năng mà mô hình hồi quy tuyến tính
có thé sử dụng
Cách đào tạo các mô hình local:
- Chon trường hợp liên quan dé giải thích về kết quả dựa đoán
- Lam xáo trộn tập dữ liệu và dự đoán cho những mẫu điểm mới này
- Can băng các mâu mới theo mức độ gân giông của mau với cá thê cân dự đoán.
Trang 18- Huan luyện một mô hình có trong số, có thê hiểu được trên tập dữ liệu thay
đôi
- — Giải thích dự đoán bang cách diễn giải mô hình cục bộ
Phụ thuộc vào loại dữ liệu văn bản, hình ảnh hoặc dạng bảng, dé tạo các biến
thé dit liệu với dữ liệu văn bản, hình ảnh giải pháp là thay đổi các từ đơn, siêu pixel.Trong trường hợp dữ liệu dạng bảng LIME [13] tạo các mẫu mới bằng cách xáo trộntừng đối tượng riêng lẻ, rút ra từ phân phối chuẩn với giá trị trung bình và độ lệch
chuân.
a Ưu điểm
- C6 thể thay thế mô hình máy học cơ bản
- Giải thích ngắn gọn và chọn lọc Những người không có chuyên môn hoặc cần
ít thời giản dé hiéu
- Phuong pháp giải thích phù hợp dữ liệu văn bản và hình anh.
- LIME dễ sử dụng và triển khai bang Python
b Nhược điểm
- Dinh nghĩa chính xác của vùng lân cận cho mau dữ liệu dạng bản là van dé lớn
- _ Các giải thích không có sự ôn định Với hai điểm gần nhau khác nhau trong quá
trình mô phỏng
- Cần thận trọng khi áp dụng phương pháp Các giải thích về LIME có thé được
nhà khoa học dữ liệu làm sai để che giấu dữ liệu đúng Khiến việc tin tưởng vào
các giải thích do LIME tạo ra trở nên khó khăn hơn.
* Shapley Value
Chúng ta sẽ tìm hiểu cách mà mỗi tinh năng anh hưởng đến dự đoán của một
điểm dit liệu Trong một mô hình tuyến tinh, dé dàng dé tính ảnh hưởng của từng tính
năng Đây là công thức dự đoán của mô hình tuyến tính cho một điểm dữ liệu:
f(x) = Bot Bix, + + pXp
Trong đó: x là instance mà ta muốn tính toán sự đóng góp Mỗi x; là một giá tri thuộc
tính, với j = 1, , p 6; là trọng số tương ứng với feature j
10
Trang 19Sự tác động ở; của tính năng thứ j trên quyết định ƒ (x) là:
$;) = Bix; — E(B)X;) = Bx; — B;E(X,)
Trong đó E (B;X, 7) là ước tính trung bình ảnh hưởng của featue J Sự đóng góp
là mức độ chênh lệch giữa ảnh hưởng của tính năng trừ đi cho ảnh hưởng trung bình.
Như vậy, tổng các ảnh hưởng của tính năng cho một instance là:
p
Y 0 “> Bjx; — E(f,X,)) = )=[m+ Yay —|#+ ) F(,X,)
= f(x) — E(f(X))
Đây cũng chính là giá trị dự đoán cho điểm x trừ đi trung bình điểm dự đoán
Đóng góp của feature có thể âm
Tuy nhiên với các mô hình khác không phải tuyến tính, việc tính toán sự ảnh
hưởng không phải là một vẫn đề đơn giản nữa Lúc này Shapley values trở thành mộtgiải pháp cho tính toán các đóng góp của feature cho một predictions đối với bất kì
mô hình học máy nào.
e x: Dữ liệu đầu vào
e (x): Giá tri Shapley tính năng i cho dữ liệu đầu vào x cho model f
e F: Tập hợp tất cả các tính năng
e - ƒc: mô hình được dao tạo trên tập hợp con của các tính năng $
® fy ,: mô hình được đảo tạo trên tập hợp con của các tính năng S và {i}
11
Trang 20e = xe: đâu vào bi hạn chê của x với tập hợp con các tính năng S$
® xcụ¡: đầu vào bi hạn chê của x với tập hợp con các tính năng S và {i}
Có thê được định dạng lại và thé hiện như sau:
- Tac động đóng góp: Mô hình thay đôi bao nhiêu khi có một tính năng mới
i được thêm vào Dua ra một tập hợp S, mô hình f¢ được dao tạo với các
tính năng S fg; mô hình được dao tạo với một tính năng bổ sung
- _ Trọng số tô hợp: là trọng số dé cung cấp cho từng tập hợp con khác nhau
của các tính năng với kích thước |S| (loại trừ tính nang i)
- Tinh trung bình: sẽ xác định mức trung bình của tat cả các tác động đóng
góp từ tat cả các kích thước tập hợp con có thé dự đoán được, từ 0 đến
|F| — 1 Chúng ta phải bỏ qua một tính năng mà chúng tôi muốn đánh giá
tầm quan trọng của tính năng đó
Shapley value có các thuộc tinh Efficiency, Symmetry, Dummy và Additivity, 4
thuộc tính này kết hợp với nhau được coi là định nghĩa về việc phân bổ đều
- Efficiency: Tổng trung bình các giá trị Shapley của tat cả các tinh năng bằng
với giá trị của dự đoán được đào tạo với tất cả các tính năng, do đó, tổng dựđoán được phân phối giữa các tính năng
>, ix = fer
¡CF
12
Trang 21- Symmetry: Tác động của 2 giá trị tính năng i và j sẽ giống nhau nếu trong tat
cả các trường hợp sự đóng góp là như nhau.
[vs C F{i,j}: foui(%sui) = fouj (Xsuj) |
|
Pi(x) = bj)
- Dummy: Một feature i không thay đổi giá trị dự đoán — bat kê nó được thêm
vào dự đoán các giá trị tính năng nào — sẽ có giá trị Shapley bằng 0
VSC F:[ƒ§u¡(Xsui) = fs (%; ) > Gi) = 0Ì
- Linearity: Nếu hai mô hình được mô tả bởi các dự đoán ƒ và g, dự đoán phân
tán phải tương ứng với những đóng góp có được từ ƒ và những đóng góp bắt
nguon từ g
+
ox = bfx + box VaeER ox =a.) x
Đào tạo một mô hình rừng ngẫu nhiên, dự đoán dựa trên mức trung bình của
một số cây quyết định khác nhau Tính giá trị Shapley cho từng cây một cách độc lập,
tính trung bình chúng và sử dụng giá trị Shapley kết quả đề tính giá trị tương đối với
đối tượng trong một khu rừng ngẫu nhiên Điều này được đảm bảo bởi thuộc tính
Linearity.
a Uu diém
- Phù hop với nhiều dang dữ liệu và bài toán phức tap
- Dam bảo sự phân phối công bằng, hiệu quả, tin cậy giữa các features trong khi
các phương pháp khác như LIME vẫn chưa thực hiện được.
- Thay vì so sánh một dự đoán với trung bình dự đoán của toàn bộ tập dữ liệu,
có thé so sánh kết quả giải thích với một tập con hoặc là một điểm dữ liệu
13
Trang 22b Nhược điểm
- Tốn nhiều thời gian tính toán: Với bộ dữ liệu lớn hoặc bộ dữ liệu có nhiều tính
năng việc tính toán chính xác giá trị Shapley rất ton kém
- Shapley value sẽ là phương pháp giải thích sai nếu như dit liệu còn ít khi đó
lời giải thích mà chỉ chứa một vài features.
- _ Không tối ưu khi thêm dé liệu mới khi đó cần phải xử lý như một bộ dữ liệu
mới nếu như bạn muốn tính toán giá tri Shapley cho một instance dữ liệu mới
+ SHAP (SHapley Additive exPlanations)
Tận dụng ý tưởng về các giá tri Shapley [2, 4, 6] dé cham điểm ảnh hưởng của
tính năng mô hình Dinh nghĩa kỹ thuật của một giá tri Shapley là “ Sự đóng góp
trung bình của một giá trị tính năng trên tất cả các liên kết có thê có” Nói cách khác,các giá trị Shapley xem xét tất cả các dự đoán có thé có cho một trường hợp bangcách sử dụng tất cả các kết hợp đầu vào có thê có Do cách tiếp cận toàn diện này,SHAP có thé dam bảo các thuộc tính như tính nhất quán và độ chính xác cục bộ
Giá trị Shapley tạo thành một giá trị cho việc giải thích các cơ chế quan trọngcủa hệ thống Tạo sự tin cậy của mô hình bằng cách cung cấp khả năng diễn giải ở
Local Explanation và Global Explanation Global thể hiện khả năng diễn giải có nghĩa
là người dùng có thé hiểu mô hình trực tiếp từ cau trúc tông thé của nó Sự giải thíchcủa Global chỉ kiểm tra đầu vào và nó có gang tìm hiểu lý do tại sao mô hình tạo raquyết định nhất định Với Local chúng ta có thé giải thích trong phân loại cụ thé cóthể hiểu tại sao dự đoán lại như vậy và sự tác động các dự đoán SHAP được sử dụng
để tăng khả năng diễn giải của hệ thống phát hiện xâm nhập
Mục tiêu của SHAP là giải thích dự đoán của một instance x bằng cách tính toán
sự tác động của mỗi tính năng vào quyết định Phương pháp giải thích SHAP tínhtoán giá trị Shapley từ lí thuyết trò chơi liên minh Giá trị thuộc tính của một instance
dữ liệu được xem như là các người chơi trong liên minh Shapley values cho cho biết
các phân bô công băng giữa các features.
a Global Explanation
14
Trang 23Với giá trị Shapley Global [5 ,13] cho chúng tôi biết mô hình hoạt động tổngthê như thế nào Đối với mỗi tính năng, chúng tôi vẽ nhiều liên minh như được mô tả
ở trên và tính toán sự thay đổi về độ chính xác của mô hình khi chúng tôi thêm tínhnăng được đề cập Trung bình trọng sỐ của sự thay đổi về độ chính xác này đối với
tất cả các liên minh được rút ra là ước tính của giá trị Shapley
Các giá trị Shapley có thê được kết hợp để có được giải thích chung Ma trậncác giá trị Shapley được tạo bằng cách chạy SHAP cho mọi trường hợp Ma trận này
có một hàng trên mỗi dữ liệu và một cột cho mỗi đối tượng địa lý Toàn bộ mô hình
có thê được được giải thích băng cách phân tích các giá trị Shapley trong ma trận này
Ý tưởng của phương pháp đơn giản Đầu tiên, giá trị của feature được chia làm
nhiều khoảng, sau đó giá trị Shapley của những feature này được tính toán thông qua
dữ liệu Cuối cùng, những giá trị Shapley trong mỗi khoảng được được tính trung
bình.
Ước tính giá trị Shapley cho mỗi tính năng:
- Số lần lặp M, thé hiện quan tâm x, chỉ mục tính năng J, ma trận dữ liệu X và
mô hình học f
- Với mọIm = 1, ,M:
° Vẽ thê hiện ngẫu nhiên z từ ma trận dữ liệu X
° Chọn một hoán vị ngẫu nhiên của các giá trị tính năng
Trang 24góp cho từng trường hop cụ thé Ví du: nếu mô hình dự đoán một mẫu nhãn có độ tin
cậy là 0,8 thì SHAP sẽ giải thích rõ ràng liệu từng tính năng có làm tăng hoặc giảm
độ tin cậy của mô hình hay không Bằng cách áp dụng phương pháp này, các chuyên
gia bảo mật có thé năm bắt được lý do tại sao mô hình IDS đưa ra quyết định như vậy
và sau đó tận dụng kết quả này dé tối ưu hóa mô hình
2.3 Các kỹ thuật Machine Learning phân tích
2.3.1 Decision Tree Model
+ Định nghĩa
Decision Tree (cây quyết định) [17] là một kỹ thuật học có giám sát có thể sửdụng cho ca van dé phân loại và hồi quy (thường thích hợp hơn cho bài toán phân
loại) Kỹ thuật này đưa ra kết qua dự đoán bằng cách học các quy tắc quyết định
đơn giản suy ra từ dữ liệu cho trước.
+ Hoạt động của Decision Tree
Như tên gọi, kỹ thuật này có cau trúc như cây có thể được minh họa như sơ
đô bên dưới:
16
Trang 25|Decision Node | Decision Node
Leaf Node Leaf Node
Hinh 2.3 Decision Tree Model
Các thành phan liên quan đến cây quyết định:
Root Node (Nút gốc): Nút trên cùng trong cây Nó đại điện cho điểm khởi đầu
của quá trình ra quyết định
Decision Node/ Internal Node (Nút quyét dinh/ nút nội bộ): đại diện cho nhữngđặc trưng của tập dữ liệu Các nút này có nhiều nhánh và được sử dụng để đưa ra
những quyết định
Leaf Node (Nút lá): Mỗi nút này đại diện cho một đầu ra của mỗi quyết định (lớpcủa mỗi điểm dit liệu)
Brach/ Sub Tree (Nhánh/ cây con): là một cây được hình thành bởi việc tách cây.
Các nhánh đại diện cho những quy tắc quyết định
Parent/Child Node (Nút cha/ nút con): nút gốc của cây được gọi là nút cha, và các
nút khác được gọi là nút con.
Thuật toán này sẽ tách tập dữ liệu ban đầu một cách đệ quy như cấu trúc câynhị phân cho đến khi chỉ còn lại các nút lá có tính đồng nhất cao (một nút lá có tính
17
Trang 26đồng nhất tuyệt đối khi chỉ chứa một lớp) Đáng lưu ý, thuật toán này có tính chất
của giải thuật tham lam, mỗi phân tách ở mỗi nút chỉ là tốt nhất ở trường hợp đang
xét và không thê thay đôi các phân tách đã thực hiện Vì vậy, cây quyết định được
tạo ra sẽ không đảm bảo là tối ưu nhất
Ví dụ (Xem sơ đồ bên dưới): Giả sử vào một ngày nhóm bạn quyết định dãngoại ngoài trời dé xem xét các hoạt cảnh dé quyết định Dé giải quyết van dé này,cây quyết định bắt đầu từ nút gốc (Thuộc tính ngoài trời) Nút gốc tách ra thành mộnút lá (quyết định đi ra ngoài nếu trời âm u) và hai nút quyết định (độ âm và sức
gió) Cuối cùng, hai nút quyết định đó được tách ra thành 4 nút lá Nút lá thứ nhất (
đi nêu độ âm bình thường và không đi nếu độ âm cao), nút lá thứ hai ( đi nếu tốc độgió yếu và không đi nếu tốc độ gió mạnh)
Play (Y) or Not (N)
18
Trang 27Việc dựng cây quyết định thì có thể sử dụng các thuật toán ID3, C4.5,Classification and Regression Tree, Multivariate adaptive regression spline Nút gốchoặc mỗi nút nội bộ sẽ đại diện cho một thuộc tính/đặc trưng, và dé lựa chọn một
thuộc tính cho một nút thì cần sử dụng Độ đo lựa chọn thuộc tính (Attribute Selection
Measure) tương ứng như là Entropy, Information gain, Gini index, Gain Ratio.
a Uu diém
« Déhiéu và diễn giải: Decision Tree biểu diễn trực quan của quá trình ra quyết
định, đưa ra các giả thuyết dễ hiểu
« Hiểu quả trong việc tìm hiểu các dữ liệu
¢ _ Thuật toán ít đòi hỏi nỗ lực trong việc tiền dữ liệu
‹ C6 thể xác định mô hình bằng cách sử dụng bài kiểm tra thông kê tăng độ tin
tưởng cho mô hình.
b Nhược điểm
‹ _ Khi có sự thay đôi nhỏ trong dữ liệu có thé tác động lớn đến cau trúc cây quyết
định, điều đó có thé khiến cây quyết định kém 6n định và chính xác
¢ Tinh toán của thuật toán có thé phức tạp hơn so với các thuật toán khác
¢ _ Mô hình có thé không phân loại tốt với một số loại đữ liệu, chăng hạn như dữ
liệu có mức độ nhiễu cao hoặc dữ liệu có nhiều tính năng không liên quan.Trong những trường hợp này, các thuật toán học máy khác có thé phù hợp hơn
© C6 thể xảy ra các quyết định thiên vị nếu một số lớp label chiếm số lượng ưu
thé Vì vậy phải cân bằng tập dữ liệu đầu vào trước cho thuật toán
2.3.2 Random Forest Model
* Dinh nghĩa
Random Forrests (Rung ngau nhiên) [18] là một thuật toán hoc máy thuộc kỹ
thuật học có giám sát Được sử dụng trong các bài toán phân loại và hồi quy Thuật
toán nay dựa trên khái niệm “ensemble learning”, trong trường hợp nay là chỉ việc
kết hợp nhiều bộ phân loại dé giải quyết một van đề phức tạp để cải thiện hiệu suất
19
Trang 28của mô hình Cụ thé, Rừng ngẫu nhiên là một bộ phân loại chứa nhiều cây quyết định
được xây dựng ngẫu nhiên Không chỉ dựa một cây quyết định, rừng ngẫu nhiên sẽlấy dự đoán từng cây và dựa trên quyết định nhiều nhất trên các cây quyết định để
đưa ra kêt quả cuôi cùng.
Hình 2.5 Random Forest Model
Ring ngau nhiên hoạt động theo 2 giai đoạn, giai đoạn 1 là chia bộ dữ liệu thành các
cây quyết định và kết hợp các cây quyết định, thứ hai là đưa ra dự đoán trên mỗi cây
được tạo ra ở giai đoạn đầu tiên Quá trình hoạt động có thé được miêu tả theo cácbước sau:
1 Chọn ngấu nhiên k điểm dữ liệu (có thể trùng) từ tập dữ liệu để xây dựng các tập
con (bootstrapping)
20
Trang 292 Trên từng cây quyết định theo thuật toán chỉ định sử dụng từng tập dữ liệu con
(Một sé luong nhất định các tinh năng của dữ liệu được chọn ra ngẫu nhiên, sau
đó lựa chon đặc trưng tốt nhất trong số đó dé tạo từng node cho cây)
3 Chọn số lượng cây quyết định dé đưa ra dự đoán trên từng cây
4 Lap lại bước 1 và 2 cho đến khi tạo ra đủ số lượng cây quy định
5 Kỹ thuật "aggregation" (tong hợp) được sử dụng dé kết hợp dự đoán từ nhiều cây
quyết định trong mô hình Random Forest Cụ thé, dé gan nhãn cho một điểm dữ
liệu mới, các dự đoán được tạo ra bởi mỗi cây quyết định trong mô hình sẽ được
kết hợp lại dé đưa ra dự đoán cuối cùng.
Như hình bên dưới: Giả sử có một tập hợp gồm nhiều ảnh các màu sắc khác nhau và
được đưa vào bộ phân loại rừng ngầu nhiên Tập dữ liệu được chia thành các tập cây
con và được dùng để xây dựng từng cây quyết định Khi ảnh màu hồng phấn đượcnạp vào (một điềm dữ liệu mới xuất hiện), từng cây quyết định đã đưa ra một kết quađoán của nó, dựa vào kết quả đa số mà rừng ngẫu nhiên đưa ra quyết định hình ảnh
Trang 30a Ưu điểm
‹ _ Thuật toán áp dụng trong bài toán hồi quy và phân loại và có thé hoạt động tốt
với cả bién phân loại và biến liên tục
« Dé dàng xem các tầm quan trọng tương đối mà thuật toán gán cho các tính
năng đầu vào
¢ _ Thuật toán ít xảy ra tình trạng overfitting vì nếu không đủ cây quyết định bộ
phân loại sẽ không khớp với mô hình
¢ - Mặc dù là một thuật toán phức tạp, Random Forest vẫn nhanh và có thể xử lý
các tập dữ liệu lớn Nó cũng có thê xử lý song song dé tăng tốc độ đào tạo
b Nhược điểm
‹ _ Số lượng lớn cây quyết đinh có thé làm cho thuật toán quá chậm và không hiệu
quả đối với các dự đoán thời gian thực
« C6 thể khó diễn giải hơn một cây quyết định vì nó liên quan đến nhiều cây
khác gây khó hiéu làm thế nào thuật toán đi đến một dự đoán cụ thé
« _ Yêu cầu nhiều bộ nhớ hơn các thuật toán khác vì nó lưu trữ nhiều cây quyết
định Đây có thê là một vấn đề nếu tập dữ liệu lớn
‹ _ Thuận toán có thé thiên về lớp đa số trong các bộ dữ liệu không cân bằng Lớp
đa số có xu hướng chi phôi quá trình ra quyết định của từng cây riêng lẻ, dẫnđến những dự đoán sai lệch
2.4 Tổng quan các cuộc tấn công DDOS
Các cuộc tan công từ chối dịch vụ phân tán (DDOS) càng ngày phát triển nhanh
chóng và là một trong những hiểm họa lớn trên không gian Internet Kẻ tấn công
thường sử dụng nhiều máy tính phân tán dé khởi chạy phối hợp Dos, nhằm tan côngmột hoặc nhiều mục tiêu.[8, 9]
Họ chủ yếu nhắm đến độ đáp ứng dịch vụ của hệ thống và băng thông từ tầngmạng đến tầng ứng dụng Kể từ cuộc tan công DDOS đầu tiên vào năm 1999 thì đếnbây giờ DDOS vẫn là một trong những loại tấn công kho lường nhất, đặc biệt tấn
22
Trang 31công DDOS có thé kết hợp với các loại tan công khác dé làm hệ thông mắt mát nhiềuhơn [10] Dẫn đến các sự mat mát dit liệu thông tin, tê liệt hệ thống, gây nên ton
thất rất lớn cho doanh nghiệp
Nhìn chung, cuộc tấn công DDOS được chia làm ba thể loại chính: cuộc tấncông băng thông, cuộc tan công giao thức và cuộc tan công tầng ứng dụng
2.4.1.Volumetric
Các cuộc tan công này cố gắng tận dụng băng thông trong mạng hoặc dich vu
có sẵn và phần còn lại của internet Những cuộc tấn công này chỉ đơn giản là gây tắc
nghẽn hoặc chặn các truy cập thông thường.
Các cách tan công:
Flood Attack ( ngập lụt băng thông)
Bằng cách điều khiển các máy tính botnet đột ngột gửi 1 lượng lớn lưu lượng
tới máy chủ mục tiêu dé nhằm chiếm hết toàn bộ không gian băng thông của máy
2 SYN packet at | Koy
threat actor ez} SYN-ACK packet (S)
— E=— r————¬
commen bot banking apps
and control Sy,
lộ,Che,
SYN-ACK packet
E—— r——
bot gaming platforms
Hình 2.7 Tan công DDOS Flood Attack
23
Trang 32Amplification attack ( tắn công khuếch đại):
Kẻ tấn công khai thác các giao thức hoặc dịch vụ nhất định dé tạo ra một lưulượng lớn và áp đảo tài nguyên của mục tiêu Đầu tiên kẻ tấn công sẽ thử gửi mộtlượng yêu cầu nhỏ từ đó máy chủ sẽ sẽ phản hồi lại Bằng cách giả mạo IP của mụctiêu sẽ tạo khuếch đại một lượng lớn, dẫn đến lưu lượng vượt quá băng thông làm
gián đoạn dịch vụ.
gt
Hinh 2.8 Amplification DDOS attack
Reflection:
Là tan công ánh xạ hoặc tan công phản chiếu, dựa trên mang trong đó tận dụng
một dịch vụ hoặc hệ thong hop phap dé khuéch dai va hướng một lượng lớn lưu lượngtruy cập mạng tới nạn nhân được nhắm mục tiêu Cuộc tan công này khai thác khái
niệm "phan anh" bang cách gửi các yêu cầu được chế tạo đặc biệt đến máy chủ hoặcdich vụ phản hồi bang cách gửi phản hồi lớn hơn trở lại địa chỉ IP của nạn nhân
24
Trang 33Hinh 2.9 Reflection DDOS attack
Mot số kỹ thuật tan cong:
e User Datagram Protocol (UDP) flood attack: Tan công với một số lượng lớn
gói tin UDP tới công mục tiêu khi đó hệ thống sẽ bị tràn ngập gói tin ICMPdẫn đến dịch vụ không được hồi đáp
« Internet Control Message Protocol (ICMP) flood attack: kẻ tan công cé gắng
gửi nhiều lệnh ping đến mức thiết bị không thé phản hồi gói ICMP
« Ping of Death attack: Khi một máy tính nhận một gói ICMP có kích thước dữ
liệu quá lớn, nó có thể bị crash
Trang 34Một vài kỹ thuật tan công theo dang protocol attack:
SYN flood attack: dựa vào giao thức TCP tạo một kết nối không hoàn thành
băng cách gửi liên tục với lượng lớn kết nôi.
Các giao thức TCP cho phép các ứng dụng truyền dữ liệu bằng cách sử dụngmột quá trình gọi là quá trình bắt tay ba bước Khi bị tắn công người dùng sẽ khôngthé gửi yêu cầu đến máy chủ
Kẻ tan công giả mao địa chỉ IP kẻ tan sẽ gửi liên tục và khối lượng lớn gói SYN
Khi đó máy chủ sẽ gửi gói tin phản hồi, trong lúc đợi gói tin ACK cuối cùng thì kẻtấn công sẽ liên tục gửi gói SYN Từ đó máy chủ sẽ luôn duy trì kết nối với IP giả
mạo, các kết nối bình thường sẽ phải chờ đợi dẫn đến dịch vụ bị gián đoạn
Spoofed SYN Packe
Spoofed SYN Packet
oe + = —.
ACV P
ACK
>
Hinh 2.10 SYN flood DDOS attack
Peer-to-peer Attacks: Mang P2P là mang phi tập trung mọi người có thé trực tiếpkết nối và chia sẻ tài nguyên mà không cần máy chủ
Trong mạng ngang hàng quá trình chia sẻ file, kẻ tắn công sẽ ngắt kết nối củacủa họ và kết nối với máy tân công Kẻ tan công khai thác lỗ hồng trong mạng bằng
giao thức Direct Connect, được sử dụng dé chia sẻ tất cả các loại tệp Kẻ tan công sétấn công DDOS lớn và xâm phạm các máy tinh trong mạng
26
Trang 35Hình 2.11 Peer-to-peer DDOS attacks
Nuke Attack: Gói tin ICMP được chia nhỏ và được gửi qua Ping Khi các gói tin
được gửi đến mục tiêu thay vì với mục đích dé chan đoán và khắc phục sử cố thì
chúng sẽ gửi với tôc độ cực nhanh và sô lượng lớn.
Hinh 2.12 Nuke DDOS Attack
2.4.3 Tan công tang Application
Application level attacks tập trung vào lỗ hồng của ứng dụng web hoặc máychủ Sau đó sẽ gửi một lượng yêu cầu và gây quá tải và làm cho dịch vụ không còn
khả dụng với người dùng hợp lệ.
27
Trang 36Khó có thể phòng chống tấn công DDOS ở tầng ứng dụng vì không phân biệtđược lúc nào tan công và bình thường, đặc biệt trong trường hợp tan công lớp ứng
dụng, chăng hạn như mạng botnet thực hiện tắn công HTTP Flood vào máy chủ củanạn nhân Bởi vì mỗi bot trong mang botnet tao ra các yêu cầu mạng có vẻ hợp pháp
nên lưu lượng truy cập không bị giả mạo và có thể xuất hiện ở trạng thái "bình
thường”.
Dạng tấn công theo dạng application attack:
Slowloris attack: Sử dụng một phần yêu cầu HTTP dé mở các kết nối giữa một máy
tính và một máy chủ Web được nhăm mục tiêu, sau đó giữ các kêt nôi đó mở càng lâu càng tôt, do đó sẽ áp đảo và làm chậm và tiêu tôn tài nguyên của mục tiêu.
Hinh 2.13 Slowloris DDOS attack
HTTP flood attack: Một cuộc tan công lũ lụt HTTP là một loại tấn công số lượng
lớn được thiết kế để áp đảo máy chủ được nhắm mục tiêu bằng các request HTTP
GET hoặc POST.
Các cuộc tan công DDOS tràn ngập này thường dựa vào botnet, là một nhóm
các máy đã bị chiếm đoạt một cách ác ý thông qua việc sử dụng phần mềm độc hại
như Trojan Horse.
28
Trang 37HTTP Flood Attack
Multi-Vector Attacks: Sử dung nhiều cuộc tân công và công cụ khác nhau dé áp đảo
dữ liệu của hệ thống khiến hệ thống bị tê liệt Nhờ vào lỗ hỏng sẵn có của mạng hoặc
cơ sở hạ tầng mục tiêu dé tối đa hóa cơ hội thành công và tránh bi phát hiện Mộtvectơ trong ngữ cảnh này đề cập đến một phương pháp hoặc con đường mà qua đó
kẻ tan công có thé hành vi không được phép hoặc xâm phạm hệ thống Các vectơ tan
công có thể bao gồm các phương pháp như email lừa đảo, phần mềm độc hại, kỹ thuật
xã hội, khai thác mang Bằng cách kết hợp nhiều loại tan công, kẻ tan công có thé
tăng độ phức tạp và hiệu quả của các cuộc tân công của chúng.
Multi-Vector DDoS Attack Breakdown
Infrastructure services
(e.g DNS, CGNAT) Network layer
(Firewalls, routers etc)
Network volumetric (Targeting bandwidth)
Application layer
(Apps, servers)
29
Trang 38Hình 2.15 Multi-Vector DDOS Attacks
2.5 Google Colab
Colaboratory, hay gọi tắt là “Colab”, là một sản phẩm của Google Research
Colab cho phép mọi người viết và thực thi mã python tùy ý thông qua trình duyệt và
đặc biệt phù hợp với máy học, phân tích dữ liệu và giáo dục.
Loi ích kh sử dụng:
« Khong yêu cầu cấu hình
¢ Quyên truy cập miễn phí vào GPU
« Chia sẻ dé dàng
Cho dù bạn là sinh viên, nhà khoa học dữ liệu hay nhà nghiên cứu AI (trí tuệ nhân
tạo), Colab đều giúp bạn hoàn thành công việc dễ dàng hơn
1 Tensor: Một tensor là một vectơ hoặc ma trận có n chiều đại diện cho tất cả
các loại dữ liệu Vậy chúng ta có thể hiểu Tensorflow là một thư viện mô tả,đều chỉnh dòng chảy của cá Tensor Tensor có 3 thuộc tính:
- Rank là bậc của tensor Việc phân rank này khá quan trọng vì nó đồng thời
giúp phân loại dữ liệu của Tensor Một số rank đặc biệt có tên gọi cụ thể:
30
Trang 39e Scalar: Khi Tensor có rank = 0
e Vector: Vector là một Tensor rank 1.
« Matrix: Tensor rank 2 hay mang 2 chiều
e N-Tensor: Khi rank cua Tensor tăng lớn hơn 2
- Shap là chiều của tensor
- Type kiểu dữ liệu của các elements
2 Graphs: Tập hợp và mô tả tất cả các phép tính được thực hện trong quá trình
đào tạo.
Ưu điểm:
‹ Tensorflow không giới hạn ở một thiết bị cụ thê
« _ Nền tảng mã nguồn mở dựa trên nên tảng mạnh mẽ Google
‹ Kha năng trực quan hóa dữ liệu tốt hơn các thư viện trước đó.
e St dụng các hệ thong GPU va CPU dé hoat động, người dùng được tự do sử
dụng bat kỳ kiến trúc nào theo yêu cau
« Kién trúc TensorFlow sử dụng TPU giúp tính toán nhanh hon CPU va GPU.
Nhược điểm:
¢ - Nó tương đôi chậm hơn và ít sử dụng hơn so với các khung cạnh tranh của
nó.
« - Giới hạn kiến trúc: Tensorflow chỉ hỗ trợ NVIDIA và Python cho GPU
¢ Thu viện chứ các từ đồng âm được sử dụng nhiều ứng dụng khác nhau khiến
người dùng hó nhớ và khó sử dụng.
e Tensorflow giảm kích thước của chương trình và làm cho chương trình trở
nên thân thiện với người dùng, nhưng nó lại làm cho chương trình trở nên phức tạp.
31
Trang 402.7 CICFlowMeter
CICFlowMeter là một công cụ phân tích luồng lưu lượng mạng được sử dụng
dé theo dõi và phân tích lưu lượng mạng ở cấp độ luỗng
Nó có thé tạo bộ dữ liệu các luéng hai chiều, trong đó gói đầu tiên xác địnhcác hướng chuyền tiếp (nguồn tới đích) và ngược (đích đến nguồn), do đó có hơn 80
tính năng lưu lượng truy cập mạng thống kê như Duration, Number of packets,
Number of bytes, Length of packets, vv có thé được tính riêng theo hướng tiến va lùi
CICFlowMeter trích xuất một loạt các tính năng và chỉ số từ các luồng mạng,bao gồm thời lượng luồng, tổng số byte được truyền, gói trên mỗi luồng, thời gian
đến giữa các gói và kiểm soát thời hạn của flow timeout Đầu ra của ứng dụng là tệp
định dạng CSV có sáu cột được gan nhãn cho mỗi luồng (FlowID, SourceIP,
DestinationIP, SourcePort, DestinationPort và Protocol) với hon 80 tính năng phan tích lưu lượng mạng.
Các luồng TCP thường được kết thúc khi kết thúc sự cô kết nối (bằng gói FIN)trong khi các luồng UDP bị cham dứt bởi thời gian chờ luéng
Đây là một ứng dụng mã nguôn mở, nó có thê được tích hợp vào một dự án vì
nó mang lại sự linh hoạt hơn trong việc chọn các tính năng bạn muôn tính toán, thêm
các tính năng mới và cũng có thê kiêm soát tôt hơn thời lượng của thời gian chờ của
luồng.
Ứng dụng bảo mật: CICFlowMeter thường được sử dụng trong quá trình
nghiên cứu dé phát hiện xâm nhập mạng, phân tích phần mềm độc hai và thông tin
tình báo về mối de doa Nó có thé giúp các nhà phân tích bảo mật hiéu rõ hơn về lưulượng mạng, xác định các mối đe dọa tiềm ẩn và thực hiện các hành động thích hợp
đê bảo vệ mạng.
32