Khóa luận tốt nghiệp An toàn thông tin: Phát triển hệ thống phát hiện xâm nhập có khả năng lý giải sử dụng máy học

Từ đó giúp phát triển hệ thống phát hiện xâm nhập sử dụng máy học phải vừa có khả năng hoạt động hiệu quả, vừa có thê đưa ra các giải thích minh bạch cho các quyết định của mình.. Nắm bắ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA MANG MAY TINH VA TRUYEN THONG

NGUYEN THUY LINH — 19520147

KHOA LUAN TOT NGHIEP

PHAT TRIEN HE THONG PHAT HIEN XAM NHAP CO

KHA NANG LY GIAI SU DUNG MAY HOC

DEVELOPING A EXPLAINABLE IDS

USING MACHINE LEARNING

KY SU AN TOAN THONG TIN

GIANG VIEN HUONG DAN TH.S LE MINH KHANH HOI

TP HO CHÍ MINH, 2023

Trang 2

LỜI CẢM ƠN

Em xin được bày tỏ lòng biết ơn sâu sắc đến quý thầy, cô và toàn thê nhữngngười công tác tại khoa Mang máy tinh và Truyền thông, cũng như tat cả quý thay,

cô khác đang đảm nhận trách nhiệm giảng dạy tại trường Đại học Công nghệ Thông

tin— ĐHQG HCM Trong suốt quãng thời gian bốn năm qua, quý thầy, cô đã tận tâmtruyền đạt những kiến thức, bài học và kinh nghiệm quý báu cho chúng em

Đặc biệt, chúng em xm gửi lời cảm ơn chân thành nhất đến giảng viên, TS Lê

Kim Hùng và ThS Lê Minh Khánh Hội Quy thay, cô đã dành thời gian và công sức

dé giúp em hiểu rõ hơn về lĩnh vực bảo mật Nhờ những kiến thức mà quý thay, cô

đã truyền đạt, em đã được khám phá cái nhìn sâu hơn và những góc nhìn mới trong

lĩnh vực này Những kiến thức này không chỉ giúp em hiéu rõ về tầm quan trọng và

ý nghĩa của đề tài mà em đã chọn, mà còn giúp em phát triển tư duy phân tích và ứng

dụng trong công việc và cuộc sóng

Tiếp theo, em muốn bày tỏ lòng biết ơn sâu sắc đến gia đình, bạn bè và những

người thân yêu đã luôn ủng hộ và động viên tôi trong suốt quá trình nghiên cứu Sựđồng hành và động viên của mọi người đã truyền sức mạnh và động lực cho em vượt

qua những khó khăn.

Cuối cùng, em biết ơn sự hỗ trợ và sự gắn kết của các anh, chị và các bạn sinh

viên tại trường Dai học Công nghệ Thông tin — ĐHQG HCM, vi đã tạo nên một môi

trường học tập tích cực và sáng tạo Nhờ có sự đồng đội tuyệt vời như các anh, chị

và các bạn sinh viên khác, em đã có cơ hội trau dồi kỹ năng, thực hành và phát triển

bản thân.

Một lần nữa, em xin trân trọng cảm ơn quý thầy, cô vì sự tận tâm và sự cống

hiến không ngừng nghỉ của mình trong việc giảng dạy và hướng dẫn chúng em Chúc

quý thầy, cô luôn khỏe mạnh, hạnh phúc và thành công trong sứ mệnh cao quý này

Trang 3

Chương I._ MỞ ĐẦU ee-eeeeereerrertrerteertrertrerrerrrere 2

1.1 Tên đểtài cv HH re 2

1.2 Đặt vấn đề che 2

1.3 Mục tiêu của đề tài -c-ccctttnhhhHH re 3

1.4 Đối tượng và phạm vi nghiên cứu -2- 2+ z+£x£+Exe£Ezerxerrxerrerrxee 3

LAL Đối tượng nghiên cứu -¿+E+2E+EE+EEEEEEEEerkerrkerrerrxee 3

1.4.2 Phạm vi nghiên CỨU Ă S< + E383 ESESEESekEeeeereerreerre 3

Chương2 CO SỞ LÝ THUYÊT 2-s° se vssvssevsseevssecsse 4

2.1 Giới thiệu hệ thống phát hiện xâm nhập -. -¿szsz+cszcss+¿ 4

2.1.1 Các dạng hệ thống phát hiện xâm nhập - ¿s2 sz+s+¿ 4

2.1.2 Áp dụng trí tuệ nhân tạo vào hệ thơng phát hiện xâm nhập 6

2.2 Explainable AI - c-SĂ G1111 HH HH HH HH HH rry 6

2.2.1 Giới thiệu chung - Ă c1 HH ggkt 6

2.2.2 Hệ thống phát hiện xâm nhập sử dụng Explainable AI 7

2.2.3 _ Phương pháp sử dụng Explainable AI - cc++<-<ex+exxxs 8

2.3 Các kỹ thuật Machine Learning phân tích - 5= 5<c+x+++seeseses 16

2.3.1 Decision Tree MOdelL - - 5 «xxx nh Hư 16

2.3.2 Random Forest MOdelL ¿- 6 + ++ 2x #kEs+sEssEeeEskrsessereerkre 19

2.4 Tổng quan các cuộc tấn cơng DDOS - 2-2 2© ++£++2EEtzEzvrxezrxeee 22

2.4.1 VỌUmTIC SGK ng HH ri 23

2.4.2 — Protocol À(aCK ung TH gu H nhgưn 25

2.4.3 Tan cơng tang Application -¿-©cc++k+tEsEkrEkerkeerkerrxees 27

Trang 4

2.6 T€TSOTÍÏOW G CC QC T03 30

2.7 CICIlowMGIT - sgk 32

Chương 3 NGHIÊN CỨU THUC NGHIỆM HOẶC LÍ THUYÉT 41

3.1 Mô hình tổng quan - 2-2 + ©£+E£+EE+EEE+EE+EEEEEEEEEEEEEEEEECEEErrkrrrkerrkree 4I

3.2 Phương pháp thực hiỆn + 5+5 hệt 48

3.2.1 Lưựa chọn thuật toán - c5 2c 3322111211135 xe 48

3.2.2 _ Sử dụng phương pháp giải thích SHAP - - 2555 c+c+<xs<s2 49

3.3 Học máy đối kháng ¿- 2£ 22+SE£2EE£EEESEE2EEE2112712211712271 21121 xe 52

Chương4 TRÌNH BAY, ĐÁNH GIA BAN LUẬN VE KET QUẢ 56

4.1 Tạo bộ dữ liệu DDOS dựa trên các bộ dữ liệu công khaI 56 4.2 Mô hình có khả năng giải thích - - 5 2+ * 3+ ++vEseeeesereerrsrrsrrses 60

4.2.1 Cách thực hiện trên mô hình - <5 25+ =* + +2 +++ssseecezsxx 60

4.22 Ap dụng phương pháp giải thích ¿¿©++csc+czxsr+s 64

4.3 Đánh giá sự bền vững của mô hình -2- 2 ©¿2+++x++tx++zzxzrxzeex 75

4.3.1 Tấn công Evasion Attack -¿ -¿©-c2cxe+cxeerreerrxrsree 75

4.3.1 Áp dụng SHAP phát hiện cuộc tấn công -2csz©cs+=+2 76

Chương 5 TONG KET VA HƯỚNG PHAT TRIẺN -. - 80

5.1 Kết quả đạt được -:- 5< 5+2 E2 1221117121111121121111211 1.1 xe 805.2 Hướng phat triỀn -©2<+2+++2Ekt2EEEE1EE21122711211271.711211 2112 Le 80

Trang 5

DANH MỤC HÌNH ANH

Hình 2.1 Mô hình giải thích cây quyết định dự đoán hình thê người dưới 30 7

Hình 2.2 Giải thích dự đoán hình anh chó, loại nhạc cụ sử dụng LIME 9 Hình 2.3 Decision Tree MO(eÌ - - 5 + + 312111 119119119111 1H HH nh HH gà 17 Hình 2.4 Ví dụ Decision Tree model << 5+2 %3 3223 *£2EE£2 EE+eEEseeeseseeese 18 Hình 2.5 Random Forest MOdeÌ - - 5 <6 +21 311 511911931911 1 E1 11g ng gà, 20

Hình 2.6 Ví dụ Random Forest model - ¿+ ++ +23 ++<E‡+*£E++eE+eeexeeeexesex 21

Hình 2.7 Tan công DDOS Flood Attack ccccsscsssessssessseessssssssssecssecsseessecsssecasecssecees 23

Hình 2.8 Amplification DDOS attack oo ieee eseeeenecneeseeeceecseeseeasesseeseeaeaseeens 24 Hình 2.9 Reflection DDOS attack eeseeseeseeeeeecseeseeececseeseeesetseeseeaseeseeens 25 Hình 2.10 SYN flood DDOS atfacK - 5S 1k9 TH HH HH HH, 26 Hình 2.11 Peer-to-peer DDOS atfaCs 5 nàn HH HH ng nrêp 27 Hình 2.12 Nuke DDOS AtfaCK -.- Ăn HH HH HH HH HH ng Hệ 27 Hình 2.13 Slowloris DDOS affaCK s6 c1 1191 9k9 9T HH HH gưkt 28 Hình 2.14 HTTP flood atfaCK - 2ó 55 c1 11211211151 91 9319111 1 1kg nh HH gikt 29 Hình 2.15 Multi-Vector DDOS AtfaCEKS - - Án SH HH» HH HH HH Hit 30

Hình 2.16 Google COlaE -s- c1 121 11v TH HH TH TH Hà TH Tnhh nrệp 30

Hình 2.17 Cài đặt trực tiếp cicflowmeter bang lệnh pip -¿s¿5¿ 33

Hình 2.18 Download file cIcfÏOWIm€I€T.Z1DD - 5 55 5+ +sE+eEeerskesersrrkrrke 33 Hình 2.19 Giải nén thư mục CICflowjMeter <5 2513 *2 1E + esevsseeses 33 Hình 2.20 Vào thư mục CICFlowMe(€T - - (G13 1112 1112 2111821118111 81 kg 34

Hình 3.1 Mô hình thực hiỆn - + + 39193 9191 91 11 E111 81911 vn rkp 4I

Hình 3.2 Biểu đồ biéu diễn các tinh năng quan trọng khi ghi bàn thắng 51Hình 3.3 Biểu đồ giải thích phân bó của các tính năng 2- 2 ©z©c52 51

Hình 3.4 Công cụ Adversarial Robustness 'ToolOX -.- 625 <+s+svkseessesses 53 Hinh 3.5 Poisoing attack 0 e 54

Hinh 3.6 Evasion attack 0n › 55

Hình 4.1 Giải thích tổng quan cho mô hình Decision Tree : - 64Hình 4.2 Giải thích tong quan Normal - 2-2 2 5£ +£2£+£E£££++2E£+£xzzrxezzeeree 65

Trang 6

Hình 4.3 Giải thích tổng quan DDOS attack-HOIC .2- 22 5s£s£2£xzzzsrsz 66Hình 4.4 Giải thích tong quan DDOS attacks-LOIC-HTTP -.2- ¿55252 66Hình 4.5 Giải thích tổng quan DDOS attack-LOIC-UDP 2 2- 5z©5<2=s2 67

Hình 4.6 Giải thích tổng quan DDOS 2- 2: ©2S£22E22EEECEEEC2EESEEeerkeerrkerree 67

Hình 4.7 Giải thích cục bộ cho NormalÌ 55552 223 33+ ‡£+zeeeeeeeeeeeezs 67 Hình 4.8 Giải thích cục bộ DDOS attack-HOIC - 255555522 s+cssseeesss 67 Hình 4.9 Giải thích cục bộ cho DDOS attacks-LOIC-HTTP - ‹- 68 Hình 4.10 Giải thích cục bộ cho DDOS attack-LOIC-UDP - «s52 68

Hình 4.11 Giải thích cục bộ cho DDOS attack - 2555552 +2<<s+csssesesss 68

Hình 4.12 Giải thích tổng quan về các quyết định của mô hình Random Forest 69Hình 4.13 Giải thích tong quan về Normal 2-2 52+ £2E£+£+££EE+EE£2£+zzzsrsz 70

Hình 4.14 Giải thích tông quan DDOS -2- 22-2-5252 S££+EEE£EEEEEvEEErrkerrerree 71

Hình 4.15 Giải thích tong quan DDOS attack-HOIC -¿- 2 5s2©sz2cs2 71

Hình 4.16 Giải thích tổng quan DDOS attacks-LOIC-HTTP 2 5¿-5¿ 72

Hình 4.17 Giải thích tông quan DDOS attack-LOIC-UDE .2- 52522552 72

Hình 4.18 Giải thích cục bộ Normal c5 << 22* 11 33*+££#EEE++zeeeeeezeeeeeezs 73 Hình 4.19 Giải thích cục bộ DDOS attack - 5 scs+sEsersrsererrske 73 Hình 4.20 Giải thích cục bộ DDOS attack-HO]IC - 5555 <2 £+x+s+scseesee 73

Hình 4.21 Giải thích cục bộ DDOS attacks-LOIC-HTTÌP - 5555 <<s£s+2 74

Hình 4.22 Giải thích cục bộ DDOS attack-LOIC-UDP 5 s55 «5< <<scs+2 74

Hình 4.23 Độ chính xác khi bị tấn công AttackEvasion -©2c5z©cscsz 76Hình 4.24 Giải thích tong quan cuộc tan công Decision Tree -: s¿ 76

Hình 4.25 Giải thích tổng quan cuộc tan công Random FOrest - 77

Hình 4.26 Giải thích tong quan cuộc tan công trên phân loại DDOS 78

Trang 7

DANH MỤC BANG

Bảng 2.1 Bảng các tinh năng CICFlowmeter thống kê và tính toán 40Bang 3.1 Các tính năng được tính toán và thống kê ¿- 2 ¿©sz+c+2 42

Bang 4.1 Bộ dữ liệu CIC-IDS-2017 và CSE-IDS-2018 - cc«cs+<+<cseres 57

Bảng 4.2 Tính năng bộ dữ liệu tông hợp tan công DDOS từ 2 bộ dữ liệu 58Bảng 4.3 Số lượng bản ghi của bộ dit liệu tong hợp tan công DDOS 58Bang 4.4 Đánh giá hiệu suất mô hình Decision 'Tree ¿-¿©csz+csz+c5se¿ 63Bảng 4.5 Đánh giá hiệu suất mô hình Random FOresi 2 2 2222 63

Trang 8

DANH MỤC TU VIET TAT

TU NOI DUNG DIEN GIAI

DDOS Distributed Denial Of Tan công từ chối dich vu phân tán

Service : : :

TCP Transmission Control Protocol Giao thức điều khiến truyền nhân

UDP User Datagram Protocol Giao thức dữ liệu người dùng

HTTP | HyperText Transfer Protocol Giao thức truyén tai siêu văn ban

HTTPS HyperText Transfer Protocol Giao thức HTTP có su dụng mã hóa

Secure

AI Artificial Intelligence Tri tué nhan tao

IP Internet Protocol Giao thức Internet

IDS Intrusion Detection System Hệ thống phát hiện xâm nhập

ML Machine learning Học máy

DL Deep learning Học sâu

Trang 9

TOM TAT KHÓA LUẬN

Việc áp dụng trí tuệ nhân tạo trở nên quan trọng trong hệ thống phát hiện xâm

nhập, tính minh bạch và độ phức tạp của hệ thống cũng cần được quan tâm Hệ thốngkết hợp với việc áp dụng trí tuệ nhân tạo vẫn chỉ đưa ra những quyết định mà không

đưa bat cứ bang chứng thông tin hay quy trình đưa ra các dự đoán vi vậy khiến con

người khó có thê tin tưởng vào độ tin cậy của mô hình Trong khóa luận này, em sẽ

đề xuất phương pháp giải thích cho các quyết định mà mô hình máy học đưa ra Giúpcho người bình thường cũng có thé hiểu hoặc các nhà chuyên gia có thé giảm thờigian phân tích và dự đoán được các cuộc tan công mới Từ đó giúp phát triển hệ thống

phát hiện xâm nhập sử dụng máy học phải vừa có khả năng hoạt động hiệu quả, vừa

có thê đưa ra các giải thích minh bạch cho các quyết định của mình

Bên cạnh đó mô hình máy học cây quyết định và rừng ngẫu nhiên được biếtđến là những mô hình nhỏ, nhẹ và độ chính xác cao Em sẽ đánh giá sự bền vững của

hai mô hình thông qua cuộc tan công dau độc và tan công qua mặt Góp phần đánh

giá lại độ bên của thuật toán trước các cuộc tân công máy học.

Trang 10

Chương 1 MỞ ĐẦU

1.1 Tên đề tài

Tiếng Việt PHÁT TRIÊN HỆ THÓNG PHÁT HIỆN XÂM NHẬP CÓ KHẢ

NANG LÝ GIẢI SỬ DUNG MAY HỌC

Tiếng Anh: Developing a explainable IDS using machine learning

1.2 Đặt van đề

Khối lượng lớn, đa dạng và tốc độ cao của dit liệu được tạo ra trong mạng đã

làm cho quá trình phân tích dữ liệu bằng các kỹ thuật truyền thống trở nên rất khó

khăn Vi vậy hệ thống phát hiện xâm nhập IDS (The intrusion detection systems) dé

thay thế cho các kỹ thuật truyền thống Đề IDS trở nên tối ưu hơn, các nhà chuyênmôn đã áp dụng thêm học máy (Machine Learning) và học sâu (Deep learning) déhọc các thông tin dữ liệu từ dữ liệu lớn (Big Data) để đưa dự đoán Tuy nhiên, tính

minh bạch của hệ thống IDS là một van dé đáng quan tam Độ chính xác va sự dễhiểu của model luôn tỉ lệ nghịch với nhau, Deep Learning IDS là các blackbox chỉ

đưa ra kết quả, việc nâng cao chat lượng phát hiện các cuộc tan công va sự hiểu biết

về các quyết định của IDS của người quan trị vẫn còn hạn chê.

Bên cạnh đó các cuộc tấn công DDOS ngày càng gia tăng và do các luồng

DDOS không có đặc điểm chung nên các hệ thống phát hiện xâm nhập (IDS) truyềnthống phát hiện chúng chưa được chính xác Nắm bắt vấn đề này, em thực hiện ápdụng phương pháp giải thích các quyết định của mô hình sử dụng SHAP, SHAP giúpđưa các tính năng quan trọng, và mức độ ảnh hưởng của từng tính năng đối với quyết

định của mô hình Với thực nghiệm, em thực hiện dé xuất mô hình máy học trên các

tập dataset phô biến sau đó tiến hành tích hợp SHAP vào dé giải thích[ I]

Ngoài ra em sẽ đánh giá sự bên vững trước các cuộc đâu độc của hai mô hình trước các cuộc tân công đôi kháng.

Trang 11

1.3 Mục tiêu của đề tài

e Đề xuất hệ thống phát hiện xâm nhập sử dung máy học có khả năng

giải thích.

e© Tạo ra bộ dữ liệu của cuộc tan công DDOS

e Đánh giá hiệu quả phát hiện và độ bền trước các cuộc tấn công

adversarial attack.

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

Khóa luận này hướng đến:

e Đềxuất hệ thống phát hiện xâm nhập sử dụng mô hình máy học có

khả năng lý giải sử dụng máy học.

e©_ Kết hợp framwork Explainable AI vào mô hình dé nâng cao hiệu suất

phát hiện các cuộc tan công DDOS

e© Kiểm sự bền vững mô hình máy học trước các cuộc tan công

1.4.2 Phạm vi nghiên cứu

e Nghiên cứu nghiên cứu framework Explainable cho AI thực

hiện giải thích các quyết định hệ thống phát hiện và ngăn ngừa

Trang 12

Chương 2 CƠ SỞ LÝ THUYET

2.1 Giới thiệu hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập (IDS: Intrusion Detection System) là một giải phápphổ biến, các loại IDS hiện nay chủ yếu đã ứng dụng machine learning và deeplearning vào trong IDS Chính vì vậy, hệ thống phát hiện xâm nhập (IDS: IntrusionDetection System) đóng góp quan trọng trong mạng máy tính, cung cấp một môi

trường mạng an toan hon.

IDS (Intrusion Detection Systems - Hệ thong phát hiện xâm nhập) là thiết bị hoặc

phần mềm có thực hiện việc giám sát lưu lượng mạng, thường chủ yếu tập trung chú

trọng việc xác định các xâm nhập, thu thập log các thông tin, thực hiện ngăn chặn

hoặc cảnh báo đến quan tri viên Hệ thong hoạt động dựa trên dựa trên việc phân tích

và so sánh đữ liệu truy cập hoặc hành động hiện tại với các quy tắc, chữ ký hoặc mô

hình đã biết trước Hệ thống thường được triển khai trong các mạng về hệ thống quan

trọng giúp ngăn ngừa các mối đe dọa xâm nhập

2.1.1 Các dạng hệ thống phát hiện xâm nhập

* Network Intrusion Detection Systems

Network Intrusion Detection Systems (NIDS) hoạt động bang cách phân tíchcác gói mang và so sánh chúng với co sở dữ liệu về các dấu hiệu tan công đã biếthoặc các quy tắc được xác định trước Nó được hoạt động dé xác định các mẫu hoặcđiểm bat thường đáng ngờ có thé chỉ ra sự xâm nhập mạng hoặc hoạt động độc hại

Hệ thống được đặt tại nơi được khảo sát theo nhu cầu hoặc những nơi giám sát lưulượng mạng đến và đi từ tất cả các thiết bị trên mạng

* Host Intrusion Detection Systems

Host Intrusion Detection Systems (HIDS) 1a hé thống phát hiện xâm nhập được

sử dụng dé theo đõi các đặc điểm của một host riêng lẻ và phát hiện các hoạt động

xâm nhập trái phép Thường theo dõi các lưu lượng mang, các tiến trình, các hoạtđộng ứng dụng sử dụng, các truy caajpj và thay đổi trong cau hình hay ứng dụng

Trang 13

+ Signature-Based

Signature-Based là các IDS hoạt động dựa trên signature là một mẫu đại diện

với các đặc điểm của một nguy cơ tấn công hoặc hành động độc hại đã biết ( cơ sở

dữ liệu tan công đã biết trước) Kỹ thuật phát hiện này là quá trình so sánh các dữ liệuquan sat được với các signature dé xác định các sự cố Hạn chế của kỹ thuật là khixuất hiện cuộc tan công mới hoặc các biến đổi nhỏ hệ thống không thé phát hiện kịp

thời, vì vậy phải thực hiện cập nhật thường xuyên dữ liệu.

+ Anomaly-Based

Kỹ thuật phát hiện dựa so sánh hành vi dé xác định các hoạt động bắt thường:

Tạo bộ dữ liệu đại diện cho hành vi bình thường/ dự đoán trong mạng Từ đó

bat kỳ hoạt động mang được xem xét sẽ được so sánh với bộ dữ liệu hành động bình thường đã tạo, nếu có sự sai lệnh nào sẽ bị xem là bat thường.

Cơ sở dit liệu biểu diễn cho các hành động bình thường hau hết được tao bằngcách theo dỗi và phân tích lưu lượng mạng, nhật ký hệ thống hoặc các hành vi đượcquan sát là đặc điểm điên hình cho hành động bình thường

* Specification-based

Thu thập các hành động của một chương trình hoặc giao thức và theo dõi hoạt

động của một chương trình hoặc giao thức và theo dõi hoạt động dựa trên các các

ràng buộc Kỹ thuật sẽ khó thực hiện và phát triển chính xác với các giao thức, chương

trình có sự thay đổi

+ Hybrid

Đây là kỹ thuật kết hợp các kỹ thuật dựa trên signature, anomaly vaspecification Kỹ thuật là sự kết hợp được các ưu điểm của ba hệ thống, tuy nhiênkhó khăn trong việc kết hợp ba kỹ thuật cùng hoạt động hiệu quả trên mô hình

Trang 14

2.1.2 Áp dung trí tuệ nhân tao vào hệ thống phát hiện xâm nhập

Đề đáp ứng các yêu cầu của một IDS hiệu quả, các nhà nghiên cứu đã khám phákhả năng sử dụng các kỹ thuật sử dụng AI Ca ML và DL đều nằm dưới sự bảo trợlớn của trí tuệ nhân tạo (AI) và nhằm mục đích học hỏi thông tin hữu ích từ dữ liệulớn Các kỹ thuật này đã trở nên phổ biến rộng rãi trong lĩnh vực an ninh mang, cả

ML và DL đều là những công cụ mạnh mẽ trong việc học các tính năng hữu ích từ

lưu lượng mạng và dự đoán các hoạt động bình thường và bất thường dựa trên các

mâu đã học.

Với mô hình Machine Learning tỷ lệ phát hiện của hệ thống phát hiện xâm nhập

mạng được cải thiện Tuy nhiên việc áp dụng trí tuệ nhân tạo chỉ là các blackbox chỉ

có thé đưa ra kết quả, việc nâng cao chất lượng phát hiện tan công và các hiểu được

các quyết định của IDS của người quản trị vẫn còn hạn chế.

2.2 Explainable AI

2.2.1 Giới thiệu chung

Những thách thức trong việc hiéu các quyết định và rào cản khó có thé giải mãibởi các “black box” cùng với sự phát triển trong lĩnh vực trí tuệ nhân tạo đã thúc đây

sự phát triển Explanable AI trong việc giải thích các quyết định đưa ra của hệ thống

phát hiện xâm nhập sử dụng trí tuệ nhân tạo.

Lời giải thích cho người khác có thé không cần quá nhiều kiến thức AI có thểhiểu cách mô hình hoạt động như thé nào thì lời giải thích phải mức độ dễ hiểu, trựcquan nhất như hình bên dưới

Trang 15

Hình 2.1 Mô hình giải thích cây quyết định dự đoán hình thé người dưới 30

Tiếp theo sau khi lời giải thích được đưa ra chúng ta phải xác thực sự độ tin cậy.Chúng ta không thé dựa trên một dit liệu dé kiêm tra, vì tùy vào từng trường hợp tínhnăng nào sẽ ảnh hưởng nhiều nhất tới các quyết định vì vậy dé đảm bảo độ chính xácthì cần một số dé liệu nhất định dé đại diện giải thích cho mô hình

Lời giải thích phải có khả năng khái quát hóa cho đề bài, nghĩa là với các mô

hình khác nhau các lời giải thích vẫn có thé áp dụng được Vì có rất nhiều mô hìnhkhông thé đưa ra lời giải thích cho từng mô hình vì vậy đề hiểu nhanh chóng van dé

chúng ta cần một lời giải thích khái quát

Sự dễ hiểu và độ chính xác là hai yếu tổ được đưa ra lời giải thích cho mô hình.Với một mô hình rõ ràng dễ hiểu, như các mô hình decision tree và random forest, đaphần là công thức có thể giải thích được nhưng lại không thể chính xác bằng cácphương pháp mạng hoc sâu Vì vậy phải có sự đánh đồi giữa độ chính xác và dễ hiéu

2.2.2 Hệ thống phát hiện xâm nhập sử dụng Explainable AI

Các hệ thống phát hiện xâm nhập hiện đại tận dụng Machine Learning dé tươngquan các tính năng của mạng, so sánh các mẫu trong bộ dữ liệu và làm nổi bật cácđiểm bat thường tương ứng với tan công Các nhà bảo mật dành rất nhiều công sức

dé tìm các đặc điểm của các cuộc tan công và cô gang phân tích các loại đã biết nhưscan port, bruteforce password, virus malware Tuy nhiên, do bối cảnh tan công thay

đôi liên tục và sự xuât hiện của các môi đe dọa tin tặc liên tục, các cuộc tân công có

Trang 16

quy mô lớn hơn do đó phải tìm ra những cách mới đề bảo vệ hệ thông một cách nhanh

chóng.

Nghiên cứu gần đây về trí tuệ nhân tạo có thé giải thích [2, 6] đã dẫn đến mộtlĩnh vực nghiên cứu chuyên dụng dé giải thích ly do cho các dự đoán được thực hiệnbởi các mô hình machine learning, nếu chúng ta phân loại một cuộc tấn công là'bruteforce password’ và cung cấp bằng chứng răng điều này là do số lượng chỉ sốhost là 1 và byte nguồn là khoảng 125 —né sẽ cho nhà phân tích bảo mật có thé hiểutốt hơn nhiều về lý do cảnh báo được gắn cờ Ngoài ra, nếu lời giải thích phù hợp vớikiến thức, nhà phân tích có thé dé dàng chấp thuận nó Hơn nữa, đối với một cuộc tấn

công mới khi sự bắt thường được gắn cờ và giải thích được đưa ra, nhà phân tích có

thé tốn ít thời gian trong việc quyết định xem đây là cuộc tan công mới chưa biết haykhông và tạo ra bộ quy tac mới cho hệ thống IDS mới như Zeek, Snort

2.2.3 Phương pháp sử dụng Explainable AI

+ LIME (Local Interpretable Model-agnostic Explanations)

LIME có khả nang tiếp cận don giản Phương pháp đưa ra là cung cấp khả năng

diễn giải cục bộ, nghĩa là nó giải thích các dự đoán riêng lẻ trên cơ sở từng trường

hợp thay vì cung cấp sự hiểu biết chung về toàn bộ mô hình Nó giúp người dùnghiểu lý do tại sao một dự đoán trường hợp nào đó bang cách làm nồi bật các tính nănghoặc đầu vào quan trọng ảnh hưởng đến quyết định của mô hình

LIME tạo ra một bộ dữ liệu mới bao gồm các mẫu nhiễu loạn và các dự đoán

tương ứng của mô hình hộp đen Sau đó, trên bộ dữ liệu mới này, LIME [Š ]sẽ đào tạo

một mô hình có thé hiểu được, mô hình này được tính trọng số bởi mức độ gần giống

các phiên bản được lấy mẫu với phiên bản quan tâm Mô hình đã học phải là có kếtquả gần đúng tốt cho các dự đoán của mô hình máy học cục bộ, nhưng nó không cầnthiết phải là gần đúng tốt trên toàn cầu

Trang 17

(a) Original Image (b) Explaining Electric guitar (c) Explaining Acoustic guitar (d) Explaining Labrador

Hình 2.2 Giải thích dự đoán hình anh chó, loại nhac cụ sử dung LIME

Vệ mặt toán học, các mô hình cục bộ vê khả năng diễn giải có thê được biêu

diễn như sau:

explanation(x) = argmingeg LU, g, 1x) + Ôy

x là mô hình decision tree được dùng dé giải thích, g (mô hình phân loại), giảm

thiêu loss L (sai số bình phương trung bình), đây là một hàm mắt mát được sử dụng

dé đo lường sai số giữa đầu ra dự đoán của mô hình và giá trị thật Trong trường hợp

này, sai số bình phương trung bình được sử dụng dé đo lường mức độ sai lệch trung

bình giữa dự đoán và giá trị thực tế, f (ví dụ: mô hình decision tree), độ phức tạp của

mô hình Q,, g là tập hợp các giải thích có khả năng xảy ra, 7, là thước đó xác định

độ phân bó lớn của vùng xung quanh quyết định x dé giải thích

Thực tế LIME chỉ tối ưu được phần loss, chúng ta phải xác định độ phức tạp,

ví dụ: bang cách chọn số lượng tối đa các tính năng mà mô hình hồi quy tuyến tính

có thé sử dụng

Cách đào tạo các mô hình local:

- Chon trường hợp liên quan dé giải thích về kết quả dựa đoán

- Lam xáo trộn tập dữ liệu và dự đoán cho những mẫu điểm mới này

- Can băng các mâu mới theo mức độ gân giông của mau với cá thê cân dự đoán.

Trang 18

- Huan luyện một mô hình có trong số, có thê hiểu được trên tập dữ liệu thay

đôi

- — Giải thích dự đoán bang cách diễn giải mô hình cục bộ

Phụ thuộc vào loại dữ liệu văn bản, hình ảnh hoặc dạng bảng, dé tạo các biến

thé dit liệu với dữ liệu văn bản, hình ảnh giải pháp là thay đổi các từ đơn, siêu pixel.Trong trường hợp dữ liệu dạng bảng LIME [13] tạo các mẫu mới bằng cách xáo trộntừng đối tượng riêng lẻ, rút ra từ phân phối chuẩn với giá trị trung bình và độ lệch

chuân.

a Ưu điểm

- C6 thể thay thế mô hình máy học cơ bản

- Giải thích ngắn gọn và chọn lọc Những người không có chuyên môn hoặc cần

ít thời giản dé hiéu

- Phuong pháp giải thích phù hợp dữ liệu văn bản và hình anh.

- LIME dễ sử dụng và triển khai bang Python

b Nhược điểm

- Dinh nghĩa chính xác của vùng lân cận cho mau dữ liệu dạng bản là van dé lớn

- _ Các giải thích không có sự ôn định Với hai điểm gần nhau khác nhau trong quá

trình mô phỏng

- Cần thận trọng khi áp dụng phương pháp Các giải thích về LIME có thé được

nhà khoa học dữ liệu làm sai để che giấu dữ liệu đúng Khiến việc tin tưởng vào

các giải thích do LIME tạo ra trở nên khó khăn hơn.

* Shapley Value

Chúng ta sẽ tìm hiểu cách mà mỗi tinh năng anh hưởng đến dự đoán của một

điểm dit liệu Trong một mô hình tuyến tinh, dé dàng dé tính ảnh hưởng của từng tính

năng Đây là công thức dự đoán của mô hình tuyến tính cho một điểm dữ liệu:

f(x) = Bot Bix, + + pXp

Trong đó: x là instance mà ta muốn tính toán sự đóng góp Mỗi x; là một giá tri thuộc

tính, với j = 1, , p 6; là trọng số tương ứng với feature j

10

Trang 19

Sự tác động ở; của tính năng thứ j trên quyết định ƒ (x) là:

$;) = Bix; — E(B)X;) = Bx; — B;E(X,)

Trong đó E (B;X, 7) là ước tính trung bình ảnh hưởng của featue J Sự đóng góp

là mức độ chênh lệch giữa ảnh hưởng của tính năng trừ đi cho ảnh hưởng trung bình.

Như vậy, tổng các ảnh hưởng của tính năng cho một instance là:

p

Y 0 “> Bjx; — E(f,X,)) = )=[m+ Yay —|#+ ) F(,X,)

= f(x) — E(f(X))

Đây cũng chính là giá trị dự đoán cho điểm x trừ đi trung bình điểm dự đoán

Đóng góp của feature có thể âm

Tuy nhiên với các mô hình khác không phải tuyến tính, việc tính toán sự ảnh

hưởng không phải là một vẫn đề đơn giản nữa Lúc này Shapley values trở thành mộtgiải pháp cho tính toán các đóng góp của feature cho một predictions đối với bất kì

mô hình học máy nào.

e x: Dữ liệu đầu vào

e (x): Giá tri Shapley tính năng i cho dữ liệu đầu vào x cho model f

e F: Tập hợp tất cả các tính năng

e - ƒc: mô hình được dao tạo trên tập hợp con của các tính năng $

® fy ,: mô hình được đảo tạo trên tập hợp con của các tính năng S và {i}

11

Trang 20

e = xe: đâu vào bi hạn chê của x với tập hợp con các tính năng S$

® xcụ¡: đầu vào bi hạn chê của x với tập hợp con các tính năng S và {i}

Có thê được định dạng lại và thé hiện như sau:

- Tac động đóng góp: Mô hình thay đôi bao nhiêu khi có một tính năng mới

i được thêm vào Dua ra một tập hợp S, mô hình f¢ được dao tạo với các

tính năng S fg; mô hình được dao tạo với một tính năng bổ sung

- _ Trọng số tô hợp: là trọng số dé cung cấp cho từng tập hợp con khác nhau

của các tính năng với kích thước |S| (loại trừ tính nang i)

- Tinh trung bình: sẽ xác định mức trung bình của tat cả các tác động đóng

góp từ tat cả các kích thước tập hợp con có thé dự đoán được, từ 0 đến

|F| — 1 Chúng ta phải bỏ qua một tính năng mà chúng tôi muốn đánh giá

tầm quan trọng của tính năng đó

Shapley value có các thuộc tinh Efficiency, Symmetry, Dummy và Additivity, 4

thuộc tính này kết hợp với nhau được coi là định nghĩa về việc phân bổ đều

- Efficiency: Tổng trung bình các giá trị Shapley của tat cả các tinh năng bằng

với giá trị của dự đoán được đào tạo với tất cả các tính năng, do đó, tổng dựđoán được phân phối giữa các tính năng

>, ix = fer

¡CF

12

Trang 21

- Symmetry: Tác động của 2 giá trị tính năng i và j sẽ giống nhau nếu trong tat

cả các trường hợp sự đóng góp là như nhau.

[vs C F{i,j}: foui(%sui) = fouj (Xsuj) |

|

Pi(x) = bj)

- Dummy: Một feature i không thay đổi giá trị dự đoán — bat kê nó được thêm

vào dự đoán các giá trị tính năng nào — sẽ có giá trị Shapley bằng 0

VSC F:[ƒ§u¡(Xsui) = fs (%; ) > Gi) = 0Ì

- Linearity: Nếu hai mô hình được mô tả bởi các dự đoán ƒ và g, dự đoán phân

tán phải tương ứng với những đóng góp có được từ ƒ và những đóng góp bắt

nguon từ g

+

ox = bfx + box VaeER ox =a.) x

Đào tạo một mô hình rừng ngẫu nhiên, dự đoán dựa trên mức trung bình của

một số cây quyết định khác nhau Tính giá trị Shapley cho từng cây một cách độc lập,

tính trung bình chúng và sử dụng giá trị Shapley kết quả đề tính giá trị tương đối với

đối tượng trong một khu rừng ngẫu nhiên Điều này được đảm bảo bởi thuộc tính

Linearity.

a Uu diém

- Phù hop với nhiều dang dữ liệu và bài toán phức tap

- Dam bảo sự phân phối công bằng, hiệu quả, tin cậy giữa các features trong khi

các phương pháp khác như LIME vẫn chưa thực hiện được.

- Thay vì so sánh một dự đoán với trung bình dự đoán của toàn bộ tập dữ liệu,

có thé so sánh kết quả giải thích với một tập con hoặc là một điểm dữ liệu

13

Trang 22

b Nhược điểm

- Tốn nhiều thời gian tính toán: Với bộ dữ liệu lớn hoặc bộ dữ liệu có nhiều tính

năng việc tính toán chính xác giá trị Shapley rất ton kém

- Shapley value sẽ là phương pháp giải thích sai nếu như dit liệu còn ít khi đó

lời giải thích mà chỉ chứa một vài features.

- _ Không tối ưu khi thêm dé liệu mới khi đó cần phải xử lý như một bộ dữ liệu

mới nếu như bạn muốn tính toán giá tri Shapley cho một instance dữ liệu mới

+ SHAP (SHapley Additive exPlanations)

Tận dụng ý tưởng về các giá tri Shapley [2, 4, 6] dé cham điểm ảnh hưởng của

tính năng mô hình Dinh nghĩa kỹ thuật của một giá tri Shapley là “ Sự đóng góp

trung bình của một giá trị tính năng trên tất cả các liên kết có thê có” Nói cách khác,các giá trị Shapley xem xét tất cả các dự đoán có thé có cho một trường hợp bangcách sử dụng tất cả các kết hợp đầu vào có thê có Do cách tiếp cận toàn diện này,SHAP có thé dam bảo các thuộc tính như tính nhất quán và độ chính xác cục bộ

Giá trị Shapley tạo thành một giá trị cho việc giải thích các cơ chế quan trọngcủa hệ thống Tạo sự tin cậy của mô hình bằng cách cung cấp khả năng diễn giải ở

Local Explanation và Global Explanation Global thể hiện khả năng diễn giải có nghĩa

là người dùng có thé hiểu mô hình trực tiếp từ cau trúc tông thé của nó Sự giải thíchcủa Global chỉ kiểm tra đầu vào và nó có gang tìm hiểu lý do tại sao mô hình tạo raquyết định nhất định Với Local chúng ta có thé giải thích trong phân loại cụ thé cóthể hiểu tại sao dự đoán lại như vậy và sự tác động các dự đoán SHAP được sử dụng

để tăng khả năng diễn giải của hệ thống phát hiện xâm nhập

Mục tiêu của SHAP là giải thích dự đoán của một instance x bằng cách tính toán

sự tác động của mỗi tính năng vào quyết định Phương pháp giải thích SHAP tínhtoán giá trị Shapley từ lí thuyết trò chơi liên minh Giá trị thuộc tính của một instance

dữ liệu được xem như là các người chơi trong liên minh Shapley values cho cho biết

các phân bô công băng giữa các features.

a Global Explanation

14

Trang 23

Với giá trị Shapley Global [5 ,13] cho chúng tôi biết mô hình hoạt động tổngthê như thế nào Đối với mỗi tính năng, chúng tôi vẽ nhiều liên minh như được mô tả

ở trên và tính toán sự thay đổi về độ chính xác của mô hình khi chúng tôi thêm tínhnăng được đề cập Trung bình trọng sỐ của sự thay đổi về độ chính xác này đối với

tất cả các liên minh được rút ra là ước tính của giá trị Shapley

Các giá trị Shapley có thê được kết hợp để có được giải thích chung Ma trậncác giá trị Shapley được tạo bằng cách chạy SHAP cho mọi trường hợp Ma trận này

có một hàng trên mỗi dữ liệu và một cột cho mỗi đối tượng địa lý Toàn bộ mô hình

có thê được được giải thích băng cách phân tích các giá trị Shapley trong ma trận này

Ý tưởng của phương pháp đơn giản Đầu tiên, giá trị của feature được chia làm

nhiều khoảng, sau đó giá trị Shapley của những feature này được tính toán thông qua

dữ liệu Cuối cùng, những giá trị Shapley trong mỗi khoảng được được tính trung

bình.

Ước tính giá trị Shapley cho mỗi tính năng:

- Số lần lặp M, thé hiện quan tâm x, chỉ mục tính năng J, ma trận dữ liệu X và

mô hình học f

- Với mọIm = 1, ,M:

° Vẽ thê hiện ngẫu nhiên z từ ma trận dữ liệu X

° Chọn một hoán vị ngẫu nhiên của các giá trị tính năng

Trang 24

góp cho từng trường hop cụ thé Ví du: nếu mô hình dự đoán một mẫu nhãn có độ tin

cậy là 0,8 thì SHAP sẽ giải thích rõ ràng liệu từng tính năng có làm tăng hoặc giảm

độ tin cậy của mô hình hay không Bằng cách áp dụng phương pháp này, các chuyên

gia bảo mật có thé năm bắt được lý do tại sao mô hình IDS đưa ra quyết định như vậy

và sau đó tận dụng kết quả này dé tối ưu hóa mô hình

2.3 Các kỹ thuật Machine Learning phân tích

2.3.1 Decision Tree Model

+ Định nghĩa

Decision Tree (cây quyết định) [17] là một kỹ thuật học có giám sát có thể sửdụng cho ca van dé phân loại và hồi quy (thường thích hợp hơn cho bài toán phân

loại) Kỹ thuật này đưa ra kết qua dự đoán bằng cách học các quy tắc quyết định

đơn giản suy ra từ dữ liệu cho trước.

+ Hoạt động của Decision Tree

Như tên gọi, kỹ thuật này có cau trúc như cây có thể được minh họa như sơ

đô bên dưới:

16

Trang 25

|Decision Node | Decision Node

Leaf Node Leaf Node

Hinh 2.3 Decision Tree Model

Các thành phan liên quan đến cây quyết định:

Root Node (Nút gốc): Nút trên cùng trong cây Nó đại điện cho điểm khởi đầu

của quá trình ra quyết định

Decision Node/ Internal Node (Nút quyét dinh/ nút nội bộ): đại diện cho nhữngđặc trưng của tập dữ liệu Các nút này có nhiều nhánh và được sử dụng để đưa ra

những quyết định

Leaf Node (Nút lá): Mỗi nút này đại diện cho một đầu ra của mỗi quyết định (lớpcủa mỗi điểm dit liệu)

Brach/ Sub Tree (Nhánh/ cây con): là một cây được hình thành bởi việc tách cây.

Các nhánh đại diện cho những quy tắc quyết định

Parent/Child Node (Nút cha/ nút con): nút gốc của cây được gọi là nút cha, và các

nút khác được gọi là nút con.

Thuật toán này sẽ tách tập dữ liệu ban đầu một cách đệ quy như cấu trúc câynhị phân cho đến khi chỉ còn lại các nút lá có tính đồng nhất cao (một nút lá có tính

17

Trang 26

đồng nhất tuyệt đối khi chỉ chứa một lớp) Đáng lưu ý, thuật toán này có tính chất

của giải thuật tham lam, mỗi phân tách ở mỗi nút chỉ là tốt nhất ở trường hợp đang

xét và không thê thay đôi các phân tách đã thực hiện Vì vậy, cây quyết định được

tạo ra sẽ không đảm bảo là tối ưu nhất

Ví dụ (Xem sơ đồ bên dưới): Giả sử vào một ngày nhóm bạn quyết định dãngoại ngoài trời dé xem xét các hoạt cảnh dé quyết định Dé giải quyết van dé này,cây quyết định bắt đầu từ nút gốc (Thuộc tính ngoài trời) Nút gốc tách ra thành mộnút lá (quyết định đi ra ngoài nếu trời âm u) và hai nút quyết định (độ âm và sức

gió) Cuối cùng, hai nút quyết định đó được tách ra thành 4 nút lá Nút lá thứ nhất (

đi nêu độ âm bình thường và không đi nếu độ âm cao), nút lá thứ hai ( đi nếu tốc độgió yếu và không đi nếu tốc độ gió mạnh)

Play (Y) or Not (N)

18

Trang 27

Việc dựng cây quyết định thì có thể sử dụng các thuật toán ID3, C4.5,Classification and Regression Tree, Multivariate adaptive regression spline Nút gốchoặc mỗi nút nội bộ sẽ đại diện cho một thuộc tính/đặc trưng, và dé lựa chọn một

thuộc tính cho một nút thì cần sử dụng Độ đo lựa chọn thuộc tính (Attribute Selection

Measure) tương ứng như là Entropy, Information gain, Gini index, Gain Ratio.

a Uu diém

« Déhiéu và diễn giải: Decision Tree biểu diễn trực quan của quá trình ra quyết

định, đưa ra các giả thuyết dễ hiểu

« Hiểu quả trong việc tìm hiểu các dữ liệu

¢ _ Thuật toán ít đòi hỏi nỗ lực trong việc tiền dữ liệu

‹ C6 thể xác định mô hình bằng cách sử dụng bài kiểm tra thông kê tăng độ tin

tưởng cho mô hình.

b Nhược điểm

‹ _ Khi có sự thay đôi nhỏ trong dữ liệu có thé tác động lớn đến cau trúc cây quyết

định, điều đó có thé khiến cây quyết định kém 6n định và chính xác

¢ Tinh toán của thuật toán có thé phức tạp hơn so với các thuật toán khác

¢ _ Mô hình có thé không phân loại tốt với một số loại đữ liệu, chăng hạn như dữ

liệu có mức độ nhiễu cao hoặc dữ liệu có nhiều tính năng không liên quan.Trong những trường hợp này, các thuật toán học máy khác có thé phù hợp hơn

thé Vì vậy phải cân bằng tập dữ liệu đầu vào trước cho thuật toán

2.3.2 Random Forest Model

* Dinh nghĩa

Random Forrests (Rung ngau nhiên) [18] là một thuật toán hoc máy thuộc kỹ

thuật học có giám sát Được sử dụng trong các bài toán phân loại và hồi quy Thuật

toán nay dựa trên khái niệm “ensemble learning”, trong trường hợp nay là chỉ việc

kết hợp nhiều bộ phân loại dé giải quyết một van đề phức tạp để cải thiện hiệu suất

19

Trang 28

của mô hình Cụ thé, Rừng ngẫu nhiên là một bộ phân loại chứa nhiều cây quyết định

được xây dựng ngẫu nhiên Không chỉ dựa một cây quyết định, rừng ngẫu nhiên sẽlấy dự đoán từng cây và dựa trên quyết định nhiều nhất trên các cây quyết định để

đưa ra kêt quả cuôi cùng.

Hình 2.5 Random Forest Model

Ring ngau nhiên hoạt động theo 2 giai đoạn, giai đoạn 1 là chia bộ dữ liệu thành các

cây quyết định và kết hợp các cây quyết định, thứ hai là đưa ra dự đoán trên mỗi cây

được tạo ra ở giai đoạn đầu tiên Quá trình hoạt động có thé được miêu tả theo cácbước sau:

1 Chọn ngấu nhiên k điểm dữ liệu (có thể trùng) từ tập dữ liệu để xây dựng các tập

con (bootstrapping)

20

Trang 29

2 Trên từng cây quyết định theo thuật toán chỉ định sử dụng từng tập dữ liệu con

(Một sé luong nhất định các tinh năng của dữ liệu được chọn ra ngẫu nhiên, sau

đó lựa chon đặc trưng tốt nhất trong số đó dé tạo từng node cho cây)

3 Chọn số lượng cây quyết định dé đưa ra dự đoán trên từng cây

4 Lap lại bước 1 và 2 cho đến khi tạo ra đủ số lượng cây quy định

5 Kỹ thuật "aggregation" (tong hợp) được sử dụng dé kết hợp dự đoán từ nhiều cây

quyết định trong mô hình Random Forest Cụ thé, dé gan nhãn cho một điểm dữ

liệu mới, các dự đoán được tạo ra bởi mỗi cây quyết định trong mô hình sẽ được

kết hợp lại dé đưa ra dự đoán cuối cùng.

Như hình bên dưới: Giả sử có một tập hợp gồm nhiều ảnh các màu sắc khác nhau và

được đưa vào bộ phân loại rừng ngầu nhiên Tập dữ liệu được chia thành các tập cây

con và được dùng để xây dựng từng cây quyết định Khi ảnh màu hồng phấn đượcnạp vào (một điềm dữ liệu mới xuất hiện), từng cây quyết định đã đưa ra một kết quađoán của nó, dựa vào kết quả đa số mà rừng ngẫu nhiên đưa ra quyết định hình ảnh

Trang 30

a Ưu điểm

‹ _ Thuật toán áp dụng trong bài toán hồi quy và phân loại và có thé hoạt động tốt

với cả bién phân loại và biến liên tục

« Dé dàng xem các tầm quan trọng tương đối mà thuật toán gán cho các tính

năng đầu vào

¢ _ Thuật toán ít xảy ra tình trạng overfitting vì nếu không đủ cây quyết định bộ

phân loại sẽ không khớp với mô hình

¢ - Mặc dù là một thuật toán phức tạp, Random Forest vẫn nhanh và có thể xử lý

các tập dữ liệu lớn Nó cũng có thê xử lý song song dé tăng tốc độ đào tạo

b Nhược điểm

‹ _ Số lượng lớn cây quyết đinh có thé làm cho thuật toán quá chậm và không hiệu

quả đối với các dự đoán thời gian thực

« C6 thể khó diễn giải hơn một cây quyết định vì nó liên quan đến nhiều cây

khác gây khó hiéu làm thế nào thuật toán đi đến một dự đoán cụ thé

« _ Yêu cầu nhiều bộ nhớ hơn các thuật toán khác vì nó lưu trữ nhiều cây quyết

định Đây có thê là một vấn đề nếu tập dữ liệu lớn

‹ _ Thuận toán có thé thiên về lớp đa số trong các bộ dữ liệu không cân bằng Lớp

đa số có xu hướng chi phôi quá trình ra quyết định của từng cây riêng lẻ, dẫnđến những dự đoán sai lệch

2.4 Tổng quan các cuộc tấn công DDOS

Các cuộc tan công từ chối dịch vụ phân tán (DDOS) càng ngày phát triển nhanh

chóng và là một trong những hiểm họa lớn trên không gian Internet Kẻ tấn công

thường sử dụng nhiều máy tính phân tán dé khởi chạy phối hợp Dos, nhằm tan côngmột hoặc nhiều mục tiêu.[8, 9]

Họ chủ yếu nhắm đến độ đáp ứng dịch vụ của hệ thống và băng thông từ tầngmạng đến tầng ứng dụng Kể từ cuộc tan công DDOS đầu tiên vào năm 1999 thì đếnbây giờ DDOS vẫn là một trong những loại tấn công kho lường nhất, đặc biệt tấn

22

Trang 31

công DDOS có thé kết hợp với các loại tan công khác dé làm hệ thông mắt mát nhiềuhơn [10] Dẫn đến các sự mat mát dit liệu thông tin, tê liệt hệ thống, gây nên ton

thất rất lớn cho doanh nghiệp

Nhìn chung, cuộc tấn công DDOS được chia làm ba thể loại chính: cuộc tấncông băng thông, cuộc tan công giao thức và cuộc tan công tầng ứng dụng

2.4.1.Volumetric

Các cuộc tan công này cố gắng tận dụng băng thông trong mạng hoặc dich vu

có sẵn và phần còn lại của internet Những cuộc tấn công này chỉ đơn giản là gây tắc

nghẽn hoặc chặn các truy cập thông thường.

Các cách tan công:

Flood Attack ( ngập lụt băng thông)

Bằng cách điều khiển các máy tính botnet đột ngột gửi 1 lượng lớn lưu lượng

tới máy chủ mục tiêu dé nhằm chiếm hết toàn bộ không gian băng thông của máy

2 SYN packet at | Koy

threat actor ez} SYN-ACK packet (S)

— E=— r————¬

commen bot banking apps

and control Sy,

lộ,Che,

SYN-ACK packet

E—— r——

bot gaming platforms

Hình 2.7 Tan công DDOS Flood Attack

23

Trang 32

Amplification attack ( tắn công khuếch đại):

Kẻ tấn công khai thác các giao thức hoặc dịch vụ nhất định dé tạo ra một lưulượng lớn và áp đảo tài nguyên của mục tiêu Đầu tiên kẻ tấn công sẽ thử gửi mộtlượng yêu cầu nhỏ từ đó máy chủ sẽ sẽ phản hồi lại Bằng cách giả mạo IP của mụctiêu sẽ tạo khuếch đại một lượng lớn, dẫn đến lưu lượng vượt quá băng thông làm

gián đoạn dịch vụ.

gt

Hinh 2.8 Amplification DDOS attack

Reflection:

Là tan công ánh xạ hoặc tan công phản chiếu, dựa trên mang trong đó tận dụng

một dịch vụ hoặc hệ thong hop phap dé khuéch dai va hướng một lượng lớn lưu lượngtruy cập mạng tới nạn nhân được nhắm mục tiêu Cuộc tan công này khai thác khái

niệm "phan anh" bang cách gửi các yêu cầu được chế tạo đặc biệt đến máy chủ hoặcdich vụ phản hồi bang cách gửi phản hồi lớn hơn trở lại địa chỉ IP của nạn nhân

24

Trang 33

Hinh 2.9 Reflection DDOS attack

Mot số kỹ thuật tan cong:

e User Datagram Protocol (UDP) flood attack: Tan công với một số lượng lớn

gói tin UDP tới công mục tiêu khi đó hệ thống sẽ bị tràn ngập gói tin ICMPdẫn đến dịch vụ không được hồi đáp

« Internet Control Message Protocol (ICMP) flood attack: kẻ tan công cé gắng

gửi nhiều lệnh ping đến mức thiết bị không thé phản hồi gói ICMP

« Ping of Death attack: Khi một máy tính nhận một gói ICMP có kích thước dữ

liệu quá lớn, nó có thể bị crash

Trang 34

Một vài kỹ thuật tan công theo dang protocol attack:

SYN flood attack: dựa vào giao thức TCP tạo một kết nối không hoàn thành

băng cách gửi liên tục với lượng lớn kết nôi.

Các giao thức TCP cho phép các ứng dụng truyền dữ liệu bằng cách sử dụngmột quá trình gọi là quá trình bắt tay ba bước Khi bị tắn công người dùng sẽ khôngthé gửi yêu cầu đến máy chủ

Kẻ tan công giả mao địa chỉ IP kẻ tan sẽ gửi liên tục và khối lượng lớn gói SYN

Khi đó máy chủ sẽ gửi gói tin phản hồi, trong lúc đợi gói tin ACK cuối cùng thì kẻtấn công sẽ liên tục gửi gói SYN Từ đó máy chủ sẽ luôn duy trì kết nối với IP giả

mạo, các kết nối bình thường sẽ phải chờ đợi dẫn đến dịch vụ bị gián đoạn

Spoofed SYN Packe

Spoofed SYN Packet

oe + = —.

ACV P

ACK

>

Hinh 2.10 SYN flood DDOS attack

Peer-to-peer Attacks: Mang P2P là mang phi tập trung mọi người có thé trực tiếpkết nối và chia sẻ tài nguyên mà không cần máy chủ

Trong mạng ngang hàng quá trình chia sẻ file, kẻ tắn công sẽ ngắt kết nối củacủa họ và kết nối với máy tân công Kẻ tan công khai thác lỗ hồng trong mạng bằng

giao thức Direct Connect, được sử dụng dé chia sẻ tất cả các loại tệp Kẻ tan công sétấn công DDOS lớn và xâm phạm các máy tinh trong mạng

26

Trang 35

Hình 2.11 Peer-to-peer DDOS attacks

Nuke Attack: Gói tin ICMP được chia nhỏ và được gửi qua Ping Khi các gói tin

được gửi đến mục tiêu thay vì với mục đích dé chan đoán và khắc phục sử cố thì

chúng sẽ gửi với tôc độ cực nhanh và sô lượng lớn.

Hinh 2.12 Nuke DDOS Attack

2.4.3 Tan công tang Application

Application level attacks tập trung vào lỗ hồng của ứng dụng web hoặc máychủ Sau đó sẽ gửi một lượng yêu cầu và gây quá tải và làm cho dịch vụ không còn

khả dụng với người dùng hợp lệ.

27

Trang 36

Khó có thể phòng chống tấn công DDOS ở tầng ứng dụng vì không phân biệtđược lúc nào tan công và bình thường, đặc biệt trong trường hợp tan công lớp ứng

dụng, chăng hạn như mạng botnet thực hiện tắn công HTTP Flood vào máy chủ củanạn nhân Bởi vì mỗi bot trong mang botnet tao ra các yêu cầu mạng có vẻ hợp pháp

nên lưu lượng truy cập không bị giả mạo và có thể xuất hiện ở trạng thái "bình

thường”.

Dạng tấn công theo dạng application attack:

Slowloris attack: Sử dụng một phần yêu cầu HTTP dé mở các kết nối giữa một máy

tính và một máy chủ Web được nhăm mục tiêu, sau đó giữ các kêt nôi đó mở càng lâu càng tôt, do đó sẽ áp đảo và làm chậm và tiêu tôn tài nguyên của mục tiêu.

Hinh 2.13 Slowloris DDOS attack

HTTP flood attack: Một cuộc tan công lũ lụt HTTP là một loại tấn công số lượng

lớn được thiết kế để áp đảo máy chủ được nhắm mục tiêu bằng các request HTTP

GET hoặc POST.

Các cuộc tan công DDOS tràn ngập này thường dựa vào botnet, là một nhóm

các máy đã bị chiếm đoạt một cách ác ý thông qua việc sử dụng phần mềm độc hại

như Trojan Horse.

28

Trang 37

HTTP Flood Attack

Multi-Vector Attacks: Sử dung nhiều cuộc tân công và công cụ khác nhau dé áp đảo

dữ liệu của hệ thống khiến hệ thống bị tê liệt Nhờ vào lỗ hỏng sẵn có của mạng hoặc

cơ sở hạ tầng mục tiêu dé tối đa hóa cơ hội thành công và tránh bi phát hiện Mộtvectơ trong ngữ cảnh này đề cập đến một phương pháp hoặc con đường mà qua đó

kẻ tan công có thé hành vi không được phép hoặc xâm phạm hệ thống Các vectơ tan

công có thể bao gồm các phương pháp như email lừa đảo, phần mềm độc hại, kỹ thuật

xã hội, khai thác mang Bằng cách kết hợp nhiều loại tan công, kẻ tan công có thé

tăng độ phức tạp và hiệu quả của các cuộc tân công của chúng.

Multi-Vector DDoS Attack Breakdown

Infrastructure services

(e.g DNS, CGNAT) Network layer

(Firewalls, routers etc)

Network volumetric (Targeting bandwidth)

Application layer

(Apps, servers)

29

Trang 38

Hình 2.15 Multi-Vector DDOS Attacks

2.5 Google Colab

Colaboratory, hay gọi tắt là “Colab”, là một sản phẩm của Google Research

Colab cho phép mọi người viết và thực thi mã python tùy ý thông qua trình duyệt và

đặc biệt phù hợp với máy học, phân tích dữ liệu và giáo dục.

Loi ích kh sử dụng:

« Khong yêu cầu cấu hình

¢ Quyên truy cập miễn phí vào GPU

« Chia sẻ dé dàng

Cho dù bạn là sinh viên, nhà khoa học dữ liệu hay nhà nghiên cứu AI (trí tuệ nhân

tạo), Colab đều giúp bạn hoàn thành công việc dễ dàng hơn

1 Tensor: Một tensor là một vectơ hoặc ma trận có n chiều đại diện cho tất cả

các loại dữ liệu Vậy chúng ta có thể hiểu Tensorflow là một thư viện mô tả,đều chỉnh dòng chảy của cá Tensor Tensor có 3 thuộc tính:

- Rank là bậc của tensor Việc phân rank này khá quan trọng vì nó đồng thời

giúp phân loại dữ liệu của Tensor Một số rank đặc biệt có tên gọi cụ thể:

30

Trang 39

e Scalar: Khi Tensor có rank = 0

e Vector: Vector là một Tensor rank 1.

« Matrix: Tensor rank 2 hay mang 2 chiều

e N-Tensor: Khi rank cua Tensor tăng lớn hơn 2

- Shap là chiều của tensor

- Type kiểu dữ liệu của các elements

2 Graphs: Tập hợp và mô tả tất cả các phép tính được thực hện trong quá trình

đào tạo.

Ưu điểm:

‹ Tensorflow không giới hạn ở một thiết bị cụ thê

« _ Nền tảng mã nguồn mở dựa trên nên tảng mạnh mẽ Google

‹ Kha năng trực quan hóa dữ liệu tốt hơn các thư viện trước đó.

e St dụng các hệ thong GPU va CPU dé hoat động, người dùng được tự do sử

dụng bat kỳ kiến trúc nào theo yêu cau

« Kién trúc TensorFlow sử dụng TPU giúp tính toán nhanh hon CPU va GPU.

Nhược điểm:

¢ - Nó tương đôi chậm hơn và ít sử dụng hơn so với các khung cạnh tranh của

nó.

« - Giới hạn kiến trúc: Tensorflow chỉ hỗ trợ NVIDIA và Python cho GPU

¢ Thu viện chứ các từ đồng âm được sử dụng nhiều ứng dụng khác nhau khiến

người dùng hó nhớ và khó sử dụng.

e Tensorflow giảm kích thước của chương trình và làm cho chương trình trở

nên thân thiện với người dùng, nhưng nó lại làm cho chương trình trở nên phức tạp.

31

Trang 40

2.7 CICFlowMeter

CICFlowMeter là một công cụ phân tích luồng lưu lượng mạng được sử dụng

dé theo dõi và phân tích lưu lượng mạng ở cấp độ luỗng

Nó có thé tạo bộ dữ liệu các luéng hai chiều, trong đó gói đầu tiên xác địnhcác hướng chuyền tiếp (nguồn tới đích) và ngược (đích đến nguồn), do đó có hơn 80

tính năng lưu lượng truy cập mạng thống kê như Duration, Number of packets,

Number of bytes, Length of packets, vv có thé được tính riêng theo hướng tiến va lùi

CICFlowMeter trích xuất một loạt các tính năng và chỉ số từ các luồng mạng,bao gồm thời lượng luồng, tổng số byte được truyền, gói trên mỗi luồng, thời gian

đến giữa các gói và kiểm soát thời hạn của flow timeout Đầu ra của ứng dụng là tệp

định dạng CSV có sáu cột được gan nhãn cho mỗi luồng (FlowID, SourceIP,

DestinationIP, SourcePort, DestinationPort và Protocol) với hon 80 tính năng phan tích lưu lượng mạng.

Các luồng TCP thường được kết thúc khi kết thúc sự cô kết nối (bằng gói FIN)trong khi các luồng UDP bị cham dứt bởi thời gian chờ luéng

Đây là một ứng dụng mã nguôn mở, nó có thê được tích hợp vào một dự án vì

nó mang lại sự linh hoạt hơn trong việc chọn các tính năng bạn muôn tính toán, thêm

các tính năng mới và cũng có thê kiêm soát tôt hơn thời lượng của thời gian chờ của

luồng.

Ứng dụng bảo mật: CICFlowMeter thường được sử dụng trong quá trình

nghiên cứu dé phát hiện xâm nhập mạng, phân tích phần mềm độc hai và thông tin

tình báo về mối de doa Nó có thé giúp các nhà phân tích bảo mật hiéu rõ hơn về lưulượng mạng, xác định các mối đe dọa tiềm ẩn và thực hiện các hành động thích hợp

đê bảo vệ mạng.

32

Tiêu đề	Phát triển hệ thống phát hiện xâm nhập có khả năng lý giải sử dụng máy học
Tác giả	Nguyen Thuy Linh
Người hướng dẫn	ThS Le Minh Khanh Hoi
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Kỹ sư An toàn Thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	92
Dung lượng	50,99 MB

Khóa luận tốt nghiệp An toàn thông tin: Phát triển hệ thống phát hiện xâm nhập có khả năng lý giải sử dụng máy học

NGHIÊN CỨU THỰC NGHIỆM HOẶC LÍ THUYET

Áp dụng phương pháp giai thích