1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Phát triển bộ phân loại hai lớp dựa trên học máy cho hệ thống phát hiện xâm nhập

71 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát Triển Bộ Phân Loại Hai Lớp Dựa Trên Học Máy Cho Hệ Thống Phát Hiện Xâm Nhập
Tác giả Đoàn Đỗ Lâm
Người hướng dẫn ThS. Đỗ Hoàng Hiển
Trường học Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành Cử Nhân Ngành An Toàn Thông Tin
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 71
Dung lượng 69 MB

Nội dung

Nghiên cứu này dé xuất phát triển một bộ phân loại hai lớp cho IDS: lớp đầu tiên sử dụng thuật toán học máy ML dé xử lý dữ liệu trong thời gian ngăn, trong khi lớp thứ hai áp dung mô hìn

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG

DOAN DO LAM TRUONG

KHOA LUAN TOT NGHIEP

PHAT TRIEN BO PHAN LOẠI HAI LỚP DỰA TREN HOC MAY

CHO HE THONG PHAT HIEN XAM NHAP

DEVELOPING MACHINE LEARNING-DRIVEN TWO-LAYER

CLASSIFIER FOR INTRUSION DETECTION SYSTEM

CU NHAN NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

THS DO HOANG HIEN

TP HO CHÍ MINH, 2024

Trang 2

LOI CAM ON

Trước hết, tác giả xin bay tỏ lời cảm on chân thành nhất đến Ban giám hiệu vì đã luôntạo mọi điều kiện tốt nhất đề tác giả có thé tận dụng tối đa sự sáng tạo và phát triểntoàn diện bản thân Bên cạnh đó, tác giả muốn gửi lời cảm ơn đến toàn thé quý thầy

cô đã và đang giảng dạy tại trường nói chung và Khoa Mạng máy tính & Truyềnthông nói riêng, trong suốt quá trình học tập tại trường, các thầy cô không chỉ truyềnđạt kiến thức chuyên môn sâu rộng mà còn luôn là những tam gương sáng về daođức, lối sống và tinh thần hoc tập không ngừng Những điều quý báu này sẽ mãi làđộng lực đề tác giả tiếp tục nỗ lực, phát triển bản thân trong tương lai

Đặc biệt, tác giả muốn gửi lời cảm ơn sâu sắc tới ThS Đỗ Hoàng Hiển, người đãkhông ngừng dành thời gian, tâm huyết dé hướng dẫn, góp ý và động viên tác giảtrong suốt quá trình thực hiện khóa luận Xin cảm ơn thầy vì đã kiên nhẫn lắng nghe,

san sàng chia sẻ kinh nghiệm và định hướng cho tác giả trong từng giai đoạn của việc

thực hiện khóa luận Dưới sự chỉ bảo tận tình của thay, tác giả đã được tiếp thu ratnhiều kiến thức quý giá, cũng như rèn luyện được những kỹ năng cần thiết Nhữngbài học giá trị mà thầy truyền đạt sẽ mãi là hành trang giúp tác giả vững chắc trên con

đường phía trước

Ngoài ra, tác giả xin gửi lời cảm ơn chân thành đến gia đình, bạn bè và những người

thân yêu Mọi người đã luôn ở bên, chia sẻ và tạo điều kiện dé tác giả tập trung hoàn

thành khóa luận Sự ủng hộ tinh thần và vật chất của mọi người là nguồn động lực vôgiá đối với tác giả

Cuối cùng, tác giả hoàn toàn nhận thức được kiến thức chuyên môn năng lực cònnhiều hạn chế Vì vậy, tác giả rất mong nhận được sự nhận xét, góp ý quý báu từ cácthầy cô và hội đồng dé tác giả tiếp tục hoàn thiện khóa luận và đạt được những kếtquả tốt hơn trong tương lai

Đoàn Đỗ Lâm Trường.

Trang 3

MỤC LỤC

Chương 1 = TONG QUAN DE TAL -2-©22- 5E 2S£2EE£EEE2EEEEEEEEEEEerkrrrrrrrees 2

1.1 Ly do chọn đề tai c.cc.ccecceccecceccsccsscsscssesscssesssssessessesscssessesuesucsuesuesssssssessasesesaes 2

1.2 Mục tiêu nghiÊn CỨU - G -c 119211831119 11 89118 11 11111 1H ng ng rệt 3

1.3 Đối tượng nghiên CỨu - 2: + SE+SE+SE+EEEEESEE2EEEEE2E121121121121121121 21.1 xe 3

1.4 Pham vi nghién Cu na a 3

1.5 Phương pháp nghiên Ctru 0 cc eececeeseeseeeseesceeseeeeeeeceseeeeeseeeensecseeeeeeeeens 3

1.6 Cấu trúc khoá luận -+-©+++++E+++tEtEEkxtrtEkkrtttrirrtriirrrrieiid 4Chương2 KIÊN THUC NEN TANG VÀ NGHIÊN CỨU LIEN QUAN 5

2.1 Hệ thống phát hiện xâm nhập IDS -2 ¿- 2 +¿©++++++zx++zx+zcxzeex 5

2.11 Tông qấ AGE đ>è & ) / 52.1.2 Hệ thống phát hiện xâm nhập dựa trên học máy (AI-based IDS) 8

2.2 Học máy (ML) -.- 2G SG 111 ng TH TH ng nh Hy 10

2.2.1 Một số mô hình Machine Learning phổ biến -2- 2-2-2 12

2.3 TTAHSÍOTIN€T Qui ng 16 2.4 eXplainable Artificial Intelligence (XAD như một Feature Selection 19

QAL XAT A 19

2.4.2 Một số phương pháp XAT phổ biến 2-2 2 2 2+£+Ez£zez 20

2.4.3 Feature S€Ï€CtION nh HH ng nh Hy 21

2.4.4 Phương pháp XAI như một hướng tiếp cận Feature Selection 22

2.5 Tình hình nghiên cứu liên qu41 5 5 S112 E£ESEEeeeeeseeeseeeree 22

2.5.1 _ Tình hình nghiên cứu trong vả ngoài NUGC .- 5< «<+<<+ 22

2.5.2 Tính khoa học và tính mới của để tài, cc chon tnerrererrrkrrves 25

Trang 4

Chương 3 PHƯƠNG PHAP DE XUẤTT 2 ¿+£+E£+E++Exerxzzrserxee 26

3.1 Sử dụng XAI để lựa chọn đặc trưng 2¿©+©s++2x++cxe+zxrsrxrsrxee 28

3.1.1 Ranking các đặc trưng sau khi thu được kết quả từ các phương pháp

XAI 28

3.1.2 Sử dụng Decision Tree dé đánh giá top các đặc trưng được chọn lọc

29 3.2 Xây dựng bộ phân loại hai lớp dựa trên học máy - « -«++s<<s+ 31

3.2.1 Quá trình huấn Ly60 woe ccc ecsecsecseesessessessessessessessessessessesseseeseess 323.2.2 _ Quá trình kiểm tra 2 St + EEEEEEEEEEEEEEEEEEErkrrkrkerkrei 33

Chuong 4 HiEn thực - thực nghiệm và đánh giá ¿5+5 cscxcx+xsxsxss 35

4.1 Môi trường thực nghiỆm - c3 S333 1+ EESsEESeeeesrsreeerrereeeee 35

4.2 Tap dữ liệu thực nghiệm và các tham số đánh giá mô hình 35

4.2.1 _ Tập dữ liệu thực nghiệm - s65 2+ 1£ E+skkseeeseeesseeres 35

4.2.2 Tiền xử lý đữ liệu -©-++ckccEeEErEErrkerkrrerrkrree 404.2.3 Các thông số đánh giá (Độ đo) - 2-2 5£+<+E+£E+EEerErrxrrkrree 44

4.3 Hiện thực phương pháp - - - c5 +13 + E*EESeeEsessesersrserrrereeee 45

4.3.1 Sử dung XAT làm Feature Selecfion c- ccsksssesiesee 45 4.3.2 Hiện thực mô hình hai lỚP - - -5 S< + *+*vEeeeseeseeereees 54

Chuong 5 | KETLUAN VA HƯỚNG PHAT TRIEN - 2255: 60

5.I KẾtluận cv Huệ 60

5.2 Hướng phát triỂn - 2c t+Sk+SE+SE9EEEEESEEEEEEEEEE121122121121111 111.1 xe 61

Trang 5

DANH MỤC HÌNH ẢNH

Hình 2-1: Kiến trúc cơ bản của IDS 2-22 2 E+SE2EE£EEEEEEEEEEEECEEEErkrrkerrrrree 6Hình 2-2 Sơ đồ venn về mối liên hệ giữa các nền tang trong học máy 11Hình 2-3 Kiến trúc của Transformer [ Ï] -.-¿-¿ss+s+E+E+EEE+E+E+E+EeEeEerertzeresrezsrsrs 16

Hình 2-4 XAI đóng vai trò như một Feature Selection - 5+ ++sx+<s+ecsss 19

Hình 3-1 Tổng quan các giai đoạn theo phương pháp dé xuất - 27Hình 3-2: Tong quan sử dụng XAI làm FS 2 2¿©52+2++2x++x++£xezxezrxerxez 29Hình 3-3: Ví dụ về chia dit liệu k-fold cross-validation với k=5 - -=s 30Hình 3-4 : Tổng quan mô hình kết hợp hai lớp 2-2 2 s2s2+££+£z+sz+s£+s++‡ 32Hình 3-5: Tong quan quá trình huấn luyện - 2 2¿©++22+++z++zx+zx+zzx+zse2 33Hình 3-6: Tổng quan quá trình kiểm tra -. -2 -2¿ 2 5+2++++++zx+zxetxeerseees 34

Hình 4-1: Tỷ lệ các nhãn trong tập dữ liệu - - + +2 + £+EEstEeereererrrerrres 42

Hình 4-2 Biểu đồ thể hiện kết quả kết hợp PI va Multi Classification 53

Hình 4-3: Bộ encoder của Transformer [ Í ] - - - - << <« «+ + + =+**+**‡+£++£+++>z##z.x+ 55

Hình 4-4: Hiệu suất của mô hình kết hợp hai lớp theo T_SHAP_DT 58Hình 4-5: Hiệu suất của mô hình kết hợp hai lớp theo T_PI_DT . 59

Trang 6

DANH MỤC BANG BIEU

Bảng 2-1 Bảng phân loại Machine Learning theo phương thức học - 12

Bang 2-2: So sánh một số thuật toán phổ biến trong MIL 2-2 25252: 13 Bang 3-1: Bảng tóm tắt tiến trình sử dụng XAI dé làm Feature Selection 30

Bảng 4-1: Bảng liệt kê các đặc trưng của tập dữ liệu CICIDS2017 35

Bảng 4-2: Các cuộc tan công được tiến hành theo ngày -: -¿z5z 41Bang 4-3 Bang Ranking 30 đặc trưng có giá tri từ cao đến thấp theo PI 46Bảng 4-4 Bang Ranking 60 đặc trưng có giá trị từ cao đến thấp theo SHAP 47

Bảng 4-5: Kết quả đánh giá mô hình theo phương pháp PI và Binary Classification

Trang 7

DANH MỤC TỪ VIẾT TẮT

STT Thuật ngữ Mô tả

1 IDS Intrusion Detection System

2 IPS Intrusion Prevention System

10 NIDS Network-based Intrusion Detection System

11 HIDS Host-based Intrusion Detection System

12 |ANNs ——_ Artificial Neural Networks

13 CNNs Convolutional Neural Networks

14 PI Permutation Importance

15 SHAP Shapley Additive exPlainatinons

Trang 8

TOM TAT KHÓA LUẬN

Sự gia tăng nhanh chóng của mạng Internet và truyền thông đã dẫn đến sự bùng nổ

dữ liệu kéo theo các mối đe doa, tan công mạng phức tạp Trong bối cảnh đó, hệ thốngphát hiện xâm nhập (IDS) là một lớp phòng thủ quan trọng nhưng vẫn đối mặt vớithách thức về khả năng xử lý và độ chính xác Nghiên cứu này dé xuất phát triển một

bộ phân loại hai lớp cho IDS: lớp đầu tiên sử dụng thuật toán học máy (ML) dé xử lý

dữ liệu trong thời gian ngăn, trong khi lớp thứ hai áp dung mô hình Transformer décải thiện độ chính xác của lớp thứ nhất Hệ thống được đánh giá trên tập dữ liệu công khai CICIDS2017 nhằm kiểm nghiệm hiệu quả Nghiên cứu cũng áp dụng kỹ thuậtcác kỹ thuật eXplainable Artificial Intelligence (XAI) dé lựa chọn các đặc trưng quantrọng, giúp tối ưu thời gian và nguồn lực tính toán Kết quả của nghiên cứu cho thaykhả năng cải thiện đáng kể hiệu suất và mô hình có độ chính xác cao Tác giả cũng

đề xuất một số hướng phát triển cho tương lai

Trang 9

Chương 1 TONG QUAN ĐÈ TÀI

1.1 Lý do chọn đề tài

Trong thời đại kỷ nguyên số hiện nay, an ninh mạng đóng vai trò vô cùng quan trọng

và trở thành một mối quan tâm hàng đầu của các tổ chức, doanh nghiệp cũng như cá

nhân Với sự gia tăng đáng kể về số lượng và độ tinh vi của các cuộc tắn công mạng,việc xây dựng các hệ thống phát hiện xâm nhập (IDS) hiệu quả trở nên cấp thiết hơnbao giờ hết

Theo truyền thống, các hệ thống IDS dựa trên các quy tắt hay chữ ký đã không còn

đủ sức đáp ứng với những mối đe dọa mới nồi Các kẻ tấn công liên tục cải tiến vàtạo ra những phương thức tan công tinh vi, vượt qua được các quy tắc phòng thủ cứng

nhắc Trong khi đó, những hệ thống này lại thiếu khả năng thích ứng và tự động học

hỏi Ngoài ra, khi lưu lượng mạng tăng lên, các hệ thống dựa trên quy tắc và chữ kýgặp khó khăn trong việc xử lý lượng dữ liệu lớn, dẫn đến giảm hiệu suất đáng ké

Những năm gần đây cùng sự tiễn bộ trong lĩnh vực trí tuệ nhân tạo, đặc biệt là họcmáy (ML) và học sâu (DL), đã mở ra những cơ hội mới cho việc phát triển các hệthống IDS hiệu quả hơn ML và DL có khả năng học hỏi từ dữ liệu, nhận diện cácmẫu phức tạp và phát hiện các mối đe dọa mới mà không cần đến các chữ ký đã biết

trước Các mô hình DL, đặc biệt là các mạng nơ-ron sâu, có khả năng phân tích dữ

liệu với độ chính xác cao, giúp nâng cao hiệu quả phát hiện xâm nhập Ngoài ra, ML

và DL có thể xử lý khối lượng dữ liệu lớn một cách hiệu quả, phù hợp với sự pháttriển không ngừng của mạng lưới Internet hiện đại.

Hơn nữa, việc kết hợp các kỹ thuật explainable AI như Feature Selection sẽ giúp giảmbớt số lượng đặc trưng cần thiết, giúp cải thiện hiệu suất mô hình và giảm chỉ phí tínhtoán mà không làm mất đi thông tin quan trọng

Đề tài này không chỉ có ý nghĩa thực tiễn cao trong bối cảnh an ninh mạng hiện nay,

mà còn mang lại cơ hội nghiên cứu sâu về các công nghệ xu hướng tiên tiến đang

được quan tâm ngày càng lớn như machine learning, deep learning và explainable AI.

Trang 10

Việc ứng dụng thành công các kỹ thuật này vào hệ thống IDS sẽ góp phần nâng cao

độ chính xác và hiệu quả của giải pháp an ninh mạng, đồng thời mở ra nhiều hướngphát triển mới cho lĩnh vực này

Vì những lý do trên, tác giả xin chọn “Phát triển bộ phân loại hai lớp dựa trên họcmáy cho hệ thống phá hiện xâm nhập” làm đề tài nghiên cứu cho khóa luận của mình

1.2 Mục tiêu nghiên cứu

Đề xuất phát triển một mô hình phân loại gồm hai lớp, lớp thứ nhất đảm bao tính tốc

độ, lớp thứ hai đảm bảo độ chính xác, cả hai lớp sẽ bổ trợ cho nhau và giúp phát hiệnxâm nhập một cách hiệu quả Ngoài ra còn tối ưu khả năng tính toán khi sử dụng XAIlàm Feature Selection, mô hình sẽ mang tính thực tiễn và đem lại hiệu suất cao.

1.3 Đối tượng nghiên cứu

- Hệ thống phát hiện xâm nhập dựa trên học máy

- Các mô hình Machine Learning, Deep Learning, Transformers.

- eXplainable Artificial Intelligence va các kỹ thuật, thuật toán XAI

- Bộ đữ liệu tan công phổ biến dùng dé đánh giá IDS: CICIDS-2017

1.4 Phạm vi nghiên cứu

- Xây dựng hệ thống phát hiện xâm nhập mạnh mẽ theo thời gian thực

- Ap dụng các mô hình hoc máy ML, DL, Transformers vào hệ thống.

- Ap dụng các kỹ thuật XAI như một hướng tiếp cận trong Feature Selection

1.5 Phương pháp nghiên cứu

- Tim doc các bài báo, nghiên cứu tài liệu hướng dan dé năm rõ các kiên thức nên

tảng liên quan đến IDS, ML, DL, XAI, Transformer

- Tìm hiểu các công trình nghiên cứu đã được thực hiện trong va ngoài nước.

- Dua ra phương pháp xây dựng và triển khai mô hình

Trang 11

- _ Thực nghiệm và đánh giá kết quả

1.6 Cấu trúc khoá luận

Khóa luận được té chức trong 6 chương như sau:

Chương 1 TONG QUAN DE TÀI

Trinh bày ly do chọn đề tài, mục tiêu, đối tượng, phạm vi và các phương pháp nghiêncứu dé tài

Chương 2 KIÊN THỨC NEN TANG VÀ NGHIÊN CỨU LIÊN QUAN

Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tảng để có thể

thực hiện được nghiên cứu Ngoài ra, cũng phân tích tình hình nghiên cứu đã có trong

và ngoải nước

Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT

Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương pháp

thực hiện và mô hình được sử dụng.

Chương 4 HiỆn thực — thực nghiệm và đánh giá

Đề cập đến quá trình thực nghiệm cùng với kết quả thu được

Chương 5 KET LUẬN VA HƯỚNG PHÁT TRIEN

Đưa ra kết luận về đề tài, thuận lợi và khó khăn khi thực hiện đề tài đề xuất một sốhướng phát triển mở rộng cho các nghiên cứu trong tương lai

Trang 12

Chương2 KIÊN THỨC NEN TANG VÀ NGHIÊN CỨU LIÊN QUAN

2.1 Hệ thống phát hiện xâm nhập IDS

2.1.1 Tổng quan

Mục đích của quá trình phát hiện xâm nhập là kiểm toán và phân tích các sự kiện bảo

mật đề có thé xác định kịp thời các hoạt động độc hại Thuật ngữ “IDS” được lần đầu

giới thiệu năm 1980, có thể được coi là phần cứng và/hoặc phần mềm tự động hóacác quy trình theo dõi, kiểm tra, phân tích và xác định các mối đe dọa tiềm an Nói

chung, một IDS sẽ tập trung vào các công việc chính như sau:

1) Theo dõi cả người dùng và hệ thống dé xác định các sự cố2) Ghi lại tat cả thông tin nhật ký về chúng

3) Phan tích, rà soát cầu hình hệ thống và các lỗ hông

4) Đánh giá tính toàn vẹn của hệ thống cũng như các tập tin

5) Nhận biết được các hoạt động bat thường va các dấu hiệu điển hình của các

cuộc tan công6) Gửi báo cáo đến quản trị viên hệ thông

Ngoài ra, IDS còn có một số chức năng khác tùy thuộc vào mục đích của người sử

dụng Ví dụ như các doanh nghiệp có thé dùng IDS dé phát hiện các van dé trongchính sách bao mật, b6 sung cập nhật các mối nguy hại hay xác định cá nhân vi phạm

chính sách

Hình 2-1 dưới đây minh họa kiến trúc cơ bản của một IDS, trong đó có 3 mô-đunchính a) một hoặc nhiều agent/sensor b) bộ phận phân tích c) bộ phận phản hồi Các

agent/sensor sẽ chịu trách nhiệm thu thập thông tin, thường là ghi lại nhật ký các sự

kiện, lưu lượng mạng có ích cho việc phân tích Sau đó các thông tin này sẽ được

chuyền đến bộ phận phân tích Đặc biệt, dựa vào vi trí đặt các agent/sensor (hay còn

gọi tùy theo nguồn đữ liệu) mà ta có thé chia IDS thành 2 loại cơ bản như sau:

Trang 13

Intrusion Detection Techniques

Signatures Anomalies Specifications

Response

LÌ l8

Computer Tablet Smartphone

Hình 2-1: Kiến trúc cơ bản của IDS

a) Hệ thống phát hiện xâm nhập dựa trên mạng (Network-based IDS)

Là một thiết bị phần cứng độc lập có đầy đủ khả năng phát hiện xâm nhập Thường

được đặt tại các điểm chiến lược trên cơ sở hạ tầng mạng như biên giữa các mạng,

máy chủ mạng riêng ảo (VPN), máy chủ truy cập từ xa và trên mạng không dây NIDS sẽ tập trung giám sát toàn bộ lưu lượng mạng di qua các mang con, sau đó phân

tích dit liệu thu thập được dé phát hiện các cuộc tan công đã biết hoặc các hoạt độngđộc hại, hoặc phân tích các hoạt động của giao thức mạng và ứng dụng dé xác định

hoạt động bat thường và đáng ngờ, từ đó cảnh báo sẽ được gửi đến người quản trị

b) Hệ thống phát hiện xâm nhập dựa trên máy chủ (Host-based IDS)

Thường được đặt trên các thiết bị hoặc máy chủ đơn lẻ quan trọng có trên mạng Cácthông tin được ghi lại là các dữ liệu liên quan đến hệ thống của riêng máy chủ đó, ví

Trang 14

dụ như tiến trình hệ điều hành, lời gọi hệ thống HIDS sẽ được giám sát các lưu lượng

đến, đi từ máy chủ đó và sẽ cảnh báo nếu có bất kỳ sự kiện nào được ghi lại được cho

là bất thường hoặc độc hại

Tiếp theo, bộ phận phân tích có chức năng phân tích dữ liệu thu thập được từ các

agent/sensor và dựa vào các kỹ thuật phát hiện xâm nhập dé xác định cuộc tấn công

Cuối cùng, bộ phận phản hồi sẽ báo cho người quản trị hệ thống thông qua các cảnhbáo và cung cấp thêm thông tin từ kết quả thu được bởi bộ phận phân tích Ngoài ra,

bộ phân phản hồi còn có thê thực hiện một số hành động nhất định đề tự động giảmthiểu sự xâm nhập, trong trường hợp này gọi là hệ thống ngăn ngừa xâm nhập IPS

Cần nói thêm liên quan các phương pháp của bộ phận phân tích dé phát hiện các mốinguy hại hay bat thường Ta cũng có thé chia IDS thành 3 loại chính dựa trên kỹ thuật

phát hiện xâm nhập như sau:

a) Hệ thống phát hiện xâm nhập dựa trên chữ ký (Signature-based IDS)

Với phương pháp tiếp cận này, các hoạt động trong hệ thống hay người dùng sẽđược so khớp với tập hợp các mẫu tân công đã được xác định từ trước, hay còngọi là chữ ký Ưu điểm của cách tiếp cận này là thời gian phát hiện nhanh, tỷ lệphát hiện cao cũng như tỷ lệ cảnh báo sai (FAR) thấp với các cuộc tấn công đãbiết Vì vậy, điểm yếu của nó là đối mặt với các cuộc tấn công mới hay biến thểngày càng nhiều và phức tạp như hiện nay Ngoài ra, chi phí dé duy trì một cơ sở

dữ liệu chữ ký không lồ cùng với khả năng đồng bộ trong hệ thống khiến cách

tiếp cận này khó trở thành giải pháp lâu dài

b) Hệ thống phát hiện xâm nhập dựa trên bat thường (Anomaly-based IDS)

Với cách tiếp cận này, dữ liệu được cho là từ các hành vi bình thường của ngườidùng sẽ được thiết lập Khi tiến hành kiểm tra xâm nhập, tập dữ liệu này sẽ được

so sánh với dit liệu thực tế của người dùng Ở đây, giá trị ngưỡng sẽ quyết địnhhành vi của người dùng có phải là bất thường hay không Hiện nay, học máy được

sử dụng để tạo ra một mô hình đáng tin cậy, theo đó bất kỳ hoạt động nào không

nằm trong mô hình sẽ được coi là đáng ngờ Vì mô hình được huấn luyện phù hợp

Trang 15

với yêu cầu ứng dụng và cau hình phan cứng nên mang tinh chat tong quát hóa tốt

hơn so với IDS dựa trên chữ ký Tuy tỷ lệ phát hiện xâm nhập kém chính xác hơn

so với cách tiếp cận theo chữ ký nhưng có khả năng phát hiện được các cuộc tan

công mới, chưa xác định từ trước,

c) Hệ thống phát hiện xâm nhập dựa trên thông số kỹ thuật (Specification-based

IDS)

Theo kỹ thuật phát hiện xâm nhập này, một tập hợp các quy tắc theo sự rang buộc

sẽ định nghĩa các hành vi bình thường của hệ thống Nếu có hành vi khác với các

thông số kỹ thuật được xác định trước sẽ được coi là bat thường và sinh ra cảnhbáo Tuy có thé phát hiện các cuộc tấn công mới với tỷ lệ đương tinh giả thấp

nhưng khó có thể triển khai thành một mô hình chính xác hoàn toàn do sự phứctạp cũng như tài nguyên tiêu tốn khá lớn

2.1.2 Hệ thống phát hiện xâm nhập dựa trên hoc máy (AI-based IDS)

Các hệ thống an ninh mạng hỗ trợ ngăn chặn tấn công theo thời gian thực chủ yếu sửdụng các phương pháp dựa trên chữ ký để phát hiện các mẫu nhất định trong lưulượng mạng Phát hiện theo thời gian thực yêu cầu các thuật toán xử lý nằm trong nộituyến dé phát hiện các cuộc tan công ở tốc độ đường truyền Mặc dù tốc độ phát hiện

có thé cải thiện khi sử dụng các hệ thông phân tán, nhưng cũng phải chịu chi phí đồng

bộ tốn kém Vì vậy, cần phải có phương pháp phát hiện nhanh chóng là điều tất yếu

dé triển khai các hệ thống phát hiện theo thời gian thực Điểm mạnh của cách tiếp cận

phát hiện dựa trên chữ ký là độ chính xác và tốc độ cao với các cuộc tân công đã biết.Tuy nhiên, hầu như phương pháp này không thé xác định được các cuộc tan côngchưa rõ như tan công Zero-day và các biến thé có thé bỏ qua cách phát hiện này thôngqua việc làm rỗi mã hay mã hóa Ngoài ra, việc tạo cơ sở dir liệu dé lưu các chữ kývới cách tiếp cận này cũng là vấn đề mang tính gánh nặng cao

Trái ngược với phát hiện dựa trên chữ ký, các tiếp cận phát hiện dựa trên sự bấtthường sẽ quan sát các đặc điểm thống kê theo từng luồng dữ liệu trong mạng và tiếnhành chân đoán phát hiện nếu có sự bất thường vượt quá phạm vi thống kê thông

Trang 16

thường Phương pháp này sẽ không dem lại gánh nặng về chi phí để duy trì cơ sở dữliệu giống như phát hiện dựa trên chữ ký, ngoài ra còn hoạt động mạnh mẽ dé phát

hiện các cuộc tân công Zero-day hay các tân công biên thê.

Trong các giải pháp phòng thủ mạng, hệ thống phát hiện xâm nhập IDS đã trở thành

một lớp phòng thủ quan trọng và ngày càng được nâng tầm quan trọng trong cơ sở hạ

tầng bảo mật Cốt lõi của hệ thống phát hiện xâm nhập đó là phát hiện các hành vixâm nhập và phân loại tấn công dựa trên nhiều ngữ cảnh khác nhau Đặc biệt, với sựgiúp sức của công nghệ trí tuệ nhân tạo(A]), bao gồm học máy (ML) và học sâu (DL),

hệ thống phát hiện xâm nhập dựa trên AI (AI-based IDSs) đã và dang dem lại sựnhanh chóng, chính xác cũng như khả năng mở rộng khi phân tích tấn công so với

các kỹ thuật bảo mật thông thường khác.

Ưu điểm của AI-based IDS so với các loại hình IDS truyền thống

Một trong những ưu điểm nồi bật của AI-based IDS là khả năng thích ứng Trong khicác IDS truyền thống dựa vào tập hợp các chữ ký hay quy tắc cố định dé phát hiệnđược các mối de dọa đã biết thì AI-based IDS có thé liên tục học hỏi, điều chỉnh banthân Theo thời gian, AI-based có thé thích nghỉ với các bất thường, các biến thé tan

công, xâm nhập mới, tạo cho chúng một sức mạnh phòng thủ mạnh mẽ và chủ động hơn

Một ưu điểm khác của AI-based IDS đó là kha năng nhận biết các mẫu tan công hayhành vi bất thường trong một lượng lớn dữ liệu mạng Điều này đồng thời cho phépchúng có khả năng mở rộng phạm vi phát hiện các mối đe dọa, ví dụ như các cuộctấn công có chủ đích (APT) hay các cuộc tân công zero-day

Cuối cùng, Al-based IDS cũng tỏ ra là một biện pháp vượt trội hon thông qua việc

phát hiện và phản hồi theo thời gian thực Các thuật toán hiện đại và tối ưu cùng với

kỹ thuật xử lý dữ liệu hiệu quả đã cho phép AI-based IDS có thé phân tích lưu lượngmạng và phát hiện các mối nguy hại theo thời gian cho phép, tạo điều kiện cho các tổchức có đủ thời gian dé lập ra các biện pháp ứng phó kịp thời và hiệu quả hơn

Trang 17

Thách thức và giới hạn của AI-based IDS

Như vậy, AI-based IDS như một giải pháp đem đến nhiều lợi ích mà những loại hình

truyền thống khó có thé mang lại Tuy nhiên những thách thức và giới hạn van được

đặt ra và cần chú ý Cùng với sự chuyền biến của dit liệu, bản thân AI-based IDScũng phải thay đối theo, cần có sự liên tục bé sung, cập nhật lại các thuật toán và các

thông số yêu cau dé tạo ra độ chính xác cao hơn Hơn nữa, việc đáp ứng khả năngtính toán và bộ nhớ cũng cần được cân nhắc kỹ lưỡng với mỗi cơ sở hạ tầng hay phầncứng riêng biệt Cuối cùng, vấn đề liên quan đến chính sách bảo mật dữ liệu rất đáng

được quan tâm Dữ liệu chạy trong AI-based IDS là vô cùng quan trọng, vì vậy các

tổ chức cần cân thận đánh giá, tính toán các rủi ro tiềm ấn khi triển khai hệ thống,

bao gồm lưu trữ, vận chuyên, xử lý Đảm bảo các quy trình triển khai phải tuân thủtheo quy định và thực hiện các biện pháp phòng thủ thích hợp nhằm giảm thiểu tối đarủi ro đến hệ thống

2.2 Học máy (ML)

Machine Learning (ML) là một nhánh của trí tuệ nhân tao (AJ) tập trung vào việc

phát triển các thuật toán và mô hình cho phép máy tinh học từ dữ liệu và cải thiệnhiệu suất theo thời gian mà không cần lập trình rõ ràng

Để cung cấp một cái nhìn tông quan về học máy, ta nên phân biệt rõ rang các khái

niệm nền tảng thường nghe, bao gồm: các thuật toán học máy, mạng nơ-ron nhân tạo

(Artificial Neural Networks ANNs), mạng no ron sâu (Deep Neural Networks

DNNs) Ở Hình 2-2 là sơ đồ venn thé hiện mối liên quan giữa các nền tảng này

10

Trang 18

Machine Learning

Decesion Tree, Super Vector Machine, Random Forest

Artificial neural network

Perceptron, Back-Propagation

Deep neural network |

Recurrent Neural

Networks (RNN), Transformer Neural

Networks

Hình 2-2 Sơ đồ venn về mối liên hệ giữa các nên tảng trong học máy

Tùy thuộc vào mục đích học tập, ML cung cấp nhiều loại thuật toán khác nhau, mỗi

loại có nhiều biến thé và đặc điểm khác nhau, bao gồm mô hình hồi quy, decision

trees, ANNs

Mang no-ron nhân tạo là một nhánh đặc biệt cua ML do cấu trúc linh hoạt của chúngcho phép điều chỉnh đề phù hợp với nhiều ngữ cảnh khác nhau trong cả ba loại ML.Lay cảm hứng từ nguyên lý xử lý thông tin trong hệ thống sinh học, ANNs bao gồm

các đơn vi xử lý két noi với nhau gọi là nơ-ron nhân tao

Thông thường, các nơ-ron được tổ chức thành các mạng với các lớp khác nhau Mộtlớp đầu vào thường nhận dữ liệu đầu vào (Bao gồm dữ liệu cần được phân loại), vàmột lớp đầu ra tạo ra kết quả cuối cùng (Dữ liệu đã được phân loại) Giữa các lớp này

là các lớp ân

Mạng nơ-ron sâu thường bao gồm nhiều hơn một lớp ẩn, kiến trúc mang phức tạp và

sâu hơn Hơn nữa, chúng thường chứa các nơ-ron nâng cao so với các ANNs đơn

giản, vì vậy cho phép chúng nhận những giá trị đầu vào thô và tự động cho ra giá trị

dau ra cân thiét với mục đích học tap.

II

Trang 19

Ngoài ra, các thuật toán ML thường được phân loại dựa trên cách chúng học hỏi từ

dữ liệu hay gọi là phương thức học Ta có thé chia thành 3 loại chính theo Bang 2-1

như sau:

Bảng 2-1 Bang phân loại Machine Learning theo phương thức học

Phương thức học Mô tả cơ bản

Học có giám sát

(Supervised Learning)

May học từ một tập huấn luyện bao gồm đầu vào và đầu

ra được gán nhãn hoặc có kết quả tương ứng Các cặpđầu vào và đầu ra trong quá trình huấn luyện sẽ giúp điềuchỉnh các tham số trong mô hình Khi huấn luyện thànhcông, ta có thể dự đoán được kết quả đầu từ các dữ liệumới hoặc không cần thông qua các thuộc tính của đầuvào Là nhóm phổ biến nhất trong các thuật toán Machine

Learning

Học không giám sát Máy học từ một tập dữ liệu chỉ chứa đầu vào mà không(Unsupervised có nhãn (không có giá trị đầu ra) nhằm mục đích khámLearning) phá cấu trúc ân bên trong dit liệu

Học tăng cường | Máy học không nhận bất kỳ dữ liệu nào mà thay vào đó

(Reinforcement được chúng ta mô tả trạng thái, chỉ định mục tiêu, cung

Learning) cấp các hành động được phép và các rang buộc từ môi

trường Dé cho máy có thé tự tương tác trải nghiệm bằngcách thử đúng sai từ đó phản hồi các hành vi nhằm tối đahóa phần thưởng cao nhất

2.2.1 Một số mô hình Machine Learning pho biến

Một vài mô hình Machine Learning cơ bản hiện nay gồm a) Decision Tree b) Random

Forest

12

Trang 20

a) Decision Tree là thuật toán theo phương thức học có giám sát vô cùng phổ biến

hiện nay, được sử dụng rộng rãi trong các bài toán phân loại Đề dễ hiểu, cơ bảnDecision Tree biéu diễn như một cây nhị phân, trong đó nút gốc là dit liệu đầuvào, các nút lá là kết quả đầu ra Các quy tắc hay kết quả tạo ra có thé hiểu bằngcách sử dụng các nhánh đi từ nút gốc đến nút kết quả đó

b) Random Forest là một trong những thuật toán phân loại mạnh mẽ nhất hiện nay

Nhằm tăng hiệu suất của DT, RF là sự kết hợp của nhiều cây được huấn luyện

trên một tập dữ liệu con ngẫu nhiên từ bộ dữ liệu sốc Mỗi cây sẽ đưa ra dự đoán

khác nhau và kết quả cuối cùng được quyết định bằng cách tổng hợp các kết quả

đó

Ngoài ra còn có một số thuật toán ML vô cùng phổ biến như Support Vector

Machines, K-Nearest Neighbors Bảng 2-2 dưới đây sẽ so sánh các thuật toán nay trên các tiêu chí khác nhau

Bảng 2-2: So sánh một số thuật toán pho biến trong ML

Tiêu Chí Decision Tree

Tập hợp của

nhiều câyquyết định

Trang 21

không gian nhiêu chiêu

7

- It bi | Có thé overfit | Dé overfit với

Dé bi ,

; , | overfitting néu không | gia tri K nhỏ,

Overfitting overfitting néu , `

hơn do ket hợp | điêu chỉnh các | underfit với

cây quá sâu ` , ;

nhiéu cay tham sô giá trị K lớn

Nhanh với dữ Cham hơn vì | Cham với dữ

Nhanh do chỉ , liệu nhỏ, chậm

Thời gian , phải huân | liệu lớn, đặc

, huân luyện : với dữ liệu lớn huân luyện luyện nhiêu | biệt với kernel :

Trang 22

liệu huân

luyện

R , | Không ôn

Nhạy cảm với |, On định nêu

-, | On định hon dinh-, dé bi anh , các thay đôi , chọn đúng

Độ ôn định nhờ kêt hợp hưởng bởi

nhỏ trong dữ ` kernel và tham +

nhiêu cây , nhiêu và dữ

liệu sô

liệu ngoại lai

„ : _ | Yéu câu tài : `

It tài nguyên | Yêu câu nhiêu Yêu câu nhiêu

: : nguyên cao

Yêu câu tài |hơn, chỉ cân | tài nguyên hơn bộ nhớ và thời

với dữ liệu lớn nguyên bộ nhớ choldo lưu trữ gian tính toán

một cây nhiêu cây

Tốt hơn trongviệc đối phó

với dữ liệu mat

mat trước trước

nhiêu cây

Tốt với kernelphi tuyến,

nhưng khó chọn đúng

kernel

Không tốt vớibiến phức tạp,

dé bị nhiễu

15

Trang 23

Transformer là một kiến trúc mạng nơ-ron tiên tiễn, được giới thiệu lần đầu trong bài

báo "Attention is All You Need" của Vaswani et al vào năm 2017 Transformer đã cách mang hóa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và cũng được được áp dung

rộng rãi trong nhiều lĩnh vực khác hiện nay

Add & Norm

N Add & Norm

x Add & Norm Masked

Multi- Head Multi-Head Attention Attention

Trang 24

Điều đầu tiên cần chú ý là kiến trúc Transformer không có khả năng tự nhiên dé nắmbắt thông tin về vị trí tương đối của các từ trong chuỗi, bởi vì nó không sử dụng cơ

chế tuần tự (recurrence) như các mô hình recurrent neural networks (RNN) hoặc long

short-term memory (LSTM) Có nghĩa là Transformer không thể tự động biết được

thứ tự của các từ trong chuỗi mà nó đang xử lý.

Đề khắc phục vấn đề này, thông tin về vị trí (positional information) phải được thêm

vào các biéu diễn đầu vào (input embeddings) thông qua các mã hóa vị trí (positionalencodings) Các vector mã hóa vi trí này có cùng kích thước với các biểu diễn đầu

vào và được tạo ra băng cách sử dụng các hàm sin và cosin với các tân sô khác nhau

Sau đó, các vector mã hóa vi trí này được cộng vào các biêu diễn dau vào dé truyén tải thông tin vệ vi trí của các từ trong chuỗi Cu thê, moi vector mã hóa vi trí sẽ thêm một thành phân vào mỗi từ trong chuỗi, giúp mô hình Transformer hiệu được vi trí

tương đôi của các từ trong chuỗi đâu vào.

Ngoài ra, lớp Normalization được sử dụng đê giữ cho các giá trị của nơ-ron trong một

phạm vi hợp lý, giúp ôn định quá trình huấn luyện

Hình 2-3 cho ta thay kiến trúc tong quan của Transformer, bao gồm hai phần chính

a) Bộ mã hóa (Encoder)

Bộ mã hóa bao gồm một chuỗi các lớp lặp lại giống nhau Mỗi lớp bao gồm hai thànhphan chính:

e Multi-Head Attention Layer: Cho phép mô hình tập trung vào các phần khác

nhau của chuỗi đầu vào

e Feed-Forward Layer: Một mạng nơ-ron truyền thăng áp dụng một cách độc

lập lên từng vị trí trong chuỗi.

b) Bộ giải mã (Decoder)

17

Trang 25

Bộ giải mã cũng bao gồm một chuỗi các lớp lặp lại giống nhau, và có thêm một lớpAttention để tập trung vào đầu ra từ bộ mã hóa Các thành phần chính trong mỗi lớp

gôm:

Masked Multi-Head Attention: Dam bao rang tại mỗi bước, mô hình chỉ cóthé xem các dữ liệu trước đó trong chuỗi dau ra

Encoder-Decoder Attention: Cho phép bộ giải mã tập trung vào các phần quan

trong của biéu diễn từ bộ mã hóa

Feed-Forward Layer: Tương tự như trong bộ mã hóa.

Điêu đặc biệt côt lõi của Transformer là có cơ chê Attention vô cùng độc đáo, cho

phép mô hình tập trung vào các phần quan trọng trong dữ liệu đầu vào Có ba loại

Attention chính trong Transformer:

Self-Attention: Giúp mô hình xem xét các mối quan hệ giữa các dữ liệu trongcùng một chuỗi Self-Attention được tính toán bằng cách sử dụng ba ma trận:

Query (Q), Key (K), và Value (V).

Head Attention: Thay vi tính toán một bộ Attention duy nhất, Head Attention tính toán nhiều bộ Attention Song song và kết hợp chúng lại.Điều này giúp mô hình nắm bắt nhiều loại thông tin khác nhau từ dữ liệu

Multi-Cross-Attention: Được sử dụng trong bộ giải mã dé tập trung vào các phan

quan trọng của biéu diễn từ bộ mã hóa.

Như vậy, ta thấy Transformer đã trở thành một mô hình mang đến nhiều ưu điểmcũng như mang lại nhiều ứng dụng trong nhiều lĩnh vực khác nhau Transformer có

thê xem xét toàn bộ chuỗi đâu vào cùng lúc, không như các mô hình tuân tự

(sequential models) như RNN (Recurrent Neural Networks) hoặc LSTM (Long

Short-Term Memory) Cũng do đó, Transformer có thé được huấn luyện và suy diễn

nhanh hơn Ngoài ra, Transformer còn có thê học môi quan hệ dài hạn trong dt liệu,

điều này rất quan trọng cho các tác vụ như huấn luyện dữ liệu nhật ký hệ thống liên

tuc,

18

Trang 26

2.4 eXplainable Artificial Intelligence (XAT) như một Feature Selection

2.4.1 XAI

Explainable Artificial Intelligence (XAI) là lĩnh vực nghiên cứu va phát triển cácphương pháp giúp giải thích và diễn giải các quyết định của các mô hình học máy(ML) phức tạp và khó hiểu Các phương pháp XAI nhằm cung cấp sự minh bạchtrong quá trình ra quyết định của các mô hình, giúp người dùng hiểu rõ hơn về cách

mà các mô hình này hoạt động và tại sao chúng lại đưa ra những quyết định cụ thể

19

Trang 27

Từ cách tiếp cận thứ hai Post-hoc Explanations, ta có thể phân loại thêm thành các

phương pháp i) Model-Agnostic và ii) Model-Specific Phương pháp Model-Agnostic

được hiéu là có thé áp dụng cho bat kỳ mô hình nào Ngược lại, phương pháp Specific chỉ có thé áp dung cho một số mô hình cụ thé

Model-Ngoài ra còn có một số khái niệm cần chú ý liên quan đến XAI đó là global

explainations và local explainations Global explainations sẽ giải thích tổng thể một

mô hình từ đó hiểu cách mô hình đánh giá các đặc trưng, dir liệu đầu vào Localexplainations sẽ giải thích chi tiết trên từng quyết định cụ thé, giúp hiểu rõ ảnh hưởngcủa các đặc trưng đến một kết quả dự đoán cụ thể nào đó

2.4.2 Một số phương pháp XAI pho biến

Ở Hình 2-4, Permutation Importance(P]) và Shapley Additive exPlainatinons (SHAP)

là các phương pháp global explaination pho biến hiện nay

Permutation feature importance là một kỹ thuật đánh giá hiệu quả tầm quan trọng củacác đặc trưng trong một mô hình học máy Về cơ bản, giá trị của các đặc trưng sẽđược xáo trộn ở tập kiểm tra (testing), sau đó cho đánh giá lại mô hình trên tập dữliệu đã xáo Độ chính xác sẽ được tính toán lại và so với giá tri của mô hình ban đầu

Đây chính là permutation importance của đặc trưng đó.

Những đặc trưng có permutation importance càng cao thì càng quan trọng đối với môhình Nghĩa là khi xáo trộn giá trị của các đặc trưng đó thì hiệu suất của mô hình bịgiảm đáng kể

Một số đặc điểm ma PI có được như ta không cần giả định về các mối quan hệ tuyếntính giữa các đặc trưng, áp dụng với nhiều mô hình học máy khác nhau vì là mộtmodel-agnostic cũng như cung cấp cách tiếp cận dé hiểu về tầm quan trọng của các

đặc trưng.

Một phương pháp XAI khác là SHAP (Shapley Additive Explanations), một phương

pháp giải thích dự đoán của một mô hình machine learning bằng cách tính toán đóng

góp của từng đặc trưng (feature) vào dự đoán đó SHAP được xây dựng dựa trên

20

Trang 28

“SHAP values” từ lý thuyết trò chơi coalitional Điều này giúp tránh được các vấn đềnhư thiên vi (bias) hoặc phụ thuộc thứ tự khi đánh gia tầm quan trọng của các đặc

trưng.

Một biến thé khác của SHAP là KernalSHAP, là một phương pháp cụ thé đề tính toán

“SHAP values” trong SHAP KernalSHAP sẽ tạo ra tập hợp các colition khác nhau,

với các đặc trưng được “bật” hoặc “tat” một cách ngẫu nhiên Sau đo xử dụng môhình machine learning ban đầu đề tính toán kết quả dự đoán cho mỗi colition này Từ

đó sử dụng một hàm kernel dé ước tính “SHAP values” của từng đặc trưng, dựa trênkết quả dự đoán của colition

Ưu điểm của KernelSHAP là có thé ước tính “SHAP values” cho bat kỳ mô hình họcmáy nào, tuy nhiên việc tính toán cũng tương đối tốn kém và mắt rất nhiều thời gian.Ngoài KernelSHAP, SHAP còn có các biến thể khác như TreeSHAP (dành cho các

mô hình cây quyết định) và DeepSHAP (dành cho mạng neutral)

2.4.3 Feature Selection

Với sự tăng trưởng của dữ liệu, việc sử dụng các kỹ thuật giảm chiều, trong đó có

Feature Selection (FS) đã trở nên phổ biến và được áp dụng rộng rãi ở nhiều lĩnh vực

Mục dich của các phương pháp này là biến đồi dữ liệu gốc vô cùng phức tạp, nhiều

chiều thành tập dữ liệu mới có số chiều thấp hơn nhưng ý nghĩa ban đầu vẫn đượcduy trì tối đa hết mức có thê Lợi ích đem lại từ việc giảm chiều kích thước là vô cùngđáng kể i) Giảm bộ nhớ lưu trữ đữ liệu ii) Thời gian tính toán nhanh hơn iii) Những

dữ liệu dư thừa hay không cần thiết sẽ bị loại bỏ, chất lượng dir liệu cải thiện iv) Một

số thuật toán hoạt động chính xác hơn so với khi chạy trên lượng dt liệu lớn v) Trựcquan hóa dữ liệu dé dang hơn vi) Cải thiện độ chính xác hiệu quả phân loại của mô

hình.

FS ban đầu được chia thành các loại co bản gồm Filter, Wrapper, Embedded

e Filter: kiểm tra do lường các đặc trưng dựa trên các đặc điểm nội tại theo tiêu

chí khác nhau trước khi thực hiện tác vụ học máy Kỹ thuật có nhiều ưu điểm

như đem lại hiệu suat tot, hiệu quả cao, dé dàng mở rộng theo nhiêu chiêu.

21

Trang 29

Tuy nhiên, kỹ thuật này bỏ qua sự tương tác giữa các bộ phân loại cũng như

bỏ qua sự phụ thuộc giữa các đặc trưng với nhau

e Wrapper: ngược lại với phương pháp dau, sau khi mô hình được đánh giá, kỹ

thuật này sẽ được sử dụng đánh giá dựa trên độ chính xác hoặc độ lỗi của mô

hình phân loại dé làm tiêu chí lựa chọn đặc trưng Vì dựa trên mô hình đã quahuấn luyện dé đánh giá nên các đặc trưng tối ưu nhất sẽ được lựa chọn, do đóhiệu suất và độ chính xác sẽ cao hơn so với kỹ thuật Filter Tuy nhiên kỹ thuậtnày cũng có nhược điểm chính là độ phức tạp trong việc tính toán, từ đó khảnăng mở rộng chiều dit liệu bị hạn chế

e Embedded: là một cơ chế tích hợp vào các mô hình học máy, từ đó chọn lọc

ra các đặc trưng từ các thuộc tính của mô hình trong quá trình huấn luyện.Phương pháp này đem lại hiệu qua cao va dé dàng điều khiến hơn kỹ thuậtWrapper song vẫn mang lại hiệu suất tương tự, ngoài ra chi phí tính toán sẽthấp hơn

2.4.4 Phương pháp XAI như một hướng tiếp cận Feature Selection

Ta có thể thấy PI hay SHAP đều có thể ước tính được độ quan trọng của từng đặctrưng từ kết quả du đoán của mô hình Việc áp dụng các phương pháp XAI như mộthướng làm FS sẽ giúp ta hiểu rõ cũng như hỗ trợ việc lựa chọn được các đặc trưngcần thiết cho quá trình phân loại

2.5 Tình hình nghiên cứu liên quan

2.5.1 Tình hình nghiên cứu trong và ngoài nước

Đã có rất nhiều công trình nghiên cứu áp dụng AI và Feature Selection Approaches(FSA) dé làm thuyên giảm van đề số chiều của dữ liệu cũng như tăng độ chính xácphát hiện của IDS trong vài thập kỷ gần đây Tuy nhiên với lưu lượng người dùngtruy cập mạng gia tăng với tốc độ nhanh chóng đã kéo theo không chỉ về số lượng

mà còn đa dạng về hình thức tấn công Các nhà khoa học trong và ngoài nước đã vàđang không ngừng cho ra các dự án nghiên cứu nhằm giải quyết tình trạng khó khăntrong nhiều lĩnh vực khác nhau hiện nay

22

Trang 30

W Seo và W Pak [1] đề xuất phương pháp phát hiện xâm nhập dựa trên học máy vớihai cấp độ hỗ trợ xử lý thời gian thực với độ chính xác phát hiện cao Trong đó môhình đã khai thác bộ phân loại cho gói tin và luồng gói tin để hoàn thiện về mặt hiệusuất cũng như độ chính xác Tuy nhiên không có bất kỳ kỹ thuật giảm chiều nào được

sử dụng K Dhanya cùng các cộng sự [2] đã đề xuất hệ thống phát hiện tấn công dựađược đánh giá bởi các mô hình phân loại machine learning kết hợp deep learning trên

bộ dữ liệu UNSW-NB15 Các mô hình phân loại theo binary nhăm xác định các cuộc

tấn công được sử dụng gồm Support Vector Machine(SVM), Adaboost, XGBoost,

RandomForest, K-Nearest Neighbour (KNN), Decision Tree (DT), Multi-Layer

Perceptron(MLP), va Deep Multi-Layer Perceptron (DeepMLP) Các mô hình mang no-ron sâu MLP và DeepMLP đóng vai trò quan trọng trong dự đoán các nhãn Du

đạt được kết qua cao với DT cho ra 99,05% cùng với mô hình deep learning đạt

accuracy 98,44%, tuy nhiên FS cũng không được áp dụng trong dự án này.

A.S Ahanger cùng các cộng [3] sự đã triển khai hệ thống phát hiện xâm nhập dựa trênhọc máy với nhiều bộ phân loại khác nhau Bốn mô hình học máy được sử dụng bao gồm RF, DT, MLP và SVM, kết quả thực nghiệm đánh giá được thực hiện trên 3 tập

con của bộ dữ liệu phát hiện xâm nhập NSL-KDD Feature selection được áp dụng

tuy nhiên chỉ đơn giản là chọn ngẫu nhiên các đặc trưng theo số lượng nhất định(23,15,12) Két quả đạt được cao nhất với RF với accuracy 99%, thấp nhất với DTvới 96,6% Gulab Sah và các cộng sự [4] đã thực hiện kiểm tra các bộ phân loại khác

nhau như Decision Tree(DT), Naive Bayes(NB), K-nearest neighbours(KNN) với các

kỹ thuật FSA khác nhau như Principal component analysis(PCA), Recursive feature

elimination(RFE) dé xây dựng mô hình IDS hiệu qua Dựa trên phân tích, nhómnghiên cứu đã chứng minh rang việc giảm kích thước dữ liệu trong IDS không chỉlàm giảm chi phí xử lý mà còn nâng cao hiệu suất của mô hình

Z A E Houda và các cộng sự [5] đã thiết kế một Framework XAI cho phát hiện xâmnhập theo thời gian thực trong mạng IoT Mô hình sử dụng mạng neural sâu đề pháthiện xâm nhập và sử dụng các phương pháp XAI như LIME, SHAPE và RuleFit dé cung cấp tính minh bạch và giải thích Framework nhằm hỗ trợ người dùng và chuyên

23

Trang 31

gia an ninh mạng hiểu và tin tưởng vào kết quả, và đã được kiểm tra trên các bộ dữliệu NSL-KDD và UNSWNBI5 Kết quả thử nghiệm cho thấy hiệu suất cao khi pháthiện tan công IoT và thông tin giải thích về quyết định của mô hình một cách rõ ràng.

S Hariharan và các cộng sự [6] so sánh các framework giải thích khác nhau tập trung

vào các phương pháp XAI không phụ thuộc vào mô hình, bao gồm cả phạm vi toàncục và cục bộ đề diễn giải các dự đoán cho các mô hình RF, XGBoost và LGBoost,

nghiên cứu sử dụng bộ dữ liệu phân loại Kaggle IDS và bộ dữ liệu phân loại

NSL-KDD IDS thu được 15 đặc trưng hàng đầu từ PI và SHAP Ngoài ra, nhóm nghiên

cứu cũng trình bày trường hợp tan công biến thé DoS dé giúp phân tích tác động củacác đặc trưng đến hiệu suất của mô hình D Gaspar và các cộng sự [7] sử dụng haiphương pháp XAI là LIME và SHAP để giải thích kết quả của một mô hình black-box Multi-Layer Perceptron (MLP) trong giải pháp phát hiện xâm nhập cho các thiết

bị IoT Nhờ các giải thích này, nhóm nghiên cứu đã xác định được các lời gọi hệ

thống quan trọng nhất cho việc phân loại từng trường hợp Bằng cách thực hiện cácbiến đổi đầu vào và quan sát kết quả, họ đã tìm ra những lời gọi hệ thống có ảnhhưởng tiêu cực đáng ké đến kết quả Điều này cung cấp thông tin cho chuyên gia anninh mạng về hành vi của mô hình và các đặc điểm cụ thể trong đầu vào có thể dẫn

đên dự đoán sai.

Z Wu cùng các cộng sự [8] đã đề xuất một hệ thong phát hiện xâm nhập dựa trênTransformer (RTIDS) dé phát hiện các hoạt động bat thường và vi phạm trong mạng.RTIDS cung cấp giải pháp phát hiện xâm nhập tat cả trong một bao gồm ba mô-đun:mô-đun chuẩn bị đữ liệu, mô-đun xây dựng mô hình RTIDS và mô-đun phát hiện

xâm nhập theo thời gian thực Bộ khung còn sử dụng mô hình Transformer cho việc

trích xuất và lựa chọn đặc trưng Phương pháp đề xuất được thử nghiệm trên bộ dữliệu CICIDS2017 mang lại kết quả cao với accuracy đạt 98,45% và vượt trội so vớicác thuật toán phát hiện xâm nhập truyền thống

24

Trang 32

2.5.2 Tính khoa học và tính mới của đề tài

Từ các phan đã trình bày ở trên, với việc xử lý khối dữ liệu khổng 16 trong mạng vàbảo vệ hệ thống khỏi các cuộc tan công tinh vi phức tạp cũng như các tác nhân độc

hại là việc vô cùng cần thiết Trong đề tài này, tác giả xây dựng một hệ thống phát

hiện và ngăn ngừa xâm nhập mạnh mẽ, hiệu suất cao về tốc độ, độ chính xác Việc

áp dung công nghệ AI đã góp công sức to lớn vào van dé này Dé làm được điều này,các phương pháp của XAI như PI hay SHAP sẽ được sử dụng để chọn lọc ra các đặctrưng cần thiết trong việc xác định tấn công Bên cạnh đó, tác giả cũng đề xuất một

mô hình học máy kết hợp hai lớp ML và DL đáp ứng về tốc độ và chính xác Phương

pháp đề xuất này sẽ hứa hẹn đem lại một hệ thống phát hiện xâm nhập đạt hiệu quả

cao.

25

Trang 33

Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT

Trong khóa luận này, tác giả xin đề xuất một mô hình phân loại hai lớp dựa trên họcmáy cho hệ thống phát hiện xâm nhập

Việc thiết kế một hệ thống phát hiện xâm nhập (IDS) với hai lớp phân loại nhằm mụctiêu tối ưu hóa cả tốc độ xử lý và độ chính xác của hệ thống Lớp đầu tiên sử dụngcác thuật toán học máy (ML) nhẹ và nhanh, giúp hệ thống xử lý lưu lượng mạng vớitốc độ cao Nhiệm vụ chính của lớp này là thực hiện phân loại sơ bộ, xác định các góitin có dấu hiệu bất thường và giảm thiêu khối lượng dữ liệu cần phân tích chỉ tiết, từ

đó tiết kiệm thời gian và tài nguyên

Lớp thứ hai sử dụng các thuật toán học sâu (DL), vốn có khả năng xử lý thông tinphức tạp và tìm ra các mẫu tan công tinh vi mà lớp đầu tiên có thé bỏ sót Học sâucho phép mô hình học hỏi và nhận diện các đặc điểm tinh vi hơn, phát hiện được cảnhững tấn công phức tạp và ít gặp Bằng cách sử dụng hai lớp này, hệ thống khôngchỉ đảm bảo hiệu suất cao mà còn nâng cao độ chính xác trong việc phát hiện cáccuộc tan công, giảm thiêu nguy cơ bỏ sót những xâm nhập nguy hiểm và tăng cườnghiệu quả bảo mật cho hệ thống mạng

Việc nên có một mô hình kết hợp hai lớp phân loại này được giải thích như sau:

Học máy (ML) và học sâu (DL) có những ưu điểm riêng biệt Sử dụng một bộ phânloại hai lớp giúp khai thác được sức mạnh của cả hai phương pháp Lớp đầu tiên cóthé nhanh chóng loại bỏ các trường hợp dễ nhận biết, trong khi lớp thứ hai có thé xử

lý các trường hợp khó khăn hơn với độ chính xác cao hơn Các dự đoán không chắcchăn của mô hình học máy có thê huấn luyện lại trên mô hình hoc sâu, giúp giảm tỷ

lệ lỗi và tăng độ tin cậy cho mô hình

Học sâu thường yêu cầu nhiều tài nguyên tính toán và thời gian huấn luyện hơn sovới các mô hình ML truyền thống Sử dụng lớp đầu tiên với các mô hình ML nhanhchóng giúp phân loại phần lớn dữ liệu, chỉ để lại một phần nhỏ hơn, phức tạp hơn

26

Trang 34

cân đên sức mạnh của lớp học sâu Điêu này sẽ giúp giảm tải tính toán và tôi ưu hóa

sử dụng tài nguyên.

Tác giả sẽ sử dụng cả hai cách phân loại chính của học máy hiện nay đó là Binary

Classification và Multi Classification để đa dạng hóa khả năng phát hiện xâm nhập,đồng thời cung cấp thông tin chỉ tiết hơn để xác định loại tấn công cụ thể Điều này

rất quan trọng đề đưa ra phan ứng nhanh chóng và phù hợp, từ việc ngăn chặn cuộc

tân công đên việc triên khai các biện pháp bảo mật cụ thê hơn.

Tổng quan các giai đoạn đề xuất được mô tả ở Hình 3-1 Đầu tiên (1) tập dữ liệu sẽđược thu thập, tổng hợp và được tiền xử lý (2) Toàn bộ dữ liệu sau khi được tiền xử

lý sẽ được đưa vào mô hình ML nhằm mục đích tiền đề cho việc đánh giá các đặctrưng bang XAI (3) các phương pháp XAI sẽ được sử dụng dé đánh giá các đặc trưng.Sau quá trình (4), phân tích va chon lọc được các đặc trưng quan trọng, (5) lần này

các tập dữ liệu mới hình thành chỉ chứa các đặc trưng được chọn sẽ được chia thành

hai bộ huấn luyện và kiểm tra dé nhất quán cho đầu vào của bộ phân loại chính Cuốicùng (6), huấn luyện và kiểm tra bộ phân loại 2 lớp đã triển khai và (7) đưa ra kết quả

dự đoán

Ấ — MACHINE ») (

COMBINING AND TERRE FEATURE | ANALYSIS AND

= ¬ SELECTION SELECTION PREPROCESSING DATA MODEL FOR USING XAI FEATURE

(1) EVALUTING XAI

(2) (4)

SPLIT NEW DATASET

(3)

TWO-LAYER CLASSIFIER

(6)

PREDICT RESULT

c Ớ

Hình 3-1 Tổng quan các giai đoạn theo phương pháp dé xuất

27

Trang 35

3.1 Sử dụng XAI để lựa chọn đặc trưng

Việc lựa chọn đặc trưng trong học máy là một bước quan trọng nhằm tối ưu hóa hiệusuất của mô hình và giảm thiêu chi phí tính toán Trong quá trình học, không phải tat

cả các đặc trưng trong dit liệu đều có liên quan hoặc có đóng góp đến việc ra quyếtđịnh của mô hình Một số đặc trưng có thể không có ảnh hưởng hoặc gây nhiễu, làm

giảm hiệu suất của mô hình Bằng cách chọn lọc các đặc trưng quan trọng, mô hình

có thể hoạt động hiệu quả hơn với số lượng dữ liệu đầu vào vào ít hơn, từ đó khôngchỉ giảm độ phức tạp mà còn tăng khả năng tông quát hóa với dữ liệu mới được hìnhthành và huấn luyện

Hiện nay XAI đang là một trong những phương pháp tiếp cận làm Feature Selectionđược đánh giá cao về độ hiệu quả mà nó đem lại XAI cung cap khả năng hiểu sâu vềcách mô hình ra quyết định và mức độ quan trọng của từng đặc trưng, từ đó giúp xácđịnh các đặc trưng thực sự ảnh hưởng đến kết quả dự đoán Với XAI, ta có thể đánh

giá mức độ đóng góp của mỗi đặc trưng một cách rõ ràng và cụ thê

3.1.1 Ranking các đặc trưng sau khi thu được kết quả từ các phương pháp

XAI

Như đã biết, các mô hình phân loại dựa trên học máy có khả năng tính toán mạnh mẽ

và linh hoạt được áp dụng rộng rãi trong các bài toán khác nhau Khả năng xử lý dữ

liệu lớn và mang lại hiệu suất, hiệu quả cao là ưu điểm dé tác giả chọn các mô hìnhhọc máy làm phục vụ tiền đề cho phương pháp sử dụng XAI làm Feature Selection

Kết quả thu được tùy theo từ các phương pháp XAI là các giá trị thể hiện tầm quan

trọng của các đặc trưng Từ kết quả này, ta sẽ ranking theo tầm quan trọng của các

đặc trưng đó Hình 3-2 dưới đây sẽ mô tả tong quan giai đoạn này

28

Ngày đăng: 08/12/2024, 15:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w