1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp: Phương pháp phát hiện mẫu đối kháng và tăng tường tính bền vững cho các hệ thống phát hiện xâm nhập dựa trên học máy đối kháng và XAI

78 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Phát Hiện Mẫu Đối Kháng Và Tăng Cường Tính Bền Vững Cho Các Hệ Thống Phát Hiện Xâm Nhập Dựa Trên Học Máy Đối Kháng Và XAI
Tác giả Nguyen Duc Trung, Nguyen Viet Hoang
Người hướng dẫn ThS. Phan Thế Duy
Trường học Truong Dai Hoc Cong Nghe Thong Tin - Dai Hoc Quoc Gia Thanh Pho Ho Chi Minh
Chuyên ngành Khoa Mang May Tinh
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP.Hồ Chí Minh
Định dạng
Số trang 78
Dung lượng 86,2 MB

Nội dung

Đối với bộ khung tiếp cận tấn công, chúng tôi sử dụng SHapley Additive exPlanations SHAP để tính toán các giá trị SHAP cho các mẫu dữ liệu và đưa vào các hàm tính toán cần thiết để tạo r

Trang 1

NGUYEN DUC TRUNG - 20520956 NGUYEN VIET HOANG - 20520189

KHOA LUAN TOT NGHIEP

PHUONG PHAP PHAT HIEN MAU DOI KHANG VA TANG

CUONG TINH BEN VUNG CUA CAC HE THONG PHAT HIEN

XÂM NHAP DUA TREN HOC MAY DOI KHÁNG VA XAI

A MECHANISM OF ADVERSARIAL SAMPLE DETECTION AND ROBUSTNESS ENHANCEMENT FOR LEARNING-BASED INTRUSION

DETECTION SYSTEM USING ADVERSARIAL MACHINE LEARNING

AND XAI

GIANG VIEN HUONG DAN:

ThS Phan Thế Duy

TP.Hồ Chí Minh - 2024

Trang 2

động viên của các giáo viên hướng dẫn và giáo viên bộ môn Chúng em xin bày

tỏ lời cảm ơn tới ThS Phan Thế Duy đã tận tình trực tiếp hướng dẫn, giúp đỡ tìmhiểu và thực hiện đề tài

Bên cạnh đó, với tình cảm chân thành, chúng em cũng xin cảm ơn các thầy cô,

anh chị đang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab đã luôn

tạo điều kiện về cơ sở vật chất với hệ thống trang thiết bị hiện đại Đặc biệt, chúng

em cũng xin gửi lời cảm ơn đến anh Ngô Đức Hoàng Sơn vì đã luôn nhiệt tình

hỗ trợ chúng em về chuyên môn và kinh nghiệm trong hoạt động nghiên cứu vàthực hiện dé tài Nhóm cũng xin gửi lời cảm ơn đến gia đình và ban bè, đã độngviên, đóng góp ý kiến trong quá trình thực hiện khóa luận tốt nghiệp

Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận của chúng

em chắc chắn không tránh khỏi những thiếu sót Rất mong nhận được đánh giá,nhận xét đóng góp và phê bình từ quý thầy cô trong hội đồng để khóa luận được

hoàn thiện hơn.

Nguyễn Việt Hoàng Nguyễn Đức Trung

ii

Trang 3

Mục lục

THONG TIN HỘI DONG CHAM KHÓA LUẬN TỐT NGHIỆP| ¡

LỜI CÀMƠN| ii

TOM TAT KHOA LUAN 1

1 TONG QUAN DETAI 2

Trang 4

2.9.3 Đột biên mẫu doi kháng bằng XAI

3 _ PHƯƠNG PHAP THUC HIEN 32

3.1 Kiến trúc tổng quát| ee ee 32

3.11 Kiến trúc mô hình đềxuất| - 32

3.2 Phuong pháp xây dựng| 33

AI] 33

Tan công đối kháng| - 33

Áp dụng SHAP để giải thích quyết định của mô hình học

Trang 5

4.5.2 Đánh giá mô hình hệ thống phát hiện xâm nhập dựa trên

5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62

5.1 Kếtluận| eee 62

Trang 6

Danh sách hình ve

2.1 M6 phỏng thuật toán RHỆ 11

2.2 Mối quan hệ giữa AI, học máy và học sâu 13 2.3 Cấu trúc mạng than kinh và các lớp| - 14

2.4 Kết quả mô hình đưa ra kết quả phân loại sai sau khi thêm nhiễu nn 19 2.5 Minh họa kết quả xếp hang đặc trưng của SHAP} 23

2.6 Minh họa mức độ quan trọng của các thuộc tính khác nhau đóng góp vào dự đoán của mô hình| 24

3.1 Hình ảnh mô tả kiến trúc tổng quát của khung ADV-Shield 33 3.2 Mẫu dữ liệu độc hại trước khi thay đổi bang AMM 35 3.3 Mẫu dữ liệu độc hại sau khi thay đổi bang AMM 36 3.4 Quy trình tân công đối kháng ADV-Sword| 41

3.5 Quá trình phát hiện mẫu đối kháng 42 3.6 Kiến trúcMLP| - 43

Ha eee 44 3.8 Luông hoạt động của quá trình trích xuất| 44

4.1 Mô hình thay thé XGBoost tân công mô hình IDSÌ 53

4.2 Mô hình thay thé MLP tân công mô hình IDSÌ 54

4.3 Mô hình thay thé DecisionTree tan công mô hình IDS} 55

VI

Trang 7

Danh sách bảng

2.1 Tóm tắtnhững phương pháp trong các nghiên cứu về cơ chế phòng

4.1 Tỉ lệ của các mẫu bình thường và mẫu tân công trong tập dữ liệu

phương pháp khác| 56

4.7 Kết quả đánh giá các mô hình học sâu| - 57

Trang 8

Danh mục từ viết tắt

TPR _ True Positive Rate

FPR False Positive Rate

ML Machine Learning

DL Deep Learning

IDS Intrustion Detection System

AI Artificial Inteligent XAI eXplainable Artificial Inteligent LIME Local Interpretable Model-Agnostic Explanations SHAP Shapley Additive Explanations

Vili

Trang 9

Danh mục tư tạm dịch

Độ chính xác Accuracy

Độ chuẩn xác Precision

Độ phủ Recall

Trung bình điều hòa của độ chính xác và độ phủ F1-score

Ham mat mát Loss function

Hoc có giám sat Supervised learning

Hoc không giám sát Unsupervised learning

Hoc sau Deep learning

Lớp đầu vào Input layer

Lớp đầu ra Output layer

Lớp ẩn Hidden layer

Mạng nơ-ron Neural network

Môi trường Environment

Phần thưởng Reward

Độ dốc Gradient

Hệ thống phát hiện xâm nhập IDS

Mô hình (trí tuệ nhân tạo) khả diễn giải XAI

Mạng nơ-ron tích chập Convolutional Neural Network

Perceptron đa tầng Multi-Layer Perceptron

1X

Trang 10

TÓM TẮT KHOÁ LUẬN

Khi thế giới không ngừng thay đổi và ngày càng tiên tiến, việc bùng nổ của nhữngthiết bị, hệ thống là điều tất yếu và dần trở nên phổ biến cho các cá nhân, tổ chứchay doanh nghiệp Di cùng với sự tiện lợi là nguy cơ trở thành miếng môi ngoncho những kẻ tấn công

Vì thé sự ra đời của hệ thống phát hiện xâm nhập (IDS) là dau mốc quan trọng

trong việc đảm bảo an ninh hệ thống, an ninh mạng Có rất nhiều phương pháp

để triển khai IDS, một trong những phương pháp phổ biến hiện nay đó là sửdụng học máy Bang cách áp dụng học máy, IDSs có thể xử lý các dữ liệu lớn vacho hiệu năng tốt hơn Tuy nhiên, các nghiên cứu gần đây cho thấy các mô hìnhhọc máy phân loại (classification) dé bị tan công đối kháng Do đó, trong khóaluận này, chúng tôi dé xuất một phương pháp phòng chống tan công đối khángtrong học máy dựa trên hệ thống phát hiện xâm nhập tích hợp trí tuệ nhân tạokhả diễn giải (XAI) Phương pháp đề xuất của chúng tôi chia làm ba giai đoạn: tạomẫu đối kháng, tạo danh sách trắng (whitelist) và phát hiện tan công đối kháng

Để tạo mẫu đối kháng, chúng tôi sử dụng các kĩ thuật tạo mẫu đối kháng để đánhgiá độ bền của các mô hình học sâu Sau đó, huấn luyện mô hình phát hiện xâm

nhập và trích xuất những thuộc tính được xác định là bình thường để tạo danh

sách trắng bằng cách sử dụng SHAP (SHapley Additive exPlanations) Bằng cáchdựa vào danh sách trắng này, những tấn công đối kháng qua mặt hệ thống pháthiện xâm nhập sẽ bị phát hiện nếu những thuộc tính của chúng không nằm trongwhitelist và sẽ bị phân loại thành tấn công đối kháng Cuối cùng, nhóm chúngtôi sẽ đánh giá hiệu suất của phương pháp đề xuất với các kịch bản cụ thể và đểxuất hướng đi mới trong tương lai nhằm phát triển phương pháp tốt hơn

Trang 11

Chương 1

TONG QUAN DE TÀI

Tom tat chuong

Trong chương nay, nhóm xin trình bày tóm tắt về bài toán chống mẫu đối kháng

và tăng cường tính bền vững cho hệ thống phát hiện xâm nhập Đồng thời đưa

ra mục tiêu, phạm vi nghiên cứu, cũng như câu trúc của khóa luận

11 Lý do chọn đề tài

Trong bối cảnh các thiết bị kết nối Internet gia tăng một cách nhanh chóng, các

nhà nghiên cứu cũng như các tổ chức đã và đang tìm hiểu, triển khai những biện

pháp bảo vệ nhằm phát hiện các lỗ hổng bảo mật trong các hệ thống, thiết bị Hệthống phát hiện xâm nhập (Intrusion Detection System - IDS) là một biện pháp

hiệu quả trong việc tìm kiếm, phát hiện luồng dir liệu độc hại, không được cấp

quyền nhằm cung cấp một môi trường an toàn

Có rất nhiều phương pháp để triển khai hệ thống phát hiện xâm nhập, đặc biệttrong những năm gần đây thì hệ thống này còn được triển khai bằng các mô hình

học máy nhằm tăng hiệu suất phát hiện của nó [28] Tuy nhiên, những nghiên

cứu gan đây cho thay các mô hình hoc máy phân loại lại dé bị ảnh hưởng bởi tancông đối kháng Những cuộc tấn công đồi kháng hoạt động bang cách thực hiệnnhững thay đổi không đáng kể trong di liệu gốc làm cho các mô hình phân loại

nhằm va gây giảm hiệu năng [41}/40}/4] Những cuộc tan công đối kháng đã được

thử nghiệm trên mô hình hệ thống phát hiện xâm nhập dựa trên học máy và thực

Trang 12

Chương 1 TỔNG QUAN ĐỀ TÀI

sự đã bộc lộ những hạn chế trong việc phát hiện các cuộc tấn công mà liên tục

thay đổi nhằm thoát khỏi hệ thống phòng thủ (37) |12} {5} 29).

Để giảm thiểu những nguy cơ đó, đã có rat nhiều nỗ lực để điều tra sự ảnh hưởngcủa những mẫu bị nhiễu với hệ thống phát hiện xâm nhập dựa trên học máy /học

sâu [27] |40j |12] Nhìn chung thì chúng ta có ba cách thức để có thể đối phó với

điều này bao gồm: bảo vệ tham số, phát hiện đối kháng và tối ưu hóa một cách

bền vững [13] Phương thức bảo vệ tham số tập trung vào việc che giấu độ dốc

của mô hình khỏi những kẻ tấn công, từ đó giúp ngăn chặn các cuộc tấn cônghộp trắng (white-box), nơi mà những kẻ tan công hoàn toàn hiểu biết về kiến trúccũng như là tham số của mô hình Đối với phương thức phát hiện đối kháng,bằng cách triển khai một bộ phát hiện bổ trợ sẽ giúp hỗ trợ hệ thống phát hiện

xâm nhập đựa trên học máy trong việc xác định những mẫu bị làm nhiễu, từ đó

tăng cường độ chính xác của việc phát hiện Kỹ thuật cuối cùng đó là tối ưu hóamột cách bền vững giúp nâng cao khả năng của mô hình nhằm duy trì hiệu năng,bất chấp đầu vào là các mẫu đối kháng, bằng cách điều chỉnh quá trình đào tạo

dữ liệu để giảm bớt độ nhạy với các nhiễu loạn nhỏ trong dữ liệu.

Để khiến kết quả đầu ra trở nên dé hiểu, trí tuệ nhân tạo khả diễn giải (XAI) cókhả năng đưa ra các yêu t6 góp phan mang lại hiệu suất của các hệ thống pháthiện xâm nhập dựa trên học máy/học sâu, cung cấp sự rõ ràng về cách các mô

hình đưa ra quyết định [24J16||17|J33] Bằng cách áp dụng phương pháp tiếp cận

XAI, các nhà nghiên cứu cũng như là các nhà thí nghiệm có thể giải mã xem liệu

rằng sự chính xác đáng ngạc nhiên trong việc phát hiện đã được báo cáo có thực

sự là do khả năng xác định hành vi độc hại hay chỉ đơn thuần là do sai lệch dothiết lập thử nghiệm được giới thiệu trong nhiều lĩnh vực khác nhau, kéo dài từ

phát hiện xâm nhập cho tới phát hiện mã độc (1} 2} 20} [3} (10).

Giữa muôn van chiến lược nhằm chồng lại tan công đối kháng, trí tuệ nhân taokhả diễn giải là một cách tiếp cận nổi bật đầy tiềm năng để phát hiện tan công

đối kháng Đặc biệt, XAI là một loại AI cung cấp cho chúng ta tính minh bạch,

tính lý luận và sự giải thích liên quan tới quyết định của trí tuệ nhân tạo, góp

phần thúc đẩy sự công bằng và an toàn trong quá trình đưa ra quyết định của trí

tuệ nhân tạo [19] Mặc dù mô hình trí tuệ nhân tạo kha diễn giải da thành công

trong việc phát hiện những tấn công đối kháng trong phân loại hình ảnh nhưng

3

Trang 13

Chương 1 TỔNG QUAN ĐỀ TÀI

chưa có một ứng dụng cụ thể nào cho các hệ thống pháp hiện xâm nhập

(25) [35] (30) Linh vực nay đại điện cho một ranh giới rất quan trọng trong sự phát

triển, nhằm cường hóa sự bền vững cho hệ thống phát hiện xâm nhập dựa trênhọc máy bằng cách phát hiện và hiểu được các mẫu đối kháng để chống lại cácmối đe dọa mạng ngày càng được cải tiến một cách hiệu quả hơn

Do đó chúng tôi dé xuất một cách tiếp cận lý thuyết nhằm xác định nhữngcuộc tan công đối kháng cho hoc sâu kết hợp cùng với hệ thống phát hiện xâm

nhập và mô hình trí tuệ nhân tạo khả diễn giải Hướng tiếp cận của bộ khung

chúng tôi gồm 2 thành phần chính bao gồm tạo mẫu đối kháng và phát hiện mẫuđối kháng Trong đó quá trình phát hiện mẫu đối kháng bao gồm 2 giai đoạn

chính là tạo whitelist và phát hiện mẫu đối kháng, bên cạnh đó chúng tôi có một

giai đoạn nhỏ bổ trợ cho việc tạo mẫu đối kháng Đối với bộ khung tiếp cận tấn

công, chúng tôi sử dụng SHapley Additive exPlanations (SHAP) để tính toán các

giá trị SHAP cho các mẫu dữ liệu và đưa vào các hàm tính toán cần thiết để tạo

ra mẫu đối kháng mà mục tiêu là khiến giảm hiệu năng phát hiện của các mô

hình này Đối với bộ khung tiếp cận phòng thủ, chúng tôi huấn luyện hệ thống

phát hiện xâm nhập bằng cách sử dụng mô hình mạng nơ-ron tích chập (CNN)

và perceptron nhiều lớp (MLP) bằng tập dữ liệu InSDN [8] để đánh giá khả năng

thích nghỉ của các mô hình học sâu Để tích hợp XAI vào hệ thống, chúng tôi sử

dụng SHapley Additive exPlanations (HAT) (21), một khung rất hiệu quả trong

việc diễn giải các kết quả của các mô hình bằng trí tuệ nhân tạo Sau đó, chúngtôi cô lập các thuộc tinh đã được phân loại là bình thường khỏi tập dw liệu huấnluyện và đồng thời sử dụng XAI để đưa ra các giải thích rõ ràng cho những phânloại đó Bằng cách sử dụng các thông tin XAI đưa ra, chúng tôi xây dựng danhsách trắng Trong giai đoạn phát hiện tấn công, mô hình hệ thống phát hiện xâmnhập được đào tạo trước đó sẽ đánh giá các mẫu đối kháng được tạo ra bằngXAI Nếu tấn công được xác định chính xác thì hệ thống sẽ đưa ra cảnh báo.Trong trường hợp hệ thống phải đối mặt với các khó khăn khi phân loại, tuyếnphòng thủ thứ hai sẽ bắt đầu phát huy tác dụng bao gồm với danh sách trắng đã

được tạo.

Trang 14

Chương 1 TỔNG QUAN ĐỀ TÀI

1.2 _ Phương pháp nghiên cứu

Tìm hiểu quy trình tạo mẫu đối kháng và xây dựng mô hình phòng thủ gồm hệthống phát hiện xâm nhập dựa trên học máy cùng với XAT, từ đó kết hợp thànhcông mô hình phát hiện xâm nhập với 2 lớp bảo vệ, kết hợp ứng dụng phương

pháp học sâu và học máy với mô hình và thuật toán phù hợp để tăng tính hiệu quả

của việc phát hiện cũng như giảm thời gian phát hiện, tăng tỉ lệ phát hiện thành

công, tích lũy dữ liệu đột biến mẫu đối kháng để cải thiện hệ thống cho nhữnglần tan công tiếp theo Bên cạnh đó, chúng tôi tiền hành triển khai, đánh giá thực

tế hiệu suất của mô hình và đưa ra hướng phát triển phù hợp trong tương lai

1.3 Mục tiêu nghiên cứu

Khóa luận gồm hai mục tiêu chính như sau:

1 Úng dụng các loại tân công đối kháng đồng thời kết hợp mô hình khả diễn

giải để tạo mẫu đối kháng nhằm tăng tính bền vững và tin cậy cho hệ thống

phát hiện xâm nhập dựa trên học sâu.

2 Thử nghiệm khả năng phát hiện mẫu đối kháng với mô hình phát hiện xâm

nhập tích hợp mô hình khả diễn giải.

1.4 Phạm vi và Đối tượng nghiên cứu

Nhóm thực hiện tìm hiểu và xây dựng bộ khung với tên gọi là ADV-Shield, dựa

trên nghiên cứu về phát hiện xâm nhập bằng cách áp dụng phương pháp LIME

và cải tiến mẫu đối kháng sử dụng SHAP [36] ADV-Shield kết hợp một hệ

thống phát hiện xâm nhập với mô hình khả diễn giải để tăng cường khả năng của

hệ thống dựa trên học máy để đối phó với các cuộc tân công đối kháng Phươngpháp của chúng tôi bao gồm hai giai đoạn, tạo ra một danh sách trắng của cácthuộc tính bình thường dựa trên SHAP và phát hiện các cuộc tan công đối khángdựa trên danh sách trắng đó Hơn nữa, chúng tôi cũng áp dụng XAI để tăng

cường quá trình tạo ra các mẫu độc hại Để xác minh tính hiệu quả của nó, chúng

tôi đánh giá phương pháp dé xuất của minh bằng các mẫu đối lập được tạo ra từ

Trang 15

Chương 1 TỔNG QUAN ĐỀ TÀI

tập dữ liệu InSDN, nhằm tăng cường bảo mật và sự linh hoạt của mô hình khiđối mặt với các cuộc tan công đối kháng

1.5 Cấu trúc Khóa luận tốt nghiệp

Khóa luận được tổ chức trong 6 chương như sau:

Chương|IÌ TONG QUAN ĐỀ TÀI

Trình bày khái quát định hướng nghiên cứu của khóa luận mà nhóm hướng

tới.

Chương 2| CƠ SỞ LÝ THUYẾT

Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tảng để

có thể thực hiện được nghiên cứu Đồng thời trình bày sơ lược một số công

trình liên quan có cùng hướng nghiên cứu.

Chương|3| PHƯƠNG PHÁP THỰC HIEN

Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương

pháp thực hiện và mô hình được sử dụng.

Chương] HIỆN THUC, ĐÁNH GIA VÀ THẢO LUẬN

Dé cập đến quá trình hiện thực hóa phương pháp dé cập ở ChươngB| Sau đó

trình bày phương pháp thực nghiệm, đánh giá kết quả và thảo luận chung

Chương] KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Đưa ra kết luận về đề tài, đề xuất một số hướng phát triển mở rộng cho các

nghiên cứu trong tương lai.

Trang 16

Chương 2

CƠ SỞ LÝ THUYÊT

Tóm tắt chương

Trong chương này, chúng tôi sẽ trình bày cơ sở lý thuyết cần thiết của khóa luận

Bao gồm cái nhìn chung về hệ thống phát hiện xâm nhập, tấn công mẫu đối

kháng Bên cạnh đó là cơ sở lý thuyết về học máy, học sâu Đồng thời, chúng tôitrình bày tóm tắt về những công trình nghiên cứu liên quan đến khả năng chốngtấn công đối kháng của hệ thống phát hiện xâm nhập và những điểm khác của

khóa luận này với những nghiên cứu trước đây.

2.1 Hệ thống phát hiện xâm nhập

2.1.1 Tổng quan

Trong thé giới hiện đại, thông tin là loại tai sản vô cùng quan trọng Bởi vì xã

hội ngày nay được gọi là xã hội thông tin, mỗi ngày lại càng có nhiều thông tin

được lưu trữ dưới dạng điện tử trên các hệ thống máy tính, đám mây, và các

hệ thống đó thường được kết nối với mạng máy tính [14] Những thông tin nay

bao gồm rat nhiều lĩnh vực khác nhau như kinh tế, tài chính, y tế, giáo dục, khoahọc, thậm chí là quân sự Chính vì vậy giá trị của một số thông tin là không thể

đo lường Điều này thể hiện những thách thức mới đối với những người làm việctrong lĩnh vực công nghệ thông tin Họ phải đảm bảo rằng các hệ thống đó càng

an toàn càng tốt và thông tin bí mật sẽ không bị tiết lộ Nêu dữ liệu được lưu trữtrong một hệ thống máy tính, bằng cách nào đó, hệ thống này phải được chứngminh rằng nó đủ an toàn và không dễ bị tan công, hay nói cách khác là đáng tin

Trang 17

Chương 2 COSO LY THUYẾT

cậy Một cách khả thi nhằm đánh giá khả năng của hệ thống phát hiện xâm nhậpbằng các loại tan công, đặc biệt là tan công đối kháng

2.2 Giới thiệu về hoc máy

2.2.1 Khái niệm hoc máy

Học máy là một phương pháp sử dụng các kỹ thuật, thuật toán nhằm tự độnghóa việc đưa ra các dự đoán dựa vào các quan sát đã xuất hiện Có 2 loại học máy

là phân loại (classification) và dự đoán (prediction) Những bài toán phân loại

như nhận diện hình ảnh, chữ viết, Những bài toán dự đoán điển hình như dựđoán giá trị cổ phiếu, giá bất động sản, xu hướng thị trường trong tương lai

2.2.2 Các loại hoc may

¢ Hoc không giám sat (Unsupervised learning): thuật toán không dự đoán

đầu ra hoặc nhãn mà phụ thuộc vào dữ liệu đầu vào mà thuật toán sẽ sửdụng cấu trúc của dữ liệu để thực hiện các tác vụ như phân nhóm hoặcgiảm số chiều dữ liệu để thuận tiện cho việc lưu trữ và tính toán Vì tập

dữ liệu huấn luyện không cần nhãn, việc thiết lập phương pháp này rất dé

dàng Tuy nhiên, vì không có nhãn nên các thuật toán không giám sát không

thể đưa ra dự đoán trực tiếp mà cần trải qua bước tiền xử lý dữ liệu trướckhi đưa vào huấn luyện Các thuật toán phổ biến về học không giám sát cóthể kể đến như K-Means và đối với học sâu có Recurrent Neural Network

(RNN), Deep Belief Network (DBN)

* Học giám sát (Supervised learning): dự đoán kết quả của một dữ liệu mới

dựa trên các cặp dữ liệu đã biết trước Trong quá trình huấn luyện, dữ liệu

đã biết có vai trò như một người giám sát trong việc hướng dẫn thuật toánhoc Học có giám sát có lợi thế về tính đơn giản va dé thiết kế Tuy nhiên,một thách thức đối với học có giám sát là việc gắn nhãn dữ liệu, đặc biệt

khi không có sẵn nhãn cho dữ liệu Các thuật toán phổ biến trong học có

giám sát bao gồm Linear Regression, Logistic Regression, Random Forest,

Trang 18

Chương 2 COSO LY THUYẾT

Decision Tree va các mô hình hoc sâu như Deep Neural Network (DNN) và Convolutional Neural Network (CNN)

¢ Học bán giám sát (Semi-supervised learning): ta thường gặp trường hợp chi

có một phan dir liệu trong tập dữ liệu được gan nhãn Khi đó ta sẽ kết hợp

hai phương pháp học máy giám sát và không giám sát Đầu tiên, ta sử dụng

dữ liệu đã được gán nhãn để huấn luyện một phần thuật toán học máy Sau

đó, phần thuật toán đã được huấn luyện sẽ tự động gán nhãn cho phần dữliệu chưa được gán nhãn thông qua một quá trình được gọi là giả gắn nhãn.Phương pháp này có tính thực tế vì việc thu thập đữ liệu gán nhãn thườngtốn nhiều thời gian và tài nguyên

¢ Hoc tăng cường (Reinforcement learning): đưa ra các dự đoán dựa trên việc

thử và sai nhằm đạt được kết quả tốt nhất, dạy cho các máy (agent) thựchiện tốt 1 nhiệm vụ (task) bằng tương tác với môi trường (environment)thông qua hành động (action) và nhận được phần thưởng (reward)

2.3 Các mô hình học máy sử dụng trong đề tài

2.3.1 Decision Tree

Cây quyết định là một mô hình học máy được sử dung phổ biến trong hai nhiệm

vụ phân loại và hồi quy Cau trúc của mô hình cây quyết định tương tự như một

cây với các nút (node) đại diện cho các thuộc tính, các cạnh (edge) đại diện cho

các giá trị của thuộc tính, và các lá (leaf) đại điện cho giá trị dự đoán hoặc lớp.

Mỗi thành phần đều đóng vai trò quan trọng trong việc xây dựng nên một mô

hình hoàn chỉnh:

e Nut (Node): Là đại diện cho một quyết định hoặc một câu hỏi trong quá

trình phân loại Bao gồm 3 loại nút chính

— Nút gốc (Root node): Là nút bắt đầu của cây, chứa toàn bộ tập dữ liệu

và dựa vào đó để chia nhỏ thành các nhánh.

Trang 19

Chương 2 COSO LY THUYẾT

— Nút nội bộ (Internal node): Các nút không phải là nút gốc hoặc nút lá

Mỗi nút nội bộ đại diện cho một thuộc tính và có các nhánh tương ứng

với các giá trị hoặc khoảng giá trị của thuộc tính đó.

— Nút lá (Leaf node): Các nút cuối cùng của cây không có nhánh con Mỗi

nút lá đại diện cho một kết quả dự đoán (trong trường hợp phân loại)

hoặc một giá trị mục tiêu (trong trường hợp hồi quy).

® Nhánh (Branch): Là đường kết nối giữa các nút, thể hiện các lựa chọn hoặc

khả năng khác nhau dẫn đến kết quả khác nhau

¢ Nhãn (Label): Là giá trị được gan cho mỗi nút lá, thể hiện dự đoán hoặc

phân loại cho các điểm dữ liệu thuộc vào nút đó

Có thể kể ra những ưu điểm của cây quyết định như:

© Dễ hiểu và dễ diễn giải ngay cả đối với những người không có kiến thức về

học máy.

° Không cần chuẩn hóa dữ liệu trước khi huấn luyện mô hình

® Hoạt động tốt đối với các loại dữ liệu hỗn hợp

2.3.2 _ Random Forest

Rừng ngẫu nhiên là một mô hình học máy có giám sát, thường dùng để phục vụ

các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng

nhiều cây quyết định (Decision tree) Mô hình học máy này cũng dễ sử dụng và

thân thiện với người dùng giống như cây quyết định Cụ thể, một rừng ngẫunhiên chứa rất nhiều cây quyết định nhưng mỗi cây quyết định là độc nhất vì nóđược tạo ra dựa trên yếu tố ngẫu nhiên Mỗi "cây" trong "rừng" sẽ học tập bằngcách lấy ngẫu nhiên dữ liệu đầu vào từ bộ dữ liệu huấn luyện Sau khi các cây

trong rừng đã học xong, khi đưa dữ liệu đầu vào thì tất cả các cây sẽ có mỗi dự

đoán khác sau, sau đó sẽ kết quả dự đoán cuối cùng sẽ được chọn bằng cách biểuquyết đa số

10

Trang 20

Chương 2 COSO LY THUYẾT

Điểm mạnh của thuật toán nay so với DT:

e Giảm thiểu việc quá khớp so với dữ liệu huấn luyện Vì việc huấn luyện

được chia ra nhiều cây trong rừng và đữ liệu được lấy ra ngẫu nhiên phânphối cho các cây trong rừng

¢ Dễ dang xem được đặc tính nào có tầm ảnh hưởng lớn nhất tới việc đưa

ra kết quả dự đoán cuối cùng Bằng cách sử dụng các thông số như Giniimportance để xem đặc tính nào có tầm ảnh hưởng cao nhất

Điểm yếu của thuật toán:

¢ Thời gian huấn luyện lâu hơn: thay vì chỉ huấn luyện một cây thì phải huấn

luyện cả "rừng" cây.

* Doi hỏi nhiều tài nguyên hơn: khi đưa dữ liệu lớn vào trong RE, RF sẽ cần

nhiều tài nguyên để chứa dữ liệu đó

¢ Độ phức tap cao hơn: một cây so với một "rừng ” cây.

Trang 21

Chương 2 COSO LY THUYẾT

2.3.3 XGBoost

XGBoost (Extreme Gradient Boosting) là một giải thuật dựa trên thuật toán tang

cường độ dốc (gradient boosting), thường được dùng để giải quyết các bài toán

về hồi quy, phân loại, xếp hạng và các van dé do người dùng đưa ra Mô hình này

có rất nhiều ưu điểm như tốc độ xử lý nhờ việc thực hiện tính toán song song, tốithiểu hóa việc bị quá khớp nhờ cơ chế regularization, tính linh hoạt cao khi chophép người dùng sử dụng các hàm tối ưu và các chỉ số đánh giá theo từng nhucầu cụ thể, cơ chế tự động xử lý khi mắt đữ liệu và tự động tia cây nhằm loại bỏ

các lá và các node ảnh hương tiêu cực trong quá trình mở rộng cây Mặc dù có

được các kết quả vượt trội nhưng van dé thời gian huấn luyện của mô hình này

khá lâu, đặc biệt là với những bộ dữ liệu lớn.

2.3.4 LightGBM

LightGBM là một bộ khung được sử dụng để xử lý thuật toán tăng cường độ

đốc (gradient boosting) phát triển bởi Microsoft Như đã dé cập trước đó, mặc dùXGBoost rất vượt trội nhưng vẫn gặp van đẻ về kích thước của dữ liệu, LightGBMđược phát triển để đánh bại các thuật toán khác khi đối mặt với tập dữ liệu có kíchthước cực lớn đồng thời giảm bộ nhớ cần sử dụng Sự khác biệt nằm ở trong cơ chếcủa thuật toán khi mà các giải thuật khác sử dụng cơ chế level-wise thì LightGBM

sử dụng leaf-wise Leaf-wise sẽ lựa chọn node để mở rộng cây dựa trên yếu tố tối

ưu cho toàn bộ cây, trong khi level-wise sẽ tối ưu trên nhánh cây đang xét Chính

vi vậy, với số node nhỏ, các cây được xây dựng từ leaf-wise sẽ vượt trội hơn wise Thế nhưng khi gặp các bộ dit liệu nhỏ thì các cây xây dung dùng leaf-wiselại bị quá khớp rất sớm, siêu tham số maxdepth trong LightGBM có thể hạn chế

level-phần nào việc bị quá khớp này, vậy nên chỉ nên xài LightGBM khi bộ dữ liệu đủ

to.

12

Trang 22

Chương 2 COSO LY THUYẾT

2.4 Giới thiệu về hoc sâu

2.41 Khái niệm học sâu

Học sâu là một lĩnh vực của học máy, nơi máy tính được đào tạo để học mộtcách tự nhiên giống như con người Học sâu được áp dụng chủ yếu trong cácứng dụng như xe tự lái, cho phép chúng tham gia giao thông mà không cần sựcan thiệp của con người Ngoài ra, học sâu cũng được áp dụng trong các thiết bị

thông minh như trợ lý ảo trên loa thông minh, máy tính bảng và điện thoại thông

minh Vì những lợi ích này, học sâu đang trở thành một xu hướng quan trọng,

thu hút sự quan tâm rất lớn và đạt được những thành tựu đáng kể, với tiềm năngphát triển tiếp theo

Kiến trúc của học sâu bao gồm nhiều lớp dữ liệu được gán nhãn và sử dụng nhiềukiến trúc mạng nơ-ron nhân tạo Dữ liệu được đưa qua các lớp mạng từ lớp đầuvào, đi qua các lớp ẩn và kết thúc tại lớp đầu ra Các lớp mạng ẩn trong kiến trúchọc sâu cung cấp khả năng học mạnh mẽ, giúp thuật toán học sâu đạt được kếtquả tốt hơn so với các mô hình học máy truyền thống

MACHINE

LEARNING

DEEPLEARNING

(bộ ! 2b; 99121121639 100

1# đ† Ấn Ö ð1 10 0104

Trang 23

Chương 2 COSO LY THUYẾT

2.4.2 Một số khái niệm trong học sâu

* Mạng no-ron: Mạng nơ-ron trong học sâu mô phỏng lại cấu trúc mạng lưới

ron trong não người, trong đó các ron được kết nối với nhau Các ron trong mạng nơ-ron được chia thành ba loại là lớp đầu vào, lớp ẩn và lớpđầu ra

nơ-@ Đầu vào nơ-@ Lớp ân @ Đầu ra

HINH 2.3: Cau trúc mạng thần kinh và các lớp

e Tế bào thần kinh (perceptron): Một tế bao thần kinh có thể được hiểu đơn

giản như một hàm toán học, nơi nó nhận đầu vào từ một hoặc nhiều số vàthực hiện các phép toán để tính toán kết quả đầu ra Trọng số của tế bàothần kinh là các giá trị mà chúng ta cần tìm và được xác định thông qua quátrình huấn luyện

® Ham kích hoạt (activation functions): Trong một mô hình, các nơ-ron trong

lớp ẩn sử dụng các hàm phi tuyến tính để tính toán đầu ra của chúng vàchuyển tiếp nó cho lớp tiếp theo Có một số hàm kích hoạt phổ biến được

sử dụng, bao gồm Sigmoid, Tanh và Rectified Linear Unit (ReLU) Các hàmkích hoạt này giúp tạo ra tính phi tuyến tính và khả năng học linh hoạt cho

mô hình.

- Sigmoid: Ham sigmoid hay còn được gọi là đường cong sigmoid, là

một hàm liên tục mà ánh xạ đầu vào từ các số thực vào các giá trị trong

14

Trang 24

Chương 2 COSO LY THUYẾT

khoảng từ 0 đến 1 Ham nay được sử dung trong học máy để chuyểnđổi đầu vào thành xác suất hoặc những giá trị có ý nghĩa xác suất Giátrị trả về được biểu diễn dưới dạng một hàm sé

— Tanh: Ham tanh là một hàm kích hoạt được sử dụng trong học máy, với

đặc điểm là đầu ra của nó nằm trong khoảng (-1, 1) Điều này làm chohàm tanh phù hợp cho các mô hình có đầu ra với ba giá trị: âm, trung

tính (0) và đương Ham tanh giúp biểu diễn các mức độ khác nhau của

đầu vào và tạo ra một phản ứng tương tự như hàm sigmoid, nhưng với

khoảng giá trị mở rộng hơn Hàm tanh cũng là một hàm liên tục và có

thể biểu diễn dưới dang một hàm số

— ReLU: Hàm ReLU (Rectified Linear Unit) được xây dựng dựa trên ý

tưởng loại bỏ các tham số không quan trọng trong quá trình huấnluyện, nhằm tạo ra một mô hình mạng nhẹ, nhanh chóng và hiệu quảhơn Hàm ReLU thực hiện việc giữ nguyên các giá trị đầu vào lớn hơn

0, trong khi đối với các giá trị nhỏ hơn 0, chúng được coi như là 0 Điều

này giúp hàm ReLU đơn giản hóa tính toán và giảm độ phức tap của

mạng Ham ReLU không có đạo hàm tại 0, nhưng trong thực tế, điềunày ít ảnh hưởng đến quá trình huấn luyện và đã được chứng minh làrất hiệu quả trong nhiều mô hình mạng nơ-ron

- Softmax: Hàm softmax, còn được gọi là hàm trung bình mũ, được sử

dụng để tính toán xác suất của một sự kiện, thường được áp dụngtrong bài toán phân loại đa lớp Hàm softmax tính toán khả năng xuấthiện của mỗi lớp trong tổng số các lớp có thể xuất hiện, sau đó sử dụngxác suất này để xác định lớp mục tiêu cho đầu vào Hàm softmax giúp

chúng ta hiểu mức độ đáng tin cậy của các lớp và thường được sử dụng

để tạo ra phân phối xác suất đa lớp

— Dropout: Dropout là một kỹ thuật được sử dung để ngăn chặn hiện

tượng overfitting (quá khớp) trong mô hình học máy Kỹ thuật này hoạt

động bằng cách ngẫu nhiên loại bỏ một số đơn vị (neuron) trong quá

trình huấn luyện Khi loại bỏ một đơn vị, nó sẽ không được sử dụng

trong quá trình tính toán và cập nhật các trọng số trong mạng Dropout

giúp giảm sự phụ thuộc quá mức giữa các đơn vị trong mạng nơ-ron

kết nối đầy đủ (fully-connected) trong mô hình học sâu Điều này có

15

Trang 25

Chương 2 COSO LY THUYẾT

tác dụng giúp mô hình trở nên chống lại overfitting và tổng quát hóatốt hơn trên dữ liệu mới

— One-hot Coding: One-hot encoding là một phương pháp được sử dụng

để biểu diễn các biến hoặc lớp đầu ra trong các bài toán phân loại

Phương pháp này chuyển đổi các giá trị thành các đặc trưng nhị phân chỉ có giá trị 1 hoặc 0 Mỗi mẫu trong tập dữ liệu sẽ được chuyển thành

một vector có kích thước n, trong đó giá trị 1 chỉ ra trạng thái "active"

và giá trị 0 cho trạng thái "inactive" của đặc trưng tương ứng One-hot

encoding giúp đưa thông tin về sự hiện diện hoặc vắng mặt của mộtđặc trưng trong một mẫu cụ thể

— Max pooling: Max pooling là một lớp được áp dụng giữa các lớp tích

chập trong mô hình học sâu nhằm giảm kích thước của dữ liệu thôngqua quá trình lay mẫu Quá trình này thực hiện bằng cách chia dữ liệuthành các ô nhỏ và chọn giá trị lớn nhất (max) trong mỗi ô làm giá trị

đại điện Kỹ thuật max pooling giúp giảm kích thước dữ liệu, giữ lại các đặc trưng quan trọng và giảm hiện tượng overfitting (quá khớp)

trong mô hình học sâu.

2.5 Các mô hình học sâu sử dụng trong đề tài

2.5.1 Mô hình Convolutional neuron network (CNN)

Convolutional Neural Network là một loại mạng nơ-ron, thường được áp dung

cho các bài toán phân loại và thị giác máy tính Nó cung cấp một phương pháptiếp cận tốt và có khả năng mở rộng bằng cách sử dụng các nguyên tắc từ đại sốtuyến tính, đặc biệt là phép nhân ma trận để xác định các mẫu nằm trong dữ liệu.Đồng thời, so với các mạng nơ-ron khác, CNN có hiệu suất vượt trội khi xử lýcác đầu vào là tín hiệu hình ảnh, giọng nói hoặc âm thanh CNN sử dụng ba lớp

chính để xử lý dữ liệu:

e Lớp tích chập (convolutional): Là thành phần chính và nơi quan trọng trong

quá trình học và tính toán của mạng nơ-ron Nó sử dụng các bộ lọc, còn

được gọi là bộ phát hiện đặc trưng, để quét qua từng vùng của dữ liệu đầu

Trang 26

Chương 2 COSO LY THUYẾT

vào và xác định su xuất hiện của các đặc trưng Ta cũng phải xem xét cẩnthận các siêu tham số (hyperparameters) của bộ lọc, vì chúng ảnh hưởngđến kích thước của dữ liệu đầu ra Bên cạnh đó, việc chia sẻ các trọng sốgiữa các vùng của đầu vào giúp bộ lọc không bị thay đổi khi di chuyển qua

từng vùng khác nhau của dir liệu.

® Lớp pooling: Lớp này được sử dụng để giảm kích thước không gian của dữ

liệu và giảm số lượng tham số đầu vào Điều này giúp làm giảm độ phứctạp của mô hình, nâng cao hiệu quả tính toán và hạn chế rủi ro quá khớp(overfitting) Giống như lớp tích chập, lớp pooling cũng sử dụng một bộ lọc

để quét qua từng vùng của đầu vào Tuy nhiên, bộ lọc này không có trọng

số như lớp tích chập Thay vào đó, nó sử dụng một hàm tổng hợp trên từngvùng tiếp nhận của đầu vào và đưa ra một giá trị duy nhất cho mỗi vùng,sau đó ghi kết quả này vào một mảng đầu ra Điều này giúp giảm kích thướccủa đữ liệu mà không ảnh hưởng quá nhiều đến thông tin quan trọng trong

dữ liệu.

® Lớp fully-connected: Day là lớp có nhiệm vụ biến đầu ra của lớp trước đó

thành một vector và thực hiện phân loại dựa trên các đặc trưng đã được

trích xuất qua các lớp trước đó và bộ lọc tương ứng Mỗi nút trong lớp connected được kết nối trực tiếp với tat cả các nút trong lớp trước đó và sửdụng các hàm kích hoạt như sigmoid hoặc softmax để tính toán đầu ra và

fully-phân loại Các hàm sigmoid được sử dụng trong trường hợp fully-phân loại nhị phân, trong khi hàm softmax thường được sử dụng trong bài toán phân loại

đa lớp, để xác định xác suất của mỗi lớp đầu ra

Convolutional Neural Network bắt đầu với lớp tích chập làm lớp đầu tiên Cáclớp sau đó có thể bao gồm các lớp tích chập bổ sung, lớp pooling hoặc lớp fully-connected Các lớp đầu tiên trong mạng này giúp xác định các tính năng đơn giản

trong dữ liệu Khi qua mỗi lớp, Convolutional Neural Network tăng độ phức

tạp của nó để xác định các tính năng lớn hơn và phức tạp hơn Việc sử dụng

Convolutional Neural Network mang đến một số lợi ích:

* Không cần giám sát của con người trong việc xác định các tinh năng quan

trọng: Mạng nơ-ron convolutional có khả năng tự động học và trích xuất các

17

Trang 27

Chương 2 COSO LY THUYẾT

đặc trưng quan trong tir dir liệu, không yêu cầu sự can thiệp của con người

trong việc xác định các đặc trưng cụ thể.

* Giảm thiểu số lượng tính toán so với các mạng thần kinh thông thường:

Việc sử dụng các lớp convolutional và pooling giúp giảm kích thước không

gian dữ liệu, từ đó giảm số lượng tính toán cần thiết, làm cho mạng ron convolutional có hiệu quả tính toán cao hơn so với các mạng thần kinh

nơ-thông thường.

© Chia sẻ các trọng số trên các vùng tiếp nhận của một lớp: Một trong những

đặc điểm đáng chú ý của mạng nơ-ron convolutional là khả năng chia sẻ các

trọng số giữa các vùng tiếp nhận của một lớp Điều này giúp giảm số lượngtham số trong mô hình, từ đó giúp mô hình trở nên hiệu quả và dé huấn

luyện hơn.

2.5.2 Mô hình Multilayer Perceptron (MLP)

MLP (Multi-Layer Perceptron) là một mang nơ-ron da tang trong học sâu được

sử dụng trong các bài toán có giám sát Mô hình này bao gồm nhiều lớp liên tiếpđược kết ni với nhau, bao gồm lớp đầu vào, lớp ẩn và lớp dau ra Khi hoạt động,MLP chuyển tiếp đầu vào từ lớp đầu vào thông qua các lớp ẩn, mỗi nơ-ron tínhtổng trọng số của đầu vào và áp dụng một hàm truyền để đưa ra kết quả Kếtquả này tiếp tục truyền qua các lớp ẩn cho đến khi các nơ-ron tại lớp đầu ra đưa

ra kết quả dự đoán cuối cùng MLP được ứng dụng trong các bài toán xử lý dữliệu dang bang, vì dữ liệu đầu vào có thể biểu diễn đưới dạng các vector, giúp mô

hình hiểu và phân tích thông tin từ dữ liệu này.

Tuy nhiên, một hạn chế của MLP là số lượng thông số cần để định nghĩa mô hình

có thể rất lớn, yêu cầu dữ liệu huấn luyện lớn và tính toán phức tap dé đạt đượchiệu quả cao Điều này đòi hỏi sự điều chỉnh cẩn thận của các thông số mô hình

để đảm bảo hiệu suất tốt nhất cho từng bài toán cụ thể

18

Trang 28

Chương 2 COSO LY THUYẾT

2.6 Tan cong doi khang (Adversarial attack)

Tan công đối kháng là loại tan cống bằng cách thay đổi không đáng kể các giá trịđầu vào của tập dữ liệu nhằm đánh lừa khả năng phân loại của IDS với mục đíchlàm giảm hiệu năng của mô hình Hiểu một cách đơn giản, tan công đối kháng làviệc tạo ra các mẫu dữ liệu đưa vào các mô hình học máy và khiến cho mô hình

dự đoán sai khác so với thực tế Ví dụ như hình ảnh bên bên dưới, ta có thể thấysau khi bị thêm vào một số nhiễu, mô hình đã phân loại sai

+ 007 x

; w+

+ sien(Vz/J(Ø.#:1)Ì sign(V„J(6,z,p))

“panda” “nematode” “gibbon”

57.7% confidence 8.2% confidence 99.3 % confidence

HÌNH 24: Kết quả mô hình đưa ra kết quả phân loại sai sau khi

thêm nhiễu vào mẫu ban đầu

2.7 Các loại tấn công đôi kháng sử dung trong đề tài

2.7.1 Fast Gradient Method

Fast Gradient Method (FGM) (11): được phát triển bởi nhóm tác giả Goodfellow

là thuật toán tạo mẫu đối kháng bằng cách tính toán giá trị cực tiểu hoặc cực đạicủa hàm bằng cách di chuyển lặp đi lặp lại theo hướng đi lên hoặc đi xuống dốcnhất (Tính toán đạo hàm) được xác định bởi độ dốc âm hoặc dương của ham Giatrị gradient (Đạo hàm gần bằng 0) này giúp sẽ xác định dữ liệu đầu vào cần đượcthay đổi theo hướng nào nhằm làm tối đa hóa giá trị của hàm mắt mát Dữ liệuđầu vào sẽ được điều chỉnh bằng cách thêm một giá trị epsilon nhỏ vào, epsilonnày kiểm soát việc nhiễu loạn nhiều hay ít, từ đó thu được mẫu đối kháng

19

Trang 29

Chương 2 COSO LY THUYẾT

Đối với đầu vào x va nhãn y, mẫu đối kháng x’ sé được tạo thông qua công thức

sau

x“=X+£-sign(VxL(f(x),y)) (2.1)

2.7.2 Projected Gradient Descent

Projected Gradient Descent (PGD) 22]: là một thuật toán tạo mẫu đối kháng bằng

cách sử dụng phương pháp lặp nhằm tìm kiếm dữ liệu đầu vào mang tính độchại nhất PGD phát triển từ ý tưởng giảm độ dốc bằng cách bao gồm một bướcchiếu để đảm bảo rằng việc tính toán các nhiễu loạn vẫn sẽ nằm trong một giớihạn xác định xung quanh đầu vào ban đầu Điều này đảm bảo rằng các mẫu đốikháng được tạo ra vẫn gần với đầu vào ban đầu về một số thước đo khoảng cách

Đối với đầu vào x, và nhiễu Tex, thuật toán PGD có thé được tính toán như sau

Xi = Projg (X, €) (x +a-sign (VL (f (x4), y))) (2.2)

2.7.3 Zeroth-Order Optimization

Tan công ZOO [6] là một phương pháp tan công hộp den dựa phát triển dựa trên

mô hình tương tự là C&W Phương pháp thực hiện tạo các mẫu đối kháng tronghọc máy không yêu cầu quyền truy cập vào độ đốc của mô hình bị tan công Thayvào đó, thuật toán ước tính độ dốc chỉ bằng cách sử dụng các đánh giá hàm, giúp

nó có thể áp dụng được cho các tình huống hộp đen trong đó hoạt động bêntrong của mô hình không được biết hoặc không thể truy cập được Nhìn chung,

ưu điểm của ZOO không cần huấn luyện các mô hình thay thé và giảm thiểu matmát trong quá trình chuyển đổi tấn công Phương pháp này dùng tối ưu hóa bậckhông gian để ước tính gradient của mô hình và tạo ra các mẫu tấn công hiệu

quả.

Phương pháp ZOO ước tính độ dốc bằng cách sử dụng sai phân hữu hạn và sau

đó áp dụng các kỹ thuật tối ưu hóa để tạo ra các ví dụ đối nghịch thông qua 2

thuật toán

20

Trang 30

Chương 2 COSO LY THUYẾT

¢ Ước tính độ chênh lệch hữu hạn:

——————®————— (2.3)

Oxi 26

© Cập nhật đầu vào của ham

Xt =x) +a-sign(VxL(f (x1), Y)) (2.4)

2.8 Mô hình kha diễn giải (XAD

Khả năng diễn giải một mô hình có thể được chia thành hai loại: khả năng diễn

giả toàn cục (global interpretability) và khả năng diễn giải cục bộ (local

inter-pretability) Khả năng diễn giải toàn cục có nghĩa là người dùng có thể hiểu môhình trực tiếp từ cấu trúc tổng thể của nó còn khả năng diễn giải cục bộ chỉ kiểmtra một đầu vào và tìm hiểu tại sao mô hình lại đưa ra quyết định cụ thể cho đầu

vào đó.

2.8.1 Phương pháp bat khả tri về mô hình cục bộ

Các phương pháp diễn giải cục bộ giải thích cho từng dự đoán riêng biệt Một mô

hình khả diễn giải khá phổ biến trong giải thích cục bộ đó là mô hình giải thích

bat khả tri về mô hình khả diễn giải cục bộ (LIME) [31].

Các mô hình thay thé cục bộ là những mô hình khả diễn giải mà được dùng để

giải thích từng hành vi của các mô hình học máy hộp đen LIME là một phương

pháp mà nhóm tác giả Ribeiro triển khai các mô hình thay thế cục bộ Các mô hình này được đào tạo để ước tính các dự đoán của một mô hình hộp đen cơ bản

bằng cách tập trung đào tạo các mô hình thay thế cục bộ để giải thích các dự đoánriêng biệt, thay vì đào tạo mô hình thay thế toàn cục

21

Trang 31

Chương 2 COSO LY THUYẾT

2.8.2 Phương pháp bat kha tri về mô hình toàn cục

Các phương pháp toàn cục cung cấp thông tin về xu hướng hành vi trung bình

của mô hình học máy và thường được diễn giải như là các giá trị được dự đoán

dựa trên đóng góp của dữ liệu Vì các phương pháp diễn giải toàn cục cho thấyhành vi nên điều đó rất hữu ích cho người dùng để hiểu các cơ chế chung trong

dữ liệu hoặc khi cần sửa chữa lỗi trong mô hình

SHAP

SHAP (SHapley Additive exPlanations) là một phương pháp phân tích và giải

thích các mô hình học máy dựa trên lý thuyết trò chơi SHAP tính toán "giá trị

Shapley" cho từng đặc trưng của dữ liệu, xác định mức độ đóng góp của từng

đặc trưng vào kết quả dự đoán của mô hình Mỗi giá trị Shapley phản ánh mức

độ mà đặc trưng đó ảnh hưởng đến sự thay đổi của kết quả dự đoán khi so sánh

với giá trị trung bình của toàn bộ dữ liệu Phương pháp này giúp làm sáng tỏ và

minh bạch quá trình ra quyết định của mô hình, cho phép người dùng hiểu rõhơn về lý do tại sao một mô hình đưa ra các dự đoán cụ thể và đánh giá sự côngbằng cũng như hiệu quả của mô hình

Hình [2.5] minh họa về một biểu đồ cột ngang đại diện cho những đặc trưng có

ảnh hưởng nhiều nhất (xếp hạng từ cao xuống thấp) đến quyết định của mô hình

Cụ thể, màu đỏ trong hình biểu thị cho sự tích cực trong mô hình, đặc trưng

"Relationship" có giá trị SHAP là +0.94 tức là đặc trưng này có ảnh hưởng tích

cực nhiều đến kết quả của mô hình, trong khi đặc trưng "Sum of 3 other features"

với giá trị +0.11 có nghĩa là giá trị SHAP của 3 đặc trưng nào đó mà có ảnh hưởng

ít tới quyết định của mô hình

Hình |2.6|cung cấp thông tin chỉ tiết về mức độ ảnh hưởng của mỗi thuộc tính

đến kết quả dự đoán do mô hình đưa ra cho một trường hợp cụ thể Giá tri SHAPdương biểu thị các tinh năng đẩy dự đoán lên cao hơn, trong khi giá trị SHAP âmbiểu thị các tính năng đẩy dự đoán xuống thấp hơn

22

Trang 32

Chương 2 COSO LY THUYẾT

HÌNH 2.5: Minh họa kết quả xếp hạng đặc trưng của SHAP

Relationship +0.94

+0.77

Age

Capital Gain +0.45 Education-Num +0.44 Hours per week +0.35

Occupation 0.34

Sex +0.22

Capital Loss +0.19

Marital Status +0.13 Sum of 3 other features 0.11

T T

0.0 0.2 0.4 0.6 0.8 1.0

mean(|SHAP value|)

23

Trang 33

Chương 2 COSO LY THUYẾT

HINH 2.6: Minh họa mức độ quan trong của các thuộc tính khác

6,232 = Medinc

34.01 = Latitude

—118.93 = Longitude

18 = HouseAge 6.416 = AveRooms

Trang 34

Chương 2 COSO LY THUYẾT

2.9 Tình hình nghiên cứu và các công trình liên quan

Hệ thống phát hiện xâm nhập là một công cụ quan trọng nhằm đảm bảo tính antoàn, bảo mật và khả dụng của bat kỳ hệ thống nào Hiện tại đã có những công

cụ phát hiện xâm nhập hiện đại, chẳng hạn như Snort - một hệ thống pháthiện và ngăn chặn xâm nhập mã nguồn mở được phát triển từ năm 1998, nó chứacác quy định nhằm định nghĩa các hoạt động mạng độc hại và sử dụng các địnhnghĩa đó để tìm kiếm các gói tin trong hệ thống mạng mà khớp với quy định,

sau đó phát cảnh báo cho người dùng Mặc dù những công cụ tương tự đã mang

đến hiệu quả rõ rệt, cho phép những người giám sát hệ thống làm việc hiệu quảhơn bằng cách tập trung vào phát hiện và cảnh báo tấn công Tuy nhiên, nhữngcông cụ này vẫn cần con người để vận hành trơn tru, những người giám sát hệthống mà được đào tạo, có kiến thức, đạo đức và kỹ năng chuyên sâu Ngoài ra,

đối với những hệ thống có khả năng mở rộng quy mô phức tạp, công việc đánh giá bảo mật theo cách thủ công sẽ trở thành một thách thức đáng chú ý, chưa kể

đến rủi ro sai sót do con người Chính vì thế, việc cải thiện và nâng cấp hệ thốngphát hiện xâm nhập là một nhu cầu thiết yếu Mặc dù van dé này không mới, tuynhiên để giải quyết được bài toán tăng cường hệ thống phát hiện xâm nhập thì

vẫn có những khó khăn và thách thức nhất định Bởi vì các cuộc tấn công ngày

càng phức tạp hơn, chúng không ngừng thay đổi, những tấn công sẽ được tăngcường và cải thiện để qua mặt hệ thống, làm sao để hệ thống có khả năng tự họccách phòng thủ và tích lũy kinh nghiệm phòng thủ này cho những lần bị tan côngtiếp theo khi không có dit liệu sẵn hoặc lý tưởng là van dé được dat ra

Đối với việc phòng thủ trước các cuộc tấn công đối kháng, vì tính chất của cácmẫu đối kháng được sinh ra rất phức tạp và luôn thay đổi, nên ta cần những bảncập nhật liên tục cho hệ thống để có thể huấn luyện và đưa ra quyết định chínhxác hon Tuy nhiên, điều này khá khó khăn khi duy trì một mô hình luôn cậpnhật và thực hiện chính xác những hành động mà cho ra được kết quả như mongmuốn Chính vì vậy, mô hình khả diễn giải là một hướng tiếp cận có thể giải quyếtđiều này Mô hình này sẽ giúp cải thiện khả năng phòng thủ bằng cách nhận biếtcác thuộc tính quan trọng khi chúng ta huấn luyện mô hình học máy nhằm tíchhợp vào hệ thống phát hiện xâm nhập, làm tăng hiệu suất của hệ thống cũng nhưtính bền vững Song cũng đi kèm với những thách thức như yêu cầu lượng lớn

25

Trang 35

Chương 2 COSO LY THUYẾT

dit liệu để dao tạo hệ thống phòng thủ để đưa ra kết quả chính xác nhất Trongnhững năm gần đây mô hình khả diễn giải đã thu hút được nhiều sự chú ý, mặc

dù chưa được áp dụng rộng rãi.

2.9.1 Tan công đối kháng vào hệ thống phát hiện xâm nhập

Tính đến thời điểm hiện nay, đã có nhiều công trình nghiên cứu trong và ngoài

nước liên quan đến qua mặt hệ thống phát hiện xâm nhập Dựa theo nghiên cứu

của nhóm tác giả Wang va cộng sự [38], tan công đối kháng vào hệ thống phát

hiện xâm nhập dựa trên học sâu có thể được chia thành ba loại chính bao gồm:

tan công hộp trắng, tan công hộp xám và tắn công hộp đen Nghiên cứu của hochủ yếu tập trung vào tan công hộp trắng để chống lại hệ thống

Để có thể phát hiện và ngặn chặn những mẫu được tạo ra với mục đích trốn tránh,

ẩn mình khỏi sự phát hiện của hệ thống, có rất nhiều chiến lược đã được trình

bày Cụ thể hơn là khung MANDA [38], một cơ chế phòng thủ đã được giới thiệu

là có thể chống lại các luồng dữ liệu mạng đối kháng bang cách đóng vai trò nhưmột lớp lọc bổ sung mạnh mẽ, nó sẽ lọc những gói tin trong luồng mạng trước

khi chúng tiếp cận được vào hệ thống phát hiện xâm nhập, có thể nói vai trò của

nó khá giống với tường lửa Bộ khung này có hai giai đoạn để phát hiện, bắt đầuvới việc phát hiện các mẫu có tiềm năng là mẫu đối kháng bằng cách sử dungphương pháp đánh giá dựa trên sự đa dạng Nó sẽ đánh giá sự tương đồng giữa

sự đa tạp của dữ liệu đầu vào và dữ liệu huấn luyện, khi độ lệch ở một mứcđáng kể thì mẫu đó sẽ được gán nhãn là mẫu đối kháng tiềm năng Giai đoạn thứhai sẽ sử dụng kỹ thuật dựa trên sự không chắc chắn để xác nhận các mẫu đốikháng tiềm năng Mức độ không đảm bảo của mô hình được đánh giá dựa trêncác nhiễu loạn nhỏ trong dữ liệu đầu vào, các phản hồi không chắc chắn sẽ đượccoi là các mẫu đối kháng tiềm năng Qua đánh giá tổng quan, MANDA thực sựcho thấy khả năng phát hiện đa dạng các mẫu đối kháng là hoàn toàn vượt trội

so với các phương pháp hiện có trong cùng thời điểm Kết quả cũng tương đối tốt

khi đạt được 98,41% tỉ lệ dương tính thật cùng với 5% tỉ lệ dương tính giả.

Tuy nhiên, mô hình hiểm họa của MANDA hoạt động dựa trên giả định rằng

hàng rào phòng thủ có thể truy cập tới dữ liệu mạng độc hại, một kịch bản có thể

26

Trang 36

Chương 2 COSO LY THUYẾT

không phù hợp với thực tế trong ngữ cảnh phát hiện tan công đối kháng trong hệthống phát hiện xâm nhập Mặc dù không thực tế, nhưng việc sử dụng khả năngphát hiện này để phòng thủ mang lại một cách tiếp cận đơn giản và thân thiệnvới ngân sách khi đối phó với các cuộc tấn công đối kháng Nhưng việc cân nhắc

kỹ lưỡng là cần thiết khi thực hiện phương pháp nãy trong lĩnh vực của hệ thốngphát hiện xâm nhập Hệ thống hoạt động dưới những ràng buộc nghiêm ngặt vềthời gian xử lý, diéu mà cực kỳ quan trọng nhằm duy trì trải nghiệm người dùngmột cách tối ưu Ngay kể cả một sự gia tăng nhỏ của thời gian xử lý cũng có thểtích tiểu thành đại và ảnh hưởng nghiêm trọng đến sự hài lòng của người dùng.Thật không may là bản chất của việc phát hiện tấn công đối kháng vốn đã kéodai thời gian xử lý vì cần có một bộ phân loại bổ sung để xác định những gói tin

hoặc luồng đữ liệu mang [13] Phương pháp tiếp cận dựa trên sự da dang trong

MANDA có cùng một vấn dé do tìm kiếm sự không phù hợp vẫn tồn tại giữa

quyết định của hệ thống và phân loại đa dạng để nhận ra sự hiện diện của các

mẫu đối kháng.

Tương tự, Ibitoye va cộng sự đã nghiên cứu sâu về tác động tiêu cực củaviệc chuẩn hóa tính năng đối với khả năng thích nghi đối kháng của các mô hình

học sâu bằng cách triển khai năm thuật toán trong điều kiện hộp trắng Ngược

lại, trong ngữ cảnh tiếp cận bằng hộp đen, tác giả Zhang và cộng sự đã giớithiệu bộ khung TIKI-TAKA để bảo vệ hệ thống phát hiện xâm nhập dựatrên mạng dựa trên học sâu khỏi các cuộc tân công đối kháng Trong thí nghiệmcủa họ, ba chiến lược tấn công hộp đen tiên tiến nhất đã được sử dụng để tạo

ra các mẫu đối kháng nhằm đánh giá bộ khung TIKI-TAKA nhằm nhận dạngcác luồng dữ liệu mang đang có trốn tránh Những chiến lược này bao gồm tậphợp biểu quyết mô hình (model voting ensembling), tập hợp đào tạo đối kháng

(ensembling adversarial training) và phát hiện truy vấn (query detection) Việc

sử dụng những phương pháp này có thể cải tiến đáng kể về khả năng phát hiệncác tấn công, ngay cả trong trường hợp mà các tấn công đó chủ yếu nhắm tới việctrốn tránh bị nhận dạng Dù có cải tiến đáng kể nhưng mô hình này vẫn có thể bịtấn công bởi các phương pháp tan công mới, tan công chưa được biết đến Cùngvới đó là việc duy trì và triển khai các loại mô hình tập hợp khá là phức tập vàtiêu tốn nhiều tài nguyên, đặc biệt là về bộ nhớ, sức mạnh xử lý và sự phối hợp

mô hình (model coordination).

27

Trang 37

Chương 2 COSO LY THUYẾT

Vì thé trong khóa luận này, chúng tôi hướng đến việc xây dung dựa trên nhữngthông tin, hiểu biết sâu sắc day giá trị từ những nghiên cứu trước đây để nâng caotính bảo mật và hiệu quả của mô hình hệ thống phát hiện xâm nhập của chúngtôi, đặc biệt là chú trọng đến việc giảm thiểu các cuộc tan công đối kháng hộp

trắng Ngoài ra, chúng tôi cũng đề cập đến một khía cạnh quan trọng thường bị

bỏ qua trong các phương pháp hiện có đó là việc kết hợp hệ thống giải thích đểđưa ra sự giải thích minh bạch cho các quyết định của hệ thống, điều này tiếpcận một cách toàn diện và mạnh mẽ hơn trong việc chống lại các mối đe dọa đốikháng bằng XAI Bằng cách cung cấp những hiểu biết về cách mô hình đưa raquyết định, XAI có thể giúp chúng ta xác định những trường hợp nào mà đầu racủa mô hình là dựa trên đầu vào đối kháng, từ đó đánh dấu chúng là mối hiểmhọa tiểm tàng

2.9.2 Phát hiện tan công đối kháng trong hệ thong phát hiện xâm

nhập sử dụng XAI

Dựa theo những xu hướng nghiên cứu, có rất nhiều nghiên cứu đã áp dụng kỹthuật khả dién giải cho các mô hình học máy nhằm phát hiện tan công đối kháng,nhưng van hạn ché khi hỗ trợ cho hệ thống phát hiện xâm nhập

Điều tra của chúng tôi phát hiện một nghiên cứu đáng chú ý có tên SafeXAI của

tác giả Selvaganapathy và cộng sự 22], nghiên cứu này cung cấp những hiểu biết

sâu sắc và có giá trị nhằm thúc đẩy nghiên cứu về ứng dụng của XAI trong việcphát hiện các mẫu đối kháng trong hồ sơ y tế điện tử Đáng chú ý là nghiên cứu

này đã sử dụng LIME làm thước đo để đánh giá hiệu quả của các nhiễu loạn do

các tân công đối kháng gây ra trong thời gian chạy quá trình đào tạo của mô hình

Do đó, nghiên cứu này có thể xác định và loại bỏ các mẫu đối kháng một cáchthành thạo, mặc dù LIME có thể không đưa ra cái nhìn toàn diện về quá trìnhđưa ra quyết định của mô hình và đồng thời thể hiện sự phức tạp khi tính toán

các tập dtr liệu lớn.

Ngoài ra, một nghiên cứu trong lĩnh vực phát hiện xâm nhập được tiến hành bởitác giả Tcydenova và cộng sự cũng rất đáng chú ý Để xác định những mẫuđối kháng trong hệ thống, nhóm tác giả đã đưa ra một bộ khung gồm hai giai

28

Trang 38

Chương 2 COSO LY THUYẾT

đoạn: khởi tạo mô hình máy vector hỗ trợ (SVM) và trích xuất các giải thích chodit liệu bình thường từ tập dir liệu bằng LIME; với mỗi dữ liệu được SVM xácđịnh là bình thường, các giải thích được tham chiếu chéo dựa trên bộ khởi tạo đãđược thiết lập trước đó để phát hiện các mẫu đối kháng Tuy nhiên, bộ khung của

họ chỉ được đánh giá dựa trên 10 mẫu của một loại tân công đối kháng duy nhất.Chính vì vậy, tính tổng quát của bộ khung đối với các thuật toán học máy kháccũng như các loại tấn công đối kháng khác vẫn chưa thể chắc chắn Do đó, cần

phải nghiên cứu thêm để xác định khả năng ứng dụng rộng rãi và bền vững của

bộ khung.

Lay cảm hứng từ nghiên cứu của họ, chúng tôi sử dụng SHAP [21], một phương

pháp giải thích bất khả tri theo mô hình bất khả tri mà tận dụng kỹ thuật hồi quytuyến tính cục bộ có trọng số đặc biệt để tính toán giá trị SHAP cho nhiều loại môhình đa dạng Cụ thể, lợi thế của bộ khung SHAP là khả năng cung cấp cái nhìntoàn diện về các tương tác của đặc trưng Nó giải thích cho các tương tác giữa cácđặc trưng, đồng thời đảm bảo rằng sự đóng góp của chúng là phù hợp với dự

đoán của mô hình Điều này giúp cải thiện sự hiểu biết của chúng tôi về cách mô

hình đưa ra quyết định cũng như là giúp xác định những đặc trưng nào đang có

ảnh hưởng nhiều tới đầu ra Chính vì thế, bộ khung này có thể được tích hợp với

hệ thống phát hiện xâm nhập dựa trên học sâu nhằm cải thiện đáng kể khả năngthích nghỉ của hệ thống khi chống lại các tấn công đối kháng Phương pháp tiếpcận dựa trên học máy khả diễn giải cho phép chúng tôi hiểu rõ hơn về quá trìnhđưa ra quyết định và làm cho hệ thống của chúng tôi trở đáng tin cậy hơn

2.9.3 Đột biến mau đối kháng bằng XAI

Nhằm tăng cường tính bền vững cho hệ thống, chúng tôi áp dụng một phương

pháp được trình bày trong nghiên cứu của tác giả Rouxi và cộng sự [56] Nghiên

cứu này giới thiệu một bộ khung kiểm thử nhằm đánh giá độ bền của các bộ phát

hiện phần mềm độc hại khi đối mặt với tan công đối kháng Khung kiểm thử này

bao gồm ba giai đoạn chính bao gồm:

¢ Chọn đặc trưng dựa trên giải thích của mô hình khả diễn giải SHAP

© Tạo ra các mẫu đối kháng để thử nghiệm

29

Trang 39

Chương 2 COSO LY THUYẾT

© Thử nghiệm trên các bộ phát hiện phần mềm độc hai

Bằng cách sử dụng phương pháp SHAP (Shapley Additive Explanations), bộkhung này xác định các đặc trưng dé bị tan công của phần mềm độc hai và tạo racác mẫu đối kháng để kiểm tra độ bền của các bộ phát hiện Các mẫu đối khángnày sau đó được thử nghiệm trên nhiều bộ phát hiện phần mềm độc hại khácnhau, bao gồm cả các hệ thống dựa trên máy học và các công cụ diệt virus cómặt trên thị trường Kết quả cho thấy rằng hiệu quả phát hiện phần mềm độchại của tất cả các bộ phát hiện đều bị giảm đáng kể khi đối mặt với các mẫu đối

kháng Các bộ phát hiện sử dụng mô hình SVM, đặc biệt là các bộ phát hiện dựa

trên Drebin bị ảnh hưởng nhiều nhất Trong khi đó, các bộ phát hiện sử dụng đặctrưng đồ thị cuộc gọi ít bị ảnh hưởng hơn

Mặc dù nghiên cứu này mang lại một phương pháp tiếp cận sáng tạo để đánhgiá độ bền vững của các bộ phát hiện phần mềm độc hại, nó vẫn còn tôn tại một

số hạn chế Dau tiên, phương pháp nay giả định rằng kẻ tan công có thể tiếp cận

và hiểu rõ mô hình phát hiện, điều này không phải lúc nào cũng khả thi trongthực tế Bên cạnh đó, các mẫu đối kháng được tạo ra không phải lúc nào cũngxuất hiện trong thực tế, do đó kết quả kiểm thử có thể không phản ánh chính xác

khả năng phòng chống các cuộc tân công thực tế Cuối cùng, khả năng áp dụng

rộng rãi của khung kiểm thử này vẫn còn hạn chế, đòi hỏi thêm nhiều nghiên cứu

để xác định tính khả thi và hiệu quả trên nhiều loại phần mềm độc hại và môi

trường khác nhau.

Tóm lại, những nghiên cứu liên quan đến vẫn đề phát hiện tấn công đối khángđược trình bay trong Bảng |2.1|

30

Ngày đăng: 08/12/2024, 15:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w