TÓM TẮT KHOÁ LUẬNVới sự bùng nổ của dữ liệu và các nghiên cứu về mô hình, kỹ thuật máy học, việcứng dụng máy học vào hệ thống phát hiện xâm nhập mạng NIDS đã được thựchiện, với những hiệ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG
NGUYEN NGỌC THIEN - 19522263
KHOA LUAN TOT NGHIEP
MO HÌNH PHAT HIỆN XÂM NHAP DỰA TREN KỸ
THUẬT HỌC SÂU VÀ THÍCH ỨNG MIỄN
DOMAIN ADAPTATION FOR DEEP LEARNING-BASED
INTRUSION DETECTION SYSTEM
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
TS Pham Van Hau
ThS Nghi Hoang Khoa
Trang 2LỜI CẢM ƠN
Để hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Ban giám hiệu Trường Đại học Công nghệ Thông tin — Đại học Quốc Gia Thành Phố H6 Chí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất cùng cơ sở vật chất hiện đại Cảm ơn quý thầy cô giảng dạy tại trường nói chung và Khoa Mạng máy tính & Truyền thông nói riêng vì đã truyền đạt những kiến thức
chuyên môn bé ích, những kinh nghiệm thực tế quý báu mà chúng tôi đã học hỏi
được trong suốt quá trình học tập, rèn luyện tại trường.
Chúng tôi xin gửi lời tri ân và biết ơn đến TS Pham Văn Hậu, ThS Phan Thế Duy và ThS Nghi Hoàng Khoa đã trực tiếp quan tâm, hướng dẫn tận tình trong suốt quá trình thực hiện đề tài Xin đặc biệt gửi lời cảm ơn trân trọng nhất đến ThS Phan Thế Duy, là người đã định hướng, dẫn dắt và đồng hành rất sớm
cùng chúng tôi không chỉ trong khoá luận này mà cả trong toàn bộ những thành tựu chúng tôi đã đạt được.
Bên cạnh đó, với tình cảm sâu sắc và chân thành, chúng tôi cũng xin cảm
ơn các thầy cô, anh chị đang công tác tại Phòng thí nghiệm An toàn thông tin InSecLab vì đã luôn tạo điều kiện về cơ sở vật chất hiện đại, luôn sẵn sảng nhiệt tình hỗ trợ chúng tôi về chuyên môn lẫn kinh nghiệm trong các hoạt động
-nghiên cứu và thực hiện khoá luận.
Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc
chan không tránh khỏi những thiếu sót Rất mong nhận được những nhận xét, ý kiến đóng góp, phê bình từ quý thầy cô trong hội đồng đề khóa luận được hoàn
thiện hơn.
Nhóm thực hiện.
Trang 3Chuong1 TONG QUAN ĐỀ TÀI 2
11 Lydochondétai 2 ee 2
12 Muctiéunghiéncttu 0.0.0 4
13 Phamvinghiéncttu 2.0.0.0 2 eee eee 4
14 Déituongnghiénettu ee 4
15 Phương pháp thựchiện - 5
1.6 Cấu trúc Khóa luận tốtnghiệp - 5
Chương2 CƠ SỞ LÝ THUYẾT 6 2.1 Hệ thống phát hiện xâm nhập 6
211 Tổng quan 6 2.1.2 Phân loại các hệ thống phát hiện xâm nhập truyền théng 7
2.2 Phương pháp học máy,họcsâu - 11
2.21 Hocmay 2.0 ec eee 11 2.2.2 Họcsâu Q Q Q2 13 2.2.3 Mạng autoencoder 13
2.3 Hệ thống IDS học máy và Van đề thiếu hụt dữ liệu 14
23.1 Hệ thống phát hiện xâm nhập dựa trên kỹ thuật học may 14
2.3.2 Vấn đề thiếu hụt dữ liệu 16
2.4 Transfer learning và thích ứng miền 17
2.4.1 Kỹ thuật Học chuyển tiếp 1
24.2 Kỹ thuật thích ứng miển 17
2.5 Mạng sinh đối kháng cc 19
25.1 Tổng quan Ặ ee 19
Trang 4Chương 3 _ PHƯƠNG PHÁP THỰC HIỆN
3.1 Kiến trúc tổng quất eee
3.2 Phương pháp xây dựng
3.2.1 Xử lý dữ liệu - Dang cầu hóa không gian đặc trưng
3.2.2 MôhìnhDAGAN
Tổng quan mô hình
Ham mat mát của mô hình
Thuật toán huấn luyện môhình
3.23 Mô hình AttenionDAGAN_
Trích xuất đặc trưng đa góc nhìn
Mô-đun Attention
Chương 4 HIỆN THỰC VÀ DANH GIÁ, THẢO LUẬN 41 Thiết lập thựcnghiệm
411 Môi trường thựcnghiệm
-41.2 Bộ dữ liệu và phân bố dữ liệu
4.143 Các thông số đánh giá trong thực nghiệm
414 Tiểnxửlýdữliệu
Tiền xử lý đữ liệu
-Cân bằng dữ liệu
-4.2 Kichbản
thựcnghiệm -421 Tổngquan eee 4.2.2 Các trường hợp huấn luyện thực nghiệm
423 Các trường hợp
đánhgiá -4.2.4 Cấu hình siêu tham số các mô hình
4.3 Kết quả thực nghiệm và thảo luận
-43.1 Các kết quả thựcnghiệm
Đánh giá trên dữ liệu miễn đích
Đánh giá trên dữ liệu ở miền nguồn và miễn đích
4.3.2 Thảo luận Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIEN 51 Kếtluận
5.2 Hướng phát triển
vi
24
24
26 26
28
28
30 31
32
32 37
39
39 39
40 43
4
4
48 51 51 53 69
71
72
72 72
76
80
Trang 5tính[17] - -Vi trí triển khai NIDS ở chế độ Promiscuous
Vi trí triển khai NIDS ở chế độ Inline
Sơ dé phân loại các hệ thống IDS dựa trên phương pháp phát hiện
Sơ đồ kiến trúc DANN của tác giả Ganin etal.[2] Hình ảnh mô tả kiến trúc Autoencoder với các lớp Fully Connected
Hình ảnh mô tả cầu trúc của Generator và Discriminator trong mô
hình DAGAN_ -.-.- SỐ Ố
Tổng quan mô hình Attention-DAGAN với mô-đun trích xuất đặc
trưng và mô-đun Attention
ién trúc bộ trích xuất đặc trưng sử dụng mô hình CNN Kiến trúc bộ trích xuất đặc trưng sử dụng mô hình CNN-BiLSTM Kiến trúc bộ trích xuất đặc trưng sử dụng mô hình GRU_
Hình ảnh mô tả phân phối các bản ghi lành tính và các loại tấn
công của tập dữ liệu UNSW-NBI15
Hình ảnh mô tả phân phối các bản ghi lành tính và các loại tấn
công của tập dữ liệu CIC-IDS2017 Hình ảnh mô tả ee
Trang 6loại tấn công trong tập
loại tấn công trong tập huấn
oại tin công trong tập huần
oại tần công trong tập huần
loại tấn công trong tập huấn
Thông số Accuracy khi đánh giá trên miềnThông số F1-score khi đánh giá trên miền đ
luyện ở miền nguồn và
ích
Thông số Accuracy khi đánh giá trên hỗn hợp miền nguồn và dichThông số F1-score khi đánh giá trên hỗn hợp miễn nguồn và đích
Bảng thiết kế mạng CNN trong các bộ trích xuất đặc trưng sử dụng
Bảng thiết kế mạng Fully Connected trong bộ trích xuất đặc trưng,
sử dụng GRU
Bảng thiết kế các lớp mô hình Attention
viii
Trang 7được sử dụng trong thí nghiệm
Phan bó các loại tan công có trong tập dữ liệu CIC-IDS2017 [12]
được sử dụng trong thí nghiệm
Bảng mô tả công thức tính các thông số đánh giá mô hình học máy
Bang mô tả ý nghĩa thông số đánh giá mô hình học may
Phân bồ các loại tan công có trong tập dữ liệu UNSW-NBI5 [9] sau
khi tiền xử lý và cân bằng đữ liệu
ang thiết kế mô hình Base cơ bản
hân bồ các loại tắn công trong tập huấn luyện ở miễn nguồn
huấn luyện ở miền đích (2%)
p
hân bó các loại tan công trong tập huấn luyện ở miễn đích (1%) hân bó các loại tan công trong tập
p
hân bồ các loại tấn công trong taj huấn luyện ở miễn đích (5%)
ân bó các loại tan công trong tập huấn luyện ở miền đích (10%) hân bó các loại tắn công trong tập huấn luyện ở miễn đích (20%) hân bó các loại tan công trong tập huấn luyện ở miễn đích (40%)
ân bồ các loại tan công trong tập uấn luyện ở miễn đích (60%) hân bồ các loại tắn công trong tập huấn luyện ở miễn đích (80%)
hân bồ các loại tan công trong tập đánh giá trên miền đích
jac ae ý ae ae a” ne ge a” ME ân bồ các loại tan công trong cả 2 tap đánh giá nguồn và dich
Bảng kết quả Accuracy khi đánh giá trên miền đích
Bảng kết quả F1-score khi đánh giá trên mién đích
Bảng kết quả Accuracy khi đánh giá trên dữ liệu hỗn hợp miền
nguồn và miễn dich ẶccV
Bảng kết quả Fl-score khi đánh giá trên di liệu hỗn hợp miền
nguồn và miễn dich
41
42
44 45
Trang 8Danh mục từ viết tắt
€NN Convolutional Neural Network
DA Domain Adaptation
DL Deep Learning
GAN | Generative Adversarial Network
GRU Gated Recurrent Unit HIDS Host based Intrusion Detection System IADA _Information-Enhanced Adversarial Domain Adaptation IDS Intrusion Detection System
LSTM Long Short Term Memory
ML Machine Learning
NIDS Network based Intrusion Detection System
TL Transfer Learning
Trang 9Ham mat mát trên miền
Ham mat mát trên nhãn (lớp)
Mang thần kinh nhân tạo thích ứng miền đối kháng
Phương pháp thích ứng miền đối kháng
được tăng cường thông tin
Tăng cường dữ liệu
Attention mechanism
Loss value
Value function
Activation function Loss function
Domain loss function Class loss function
Supervised learning
Unsupervised learning Semi-Unsupervised learning
Deep learning
Transfer learning
Input layer Output layer
Hidden layer
Neural network Generative Adversarial Networks
Domain-adversarial training of neui Information-Enhanced adversarial c
Data augmentation
Trang 10TÓM TẮT KHOÁ LUẬN
Với sự bùng nổ của dữ liệu và các nghiên cứu về mô hình, kỹ thuật máy học, việcứng dụng máy học vào hệ thống phát hiện xâm nhập mạng (NIDS) đã được thựchiện, với những hiệu quả nhất định và vẫn tiếp tục được cải thiện, phát triển Tuynhiên, các hệ thống NIDS học máy, đặc biệt là những hệ thống dựa trên kỹ thuậthọc sâu cần rất nhiều dữ liệu đã được gán nhãn để có thể huấn luyện mô hình cókết quả tốt Việc thu thập, gán nhãn một lượng lớn đữ liệu cho các loại tân côngmới rất tốn thời gian và công sức, cũng như sẽ khó thực hiện tốt khi mà các cuộctan công mới liên tục xuất hiện và có các dạng thông tin khác nhau Vì vậy cần
phải có một phương pháp để tận dụng lượng lớn dữ liệu có nhãn sẵn có và một
số ít dữ liệu có nhãn của các cuộc tân công mới nhằm huấn luyện được mô hìnhNIDS có khả năng phát hiện tốt các cuộc tan công mới
Trong phạm vi khóa luận, nhóm chúng tôi tìm hiểu và tái lập mô hình DAGAN
(Domain adversarial Adaptation Generative Adversarial Network) với phương
pháp học thích ứng miền của một nghiên cứu từ trước đó đồng thời dé xuất cải
tiến, đưa ra mô hình Attention-DAGAN với kha năng tạo ra mẫu dữ liệu đối
kháng có phân phối không phụ thuộc vào miền dữ liệu, từ đó tận dung đượcmột lượng lớn bộ dữ liệu có sẵn để huan luyện mô hình phát hiện xâm nhập, tan
công mạng Chúng tôi thực nghiệm các mô hình DAGAN và Attention-DAGAN
trên bộ dữ liệu UNSW-NBI5 làm dữ liệu miền nguồn và CIC-IDS2017 làm dữliệu miền đích để đánh giá hiệu năng của các mô hình học máy khi có sử dụng
Trang 11TỔNG QUAN ĐỀ TÀI
Tóm tắt chương
Trong chương này, chúng tôi xin trình bày tóm tắt vẻ bài toán phát hiện xâm nhập
mạng dựa trên kỹ thuật học sâu và thích ứng miễn Đồng thời nhóm cũng đưa
ra mục tiêu, phạm vi, đối tượng cần nghiên cứu, các phương pháp và quá trìnhthực hiện đề tài cũng như câu trúc của khóa luận
1.1 Lý do chọn dé tài
Hiện nay, với sự phát triển nhanh chóng của công nghệ thông tin, cùng với côngcuộc chuyển đổi số đang được thực hiện trên quy mô lớn, dữ liệu được luânchuyển trên hệ thống mạng ngày càng nhiều và chứa đựng nhiều thông tin nhạycảm hơn Lưu lượng thông tin khổng 16 sẽ để lộ ra nhiều lỗ hổng hơn trong bảomật thông tin, là một miếng môi béo bở cho các kẻ tấn công mạng [14] Các cuộc
tan công mạng gia tăng với tốc độ đáng kinh ngạc, nhắm đến các dữ liệu nhạy
cảm hay nhằm mục đích phá hoại đến chất lượng của dịch vụ trên mạng có thểgây ra những hậu quả nghiêm trọng như bị tống tiền, mắt dữ liệu, lộ thông tin cá
nhân, hoặc thậm chí là ảnh hưởng đến hoạt động của một doanh nghiệp hay tổ
chức.
Đứng trước các cuộc tan công mạng, ha tang công nghệ thông tin cần được trang
bị các hệ thống phòng thủ để ngăn chặn các cuộc tan công đó, cũng như để giảm
Trang 12Chương 1 TỔNG QUAN ĐỀ TÀI
Hệ thống phát hiện xâm nhập (IDS) được sử dụng để kiểm soát các xâm nhập
một cách chủ động hoặc thụ động trên thiết bị hoặc trong một vùng mạng [14]
Hệ thống phát hiện xâm nhập mạng được xây dựng, triển khai có khả năng thuthập các lưu lượng mạng, từ đó giám sát, phát hiện các dau hiện bat thường, độchại trong hệ thống như các tấn công thăm dò, tấn công từ chối dịch vụ, bằngcách theo đõi và phân tích luồng đi chuyển của các gói tin trong mạng Những
phản hồi từ NIDS giúp cảnh báo kịp thời; cũng như là cơ sở để xây dựng quy
trình bảo vệ hệ thống tốt hơn Trong quá trình phát triển, mô hình NIDS truyền
thống, nhận điện dựa trên các dấu hiệu đặc trưng (Signature-based NIDS) hoặc
dựa trên sự bất thường trong lưu lượng mạng so với một ngưỡng đã được họctrước đó (Anomaly-based NIDS truyền thống) đã cho thấy nhiều vấn dé, bộc lộnhững điểm yếu với khả năng nhận điện thấp, dé bị vượt mặt bởi các cuộc tấn
công mới, tinh vi, tan công zero-day [13] Đồi với Signature-based NIDS, mô hình
cần một cơ sở dữ liệu khổng lồ để chứa các đặc điểm nhận dang (signature) đã
được phân tích của cuộc tấn công, và làm hạn chế khả năng nhận diện với cuộctan công mới, khi mà việc phân tích và tạo các đặc điểm nhận dạng của cuộc tancông để cho độ chính xác cao là khó khăn và tốn kém
Với sự bùng nổ của dữ liệu và các nghiên cứu về mô hình, kỹ thuật máy học, việc
ứng dụng máy học vào hệ thống NIDS đã được thực hiện, với những hiệu quảnhất định và vẫn tiếp tục được cải thiện, phát triển Tuy nhiên, các hệ thống NIDShọc máy, đặc biệt là những hệ thống dựa trên kỹ thuật học sâu cần rất nhiều dữliệu đã được gán nhãn để có thể huấn luyện mô hình có kết quả tốt Việc thuthập, gan nhãn một lượng lớn dữ liệu cho các loại tan công mới rat tốn thời gian
và công sức, cũng như sẽ khó thực hiện tốt khi mà các cuộc tan công mới liên tụcxuất hiện và có các dạng thông tin khác nhau Bên cạnh đó, các mô hình học sâuđược huan luyện với dix liệu tan công từ một loại mạng máy tính, có thể sẽ khôngphù hợp và cho hiệu quả phân loại không cao đối với các cuộc tan công trên loạimang máy tính khác như mạng IoT [13] Ngoài ra, các cuộc tấn công thế hệ mớithường nhắm đến một mục tiêu cụ thể, nên trong các thông tin dữ liệu thu thập
được có thể chứa những thông tin nhạy cảm, hay là liên quan đến tổ chức Mặc
dù tổ chức đó có thể thực hiện tốt việc gán nhãn và phân tích cuộc tấn công này,nhưng vì lý do bảo mật, quyền riêng từ mà bộ dir liệu cũng không thể công khai,
dẫn đến thiếu hụt di liệu có gan nhãn với các loại tan công mới.
Trang 13Từ những vấn dé đã dé cập, chúng tôi nhận thấy việc xây dung một hệ thống
phát hiện xâm nhập mạng NIDS có khả năng phát hiện tốt các cuộc tan công mớikhi được huấn luyện với rat ít dữ liệu có nhãn mới Đó là lý do nhóm chúng tôi
chọn dé tài Mô hình phát hiện xâm nhập dựa trên kỹ thuật học sâu va thích ứng miền
làm dé tài nghiên cứu cho khóa luận này
1.2 Mục tiêu nghiên cứu
Trong khóa luận này, nhóm chúng tôi tìm hiểu, nghiên cứu từ công trình của tác
giả Singla et al [13] để xây dựng, hiện thực mô hình mạng sinh đối kháng ápdung kỹ thuật thích ứng miền (DAGAN) để sinh mẫu dữ liệu mới từ miền nguồn
và miền đích nhằm làm giảm sự chênh lệch về phân phối giữa hai miền, đánh giá
khả năng phân biệt trong trường hợp dữ liệu ở miễn dích ít, và có khả năng học
mà chỉ với ít dữ liệu có gán nhãn.
Sau đó nhóm nghiên cứu cải thiện mô hình DAGAN theo hướng sử dụng các
mô hình mạng nơ-ron nhân tạo như CNN, LSTM, GRU để tăng lượng thông tin
đưa vào trong mô hình GAN nhằm đánh giá hiệu năng phân loại so với mô hìnhDAGAN truyền thống
1.3 Phạm vi nghiên cứu
Hệ thống phát hiện xâm nhập được huấn luyện kết hợp mạng sinh đối kháng,
thích ứng miễn và kỹ thuật trích xuất đặc trưng để nâng cao hiệu quả thích ứngmiền
14 Đôi tượng nghiên cứu
¢ Dữ liệu mạng, trình phát hiện tắn công mạng, hệ thống phát hiện xâm nhập
Mô hình mạng sinh đối kháng (GAN), mô hình Autoencoder
Mô hình mạng nơ-ron nhân tạo CNN, LSTM, GRU
Kỹ thuật học Thích ứng miễn, transfer learning
Trang 14Chương 1 TỔNG QUAN ĐỀ TÀI
© Triển khai, đánh giá kết quả hiệu suất của mô hình dé xuất
1.6 Cau trúc Khóa luận tot nghiệp
Khóa luận được tổ chức trong 6 chương như sau:
s Chương 1: TONG QUAN DE TÀI
Trình bày khái quát định hướng nghiên cứu của khóa luận mà chúng tôi
muốn hướng tới
» Chương 2: CƠ SỞ LÝ THUYET
Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tảng để
có thể thực hiện được nghiên cứu Đồng thời trình bày sơ lược một số công
trình liên quan có cùng hướng nghiên cứu.
* Chương 3: PHƯƠNG PHÁP THUC HIEN
Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương
pháp thực hiện và mô hình được sử dụng.
© Chương 4: HIỆN THỰC, ĐÁNH GIÁ VÀ THẢO LUẬN
Đề cập đến quá trình hiện thực hóa phương pháp đề cập ở Chương 3 Sau đó
trình bày phương pháp thực nghiệm, đánh giá kết quả và thảo luận chung.
* Chương 5: KET LUẬN VÀ HƯỚNG PHÁT TRIỂN
Đưa ra kết luận về đẻ tài, đề xuất một số hướng phát triển mở rộng cho các
nghiên cứu trong tương lai.
Trang 15CƠ SỞ LÝ THUYET
Tóm tắt chương
Trong chương này, chúng tôi sẽ trình bày cơ sở lý thuyết cần thiết của khóa luận
Bao gồm lý thuyết về hệ thống phát hiện xâm nhập, kỹ thuật học sâu, kỹ thuật
hoc transfer learning, thích ứng miền và mạng sinh đối kháng Đồng thời, chúngtôi trình bày tóm tắt về những công trình nghiên cứu liên quan đến kỹ thuật họctransfer learning, thích ứng miễn, cũng như nghiên cứu về mô hình hệ thốngphát hiện xâm nhập dựa trên máy học và những điểm khác của khóa luận này
với những nghiên cứu trước đây.
2.1 Hệ thống phát hiện xâm nhập
2.11 Tổng quan
Hiện nay, với chuyển đổi số, ngày càng có nhiều thông tin riêng tư, nhạy cảmđược lưu trữ dưới dạng số hóa trên các hệ thống máy tính, và các hệ thống này
được kết nối vào mạng máy tính, mạng Internet Những thông tin được lưu trữ
có thể đến từ nhiều nguồn, nhiều lĩnh vực khác nhau như thông tin kinh doanh,
tài chính, định danh cá nhân hay là thông tin trong lĩnh vực quân sự Chính vì
giá trị rất lớn mà các thông tin này mang lại, các hệ thống máy tính luôn tiềm ẩnnhững nguy cơ rủi ro của việc xâm nhập, và cần được trang bị biện pháp phòng
Trang 16Chương 2 CƠSỞ LÝ THUYẾT
Xâm nhập là một hành động nhằm phá hoại, làm ảnh hưởng đến các đặc tínhCIA (tính bí mật, toàn vẹn, sẵn sàng) của thông tin; hoặc là hành động cố ý vượtqua các cơ chế bảo mật sẵn có của hệ thống mạng máy tính Phát hiện xâm nhập
bao gồm các hành động theo dõi, phân tích các sự kiện diễn ra ở trong hệ thống
máy tính, mạng, phân tích các thông tin thu được từ lưu lượng mạng nhằm tìmkiếm các dấu hiệu của xâm nhập [7] Và hệ thống phát hiện xâm nhập (IDS) làmột phần mềm hoặc phần cứng nhằm tự động hóa việc phát hiện xâm nhập, thựchiện tự động giúp bảo vệ hệ thống và cảnh báo khi có các hành động xâm nhậphoặc đáng ngờ trong hệ thống máy tính, mạng máy tính
2.1.2 Phân loại các hệ thống phát hiện xâm nhập truyền thống
Hệ thống phát hiện xâm nhập có nhiều loại khác nhau theo chức năng và nhiệm
vụ và được phân theo các tiêu chí riêng biệt Hai tiêu chí phổ biến để phân loạicác hệ thống IDS là dựa trên vị trí triển khai hệ thống trong một mạng máy tính,
và dựa trên phương pháp phát hiện xâm nhập của hệ thống IDS đó.
Host-based IDS/IPS
Network- Server
based IDS/IPS
=: Host-based
Untust |-— aaa & CC | |IDS/PS
Firewall Router Server
Host-based IDS/IPS
Server
HÌNH 2.1: Vi tri triển khai của các loại hệ thống phát hiện xâm nhập
trong mạng máy tinh[17]
Theo nghiên cứu của Liao et al., dựa vào vị trí triển khai của các hệ thống IDStrong việc theo đõi các dữ liệu khả nghỉ và loại dữ liệu và chúng xử lý, có thểphân thành 2 loại chính [7] bao gồm:
Trang 17¢ Hệ thống phát hiện xâm nhập mức thiết bị đầu cuối (Hostbased IDS
-HIDS): Hệ thống phát hiện xâm nhập này được triển khai trên các thiết
bị đầu cuối trong hệ thống mạng có thể kết nối đến máy chủ quản lý tậptrung HIDS tập trung giám sát các gói dữ liệu đến và đi từ thiết bị hoặcnhững hành động khả nghi tai cấp truy cập nội bộ, có thể bảo vệ thiết bịkhỏi các lỗ hổng của ứng dụng, hệ điều hành, giám sát các tiến trình, tínhtoàn vẹn của hệ thống tập tin, hoặc các hoạt động ở mức nhân (kernel) Một
ưu điểm của HIDS so với NIDS là có thể phân tích các dữ liệu được mã hóađầu cuối trong khi NIDS không thể làm được Tuy nhiên, do thiếu ngữ cảnhbao quát hơn so với NIDS nên HIDS khó nhận biết được các hành động xâmnhập ở mức diện rộng HIDS thường được triển khai cùng với một hệ thống
quan lý tập trung hỗ trợ triển khai các chính sách an toàn và theo déi hiện
trạng toàn bộ hệ thống một cách nhanh chóng
¢ Hé thống phát hiện xâm nhập mang (Network-based IDS - NIDS): Hệ thốngphát hiện xâm nhập này thường được bó trí tại những điểm dé bị tan côngtrong hệ thống mạng, giám sát các hành vi tấn công nhắm vào cơ sở hạtang mạng NIDS thu thập các lưu lượng đến va di từ tất cả các thiết bịtrên mạng, từ đó có thu được những thông số để phát hiện xâm nhập, cókhả năng kiếm soát diện rộng Hệ thống NIDS có thể được triển hai ở chế
độ Promiscuous (hay còn gọi là chế độ thụ động) bằng việc mọi lưu lượng
mạng đều được sao chép và gửi đến NIDS để phân tích (được thể hiện ở
hình 2.2); hoặc được triển khai ở chế độ Inline (chế độ chủ động), trở thành
Hệ thống ngăn ngừa xâm nhập (IPS) nhưng sẽ ảnh hưởng đến hiệu năng,
độ trễ của mạng và ảnh hưởng đến người dùng nếu không được cầu hìnhđúng cách dẫn đến chặn nhầm gói tin (được thể hiện ở hình 2.3)
Trang 18Chương 2 CƠSỞ LÝ THUYẾT
Core Swicth B Bồ
Internet
port
HÌNH 2.2: Vị trí triển khai NIDS ở chế độ Promiscuous
Internet IDS Core Switch Cla
Internal
network
®
HINH 2.3: Vi trí triển khai NIDS ở ché độ Inline
Hình 2.1 mô tả vị trí của hệ thống NIDS và HIDS trong mạng, có thể thay được
NIDS được bố trí tại một điểm có thể quan sát toàn mạng, hoạt động ở chế độchủ động (hay ngăn chặn) hay thụ động (chỉ phân tích) Các hệ thống HIDS đượctriển khai trên các thiết bị đầu cuối, cụ thể ở đây là các máy chủ trong hệ thống
Ngoài ra cách phân loại theo vị trí triển khai, các hệ thống IDS còn được phânloại theo phương pháp phát hiện xâm nhập mà hệ thống hỗ trợ, bao gồm:
e Hệ thống IDS dựa trên chữ ky (signature-based IDS, knowledge-based IDS):Signature là một mẫu hay một chuỗi liên quan đến cuộc tan công đã biếttrước, các hệ thống signature-base IDS so sánh dữ liệu thu thập được vớicác mẫu này để phát hiện xâm nhập Tuy nhiên, hệ thống dựa trên phươngpháp này không hiệu quả để phát hiện các cuộc tấn công không xác định,các cuộc tan công né tránh và biến thể của các cuộc tấn công đã biết Khó
khăn và tốn thời gian để giữ cho các mẫu, chữ ký này luôn được cập nhật
trước các cuộc tấn công mới
Trang 19¢ Hệ thống IDS dựa trên phát hiện bat thường (anomaly-based IDS): Các hệ
thống IDS theo phương pháp này thu thập các đặc tính điển hình trong hệthống mạng qua một khoảng thời gian, xây dựng nên một hồ sơ (profile)
chứa các đặc tính bình thường của hoạt động trong mạng bao gồm những
thông tin như thông tin người dùng, máy trạm, các kết nối mạng Khi có cáclưu lượng truy cập mang bat thường so với hồ sơ đã định nghĩa thì có thể
xác định là bị xâm nhập Theo nghiên cứu [4], phương pháp này có thể chia
thành các loại nhỏ hơn, được thể hiện ở hình 2.4 trong đó có phương phápdựa trên kỹ thuật học máy, và các phương pháp truyền thống khác
Intrusion Detection System (IDS)
Anomaly based-IDS Signature based-IDS
Machine learning thi
based-IDS Cognition based-IDS Statistical anomaly
Trang 20Chương 2 CƠSỞ LÝ THUYẾT
2.2 Phương pháp hoc máy, học sâu
2.2.1 Học máy
Học máy hay máy học (machine learning) là một nhánh trong lĩnh vực trí tuệ
nhân tạo cho phép các ứng dụng, phần mềm tự học hỏi dựa trên dữ liệu đưa vào,trở nên chính xác hơn trong việc dự đoán kết quả mà không cần được lập trình
rõ ràng để làm như vậy Học máy đem lại nhiều ứng dụng mà đã phổ biến hiệnnay như các hệ thống dé xuất (hệ thống đề xuất quảng cáo dựa trên hành vi củangười dùng), hệ thống phát hiện, phân loại bat thường, xâm nhập, phần mềmđộc hại, hệ thống lọc thư rác
Cách phổ biến nhất phân nhóm các thuật toán học máy là dựa trên phương thứchọc cũng như loại dữ liệu được đưa vào huấn luyện mô hình
Đối với phân loại dựa trên phương thức học, có bón cách tiếp cận cơ bản của các
mô hình học máy
¢ Học giám sat (Supervised Learning): Trong phương pháp học này, dữ liệu
đưa vào học đã được gán nhãn trước, tức là thuật toán sẽ dự đoán đầu ra
của một dữ liệu mới đưa vào và so sánh đầu ra với nhãn sẵn có của dữ liệu
đó (tức là các cặp (dữ liệu, nhãn)) Mục đích của việc học này nhằm tìm mốitương quan của đầu vào và đầu ra để có thể dự đoán được nhãn của một
dur liệu chưa được học.
Sử dụng toán học có thể mô tả như sau: chúng ra có một tập hợp biếnđầu vào X =X1,X¿, ,Xw và tap hợp nhãn tương ứng Y= V1,Y2, ,YN,trong đó xi, yÍ là các vector, và các cặp dữ liệu (xj, Yi) EX x YVi=1,2, ,N
là các dữ liệu huấn luyện Mô hình cần tao ra được ánh xạ ƒ :
Ýi=ƒ(xi),Vi=1,2, ,N (2.1)
sao cho Yi ¥ Yi, va Yi càng gần y¡ thì mô hình càng chính xác và khi có một
dữ liệu mới Xo, chúng ta có thể tim được nhãn tương ứng của nó Yo =f (Xo)Một bài toán học có giám sát mà có số lượng hữu hạn rời rạc các nhãn đầu
ra còn gọi là bài toán phân loại (classification), còn các nhãn là rời rạc vô
hạn là bài toán héi quy (regression)
11
Trang 21¢ Hoc không giám sát (Unsupervised Learning): Trong phương pháp học này,
dữ liệu đưa vào đào tạo không được gắn nhãn, chúng ta không biết câu trả
lời chính xác cho mỗi dir liệu đầu vào Thuật toán học qua các dữ liệu trongtập để tìm kiếm bắt kỳ kết nói có ý nghĩa nhằm để thực hiện một công việcnào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu
(đimension reduction) để thuận tiện trong việc lưu trữ và tính toán.
* Học bán giám sát (Semi-Supervised Learning): Phương pháp này kết hợp
đặt tính của cả hai phương pháp học có và không có giám sát, lượng lớn dữ
liệu huấn luyện đưa vào mô hình nhưng chỉ một phần trong chúng đượcgan nhãn Dữ liệu huấn luyện có nhẫn có thể cung cấp một góc nhìn cho mô
hình học máy, nhưng mô hình có thể tự do khám phá dw liệu và phát triển
sự hiểu biết của riêng mình về tập dữ liệu Một ví dụ điển hình của nhómnày là chỉ có một phần ảnh (trong bài toán nhận dạng và phân loại khuônmặt trong ảnh) và phần lớn các bức ảnh được thu thập bởi một nền tảngmạng xã hội, sau đó đưa vào huấn luyện mô hình để tự động nhận dạng và
gan nhãn 1 người trong bức ảnh mới Vì việc thu thập dữ liệu có nhãn tốn
rất nhiều thời gian và có chỉ phí cao, nên phương pháp học có thể ứng dụngnhiều tuy nhiên có thể đánh đổi bởi độ chính xác, hiệu năng phân loại Rất
nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh
y học chẳng hạn) Ngược lại, dur liệu chưa có nhãn có thể được thu thập với
chỉ phí thấp từ internet
¢ Hoc tăng cường (Reinforcement Learning): Phương pháp hoc dùng để dạy
mô hình hoàn thành một quy trình gồm nhiều bước trong đó có các quy tắcđược xác định rõ ràng, có một thuật toán để hoàn thành một nhiệm vụ vàcung cấp cho nó những dau hiệu tích cực hoặc tiêu cực khi nó tìm ra cáchhoàn thành một nhiệm vụ, giúp cho một hệ thống tự động xác định hành vidựa trên hoàn cảnh để đạt được lợi ích cao nhất khi hoàn thành nhiệm vụ.Reinforcement learning chủ yêu được áp dụng vào Lý Thuyết Trò Chơi, cácthuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất
Trang 22Chương 2 CƠSỞ LÝ THUYẾT
2.2.2 Hoc sau
Học sâu là một phân nhánh của các phương pháp học máy, trong đó phan nền
tảng của học sâu là mô hình mạng thần kinh nhân tạo Mạng thần kinh nhân tạo(Neural networks) là hệ thống lấy cảm hứng từ bộ não con người và cách mạng
mạng thần kinh xử lý thông tin và tính toán [3] Một mạng thần kinh truyền thẳng
cơ bản bao gồm các nơ-ron nhân tạo chứa các hàm tính toán toán học và được tổchức thành các lớp Các lớp nằm giữa lớp đầu vào và lớp đầu ra được gọi là cáclớp ẩn Mỗi lớp ẩn nhận các thông số từ lớp trước đó, tính toán, chuyển đổi trên
nó và truyền thông số đến lớp kế tiếp Cứ như vậy, trong quá trình huấn luyện
mô hình, các nơ-ron học hỏi và tối ưu các trọng số của mô hình để giảm thiểu tối
đa các giá trị của hàm mat mát tính toán dựa trên giá trị đầu ra của mạng nơ-ron
và giá trị thực tế Kỹ thuật học sâu (Deep Learning) là một nhánh con của cácphương pháp học máy, trong đó dựa trên việc sử dụng mạng thần kinh sâu với
nhiều hơn một lớp ẩn.
2.2.3 Mạng autoencoder
Autoencoder là một loại mang trong phương pháp DL, là mạng thần kinh nhântạo có khả năng học hiệu quả các biểu diễn của dữ liệu đầu vào mà không cần
nhãn, nói cách khác, giả sử từ một hình ảnh có thể tái tạo ra một bức ảnh có liên
quan chặt chẽ với bức ảnh đầu vào đó Vì vậy đầu vào của mạng autoencoderkhông có nhãn, và mạng autoencoder được huấn luyện theo phương pháp học
không giám sát.
Autoencoder bao gồm 3 phần chính
¢ Encoder: Mô hình này có nhiệm vụ nén dữ liệu đầu vào thành một biểu diễnđược mã hóa (coding), có số chiều nhỏ hơn so với dữ liệu đầu vào Mạngencoder tạo ra các biểu diễn mã hóa sao cho chỉ tập trung vào các đặc trưngquan trọng nhất, tùy vào bài toán cụ thể Bởi vì số chiều của dạng mã hóa
nhỏ hơn dữ liệu gốc nên Autoencoder có thể dùng trong các bài toán giảm
chiều dữ liệu hoặc trích xuất đặc trưng Tùy theo yêu cầu của bài toán, môhình encoder có thể bao gồm tập hợp các lớp tích chập CNN (ConvolutionalNeural Network), và các lớp tổng hợp Polling; hoặc sử dụng các lớp kết nốinối đầy đủ (Fully Connected)
13
Trang 23© Bottleneck: Chính là đầu ra của mô hình encoder, do encoder mã hóa tối
đa thông tin của dữ liệu đầu vào nên mang đặc trưng quan trọng nhất
của dữ liệu vào Việc Bottleneck có kích thước nhỏ hơn và mang các thông
tin đặc trưng giúp ngăn cản mạng autoencoder ghi nhớ quá nhiều, giảm
trường hợp quá khớp di liệu (overfitting), tuy nhiên, nếu kích thước quá
nhỏ, mạng sẽ không học được nhiều cũng như gây khó khăn cho việc giải
mã ở khối Decoder
® Decoder: Mô hình này giúp giúp mạng giải nén các đặc trưng được lưu tại
Bottleneck và tái cầu trúc lại dữ liệu, mô hình học dựa trên việc so sánh đầu
ra của Decoder với đầu vào của Encoder Mô hình Decoder bao gồm các lớpUpsampling, hay Fully Connected tùy thuộc bài toán để đưa đặc trưng nén
về dạng dữ liệu đầu vào ban đầu
2.3 Hệ thống IDS học máy và Van dé thiếu hụt dữ
liệu
2.3.1 Hệ thống phát hiện xâm nhập dựa trên kỹ thuật hoc máy
Các hệ thống IDS truyền thống phát hiện dựa trên các mẫu, dầu hiệu (Signature
based-IDS) thực hiện so sánh các chuỗi trong lưu lượng mạng với cơ sở dữ liệu
chứa các mẫu, dấu hiện của loại tan công cụ thể Kiểu IDS này bị giới hạn bởikích cỡ của cơ sở dữ liệu, số lượng mẫu chữ ký, không có khả năng nhận diện cáccuộc tấn công chưa biết trước Dạng phương pháp phát hiện dựa trên học thống
kê, học mẫu lưu lượng mang để xây dựng profile cơ sở (Anomaly-based IDS) một các truyền thống chưa mang lại hiệu quả phát hiện tốt với tỉ lệ báo động giả ở
mức cao [13].
Hệ thống phát hiện xâm nhập dựa trên học máy (Machine learning based-IDS)hay còn gọi là ML-IDS một nhánh trong Anomaly based-IDS, bằng việc áp dụng
các phương pháp máy học vào phân tích lưu lượng mạng Việc này làm tăng khả
năng và hiệu suất nhận diện cho các IDS bởi mô hình ML có khả năng tự học so
với việc phải lập trình trước các thông số và học thủ công ở mô hình Anomaly
based-IDS, khắc được nhược điểm của mô hình truyền thống, đặc biệt là ở nhận
Trang 24Chương 2 CƠ SỞ LÝ THUYET
điện tấn công mới Hình 2.5 mô tả vị trí triển khai của ML-IDS trong hệ thống IDS Snort theo nghiên cứu của tác giả Shah et al [11], có thể thay mô hình ML-IDS có thể được kết hợp chung với Signature based-IDS.
Snort Adaptive Plug-in Decode Network Packets
Classify Network Packets+ 4Machine Learning Algorithm
(SVM, Fuzzy Logic, Decision Tree, Hybrid (SVM+FL) and
|Snort Detection Engine Ì SS
2 rms} TP Alarms { Log nies
| \ Analysis
FN Alarms \
Rules Set | FP Alarms '
HINH 2.5: Sơ đồ phân loại các hệ thống IDS dựa trên phương pháp
phát hiện xâm nhập
Các mô hình ML-IDS xây dựng với phương pháp học không giám sát (dé cập trong phần 2.2.1) có thể tự tìm hiểu dạng điển hình, bình thường trong mạng và đưa ra cảnh báo nếu có bất thường xảy ra, mà không cần thiết tập dữ liệu phải được gán nhãn Sử dụng thuật toán dạng này có thể phát hiện các loại tấn công
mới, nhưng tỉ lệ phát hiện sai (báo động giả) cao, tuy vậy so với việc phải cho học
lại với thời gian dài đối với mô hình Anomaly based-IDS khác, phương pháp học máy không giám sát này có thể liên tục học hỏi dữ liệu mới Một số phương pháp học không giám sát với kiến trúc ML truyền thống thường được sử dụng trong
IDS như K-means, C-means, One-Class SVM, Clustering.
Thuật toán hoc máy có giám sát trong ML-IDS cho tỉ lệ phát hiện sai thấp hơn so
với học máy không giám sát, nhờ vào mô hình học với dữ liệu đã được dán nhãn,
tức huấn luyện mô hình phân biệt sự khác nhau giữa lưu lượng kết nối bình
15
Trang 25thường và lưu lượng của kết nối tan công mạng, có thể phân biệt loại tan công
(đối với mô hình huấn luyện nhiều nhãn) Sau khi được huấn luyện, hệ thốngML-IDS có thể phát hiện ra cuộc tan công đã biết, và cả lưu lượng mang của các
vụ tấn công là biến thể của chúng hoặc tấn công mới (tan công mới chưa biết,
hoặc tan công mới so với cơ sở dữ liệu signature) Một số phương pháp học giámsát với kiến trúc ML truyền thống: Bayes Network, Random Forest, Random Tree,
One-class SVM hay với mô hình học máy hiện đại: DNN
Theo sự phát triển của các mô hình học máy, những mô hình được áp dụng trongcác hệ thống ML-IDS cũng thay đổi từ các mô hình truyền thống sang mô hình
học sâu (DL) với hiệu suất nhận diện cao.
2.3.2 Vấn dé thiếu hụt dữ liệu
Trong bối cảnh gia tăng phòng thủ cho các hệ thống mạng và máy tính, các cuộctan công mới và ngày càng tinh vi liên tục xuất hiện, các hệ thống phòng thủ cầnphải thích ứng với các loại tan công mới Hệ thống ML-IDS dù có khả năng pháthiện tan công biến thể hoặc mới, nhưng mang lại hiệu suất phát hiện thấp và tỉ lệ
âm tính giả (bỏ qua mẫu độc hại) cao, và cần được cập nhật trên dữ liệu mới một
khi phát hiện được loại tan công mới.
Trong phát hiện và phân loại xâm nhập, có hai trường hợp lưu lượng có thể bị
phân loại sai Dương tính giả (false positive) là khi lưu lượng mạng bình thường
bị coi là tan công, độc hai và bị từ chối trước khi vào hệ thống; trong khi đó, âm
tính giả (false negative) là khi lưu lượng độc hại được coi là bình thường và được
phép vào hệ thống Bên tan công cũng xây dung các mô hình học máy tần công,nhằm tập trung vào hai trường hợp trên để làm nhiễu mô hình IDS phòng thủ,đặc biệt là trường hợp tạo ra lưu lượng tấn công giả mạo là lưu lượng lành tính
để đánh lừa IDS Dù sử dụng các thuật toán học sâu tiên tiến hiệu quả cao, tỉ lệ
âm tính giả gia tăng trong các cuộc tấn công mới yêu cầu các hệ thống IDS cần
học, cập nhật dữ liệu mới.
Tuy nhiên, để có thể mang lại hiệu quả cao trong phát hiện, phân loại tan công
của các mô hình học máy, đặc biệt là học sâu đang được ứng dụng trong hệ thống
ML-IDS, cần có một số yêu cầu nhất định đối với dữ liệu huấn luyện Trong đó,
Trang 26Chương 2 CƠSỞ LÝ THUYẾT
mô hình DL yêu cầu một lượng lớn dữ liệu đã được gán nhãn (học có giám sát)
để đạt hiệu quả cao Công việc thu thập đữ liệu có thể không yêu cầu quá nhiềunguôn lực và chỉ phí, tuy nhiên việc gán nhãn cho dữ liệu tốn kém và cần nhiều
thời gian, công sức [13] Bởi vì việc gán nhãn có những yêu cầu nhất định mà khó
có thể tự động hóa việc này, làm đặt ra một van dé cần giải quyết là làm sao có thểvới một số rất ít dữ liệu có gán nhãn của loại tấn công mới, mà vẫn có thể huấn
luyện ra hệ thống ML-IDS có khả năng phát hiện loại tấn công mới với hiệu suất
cao.
2.4 Transfer learning và thích ứng miền
2.4.1 Kỹ thuật Học chuyển tiếp
Học chuyển tiếp (Transfer Learning - TL) cho phép các thuật toán học máy sửdụng những tri thức có được từ việc học các bài toán nguồn để giải quyết các bàitoán đích TL hữu ích khi huấn luyện mô hình học máy mà thiếu dữ liệu: có rất
nhiều dữ liệu ở một miền cụ thể, nhưng không có hoặc rat ít đữ liệu được gan
nhãn ở một miền tương tự khác Trong bat kì ngữ cảnh TL nào, dữ liệu nguồn
và đích có thể khác nhau về miền (như là không gian thuộc tính, phân phối của
thuộc tính), bài toán (không gian nhãn, mục tiêu dự đoán) Dựa trên sự khác biệt
về miễn, bài toán, cũng như lượng du liệu được gan nhãn, có thể chia TL thành 3
loại [10]:
® Quy nap (inductive): Miễn đích tương tự hoặc khác miền nguồn, bài toán
đích luôn khác tác vụ nguồn, có một ít di liệu có nhãn ở miễn dich
© Diễn dịch (transductive): Miền đích và nguồn khác nhau nhưng có sự liên
quan với nhau, và bài toán nguồn và dich là như nhau
¢ Không giám sát (unsupervised): Miền nguồn và đích khác nhau hoàn toàn
và không có dữ liệu được gán nhãn ở miền đích
2.4.2 Kỹ thuật thích ứng miễn
Kỹ thuật thích ứng miền (DA) là một trường hợp đặc biệt của học chuyển tiếp
điễn dịch (Transductive transfer learning) DA có thể được phân loại chỉ tiết thêm
17
Trang 27dựa trên không gian thuộc tính của mién nguồn và đích (cùng hoặc khác không
gian thuộc tính), dựa trên số lượng dtr liệu được gan nhãn ở miễn đích (DA có
giám sát, bán giám sát, và không giám sát).
Phuong pháp thích ứng miễn có thể được mô họa theo Hình 2.6 Hình khối màu
lục và màu lam đại điện cho dữ liệu miền nguồn và miền đích Hình dạng khối
khác nhau đại điện cho các nhãn dữ liệu khác nhau Miễn dữ liệu nguồn có số
lượng nhãn bằng với miền dữ liệu đích, và mỗi nhãn dữ liệu trong một miền chỉ
có thể liên kết với một nhãn dir liệu trong miễn kia Sau khi áp dụng phươngpháp thích ứng miễn, dữ liệu của hai miền khác nhau với cùng một loại nhãncàng được ánh xa gần nhau va di liệu trong cùng một miễn nhưng khác nhãnđược ánh xạ cách xa nhau nhất có thể
Domain
—
Adaptation
Source domain: ® * A Target domain: [| /\ ýy
HINH 2.6: Minh hoa kỹ thuật thích ứng miền
Trang 28Chương 2 CƠSỞ LÝ THUYẾT
Kỹ thuật thích ứng miễn đối kháng (Adversarial DA) là một thuật toán sử dụng
GAN để học cách ánh xạ bắt biến trên miền giữa tập dữ liệu nguồn và đích Cáccách tiếp cận phương pháp này thường sử dụng các framework GAN thông dụng,
nhưng khác nhau về mô hình bên dưới (sử dụng Generator hay Discriminator),
về hàm mắt mát được sử dụng, hay về việc trao đổi trọng số giữa Generator vàDiscriminator Các cách tiếp cận này đều chung một mục tiêu là giảm thiểu đối
da giá trị của các hàm mắt mát, như ham mat mát khi dự đoán miền, dự đoánnhãn, trong lúc học các trích xuất thuộc tinh bat biến trên miền
2.5 Mạng sinh đối kháng
2.5.1 Tổng quan
Mạng sinh đối kháng (Generative Adversarial Networks - GAN) là một mô hìnhgồm 2 mạng nơ-ron nhân tạo đối đầu nhau và có khả năng sinh dữ liệu mới dựa
trên một tập di liệu huấn luyện ban dau Ý tưởng của GAN bắt nguồn từ những
trò chơi đối kháng 2 người trò chơi có tổng bằng không như cờ vua, cờ tướng khinếu một người thắng thì người còn lại sẽ thua, và ở mỗi lượt chơi trong đó cả
2 đối thủ muốn tối đa hóa cơ hội thắng của mình và giảm cơ hội thắng của đối
phương Bộ sinh (Generator) và Bộ phân biệt (Discriminator) trong mạng GAN
giống như 2 đối thủ trong trò chơi
Theo lý thuyết, mô hình GAN hội tụ khi cả Generator và Discriminator đạt tới
trạng thái cân bằng, tức là 2 người chơi đạt trạng thái cân bằng, như thế hoà
trong môn cờ, và việc đi tiếp các bước không làm tăng cơ hội thắng Việc đối đầu
lẫn nhau của hai đối thủ, hay hai thanh phần trong mạng GAN giúp cả hai ngàycàng giỏi hơn, và sau quá trình huấn luyện, GAN, hay nói chính xác hơn là bộsinh của GAN, cũng có khả năng sinh ra dữ liệu mới rất gần với những dữ liệu
đã học được.
Mang sinh đối kháng gồm 2 thành phan chính là:
¢ Bộ sinh (Generator): Mạng nơ-ron có nhiệm vụ sinh ra dữ liệu mới giốngthật, như các chữ số viết tay với dữ liệu trong bộ dữ liệu MNIST với đầu
vào là các giá trị ngẫu nhiên (nhiễu) để sinh đầu ra giống thật có khả năng
khiến bộ phân biệt không thể phát hiện thật giả
19
Trang 29¢ Bộ phân biệt (Discriminator): La mạng nơ-ron có khả năng phân biệt dữ liệu được tạo từ Bộ sinh, phân biệt xem dtr liệu là thật (dữ liệu từ dataset) hay giả (dữ liệu sinh ra từ bộ sinh).
Quá trình huấn luyện diễn ra khi bằng các để hai mạng nơ-ron cùng cạnhtranh với nhau Bộ sinh cố gắng tạo ra dữ liệu giống thật nhất có thể trong khi
bộ phân biệt có gắng phân biệt dữ liệu mà bộ sinh tạo ra là thật hay giả và phảnhồi lại cho bộ sinh để cải thiện, cứ như thé quá trình này lặp đi lặp lại để bộ sinh
có thể tạo ra mẫu đối kháng hoàn hảo nhất mà bộ phân biệt không thể phân biệt
được nữa Với quá trình này, GAN có thể tạo ra các dữ liệu mới có chất lượng
cao, giống với dữ liệu từ tập huấn luyện, và được sử dụng rộng rãi trong các ứng
dụng như tạo ảnh, video.
càng khó phân biệt bằng mat thường Đồng thời với việc tạo khuôn mặt,
GAN cũng có khả năng thay đổi các biến thể theo từng độ tuổi cho khuôn
mặt đó.
* Tạo tư thế, dáng người: Bên cạnh khuôn mặt, GAN cũng được ứng dụng
trong việc tạo ra các dáng đứng của người như chụp ảnh thật, thường sử
dụng trong lĩnh vực thời trang Việc thuê người mẫu chụp ảnh với những
bộ trang phục tốn khá nhiều thời gian va chi phí, GAN có thể giảm được chiphí này bằng cách tạo ra những bức ảnh với những tư thé và bộ trang phụckhác nhau Tuy nhiên việc huấn luyện để có thể tạo ra những bức ảnh hoànhảo và nhìn gần giống thật nhất là một vấn đề khó khăn
¢ Sinh ảnh các vật thé: GAN còn có thé tạo ra hình ảnh của nhiều đối tượng
khác nhau không chỉ riêng con người, mà có thể áp dụng cho các loài dong vật hoặc dé vật khác Thậm chí GAN có thể tạo ra các nhân vật hoạt hình
thay thế cho con người, giúp tiết kiệm thời gian và nhân lực
Trang 30Chương 2 CƠSỞ LÝ THUYẾT
¢ Xử lý văn bản thành hình anh: GAN có thể đọc một đoạn văn mô tả va tao
ra bức ảnh phù hợp với nội dung được thể hiện trong đoạn văn đã cung cấp
® Khôi phục và tạo hình ảnh: GAN có thể từ một bức ảnh chụp chân dungchính diện, tạo ra ảnh từ góc nhìn khác nhau của người đó Ngoài ra, đối
với các bức ảnh bị mờ hoặc bị hư hỏng, GAN có thể khôi phục lại với độ
phân giải cao hơn, hay tái tạo lại ảnh hoàn chỉnh.
Thay đổi sắc thái của hình ảnh: Cùng một bức ảnh phong cảnh, GAN có thểtạo ra các thay đổi khác nhau của nó như độ sáng tối của thời điểm trongngày, thay đổi của cảnh sắc theo mùa Khi chưa có GAN, có thể chuyển đổi
bằng việc chuyển đổi màu sắc bằng các thuật toán thị giác máy tính truyền
thông, tuy nhiên ảnh tạo ra không tự nhiên, nhìn không giống thực tế vàphải tinh chỉnh nhiều GAN có thể học và tận dụng được các đặc trưng khái
quát trong hình ảnh, và màu sắc theo thời gian, theo mùa từ nguồn di liệu
phong phú nên ảnh tự nhiên và khó phân biệt hơn.
2.6 Tình hình nghiên cứu và các công trình liên quan
Mỗi cuộc tân công mới liên tiếp nhau xuất hiện trong một khoảng thời gian ngắn
với độ đa dạng, tinh vi, phức tạp và nguy hiểm gia tăng là mối đe doa lớn đối với
ha tang mạng máy tính, công nghệ thông tin, có thể gây ra những thiệt hại nang
nề mà khó bị kiểm soát một cách nhanh chóng, triệt để Với sự phát triển đó, hệthống phát hiện xâm nhập mà đặc biệt là hệ thống phát hiện xâm nhập mạng(NIDS) trở trành một công cu thiết yêu để phát hiện, phân loại các cuộc tan cong
mang và hệ thống máy tinh Phương thức hoạt động của NIDS sẽ tiến hành phân
loại các lưu lượng mạng thu được trong toàn hệ thống mạng và đưa ra cảnh báonhững lưu lượng mạng không an toàn, hoặc lưu lượng tan công, độc hại
Với các bài toán phân loại, sự xuất hiện và áp dụng các thuật toán học máy đãđược triển khai rộng rãi trong thực tế trên nhiều lĩnh vực khác nhau mà phổbiến là phân loại ảnh Trong đó hướng tiếp cận của các hệ thống IDS, NIDS dựatrên các mô hình hoc máy truyền thống cũng đạt được kết quả tốt, với nhiều
thuật toán học máy khác nhau như K-Nearest Neighbor, Support Vector Machine,
Decision Tree [15] đã được dùng để phân loại dữ liệu Bên cạnh đó, với sự phát
21
Trang 31triển nhanhh chóng của học sâu, một số thuật toán như Mạng thần kinh tích chập
(CNN),Mạng thần kinh hôi quy (RNN) cải thiện độ chính xác hơn so với mô hìnhhọc máy truyền thống [1], [6]
Mặc dù có các kết quả tốt, nhưng các bài toán phân loại, phát hiện xâm nhập củacác hệ thống IDS học máy (ML-IDS) bỏ qua van dé thiếu hut dữ liệu, giả địnhluôn có day đủ dữ liệu để huấn luyện và đánh giá mô hình trong khi các hệ thốngIDS cần nhận diện được các cuộc tan công mới với gần như ít dữ liệu liên quan.Vấn đề xảy ra khi mô hình IDS được huấn luyện trên một tập dữ liệu có thể khácbiệt về đặc điểm với tập dữ liệu thực tế mà nó phải đối mặt, dẫn đến sự suy giảmhiệu suất của mô hình khi áp dụng vào các môi trường mới, phát hiện cuộc tan
augmentation như SMOTE (Synthetic Minority Over-sampling Technique) hoặc
ADASYN (Adaptive Synthetic Sampling) đã được áp dung trong thích ung miềncho IDS Phương pháp transfer learning (học chuyển tiếp) tập trung vào việc chia
sẻ và tái sử dụng kiến thức đã học từ mô hình nguồn để cải thiện hiệu suất trên
mô hình đích Có nhiều nghiên cứu tìm cách áp dụng transfer learning vào IDS,bao gồm việc sử dụng các thuật toán transfer learning như Domain Adversarial
Neural Networks (DANN) hoặc Joint Distribution Adaptation DA) GAN cũng
đã được áp dung trong nhiều lĩnh vực, bao gồm thích ứng miễn cho IDS Phuongpháp này có gắng tạo ra dữ liệu giả mô phỏng tập dữ liệu đích từ tập dữ liệunguồn Một số mô hình GANs đã được dé xuất như Domain-Adversarial Train-
ing of Neural Networks hoặc Adversarial Feature Adaptation (AFA).
Các nghiên cứu của Tzeng et al.[16] và Ganin et al.[2] da dé xuất ra các bộ khung
sử dung kỹ thuật thích ứng miễn đối kháng (adversarial domain adaptation) dựa
trên GAN và ứng dụng trên lĩnh vực phân loại ảnh, tuy nhiên các bộ khung này
thích hợp cho các bài toán phân cụm và học không giám sát cũng như chưa được
đánh giá trong các bộ dữ liệu tắn công mạng Nghiên cứu của tác giả Wengang[8] đã đề xuất phương pháp FIADDA (Few-shot adversarial omain adaptation)
Trang 32Chương 2 CƠSỞ LÝ THUYẾT
với chiến
nhập tron
lược ghép miễn đôi (dual domain pairing) cho hệ thống phát hiện xâm
g mạng IoT chỉ với một vai mẫu dữ liệu trong miễn đích
Nhóm chúng tôi dựa trên hai nghiên cứu chính của tác giả Singla et al [13] và Chen et a [1] Nghiên cứu của tác giả Singla et al [13] đã nghiên cứu ứng dụng
GAN để tạo ra các mẫu dữ liệu đối kháng, bat biến theo miền nhằm vượt qua
được sự t
liệu được
hiếu hụt dữ liệu Tuy nhiên vấn dé tôn tại trong việc tạo ra mẫu dữ
Chen et al.[1] đề cập khi toàn bộ thông tin mà mẫu dữ liệu khi đưa vào
huấn luyện không được diễn đạt toàn bộ trong mạng nơ-ron ở một góc nhìn, cũngphải mang quá nhiều thông tin để cùng biểu diễn về nhãn tắn công, và miền dữ
liệu làm c ho hiệu năng mô hình giảm Trong khóa luận này, chúng tôi tìm hiểu
phương pháp mà tác giả Singla nghiên cứu, đồng thời áp dụng phương phápđược Chen đề xuất vào bài toán phát hiện xâm nhập mạng
23
Trang 33PHƯƠNG PHÁP THỰC HIỆN
Tóm tắt chương
Trong chương này, chúng tôi sẽ trình bày chỉ tiết về kiến trúc, cách hoạt động của
mô hình học máy phát hiện xâm nhập áp dụng GAN và kỹ thuật thích ứng miền
để giải quyết van dé khan hiếm dữ liệu huấn luyện Trong đó, các mô hình đượcchúng tôi trình bày bao gồm DANN, DAGAN, Attention-DAGAN
3.1 Kiến trúc tổng quát
Để hiện thực hóa bài toán xây dựng mô hình hệ thống phát hiện xâm nhập cóthể nhận diện được các cuộc tan công mới với một SỐ lượng rất nhỏ dữ liệu được
gan nhãn liên quan đến loại tan công mới này, chúng tôi xây dựng các mô hình
máy học có kiến trúc tổng quát dựa trên mô hình DANN (Domain-Adversarial
Training of Neural Networks) của tác giả Ganin et al [2] được mô tả trong hình 3.1 với trung tâm là mô hình GAN với Generator (bộ sinh) và Discriminator (bộ
Proproosssing Ì` Tangt kê Class
Target Preprocessing ,| Target | | 8 Classiier >| CaS
HINH 3.1: So dé kiến trúc DANN của tác giả Ganin et al [2]
Trang 34Chương 3 PHƯƠNG PHÁP THỤC HIỆN
Generator nhận đầu vào là đữ liệu mang ở miễn nguồn (đại điện cho các cuộc
tấn công đã biết) và miền đích (dữ liệu về cuộc tan công mới) với nhiệm vụ làmgiảm sự chênh lệch, khác biệt trong không gian thuộc tính ở hai miễn, tạo ra
đạng biểu diễn trung gian có thể tổng quát hóa, thể hiện được các đặc trưng
của cả hai miền, tức là tạo ra một ánh xạ chung bất biến theo miền (common
domain-invariant mapping) để đánh lừa Discriminator trong nhận dạng mau dữ
liệu thuộc về miễn nguồn hay miền dich Dữ liệu được Generator tạo ra được sử
dụng cho hai nhiệm vụ là @ đưa qua bộ phân biệt (Classifier) để nhận diện mẫu bình thường (lành tính) hay mẫu bất thường (tan công, độc hai) va @ đưa vào
Discriminator để phân biệt miền dữ liệu của mẫu.
Mục đích cuối cùng của mô hình DANN đựa trên GAN nhằm phân tích các thôngtin chéo nhau ở hai miền, ánh xạ hai không gian đặc trưng sang cùng một không
gian bat biến theo miền và Discriminator đánh giá độ trùng khớp của hai không
gian đặc trưng trong không gian mới được ánh xạ để nâng cao hiệu quả củaGenerator Generator và Discriminator liên tục đối đầu nhau để Generator có thểtạo ra mẫu dữ liệu ánh xạ chung mà Discriminator không thể phân biệt được là
dữ liệu của miền nguồn hay của miền đích, cũng như là mẫu dữ liệu này biểudiễn được không gian đặc trưng của miễn nguồn và mién đích trong phân phốiánh xạ chung để bộ phân biệt có thể dự đoán đúng nhãn của dữ liệu Đến khiGenerator có thể tạo ra dữ liệu chung mà Discriminator không thể phân biệt làmiễn nào, thì ta có thể sử dụng Generator để vượt qua sự thiếu hụt dữ liệu ở miền
đích bằng cách sử dụng các dir liệu ở miễn đã được ánh xạ nhằm mục đích huấn
luyện mô hình phân biệt.
Dựa trên kiến trúc DANN, trong khóa luận này chúng tôi @ xay dung, thuc
nghiệm lại mô hình DAGAN, @® tham khảo từ mô hình IADA [1] mô-đun trích
xuất đặc đặc trưng đa góc nhìn cùng với cơ chế Attention ứng dụng vào mô hình
DAGAN, gọi là mô hình Attention-DAGAN, đồng thời ©) thử nghiệm với các loại
mạng nơ-ron khác nhau cho mô-đun trích xuất đặc trưng để so sánh và cải thiện
hiệu năng, độ chính xác.
25
Trang 353.2 Phương pháp xây dựng
3.2.1 Xử lý div liệu - Đẳng cầu hóa không gian đặc trưng
Trong bối cảnh các loại tan công phát triển đa dang, tinh vi, cũng như nhu cầuphát hiện các loại tấn công trong một hệ thống mạng như IoT thì bộ dữ liệu miềnnguôn và miễn đích có sự khác biệt về payload tan công, có các giao thức mạngđặc trưng khác nhau, thuộc tính trích xuất cũng thay đổi do công cụ trích xuất
phát triển, cũng như các thuộc tính đặc trưng khác Hai bộ dữ liệu khác nhau
có số chiều, số lượng thuộc tính và không gian đặc trưng khác nhau Vì vậy, để
có thể huấn luyện GAN hoạt động hiệu quả trên hai bộ dữ liệu, không gian đặctrưng và phân phối đặc trưng cần giảm sự sai khác và đồng nhất hơn Phương
pháp đẳng cấu hóa không gian đặc trưng có thể căn chỉnh lại không gian đặc
trưng của các bộ dữ liệu đồng thời giảm được số chiều của dữ liệu gốc, trongphạm vi khóa luận chúng tôi sử dụng mô hình mạng Autoencoder nhằm thực
hiện việc này Việc chuyển đổi không chỉ căn chỉnh nhằm huấn luyện GAN hiệu
quả hơn, mà còn giảm được số chiều của dữ liệu, tránh tình trạng học quá khớp(overfitting) thường xảy ra ở học sâu do mô hình có gắng học tat cả thông tin mà
nó nhận được.
Phương pháp đẳng câu hóa có thể diễn giải dưới dạng toán học như sau: giả sử
không gian đặc trưng của miền nguồn D; biểu diễn bởi Xs x Ys, không gian đặc
trưng của miền đích D¿ biểu diễn dưới dang X¢ x Yt, do sự sai khác không gianđặc trưng hay Xs # X¢ nên cần có một phương pháp để biến đổi Ds va Dt sao cho
Dy = Xx ys dang cầu với D, =X, x Ye
Chúng tôi sử dụng mô hình Autoencoder với khả năng chuyển đổi không gianđặc trưng của dữ liệu thành một dạng biểu diễn có số chiều ít hơn mà vẫn giữ
được những đặc tính quan trong, ít mất mát Mô hình Autoencoder chúng tôi sử
dụng bao gồm các lớp Fully Connected cho bộ Encoder và Decoder được mô tả ởHình 3.2 và các thông số về số nơ-ron và hàm kích hoạt được đề cập trong Bảng
3.1, trong đó F là số chiều đầu ra của Encoder (hay là số chiều của dữ liệu sau khi
giảm chiều, số chiều nén) và M là số nơ-ron của lớp Fully Connected đầu tiên
Dữ liệu từ bộ dữ liệu sau khi được xử lý sơ bộ (được trình bày cụ thể hơn ở
phan 4.1.4) bằng cách chon lọc di liệu, loại bỏ các dòng dữ liệu không hợp lệ,
Trang 36Chương 3 PHƯƠNG PHÁP THỤC HIỆN
Input Recreated Input
¥v
Fully Connected Layer Fully Connected Layer
Activation (ReLU) Activation (Sigmoid)
^
ỶỲ
Fully Connected Layer Fully Connected Layer
Activation (ReLU) Activation (ReLU)
^
Ỳ
Fully Connected Layer Fully Connected Layer
Activation (ReLU) Activation (ReLU)
^
¥
Fully Connected Layer Fully Connected Layer
Activation (ReLU) Activation (ReLU)
BẢNG 3.1: Bảng thiết kế các lớp của mô hình Autoencoder
Lớp Số lượng nơ-ron Hàm kích hoạt
Input input_dim Sigmoid
Fully Connected M ReLU Fully Connected M//2 ReLU Fully Connected M//4 ReLU
Fully Connected M//8 ReLU Fully Connected F ReLU
Fully Connected M//8 ReLU Fully Connected M//4 ReLU Fully Connected M//2 ReLU
Fully Connected M ReLU Fully Connected input_dim Sigmoid
27
Trang 37làm đầu vào cho bộ Encoder để nén, dữ liệu được giải nén ở Decoder và so sánh với dữ liệu ban đầu để huấn luyện mô hình Autoencoder.
Fully Connected Layer Fully Connected Layer
Activation layer (ReLU) Activation layer (ReLU)
Batch Normalization layer Batch Normalization layer
| Ỷ
Fully Connected Layer Fully Connected Layer
Activation layer (ReLU) Activation layer (ReLU)
Batch Normalization layer Batch Normalization layer
| Ỳ
Fully Connected Layer Fully Connected Layer
Activation layer (ReLU) Activation layer (ReLU)
Batch Normalization layer Batch Normalization layer
Fully Connected Fully Connected
HÌNH 3.3: Hình anh mô tả cau trúc của Generator va Discriminator
trong mô hình DAGAN
Trong mô hình DAGAN, Generator và Discriminator được xây dựng là các mô
hình gồm các lớp kết nối day đủ (fully connected layer) Trong đó Generator bao gồm mô-đun sinh di liệu ánh xạ và mô-đun phân biệt, nhận đầu vào là các bản
ghỉ lưu lượng mang đã được xử lý, bao gồm cả miền nguồn và miễn đích, lớp nhận diện mẫu dữ liệu là tan công hay lành tính cũng nằm trong Generator, đầu
ra của Generator bao gồm hai thành phan là bản ghi dữ liệu đã được ánh xạ sang miễn phân phối chung, và nhãn phát hiện tấn công của các bản ghi đã đưa vào Các bản ghi dữ liệu đã ánh xa được đưa đến Discriminator để phân biệt miền ban đầu của mẫu dữ liệu Hình 3.3 mô tả kiến trúc thiết kế của mô hình DAGAN.
Trang 38Chương 3 PHƯƠNG PHÁP THỤC HIỆN
Generator và Discriminator trong mô hình DAGAN của khóa luận này được
chúng tôi tham khảo kiến trúc và thử nghiệm tinh chỉnh các thông số của mô hình so với mô hình dé xuất của tác giả Thông số thiết kế của Generator và Dis- criminator được thể hiện cụ thể trong Bảng 3.2 (đối với Generator) và 3.3 (đối với
Discriminator)
BANG 3.2: Bang thiét ké Generator trong mô hình DAGAN
Lớp Số lượng nơ-ron Hàm kích hoạt
Đầu vào input_dim = Số
-chiéu sau khi hoan
Trang 39BẢNG 3.3: Bảng thiết kế Discriminator trong mô hình DAGAN
Lớp Số lượng nơ-ron Hàm kích hoạt
Đầu vào input_dim = M//4
-Fully Connected N ReLU
-Dau ra Fully Connected 1 Sigmoid
Ham mat mát của mô hình
Trong quá trình đào tạo Discriminator nhận dữ liệu đã được ánh xạ vào một
không gian đặc trưng chung của hai miền từ Generator và phân biệt mién cho mẫu dữ liệu đó, vi vậy Discriminator học được qua hàm mat mát trên miền (do-
main loss function) và gửi đánh giá về cho Generator Ham mat mát trên miền ở
Discriminator được tính toán như công thức (3.1)
Bởi vì Generator vừa làm nhiệm vụ tạo ra bản ghi dữ liệu ánh xạ và phân biệt bản ghi là độc hai hay lành tính nên Generator vừa nhận đánh giá từ Discriminator
thông qua ham mat mát trên miền (domain loss function) va ban thân thông tin
Trang 40Chương 3 PHƯƠNG PHÁP THỤC HIỆN
phân biệt nhãn của dữ liệu mà Generator học được qua hàm mat mát trên lớp
(class loss function).
Hàm mắt mát trên lớp được thể hiện qua công thức (3.2)
d (=1
Trong đó: G(x) là xác suất Generator phân loại một mẫu dữ liệu do nó sinh ra
là mẫu dữ liệu tấn công Va 1 — G(x) là xác suất Generator phân loại một mẫu
dữ liệu do nó sinh ra là mẫu dữ liệu lành tính Và hàm mat mát tổng hợp tại
Generator là 3 [Lclass + Ldomain]
Thuật toán huấn luyện mô hình
Algorithm 1 Huấn luyện DAGAN
for i= 1, 2, 3, number of batches do
Lấy d (batch_size) bản ghi dữ liệu từ tập dữ liệu nguồn
Lay d (batch_size) bản ghi dữ liệu từ tập dữ liệu đích (bắt đầu lại từ đầu tập
dữ liệu néu batch vượt quá index của tập
Huấn luyện Discriminator: Tính toán giá trị của hàm mắt mát sử dụng
Adam optimizer để giảm gradient theo công thức Lgomain
Huấn luyện Generator: Tính toán giá trị của hàm mat mát sử dụng Adamoptimizer để giảm gradient theo công thức 4 [Lctass + Ldomain]
Quá trình huấn luyện mô hình DAGAN được mô tả trong thuật toán 1, tóm tắtnhư sau: Thuật toán bắt đầu bằng việc duyệt qua tập dữ liệu nguồn và đích, vớimỗi lần lấy từ tập dữ liệu nguồn và đích với cùng một lượng đữ liệu như nhauvới số lượng là d Generator học và cập nhật trọng số của chính nó để tối đa hóa
giá trị domain loss và tối thiểu hóa giá trị class loss trên lượng dữ liệu nay với
bằng công thức Š [Letass + Ldomain] Trong bước này, trọng số của Discriminator
vẫn được giữ nguyên Sau đó Discriminator học và cập nhật trọng số của chính
31