Trong phạm vi khóa luận, chúng tôi thiết kế và giới thiệu DIGFuPAS Deceive IDS with GAN and Function-Preserving on Adversarial Samples, một bộ khung Framework dựa trên mạng sinh đối khán
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG
CAO PHAN XUAN QUI
DANG HONG QUANG
KHOA LUAN TOT NGHIEP
MANG KHA LAP TRINH
STRENGTHENING ROBUSTNESS OF IDS USING GAN IN
SDN-ENABLED NETWORKS
KY SU NGANH AN TOAN THONG TIN
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MÁY TÍNH VÀ TRUYÈN THÔNG
CAO PHAN XUAN QUI - 17520953
DANG HONG QUANG - 17520944
KHOA LUAN TOT NGHIEP
TANG CUONG KHA NANG PHAT HIEN TAN CONG
BANG MANG SINH DOI KHANG TRONG
MANG KHA LAP TRINH
STRENGTHENING ROBUSTNESS OF IDS USING GAN IN
SDN-ENABLED NETWORKS
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
TS PHAM VAN HAU
THS PHAN THE DUY
TP HO CHi MINH, 2021
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Dé hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Bangiám hiệu Trường Dai học Công nghệ Thông tin — Đại học Quốc Gia Thành Phố HồChí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô giảng
dạy tại trường nói chung và Khoa Mạng máy tính & Truyền thông nói riêng vì đãtruyền đạt những kiến thức chuyên môn bé ích, những kinh nghiệm thực tế quý báu
mà chúng tôi đã học hỏi được trong suốt quá trình học tập, rèn luyện tại trường
Chúng tôi xin gửi lời tri ân và biết ơn đến TS Phạm Văn Hậu đã trực tiếp quantâm, hướng dẫn tận tình trong suốt quá trình thực hiện đề tài Xin đặc biệt gửi lời cảm
ơn trân trọng nhất đến ThS Phan Thế Duy, là người đã định hướng, dẫn dắt va đồnghành rất sớm cùng chúng tôi không chỉ trong khoá luận này mà cả trong toàn bộ
những thành tựu chúng tôi đã đạt được.
Bên cạnh đó, với tình cảm sâu sắc và chân thành, chúng tôi cũng xin cảm ơncác thầy cô, anh chị đang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab
vì đã luôn tạo điều kiện về cơ sở vật chất với hệ thống máy chủ hiện đại, luôn sẵn
sàng nhiệt tình hỗ trợ chúng tôi về chuyên môn lẫn kinh nghiệm trong các hoạt động
nghiên cứu và thực hiện khoá luận.
Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắnkhông tránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp,phê bình từ quý thầy cô trong hội đồng dé khóa luận được hoàn thiện hơn
Nhóm thực hiện.
Trang 5MỤC LỤC
Chương 1 TONG QUAN ĐÈ TÀI ¿5£ SE SE+EE+EEEEEEEE2EEEEEEEEEEEEkrrxrrrrei 2
LL Lý đo chọn đề tài - - 5s 5+1 2E EEEEEEEEE1211011211211 21111111111 11c ty 2
1.2 Mục tiêu nghiÊn CỨU 5 << <3 111 TH nh 3
2.1 Tình hình nghiên cứu va các công trình liên quan s5 + 55<++ss>+ 5
2.2 Một số cải tiến so với khoá luận trước : cccc+cc+c+ccverrrrxeerrrrked 7
23 Ý nghĩa khoa học và thực tiễn của GG tài tt ng HT rrggrrrkg 8
2.3.1 Ý nghĩa khoa học 2-ce+Ek+Ek‡EEEEEEEEEEEEEEEEErrkerkrred 8
2.3.2 Ý nghĩa thực tiễn -¿©-+c+ckcEEkerkerkrrrrerkrerkesree 92.3.3 Công bố khoa học ¿- 2 £+E+E£EE‡EESEEEEEEEEEE2EEEEEEEerkerkrree 10Chương 3 CO SỞ LÝ THUYÊTT 2-52 ©ESE+EE+EE£EEEEE2EEEEEEEerkerkrrkrree 11
3.1 Kiến trúc mạng khả lập trình SDN ou eesecseessessessessessessesseestesesseesees 11
3.1.1 TOmg Quaneeeccecceccccccccscsssseesessessessesssssssussesscsessesscsscsussecsessesseesessesseaee 113.1.2 Ung dụng SDN trong các hệ thống mạng hiện đại - 153.2 Hệ thống phát hiện xâm nhập IDS - 222 2+++£E£+£z+£++zxzxeez 17
3.2.1 Tổng quan 52+5£+E£+EEEEEEEEEEEEEEEEE1212111 211 xe 17
3.2.2 IDS dựa trên phương pháp học máy - -. «+s«x++ccsskessesees 19
3.2.3 Nhu cầu kiểm tra và huấn luyện tăng cường IDS - 21
Trang 63.3.1 Tổng quan -. c2cc2ck2EkEEEEEEEEEkrrrkerrerkrerkee 223.3.2 Một số ứng dụng -¿- 25c + EEEEEE121121121 2111111 cxe 23
3.3.3 Mô hình Wasserstein-GAN nn SH HS ng ven, 25
3.3.3.1 Khái niệm liên tục LIpCh1L7 55 5-5 + ksseereeeeesere 25
3.3.3.2 Wassertein GANN -ccQ ng HT ng ng ven 25
3.3.4 _ Tấn công đối kháng © +ce+Ek+EE2E2EEEEEEEEEEEEkerkrrree 27
3.3.5 Phong chống tấn công đối kháng - 2-2 z+cz+ce+rxerse+ 29
Chương 4 _ PHƯƠNG PHAP THỰC HIỆN -2- 2-©2+2z+£+z+zxczrseee 31
4.1 Xây dựng và huấn luyện bộ khung DIGFuPAS .: -:-5+ 3l
4.1.1 Tiền xử lý đữ liệu - - + +E+EESEESEEEEEEEEEEErkerkerkerkerkee 314.1.2 _ Xây dựng kiến trúc DIGFuPAS - 2 s+2sz+£z+reerxerseee 36
4.1.2.1 IDS hộp den (Blackbox IDS — B-IDS) - -<<-<<<+2 37
4.1.2.3 Bộ phân biệt (Discriminator — Ì)) - s << s£++se+seeeeses 40
4.1.3 Quá trình huấn luyện - 2 ++s++E+EE+EESEEEEESEEEEEerkerkerkerkee 414.2 Tự động kiểm thử va tăng cường khả năng phát hiện tan công cho IDS 414.3 Thiết kế mô hình triển khai trên kiến trúc mang SDN - 43Chương 5 KET QUA VÀ THẢO LUẬN 2- 2 2+5z+E+Ecrkerkerkerxersrree 46
5.1 Phuong phap danh gia ha 'A 46
5.2 Thực nghiệm DIGFuPAS va Tăng cường IDS .- c5 48
5.2.1 Môi trường thực nghiỆm sseeseeseeseeesseeseseesesseseeeseeeaees 48
5.2.3 _ Tăng cường IDDS - SG Gv 1 HH HH ng ng 50
Trang 75.3 Triển khai trên môi trường SDN -¿-2-©2++2++2cxv2zxvrxrerxesrxrrrxees
Chương 6 KÉT LUẬN VÀ HƯỚNG PHAT TRIEN
. : -: 6.1 Kết luận 2¿©2+c22+22+t2EE22E2E1E211221211211221211 211.21 tre
Trang 8DANH MỤC HÌNH ANH
Hình 3.1: Mô hình mạng truyền thống . -2- 2 22 £+S£+££+E£E+rEerxerxersxee 11Hình 3.2: Ba thành phan chính trong kiến trúc mang SDN - 2-2 13Hình 3.3: Mô hình mạng trong kiến trúc SDN - 2 2 2++x£x+£x+zszzsse2 14Hình 3.4: Triển khai NIDS ở chế độ Promicious Mode - - ss+sesszszs+z 18Hình 3.5: Triển khai NIDS ở chế độ Inline Mode - : :¿+cs+z+ccvecz+ 19
Hình 3.6: Kiến trúc của ML IDS c¿¿-25+cctttEEkterrttrktrrrrtrtrrrrrrtrrrrrrrriig 20
Hình 3.7: IDS đóng vai trò phòng thủ quan trong ¿+ sssss+sx+essersss 21
Hình 3.8: Ví du sinh dữ liệu là các chữ số viết tay từ bộ dữ liệu MNISTT 22Hình 3.9: Mô hình Mang sinh đối kháng GAN ¿-2¿©2++2+z2cxrsrxerxesree 23Hình 3.10: Kiến trúc GAN cccccc2vt 2tr tre 26Hình 3.11: Kiến trúc WGAN -cccc222 tt tr rie 27Hình 3.12: Ví dụ về tan công đối kháng trong phân loại ảnh - 28Hình 4.1: Mô hình huấn luyện DIGEuPAS - 2 s2 2 £+££+E££E+zEezxerxzrszsez 37Hình 4.2: Quá trình sinh dữ liệu đối kháng bảo toàn chức năng 40Hình 4.3: Luéng xử lý của ML-Based IDS Container trong mang SDN 43Hình 4.4: Mô hình triển khai các chức năng phòng thủ dưới dạng VNE 45Hình 5.1: Mô tả luồng dif liệu qua các hoạt động - 2-2 2 se x+x+zs+zsse2 46Hình 5.2: Mô hình hệ thong mạng thực nghiỆm - - «+ + + +++xe++see+sses 52Hình 5.3: Log hoạt động của bộ trích xuất thuộc tính s- z s+x+xexzxzxezezxz 54
Hình 5.4: Log hoạt động của IDS - - - c1 c1 391 91 1 1 1 1H ng ng 54 Hình 5.5: Tép CSV đã được IDS gan nhãn - 5 SE + set 55
Trang 9DANH MỤC BANG BIEU
Bảng 3.1: So sánh kiến trúc mạng truyền thống và kiến trúc mạng SDN 14Bảng 4.1: Thông tin phân bé dữ liệu trong bộ dit liệu CICIDS-2017 32Bang 4.2: Bảng phân bồ dữ liệu các nhóm tan công 2 2 ¿+ s2 s+£s2 +2 34Bang 4.3: Các thuộc tính đặc trưng cho từng nhóm tan công - 5 38Bảng 4.4 Bảng thiết kế bộ sinh ¿5:52 S222E2EEE2EE22EE2EE2EEE2EEEECEErrrkrcree 39Bảng 4.5: Bảng thiết kế bộ phân biệt - 2-22 52252 2E£2EE22EE2EEtEEEeExezrxerresree 40Bảng 4.6: Tiến trình bắt gói tin và trích xuất thuộc tính -¿ ¿sz5+=++ 44Bang 4.7: Tiến trình phân tích lưu lượng của mô-đun IDS - 2-5: 44Bang 5.1: Kết quả thử nghiệm tỉ lệ phát hiện của IDS ¿2-5 5552552 49Bang 5.2: Kết quả thử nghiệm tỉ lệ phát hiện của IDS tăng cường 50
Bang 5.3: So sánh FT Score của IDS trước và sau tăng cường -«« 51
Bang 5.4: Thông tin các thành phan trong mô hình mạng SDN .- 53
Trang 10DANH MỤC TỪ VIET TAT
STT Thuật ngữ Mô tả
1 IDS Intrusion Detection System
2 IPS Intrusion Prevention System
3 ML Machine Learning
4 ML IDS Machine Learning Based IDS
5 SDN Software-Defined Networking
6 API Application Programming Interface
7 GAN Generative Adversarial Networks
8 WGAN — WassersteinGAN _ |
9 DIGFuPAS _ Deceive IDS with GAN and Function-Preserving on
Adversarial Samples
10 DOS Denied of Service
11 DDOS _ Distributed Denied of Service
12 DR Detection Rate
13 ODR Original Detection Rate
14 ADR Adversarial Detection Rate
15 Fl Fl Score
Trang 11TÓM TẮT KHÓA LUẬN
Với sự bùng nỗ của dit liệu, các phương pháp học máy đã bắt đầu được áp dụngtrong một số hệ thống phát hiện xâm nhập (IDS) khác nhau va đạt được kết quả khả
quan Tuy nhiên, phương pháp này cho tỉ lệ báo động giả cao cũng như dễ bị vượt
qua bởi các cuộc tấn công tinh vi như tan công đối kháng Vì vậy, cần phải liên tụckiểm tra và cải tiến các hệ thống đã triển khai bang cách mô phỏng các đột biến tancông mang trong thé giới thực
Trong phạm vi khóa luận, chúng tôi thiết kế và giới thiệu DIGFuPAS (Deceive
IDS with GAN and Function-Preserving on Adversarial Samples), một bộ khung
(Framework) dựa trên mạng sinh đối kháng (GAN) có khả năng tạo ra dữ liệu mô
phỏng các cuộc tấn công đối kháng bảo toàn được các thuộc tính chức năng mà vẫn
đảm bảo tính hợp lệ, vượt qua được các IDS học máy (ML IDS) Chúng tôi thực
nghiệm trên bộ dữ liệu công khai CICIDS-2017 Kết quả cho thay dữ liệu tao ra từ
bộ khung có khả năng vượt qua được ML IDS với tỉ lệ cao, mang lại giá trị lớn trong
việc tự động kiểm thử Thêm vào đó, từ mẫu dữ liệu đối kháng thu được chúng tôi
cũng đã thành công trong việc tái huấn luyện ML IDS qua đó tăng cường khả năngphát hiện tan công của IDS
Một khía cạnh khác, kiến trúc mạng khả lập trình (SDN) là một kiến trúc mạng
được cho là xu hướng của tương lai khi có thể ứng dụng trong ngữ cảnh mạng thành
phố thông minh (Smart City) bởi sự linh động trong việc triển khai ké cả khi có sự
thay đôi các thành phan của hệ thống Đây là một kiến trúc mang mới và tiềm năng,
có nhiều ưu điểm nhưng cũng đặt ra nhiều vấn đề về bảo mật cần được nghiên cứu
Trước yêu cầu thực tiễn đó, chúng tôi đã tiến hành tìm hiểu và triển khai ML IDS trênmôi trường mạng SDN giả lập, từ đó khảo sát tính khả thi khi triển khai giải phápkiểm thử, hướng đến tăng cường khả năng phòng thủ cho IDS tự động ngay trên kiến
trúc mạng SDN.
Cuôi cùng, chúng tôi sẽ đưa ra một sô hướng phát triên với tính thực tiên cao cho việc mở rộng nghiên cứu trong tương lai.
Trang 12Chương 1 ˆ TỎNG QUAN DE TÀI
Dé đối phó trước những nguy cơ do tan công mang gây ra, các hệ thống phòng
thủ trong đó tiêu biéu có thé kế đến là hệ thống phát hiện xâm nhập mang (NetworkIDS) được xây dựng dé giám sát lưu lượng mạng từ đó đưa ra các cảnh báo đến quan
trị viên nếu xác định được những lưu lượng không an toàn (độc hại) Hiện nay, với
sự bùng nô của dit liệu, các IDS hoc máy (Machine Learning Based IDS — ML IDS)
đã được sử dung và con dang được tiếp tục phát trién Tuy nhiên ML IDS dan danbộc lộ các điểm yêu trước các lưu lượng mạng đối kháng: các lưu lượng mang gầngiống với lưu lượng gốc nhưng lại được phân loại không chính xác Những kẻ tấn
công có thé khiến IDS phân loại sai bang cách sử dụng các bản ghi lưu lượng truy
cập độc hại đối kháng Chính vì vậy, chúng tôi quyết định xây dựng cơ chế kiểm thử
đánh giá an ninh và tăng cường khả năng của ML IDS một cách liên tục, tự động
băng việc áp dung mạng sinh đôi kháng (GAN)
Bên cạnh đó, kiến trúc mạng khả lập trình SDN cũng là một kiến trúc mạng mới
và linh động, được xem là một định hướng chuyên đổi trong tương lai Tuy nhiên,vẫn cần nhiều nghiên cứu hơn dé chuyên đổi các công nghệ từ kiến trúc mạng truyềnthống lên kiến trúc mạng mới này Nhận thấy rằng SDN cung cấp khả năng tự động
hóa cấu hình và dé dàng nâng cấp khả năng đáp ứng của hệ thống mạng là những tính
chất phù hợp dé triển khai cơ chế đánh giá an ninh mà nhóm nghiên cứu, nên chúng
tôi muốn đánh giá việc triển khai hệ thống đã xây dựng trên kiến trúc mạng này
Từ những lý do trên, chúng tôi chọn đề tài “Tăng cường khả năng phát hiện tấn
công bằng Mạng sinh đối kháng trong Mạng khả lập trình” làm đề tài nghiên cứu cho
khóa luận.
Trang 131.2 Mục tiêu nghiên cứu
Nghiên cứu, thiết kế, xây dựng hệ thống ứng dụng mạng sinh đối kháng vàoviệc phát sinh mẫu tan công đối kháng giúp cải thiện khả năng phát hiện tan công của
hệ thống phát hiện xâm nhập sử dụng phương pháp học máy trong kiến trúc mạng
khả lập trình.
1.3 Phạm vỉ nghiên cứu
- Các phương thức thực hiện va phát hiện tan công trong môi trường mang SDN
sử dụng phương pháp học máy.
- Tập trung nghiên cứu khả năng bị đánh lừa của IDS trước các kiểu tan công có
chứa nhiễu do mô hình GAN sinh ra.
- _ Nghiên cứu khả năng sử dung dữ liệu đối kháng trong việc tái huấn luyện tăng
cường IDS.
1.4 Đối tượng nghiên cứu
- Kiến trúc và nguyên tắc hoạt động của mạng kha lập trình SDN
- Các phương thức tan công trên kiến trúc mang SDN
- Hệ thống phát hiện xâm nhập trong mang SDN sử dung phương pháp hoc máy
- Các bộ dữ liệu tân công phô biến dùng dé đánh giá IDS: CICIDS-2017
- Mang sinh đối kháng va các biến thé
1.5 Phương pháp thực hiện
- Tìm hiểu các kiến thức nền tang về các đối tượng nghiên cứu trong đề tài
- Tìm hiểu các công trình nghiên cứu đã được thực hiện trong và ngoài nước
- Dua ra phương pháp xây dựng va triển khai hệ thống
- _ Thực nghiệm và đánh giá kết quả
Trang 141.6 Cấu trúc khoá luận
Khóa luận được tô chức trong 6 chương như sau:
Chương 1: TONG QUAN DE TÀI
Trình bày khái quát định hướng nghiên cứu của khóa luận mà chúng tôi muốn
hướng tới.
Chương 2: TONG QUAN TINH HÌNH NGHIÊN CỨU
Sơ lược một sô công trình liên quan có cùng hướng nghiên cứu mà đê tài có
tham khảo Giới thiệu các công trình khoa học liên quan chúng tôi đã công bô trong thời gian thực hiện khoá luận.
Chương 3: CƠ SỞ LÝ THUYÉT
Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tảng dé cóthê thực hiện được nghiên cứu
Chương 4: PHƯƠNG PHÁP THỰC HIỆN
Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương
pháp thực hiện và mô hình được sử dụng.
Chương 5: KET QUA VÀ THẢO LUẬN
Đề cập đến quá trình thực nghiệm cùng với kết quả thu được Đưa ra nhận xét
cho những công việc đã thực hiện ở Chương 4.
Chương 6: KET LUẬN VA HƯỚNG PHAT TRIEN
Dua ra ket luận vê đê tai, đê xuât một sô hướng phát triên mở rộng cho các nghiên cứu trong tương lai.
Trang 15Chương2 | TONG QUAN TINH HÌNH NGHIÊN CỨU
2.1 Tình hình nghiên cứu và các công trình liên quan
Với sự phát triển ngày càng đa dạng và phức tạp của các mối đe dọa bảo mật
trên Internet, IDS trở thành công cụ thiết yếu dé phát hiện các cuộc tan công mạng và
hệ thống IDS giám sát lưu lượng mạng và đưa ra các cảnh báo nếu xác định được
những lưu lượng không an toàn (độc hai) thông qua việc phân loại lưu lượng mạng thành các bản ghi lành tính và các bản ghi độc hại.
Khi đề cập đến van đề phân loại, các thuật toán học máy đã được áp dụng rộngrãi trong thực tế trên nhiều lĩnh vực khác nhau như phân loại anh nói riêng va dữ liệunói chung, trong đó hướng tiếp cận của IDS dựa trên ML cũng đã đạt được những kếtquả tốt Nhiều thuật toán học máy khác nhau đã được dùng dé phân loại dit liệu, trong
đó có thé ké đến K-Nearest Neighbor, Support Vector Machine, Decision Tree, v.v
[1] Trong những năm gần đây, các thuật toán học sâu phát triển nhanh chóng, có thé
kế đến như Mạng thần kinh kết hợp (CNN), Mạng thần kinh hồi quy (RNN), Bộ mã
hóa tự động, v.v [2] Các thuật toán này giúp cải thiện độ chính xác và đơn giản hóa việc phát hiện xâm nhập [3].
Mặc dù vay, ML IDS lại dé dang bị các kẻ tan công khai thác bởi tính dé tốnthương trước các cuộc công sử dụng lưu lượng mạng đối kháng, trong đó mô hìnhGAN chính là phương pháp được lựa chọn tiềm năng Goodfellow và cộng sự đã giớithiệu GAN, một khuôn khổ dé huấn luyện các mô hình tạo sinh đối kháng [4], với ýtưởng chính là hai mạng thần kinh nhân tạo, mạng tao sinh (Generator) và mạng phânbiệt (Discriminator) cùng chơi trò chơi minimax dé hội tụ thành một giải pháp tối ưu[5] Không chỉ thể hiện bước tiến hiện đại trong việc tạo ra hình ảnh, âm thanh và văn
bản [6] [7] [8] GAN cũng đã được chú trọng trong lĩnh vực bảo mật thông tin trong
thời gian gần đây Các nghiên cứu hiện tại đã sử dụng GAN để cải thiện khả năng
phát hiện phần mềm độc hại hoặc tạo ra chính các mẫu phần mềm độc hại đối kháng,
từ đó khiến các cuộc tấn công ngày càng đe dọa và nghiêm trọng [9] [10]
Trang 16Một nghiên cứu của Grosse và các cộng sự đã dé xuất áp dụng thuật toán dựa
trên dao hàm chuyền tiếp các mạng nơ-ron bị tan công dé tạo ra các phần mềm độchại đối kháng trên Android với chức năng độc hại được bảo toàn [11] Một công trình
khác sử dụng thuật toán học tăng cường với một tập hợp các hoạt động bảo toàn chức
năng dé tạo ra các phần mềm độc hại đối kháng [12] Trong khi đó, Rosenberg đã tạo
ra các ví dụ điển hình về đối kháng khi kết hợp chuỗi lệnh gọi API và các tính năng
tĩnh với bộ khung tạo tấn công end-to-end [13] Trong nghiên cứu của mình,
Al-Dujaili đã trình bày 4 phương pháp để tạo các phần mềm đối kháng được mã hóa nhị
phân với chức năng độc hại được bảo tồn với việc sử dụng SLEIPNIR dé dao tao các
bộ phát hiện mạnh mẽ [14] Bên cạnh đó, thu rác đối kháng cũng nhận được sự quan
tâm khi Zhou đã tạo ra thư rác bằng mô hình sinh đối kháng SVM và từ đó nghiêncứu cách tạo ra một bộ lọc thư rác mạnh mẽ hơn [15] Cùng với việc công nghệ đốikháng đã được áp dụng rộng rãi trong việc phát hiện phần mềm độc hại, đã có nhữngcông bố nghiên cứu việc tạo ra lưu lượng truy cập độc hại đối kháng chống lại IDS.Một nghiên cứu của James và các cộng sự cũng đã đề xuất một phương pháp đánhlừa IDS học máy trên các mẫu tấn công DoS đối kháng, bằng cách thay đổi một sốthuộc tính mạng [16] Tuy nhiên, mô hình của các tác giả hoạt động chủ yếu dựa trên
các thuộc tính cụ thê của tân công DoS nên khó có khả nang mở rộng.
GAN cũng đã được ứng dụng rộng rãi trong việc tạo ra các mẫu tấn công đốikháng trong bao mật thông tin Hu đã đề xuất một bộ khung GAN để tạo ra các phầnmềm độc hại cho các cuộc tấn công hộp đen [10] Hu cũng tận dụng một mô hìnhmới đề tạo một số chuỗi API đối kháng sẽ được chèn vào chuỗi API ban đầu của phầnmềm dé hình thành các cuộc tấn công, nhằm mục đích vượt qua các hệ thống pháthiện Mạng thần kinh hồi quy (RNN) [17] Không chỉ vậy, khả năng tạo ra các mẫuđối kháng của GAN cũng đã được tận dụng trong một số nghiên cứu nhằm vượt quaIDS Điền hình có thé ké đến nghiên cứu của Zilong Lin và cộng sự khi đề xuất môhình IDSGAN khi có thé tạo ra các lưu lượng tan công đối kháng có thể đánh lita MLIDS [18] Mô hình được thiết kế dựa trên kiến trúc WGAN để cải thiện khả năng hội
tụ trong quá trình huấn luyện Bộ sinh trong công trình này chon thay đôi một số
Trang 17thuộc tính của lưu lượng mạng dé tao mẫu đối kháng, trong khi bộ phân biệt tim cách
bắt chước hoạt động của IDS máy học nhằm hỗ trợ gửi phản hồi cho bộ sinh Tuy
vậy, Usama và cộng sự đã chỉ ra vấn dé ton tại trong IDSGAN khi thay đổi một số
thuộc tính chức năng của lưu lượng mạng [19] IDSGAN đã vi phạm yêu cầu giữnguyên tính hợp lệ của lưu lượng mẫu đối kháng Nhóm tác giả nghiên cứu sau đó
đưa ra đề xuất cơ chế đảm bảo giữ nguyên các thuộc tính chức năng trong quá trình
tạo mẫu đối kháng, khi bộ sinh chỉ thực hiện thay đổi trên nhóm các thuộc tính phi
đặc trưng Nhưng giải pháp lại đề xuất sử dụng GAN cơ bản, vốn có thê đối mặt vớivan đề khó hội tụ trong quá trình huấn luyện
Dữ liệu đầu vào trong hướng tiếp cận sử dụng GAN cũng là một vấn đề cần
quan tâm của các nghiên cứu Một nghiên cứu của Msika và các cộng sự đã chứng
minh kích thước và độ đa dạng của đầu vào có thể ảnh hưởng đến hiệu suất của GAN[20] Nghiên cứu này sử dụng chính các thuộc tính phi chức năng làm đầu vào dé tạomẫu đối kháng, điều này có thể làm giảm tính đa dạng của dữ liệu được tạo so với
việc sử dụng nhiễu như công trình IDSGAN Mặt khác, tập dữ liệu KDD99 sử dụng
trong công trình của Usama tuy phố biến trong việc kiểm tra hoạt động của IDS nhưng
có thể chứa những bản ghi lưu lượng đã lỗi thời và không bao gồm các dữ liệu tấncông mới hiện nay Công trình IDSGAN sử dụng phiên bản cải tiến của KDD99 làNSL-KDD, tuy vậy về cơ bản tập dữ liệu này cũng gặp vấn đề tương tự
2.2 Một sô cải tiên so với khoá luận trước
Trong khoá luận này, chúng tôi sẽ giới thiệu DIGFuPAS là một bộ khung chúng
tôi đã làm việc và phát triển cùng với anh Lê Khắc Tiến — Kỹ su tài năng ngành Antoàn thông tin Khoá 2016 Trường Đại học Công nghệ Thông tin Anh Lê Khắc Tiến
đã hoàn thành và công bố DIGFuPAS trong khoá luận tốt nghiệp “PHAT SINH DULIEU TAN CÔNG CHONG LAI IDS BẰNG MÔ HÌNH DOI KHANG TẠO SINH”
nam 2020.
DIGFuPAS trong khoá luận của chúng tôi được thực hiện trên bộ dữ liệu mới CICIDS-2017 [21] so với bộ dữ liệu NSL-KDD đã cũ trong khoá luận trước đó.
Trang 18Chúng tôi thực hiện một số điều chỉnh về thông số và thiết kế mô hình Cách bộ
sinh nhận di liệu đầu vào là sự khác biệt lớn nhất Khoá luận trước thử nghiệm 2
trường hợp gồm đầu vào là nhiễu và đầu vào là các thuộc tính phi chức năng.
- Đối với trường hợp dữ liệu đầu vào là nhiễu thi di liệu đầu ra đa dạng, nhưng
quá trình đào tạo khó khăn hơn vì các giá trị nhiễu ngẫu nhiên rời rạc.
- Đối với trường hợp dit liệu đầu vào là các thuộc tính phi chức năng có sự
liên kết do được thu thập từ thực tế thì huấn luyện dễ dàng hơn nhưng vớimỗi đầu vào chỉ cho 1 luồng lưu lượng đối kháng đầu ra tương ứng (do cáctrọng số của mô hình là cố định)
Vì vậy, chúng tôi lựa chọn giải pháp kết hợp: sử dụng nhiễu nối vào các thuộctính phi chức năng dé làm đầu vào cho bộ sinh Điều này vừa giúp cải thiện quá trình
huân luyện, vừa dam bao tính đa dạng của dữ liệu dau ra.
Khoá luận trước chỉ dừng ở việc sử dụng DIGFuPAS phát sinh dữ liệu đối kháng
có khả năng qua mặt IDS Chúng tôi ứng dụng DIGFuPAS và phát triển thêm dé ápdụng trong ngữ cảnh kiểm thử và tăng cường khả năng của IDS một cách tự động
Cuối cùng, chúng tôi không chỉ thử nghiệm trên bộ dữ liệu kiểm thử như khoáluận trước mà còn trién khai IDS thực nghiệm trên môi trường SDN nhăm đánh giákhả năng hoạt động trong môi trường thực tế
2.3 Y nghĩa khoa học và thực tiễn của đề tài
2.3.1 Y nghĩa khoa học
Như đã dé cập ở trên, những nghiên cứu khoa học đã được công bồ trước đây
vẫn còn một số hạn chế, trong đề tài này chúng tôi đã khắc phục và phát triển hướng
nghiên cứu như sau:
- Chúng tôi giới thiệu một bộ khung mới DIGFuPAS dựa trên GAN Bộ khung
không thay thế các thuộc tính chức năng của lưu lượng mạng, do đó chúng tôi bảotoàn được đặc tính tấn công cũng như đảm bảo được tính hợp lệ của lưu lượng đối
kháng sinh ra.
Trang 19- Các nghiên cứu và thực nghiệm cũng đã chỉ ra rằng huấn luyện mô hình GAN
thường xuyên dẫn tới việc không hội tụ đến điểm cân bằng (Equilibrium Point) Trong
DIGFuPAS, chúng tôi sử dụng thuật toán Wasserstein GAN với những ưu điểm từ
hàm mất mát (loss function) vi vậy cải thiện đáng kế khả năng hội tụ và giúp việc
huân luyện bộ sinh trở nên ôn định hơn.
- Chúng tôi thử nghiệm mô hình trên IDS sử dung 6 thuật toán học máy khác
nhau, từ đó có thé giúp tối ưu mô hình với thuật toán cho kết quả tốt nhất
- Dékhac phục tình trạng tập dữ liệu bị lỗi thời, chúng tôi sử dụng bộ dit liệu đầy
đủ hơn là CICIDS-2017 [21] từ Viện An ninh mạng Canada thay thế Bộ dữ liệu về
cơ bản đã khắc phục được những vẫn đề còn tồn đọng khi bao gồm các lưu lượng tấn
công cập nhật mới.
- Chúng tôi đưa ra phương pháp tái huấn luyện IDS liên tục từ chính những lưulượng đối kháng sinh ra, cung cấp giải pháp trong việc tự động kiểm thử cũng nhưgiúp IDS tăng cường khả năng phát hiện tan công
- Bộ khung DIGFuPAS được triển khai trên kiến trúc mang định nghĩa bang phan
mềm SDN, một kiến trúc mạng mới tiềm năng của tương lai.
2.3.2 Ý nghĩa thực tiễn
Mặc dù giải pháp của nghiên cứu chỉ mới ở giai đoạn thử nghiệm trên môi
trường giả lập nhưng ứng dụng của nghiên cứu trong thực tiễn là rất tiềm năng
Trong xu thế chuyên đổi số, nghiên cứu có thể được triển khai thành một hệ
thống phòng thủ tan công tối ưu với khả năng tự động huấn luyện tăng cường liên tụctrên cơ sở hạ tầng công nghệ thông tin quan trọng hỗ trợ IoT (IoTCI]) Theo đó, hệ
thống phát hiện xâm nhập sử dụng bộ khung DIGFuPAS sẽ có đủ khả năng dé chốnglại các cuộc tấn công đối kháng từ những kẻ tấn công nguy hiểm
Hệ thống khi được triển khai không chỉ mang lại những lợi ích về mặt xã hội,
mà còn đảm bảo cung cấp một môi trường phát triển an toàn, mang lại hiệu quả vềmặt kinh tế Nhờ áp dụng kết hợp những công nghệ thiết thực và hiệu quả là GAN và
Trang 20kiến trúc mạng SDN, giải pháp được hiện thực với chi phí đầu tư thấp, tài nguyêntiêu tốn ít cùng với khả năng lập trình cấu hình cao, dé dàng đổi mới, rất linh hoạt và
được tối ưu hóa
2.3.3 Công bố khoa học
Chúng tôi đã công bố các nghiên cứu là một phan nội dung được trình bày trong
khóa luận này tại các hội nghị, hội thảo và giải thưởng sau:
- Giải Nhat lĩnh vực Công nghệ thông tin Giải thưởng Sinh viên nghiên cứu Khoa
học Euréka lần thứ XXII năm 2020.
- — Giải Nghiên cứu trẻ xuất sắc tại Hội thảo khoa học Mạng lưới học thuật ViệtNam tại Nhật Bản về Khoa học và Công nghệ trong bình thường mới VANJ 2020
- _ Bài báo khoa học được đăng trong Kỷ yếu Hội nghị Quốc gia lần thứ XXIII vềĐiện tử, Truyền thông va Công nghệ Thông tin REV-ECIT 2020, ISBN: 978-604-
Ngoài ra, chúng tôi còn có 2 nghiên cứu khác đang đợi kết quả:
- Bài báo khoa hoc tại Hội nghị Quốc tế về Công nghệ máy tính và Truyền thông
RIVE 2021.
- Đề tài Sinh viên nghiên cứu khoa học đã được chấp nhận và đang tiếp tục thực
hiện.
10
Trang 21Chương3 CƠ SỞ LÝ THUYET
3.1 Kiến trúc mạng khả lập trình SDN
3.1.1 Tổng quan
Trong những năm gan đây, cách mạng công nghiệp lần thứ 4 đang diễn ra nhanh
chóng, số lượng các hoạt động chuyền dịch lên hạ tầng công nghệ thông tin ngày càng
lớn Cùng với đó, sự phát triển bùng nỗ của mạng Internet đã làm cho hệ thống mạng
không ngừng trở nên đô sộ về cả sô lượng lần quy mô, kiên trúc, cơ sở hạ tang.
Nhu một hệ quả, việc quản tri và vận hành hệ thống trở nên khó khăn hơn trên
kiến trúc mạng có quy mô lớn, đòi hỏi sự thay đổi liên tục dé tương thích với mục
đích sử dụng ngày càng linh hoạt Một trong những nguyên nhân cơ bản gây nên sự
khó khăn này là do các thiết bị của hạ tầng mạng như bộ định tuyến (router), bộchuyển mạch (switch), hay các dịch vụ hạ tầng mạng như dich vụ VLAN, Security,
được xây dựng riêng biệt và độc quyền, với nhiều cơ chế khác nhau, bởi các nhà sản
xuất phan cứng khác nhau Việc phân mảnh, thiếu đồng bộ trong cơ chế quản lý, cauhình gây khó khăn trong việc vận hành toàn hệ thống
Data Center Network Diagram
Client = Clients Customs
Center Client Center
Hình 3.1: Mô hình mạng truyén thống !
! Nguồn: https://www.edrawsoft.com/template-data-center-network.html
lãi
Trang 22Theo đó, mạng truyền thong hoạt động hầu như dựa trên việc triển khai các thiết
bị chuyên dụng, trong đó một thiết bị mạng thường bao gồm phần mềm và phần cứng.Phần mềm đảm nhiệm chức năng chính của thiết bị cũng như việc trao déi thông tinvới các thiết bị khác dé tính toán các đường định tuyến dựa trên những thông tin đãthu thập được Phần cứng đảm nhiệm chức năng chuyền các gói tin đến theo một lộtrình đã được phần mềm tính toán
Đối với mạng truyền thống thì các thiết bị định tuyến hoặc chuyển mạch trao
đôi các thông tin với nhau và tự tính toán đường đi cho riêng mình Các thiết bị mạng
phải được tích hợp nhiều chức năng dé đảm bảo khả năng hoạt động
Với sự phát triển của các công nghệ ảo hoá, ảo hoá mạng đang là xu hướng đượcquan tâm và đang ngày càng được triển khai rộng rãi với sự ra đời của kiến trúc mạng
khả lập trình SDN được phát triển nhằm mục đích làm cho các mạng trở nên linh
hoạt hơn, phân tách các quá trình điều khiển lưu thông lưu lượng mạng ra khỏi hatang phan cứng là các thiết bị vat lý, nhăm đảm bảo việc quản lý và kiểm soát thôngqua các API trở nên hoàn chỉnh và thông nhất hơn, cho phép các kỹ sư và người quảntrị nhanh chóng tạo ra các thay đồi trên môi trường mạng dé đáp ứng nhanh chóngcác yêu cầu hoạt động thông qua một bộ điều khiển tập trung
Trong SDN, kỹ sư hoặc quản trị viên có thé quản lý và cau hình toàn bộ hệ thong
từ bộ điều khiển tập trung mà không cần phải thiết lập trên từng thiết bị riêng lẻ, giúplàm giảm chi phí vận hành nhưng tăng hiệu suất làm việc, đồng thời tăng tốc thờigian đáp ứng khi có yêu cau thay đổi hoặc cung cấp thêm dich vu
SDN mang lại những tính năng vượt trội này thông qua việc phân tách hạ tầng
mạng thành 3 thành phan chính như biểu diễn ở Hình 3.2, gồm:
- Lớp ứng dụng (Appication Layer): La những ứng dung hoặc chức năng ma hệ
thống mạng cần sử dụng như các hệ thống phát hiện xâm nhập, cân bằng tải hoặctường lửa, Dé thực hiện các chức năng này trong kiến trúc mạng truyền thống cầnphải sử dụng một thiết bị chuyên dụng riêng biệt Trong khi với SDN các ứng dụngphần mềm với chức năng tương đương được triển khai kết hợp với các API do bộ
12
Trang 23khiển cung cấp dé quản lý việc điều khiến lưu lượng mang thay thé cho các thiết bịphần cứng truyền thống Các phần mềm phía lớp ứng dụng giao tiếp với lớp điềukhiến thông qua Northbound API (API Cau Bắc).
- Lớp điều khiển (Control Layer/Control Plane): Đại diện cho phần mềm điều
khiển SDN tập trung hoạt động như bộ não của mang Bộ điều khiển này nằm trên
một máy chủ và quản lý các chính sách và luồng lưu lượng trên toàn mạng, cũng nhưcung cấp các API dé có thể xây dựng các ứng dụng cho hệ thống mạng
- Lớp ha tang (Infrastructure Layer/Data Plane): Bao gồm các thiết bi vật lý trongmạng thực hiện việc chuyên các gói tin trong hệ thống theo sự điều khiển của lớpđiều khiển thông qua các giao thức như OpenFlow Các bộ chuyển mạch trong lớp
hạ tầng giao tiếp với lớp điều khiển thông qua các Southbound API (API Cầu Nam)
API API API
Hình 3.2: Ba thành phan chính trong kiến trúc mang SDN [22]
Bộ điều khiển SDN quản lý tập trung các thiết bị vật lý cũng như các dịch vụmạng, bat kế loại thiết bị hay loại dich vụ
13
Trang 24SDN Controller mart Grid Control Center
Là)
“
Hình 3.3: Mô hình mạng trong kiến trúc SDN [23]
Quá trình này là một bước tiến so với kiến trúc mạng truyền thống khi phần điềukhiến và xử logic được tách rời và quản lý tập trung ở bộ điều khién trung tâm, trongkhi các thiết bị mạng ở lớp hạ tầng không cần xử lý các giao thức phức tạp mà chúngchỉ vận chuyền dit liệu theo các luồng mà bộ điều khiển SDN chỉ định
Bảng 3.1: So sánh kiến trúc mạng truyền thống và kiến trúc mạng SDN
⁄ ⁄ _Mạng truyền thống Mạng SDN
“Phan điều khiến và Được tích hợp trong từng thiết Phần điều khiển được.
phần vận chuyền bị mạng tách riêng khỏi thiết bị
dữ liêu mạng và được chuyên
đến một thiết bị được gọi
là bộ điều khiển SDN
Phan thu thập và xử lý Được thực hiện ở tất cả các Xu lý tập trung xử lý ởcác thông tin phần tử trong mạng bộ điều khiến SDN
Kha năng lập trình dé Không thé được lập trình bởi Mang có thể lập trình bởi
câu hình bởi các ứng các ứng dụng Các thiệt bị các ứng dụng, bộ điêu
dụng mạng phải được cấu hình một | khiển SDN có thể tương
cách riêng lẻ và thủ công tác đến tất cả các thiết bị
trong mạng.
14
Trang 25SDN bao gồm nhiều loại công nghệ mang được thiết kế để giúp mạng trở nên
linh hoạt hơn, hỗ trợ ảo hóa và cơ sở hạ tầng lưu trữ trong môi trường trung tâm dữliệu hiện đại tốt hơn
Dựa vào bộ điều khiến SDN, các nhà khai thác và người quản trị mang có thélập trình để cấu hình tự động thay vì phải thực hiện thủ công từng câu lệnh cấu hìnhtrên từng thiết bị riêng lẻ vốn có thé bị phân bé ở nhiều vị tri địa lý Điều này giúpviệc triển khai các ứng dụng mới và các dịch vụ mạng diễn ra nhanh chóng, kiến trúcmạng trở nên linh hoạt cũng như hiệu suất sử dụng cao và dễ quản lý hơn Tóm lại,chúng tôi tổng kết một số sự khác biệt cơ bản giữa mạng truyền thống và mạng SDN
trong Bảng 3.1.
3.1.2 Ứng dụng SDN trong các hệ thống mạng hiện đại
Trong những năm qua, SDN đã rất được các nhà nghiên cứu và các nhà khoahọc chú trọng Là một kiến trúc mới nhằm thay thế thiết kế mạng vật lý truyền thốngbang cơ sở hạ tang mang được lập trình và điều khiển bởi phần mềm, SDN được cho
là một giải pháp cung cấp khả năng thích ứng, tương đối hiệu quả về chi phi và năngđộng Sự linh động của SDN cho phép nó đáp ứng nhiều nhu cầu phức tạp từ các ứngdụng Tuy nhiên, phải thừa nhận kiến trúc mang SDN vẫn chưa phô biến trong thực
tế, nhưng cũng đã có một số trường hợp sử dụng SDN dé giải quyết các van đề đặcthù một cách hiệu quả hơn các phương pháp truyền thống
Có bốn đặc trưng quan trọng giúp SDN có thê tạo ra sự khác biệt so với kiếntrúc mạng truyền thống là:
- Tinh khả lập trình: SDN cho phép kiểm soát hành vi mạng bang phan mềm mà
không chịu sự hạn chế bởi các thiết bị phần cứng sử dụng trong hệ thống Có nghĩa
là quản trị viên có thé lập trình các chức năng cụ thé dé kiểm soát hành vi của cácmạng, hỗ trợ chính xác các yêu cầu mà dịch vụ hoặc khách hàng cần một cách dễ
dàng và nhanh chóng.
- Khả năng kiểm soát: Với việc tách biệt kiến trúc mạng, xử lý tập trung ở bộ điềukhiến, các thiết bị không bị hạn chế về thông tin trang thái chung của toàn mạng, cung
15
Trang 26cấp khả năng kiểm soát và quản lý tài nguyên mạng thông minh như quản lý băng
thông, khôi phục sự cố, bảo mật và có thể xây dựng các chính sách thông minh, tối
ưu hiệu năng hệ thống dựa trên trạng thái toàn diện của mạng
- Trừu tượng hóa mang: Các dich vụ va ứng dung chạy trên công nghệ SDN được
trừu tượng hóa sẽ tương tác với mạng thông qua các API từ bộ điều khiển, thay vì các
giao diện câu hình từ các nha sản xuât kêt hợp chặt chẽ với phân cứng.
- Tính mở: SDN được xây dựng trên các tiêu chuẩn mở dùng chung nhưOpenFlow, không bị ràng buộc bởi các nền tảng đóng và các nhà sản xuất phần cứng.Các API mở dùng chung hỗ trợ một loạt các ứng dụng và dịch vụ có thé hoạt độnglinh hoạt theo cách người vận hành mong muốn
Theo tìm hiểu của chúng tôi, SDN đã được áp dụng vận hành trong một sỐtrường hợp thực tế như:
- Sonus Networks đã tiết lộ sử dụng SDN trong các dịch vụ video và nên tảngcộng tác mà công ty vận hành Bằng cách kết hợp SDN với nền tảng ảo hóa mạng của
Juniper, công ty có khả năng quan lý các phiên hoạt động của khách hang một cách
linh hoạt Việc sử dụng SDN cung cấp cho họ khả năng đảm chất lượng dịch vụ
(Quality of Services - QoS) được duy trì và quản lý tốt hơn Công ty này tin răng việc
sử dụng SDN giúp họ có quyền kiểm soát hệ thống mạng nhiều hơn, từ đó linh động
trong việc phục vụ mọi nhu câu của từng khách hàng một cách hiệu quả hơn.
- Điều phối các dịch vu di động: Các chức năng mang ảo hóa (NVF) va SDN đều
đã được sử dụng trong hệ thống của các công ty cung cấp dịch vụ mạng di động viễnthông Các nhà cung cấp đã bắt đầu sử dụng chúng để quản lý mạng của họ nhằm
đảm bảo sử dụng tài nguyên hiệu quả nhất, đồng thời tận dụng được khả năng điều
phối, cung cấp động các dịch vụ một cách nhanh chóng Điều này cho phép hệ thống
hạ tầng đáp ứng được nhu cầu của các nhà mạng một cách linh hoạt, giảm thời gian
triển khai, từ đó gia tăng hiệu suất tổng thé của toàn hệ thống
- Tang độ linh động trong trung tâm đữ liệu: Hiện các nha nghiên cứu tai Dai học
Illinois đang cố gắng sử dụng các bộ chuyển mach SDN đề thử nghiệm một hệ thống
16
Trang 27mạng mới được triển khai cho một trung tâm dữ liệu Các nhà nghiên cứu có khảnăng đảm bảo tính mở rộng (Scalability) của hệ thống mà không phát sinh quá nhiềuchi phí phần cứng 13 thiết bị chuyên mạch Pica8 với tổng cộng khoảng 670 công đãđược lắp đặt Một khi mạng dữ liệu SDN được vận hành thường xuyên hơn, tốc độtruy cập có thể sẽ cao hơn rất nhiều do được hỗ trợ bởi tính năng cân bằng tải và việc
mở rộng băng thông sẽ được đảm bảo.
- SDN da gop phan vào su xuất hiện của một số công nghệ như Software DefineWide Area Network (SD-WAN), là hệ thống mạng diện rộng được định nghĩa bởi
phần mềm; hay một số nhà sản xuất lớn (như Cisco) đã sử dụng SDN làm nên tảng
dé triển khai một kiến trúc mạng tiên tiễn hơn nữa là Intend-Based Networking vận
hành tự động theo ngữ cảnh với sự hỗ trợ của trí tuệ nhân tạo.
- Cũng đã có nhiều san phẩm, hệ thống SDN được trién khai trong thực tế như hệ
thống mạng B4 của Google, hệ thống mạng truyền tai của Huawei.,
3.2 Hệ thống phát hiện xâm nhập IDS
3.2.1 Tong quan
Hệ thống phát hiện xâm nhập là thiết bị hoặc phần mềm có nhiệm vụ giám sát
lưu lượng mạng, các hành vi đáng ngờ và cảnh báo cho quản trị viên hệ thống Mục
đích của IDS là phát hiện và ngăn ngừa kịp thời các hoạt động bất thường bao gồm
việc tấn công, xâm nhập không mong muốn từ bên ngoài hoặc truy cập trái phép vào
hệ thống IDS cũng có thé phân biệt giữa những cuộc tan công nội bộ (từ chính nhân
viên hoặc khách hàng trong tổ chức) và tan công bên ngoài (từ hacker)
Khi phát hiện các hoạt động bất thường, IDS sẽ đưa ra các cảnh báo (alert) đểngười quản trị đưa ra các quyết định đối phó Tuỳ theo cách triển khai và cấu hình,IDS có thể tự động ngăn chặn các hành vi xâm nhập khi ở chế độ phòng chống xâm
nhập (IPS mode).
Có nhiều tiêu chí để phân loại IDS như:
- Phân loại theo chức nang:
17
Trang 28e Hệ thống phát hiện xâm nhập mang (Network-Based IDS - NIDS):
Tập trung giám sát các hành vi tan công nhắm vào cơ sở hạ tang mạngbang cách thu thập lưu lượng trên toàn mạng rồi phân tích, kiểm tra déphát hiện ra các hành vi bất thường
NIDS có thé được triển khai ở chế độ Promicious Mode như mô hình
ở Hình 3.4 hay Inline Mode như mô hình ở Hình 3.5.
IDS ở chế độ Inline Mode có thé được cau hình dé trở thành Hệ thống
ngăn chặn xâm nhập (IPS), tuy nhiên sẽ làm tăng độ trễ cho mạng cũng
như gây ảnh hưởng tiêu cực do việc chặn nhằm gây ra
e Hệ thống phát hiện xâm nhập thiết bị (Host-Based IDS - HIDS): Tập
trung giám sát các hành vi xâm nhập vào hệ thống mà nó được cài lên
HIDS có thé bảo vệ hệ thống khỏi các lỗ hồng của ứng dụng hoặc cấp
độ hệ điều hành, cũng như giám sát tính toàn vẹn của các tệp, theo dõicác tiễn trình được chạy, các hoạt động độc hại ở cấp kernel và phântích nhật ky (log) dé tìm kiếm các hoạt động đáng ngờ
HIDS thường được triển khai cùng với một hệ thống quản lý tập trung
hỗ trợ trién khai các chính sách an toàn và theo dõi hiện trạng toàn bộ
hệ thống một cách nhanh chóng
Traffic Mirroring
Internet
Hình 3.4: Triển khai NIDS ở chế độ Promicious Mode
18
Trang 29cs ®
Core Internal
Internet IDS Switch Network
Hình 3.5: Triển khai NIDS ở chế độ Inline Mode
- Phân loại theo phương pháp hoạt động (NIDS):
e IDS dựa trên dấu hiệu (Signature-Based IDS): Phát hiện tấn công dựa vào các
dau hiệu đặc trưng (signatures) đã biết trước của cuộc tan công, được biéu diễnbang các quy tắc (rules) do người quản trị cài đặt Hệ thống này có thé phân
loại các tắn công đã biết bằng cách so sánh các hành vi quan sát được với cácmẫu được lưu trữ Tuy nhiên, hệ thống loại này chỉ có thé phát hiện những loại
tấn công đã được nhận diện mà không thể phân biệt các kiểu tấn công mới
(zero-day attacks).
e IDS dựa trên bat thuong (Anomaly-Based IDS): Tim kiếm sự sai lệch từ các
hành vi quan sát được và so sánh với các hành vi bình thường Khi đó nếu
hành vi quan sát được không giống với các hành vi bình thường đã được định
nghĩa thì mô hình sẽ hiểu đó là hành vi tan công Phương pháp này thường áp
dụng các thuật toán học máy trong việc nhận dạng mẫu tấn công Chúng tôi
gọi các IDS sử dụng phương pháp học máy là các IDS học máy (Machine
Learning Based IDS, hay ML-IDS)
3.2.2 IDS dựa trên phương pháp học máy
Các IDS truyền thống phát hiện xâm nhập dựa trên dấu hiệu (Signature-BasedIDS) thực hiện so sánh lưu lượng truy cập với cơ sở dir liệu chứa các mẫu tấn công
(gọi là dấu hiệu/chữ ký) Kiểu IDS này khó phát hiện ra những dạng tan công bị giới
hạn bởi số lượng chữ ký cũng như không có khả năng nhận diện các cuộc tấn công
chưa được biết trước
19
Trang 30Đề khắc phục các nhược điểm của IDS truyền thống, gần đây các thuật toán
Machine Learning (ML) được áp dụng trong IDS dé xác định và phân loại các mối
đe dọa bảo mật ML IDS dùng phương pháp thống kê lưu lượng mạng trong các
khoảng thời gian khác nhau dé tạo nên một đường cơ sở (baseline) và dựa vào đó dé
phát hiện ra những hành vi đáng ngờ Dang IDS nay sử dung các kỹ thuật hoc máy
để tạo ra một mô hình mô phỏng việc truy cập thông thường của người dùng mạng
Do đó nếu có một truy cập bất thường, ML IDS sẽ đưa ra cảnh báo
| Attack detection and response |
Hình 3.6: Kiến trúc của ML IDSThuật toán học máy không giám sát trong IDS có thê tự tìm hiểu các mô hìnhđiển hình của mạng và đưa ra cảnh báo nếu có bất thường xảy ra, mà không cần thiếttập dữ liệu phải được gán nhãn Sử dụng thuật toán dạng này có thể phát hiện các loạitan công mới, nhưng tỉ lệ phát hiện sai (false positive) cao Một số phương pháp hoc
không có giám sát là: K-means, C-Means, One-class SVM, Clustering.
Thuật toán học máy có giám sát trong IDS tỉ lệ phát hiện sai thấp hơn Đề làm
được điều này, cần có một tập dữ liệu đã được dán nhãn, sau đó xây dựng một mô
hình học máy có giám sát, tức huấn luyện cho mô hình phân biệt sự khác nhau giữagói tin của kết nối bình thường và gói của một kết nối tan công mạng Sau khi đượchuấn luyện đầy đủ, mô hình sẽ phát hiện ra những gói tin của những cuộc tấn công
đã biết, và cả những gói tin của các vụ tấn công là biến thé của chúng (chưa biết)
Các thuật toán giám sát bao gồm: Bayes Network, Random Forest, Random Tree,
MLP, Decision Table, One-class SVM.
20
Trang 313.2.3 Nhu cầu kiểm tra và huấn luyện tăng cường IDS
Trong bối cảnh các cuộc tan công ngày càng tinh vi và các cuộc tấn công mới
liên tục xuất hiện, các hệ thống phòng thủ sau một thời gian hoạt động đặt ra yêu cầu
cân phải được kiêm tra đê thích ứng với các loại tân công mới.
THE INTERNET FIREWALL OWN NETWORK °
Hinh 3.7: IDS dong vai tro phong thu quan trong
Có bốn trường hợp khi lưu lượng truy cập có gắng đi qua IDS Hai trường hợp
đầu tiên là lưu lượng truy cập bình thường đi qua và lưu lượng độc hại bị từ chối.Nhưng bên cạnh đó, sẽ có hai trường hợp lưu lượng có thé bi phân loại sai Dươngtính gia (false positive) là khi lưu lượng bình thường bị coi là độc hai và bi từ chốitrước khi vào hệ thống; trong khi đó, âm tính giả (false negative) là khi lưu lượng độchại được coi là bình thường và được phép vào hệ thống Các hệ thống AI đối nghịch
sẽ tập trung vào hai trường hợp cuối cùng bang cách liên tục tạo ra lưu lượng tan công
đối kháng giả mạo là lưu lượng lành tính để đánh lừa IDS
IDS đã bộc lộ điểm yếu là tính dé tổn thương trước các cuộc tấn công đối kháng
Đề khắc phục điều này, IDS cần thường xuyên được kiểm thử dé đánh giá khả năngphòng thủ và phát hiện tan công còn đạt kết quả trong phạm vi cho phép hay không
Theo đó, có nhiều phương pháp dé kiểm thử IDS đi cùng với việc cập nhật cơ
sở dữ liệu thủ công, bao gồm việc cập nhật chữ ký của lưu lượng tấn công đối vớiIDS truyền thống hoặc tái huấn luyện IDS với tập dữ liệu lưu lượng mới bao gồm cáclưu lượng tấn công đối kháng mới nhất Tuy nhiên các phương pháp đánh giá và kiêm
thử thủ công vẫn tỏ ra nhiều hạn chế khi tốn nhiều tài nguyên và công sức mà lại
không đạt được kết quả cao do những cuộc tấn công mới liên tục xuất hiện, từ đó đặt
ra nhu cầu cấp thiết về việc kiểm thử và huấn luyện tăng cường IDS tự động liên tục
21
Trang 323.3 Mạng sinh đối kháng
3.3.1 Tong quan
Mang sinh đối kháng (Generative Adversarial Networks — GAN) là một mô hình
gồm 2 mạng nơ-ron nhân tạo đối đầu nhau có kha năng sinh dit liệu Y tưởng củaGAN bắt nguồn từ những trò chơi đối kháng 2 người như cờ vua, cờ tướng khi nếumột người thắng thì người còn lại sẽ thua Ở mỗi lượt thì cả 2 đều muốn tối đa cơ hộithắng của mình và hạn chế cơ hội thắng của đối thủ Discriminator và Generator trongmạng GAN giống như 2 đối thủ trong trò chơi
Theo lý thuyết, mô hình GAN hội tụ khi cả Generator và Discriminator đạt tới
trạng thái cân bằng Nash, tức là 2 người chơi đạt trạng thái cân bằng, như thế hoàtrong môn cờ, và việc đi tiếp các bước không làm tăng cơ hội thắng Cũng giống nhưviệc 2 kỳ thủ đối đầu và học hỏi lẫn nhau sẽ giúp họ ngày càng giỏi và có thể sáng
tạo ra các nước cờ mới, sau quá trình huấn luyện, GAN, hay nói chính xác hơn là bộ
sinh của GAN cũng có khả năng sinh ra dữ liệu mới từ những dữ liệu đã học được.
Trang 33- Bộ phân biệt: Mang có kha năng phân biệt kiểm định dữ liệu từ Bộ sinh, phân
biệt xem dữ liệu là thật (dữ liệu từ dataset) hay giả (dữ liệu sinh ra từ bộ sinh).
Có thé thấy bộ sinh hay bộ phân biệt đều là mang neural network và cùng cạnh
tranh với nhau Bộ sinh cố gắng tạo ra dữ liệu giống thật nhất có thé trong khi bộphân biệt cố gắng phân biệt dữ liệu mà bộ sinh đồ vào sau đó thông báo lại cho bộ
sinh dé cải thiện, cứ như thé quá trình này lặp đi lặp lại để bộ sinh có thé tạo ra mẫuđối kháng hoàn hảo nhất mà bộ phân biệt không thê phân biệt được nữa
Một trong những xu hướng nghiên cứu thu hút được đông đảo các nhà khoa học,
có tính ứng dụng cao và phát triên mạnh mẽ trong những năm gần đây chính là Mạng
sinh đối kháng GAN, trong đó có thê liệt kê ra một số ứng dụng tiêu biểu:
- Tao ra khuôn mặt người: GAN có khả năng tao ra những khuôn mặt nhân tao
mà rất khó phân biệt với người thật Chất lượng của những model GAN áp dụng trên
khuôn mặt ngày càng tốt hơn qua từng năm.
- Thay đổi độ tuổi của khuôn mặt: Dựa trên khuôn mặt của bạn hiện tại, GAN sẽ
sinh ra các biên thê theo từng độ tuôi của bạn.
- _ Sinh ảnh các vật thé: Những gi GAN đã thực hiện trên con người thì đều có théứng dụng được trên tất cả những loài động vật hay đồ vật khác
23
Trang 34- Tạo nhân vật hoạt hình: GAN có thé làm việc hiệu qua bang vai trăm nghệ sĩ vẽ
tranh.
- Dich hình anh sang hình anh: Cùng một bức anh chụp quang cảnh, GAN có thé
tạo ra các bối cảnh khác nhau của nó như trời tối/trời sáng, ban ngày/ban đêm, thayđôi theo các mùa, Trước đây dé thực hiện được điều này là một việc rất khó vì
phải thực hiện chuyên đổi mau sắc (color transfering) bang các thuật toán cô điểntrong thị giác máy tính (computer vision) Hạn chế của chúng đó là chỉ dựa trên cáctinh chỉnh về màu sắc mà không tận dụng được các đặc trưng khái quát mà GAN học
được từ dữ liệu lớn Do đó ảnh sinh ra thường không tự nhiên và phải tùy chỉnh
(customize) lại rat nhiêu.
- Chuyên từ đoạn văn bản sang hình anh: GAN có thé tạo ra các bức anh phù hop
với nội dung mà một câu văn mô tả.
- Chuyên từ anh Semantic sang ảnh thật: Thuật toán Semantic Segmentation sẽchuyên từ ảnh thật sang các ảnh phân khúc Thuật toán GAN có thé chuyền đổi ngược
lại từ ảnh phân khúc sang ảnh thật.
- Khôi phục hình anh: Don cử nhất là GAN có thể tạo ảnh khuôn mặt nhìn từ
chính diện từ các ảnh nhìn từ hai bên.
- Tạo anh siêu phân giải: Đối với những bức anh bị mờ, GAN có thé khôi phục
chất lượng ảnh bằng cách tạo ra một ảnh có độ phân giải cao hơn từ ảnh góc
- Tạo tư thế người: Day là ứng dụng thường được sử dung trong lĩnh vực thờitrang Việc thuê người mẫu chụp ảnh với những bộ trang phục tốn khá nhiều thời gian
và chi phí Sử dung GAN để tạo ra những bức ảnh với những tư thế và bộ trang phụckhác nhau với chi phí tiết kiệm Van đề khó đào tạo khi huấn luyện
- Tạo các mau tan công đối kháng trong bảo mật và an toàn thông tin: Có thé kếđến một số nghiên cứu đã được trình bày tại mục 2.1
24
Trang 353.3.3.1 Khái niệm liên tục Lipchitz
Một khái niệm khá quan trọng ám chỉ các hàm số liên tục, khả vi và có độ lớn(về giá trị tuyệt đối) đạo hàm bị giới hạn đó là liên tục lipschitz Giả sử ƒ: IR > R
ƒŒ¿) — f(%2)
X= Xp | <K,Vx¡,x;€lR Công thức 3.1
Với K là một giá trị hằng số thì hàm f được gọi là liên tục K-lipchitz Ví dụ về
một hàm liên tục lipchitz phô biến đó chính là ham sin (x) vì giá trị độ lớn đạo hàm
của nó bị chặn trên bởi 1 Hàm x? không phải là hàm liên tục lipchitz vì đạo hàm của
nó là 2x không bị chặn trên Tương tự như vậy logi/o(x) cũng không liên tục
lipchitz vì đạo hàm của nó là Ð không bị chặn tại x = 0.
Do tính chất đạo hàm bị chặn nên khi sử dụng loss function là hàm liên tục lipchitz có thể khắc phục được hiện tượng đạo hàm bùng nỗ (explosion) dẫn tới thiếu
K-ồn định trong huấn luyện Cụ thể hơn chúng ta cùng tìm hiểu qua Wasserstein GAN
3.3.3.2 Wassertein GAN
Mô hình Wasserstein GAN [26] sẽ áp dung khoảng cách Wasserstein dé tim raphân phối gần nhất giữa 2 phân phối thật và giả Việc giải trực tiếp bài toán khoảngcách Wasserstein là khá khó Do đó áp dụng đối ngẫu Kantorovic-rubinstein chúng
ta chuyên về bài toán đôi ngau:
W (p,, = E,~ — E,WŒr Po) ie x vf (x)] x~pe Lf (x)] Công thức 3.2
25