TOM TAT KHÓA LUẬNTheo sự phát triển của lĩnh vực khoa học máy tính, nhiều giải pháp áp dụng các mô hình học máy ML, học sâu DL dé phát hiện lưu lượng tan công bang cách sửdụng một lượng
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA MANG MAY TINH VA TRUYEN THONG
NGUYEN PHAN NHA QUYNH
KHOA LUAN TOT NGHIEP
A FUSION OF GANS AND FEDERATED LEARNING FOR
IDENTIFYING CYBERATTACKS IN SDN
KY SU NGANH AN TOAN THONG TIN
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA MẠNG MÁY TÍNH VÀ TRUYÈN THÔNG
NGUYÊN PHAN NHÃ QUYNH - 18520142
KHÓA LUẬN TÓT NGHIỆP
PHƯƠNG PHÁP KET HỢP MẠNG SINH DOI KHANG
VÀ HỌC LIEN KET TRONG NHAN DIỆN TAN CÔNG
TRONG MẠNG KHẢ LẬP TRÌNH
A FUSION OF GANS AND FEDERATED LEARNING FOR
IDENTIFYING CYBERATTACKS IN SDN
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
THS DO THI THU HIEN
TP HO CHÍ MINH, 2022
Trang 3THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
Trang 4kiến thức chuyên môn bồ ích, những kinh nghiệm thực tế quý báu mà tôi đã học hỏi
được trong suốt quá trình học tập, rèn luyện tại trường
Tôi xin gửi lời tri ân và biết ơn đến cô Đỗ Thị Thu Hiên, thay Phan Thế Duy vàanh Nghi Hoàng Khoa đã trực tiếp quan tâm, hướng dẫn tận tình trong suốt quá trìnhthực hiện đề tài Bên cạnh đó, với tình cảm sâu sắc và chân thành, tôi cũng xin cảm oncác thầy cô, anh chị đang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab
vì đã luôn tạo điều kiện về cơ sở vật chất với hệ thống máy chủ hiện đại, luôn sẵn sàngnhiệt tình hỗ trợ tôi về chuyên môn lẫn kinh nghiệm trong các hoạt động nghiên cứu và
thực hiện khoá luận.
Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắn khôngtránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình
từ quý thay cô trong hội đồng dé khóa luận được hoàn thiện hơn
Trân trọng.
Trang 5MỤC LỤC
CHUONG 1 TONG QUAN DE TÀI I 2< s°s£ se se seessessersersee 11
LLY do chon 6 a '®':'^ 11
1.2 Mục tiêu nghién CỨU - G1 1901901901 HH 12 1.3 Pham 0¿0i an na 12
1.4 Đối tượng nghiên cứu -2¿+¿©2++2+++EE+2EEtEEEEEEESEEEEkErkrerkrsrkrrrrrs 12
1.5 Phương pháp thực hiỆn -. Ác 2.11213321131115 1 111111111 rree 12
1.6 Cấu trúc khoá luận - + + ++¿++++Ek£EEEEE2EEE21E71711211221 7121.211 crxeeg 13
CHUONG 2 TONG QUAN TINH HÌNH NGHIÊN CUU 14
2.1 Các nghiên cứu 16m QUaI -.- <5 0118311185311 91 1 1 19911 9 ng re 14
2.2 Ý nghĩa khoa học và thực tiễn của đề tài -©-¿c5+2cxccreerxeerxesrxee 15
2.2.1 Ý nghĩa khoa hoc ocscecscsssesssesssesssssseessessssesssssessusssssssecssecssecsecssecsueeseeeses 15
3.3 Mạng sinh đối kháng GAN ©22+2++EE+EE2EEEEEEEEE2E2112E171 21.2111 24
3.3.1 _ Vấn dé mat cân bang dit liệu 2-2 ©52+£2+EE+EEerEzEesrxerxerxee 24
3.3.2 _ Kiến trúc mạng GAN -¿+-+2cktEEeEkSrkrrrkerkrerkrsrree 25
Trang 63.3.3 Một số ứng dụng -¿22¿©2+2E+2EE2EEEEEEEEEEEErrrrrerkrrree 263.4 Hoc 0.086 aa+4 28
3.4.1 Tổng quan ++52+E+EEkEEEEEEEEEEE12112112111 1111111 xe 28
4.1.3 Tiền xử lý dữ liệu - ¿+S2+kEkEEkEEEEEE12112121 1111111 tee 33
4.2 Xây dựng mô hình FL-GAN trong SDN - che 34
4.2.1 Tổng quan 4© ⁄Z⁄.ư# ^ À 34
4.2.2 Xây dựng kiến trúc FL-GAN ¿ +¿©-++x++rx+rxerreerkeerxerrxee 34
CHUONG 5 THUC NGHIEM VÀ ĐÁNH GIÁ °-2-sssssses 42
5.1 Phuong pháp đánh gIá - 6 c1 1k HT TH HH TH HH nh ty 42
5.2 Triển khai môi trường SDN :- 2-22 +¿2E++2EE+EE++EE++Exerrxerkeerkerrxee 42
5.3 Đánh giá mô hình FL-based - - ¿+ + +3 E* + EE+vEEESeeEeeeerseereesereevee 43 5.4 Đánh giá mô hình FL-GAN - ¿52-52 SE2E£2E££EE£EEtEEEEEEEEeEErrkrrrrrrkerkee 45
5.5 Đánh giá mô hình FL-GAN với lưu lượng tan công thu được trong thực té 45
CHUONG 6 KET LUẬN VA HƯỚNG PHAT TRIEN - 47
6.1 Ket uaneccceccecceccccccsccccssesscssesscssesessessessssscsscsssssssssessesseseesucsuesssessessssstsasseesneaees 416.2 Hướng phat triỂn -:- +5 E+EE+EE2EEEEEEEEEEEEEE12112112111121 11111111, 47
TÀI LIEU THAM KHAO cssssssssesssesssssosssscsssessnssssssesanssanessesssecaneesseenecaseeanesseesses 49
Trang 7Kiến trúc SDN cùng OpenFlow [§] ¿ ¿ s¿©++2s++zx2zxvzxeerxesred 22Kiến trúc mạng GAN [10] ¿- ¿+ ©2+2+++EE+2EEtEEEtEEeerkrsrkerkrerkesrki 25
Công thức tính ham loss của Bộ phân bIỆt .- 5 2555555 <<++<+++s+ 26 Công thức tính ham loss của Bộ sinh - 5 55+ *++s++sexseeexeseeees 26 Công thức tính ham loss của GANN - -. Ă SH HH ng rên 26
Mô hình đào tạo học liên kết [13] . ¿- 2s 2 +seEE+E£EE+EeEEeErkerxexerxee 29
Mô hình đào tạo FL [1Š ] - - c5 +2 *2< E9 E*EESEESkEEkrkrrirekrrrkrreee 30
Mô hình triển khai EL -:¿£+22+++++tEE+++tttEEkktrrtrkktrrrrrrrtrrrrrrrieg 35
Mô hình đào tạo và kiểm thử của FL-GAN trong từng host 36
Mô hình kiểm thử FL-GAN với IDS ¿- 5: 5¿©5£+2++£xccx+zxevrxerxrred 37
I/[081018800611 101111177 38
\/00101809067.900177 39
Mô hình hoạt động của FL Flower [ 19] .- «+5 «+ <++e+seeseeeseess 40
Mô hình triển khai IDS : -552¿2552t2222vt2EExvttrEttrsrrrtrrrrrtrrrrrrrree 41
Mô hình triển khai SDN ccscsscescsssscssssescsseeecssseessseeecssneecssnecssneessneeeessnees 43
Trang 8DANH MỤC BANG BIEU
Bang 3.1 Các trường hợp xảy ra khi IDS nhận diện tan công 5-2 2¿ 19Bảng 4.1 Các loại tấn công trong bộ dtr liệu CIC-ToN-IoT [16] - 31Bảng 5.1 Kết quả thực nghiệm trên bộ dữ liệu CIC-ToN-IoT -s- 5z: 44Bảng 5.2 Kết quả thực nghiệm trên bộ dữ liệu CIC-IDS2018 -. - 44
Bảng 5.3 Kết quả thực nghiệm mô hình FL-GAN trên bộ CIC-IDS2018 45
Bang 5.4 Thông tin chi tiết bộ dé liệu thu thập được -s-csssseeereeereree 45Bang 5.5 Kết quả thực nghiệm trên bộ dữ liệu thực tẾ 2 ¿5+ 5 s+cs+£s+c+2 46
Trang 910
Thuật ngữ IDS
Intrusion Prevention System Machine Learning
Machine Learning Based IDS Software-Defined Networking Federated Learning
Generative Adversarial Networks
Deceive IDS with GAN and Function-Preserving on
Adversarial Samples
Denial of Service
Trang 10TOM TAT KHÓA LUẬN
Theo sự phát triển của lĩnh vực khoa học máy tính, nhiều giải pháp áp dụng các
mô hình học máy (ML), học sâu (DL) dé phát hiện lưu lượng tan công bang cách sửdụng một lượng lớn dữ liệu được thu thập sẵn Tuy nhiên các phương pháp này cần tậptrung dữ liệu của người dùng, vốn nhạy cảm và yêu cầu quyền riêng tư nhất định Vìvậy cần phải phát triển một phương pháp mới hơn, đảm bảo quyền riêng tư dữ liệu và
khả năng phát hiện xâm nhập với độ chính xác cao.
Trong phạm vi khóa luận, tôi thiết kế và giới thiệu FL-GAN, một kiến trúc kết hợpgiữa học liên kết (FL) và mạng sinh đổi kháng (GAN) FL được định nghĩa như là một
kĩ thuật học máy (ML) đào tạo mô hình một cách phân tán, trong đó dữ liệu được lưu
trữ cục bộ trên các thiết bị Bên cạnh đó GAN có khả năng sinh thêm dữ liệu bố sungvào bộ dữ liệu có sin GAN hỗ trợ khắc phục vấn đề mắt cân băng dữ liệu vốn làm giảmhiệu suất đào tạo mô hình Tôi thực nghiệm trên bộ dữ liệu công khai CIC-IDS2018
Kết quả cho thấy FL-GAN có khả năng đào tạo mô hình trên một lượng lớn thiết bị dé
cho kết quả là một mô hình phát hiện tan công có độ chính xác cao
Bên cạnh đó, SDN là một kiến trúc mới đang phát triển, hứa hẹn là một giải pháp
cho các vấn đề của mạng truyền thông Điều khác biệt ở SDN là việc tách rời lớp điều
khiển khỏi lớp dữ liệu Tat cả các chức năng điều khién mạng được tích hợp vào mộtthiết bị duy nhất đóng vai trò là bộ điều khiển Điều này đồng nghĩa với khả năng quản
ly tập trung tat cả các hoạt động mang của SDN Bộ điều khiển tập trung hợp lý manglại nhiều lợi ích cho việc cấu hình và quản lý mạng, đặc biệt là trong lĩnh vực phát hiệntấn công Trước tiềm năng ứng dụng trong thực tế, tôi đã triển khai một IDS trên môitrường SDN giả lập và khảo sát hiệu suất của phương pháp FL-GAN trong ngữ cảnh
này.
Cuối cùng, tôi sẽ đưa ra một số hướng phát triển với tính thực tiễn cao cho việc
mở rộng nghiên cứu trong tương lai.
10
Trang 11CHƯƠNG 1 TONG QUAN ĐÈ TÀI
1.1 Lý do chọn đề tài
Sự phát triển mạnh mẽ của các hệ thống Vạn vật kết nối (IoT) cả về quy mô sửdụng lẫn số lượng thiết bị đã làm gia tăng đáng kê nguy cơ tấn công của tội phạm mạng.Khi xét đến các tính năng và cả những hạn chế của các thiết bị di động, những biện phápbảo mật truyền thông có thể không hiệu quả trong môi trường IoT Đề đối phó với nguy
cơ từ các cuộc tân công này, một trong những biện pháp thông dụng là sử dụng hệ thống
phát hiện xâm nhập (IDS) dé giám sát và phát hiện sớm những cuộc tan công, từ đó
cảnh báo sớm và có cách ứng phó hiệu quả.
Khi xử lý các mạng có quy mô lớn và không đồng nhất như mạng IoT, mạng kha
lập trình (SDN) là một cách tiếp cận tiềm năng với nhiều ưu điểm: dễ dàng triển khai,quản lý linh hoạt và được sử dụng bởi nhiều nhà cung cấp mạng lớn Vì bộ điều khiểnSDN có thê cung cấp hệ thống giám sát toàn quyên, theo thời gian thực và chiếm it băng
thông, IDS có triển vọng được ứng dụng và hoạt động với hiệu suất cao Hiện nay, với
sự phát triển của thiết bị di động có khả năng truy cập mạng, lượng dt liệu lớn về lưu
lượng mạng có thể cung cấp cho các IDS máy học phát triển và hoàn thiện
Tuy nhiên việc tập trung dữ liệu tại một trung tâm dé dao tao mô hình may hoccho IDS lại vi phạm tinh riêng tư khi yêu cầu thông tin cá nhân người dùng Bên cạnh
đó, việc truyền dit liệu cá nhân đến một máy chủ tập trung có thé tốn băng thông mạng
và là cơ hội của cuộc tấn công giả mạo, đầu độc dữ liệu Phương pháp FL có thể xử lývan dé nay khi dao tạo mô hình trên chính thiết bị của người dùng Cụ thê hơn, trên mỗithiết bị có mô hình học máy đảo tạo băng chính dữ liệu của người dùng và chỉ cần cậpnhật trọng số của mô hình này cho một máy chủ trung tâm (thay vì dữ liệu cá nhân).Sau một khoảng thời gian cụ thể, máy chủ trung tâm sẽ tập hợp các mô hình phân tánnày và tối ưu thành một mô hình duy nhất Nhận thấy rang FL là phương pháp tốt détriển khai trong ngữ cảnh mạng SDN, tôi muốn nghiên cứu và đánh giá tính khả thi cũng
như độ hiệu quả của mô hình này.
Bên cạnh đó, mạng sinh đối kháng (GAN) là một mô hình học sâu không giám
sát, có khả năng tạo ra dữ liệu giả tương tự như dữ liệu đã có GAN còn phân biệt một
đầu vào có phải là dữ liệu giả hay không, từ đó nâng cao khả năng sinh ra dit liệu giả
11
Trang 12gần giống dữ liệu thật Từ khả năng này, GAN được sử dụng dé bồ sung dữ liệu cho
những bộ dữ liệu bị mắt cân bằng, vốn là van dé làm giảm hiệu suất dao tạo mô hìnhmáy học Chất lượng của hệ thống phân biệt lưu lượng tan công có triển vọng tăng độchính xác nếu kết hợp với GAN
Từ những lí do trên, tôi chọn đề tài “Phương pháp kết hợp mạng sinh đối kháng vàhọc liên kết trong nhận diện tan công trong mạng khả lập trình” làm đề tài nghiên cứu
cho khóa luận.
1.2 Mục tiêu nghiên cứu
Nghiên cứu, thiết kế, xây dựng hệ thống ứng dụng FL kết hợp với GAN dé đào tạo môhình học máy có khả năng phát hiện lưu lượng tấn công mạng với độ chính xác caotrong kiến trúc SDN
1.3 Phạm vi nghiên cứu
- Hệ thống IDS ứng dụng những mô hình máy học cơ bản.
- Xử lý mat cân bằng dữ liệu bang GAN
- Triển khai mang FL đào tao mô hình học máy cho IDS
- Hiện thực một cuộc tân công và thu thập dữ liệu tấn công, kiểm tra khả năng
nhận diện của IDS.
1.4 Đối tượng nghiên cứu
- Các mô hình hoc máy áp dung cho bài toán phân loại nhị phân (phan biệt lưu
lượng tấn công và lưu lượng bình thường)
- Kha năng khắc phục van đề mắt cân bang dữ liệu của GAN
- Dao tạo mô hình máy hoc một cách phân tán trên mang FL.
- Triển khai mô hình FL kết hợp với GAN trên mạng SDN
1.5 Phương pháp thực hiện
- Tìm hiểu các kiến thức nền tảng về các đối tượng nghiên cứu trong đề tài
- Tim hiéu các công trình nghiên cứu đã được thực hiện trong và ngoai nước.
12
Trang 13- Dua ra phương pháp xây dựng và triển khai hệ thống.
- Thực nghiệm và đánh giá kết quả
1.6 Cấu trúc khoá luận
Khóa luận được tổ chức trong 6 chương như sau:
Chương 1: TONG QUAN DE TÀI
Trinh bay khái quát định hướng nghiên cứu của khóa luận mà tôi muốn hướng tới
Chương 2: TÔNG QUAN TÌNH HÌNH NGHIÊN CỨU
Sơ lược một số công trình liên quan có cùng hướng nghiên cứu mà đề tài có tham khảo
Chương 3: CƠ SỞ LÝ THUYET
Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tang dé có thé thực
hiện được nghiên cứu.
Chương 4: PHƯƠNG PHÁP THỰC HIỆN
Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương pháp thực
hiện và mô hình được sử dụng.
Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ
Đề cập đến quá trình thực nghiệm cùng với kết quả thu được Dua ra nhận xét cho
những công việc đã thực hiện ở Chương 4.
Chương 6: KET LUẬN VA HƯỚNG PHÁT TRIEN
Đưa ra kêt luận về đê tài, đê xuât một sô hướng phát triên mở rộng cho các nghiên cứu trong tương lai.
13
Trang 14CHƯƠNG 2 TỎNG QUAN TÌNH HÌNH NGHIÊN CỨU
2.1 Các nghiên cứu liên quan
IoT là công nghệ được quan tâm rộng rãi trong nhiều lĩnh vực khác nhau Mụctiêu của mạng IoT là kết nối môi trường vật lý với Internet, từ đó tạo ra một mạng lướithiết bị dày đặc hơn, thông minh hơn và cung cấp nhiều tiện ích hơn cho mọi nguoi.IoT đã được ứng dụng trong phát triển nha thông minh, thành phó thông minh, ứng dụng
chăm sóc sức khỏe, mạng đám mây, Các ứng dụng này làm nay sinh các van dé bảo
mật thiết bị người dùng, các cuộc tấn công vào mạng cũng như tối ưu hóa tài nguyên
mang [1].
Mô hình FL cũng được phat triển bởi William Schneble và cộng sự được ứng
dụng cho ngành y tế, với tên gọi là MCPS (Medical Cyber-Physical Systems - mạngcác thiết bị y tế) [2] MCPS lưu trữ các dit liệu về sức khỏe bệnh nhân, thông tin cá nhânmang tính nhạy cảm và nếu bị ton hại sẽ gây nên hệ quả rat lớn Vì vậy yêu cầu của hệthống này là khả năng bảo mật cao, linh hoạt, sử dụng ít tài nguyên và cho độ chính xáccao Kết quả đạt được của nhóm tác giả rất ấn tượng khi đạt độ chính xác 99% và còn
giải quyét được van đê mat cân băng dữ liệu.
Bên cạnh đó, trong nghiên cứu của Mohamed Amine Ferrag và cộng sự [3], các
tác giả đã chỉ ra nhu cầu và thách thức trong việc phát hiện xâm nhập ở các thiết bị IoT,
điện thoại đi động và xe không người lái Nghiên cứu này cũng cung cấp cái nhìn tổngquát về những giải pháp deep learning sử dụng cho hệ thống thiết bị phân tán Ngoài ra,nghiên cứu này sử dụng các mô hình phân biệt ANN, CNN và DNN mang đến kết quảrat khả quan trên 2 bộ dữ liệu CID-DoS2019 và TON_IoT Tuy nhiên, giải pháp này lại
đòi hỏi tập trung dữ liệu cho quá trình phân tích cũng như đào tạo mô hình máy học (dữ
liệu được đưa từ lớp cảm biến trong môi trường lên lớp máy tính tập trung)
Dé đáp ứng được quyền riêng tu di liệu cho ngữ cảnh xây dựng mô hình phát
hiện tấn công mạng, Beibei Li và các cộng sự [4] đã đề xuất một mô hình FL, có tên làDeepFed, được sử dụng dé phat hién va giam thiểu các mối de doa mạng cho hệ thống
không gian mạng thực-ảo (Cyber-physical system - CPS) Mô hình này được các tác giả chứng minh là có tính hiệu quả cao va bảo mật dit liệu, vượt trội so với những nghiên
14
Trang 15cứu hiện tại Ngoài ra, một giao thức an toàn dành riêng cho FL cũng được phát triển
dé đảm bảo các thông số mô hình được truyền đi đảm bảo bí mật và riêng tư
Tương tự, một nghiên cứu khác của Mohammad Rasouli và cộng sự [5] triểnkhai mô hình FL kết hợp với GAN Các tác gia chỉ ra van đề chung khi dao tạo cả môhình GAN lẫn FL là đảm bảo sự hội tụ, các phần khác nhau của mô hình phải cùng nhau
được cải thiện Báo cáo nay còn đưa ra giải pháp cải thiện so với những nghiên cứu
tương tự trước đó khi cho cả bộ sinh và bộ phân biệt cùng nam trên một thiết bị
Liên quan đến việc kết hợp SDN và IDS, công trình DIGFuPAS [6] đã sử dụngGAN để tạo mẫu tấn công cho IDS trong mạng có hỗ trợ SDN Nhóm tác giả chỉ ra
rằng, mặc dù sử dụng những thuật toán khác nhau có hiệu suất cao nhưng IDS vẫn bị
giảm hiệu qua đáng ké khi đối phó với những cuộc tan công này Nghiên cứu này mở
ra hướng tiếp cận mới dé cải thiện IDS bằng cách tạo những cuộc tan công chất lượngcao và đa dạng chủng loại Từ những ưu điểm trong ngữ cảnh thí nghiệm, DIGFuPAS
có thê được hoàn thiện hơn và trở thành một sản phẩm thương mại trong tương lai
Những nghiên cứu trên cùng một số nghiên cứu có liên quan khác là nguồn thamkhảo tốt dé triển khai đề tài nghiên cứu này
2.2 Y nghĩa khoa học và thực tiễn của đề tai
2.2.1 Ý nghĩa khoa học
Như đã đề cập ở phần những nghiên cứu liên quan, các ứng dụng của FL kết hợp
với GAN cho bài toán phát hiện xâm nhập vẫn còn chưa nghiên cứu rộng rãi, tôi đề xuất
một số điểm mới cho nghiên cứu về đề tài này:
- Để khắc phục tình trạng sử dụng những tập dữ liệu cũ, có nhiều lưu lượng lỗi
và trùng lặp, nghiên cứu này sử dụng bộ dữ liệu mới hơn là CIC-ToN-IoT
liên quan đến các cuộc tấn công trên thiết bị loT và CIC-IDS2018
- _ Nhằm có cái nhìn tổng quan hơn về hiệu suất đào tạo mô hình, tôi bổ sung
thêm những metric khác ngoài Accuracy (cụ thé là Recall, Precision và
F1-Score).
- _ Tôi thử nghiệm những thuật toán máy hoc khác nhau cho IDS dé so sánh va
rút ra giải pháp tốt nhất
15
Trang 16- Việc bé sung GAN trong kiến trúc có lí do liên quan đến phân bó dữ liệu mat
cân bằng Trong thực tế, dữ liệu từ những thiết bị khác nhau có thé có tỉ lệgiữa các nhãn khác nhau, trong khi mô hình đòi hỏi sự ôn định Mat cân bằngnghiêm trọng có thê làm hiệu suất đào tạo mô hình cao nhưng không đáng
tin.
- _ Kiến trúc FL-GAN được triển khai trên SDN, là một kiến trúc mạng có ý
nghĩa lớn trong việc triển khai 5G, và hơn hết là phù hợp với tính năng đào
tạo mô hình phân tán của FL.
2.2.2 Ý nghĩa thực tiễn
Trong ngữ cảnh mạng IoT nói riêng và 5G nói chung đang được chuẩn hóa vàtriển khai thực tế, ý tưởng về một kiến trúc đào tạo mô hình máy học trên mạng SDN là
khả thi Các nghiên cứu cũng như ứng dụng sẵn có đã rất nhiều, nhưng trong lĩnh vực
An toàn thông tin, mà cụ thể là phát hiện xâm nhập vẫn còn hạn chế Bằng cách kết hợpnhững giải pháp khác nhau dé giải quyết bài toán phân biệt lưu lượng tan công trongmạng, nghiên cứu của tôi có thê là một giải pháp phát hiện xâm nhập kèm theo nhiều
tính năng hứa hẹn.
Nghiên cứu này khi được triên khai thành giải pháp có thê cung cấp lợi ích đào tạo
mô hình học máy tận dụng được lượng dữ liệu lớn trên các thiết bị mà đồng thời vẫn
đảm bảo riêng tu dit liệu cho người dùng Bên cạnh đó, một số lợi ích khác có thể kêđến là tối ưu băng thông mạng, đào tạo mô hình máy học hiệu quả hơn, tối ưu bộ nhớ
lưu trữ Từ những lợi ích trên, các hệ thống lớn có thé dat lợi ích tốt hơn về kinh tế,
hiệu quả hoạt động vả cả chính sách liên quan dữ liệu người dùng.
16
Trang 17CHƯƠNG3 ˆ CƠ SỞ LÝ THUYET
3.1 Hệ thống phát hiện xâm nhập IDS
3.1.1 Tổng quan
Phát hiện xâm nhập là một biện pháp giúp bảo vệ máy tính và hệ thống mạngkhỏi nguy cơ bị khai thác Hệ thống phát hiện xâm nhập (IDS) tập hợp các thiết bị cókhả năng phân tích lưu lượng, nhận biết các dấu hiệu bất thường và đưa ra cảnh báo choquản trị viên IDS có thé được phân loại như sau:
- _ Dựa trên nơi dat IDS:
o Đặt tại một máy chủ (Host-based IDS): Thường là một phần mềm nam
trên máy chủ và giám sát một máy chủ duy nhất IDS này có khả năng
hoạt động ở tầng 7 của kiến trúc TCP/IP, soi sâu vào gói tin đã được giải
mã, vì vậy có khả năng giám sát những mối nguy hại tiềm 4n trong lưu
lượng Tuy nhiên triển khai host-based IDS có thê yêu cầu quyền truy cậpvào dữ liệu nhạy cảm của các máy chủ và cấu hình phân tán, làm tăng chỉphí đầu tư
internet
| I =) Ra
Hình 3.1 Host-based IDS.
17
Trang 18o Đặt tại vùng biên của mang (Network-based IDS): Thường là một thiết bị
chuyên dụng, riêng biệt với đường truyền mạng và nhận phần dữ liệu saochép từ đường truyền mạng dé phân tích IDS dang này có khả năng giámsát diện rộng và kiêm soát một vùng mạng lớn Tuy nhiên, NIDS thiếu
khả năng soi sâu vào nội dung gói tin vì không hoạt động ở layer 7.
CS
Internet
BE la 1 =
Hinh 3.2 Network IDS.
Dựa trên ki thuật phát hiện xâm nhập:
o Phát hiện xâm nhập bang dau hiệu (Signature-based IDS): Day là phương
pháp so sánh các hành vi của lưu lượng với khuôn mẫu của các cuộc tấncông đã biết trước Từ đó IDS đưa ra đánh giá xem hành vi có phải là xâm
nhập hay không Đây là phương pháp có hiệu quả cao với những cuộc tấncông đã biết trước, tuy nhiên lại yêu thé trước những cuộc tan công chưa
được biết đến (các cuộc tấn công zero-day)
Phát hiện xâm nhập bằng các sự bất thường (Anomaly-based IDS): Đây
là phương pháp ứng dụng các kĩ thuật học máy dé nhận biết đâu là hành
vi bất thường so với các hành vi được gán nhãn bình thường Từ đó IDS
18
Trang 19đưa ra đánh giá xem hành vi có phải là tắn công hay không Phương pháp
này có khả năng phát hiện các cuộc tấn công chưa biết trước Tuy nhiênloại IDS này có nhược điểm là có tỉ lệ cảnh báo sai, nghĩa là gán nhãn một
lưu lượng bình thường thành tan công
3.1.2 Cách đánh giá IDS
Một mô hình IDS khi sử dụng các thuật toán ML đã nhận diện tan công cần được
đánh giá khả năng phát hiện và so sánh giữ các thuật toán khác nhau Khả năng phát
hiện tan công của mô hình thường được đánh giá bằng tập dữ liệu kiểm thử Tập dữ liệukiểm thử chiếm khoảng 20 — 30% tổng số bản ghi của bộ dit liệu Tập dữ liệu kiêm thử
cần phải được chọn một cách ngẫu nhiên trong bộ dữ liệu và không được trùng với tập
dir liệu đào tạo mô hình.
Sau khi mô hình được đào tạo, tập dữ liệu kiêm thử sẽ được dùng làm đầu vào của
mô hình Đầu ra của mô hình khi này là giá trị nhãn dự đoán Bằng cách so sánh độ
chính xác giữa giá trị nhãn dự đoán của mô hình với giá trị nhãn sẵn có của bộ dữ liệu
kiểm thử, độ chính xác của mô hình có thể đo đạc được Như vậy, giữa kết quả mà mô
hình dự đoán với kết quả của bộ dữ liệu kiểm thử, có 4 trường hợp có thé xảy ra như
Bảng 3.1.
Bảng 3.1 Các trường hợp xảy ra khi IDS nhận diện tấn công.
Xay ra tan công (T) Không xảy ra tan công (F)
Dự đoán đúng (P) TP FP
Dự đoán sai (N) TN FN
Cu thé:
- True Positive (TP): Số trường hop là tan công và xác định đúng
- False Positive (FP): Số trường hợp là tan công và xác định sai (thường gọi là
báo động giả hay dương tính giả).
- True Negative (TN): Số trường hợp không phải là tấn công và xác định đúng
- False Negative (FN): Số trường hợp không phải là tan công và xác định sai
19
Trang 20Dựa vào 4 chỉ số trên, một IDS sẽ được đánh giá là có hoạt động hiệu quả hay
không bằng một số metric (độ đo) Một số metric phố biến nhất là: Accuracy, ROC
curve, Recall, Precision, Fl-Score Với bài toán phân loại mà tập dữ liệu của các lớp bi
mắt cân bang, metric hiệu quả thường được sử dụng là Precision-Recall
3.1.2.1 Accuracy (độ chính xác)
Accuracy = (TP+TN)/(TP+FP+TN+FP) Trong đó:
- TP+TN: Tổng số trường hợp IDS xác định đúng
- TP+FP+TN+FP: Tổng số trường hợp xảy ra
- Accuracy cho biết tỉ lệ mà IDS xác định đúng nhãn của lưu lượng
3.1.2.2 Recall
Recall = TP/(TP+FN) Trong do:
- TP: Số trường hop là tan công va IDS xác định đúng
- TP+FN: Tong số trường hợp xảy ra tấn công
3.1.2.3 Precision
Precision = TP / (TP+FP)
- TP: Số trường hợp là tan công và IDS xác định đúng
- TP+FP: Tổng số trường hợp “tích cực” (trường hợp cuộc tấn công bị phát
hiện/không thực sự xảy ra tấn công)
3.1.2.4 F1-Score
F1-Score = 2*(Recall * Precision) / (Recall + Precision)
FI-Score là đánh giá tổng thé cho ca Recall va Precision
20
Trang 213.2 Kiến trúc mạng khả lập trình SDN
3.2.1 Tống quan
Hiện nay có nhiều định nghĩa về SDN, trong đó có định nghĩa của tổ chức Open
Networking Foundation (ONF), một tổ chức chuyên định nghĩa, phát triển và thương
mại hóa SDN Định nghĩa như sau: “Trong kiến trúc SDN, phần điều khiển mạng
(Control Plane) và chức năng vận chuyền dữ liệu (Forwarding Plane hay Data Plane)
được tách biệt, điều này cho phép việc điều khiển mạng có thé lập trình va cơ sở hạ tầng
mạng độc lập với các ứng dụng cũng như dịch vụ mạng” [7].
3.2.2 Kiến trúc SDN
ONF trình bày kiến trúc cấp cao của SDN gồm 3 lớp theo chiều doc, lần lượt làlớp cơ sở hạ tầng, lớp điều khiển và lớp ứng dụng (Hình 3.3)
Lớp cơ sở hạ tầng (infrastructure layer/data plane): Sẽ bao gồm các switch vật lý
(như Juniper Junos MX-series) và switch ảo (như Open vSwich) Cac switch nay có
thé truy cập thông qua interface, chịu trách nhiệm nhận và chuyền tiếp gói tin
- Lớp điều khiển (control layer/control plane): bao gồm các bộ điều khiển
(controller) được lập trình để cung cấp chức năng điều khiển mạng tổng hợp
qua các API, từ đó giám sát hành vi mang thông qua các interface mở Có 3
interface để SDN giao tiép: cầu nam (southbound), cầu bac (northbound) va
cầu đông/tây (east/westbound)
- _ Lớp ứng dụng: Thường bao gồm các ứng dụng dành cho người dùng cuối
SDN thường được liên kết với giao thức OpenFlow Giao thức OpenFlow là một
phần của kiến trúc SDN, cho phép switch điều khiển ở mức flow OpenFlow được sử
dung dé chuẩn hóa giao tiếp giữa switch và các bộ điều khiển có khả năng lập trìnhtrong kiến trúc SDN [7]
21
Trang 22APPLICATION LAYER
CONTROL LAYER
INFRASTRUCTURE LAYER
Hình 3.3 Kiến trúc SDN cùng OpenFlow [8]
3.2.3 Ứng dụng
3.2.3.1 Điều phối đám mây
Trong mạng truyền thống, các máy chủ và đường truyền giữa các máy chủ được
quản lý riêng biệt Khi mà dịch vụ đám may phát triển với tốc độ nhanh chóng, kiếntrúc mạng truyền thống gây trở ngại cho các hoạt động trên đám mây Những cải tiến
chính liên quan đến điện toán đám mây thuộc về các công nghệ cho máy chủ, trung tâm
dữ liệu cũng như các thiết bị di động Đề thay đôi tình hình này, SDN được đề xuất nhưmột giải pháp dé triển khai ứng dụng đám mây một cách nhanh chóng và tự động
Vì bộ điều khiển SDN cũng như khung điều phối đám mây được cung cấp ở dạngphần mềm, một giao diện chung có thể thé giám sát cả hai khía cạnh này Giao diện này
có thé được sử dụng dé thông báo về việc di chuyên máy ảo, một liên kết nào đó bị quá
tải và cả về những mối đe đọa bảo mật Hiện nay phần mềm điều phối đám mây Open
Nebula được sử dụng để điều phối các máy chủ ảo, cho phép phát đi một thông báo
ngắn đến mạng SDN trước khi di chuyển máy chủ Việc này cho phép phiên của ngườidùng được duy trì trong quá trình di chuyền, tăng tính thân thiện với người dùng
22
Trang 233.2.3.2 Cân bằng tai
Bộ cân bang tải thường được sử dụng như một giải pháp tăng độ hiệu quả và tính
khả dụng của dữ liệu được người dùng yêu cầu Cụ thé hơn, bộ cân bang tai duoc trién
khai trên kiến trúc mạng có nhiều máy chủ, phân phối tai giữa các máy chỉ này theo một
thuật toán nhất định Thuật toán này có thé cố gắng giảm thiêu chi phí truyền dữ liệu
hoặc trung bình tải trọng mà nó phải xử lý.
Hiện tại, vấn đề cân băng tải trên SDN có thể xử lý bằng công cụ Open Flow.Tại bộ điều khiển OpenFlow, các quy tắc tổng hợp về luồng được đặt ra và thực thibang cách sử dụng những ký tự đại diện cho những phan tử trong mạng Bằng cách này,
một thiết bị cân bằng tải chuyên dụng trong mạng trở nên không cần thiết Một số nghiên
cứu hiện tại đang cải tiễn tính năng này, cho phép lập trình viên có khả năng trực tiếpđiều khiển những cơ chế liên quan đến cân bằng tải
3.2.3.3 Định tuyến
API giữa mặt phăng dữ liệu và bộ điều khiển tập trung của SDN có khả năng
cung cấp những chức năng hỗ trợ giao thức định tuyến, thông qua các module lập trình
Trên bộ điều khiển Openflow có những tùy chọn có sẵn như: Tối ưu hóa lưu lượng,định tuyến an toàn, kết nối giữa các phiên bản giao thức (Ipv4 và Ipv6)
3.2.3.4 Giám sát mạng
SDN có sẵn khả năng giám sát mạng so bộ, không cần tích hợp thêm thiết bị hay
bỏ thêm chi phí Khái niệm này được đưa ra bởi ONF và trong thực tế, SDN vốn thuthập dữ liệu từ mạng về bộ điều khiển Dữ liệu thu thập được có thể được xử lý dé thu
được những thông tin giám sát mạng.
3.2.3.5 Quan tri mang
Các chính sách quan ly mạng thường được quyết định từ trước, sau đó được quảntrị viên cấu hình cho các phần tử trong mạng Với quy mô mạng càng lớn thì độ phứctạp của cau hình càng cao Vậy nên một chính sách thường ít khi được thay đổi, dẫn đếnmạng kém linh động và hiệu quả Trong ngữ cảnh các mẫu lưu lượng liên tục thay đồi,mạng cần phải có khả năng điều chỉnh chính sách nhanh chóng và tự động dựa trên một
loạt tham số Điều này đòi hỏi một quy tắc chung cho chính sách mạng sau đó mới được
23
Trang 24chuyên thành từng điều luật cụ thể cho từng thiết bị trong mạng Mặc phẳng điều khiển
tập trung của SDN có thé cung cấp khả năng như trên vì nó có sẵn tat cả thông tin về
mạng.
3.2.3.6 Nhận diện dịch vụ trong hệ thống
Trong các thế hệ mạng tiếp theo, một trong những mục tiêu hướng đến là sử
dụng tài nguyên mạng hiệu quả và tối ưu hóa lưu lượng dẫn đến tăng chất lượng trải
nghiệm của người dùng cuối Tuy nhiên, nếu quản trị viên không biết về những ứng
dụng đang chạy trên mạng và những trạng thái của chúng sẽ gây khó khăn trong việc
cải thiện chất lượng Cách tiếp cận trước đây thường là soi sâu vào gói tin dé dé xác
định các ứng dụng.
Với API từ cầu nam của bộ điều khiến, ứng dụng có thé thông báo về các thuộc
tính và trạng thái Bằng thông tin này, bộ điều khién mạng có thé điều khiển các luồnglưu lượng dựa trên các tình huống khác nhau trong mạng Trong trường hợp mạng không
có khả năng duy trì một dịch vụ ở một yêu cầu cấu hình nhất định cho thiếu tài nguyên,
bộ điều khiển có thé thông báo cho ứng dung dé sửa đổi hành vi của ứng dung
3.3 Mạng sinh đối kháng GAN
3.3.1 Vấn đề mắt cân bằng dữ liệu
IDS dựa trên máy học có thê phát hiện các bất thường trong hệ thống với độchính xác cao nhưng thiếu hụt dữ liệu sẽ hạn chế việc huấn luyện mô hình Hơn nữa
trong thực tế, hầu hết các bộ dit liệu có sẵn không cân băng và các loại dữ liệu tan công
khác nhau lại không có sẵn trên quy mô lớn so với dữ liệu thông thường [9].
Khi dit liệu cân bằng, tỉ lệ giữa các class trong dataset là như nhau (vi dụ 50:50).Nếu tỉ lệ trên không bang nhau, dữ liệu bị coi là mat cân bằng Trong trường hop matcân bang nhẹ (ví du 60:40), mô hình không bi anh hưởng đáng kể
Trong thực tế, các bộ dữ liệu đều rất khó đạt được trạng thái cân bằng mà luôn
có sự khác biệt nhau giữa các class Tuy nhiên nếu hiện tượng mất cân bằng nghiêm
trọng xảy ra (ví dụ 90:10), mô hình được xây dựng trên dataset này sẽ có những lỗi sai
nghiêm trọng Những lỗi sai này là tiềm ân, tức là không gây ra lỗi ngay lập tức khi mô
24
Trang 25hình được xây dựng và sử dụng Nhưng kết quả đem lại có thể gây ngộ nhận về độ chính
xác của mô hình.
- _ Cách giải quyết: Sử dụng những kĩ thuật lấy lại mẫu dé cân bằng tập dit liệu
o_ Over sampling: tổng hợp tạo ra mẫu mới từ những mẫu hiện có của lớp
thiêu số Cách làm này có thé tạo nên nhiều dé liệu bị trùng lặp, khiến model
bị overfitting Một số model có thé sinh thêm dit liệu mới thay vì lấy lai đữ
liệu cũ, trong đó có GAN.
o Under sampling: loại bỏ bớt mẫu trong những lớp đa số Cách làm này có
thé làm mất đi đặc trưng quan trọng của class nếu không cân thận
Dữ liệu mât cân băng nghiêm trọng sẽ gây nên các hậu quả như:
- _ Độ chính xác của mô hình cao, nhưng không phan ánh đúng thực tế
- Di liệu của một class hiếm được lay mau lại nhiều lần, mô hình sẽ có hiện
tượng overfitting (quá khớp) đối với class đó
- M6 hình có xu hướng gán nhãn cho những mẫu chưa xác định thuộc những
class đa sô thay vì class thiêu sô.
3.3.2 Kiến trúc mạng GAN
GAN được giới thiệu bởi Goodfellow và cộng sự vào năm 2014 [10] Đây là một
trong những công cụ mạnh mẽ và đầy hứa hẹn trong học sâu Mô hình GAN bao gồm
2 mô hình con đối kháng nhau, gọi là bộ sinh (generator — G) và bộ phân biệt
(discriminator — D) Một cách khái quát, bộ sinh có nhiệm vu tạo ra dữ liệu giả sao cho
giống với dữ liệu thật, còn bộ phân biệt có nhiệm vụ phân biệt dữ liệu nhận được là thật