Chính vì những điều này, nhóm chúng em sẽ nghiên cứu về phương pháp học máy học Cộng Tác trên các hệ thông phát hiện xâm nhập trong mạng Khả Lập Trình, cùng với đó thực hiện các biện phá
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HQC CONG NGHE THONG TIN
KHOA MANG MAY TINH VA TRUYEN THONG
NGUYEN HONG HA TRAN VAN HUNG
KHOA LUAN TOT NGHIEP
TRÌNH PHAT HIEN TAN CONG DỰA TREN HOC CONG TAC TRONG MANG KHA LAP TRINH
FEDERATED LEARNING-BASED INTRUSION
DETECTION IN SDN-AWARE NETWORK
KY SU NGANH AN TOAN THONG TIN
TP HO CHi MINH, NAM 2021
Trang 2ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG
NGUYEN HONG HA - 17520419
TRAN VAN HUNG - 17520554
KHOA LUAN TOT NGHIEP
TRINH PHÁT HIEN TAN CONG DỰA TREN HOC
CONG TAC TRONG MANG KHA LAP TRINH
FEDERATED LEARNING-BASED INTRUSION
DETECTION IN SDN-AWARE NETWORK
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
ThS PHAN THE DUY
TP HO CHÍ MINH, NAM 2021
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
NAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Lời đầu tiên, chúng em xin gửi lời cảm ơn đến Quý Thầy Cô trường Đại Học Công Nghệ Thông Tin cũng như Quý Thầy Cô khoa Mạng Máy Tính và Truyền Thông đã truyền đat kiến thức, kinh nghiệm quý báu, quan tâm, hỗ trợ
chúng em trong suốt thời gian qua.
Đặc biệt, chúng em xin chân thành cảm ơn ThS Phan Thé Duy — người đã
hướng dẫn, tạo điều kiện tốt nhất cho tụi em thực hiện khóa luận này Đồng
thời, chúng em xin gửi lời cảm ơn anh Khoa, anh Hiển, chị Hiền cùng các anh
chị ở phòng thí nghiệm An Toàn Thông Tin đã nhiệt tình hỗ trợ, giúp đỡ đề tụi
em đạt được kết quả tốt nhất.
Mặc dù, chúng em đã có gắng hoàn thành khóa luận nhưng do hạn chế về thời gian và kiến thức nên không thể tránh khỏi những sai sót Chúng em kính mong nhận được sự thông cảm và ý kiến đóng góp từ Quý Thầy Cô để chúng
em có thể hoàn thiện và phát triển khóa luận này.
Chúng em xin chân thành cảm ơn!
Thanh phô Hồ Chí Minh, 10 tháng 07 năm 2021
Trang 5ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc Lập - Tự Do - Hạnh Phúc
e _ Tiếng Anh: Federated learning-based intrusion detection in SDN-aware network
Cán bộ hướng dẫn: ThS Phan Thế Duy
Thời gian thực hiện: Từ ngày 01/03/21 đến ngày 30/06/21
Sinh viên thực hiện:
Sinh viên: Nguyễn Hồng Hà MSSV: 17520419 Số điện thoại: 0966053812
Sinh viên: Trần Văn Hùng MSSV: 17520554 Số điện thoại: 0868337213
Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết quả mong đợi của dé tài)
Giới thiệu:
e _ Hiện nay, mang khả lập trình (SDN) đang được giới nghiên cứu xem là nền tảng quản lý và điều
phối số lượng lớn các thiết bị không đồng nhất như mạng IoT Hệ thống phát hiện xâm nhập được trién khai dé giám sát lưu lượng mang của số lượng lớn các thiết bị IoT.
® Với sự tiến bộ của các công nghệ, lượng người dùng ngày càng nhiều, các dữ liệu thu thập được
từ các thiết bị ngày càng da dang và phức tạp hơn Các hệ thống phát hiện xâm nhập phải chịu
Trang 6nhiều áp lực hơn trong việc thu thập và xử lý nhiều dữ liệu cùng một lúc Vì độ chính xác của khả năng phát hiện các hanh vi độc hại trong lưu lượng mạng bị giảm sút đáng kể, và mong muốn dé liệu của thiết bị người dùng được đảm bảo tính riêng tư khi các hệ thống này thu thập
được Sự xuất hiện của phương pháp học máy học Cộng Tác (Federated Learning) đã ra đời để
giải quyết các van dé này Vì tat cả dữ liệu không còn tập trung và được huấn luyện tại máy chủ
mà sẽ phân tán và huấn luyện trực tiếp tại các thiết bị, đảm bảo sự riêng tư của dữ liệu tại thiết bị
cũng như việc không phải chịu quá nhiều tải tại máy chủ, nâng cao độ chính xác khả năng phát hiện của hệ thống cũng như đảm bảo tính riêng tư của dữ liệu người dùng.
Chính vì những điều này, nhóm chúng em sẽ nghiên cứu về phương pháp học máy học Cộng Tác trên các hệ thông phát hiện xâm nhập trong mạng Khả Lập Trình, cùng với đó thực hiện các biện pháp tan công vào hệ thông phát hiện, cụ thé hon là tập dữ liệu mà hệ thống sẽ huắn luyện.
Mục tiêu:
Tận dụng phương pháp Học Cộng Tác (Federated Learning) trên các hệ thống phát hiện xâm
nhập IDS nhằm mục đích đảm bảo tính riêng tư của đữ liệu, và đảm bảo kết quả phát hiện những hành vi bất bình thường lẫn giữa những hành vi bình thường trong lưu lượng mạng khả lập trình
(SDN).
Chứng minh được ưu thế, hiệu suất, độ chính xác của phương pháp học cộng tác trong việc nhận
dạng các mối đe dọa so với các phương pháp học máy truyền thống.
Phạm vỉ nghiên cứu:
Phương pháp học cộng tác (Federated Learning): Áp dụng trên các hệ thống phát hiện xâm nhập, mục đích nâng cao khả năng phát hiện của hệ thống mạng khả lập trình.
Dữ liệu tắn công: Tập dữ liệu IOT-23 Stratosphere, CIC-IDS-2018 và CICDDOS2019
Triển khai phương pháp học cộng tác và phương pháp học máy truyền thống thu được kết quả, so sánh, rút ra kết luận.
Đối tượng nghiên cứu:
Phương pháp học Cộng Tác (Federated Learning) trên các hệ thống phát hiện xâm nhập trong
mang khả lập trình (SDN).
Các mô hình huấn luyện học máy, tập trung vào mô hình VGG-16.
Các thư viện hỗ trợ như Keras, Tensorflow.
Trang 7trúc của mô hình học máy Đồng thời tìm hiểu cách sử dụng của các thư viện hỗ trợ cho quá trình xây dựng và triển khai mô hình.
+ Xây dựng mô hình học máy phát hiện các hành vi bat thường trong đường truyền mạng
trên nhiều IDS với độ chính xác cao.
Phương pháp:
+ Tham khảo các tài liệu, video về phương pháp học máy và xây dựng mô hình.
+ Tìm hiểu về tập dữ liệu được sử dụng trong quá trình huấn luyện Thực hiện các quá trình
tiền xử lý trước khi huấn luyện.
+ Sử dụng các thư viện như Keras, Tensorflow, framework Flower.
Nội dung 2: Thực hiện huấn luyện các IDS trong trường hợp bị tan công và không bị tan công và
đưa ra so sánh
Mục tiêu:
+ Có được kết quả cao trong việc phát hiện hành vi độc hại Giảm thiểu False Positive.
+ Đưa ra được đánh giá tổng quan giữa quá trình huắn luyện bình thường và quá trình bị
nhiễm độc.
Phương pháp:
+ Tham kháo các tài liệu, video liên quan về việc huấn luyện mô hình trên nhiều đối tượng.
Kết quá mong đợi:
Triển khai được phương pháp học Cộng Tác trên 3-6 tác tử IDS với kết quả nhận diện tan công
hiệu quả.
Đưa ra được kết quả so sánh giữa hiệu suất, độ chính xác của mô hình học cộng tác với các mô hình học máy truyền thông
Có được kết quả thực nghiệm va đưa ra được đánh giá tong quan về quá trình thực hiện dé tài.
Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh viên tham gia)
Thời gian Sinh viên 1 Sinh viên 2
Nghiên cứu về phương pháp học _ Nghiên cứu về phương pháp học
Cộng Tác, mô hình SDN, mô Cộng Tác, mô hình SDN, mô 01/03/2021 - 01/04/2021 hình học máy, các thư viện hoặc | hình học máy, các thư viện hoặc
Trang 8Tiền xử lý các bộ dữ liệu, thực
Tháng 04/2021 hiện quá trình học máy giữa các
IDS ở kịch bản có kẻ tấn công.
Tiên xử lý các bộ dữ liệu, thực
hiện quá trình học máy giữa các
IDS ở kịch bản không có kẻ tân
Trang 9Mục lục
TÓM TAT KHÓA LUẬN 22222¿¿222S222vv222222EEEEt tri 1
Chương 1 TONG QUAN DE TAL essssssscsssssssssssssseccssssssessccessssiseseccesssiieessecessnneecss 3
1.1 Lý do chọn đề tai ccccccccccscssssessssssseccsssusssssssscsssssuscesssssscsssusecssssecesssusscessueeesssiess 3
I0 3
1.3 Đối tượng nghiên cứu -222+222222+++rttEEEEEEErrrtrtrrrkkrrrrrrrrrrrrrrrree 4
1.4 Phạm vi nghiÊn CỨU - «tt xxx SĐT ngư 4
1.5 Phương pháp nghiên CỨU - ¿+2 E2 S*2EESk2k E11 11x key 4
1.6 Cấu trúc khóa luận -: ©22V22+++++22222211121222221111112222111111 2.11.11 e2 4
Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN ccc:z522c5ssccccz+e 6
2.1 Phát hiện tang công mạng IOT dựa trên học cộng tác - 6
2.2 Giải pháp đảm bảo riêng tư của dữ liệu người dùng khi huấn luyện học máy
dựa trên học cộng tác ¿-¿-+- + St 1 1 12 97 111111 12 11101012121 0101010111 it 6
2.3 Kiến trúc điều khiển công nghiệp mới dựa trên Software-Defined Network 7
2.4 Phát hiện bat thường cho đữ liệu chuỗi thời gian trong công nghệ IoT: Giao
tiếp hiệu quả phương pháp học tập liên kết trên thiết bị -. - 7
Chương 3 TONG QUAN KIÊN THỨC NEN TẢNG .-:-22cc52+ § 3.1 Phương pháp học cộng tác (học liên kết) Federated Learning 8 3.1.1 Giới thiệu học cộng tác (học liên kết) Federated Learning 8
3.1.2 Ví dụ Gboard, ban phím Google 0 3.1.3 Những khó khăn và lợi ích của học liên kt - - - ¿5+ 0
3.2 Học máy va cách xây dựng một mô hình học máy, - 2
3.2.1 Học máy (Machine Learning) là gi? «+ 5+s++x+xexexererrx 2 3.2.2 Cách xây dựng một mô hình học máy ++«+sex+c+cex++ 4
3.3 Hệ thông phát hiện xâm nhập (Intrusion Detection System —IDS) 9
Trang 103.3.1 Hệ thống phát hiện xâm nhập là gì? -c¿vvcccczecrz 19
3.3.2 Ưu nhược điểm của 2 loại IDS
3.3.3 IDS máy học -c St ng re 21 3.4 Mạng khả lập trình (Software Defined Network —SDN) 22
3.4.1 Mạng khả lập trình là gi? oes eeeseseeesessesesseeeseercateneeneneeeaeeneases 22
3.4.2 Kiến trúc của mạng khả lập trình cz522vvccccz+rrz 24
3.4.3 Những lợi ich và cách thách thức trong giải pháp SDN 25 3.5 OpenIFÏOW ch HT” H101 T TH HH H10 g1 tế 26
3.5.1 Khái niệm OpenIFLOW: ¿+ + 5++5+ St 2xetkerrkerererkerrrrerrrrrre 26
3.5.2 Thanh phần của OpenFloW: :¿:©222¿2222+z+2cvvrvevcvverrrrrsree 26
3.5.3 Trao đổi giữa Controller và Switch: - -: -22cvcvccescrrrvrvercrrrrrr 27 3.5.4 Thiết lập kết nối 22: 222¿+2E22122222211222211112271112211111 12112 xe 28
3.6 Differential PriVacy ch” H11 001g rềc 29
3.6.1 Khái niệm Differential Privacy (Sự riêng tư khác biệt) 29
3.6.2 Các tham số trong DP 2:2222+++22ES++t22EES++etEESEretrrvrrsrrrrree 30
3.6.3 Các tham số quan trọng trong DP optimizer trong mô hình máy học 31
CHƯƠNG 4 Ý TƯỞNG, MO HÌNH, PHƯƠNG PHÁP THỰC HIỆN 32
4.1 Ý tung ecccccsecccscscssssseececessssssesscccssssnsececeesssssescsssunsssseccsssnnmeceecesssnseecessnnees 32
4.2 Mô hình IDS dựa trên FL eeccseeseseeseseeseeseeecsesesseesesecseeseeecseseeeesseeeeeesaes 33
4.3 Các mô hình ML sử dụng trong FL-IDS ¿5< 5< cvcsrexexe+ 35
4.3.1 So sánh hiệu năng của FL-IDS với các cách tiếp cận khác nhau 37
Chương 5 THỰC NGHIỆM HỆ 9c 39
5.1 Môi trường triển khai thực nghiệm -¿-©:z+2222+z+tcvvvrrsrrxx 39
5.1.1 Thành phần trong môi trường thực nghiệm -:¿-++ 39
Trang 115.2 Kịch bản thí nghiỆm - - 5 5 1 911930193 911v HH gệt 47 5.3.1 Đặc tả tập dữ liỆu -¿- 2¿©2<+2x2Ek 2 E22112212112711211711211211 11.11 1x 48
5.3.1 Giới thiệu CICIDDOS2010 ¿- 22 + ©5++2E+2E++EE+SEE2EEerkeerxrrrrerxee 48
5.3.2 Tap dtr n 49
5.3.3 Tóm tắt tập dữ liệu CICDDOS2019 csscsssesssessessseessessesssesssessesssessseeses 52
5.4 Tiền xử lý tập dit liệu - 2 +¿+2++2x++EEtEEEEEEEEEEEEE221 2112212111 54
SH 00 0 s6 a-aij7ỶẢ 54
5.6 _ Kết quả thí nghiệm - +: + +£+E£+EE‡EEEEEEEEEEEEEEEEEEEEEEEErkrrkrrkrrrvee 55
5.6.1 Đánh giá mô hình FÌU - - 5 233133333321 E£2EEEEEEEEEsrrrrrrrreres 55 5.6.2 Đánh giá mô hình nội Độ - ¿2 2+ *+*E+*EE+eEEeereereeerrrerrreree 56
5.6.3 Đánh giá mô hình tập trung - - - sen rệt 57
5.6.4 Đánh giá mô hình DPFL - ¿2 3 3+3 E**EE+EE+eEEeexeeeseeresrrrseres 5
5.6.5 Triển khai IDS cho mang SDN từ mô hình FL 2 2552 59Churong 6 101 8< 00878 a < 64
Trang 12DANH MỤC HÌNH
Hình 3.1: Mô hình Fedearated Learning - 5 xxx ngư 9
Hình 3.2: Ví dụ về Gbroad - +:+c2++t2EEktttErkrttttrrrttrrrrrrirrrrrrrrirerrre 10
Hình 3.3: Học có giám sát và học không có gid sát ¿5S-cc++sc++cxssess 14
Hình 3.4: Ma trận biểu diễn Weights và Biases ©5¿©2ccccccxcreersree 16Hình 3.5: Sơ đồ huấn luyện mô hình - - 2-2 2+ E£EE+EE+E£EeEEeEEeEEzEerrerxsree 17
Hình 3.6: IDS trong hệ thống mạng (nguồn hình ảnh [9]) 2-2 5z: 19
Hình 3.1: Sự khác biệt giữa SDN và mạng truyền thống - 2-2 25: 22Hình 3.2: Kiến trúc SDN 2222 trtEEtrnrrtrrrrrrrrrre 24Hình 3.3: Thanh phần của OpenFlow Switchh - ¿5 s+5++££+E££E+£xerszrzreree 26Hình 3.4: Các bước trao đổi tin nhắn giữa Controller và Switch - 27Hình 4.1: Cấu trúc mô hình phát hiện xâm dựa trên học cộng tác trong SDN 33Hình 4.2 Kiến trúc mô hình học máy VŒG-l6 ¿- 2 2 2+++£++£++££+£e£xerxsrsz 36
Hình 4.3 Mô hình VGG-16 được tinh chỉnh - 5-55 52+ 52+ +2 ££+zcezsesss 37
Hình 5.1 Mô hình hệ thống thực nghiệm 2 2 2 22 £+EE+£E++EzEzExzrxeei 40Hình 5.4 Ví du về Confain€rTIet -s- csxsSkkeEk‡EEEEEEEEEEEEEEEEEEEEEEEkEEkrkerkrkrrres 46Hình 5.5 Phân loại đối với các cuộc tấn công DDoS -. - 5c 5¿+sz+sz+s+ 49Hình 5.6 Kết quả mang SDN ở containernet máy VM 2 với Controller là VM3 59
(địa chỉ 10.102.196 [Ú) - Gà HH TH HH HT Tu HH HH Thu ng 59
Hình 5.7 các datapath thể hiện ở Ryu Controller VM3 - -: - 60Hình 5.8 Kết quả dự đoán của 100 file nhãn attack ¿5 s5s+sezxersscsz 60Hình 5.9 Kết quả dự đoán của 100 file nhãn benign -. ¿©¿ ¿25s 61
Trang 13Hình 5.9 Sơ đồ quy trình bắt lưu lượng mang ở IDS dé phân loại lưu lượng bình
thường và lưu lượng độc hại -. - - c2 1331321131191 811 1 1 ng ng rưkp 62
Hình 5.10 Kết quả nhận diện dữ liệu với 100% file bình thường 63Hình 5.11 Kết quả nhận diện dữ liệu với 100% file tấn công . - 63
Hình 5.12 Kết quả nhận diện dữ liệu với việc trộn file bình thường với file tan công
Trang 14DANH MỤC BANG
Bang 3.1 Bang so sánh giữa mạng truyền thống và mang SDN .- 23Bang 5.1 Cấu hình chi tiết các máy ảo trong mô hình - 2 22222: 41Bảng 5.2 Thời gian các cuộc tấn công diễn ra o.cesccesscessesssesssesseessesseessecstssseesseeseee 51
Bảng 5.3 Số lượng mẫu của mỗi nhãn trong tập Test CICDDOS20109 52
Bang 5.4 Số lượng mau của mỗi nhãn trong tập Train CICDDOS2019 53Bang 5.5 Kết quả huấn luyện của mô hình FL eeeeseesessesseeseesesessesseeseeseeseesen 55Bảng 5.6 Kết quả huấn luyện của mô hình Local 2- 552 ¿2+5 56Bảng 5.7 Kết quả huấn luyện của mô hình Ideal -.2 2- 52 522cxz2+c5zz 57
Bang 5.8 Tóm tắt kết quả huấn luyện của 3 mô hình - 2 2+sz2s2sze: 58
Bang 5.9 Kết qua huấn luyện mô hình DPFL cceccescessesseesesseesessessesseesteseesseesee 59
Trang 15DANH MỤC TỪ VIET TAT
EL : Federated Learning
SDN: Software-defined Network
IDS: Intrusion Detection System
DDos: Distributed Denial of Service
DP: Differential Privacy
ML: Machine Learning
IoT: Internet of Thing
Trang 16TOM TAT KHÓA LUẬN
Hiện nay, mạng khả lập trình (SDN) đang được giới nghiên cứu xem là nền tảng
quản lý và điều phối số lượng lớn các thiết bị không đồng nhất như mạng Internet of
Things (IoT), do sự phân tách giữa tang điều khiển và tang dữ liệu [1] - khác với
môi trường mạng truyền thống là mỗi thiết bị mạng đều có 2 thành phần này Nhiều
hệ thống phát hiện xâm nhập được triển khai để giám sát lưu lượng mạng với sốlượng lớn các thiết bị người dùng cuối bằng cách tận dụng khả năng quản lý của
mạng khả lập trình
Khi lượng người dùng và các thiết bị ngảy càng nhiều, các đữ liệu thu thập được
từ các thiết bị trong mạng SDN ngày càng đa dạng và phức tạp hơn Các hệ thống
phát hiện xâm nhập phải chịu nhiều áp lực hơn trong việc thu thập và xử lý nhiều
dữ liệu cùng một lúc Hiện nay, ngày càng xuất hiện các biến thé tan công tinh vi vàmới lạ hơn Trong khi đó các kiểu hệ thống phát hiện xâm nhập hiện nay hoạt độngdựa trên việc phát hiện các dấu hiệu có sẵn của các loại tấn công có trước, cho nên
độ chính xác của khả năng phát hiện trước các biến thé mới này giảm sút đáng kếnếu không thích ứng, cập nhật nhanh chóng Do đó, có nhiều công trình nghiên cứu
nỗ lực áp dụng phương pháp học máy dé tăng cường khả năng phát hiện tan côngtrước các biến thê mới nay [2] Ngoài ra, việc phân tích dữ liệu một cách cục bộ như
phương pháp học máy truyền thống có thé phát sinh những van đề về quyền riêng tư
dữ liệu Để giải quyết những vấn đề trên, phương pháp học Cộng Tác (FederatedLearning) đã ra đời, trong đó quy trình thu thập dữ liệu và phát triển các thuật toánmới được tiễn hành ngay trên các thiết bị, giúp tiêu thụ ít điện năng, đảm bảo quyềnriêng tư cho người sử dụng, cũng như việc không phải chịu quá nhiều tải tại máy
chủ, nâng cao độ chính xác khả năng phát hiện của hệ thong phát hiện xâm nhập [3]
[4].
Chứng kiến nhiều lo ngại về bảo mật, tính riêng tư của việc sử dung dir liệutrong các giải pháp an toàn hệ thống mạng có nhiêu thiết bị người dùng, việc nghiên
cứu cách thức xây dựng trình phát hiện tan công dựa trên học cộng tác trong mạng
khả lập trình là một nhu cầu cần thiết Cách tiếp cận này vừa có thé khuyến khích va
Trang 17tận dụng dữ liệu cá nhân ở các t6 chức, co quan dùng cho quá trình xây dựng giảipháp phát hiện xâm nhập, vừa có thé đảm bảo quyên riêng tư trên những dit liệu lưulượng mạng dùng dé huấn luyện bộ nhận diện tấn công mạng Tóm lại, đề tài nàythực hiện nghiên cứu thực nghiệm cách tiếp cận áp dụng phương pháp học cộng táctrong bài toán phát hiện tắn công mạng trong ngữ cảnh mạng khả lập trình Cụ thể,
nhóm dé xuất một phương pháp tận dụng những nguyên lý của mạng khả lập trình
SDN để cho phép quản lý các luồng thông tin mạng được trích xuất, phân tích vàhuấn luyện cục bộ tại những công an ninh đầu ra (security gateway) của từng vùngmạng Những công an ninh đầu ra này được xem như một tác tử IDS cục bộ có
nhiệm vụ huấn luyện cục bộ mô hình học máy cập nhật được từ máy chủ IDS trung
tâm Sau đó, nhóm hướng tới thử nghiệm tan cong dau độc các IDS hoc cộng tac
này dé khám phá mức độ anh hưởng của tan công đến tính chính xác của bộ nhận
diện xâm nhập trong hệ thông mạng
Trang 18Chuong1 ˆ TỎNG QUAN ĐÈ TÀI.
1.1 Lý do chọn đề tài
Hiện nay, mạng khả lập trình (SDN) đang được giới nghiên cứu xem là nền tảngquan lý và điều phối số lượng lớn các thiết bị không đồng nhất như mạng IoT Hệthống phát hiện xâm nhập được triển khai để giám sát lưu lượng mạng của số lượnglớn các thiết bị IoT
Với sự tiễn bộ của các công nghệ, lượng người dùng ngày càng nhiều, các dữ
liệu thu thập được từ các thiết bị ngày càng đa dạng và phức tạp hơn Các hệ thống
phát hiện xâm nhập phải chịu nhiều áp lực hơn trong việc thu thập và xử lý nhiều
dữ liệu cùng một lúc Vì độ chính xác của kha năng phát hiện các hành vi độc hai
trong lưu lượng mạng bị giảm sút đáng ké, và mong muốn dữ liệu của thiết bị người
dùng được đảm bảo tính riêng tư khi các hệ thống này thu thập được Sự xuất hiện
của phương pháp hoc máy học Cộng Tác (Federated Learning) đã ra đời dé giải
quyết các vấn đề này Vì tất cả đữ liệu không còn tập trung và được huấn luyện tại
máy chủ mà sẽ phan tan va huấn luyện trực tiếp tại các thiết bị, đảm bảo sự riêng tu
của dữ liệu tại thiết bị cũng như việc không phải chịu quá nhiều tải tại máy chủ,
nâng cao độ chính xác khả năng phát hiện của hệ thống cũng như đảm bảo tính
riêng tư của dữ liệu người dùng.
Chính vì những điều này, nhóm chúng em sẽ nghiên cứu về phương pháp học
máy học Cộng Tác trên các hệ thống phát hiện xâm nhập trong mạng Khả Lập
Trình, cùng với đó thực hiện các biện pháp tấn công vào hệ thống phát hiện, cụ thểhơn là tập đữ liệu mà hệ thống sẽ huấn luyện
1.2 Mục tiêu
e Tận dụng phương pháp Hoc Cộng Tac (Federated Learning) trên các hệ
thống phát hiện xâm nhập IDS nhằm mục đích đảm bao tính riêng tư của dit
liệu, và đảm bảo kết quả phát hiện những hành vi bất bình thường lẫn giữa
những hành vi bình thường trong lưu lượng mạng khả lập trình (SDN).
Trang 19e_ Chứng minh được ưu thế, hiệu suất, độ chính xác của phương pháp học cộng
tác trong việc nhận dạng các mối đe dọa so với các phương pháp học máy
truyền thống
1.3 Đối tượng nghiên cứu
Khóa luận này hướng đên nghiên cứu các đôi tượng sau:
e Phương pháp học cộng tác (Federated Learning)
e Các bộ dataset cho IDS
e Mô hình mang SDN
e M6 hình IDS may học
1.4 Phạm vi nghiên cứu
e Mô hình mang SDN ở dạng cơ bản.
e Phuong pháp học cộng tác (Federated Learning).
e Mô hình máy học ở dạng cơ bản.
1.5 Phương pháp nghiên cứu
e Tìm hiểu về mạng SDN
e Tìm hiểu về phương pháp học cộng tac (Federated Learning)
e Tìm hiểu differential privacy
e Xây dựng mô hình học máy dựa trên mô hình mau VGG-16
e_ Xây dựng kiến trúc SDN với trình phát hiện tắn công dựa trên học cộng tac
(Federated Learning)
e Thực nghiệm với bộ dataset CICDOS2019 dé xác định độ chính xác của mô
hình học máy, tỉ lệ nhận biết tấn công, tỉ lệ nhận biết bình thường
1.6 Cấu trúc khóa luận
Khóa luận được trình bày với cấu trúc sau:
e Chương 1 Tổng quan đề tài Chương này sẽ giới thiệu tông quan về đề tài
nghiên cứu, phạm vi nghiên cứu và phương pháp nghiên cứu.
Trang 20Chương 2 Các nghiên cứu liên quan Chương này trình bảy các nghiên cứu
của các nhóm tác giả khoa học.
Chương 3 Các kiến thức nền tảng Chương này trình bày các kiến thức tổng
quan về SDN, phương pháp học cộng tác Federated Learning, mô hình học
máy, IDS và một số kiến thức liên quan
Chương 4 Y tưởng, mô hình, phương pháp thực hiện Chương này trình bày
về cách triển khai mang SDN, phương pháp học cộng tác Federated Learning
để phát hiện các cuộc tấn công
Chương 5 Thực nghiệm và kết quả Chương này trình mày mô hình đề xuất, đánh giá kết quả
Chương 6 Tổng kết Chương này đưa ra kết luận và hướng phát triển
Chương 7 Phụ lục
Trang 21Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Phát hiện tang công mạng IOT dựa trên học cộng tác
Với số lượng các thiết bị ngày càng tăng của các cuộc tấn công mạng, các
thiết bị Internet of Thing (IoT) đang tiếp xúc với các phần mềm độc hại nghiêm
trọng, các cuộc tấn công, các hoạt động đôc hại ngày càng phát triển Mặc dù các
nghiên cứu trước đây đã tập trung vào phát hiện xâm nhập ở một vi trí tập trung, có
thé hình dung tồn tại một thiết bị, thực thé có khả năng lưu trữ và thực hiện phân
tích đữ liệu từ các thiết bị tham gia, nhưng với phương pháp này không thể mở rộngquy mô tốt với tốc độ phát triên nhanh chóng của các thiết bị kết nối loT và có thé
gây ra rủi ro ảnh hưởng đến quyền riêng tư dữ liệu Hơn nữa, với việc dữ liệu đượckết nối phổ biến rộng rãi trên các mạng lớn nên việc các thiết bị được kết nối, tính
toán phi tập trung là đang rất cần thiết trong bối cảnh này nhóm tác giả [5]đề xuất
bài viết này với một sơ đồ dựa trên học liên kết dé phát hiện xâm phập IoT nhằm
duy trì quyên riêng tư dit liệu bằng cách đào đạo mô hình cục bộ và suy luận các môhình phát hiện Trong sơ đồ này, không chỉ có thé đảm bảo quyền riêng tư dữ liệu
mà các thiết bị còn được hưởng lợi từ các thiết bị tham gia khác từ việc máy chủ
tong hợp từ xa và chia sẻ mô hình mới phát hiện, cải tiễn với từng thiết bị tham gia.Nhóm tác giả đã thử nghiệm kỹ lưỡng trên tập dữ liệu NSL-KDD để đánh giá hiệu
quả của các phương pháp đã đề xuất Kết quả thử nghiệm và phân tích thực nghiệm
khám phá được tính mạnh mẽ và lợi thế của mô hình học liên kết được thê hiện
bằng cách đạt đến độ chính xác gần với độ chính xác của các mô hình được đào tạo
dữ liệu tập trung Và vượt trội hon so với việc đào đạo không tong hợp dữ liệu
2.2 Giải pháp đảm bảo riêng tư của dữ liệu người dùng khi huấn luyện học
máy dựa trên học cộng tác
Việc phân loại các tác nhân độc hại trong các bài toán ứng dụng học máy đòi hỏi việc tiép cận dữ liệu của người dùng, von là môi lo ngại vê quyên riêng tư dữ liệu Dé giải quyết vân dé này, trong nghiên cứu về hệ thông phát hiện xâm nhập
(IDS) trong môi trường mạng IoT, nhóm tác giả Thien Duc Nguyen [6] đã đưa ra
Trang 22phương pháp học Cộng Tác với mục đích không những giúp mô hình phân loại
nhận diện được các cuộc tấn công mạng, mà vẫn giữ được sự riêng tư của các tập
dữ liệu của thiết bị người dùng
2.3 Kiến trúc điều khiến công nghiệp mới dựa trên Software-Defined Network
Thông thường, các router và các thiết bị mạng khác bao gồm cả dữ liệu vàchức năng điều khiển trong một mạng doanh nghiệp lớn, khiến cho việc điều chỉnh
hạ tang mạng và mở rộng hệ thống trở nên khó khăn hơn Dé giải quyết van đề này,trong nghiên cứu về kiến trúc điều khiển công nghép của nhóm tác gia Liang va Li
[7] đã nêu ra lợi ích và khả năng vượt trội của SDN so với mạng truyền thống.
2.4 Phát hiện bất thường cho dữ liệu chuỗi thời gian trong công nghệ IoT:
Giao tiếp hiệu quả phương pháp học tập liên kết trên thiết bị
Vì lỗi thiết bị trong mạng IoT ảnh hưởng nghiêm trọng tới việc sản xuất cácsản phẩm công nghiệp trong IoT, việc phát hiện chính xác kịp thời chính xác cácđiểm bất thường ngày càng trở nên quan trọng Hơn nữa, dữ liệu do các thiết bị
trong mạng IoT thu thập chứa dữ liệu riêng tư của người dùng ngày càng thu hút
mối quan tâm của mọi người với trọng tâm nay, bài báo này [8] đề xuất một bộ
khung học cộng tác (FL) phát hiện bất thường Nhóm tác giả đề xuất mô hình họccộng tác cho phép các thiết bị đạo tạo mô hình phi tập trung, cùng với mô hình đào
tao Attention Mechanismbased Convolutional Neural Network-Long Short Term
Memory (AMCNN-LSTM) dé phát hiện chính xác các điểm bat thường Các nghiên
cứu thử nghiệm mở rộng trong 4 bộ dữ liệu thực tế chứng minh rằng mô hình mà
nhóm tác giả [8] đề xuất phát hiện chính xác và kịp thời các điểm bat thường vàcũng giảm chi phí xuống 50% so với các phương pháp truyền thống
Trang 23Chương 3 TONG QUAN KIÊN THỨC NEN TANG
3.1 Phương pháp hoc cộng tác (học liên kết) Federated Learning
3.1.1 Giới thiệu học cộng tác (học liên kết) Federated Learning
Theo thống kê của Gizmochina, một trang công nghệ nổi tiếng của Trung
Quốc, số lượng người dùng Smartphone trên toàn thế giới năm 2020 là 5,22 tỷ
người dùng,lượng người dùng lớn như vậy tạo ra một lượng lớn dữ liệu, thông qua
máy ảnh, micro, và các cảm biến khác Dữ liệu sau đó được thu thập trong các
trung tâm dữ liệu dé đào tạo mô hình máy học (machine learning) hay học sâu
(deeplearning) nhằm xây dựng các ứng dụng thông minh Tuy nhiên, do các mối
quan tâm về quyền riêng tư đữ liệu và giới hạn băng thông, các kỹ thuật học tập
trung dữ liệu không thích hợp, người dung có khả năng sẽ ít chia sẻ dữ liệu hơn, do
đó dit liệu sẽ chỉ có sẵn trên các thiết bị
Cách tiếp cận tiêu chuẩn dé xây dựng mô hình học máy ngày nay là tập hoptat ca dữ liệu đào tạo ở một nơi, thường là trên đám mây, và sau đó dao tạo mô hình
trên dữ liệu Nhung cách tiếp cận này không khả thi đối với phần lớn dit liệu trên
thế giới, vì lý do riêng tư và bảo mật không thê chuyền đến kho lưu trữ đữ liệu
trung tâm Điều này làm cho nó vượt quá giới hạn đối với các kỹ thuật AI truyền
thống Hơn nữa, các tình huống khó xử về quyền riêng tư càng khiến những gãkhống 16 công nghệ gặp khó khăn Gần đây, Facebook và Amazon đã thừa nhậnrằng đã lắng nghe cuộc trò chuyện của một số người dùng sau một cuộc điều tra.Sau đó có có một chiến dịch phản đối về việc xử lý thông tin người dùng, cuôi cùng
2 gã không lồ công nghệ được nêu trên đã buộc phải ngừng hoạt động này hoặccung cấp tùy chọn tắt chia sẻ bất kỳ đữ liệu cá nhân nảo
Học tập liên kết giải quyết vẫn đề này băng cách lật lại phương pháp tiếp cận
thông thường đối với AI
Thay vì yêu cầu một tập dữ liệu thống nhất dé đào tạo một mô hình, việc học
liên kêt sẽ đê dữ liệu ở vi trí cua nó, được phân phôi trên nhiêu thiệt bị và máy
Trang 24chủ Thay vào đó, nhiều phiên bản của mô hình được gửi đi - một đến mỗi thiết bị
có đữ liệu huấn luyện - và được huấn luyện cục bộ trên mỗi tập con dữ liệu Các
tham số mô hình kết quả, nhưng không phải dữ liệu đào tạo, sau đó được gửi trở lại
dam mây Khi tat cả các “mô hình nhỏ” này được tổng hợp, kết qua là một mô hình
tong thé hoat động như thé nó đã được dao tạo trên toàn bộ tập dữ liệu cùng mộtlúc FL là một trong những lĩnh vực phát triển nhanh nhất, vì nó đi kèm các tínhnăng riêng tư và bảo mật nhăm tuân thủ các yêu cầu của luật bảo vệ dữ liệu ngườidùng.Tuy nhiên, FL cũng không miễn nhiễm với các loại tấn công ví dụ như đầu
độc dữ liệu, dau độc mô hình.
Trang 25Ngoài việc cung cấp bản cập nhật cho mô hình được chia sẻ, thì mô hình sẽ
được cai tiễn trên thiết bi và người dung có thé sử dụng ngay lập tức, mang lại trải
nghiệm cá nhân hóa theo cách sử dụng thiết bị của người dùng
3.1.2 Ví dụ Gboard, bàn phím Google.
Một vi dụ phố biến cho phương pháp này là Gboard, bàn phím của Google.Khi Gboard hién thị một truy vấn được đề xuất, điện thoại sẽ lưu trữ cục bộ thôngtin về ngữ cảnh hién tại, việc người dùng nhấp vào đề xuất là một cách dé cung cấp
dữ liệu cho quá trình huấn luyện Học liên kết xử lý lịch sử trên thiết bi dé đề xuất
các cải tiên cho lân lặp tiêp theo của mô hình đê xuât truy vân của Gboard.
Q umami burger menu
3.1.3.2 Khó khăn:
e Yêu cầu đầu tư: Các mô hình học tập liên kết có thé yêu cầu giao tiếp thường
xuyên giữa các nút Điều này có nghĩa là dung lượng lưu trữ và bang thông cao
nằm trong số các yêu cầu của hệ thống
e Bảo mật dữ liệu:
10
Trang 26o Dữ liệu không được thu thập trên một thiết bị / máy chủ duy nhất trong học
tập liên kết, mà có nhiều thiết bị dé thu thập và phân tích dữ liệu Điều này
làm tăng khả năng bị tấn công
o Mac dù chỉ có các mô hình hay các tham số, không phải dữ liệu thô được
giao tiếp với máy chủ trung tâm, nhưng các mô hình có thê được thiết kế
ngược dé xác định dữ liệu máy khách Các công nghê, phương pháp nâng
cao như quyền riêng tư khác biệt (Differential privacy), Homomorphic
encryption, secure multiparty computation, được sử dung dé tăng kha năng
bao mật dữ kiệu của hoc cộng tác.
e Giới hạn hiệu suất:
o Dữ liệu không đồng nhất: Các mô hình từ các thiết bị khác nhau được hợp
nhất dé xây dựng một mô hình tốt hơn trong học liên kết Các đặc tính cụ
thé của từng thiết bị riêng biệt có thé hạn chế tính tổng quát của mô hình từ
một số thiết bị và có thé làm giảm độ chính xác của phiên bản tiếp theo của
mô hình.
o Rò rỉ thông tin gián tiếp: Các nhà nghiên cứu đã xem xét các tình huống mà
một trong các thiết bị được lấy dữ liệu dé học liên kết có thé tấn công băng
cách chèn một backdoor ân vào mô hình toàn cục.
3.1.3.2 Lợi ích:
e Federated Learning cho phép các thiết bị như điện thoại di động cộng tác tim
hiểu mô hình dự đoán được chia sẻ trong khi vẫn giữ dữ liệu đảo tạo trên thiết bịthay vì yêu cầu đữ liệu được tải lên và lưu trữ trên máy chủ trung tâm
> Bảo mật dữ liệu : thúc đây đào tạo mô hình phi tập trung, cụ thé là các
thiết bị như điện thoại thông minh, máy tính bảng, IoT hoặc thậm chí là
các “ t6 chức” như bệnh viện được yêu cầu hoạt động dưới các rang buộcnghiêm ngặt về quyền riêng tư Giữ cho dữ liệu cá nhân vẫn còn cục bộ là
một lợi ích bảo mật mạnh mẽ.
> Vì các mô hình nằm trên thiết bị, nên quá trình dự đoán hoạt động ngay
cả khi không có kêt nôi Internet.
11
Trang 27e Federated Learning giảm số lượng cơ sở hạ tang phần cứng cần thiết Federated
Learning sử dung phan cứng tối thiểu và những gi sẵn có trong thiết bị là quá đủ
dé chạy các mô hình Federated Learning
3.2 Học máy va cách xây dựng một mô hình học máy.
3.2.1 Hoc máy (Machine Learning) là gì?
Vài năm trở lại đây, Học máy hiện là xu hướng của thể giới với sự ra đời hàng
trăm, hàng nghìn các bai báo, các tạp chí nói về lĩnh vực này Với trí tuệ nhân tạo
nói chung và ML nói riêng, con người đang mơ về một tương lai không xa của thế
giới, ở đó máy móc sẽ thay con người làm những công việc mà trước nay đã và
đang làm, mọi công việc điều được thực hiện một cách tự động, chính xác đến từngmilimet Quay lại với thực tại, hiện nay đã có nhiều ứng dụng của ML đang len lỏivào hầu hết các lĩnh vực trong đời song xã hội như y tẾ, quản lý an ninh, hóa học,
chính trị,điện ảnh và nó đã chứng minh tiềm năng và hiệu quả thực sự mà ML
mang lại cho cuộc sông con người.
Tri tuệ nhân tạo hay Al (Artificial intelligence) là một ngành khoa học của khoa
học máy tính, là trí thông minh được thể hiện bang máy moc, trải ngược với trithông minh tự nhiên được con người thé hiện Và Machine Learning là một nhóm
ngành nhỏ trong AI, chuyên nghiên cứu và xây dựng các kĩ thuật cho phép các hệ
thong “học” tự động từ dữ liệu dé giải quyết những van dé cụ thé như:
e Làm cho máy tính có những kha năng nhận thức cơ bản của con người như
nghe, nhìn, hiểu được ngôn ngữ, giải toán
e Hỗ trợ con người tron việc xử lý một khối lượng thông tin không 16 mà chúng ta
phải đối mặt hang ngày, hay còn gọi là Big Data
Tóm lại, ta có thé hiểu một cách đơn giản như sau: ML là nhóm ngành nhỏ của
trí tuệ nhân tạo, chúng ta sẽ sử dụng các thuật toán dé làm cho máy tính có thể
“hiểu” dữ liệu dé thực các công việc thay vi lập trình một cách tường minh bằng các
lệnh ”if-else”, hay các câu truy van thông thường
12
Trang 283.2.1.1 Phân loại thuật toán ML
Hiện này, có 2 nhóm chính trong ML đó là: Học giám sát (Supervised learning
và học không giám sát (Unsupervised learning) Điểm khác biệt của các nhóm thuật
toán này đó chính là dtr liệu được đưa vào huấn luyện mô hình, cách thuật toán sử
dụng di liệu và loại vân dé ma chúng giải quyết.
e Học có giám sat (Supervised learning): Là thuật toán dé dự đoán đầu ra mong
muốn của một dữ liệu mới (output) dựa vào các điểm dữ liệu chứa 2 giá trỊ
(mput, label) đã biết từ trước Input được gọi là đặc trưng dt liệu và label chính
là nhãn của dit liệu đó Dé hình dung rõ hơn ta có thé lấy vi dụ như sau: x={màu
vàng, thân dai, nặng 1 gam, vị ngọt} và y={ quả chuối}, thì ta được một cặp (x.y)
trong đó x là input đầu vào được gọi là các feature input, y chính là nhãn tươngứng với input x Thông thường thì đữ liệu của chúng ta là tập hợp của rất nhiềuđiểm dữ liệu
Và trong nhóm học có giám sát các thuật toán lại chia thành 2 nhóm nhỏ hơn đó là
Phân loại (Classification) và Hồi quy (Regresstion)
e Học không giám sát (Unsupervised learning): Khác với học có giám sát, dữ liệu
học không giám sát chỉ có các đặc trưng, không có nhãn kèm theo.
Unsupervised learning được sử dụng dé khám phá ra những quy luật ân trong
tập dữ liệu không nhãn Trong đó thuật toán này lại được phân thành 2 nhóm nhỏ hơn đó là Clustering va Association.
13
Trang 29Supervised Learning Unsupervised Learning
(Classification Algorithm) (Clustering Algorithm)
— Unsupervised —>
ge Not Duck
Predictive Model
Hình 3.3: Hoc có giám sát và học không có giám sát
3.2.1.2 Ứng dụng của ML trong cuộc sống con người
Hiện nay ML đã có mặt hầu hết trong cuộc song cua chung ta, len 101 hau hét 6
các lĩnh vực trong đời sông xã hội, tiêu biêu là các lĩnh vực sau:
e Xử lý ảnh: Nhận diện khuôn mặt trên ảnh dé gan tên người dùng trên các
mạng xã hội, nhận diện chữ viết tay, xe tự vận hành, v.v
e Phan tích văn bản: Lọc spam, trích xuất thông tin, phân tích ngữ nghĩa, v.v
e Khai phá dữ liệu: là quá trình khám phá ra các thông tin có giá trị hoặc đưa
ra các dự đoán từ dữ liệu Nghĩa là tìm kiếm các thông tin hữu ích từ mộ tập
dữ liệu lớn như phát hiện bất thường trong chứng khoán, giao dịch ngân
hàng, tìm ra các quy luật, v.v.
e Robot: sản phẩm máy hút bụi thông minh, v.v
3.2.2 Cách xây dựng một mô hình học máy
Việc tạo ra một mô hình ML đầy đủ nghĩa là xây dựng một mô hình mà từ
dữ liệu đầu vào, tạo ra được thông tin chính xác ở đầu ra Sau đây là 7 bước cơ bản
dé hoàn thiện một mô hình học máy
14
Trang 303.2.2.1 Thu thập dữ liệu
Đây là bước rất quan trọng bởi chất lượng va sé lượng đữ liệu thu thập được
sẽ quyết định trực tiếp tới việc mô hình dự đoán có thể tốt đến đâu Về cơ bản thì
nó là các đặc tính, thuộc tính riêng biệt của mỗi phần tử mà từ đó có thê phân biệt
được các tử với nhau, hay còn gọi với một cái tên khác là Feature input.
3.2.2.2 Chuẩn bị dữ liệu
Chuẩn bị đữ liệu, đây là bước tai dữ liệu tới nơi phù hợp va chuẩn bị sử dụngchúng trong quá trình huấn luyện học máy Trước hết đặt tất cả đữ liệu vào với nhau
và sắp thứ tự ngẫu nhiên, việc xác định một cuộc tấn công không phụ thuộc vào
cuộc tân công đó đên trước hay đên sau.
Đây cũng là thời điểm tốt dé trực quan hóa dit liệu theo bat kỳ cách hợp ly
nào dé xem liệu có thé tận dụng mối quan hệ liên quan nào đó giữa các biến hay
không Đồng thời biết được nếu có bat kỳ sự mat cân đối nào về dữ liệu Chang hạn,
nếu thu thập quá nhiều đữ liệu về nhãn tấn công so với nhãn bình thường, mô hình
huấn luyện sẽ bị thiên lệch về hướng đoán răng gần như mọi thứ nó thấy đều là
nhãn tan công bởi dự đoán đó gần như lúc nào cũng đúng Tuy nhiên trong thé giới
thực, mô hình này có thể thấy nhãn tấn công và nhãn bình thường là như nhau, điều
này có nghĩa là việc đoán “nhãn bình thường” sẽ sai trong nửa sô lân đoán.
Cần phân tách dir liệu thành hai phần Phan thứ nhất, sử dụng trong việchuấn luyện (Training) mô hình, sẽ chiếm phần lớn bộ đữ liệu Phần thứ hai sẽ dùng
cho việc đánh giá (Testing) chất lượng mô hình mà ta đã huấn luyện Chúng ta
không muốn sử dung cùng dữ liệu đã dùng dé huấn luyện dữ liệu cho việc đánh giá
bởi mô hình trả lời được vì nó nhớ “các câu hỏi” Điều này cũng giống như chúng ta
sẽ không muốn dùng cùng câu hỏi trong bài tập về nhà cho bài kiểm tra
Đôi khi dữ liệu ta thu được cần chuyên sang hình thức đánh giá và thao tác khác.Những thứ như de-duping (loại bỏ phần trùng lặp), bình thường hóa, sửa lỗi, v.v
Tat cả những việc nay sẽ được làm ở bước chuân bị dữ liệu.
15
Trang 313.2.2.3 Chọn mô hình
Qua nhiều năm, các nhà nghiên cứu và nhà khoa học dữ liệu đã tạo ra nhiều
mô hình Một số mô hình rất phù hợp với đữ liệu hình ảnh, một số khác dành cho
chuỗi (như văn bản hay âm nhạc), một số dành cho dữ liệu số, những mô hình khác
lại phù hợp cho dữ liệu dạng văn bản Tùy theo từng trường hợp mà lựa chọn mô
hình phù hợp.
3.2.2.4 Huan luyện
Bước huấn luyện, bước được coi là quan trọng nhất của học máy Trong
bước này, chúng ta sẽ sử dụng dữ liệu dé từng bước cải thiện khả năng của mô hình
trong việc đưa ra dự đoán.
Trong học máy, do có thé có nhiều tính năng, ta có nhiều m Tập hợp nhữnggiá trị m đó luôn tạo thành ma trận, chúng ta sẽ biểu thị W cho ma trận “trọng số”
(Weights) Tương tự như vậy đối với b, ta sắp xếp chúng lại với nhau và gọi đó là
Hình 3.4: Ma trận biểu diễn Weights và Biases.
Quá trình huân luyện liên quan đên việc khởi tạo một sô giá trị ngẫu nhiên
cho W và b rôi cô găng dự đoán đâu ra với các giá trị đó Việc này được thực hiện
khá kém Nhưng có thé so sánh những dự đoán của mô hình với đầu ra mà đáng lẽ
16
Trang 32nó phải cho ra, rôi điêu chỉnh các giá trị trong W và b sao cho ta có được những dự
đoán chính xác hơn.
Sau đó quá trình này được lặp lại Mỗi vòng lặp hoặc chu kỳ cập nhật trọng
sô và thành kiên được gọi là một “bước” huân luyện.
dùng cho huấn luyện
Chi số này cho phép đánh giá mô hình có thé thực hiện tốt với những dữ liệu
nó chưa từng thấy như thế nào Điều này cũng đại diện cho việc mô hình có thể làm
tốt trong thé giới thực ra sao
Một quy tắc nhỏ dùng dé chia dữ liệu huấn luyện và đánh giá đó là chia theo
tỉ lệ khoảng 80/20 hoặc 70/30 Điều này phụ thuộc nhiều vào kích thước bộ dữ liệu
đầu ban đầu
3.2.2.6 Điều chỉnh thông số
Nếu trong quá trình đánh giá, kết quả đánh giá không tốt, độ chính xác không
đạt mức tối thiểu mong muốn, có thê đã phát sinh lỗi tạm dịch qua tiếng việt là quá
khớp (overfitting) hoặc chưa khớp (underfitting).
e Overfitting hiện tượng khi mô hình xây dựng thé hiện được chi tiết bộ dữ
liệu huân luyện Điêu này có nghĩa là cả dữ liệu nhiễu, hoặc dữ liệu bất
17
Trang 33thường trong tập huấn luyện đều được chon và học dé dua ra quy luật môhình Những quy luật này sẽ không có ý nghĩa nhiều khi áp dụng với bộ ditliệu mới có thé có dạng dữ liệu nhiễu khác Khi đó, nó ảnh hưởng tiêu cực
tới độ chính xác của mô hình nói chung.
e Underfitting là hiện tượng khi mô hình xây dựng chưa có độ chính xác cao
trong tập dữ liệu huấn luyện cũng như tổng quát hóa với tông thể đữ liệu
Quay lại bước trước khi huấn luyện và đưa ra cấu hình mới cho các thông số của
mô hình
© C6 thé tăng số lần lặp epoch
e Một tham số quan trong khác là ty lệ học (Learning rate), thường là một giá
trị để nhân với gradient để dần đưa nó đến gần hơn giá trị local minimum
hoặc global minimum.
o Local minimum là điểm cực tiêu trong hàm số
o Global minimum là điểm mà tại đó hàm số đạt giá trị nhỏ nhất
o Gradient (độ dốc) là khái niệm rất gần với khái niệm đạo hàm mà chúng
ta đã học thời cấp 3, nó biểu diễn cho tốc độ thay đổi của hàm
Gradient là một vecto trong khi đạo hàm là giá trị vô hướng (hiểu nôm
na là các giá tri số
3.2.2.7 Dự đoán
Học máy là việc sử dụng dữ liệu đê trả lời câu hỏi Vì vậy Dự đoán, hay suy
luận, là bước dé trả lời một sô câu hỏi Trọng tâm cua tat cả công việc ta làm là hiện
thực hóa giá trị của học máy
Cuôi cùng là sử dụng mô hình đê dự đoán.
18
Trang 343.3 Hệ thong phát hiện xâm nhập (Intrusion Detection System -IDS)
3.3.1 Hệ thống phát hiện xâm nhập là gì?
Hệ thống phát hiện xâm nhập (IDS) là thiết bị hoặc phần mềm có khả nănggiám sát và đưa ra cảnh báo nếu lưu lượng mạng không an toàn trong hệ thống được
xác định hay phát hiện bởi bộ phân tích (Hình 2.1).
MIDS NIDS management
Hinh 3.6: IDS trong hé thống mạng (nguồn hình ảnh [9])IDS được sử dung dé phát hiện các mối đe dọa từ việc giám sát các gói tin
truyền qua nó IDS phát hiện các hoạt động đáng ngờ và độc hại của các xâm nhập
cả bên ngoài lẫn bên trong Một IDS phải đối mặt với các vấn đề như là lưu lượngmạng lớn hay phân phối dữ liệu không đồng đều
Có thé chia IDS ra làm hai loại [10]:
e _ Hệ thống phát hiện xâm nhập máy chủ (Host based IDS -HIDS): có thể giám sát
hoạt động của hệ thống mà nó đã được triển khai HIDS có thé giám sát tínhtoàn vẹn của các tệp trên hệ thong tệp, hoạt động độc hại ở cấp kernel và phântích nhật ký (log) để tìm kiếm các hoạt động đáng ngờ
e Hệ thống phát hiện xâm nhập mạng (Network based IDS-NIDS): tập trung vào
giám sát cơ sở hạ tầng mạng Bằng cách phân tích luồng các gói tin mạng, kiêmtra các tiêu đề và nội dung, hệ thống này có thê phát hiện các hành vi xâm nhập
mạng.
19
Trang 35Cả hai loại trên đều sử dụng một trong hai chiến lược [10]:
e IDS dựa trên dấu hiệu (Signature based IDS): Phát hiện dựa vào các dấu hiệu
của các tấn công đã biết và các quy tắc được định nghĩa bởi một người quảntrị Hệ thống nàycó thé phân loại các tan công đã biết bằng cách so sánh các
hành vi quan sát được với các mẫu được lưu trữ, nhưng không thê phát hiện
các tan công mới
e IDS dựa trên hành vi (Anomaly based IDS): Tìm kiếm sự sai lệch từ các
hành vi quan sat được với các hành vi bình thường, khi đó mô hình sé hiểuđơn giản những hành vi khác thường là hành vi tấn công Khái niệm này giảđịnh rang có thé mô hình hóa hoạt động bình thường của hệ thống Bằngcách sử dụng mô hình và đánh giá các phép đo hiện tại, có thể xác định xemhoạt động quan sát được có bất thường hay không
IDS dựa trên hành vi có tiềm năng lớn khi có khả năng phát hiện được các
loại tan công mới, bằng cách mô hình hóa các hành vi trong mạng Với sự
phát triển của máy học, nhiều kỹ thuật đã được áp dụng [11] dé tăng độ
chính xác và giảm tỷ lệ false positive (IDS phát hiện nhằm lưu lượng mạngbình thường là tan công) mang lại kết quả tốt
3.3.2 Ưu nhược điểm của 2 loại IDS
3.3.2.1 Ưu điểm
e Network based IDS — NIDS:
o Quản lý được cả một network segment (gồm nhiều host)o_ Cài đặt và bảo trì đơn giản, không ảnh hưởng đến mạng
o Có khả năng xác định lỗi ở tang Network
e Host based IDS — HIDS:
o Có khả năng xác định User liên quan đến event
o HIDS có khả năng phát hiện tan công diễn ra trên một máy, NIDS
thì không.
o Có thé phân tích các dữ liệu mã hóa
20
Trang 36© Cung cap các thông tin về host trong lúc cuộc tân công diễn ra trên
Có thé xảy ra trường hợp báo động giả
Không thé phân tích các dữ liệu đã được mã hóa (VD: SSH,
Hạn chế lớn nhất là giới hạn bang thông
Host based IDS — HIDS:
le)
le)
Thông tin từ HIDS là không đáng tin cậy ngay khi sự tan công vào
host này thành công.
Khi OS bị sập do tan công, đồng thời HIDS cũng sập
HIDS phải được thiết lập trên từng host cần giám sát
HIDS không có khả năng phát hiện các cuộc tấn công dò quét
mang( Nmap, Netcat )
HIDS cần tài nguyên trên host dé hoạt động
3.3.3 IDS máy học
Trong lĩnh vực phân loại, các thuật toán học máy đã được áp dụng rộng rãi cho
IDS và đạt được kết quả khả quan Các thuật toán phát đã được sử dụng dé giám sát
và phân tích lưu lượng độc hại, bao gồm K-Nearest Neighbor, Support Vector
Machine (SVM), Cây quyếtđịnh (Decision Tree), v.v [11] Trong những năm gần
đây, các thuật toán học sâu phát triển nhanh và thúc đây sự phát triển trong trong
lĩnh vực phát hiện xâm nhập như Convolutional Neural Networks (CNN), Recurrent
21
Trang 37Neural Networks (RNN), Auto Encoder, v.v [12] Các thuật toán này giúp cải thiện
độ chính xác và đơn giản hóa bài toán phát hiện xâm nhập trong các hệ thống mạng
3.4 Mạng khả lập trình (Software Defined Network -SDN)
3.4.1 Mạng khả lập trình là gì?
Mạng khả lập trình là kiến trúc mạng có thể lập trình được, mọi thiết bị phần
cứng trong một mô hình mạng sẽ được ảo hóa thành các chức năng tập trung tại bộ
xử lý (ví dụ router, switch, IDS, firewall,v.v) Bộ xử lý sẽ sử dụng các chức năng
của các thiết bị này thông qua API của chúng Điều này giúp cho người vận
hanh/quan trị mạng có thé dé dàng quản ly tập trung các các thiết bị trong cùng một
Hình 3.1: Su khác biệt giữa SDN va mạng truyền thống
Sự Khác biệt giữa SDN và mạng truyền thống được thê hiện ở Bảng 3.1
22
Trang 38Bảng 3.1 Bảng so sánh giữa mạng truyền thống và mạng SDNMạng truyền thống SDN
Quản lý phân tán Quản lý tập trung
Không thể lập trình Có thể lập trình
Kiến trúc mạng rất phức tạp Kiến trúc mạng ít phức tạp
Các thiết bị mạng sử dụng phần cứng Các thiết bị mạng được ảo hóa sử dụng
dưới dạng phân mêm
Khả năng mở rộng mạng thấp Khả năng mở rộng mạng cao
Mỗi Data Plane đều có Control Plane Control Plane năm riêng biệt với Data
Plane
Việc cài đặt cấu hình mạng thủ công
nên mat nhiêu thời gian
Có thê tự động cai đặt cau hình mạng
nên mat ít thời gian hon
Tất cả packet có thê đi qua y như nhau
mà không có sự ưu tiên
Có thé ưu tiên hoặc chặn các packet
được xác định đi vào ra trong mang
Chi phí cai đặt cao Chỉ phí cài đặt thấp
Xử lý sự cô và báo cáo khó khăn vì
Trang 393.4.2 Kiến trúc của mang khả lập trình
e Tầng Ứng dụng (Application Layer/Application Plane): Là tầng chứa các
chức năng mạng của các thiết bị mạng chuyên dụng như router, switch, hệ thốngphát hiện xâm nhập (IDS), cân bằng tải và tưởng lửa
e Tầng điều khiển (Control Layer/Control Plane): Là nơi điều khiến tập trung
toàn bộ mạng Đây được coi là lõi của SDN Bộ điều khiển này sẽ được lưu tại
một máy chủ, quản lý các chính sách, dịch vụ và lưu lượng trên toàn mạng.
> Tầng điều khiến sẽ giao tiếp với tang ứng dung thông qua các API của các
phần mềm mạng Điều này giúp người quản trị mạng quản lý được lưu lượngtruy cập và triển khai các dịch vụ
> Tầng điều khiến sẽ giao tiếp với các router, switch ở tầng cơ sở hạ tầng
bằng API của giao thức OpenFLow
24
Trang 403.4.4
Tầng cơ sở hạ tang (Infrastructure Layer/Data Plane): là tang chứa các
thiết bị mạng vậy lý trong SDN
Những lợi ích va cách thách thức trong giải pháp SDN
Lợi ích
SDN cung cấp sự quản lý tập trung một cách logic và sự lập trình toàn bộ
hệ thống mạng Người quản trị mạng có thể theo dõi sơ đồ hình ảnh về hệthống mạng thông qua một ứng dụng của SDN giúp cho quản trị viên
quản lý một cách hiệu quả hơn.
Người quản trị viên có thé thay đối bat kì quy tắc chuyên đội mang nào
khi cần thiết Có thể cô lập, chặn các gói tin cụ thể với mức độ kiểm soát
và bảo mật cụ thể
SDN giúp ảo hóa các thiết bị phần cứng mạng chuyên dụng và dịch vụ
thành phần mềm Giúp cho các tô chức triển khai ứng dụng và dich dễ
dàng và nhanh chóng hơn.
Vì các thiết bị phần cứng đã được ao hóa nên chi phi để cài đặt và sửa
chữa sự cố, bảo trì giảm một cách dé và giảm bớt đi diện tích của vị trí
địa lý đặt các thiết bị phần cứng này
SDN giúp hệ thống mạng dé dàng mở rộng so với trước
3.4.5 Các thách thức
e Vi là một công nghệ mới nên bảo mật trong SDN đang là một van dé
dang quan tam nhất Vì tat cả thiết bi, lưu lượng mạng, chính sách, dịch
vụ, v.v đều được quản lý dưới sự giám sát của trung tâm điều khiển SDN.Nên có thé nói trung tâm điều khiển SDN là một mục tiêu mà kẻ tan công
sẽ luôn nhằm tới đầu tiên khi tan công một SDN Một khi trung tâm điềukhiển này rơi vào tay kẻ tan công thì họ có thé làm bất cứ điều gì với hệthống mạng của ta
25