Khóa luận tốt nghiệp An toàn thông tin: Trình phát hiện tấn công dựa trên học cộng tác trong mạng khả lập trình

Chính vì những điều này, nhóm chúng em sẽ nghiên cứu về phương pháp học máy học Cộng Tác trên các hệ thông phát hiện xâm nhập trong mạng Khả Lập Trình, cùng với đó thực hiện các biện phá

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HQC CONG NGHE THONG TIN

KHOA MANG MAY TINH VA TRUYEN THONG

NGUYEN HONG HA TRAN VAN HUNG

KHOA LUAN TOT NGHIEP

TRÌNH PHAT HIEN TAN CONG DỰA TREN HOC CONG TAC TRONG MANG KHA LAP TRINH

FEDERATED LEARNING-BASED INTRUSION

DETECTION IN SDN-AWARE NETWORK

KY SU NGANH AN TOAN THONG TIN

TP HO CHi MINH, NAM 2021

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG

NGUYEN HONG HA - 17520419

TRAN VAN HUNG - 17520554

KHOA LUAN TOT NGHIEP

TRINH PHÁT HIEN TAN CONG DỰA TREN HOC

CONG TAC TRONG MANG KHA LAP TRINH

FEDERATED LEARNING-BASED INTRUSION

DETECTION IN SDN-AWARE NETWORK

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

ThS PHAN THE DUY

TP HO CHÍ MINH, NAM 2021

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

NAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin gửi lời cảm ơn đến Quý Thầy Cô trường Đại Học Công Nghệ Thông Tin cũng như Quý Thầy Cô khoa Mạng Máy Tính và Truyền Thông đã truyền đat kiến thức, kinh nghiệm quý báu, quan tâm, hỗ trợ

chúng em trong suốt thời gian qua.

Đặc biệt, chúng em xin chân thành cảm ơn ThS Phan Thé Duy — người đã

hướng dẫn, tạo điều kiện tốt nhất cho tụi em thực hiện khóa luận này Đồng

thời, chúng em xin gửi lời cảm ơn anh Khoa, anh Hiển, chị Hiền cùng các anh

chị ở phòng thí nghiệm An Toàn Thông Tin đã nhiệt tình hỗ trợ, giúp đỡ đề tụi

em đạt được kết quả tốt nhất.

Mặc dù, chúng em đã có gắng hoàn thành khóa luận nhưng do hạn chế về thời gian và kiến thức nên không thể tránh khỏi những sai sót Chúng em kính mong nhận được sự thông cảm và ý kiến đóng góp từ Quý Thầy Cô để chúng

em có thể hoàn thiện và phát triển khóa luận này.

Chúng em xin chân thành cảm ơn!

Thanh phô Hồ Chí Minh, 10 tháng 07 năm 2021

Trang 5

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc Lập - Tự Do - Hạnh Phúc

e _ Tiếng Anh: Federated learning-based intrusion detection in SDN-aware network

Cán bộ hướng dẫn: ThS Phan Thế Duy

Thời gian thực hiện: Từ ngày 01/03/21 đến ngày 30/06/21

Sinh viên thực hiện:

Sinh viên: Nguyễn Hồng Hà MSSV: 17520419 Số điện thoại: 0966053812

Sinh viên: Trần Văn Hùng MSSV: 17520554 Số điện thoại: 0868337213

Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết quả mong đợi của dé tài)

Giới thiệu:

e _ Hiện nay, mang khả lập trình (SDN) đang được giới nghiên cứu xem là nền tảng quản lý và điều

phối số lượng lớn các thiết bị không đồng nhất như mạng IoT Hệ thống phát hiện xâm nhập được trién khai dé giám sát lưu lượng mang của số lượng lớn các thiết bị IoT.

® Với sự tiến bộ của các công nghệ, lượng người dùng ngày càng nhiều, các dữ liệu thu thập được

từ các thiết bị ngày càng da dang và phức tạp hơn Các hệ thống phát hiện xâm nhập phải chịu

Trang 6

nhiều áp lực hơn trong việc thu thập và xử lý nhiều dữ liệu cùng một lúc Vì độ chính xác của khả năng phát hiện các hanh vi độc hại trong lưu lượng mạng bị giảm sút đáng kể, và mong muốn dé liệu của thiết bị người dùng được đảm bảo tính riêng tư khi các hệ thống này thu thập

được Sự xuất hiện của phương pháp học máy học Cộng Tác (Federated Learning) đã ra đời để

giải quyết các van dé này Vì tat cả dữ liệu không còn tập trung và được huấn luyện tại máy chủ

mà sẽ phân tán và huấn luyện trực tiếp tại các thiết bị, đảm bảo sự riêng tư của dữ liệu tại thiết bị

cũng như việc không phải chịu quá nhiều tải tại máy chủ, nâng cao độ chính xác khả năng phát hiện của hệ thống cũng như đảm bảo tính riêng tư của dữ liệu người dùng.

Chính vì những điều này, nhóm chúng em sẽ nghiên cứu về phương pháp học máy học Cộng Tác trên các hệ thông phát hiện xâm nhập trong mạng Khả Lập Trình, cùng với đó thực hiện các biện pháp tan công vào hệ thông phát hiện, cụ thé hon là tập dữ liệu mà hệ thống sẽ huắn luyện.

Mục tiêu:

Tận dụng phương pháp Học Cộng Tác (Federated Learning) trên các hệ thống phát hiện xâm

nhập IDS nhằm mục đích đảm bảo tính riêng tư của đữ liệu, và đảm bảo kết quả phát hiện những hành vi bất bình thường lẫn giữa những hành vi bình thường trong lưu lượng mạng khả lập trình

(SDN).

Chứng minh được ưu thế, hiệu suất, độ chính xác của phương pháp học cộng tác trong việc nhận

dạng các mối đe dọa so với các phương pháp học máy truyền thống.

Phạm vỉ nghiên cứu:

Phương pháp học cộng tác (Federated Learning): Áp dụng trên các hệ thống phát hiện xâm nhập, mục đích nâng cao khả năng phát hiện của hệ thống mạng khả lập trình.

Dữ liệu tắn công: Tập dữ liệu IOT-23 Stratosphere, CIC-IDS-2018 và CICDDOS2019

Triển khai phương pháp học cộng tác và phương pháp học máy truyền thống thu được kết quả, so sánh, rút ra kết luận.

Đối tượng nghiên cứu:

Phương pháp học Cộng Tác (Federated Learning) trên các hệ thống phát hiện xâm nhập trong

mang khả lập trình (SDN).

Các mô hình huấn luyện học máy, tập trung vào mô hình VGG-16.

Các thư viện hỗ trợ như Keras, Tensorflow.

Trang 7

trúc của mô hình học máy Đồng thời tìm hiểu cách sử dụng của các thư viện hỗ trợ cho quá trình xây dựng và triển khai mô hình.

+ Xây dựng mô hình học máy phát hiện các hành vi bat thường trong đường truyền mạng

trên nhiều IDS với độ chính xác cao.

Phương pháp:

+ Tham khảo các tài liệu, video về phương pháp học máy và xây dựng mô hình.

+ Tìm hiểu về tập dữ liệu được sử dụng trong quá trình huấn luyện Thực hiện các quá trình

tiền xử lý trước khi huấn luyện.

+ Sử dụng các thư viện như Keras, Tensorflow, framework Flower.

Nội dung 2: Thực hiện huấn luyện các IDS trong trường hợp bị tan công và không bị tan công và

đưa ra so sánh

Mục tiêu:

+ Có được kết quả cao trong việc phát hiện hành vi độc hại Giảm thiểu False Positive.

+ Đưa ra được đánh giá tổng quan giữa quá trình huắn luyện bình thường và quá trình bị

nhiễm độc.

Phương pháp:

+ Tham kháo các tài liệu, video liên quan về việc huấn luyện mô hình trên nhiều đối tượng.

Kết quá mong đợi:

Triển khai được phương pháp học Cộng Tác trên 3-6 tác tử IDS với kết quả nhận diện tan công

hiệu quả.

Đưa ra được kết quả so sánh giữa hiệu suất, độ chính xác của mô hình học cộng tác với các mô hình học máy truyền thông

Có được kết quả thực nghiệm va đưa ra được đánh giá tong quan về quá trình thực hiện dé tài.

Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh viên tham gia)

Thời gian Sinh viên 1 Sinh viên 2

Nghiên cứu về phương pháp học _ Nghiên cứu về phương pháp học

Cộng Tác, mô hình SDN, mô Cộng Tác, mô hình SDN, mô 01/03/2021 - 01/04/2021 hình học máy, các thư viện hoặc | hình học máy, các thư viện hoặc

Trang 8

Tiền xử lý các bộ dữ liệu, thực

Tháng 04/2021 hiện quá trình học máy giữa các

IDS ở kịch bản có kẻ tấn công.

Tiên xử lý các bộ dữ liệu, thực

hiện quá trình học máy giữa các

IDS ở kịch bản không có kẻ tân

Trang 9

Mục lục

TÓM TAT KHÓA LUẬN 22222¿¿222S222vv222222EEEEt tri 1

Chương 1 TONG QUAN DE TAL essssssscsssssssssssssseccssssssessccessssiseseccesssiieessecessnneecss 3

1.1 Lý do chọn đề tai ccccccccccscssssessssssseccsssusssssssscsssssuscesssssscsssusecssssecesssusscessueeesssiess 3

I0 3

1.3 Đối tượng nghiên cứu -222+222222+++rttEEEEEEErrrtrtrrrkkrrrrrrrrrrrrrrrree 4

1.4 Phạm vi nghiÊn CỨU - «tt xxx SĐT ngư 4

1.5 Phương pháp nghiên CỨU - ¿+2 E2 S*2EESk2k E11 11x key 4

1.6 Cấu trúc khóa luận -: ©22V22+++++22222211121222221111112222111111 2.11.11 e2 4

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN ccc:z522c5ssccccz+e 6

2.1 Phát hiện tang công mạng IOT dựa trên học cộng tác - 6

2.2 Giải pháp đảm bảo riêng tư của dữ liệu người dùng khi huấn luyện học máy

dựa trên học cộng tác ¿-¿-+- + St 1 1 12 97 111111 12 11101012121 0101010111 it 6

2.3 Kiến trúc điều khiển công nghiệp mới dựa trên Software-Defined Network 7

2.4 Phát hiện bat thường cho đữ liệu chuỗi thời gian trong công nghệ IoT: Giao

tiếp hiệu quả phương pháp học tập liên kết trên thiết bị -. - 7

Chương 3 TONG QUAN KIÊN THỨC NEN TẢNG .-:-22cc52+ § 3.1 Phương pháp học cộng tác (học liên kết) Federated Learning 8 3.1.1 Giới thiệu học cộng tác (học liên kết) Federated Learning 8

3.1.2 Ví dụ Gboard, ban phím Google 0 3.1.3 Những khó khăn và lợi ích của học liên kt - - - ¿5+ 0

3.2 Học máy va cách xây dựng một mô hình học máy, - 2

3.2.1 Học máy (Machine Learning) là gi? «+ 5+s++x+xexexererrx 2 3.2.2 Cách xây dựng một mô hình học máy ++«+sex+c+cex++ 4

3.3 Hệ thông phát hiện xâm nhập (Intrusion Detection System —IDS) 9

Trang 10

3.3.1 Hệ thống phát hiện xâm nhập là gì? -c¿vvcccczecrz 19

3.3.2 Ưu nhược điểm của 2 loại IDS

3.3.3 IDS máy học -c St ng re 21 3.4 Mạng khả lập trình (Software Defined Network —SDN) 22

3.4.1 Mạng khả lập trình là gi? oes eeeseseeesessesesseeeseercateneeneneeeaeeneases 22

3.4.2 Kiến trúc của mạng khả lập trình cz522vvccccz+rrz 24

3.4.3 Những lợi ich và cách thách thức trong giải pháp SDN 25 3.5 OpenIFÏOW ch HT” H101 T TH HH H10 g1 tế 26

3.5.1 Khái niệm OpenIFLOW: ¿+ + 5++5+ St 2xetkerrkerererkerrrrerrrrrre 26

3.5.2 Thanh phần của OpenFloW: :¿:©222¿2222+z+2cvvrvevcvverrrrrsree 26

3.5.3 Trao đổi giữa Controller và Switch: - -: -22cvcvccescrrrvrvercrrrrrr 27 3.5.4 Thiết lập kết nối 22: 222¿+2E22122222211222211112271112211111 12112 xe 28

3.6 Differential PriVacy ch” H11 001g rềc 29

3.6.1 Khái niệm Differential Privacy (Sự riêng tư khác biệt) 29

3.6.2 Các tham số trong DP 2:2222+++22ES++t22EES++etEESEretrrvrrsrrrrree 30

3.6.3 Các tham số quan trọng trong DP optimizer trong mô hình máy học 31

CHƯƠNG 4 Ý TƯỞNG, MO HÌNH, PHƯƠNG PHÁP THỰC HIỆN 32

4.1 Ý tung ecccccsecccscscssssseececessssssesscccssssnsececeesssssescsssunsssseccsssnnmeceecesssnseecessnnees 32

4.2 Mô hình IDS dựa trên FL eeccseeseseeseseeseeseeecsesesseesesecseeseeecseseeeesseeeeeesaes 33

4.3 Các mô hình ML sử dụng trong FL-IDS ¿5< 5< cvcsrexexe+ 35

4.3.1 So sánh hiệu năng của FL-IDS với các cách tiếp cận khác nhau 37

Chương 5 THỰC NGHIỆM HỆ 9c 39

5.1 Môi trường triển khai thực nghiệm -¿-©:z+2222+z+tcvvvrrsrrxx 39

5.1.1 Thành phần trong môi trường thực nghiệm -:¿-++ 39

Trang 11

5.2 Kịch bản thí nghiỆm - - 5 5 1 911930193 911v HH gệt 47 5.3.1 Đặc tả tập dữ liỆu -¿- 2¿©2<+2x2Ek 2 E22112212112711211711211211 11.11 1x 48

5.3.1 Giới thiệu CICIDDOS2010 ¿- 22 + ©5++2E+2E++EE+SEE2EEerkeerxrrrrerxee 48

5.3.2 Tap dtr n 49

5.3.3 Tóm tắt tập dữ liệu CICDDOS2019 csscsssesssessessseessessesssesssessesssessseeses 52

5.4 Tiền xử lý tập dit liệu - 2 +¿+2++2x++EEtEEEEEEEEEEEEE221 2112212111 54

SH 00 0 s6 a-aij7ỶẢ 54

5.6 _ Kết quả thí nghiệm - +: + +£+E£+EE‡EEEEEEEEEEEEEEEEEEEEEEEErkrrkrrkrrrvee 55

5.6.1 Đánh giá mô hình FÌU - - 5 233133333321 E£2EEEEEEEEEsrrrrrrrreres 55 5.6.2 Đánh giá mô hình nội Độ - ¿2 2+ *+*E+*EE+eEEeereereeerrrerrreree 56

5.6.3 Đánh giá mô hình tập trung - - - sen rệt 57

5.6.4 Đánh giá mô hình DPFL - ¿2 3 3+3 E**EE+EE+eEEeexeeeseeresrrrseres 5

5.6.5 Triển khai IDS cho mang SDN từ mô hình FL 2 2552 59Churong 6 101 8< 00878 a < 64

Trang 12

DANH MỤC HÌNH

Hình 3.1: Mô hình Fedearated Learning - 5 xxx ngư 9

Hình 3.2: Ví dụ về Gbroad - +:+c2++t2EEktttErkrttttrrrttrrrrrrirrrrrrrrirerrre 10

Hình 3.3: Học có giám sát và học không có gid sát ¿5S-cc++sc++cxssess 14

Hình 3.4: Ma trận biểu diễn Weights và Biases ©5¿©2ccccccxcreersree 16Hình 3.5: Sơ đồ huấn luyện mô hình - - 2-2 2+ E£EE+EE+E£EeEEeEEeEEzEerrerxsree 17

Hình 3.6: IDS trong hệ thống mạng (nguồn hình ảnh [9]) 2-2 5z: 19

Hình 3.1: Sự khác biệt giữa SDN và mạng truyền thống - 2-2 25: 22Hình 3.2: Kiến trúc SDN 2222 trtEEtrnrrtrrrrrrrrrre 24Hình 3.3: Thanh phần của OpenFlow Switchh - ¿5 s+5++££+E££E+£xerszrzreree 26Hình 3.4: Các bước trao đổi tin nhắn giữa Controller và Switch - 27Hình 4.1: Cấu trúc mô hình phát hiện xâm dựa trên học cộng tác trong SDN 33Hình 4.2 Kiến trúc mô hình học máy VŒG-l6 ¿- 2 2 2+++£++£++££+£e£xerxsrsz 36

Hình 4.3 Mô hình VGG-16 được tinh chỉnh - 5-55 52+ 52+ +2 ££+zcezsesss 37

Hình 5.1 Mô hình hệ thống thực nghiệm 2 2 2 22 £+EE+£E++EzEzExzrxeei 40Hình 5.4 Ví du về Confain€rTIet -s- csxsSkkeEk‡EEEEEEEEEEEEEEEEEEEEEEEkEEkrkerkrkrrres 46Hình 5.5 Phân loại đối với các cuộc tấn công DDoS -. - 5c 5¿+sz+sz+s+ 49Hình 5.6 Kết quả mang SDN ở containernet máy VM 2 với Controller là VM3 59

(địa chỉ 10.102.196 [Ú) - Gà HH TH HH HT Tu HH HH Thu ng 59

Hình 5.7 các datapath thể hiện ở Ryu Controller VM3 - -: - 60Hình 5.8 Kết quả dự đoán của 100 file nhãn attack ¿5 s5s+sezxersscsz 60Hình 5.9 Kết quả dự đoán của 100 file nhãn benign -. ¿©¿ ¿25s 61

Trang 13

Hình 5.9 Sơ đồ quy trình bắt lưu lượng mang ở IDS dé phân loại lưu lượng bình

thường và lưu lượng độc hại -. - - c2 1331321131191 811 1 1 ng ng rưkp 62

Hình 5.10 Kết quả nhận diện dữ liệu với 100% file bình thường 63Hình 5.11 Kết quả nhận diện dữ liệu với 100% file tấn công . - 63

Hình 5.12 Kết quả nhận diện dữ liệu với việc trộn file bình thường với file tan công

Trang 14

DANH MỤC BANG

Bang 3.1 Bang so sánh giữa mạng truyền thống và mang SDN .- 23Bang 5.1 Cấu hình chi tiết các máy ảo trong mô hình - 2 22222: 41Bảng 5.2 Thời gian các cuộc tấn công diễn ra o.cesccesscessesssesssesseessesseessecstssseesseeseee 51

Bảng 5.3 Số lượng mẫu của mỗi nhãn trong tập Test CICDDOS20109 52

Bang 5.4 Số lượng mau của mỗi nhãn trong tập Train CICDDOS2019 53Bang 5.5 Kết quả huấn luyện của mô hình FL eeeeseesessesseeseesesessesseeseeseeseesen 55Bảng 5.6 Kết quả huấn luyện của mô hình Local 2- 552 ¿2+5 56Bảng 5.7 Kết quả huấn luyện của mô hình Ideal -.2 2- 52 522cxz2+c5zz 57

Bang 5.8 Tóm tắt kết quả huấn luyện của 3 mô hình - 2 2+sz2s2sze: 58

Bang 5.9 Kết qua huấn luyện mô hình DPFL cceccescessesseesesseesessessesseesteseesseesee 59

Trang 15

DANH MỤC TỪ VIET TAT

EL : Federated Learning

SDN: Software-defined Network

IDS: Intrusion Detection System

DDos: Distributed Denial of Service

DP: Differential Privacy

ML: Machine Learning

IoT: Internet of Thing

Trang 16

TOM TAT KHÓA LUẬN

Hiện nay, mạng khả lập trình (SDN) đang được giới nghiên cứu xem là nền tảng

quản lý và điều phối số lượng lớn các thiết bị không đồng nhất như mạng Internet of

Things (IoT), do sự phân tách giữa tang điều khiển và tang dữ liệu [1] - khác với

môi trường mạng truyền thống là mỗi thiết bị mạng đều có 2 thành phần này Nhiều

hệ thống phát hiện xâm nhập được triển khai để giám sát lưu lượng mạng với sốlượng lớn các thiết bị người dùng cuối bằng cách tận dụng khả năng quản lý của

mạng khả lập trình

Khi lượng người dùng và các thiết bị ngảy càng nhiều, các đữ liệu thu thập được

từ các thiết bị trong mạng SDN ngày càng đa dạng và phức tạp hơn Các hệ thống

phát hiện xâm nhập phải chịu nhiều áp lực hơn trong việc thu thập và xử lý nhiều

dữ liệu cùng một lúc Hiện nay, ngày càng xuất hiện các biến thé tan công tinh vi vàmới lạ hơn Trong khi đó các kiểu hệ thống phát hiện xâm nhập hiện nay hoạt độngdựa trên việc phát hiện các dấu hiệu có sẵn của các loại tấn công có trước, cho nên

độ chính xác của khả năng phát hiện trước các biến thé mới này giảm sút đáng kếnếu không thích ứng, cập nhật nhanh chóng Do đó, có nhiều công trình nghiên cứu

nỗ lực áp dụng phương pháp học máy dé tăng cường khả năng phát hiện tan côngtrước các biến thê mới nay [2] Ngoài ra, việc phân tích dữ liệu một cách cục bộ như

phương pháp học máy truyền thống có thé phát sinh những van đề về quyền riêng tư

dữ liệu Để giải quyết những vấn đề trên, phương pháp học Cộng Tác (FederatedLearning) đã ra đời, trong đó quy trình thu thập dữ liệu và phát triển các thuật toánmới được tiễn hành ngay trên các thiết bị, giúp tiêu thụ ít điện năng, đảm bảo quyềnriêng tư cho người sử dụng, cũng như việc không phải chịu quá nhiều tải tại máy

chủ, nâng cao độ chính xác khả năng phát hiện của hệ thong phát hiện xâm nhập [3]

[4].

Chứng kiến nhiều lo ngại về bảo mật, tính riêng tư của việc sử dung dir liệutrong các giải pháp an toàn hệ thống mạng có nhiêu thiết bị người dùng, việc nghiên

cứu cách thức xây dựng trình phát hiện tan công dựa trên học cộng tác trong mạng

khả lập trình là một nhu cầu cần thiết Cách tiếp cận này vừa có thé khuyến khích va

Trang 17

tận dụng dữ liệu cá nhân ở các t6 chức, co quan dùng cho quá trình xây dựng giảipháp phát hiện xâm nhập, vừa có thé đảm bảo quyên riêng tư trên những dit liệu lưulượng mạng dùng dé huấn luyện bộ nhận diện tấn công mạng Tóm lại, đề tài nàythực hiện nghiên cứu thực nghiệm cách tiếp cận áp dụng phương pháp học cộng táctrong bài toán phát hiện tắn công mạng trong ngữ cảnh mạng khả lập trình Cụ thể,

nhóm dé xuất một phương pháp tận dụng những nguyên lý của mạng khả lập trình

SDN để cho phép quản lý các luồng thông tin mạng được trích xuất, phân tích vàhuấn luyện cục bộ tại những công an ninh đầu ra (security gateway) của từng vùngmạng Những công an ninh đầu ra này được xem như một tác tử IDS cục bộ có

nhiệm vụ huấn luyện cục bộ mô hình học máy cập nhật được từ máy chủ IDS trung

tâm Sau đó, nhóm hướng tới thử nghiệm tan cong dau độc các IDS hoc cộng tac

này dé khám phá mức độ anh hưởng của tan công đến tính chính xác của bộ nhận

diện xâm nhập trong hệ thông mạng

Trang 18

Chuong1 ˆ TỎNG QUAN ĐÈ TÀI.

1.1 Lý do chọn đề tài

Hiện nay, mạng khả lập trình (SDN) đang được giới nghiên cứu xem là nền tảngquan lý và điều phối số lượng lớn các thiết bị không đồng nhất như mạng IoT Hệthống phát hiện xâm nhập được triển khai để giám sát lưu lượng mạng của số lượnglớn các thiết bị IoT

Với sự tiễn bộ của các công nghệ, lượng người dùng ngày càng nhiều, các dữ

liệu thu thập được từ các thiết bị ngày càng đa dạng và phức tạp hơn Các hệ thống

phát hiện xâm nhập phải chịu nhiều áp lực hơn trong việc thu thập và xử lý nhiều

dữ liệu cùng một lúc Vì độ chính xác của kha năng phát hiện các hành vi độc hai

trong lưu lượng mạng bị giảm sút đáng ké, và mong muốn dữ liệu của thiết bị người

dùng được đảm bảo tính riêng tư khi các hệ thống này thu thập được Sự xuất hiện

của phương pháp hoc máy học Cộng Tác (Federated Learning) đã ra đời dé giải

quyết các vấn đề này Vì tất cả đữ liệu không còn tập trung và được huấn luyện tại

máy chủ mà sẽ phan tan va huấn luyện trực tiếp tại các thiết bị, đảm bảo sự riêng tu

của dữ liệu tại thiết bị cũng như việc không phải chịu quá nhiều tải tại máy chủ,

nâng cao độ chính xác khả năng phát hiện của hệ thống cũng như đảm bảo tính

riêng tư của dữ liệu người dùng.

Chính vì những điều này, nhóm chúng em sẽ nghiên cứu về phương pháp học

máy học Cộng Tác trên các hệ thống phát hiện xâm nhập trong mạng Khả Lập

Trình, cùng với đó thực hiện các biện pháp tấn công vào hệ thống phát hiện, cụ thểhơn là tập đữ liệu mà hệ thống sẽ huấn luyện

1.2 Mục tiêu

e Tận dụng phương pháp Hoc Cộng Tac (Federated Learning) trên các hệ

thống phát hiện xâm nhập IDS nhằm mục đích đảm bao tính riêng tư của dit

liệu, và đảm bảo kết quả phát hiện những hành vi bất bình thường lẫn giữa

những hành vi bình thường trong lưu lượng mạng khả lập trình (SDN).

Trang 19

e_ Chứng minh được ưu thế, hiệu suất, độ chính xác của phương pháp học cộng

tác trong việc nhận dạng các mối đe dọa so với các phương pháp học máy

truyền thống

1.3 Đối tượng nghiên cứu

Khóa luận này hướng đên nghiên cứu các đôi tượng sau:

e Phương pháp học cộng tác (Federated Learning)

e Các bộ dataset cho IDS

e Mô hình mang SDN

e M6 hình IDS may học

1.4 Phạm vi nghiên cứu

e Mô hình mang SDN ở dạng cơ bản.

e Phuong pháp học cộng tác (Federated Learning).

e Mô hình máy học ở dạng cơ bản.

1.5 Phương pháp nghiên cứu

e Tìm hiểu về mạng SDN

e Tìm hiểu về phương pháp học cộng tac (Federated Learning)

e Tìm hiểu differential privacy

e Xây dựng mô hình học máy dựa trên mô hình mau VGG-16

e_ Xây dựng kiến trúc SDN với trình phát hiện tắn công dựa trên học cộng tac

(Federated Learning)

e Thực nghiệm với bộ dataset CICDOS2019 dé xác định độ chính xác của mô

hình học máy, tỉ lệ nhận biết tấn công, tỉ lệ nhận biết bình thường

1.6 Cấu trúc khóa luận

Khóa luận được trình bày với cấu trúc sau:

e Chương 1 Tổng quan đề tài Chương này sẽ giới thiệu tông quan về đề tài

nghiên cứu, phạm vi nghiên cứu và phương pháp nghiên cứu.

Trang 20

Chương 2 Các nghiên cứu liên quan Chương này trình bảy các nghiên cứu

của các nhóm tác giả khoa học.

Chương 3 Các kiến thức nền tảng Chương này trình bày các kiến thức tổng

quan về SDN, phương pháp học cộng tác Federated Learning, mô hình học

máy, IDS và một số kiến thức liên quan

Chương 4 Y tưởng, mô hình, phương pháp thực hiện Chương này trình bày

về cách triển khai mang SDN, phương pháp học cộng tác Federated Learning

để phát hiện các cuộc tấn công

Chương 5 Thực nghiệm và kết quả Chương này trình mày mô hình đề xuất, đánh giá kết quả

Chương 6 Tổng kết Chương này đưa ra kết luận và hướng phát triển

Chương 7 Phụ lục

Trang 21

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Phát hiện tang công mạng IOT dựa trên học cộng tác

Với số lượng các thiết bị ngày càng tăng của các cuộc tấn công mạng, các

thiết bị Internet of Thing (IoT) đang tiếp xúc với các phần mềm độc hại nghiêm

trọng, các cuộc tấn công, các hoạt động đôc hại ngày càng phát triển Mặc dù các

nghiên cứu trước đây đã tập trung vào phát hiện xâm nhập ở một vi trí tập trung, có

thé hình dung tồn tại một thiết bị, thực thé có khả năng lưu trữ và thực hiện phân

tích đữ liệu từ các thiết bị tham gia, nhưng với phương pháp này không thể mở rộngquy mô tốt với tốc độ phát triên nhanh chóng của các thiết bị kết nối loT và có thé

gây ra rủi ro ảnh hưởng đến quyền riêng tư dữ liệu Hơn nữa, với việc dữ liệu đượckết nối phổ biến rộng rãi trên các mạng lớn nên việc các thiết bị được kết nối, tính

toán phi tập trung là đang rất cần thiết trong bối cảnh này nhóm tác giả [5]đề xuất

bài viết này với một sơ đồ dựa trên học liên kết dé phát hiện xâm phập IoT nhằm

duy trì quyên riêng tư dit liệu bằng cách đào đạo mô hình cục bộ và suy luận các môhình phát hiện Trong sơ đồ này, không chỉ có thé đảm bảo quyền riêng tư dữ liệu

mà các thiết bị còn được hưởng lợi từ các thiết bị tham gia khác từ việc máy chủ

tong hợp từ xa và chia sẻ mô hình mới phát hiện, cải tiễn với từng thiết bị tham gia.Nhóm tác giả đã thử nghiệm kỹ lưỡng trên tập dữ liệu NSL-KDD để đánh giá hiệu

quả của các phương pháp đã đề xuất Kết quả thử nghiệm và phân tích thực nghiệm

khám phá được tính mạnh mẽ và lợi thế của mô hình học liên kết được thê hiện

bằng cách đạt đến độ chính xác gần với độ chính xác của các mô hình được đào tạo

dữ liệu tập trung Và vượt trội hon so với việc đào đạo không tong hợp dữ liệu

2.2 Giải pháp đảm bảo riêng tư của dữ liệu người dùng khi huấn luyện học

máy dựa trên học cộng tác

Việc phân loại các tác nhân độc hại trong các bài toán ứng dụng học máy đòi hỏi việc tiép cận dữ liệu của người dùng, von là môi lo ngại vê quyên riêng tư dữ liệu Dé giải quyết vân dé này, trong nghiên cứu về hệ thông phát hiện xâm nhập

(IDS) trong môi trường mạng IoT, nhóm tác giả Thien Duc Nguyen [6] đã đưa ra

Trang 22

phương pháp học Cộng Tác với mục đích không những giúp mô hình phân loại

nhận diện được các cuộc tấn công mạng, mà vẫn giữ được sự riêng tư của các tập

dữ liệu của thiết bị người dùng

2.3 Kiến trúc điều khiến công nghiệp mới dựa trên Software-Defined Network

Thông thường, các router và các thiết bị mạng khác bao gồm cả dữ liệu vàchức năng điều khiển trong một mạng doanh nghiệp lớn, khiến cho việc điều chỉnh

hạ tang mạng và mở rộng hệ thống trở nên khó khăn hơn Dé giải quyết van đề này,trong nghiên cứu về kiến trúc điều khiển công nghép của nhóm tác gia Liang va Li

[7] đã nêu ra lợi ích và khả năng vượt trội của SDN so với mạng truyền thống.

2.4 Phát hiện bất thường cho dữ liệu chuỗi thời gian trong công nghệ IoT:

Giao tiếp hiệu quả phương pháp học tập liên kết trên thiết bị

Vì lỗi thiết bị trong mạng IoT ảnh hưởng nghiêm trọng tới việc sản xuất cácsản phẩm công nghiệp trong IoT, việc phát hiện chính xác kịp thời chính xác cácđiểm bất thường ngày càng trở nên quan trọng Hơn nữa, dữ liệu do các thiết bị

trong mạng IoT thu thập chứa dữ liệu riêng tư của người dùng ngày càng thu hút

mối quan tâm của mọi người với trọng tâm nay, bài báo này [8] đề xuất một bộ

khung học cộng tác (FL) phát hiện bất thường Nhóm tác giả đề xuất mô hình họccộng tác cho phép các thiết bị đạo tạo mô hình phi tập trung, cùng với mô hình đào

tao Attention Mechanismbased Convolutional Neural Network-Long Short Term

Memory (AMCNN-LSTM) dé phát hiện chính xác các điểm bat thường Các nghiên

cứu thử nghiệm mở rộng trong 4 bộ dữ liệu thực tế chứng minh rằng mô hình mà

nhóm tác giả [8] đề xuất phát hiện chính xác và kịp thời các điểm bat thường vàcũng giảm chi phí xuống 50% so với các phương pháp truyền thống

Trang 23

Chương 3 TONG QUAN KIÊN THỨC NEN TANG

3.1 Phương pháp hoc cộng tác (học liên kết) Federated Learning

3.1.1 Giới thiệu học cộng tác (học liên kết) Federated Learning

Theo thống kê của Gizmochina, một trang công nghệ nổi tiếng của Trung

Quốc, số lượng người dùng Smartphone trên toàn thế giới năm 2020 là 5,22 tỷ

người dùng,lượng người dùng lớn như vậy tạo ra một lượng lớn dữ liệu, thông qua

máy ảnh, micro, và các cảm biến khác Dữ liệu sau đó được thu thập trong các

trung tâm dữ liệu dé đào tạo mô hình máy học (machine learning) hay học sâu

(deeplearning) nhằm xây dựng các ứng dụng thông minh Tuy nhiên, do các mối

quan tâm về quyền riêng tư đữ liệu và giới hạn băng thông, các kỹ thuật học tập

trung dữ liệu không thích hợp, người dung có khả năng sẽ ít chia sẻ dữ liệu hơn, do

đó dit liệu sẽ chỉ có sẵn trên các thiết bị

Cách tiếp cận tiêu chuẩn dé xây dựng mô hình học máy ngày nay là tập hoptat ca dữ liệu đào tạo ở một nơi, thường là trên đám mây, và sau đó dao tạo mô hình

trên dữ liệu Nhung cách tiếp cận này không khả thi đối với phần lớn dit liệu trên

thế giới, vì lý do riêng tư và bảo mật không thê chuyền đến kho lưu trữ đữ liệu

trung tâm Điều này làm cho nó vượt quá giới hạn đối với các kỹ thuật AI truyền

thống Hơn nữa, các tình huống khó xử về quyền riêng tư càng khiến những gãkhống 16 công nghệ gặp khó khăn Gần đây, Facebook và Amazon đã thừa nhậnrằng đã lắng nghe cuộc trò chuyện của một số người dùng sau một cuộc điều tra.Sau đó có có một chiến dịch phản đối về việc xử lý thông tin người dùng, cuôi cùng

2 gã không lồ công nghệ được nêu trên đã buộc phải ngừng hoạt động này hoặccung cấp tùy chọn tắt chia sẻ bất kỳ đữ liệu cá nhân nảo

Học tập liên kết giải quyết vẫn đề này băng cách lật lại phương pháp tiếp cận

thông thường đối với AI

Thay vì yêu cầu một tập dữ liệu thống nhất dé đào tạo một mô hình, việc học

liên kêt sẽ đê dữ liệu ở vi trí cua nó, được phân phôi trên nhiêu thiệt bị và máy

Trang 24

chủ Thay vào đó, nhiều phiên bản của mô hình được gửi đi - một đến mỗi thiết bị

có đữ liệu huấn luyện - và được huấn luyện cục bộ trên mỗi tập con dữ liệu Các

tham số mô hình kết quả, nhưng không phải dữ liệu đào tạo, sau đó được gửi trở lại

dam mây Khi tat cả các “mô hình nhỏ” này được tổng hợp, kết qua là một mô hình

tong thé hoat động như thé nó đã được dao tạo trên toàn bộ tập dữ liệu cùng mộtlúc FL là một trong những lĩnh vực phát triển nhanh nhất, vì nó đi kèm các tínhnăng riêng tư và bảo mật nhăm tuân thủ các yêu cầu của luật bảo vệ dữ liệu ngườidùng.Tuy nhiên, FL cũng không miễn nhiễm với các loại tấn công ví dụ như đầu

độc dữ liệu, dau độc mô hình.

Trang 25

Ngoài việc cung cấp bản cập nhật cho mô hình được chia sẻ, thì mô hình sẽ

được cai tiễn trên thiết bi và người dung có thé sử dụng ngay lập tức, mang lại trải

nghiệm cá nhân hóa theo cách sử dụng thiết bị của người dùng

3.1.2 Ví dụ Gboard, bàn phím Google.

Một vi dụ phố biến cho phương pháp này là Gboard, bàn phím của Google.Khi Gboard hién thị một truy vấn được đề xuất, điện thoại sẽ lưu trữ cục bộ thôngtin về ngữ cảnh hién tại, việc người dùng nhấp vào đề xuất là một cách dé cung cấp

dữ liệu cho quá trình huấn luyện Học liên kết xử lý lịch sử trên thiết bi dé đề xuất

các cải tiên cho lân lặp tiêp theo của mô hình đê xuât truy vân của Gboard.

Q umami burger menu

3.1.3.2 Khó khăn:

e Yêu cầu đầu tư: Các mô hình học tập liên kết có thé yêu cầu giao tiếp thường

xuyên giữa các nút Điều này có nghĩa là dung lượng lưu trữ và bang thông cao

nằm trong số các yêu cầu của hệ thống

e Bảo mật dữ liệu:

10

Trang 26

o Dữ liệu không được thu thập trên một thiết bị / máy chủ duy nhất trong học

tập liên kết, mà có nhiều thiết bị dé thu thập và phân tích dữ liệu Điều này

làm tăng khả năng bị tấn công

o Mac dù chỉ có các mô hình hay các tham số, không phải dữ liệu thô được

giao tiếp với máy chủ trung tâm, nhưng các mô hình có thê được thiết kế

ngược dé xác định dữ liệu máy khách Các công nghê, phương pháp nâng

cao như quyền riêng tư khác biệt (Differential privacy), Homomorphic

encryption, secure multiparty computation, được sử dung dé tăng kha năng

bao mật dữ kiệu của hoc cộng tác.

e Giới hạn hiệu suất:

o Dữ liệu không đồng nhất: Các mô hình từ các thiết bị khác nhau được hợp

nhất dé xây dựng một mô hình tốt hơn trong học liên kết Các đặc tính cụ

thé của từng thiết bị riêng biệt có thé hạn chế tính tổng quát của mô hình từ

một số thiết bị và có thé làm giảm độ chính xác của phiên bản tiếp theo của

mô hình.

o Rò rỉ thông tin gián tiếp: Các nhà nghiên cứu đã xem xét các tình huống mà

một trong các thiết bị được lấy dữ liệu dé học liên kết có thé tấn công băng

cách chèn một backdoor ân vào mô hình toàn cục.

3.1.3.2 Lợi ích:

e Federated Learning cho phép các thiết bị như điện thoại di động cộng tác tim

hiểu mô hình dự đoán được chia sẻ trong khi vẫn giữ dữ liệu đảo tạo trên thiết bịthay vì yêu cầu đữ liệu được tải lên và lưu trữ trên máy chủ trung tâm

> Bảo mật dữ liệu : thúc đây đào tạo mô hình phi tập trung, cụ thé là các

thiết bị như điện thoại thông minh, máy tính bảng, IoT hoặc thậm chí là

các “ t6 chức” như bệnh viện được yêu cầu hoạt động dưới các rang buộcnghiêm ngặt về quyền riêng tư Giữ cho dữ liệu cá nhân vẫn còn cục bộ là

một lợi ích bảo mật mạnh mẽ.

> Vì các mô hình nằm trên thiết bị, nên quá trình dự đoán hoạt động ngay

cả khi không có kêt nôi Internet.

11

Trang 27

e Federated Learning giảm số lượng cơ sở hạ tang phần cứng cần thiết Federated

Learning sử dung phan cứng tối thiểu và những gi sẵn có trong thiết bị là quá đủ

dé chạy các mô hình Federated Learning

3.2 Học máy va cách xây dựng một mô hình học máy.

3.2.1 Hoc máy (Machine Learning) là gì?

Vài năm trở lại đây, Học máy hiện là xu hướng của thể giới với sự ra đời hàng

trăm, hàng nghìn các bai báo, các tạp chí nói về lĩnh vực này Với trí tuệ nhân tạo

nói chung và ML nói riêng, con người đang mơ về một tương lai không xa của thế

giới, ở đó máy móc sẽ thay con người làm những công việc mà trước nay đã và

đang làm, mọi công việc điều được thực hiện một cách tự động, chính xác đến từngmilimet Quay lại với thực tại, hiện nay đã có nhiều ứng dụng của ML đang len lỏivào hầu hết các lĩnh vực trong đời song xã hội như y tẾ, quản lý an ninh, hóa học,

chính trị,điện ảnh và nó đã chứng minh tiềm năng và hiệu quả thực sự mà ML

mang lại cho cuộc sông con người.

Tri tuệ nhân tạo hay Al (Artificial intelligence) là một ngành khoa học của khoa

học máy tính, là trí thông minh được thể hiện bang máy moc, trải ngược với trithông minh tự nhiên được con người thé hiện Và Machine Learning là một nhóm

ngành nhỏ trong AI, chuyên nghiên cứu và xây dựng các kĩ thuật cho phép các hệ

thong “học” tự động từ dữ liệu dé giải quyết những van dé cụ thé như:

e Làm cho máy tính có những kha năng nhận thức cơ bản của con người như

nghe, nhìn, hiểu được ngôn ngữ, giải toán

e Hỗ trợ con người tron việc xử lý một khối lượng thông tin không 16 mà chúng ta

phải đối mặt hang ngày, hay còn gọi là Big Data

Tóm lại, ta có thé hiểu một cách đơn giản như sau: ML là nhóm ngành nhỏ của

trí tuệ nhân tạo, chúng ta sẽ sử dụng các thuật toán dé làm cho máy tính có thể

“hiểu” dữ liệu dé thực các công việc thay vi lập trình một cách tường minh bằng các

lệnh ”if-else”, hay các câu truy van thông thường

12

Trang 28

3.2.1.1 Phân loại thuật toán ML

Hiện này, có 2 nhóm chính trong ML đó là: Học giám sát (Supervised learning

và học không giám sát (Unsupervised learning) Điểm khác biệt của các nhóm thuật

toán này đó chính là dtr liệu được đưa vào huấn luyện mô hình, cách thuật toán sử

dụng di liệu và loại vân dé ma chúng giải quyết.

e Học có giám sat (Supervised learning): Là thuật toán dé dự đoán đầu ra mong

muốn của một dữ liệu mới (output) dựa vào các điểm dữ liệu chứa 2 giá trỊ

(mput, label) đã biết từ trước Input được gọi là đặc trưng dt liệu và label chính

là nhãn của dit liệu đó Dé hình dung rõ hơn ta có thé lấy vi dụ như sau: x={màu

vàng, thân dai, nặng 1 gam, vị ngọt} và y={ quả chuối}, thì ta được một cặp (x.y)

trong đó x là input đầu vào được gọi là các feature input, y chính là nhãn tươngứng với input x Thông thường thì đữ liệu của chúng ta là tập hợp của rất nhiềuđiểm dữ liệu

Và trong nhóm học có giám sát các thuật toán lại chia thành 2 nhóm nhỏ hơn đó là

Phân loại (Classification) và Hồi quy (Regresstion)

e Học không giám sát (Unsupervised learning): Khác với học có giám sát, dữ liệu

học không giám sát chỉ có các đặc trưng, không có nhãn kèm theo.

Unsupervised learning được sử dụng dé khám phá ra những quy luật ân trong

tập dữ liệu không nhãn Trong đó thuật toán này lại được phân thành 2 nhóm nhỏ hơn đó là Clustering va Association.

13

Trang 29

Supervised Learning Unsupervised Learning

(Classification Algorithm) (Clustering Algorithm)

— Unsupervised —>

ge Not Duck

Predictive Model

Hình 3.3: Hoc có giám sát và học không có giám sát

3.2.1.2 Ứng dụng của ML trong cuộc sống con người

Hiện nay ML đã có mặt hầu hết trong cuộc song cua chung ta, len 101 hau hét 6

các lĩnh vực trong đời sông xã hội, tiêu biêu là các lĩnh vực sau:

e Xử lý ảnh: Nhận diện khuôn mặt trên ảnh dé gan tên người dùng trên các

mạng xã hội, nhận diện chữ viết tay, xe tự vận hành, v.v

e Phan tích văn bản: Lọc spam, trích xuất thông tin, phân tích ngữ nghĩa, v.v

e Khai phá dữ liệu: là quá trình khám phá ra các thông tin có giá trị hoặc đưa

ra các dự đoán từ dữ liệu Nghĩa là tìm kiếm các thông tin hữu ích từ mộ tập

dữ liệu lớn như phát hiện bất thường trong chứng khoán, giao dịch ngân

hàng, tìm ra các quy luật, v.v.

e Robot: sản phẩm máy hút bụi thông minh, v.v

3.2.2 Cách xây dựng một mô hình học máy

Việc tạo ra một mô hình ML đầy đủ nghĩa là xây dựng một mô hình mà từ

dữ liệu đầu vào, tạo ra được thông tin chính xác ở đầu ra Sau đây là 7 bước cơ bản

dé hoàn thiện một mô hình học máy

14

Trang 30

3.2.2.1 Thu thập dữ liệu

Đây là bước rất quan trọng bởi chất lượng va sé lượng đữ liệu thu thập được

sẽ quyết định trực tiếp tới việc mô hình dự đoán có thể tốt đến đâu Về cơ bản thì

nó là các đặc tính, thuộc tính riêng biệt của mỗi phần tử mà từ đó có thê phân biệt

được các tử với nhau, hay còn gọi với một cái tên khác là Feature input.

3.2.2.2 Chuẩn bị dữ liệu

Chuẩn bị đữ liệu, đây là bước tai dữ liệu tới nơi phù hợp va chuẩn bị sử dụngchúng trong quá trình huấn luyện học máy Trước hết đặt tất cả đữ liệu vào với nhau

và sắp thứ tự ngẫu nhiên, việc xác định một cuộc tấn công không phụ thuộc vào

cuộc tân công đó đên trước hay đên sau.

Đây cũng là thời điểm tốt dé trực quan hóa dit liệu theo bat kỳ cách hợp ly

nào dé xem liệu có thé tận dụng mối quan hệ liên quan nào đó giữa các biến hay

không Đồng thời biết được nếu có bat kỳ sự mat cân đối nào về dữ liệu Chang hạn,

nếu thu thập quá nhiều đữ liệu về nhãn tấn công so với nhãn bình thường, mô hình

huấn luyện sẽ bị thiên lệch về hướng đoán răng gần như mọi thứ nó thấy đều là

nhãn tan công bởi dự đoán đó gần như lúc nào cũng đúng Tuy nhiên trong thé giới

thực, mô hình này có thể thấy nhãn tấn công và nhãn bình thường là như nhau, điều

này có nghĩa là việc đoán “nhãn bình thường” sẽ sai trong nửa sô lân đoán.

Cần phân tách dir liệu thành hai phần Phan thứ nhất, sử dụng trong việchuấn luyện (Training) mô hình, sẽ chiếm phần lớn bộ đữ liệu Phần thứ hai sẽ dùng

cho việc đánh giá (Testing) chất lượng mô hình mà ta đã huấn luyện Chúng ta

không muốn sử dung cùng dữ liệu đã dùng dé huấn luyện dữ liệu cho việc đánh giá

bởi mô hình trả lời được vì nó nhớ “các câu hỏi” Điều này cũng giống như chúng ta

sẽ không muốn dùng cùng câu hỏi trong bài tập về nhà cho bài kiểm tra

Đôi khi dữ liệu ta thu được cần chuyên sang hình thức đánh giá và thao tác khác.Những thứ như de-duping (loại bỏ phần trùng lặp), bình thường hóa, sửa lỗi, v.v

Tat cả những việc nay sẽ được làm ở bước chuân bị dữ liệu.

15

Trang 31

3.2.2.3 Chọn mô hình

Qua nhiều năm, các nhà nghiên cứu và nhà khoa học dữ liệu đã tạo ra nhiều

mô hình Một số mô hình rất phù hợp với đữ liệu hình ảnh, một số khác dành cho

chuỗi (như văn bản hay âm nhạc), một số dành cho dữ liệu số, những mô hình khác

lại phù hợp cho dữ liệu dạng văn bản Tùy theo từng trường hợp mà lựa chọn mô

hình phù hợp.

3.2.2.4 Huan luyện

Bước huấn luyện, bước được coi là quan trọng nhất của học máy Trong

bước này, chúng ta sẽ sử dụng dữ liệu dé từng bước cải thiện khả năng của mô hình

trong việc đưa ra dự đoán.

Trong học máy, do có thé có nhiều tính năng, ta có nhiều m Tập hợp nhữnggiá trị m đó luôn tạo thành ma trận, chúng ta sẽ biểu thị W cho ma trận “trọng số”

(Weights) Tương tự như vậy đối với b, ta sắp xếp chúng lại với nhau và gọi đó là

Hình 3.4: Ma trận biểu diễn Weights và Biases.

Quá trình huân luyện liên quan đên việc khởi tạo một sô giá trị ngẫu nhiên

cho W và b rôi cô găng dự đoán đâu ra với các giá trị đó Việc này được thực hiện

khá kém Nhưng có thé so sánh những dự đoán của mô hình với đầu ra mà đáng lẽ

16

Trang 32

nó phải cho ra, rôi điêu chỉnh các giá trị trong W và b sao cho ta có được những dự

đoán chính xác hơn.

Sau đó quá trình này được lặp lại Mỗi vòng lặp hoặc chu kỳ cập nhật trọng

sô và thành kiên được gọi là một “bước” huân luyện.

dùng cho huấn luyện

Chi số này cho phép đánh giá mô hình có thé thực hiện tốt với những dữ liệu

nó chưa từng thấy như thế nào Điều này cũng đại diện cho việc mô hình có thể làm

tốt trong thé giới thực ra sao

Một quy tắc nhỏ dùng dé chia dữ liệu huấn luyện và đánh giá đó là chia theo

tỉ lệ khoảng 80/20 hoặc 70/30 Điều này phụ thuộc nhiều vào kích thước bộ dữ liệu

đầu ban đầu

3.2.2.6 Điều chỉnh thông số

Nếu trong quá trình đánh giá, kết quả đánh giá không tốt, độ chính xác không

đạt mức tối thiểu mong muốn, có thê đã phát sinh lỗi tạm dịch qua tiếng việt là quá

khớp (overfitting) hoặc chưa khớp (underfitting).

e Overfitting hiện tượng khi mô hình xây dựng thé hiện được chi tiết bộ dữ

liệu huân luyện Điêu này có nghĩa là cả dữ liệu nhiễu, hoặc dữ liệu bất

17

Trang 33

thường trong tập huấn luyện đều được chon và học dé dua ra quy luật môhình Những quy luật này sẽ không có ý nghĩa nhiều khi áp dụng với bộ ditliệu mới có thé có dạng dữ liệu nhiễu khác Khi đó, nó ảnh hưởng tiêu cực

tới độ chính xác của mô hình nói chung.

e Underfitting là hiện tượng khi mô hình xây dựng chưa có độ chính xác cao

trong tập dữ liệu huấn luyện cũng như tổng quát hóa với tông thể đữ liệu

Quay lại bước trước khi huấn luyện và đưa ra cấu hình mới cho các thông số của

mô hình

e Một tham số quan trong khác là ty lệ học (Learning rate), thường là một giá

trị để nhân với gradient để dần đưa nó đến gần hơn giá trị local minimum

hoặc global minimum.

o Local minimum là điểm cực tiêu trong hàm số

o Global minimum là điểm mà tại đó hàm số đạt giá trị nhỏ nhất

o Gradient (độ dốc) là khái niệm rất gần với khái niệm đạo hàm mà chúng

ta đã học thời cấp 3, nó biểu diễn cho tốc độ thay đổi của hàm

Gradient là một vecto trong khi đạo hàm là giá trị vô hướng (hiểu nôm

na là các giá tri số

3.2.2.7 Dự đoán

Học máy là việc sử dụng dữ liệu đê trả lời câu hỏi Vì vậy Dự đoán, hay suy

luận, là bước dé trả lời một sô câu hỏi Trọng tâm cua tat cả công việc ta làm là hiện

thực hóa giá trị của học máy

Cuôi cùng là sử dụng mô hình đê dự đoán.

18

Trang 34

3.3 Hệ thong phát hiện xâm nhập (Intrusion Detection System -IDS)

3.3.1 Hệ thống phát hiện xâm nhập là gì?

Hệ thống phát hiện xâm nhập (IDS) là thiết bị hoặc phần mềm có khả nănggiám sát và đưa ra cảnh báo nếu lưu lượng mạng không an toàn trong hệ thống được

xác định hay phát hiện bởi bộ phân tích (Hình 2.1).

MIDS NIDS management

Hinh 3.6: IDS trong hé thống mạng (nguồn hình ảnh [9])IDS được sử dung dé phát hiện các mối đe dọa từ việc giám sát các gói tin

truyền qua nó IDS phát hiện các hoạt động đáng ngờ và độc hại của các xâm nhập

cả bên ngoài lẫn bên trong Một IDS phải đối mặt với các vấn đề như là lưu lượngmạng lớn hay phân phối dữ liệu không đồng đều

Có thé chia IDS ra làm hai loại [10]:

e _ Hệ thống phát hiện xâm nhập máy chủ (Host based IDS -HIDS): có thể giám sát

hoạt động của hệ thống mà nó đã được triển khai HIDS có thé giám sát tínhtoàn vẹn của các tệp trên hệ thong tệp, hoạt động độc hại ở cấp kernel và phântích nhật ký (log) để tìm kiếm các hoạt động đáng ngờ

e Hệ thống phát hiện xâm nhập mạng (Network based IDS-NIDS): tập trung vào

giám sát cơ sở hạ tầng mạng Bằng cách phân tích luồng các gói tin mạng, kiêmtra các tiêu đề và nội dung, hệ thống này có thê phát hiện các hành vi xâm nhập

mạng.

19

Trang 35

Cả hai loại trên đều sử dụng một trong hai chiến lược [10]:

e IDS dựa trên dấu hiệu (Signature based IDS): Phát hiện dựa vào các dấu hiệu

của các tấn công đã biết và các quy tắc được định nghĩa bởi một người quảntrị Hệ thống nàycó thé phân loại các tan công đã biết bằng cách so sánh các

hành vi quan sát được với các mẫu được lưu trữ, nhưng không thê phát hiện

các tan công mới

e IDS dựa trên hành vi (Anomaly based IDS): Tìm kiếm sự sai lệch từ các

hành vi quan sat được với các hành vi bình thường, khi đó mô hình sé hiểuđơn giản những hành vi khác thường là hành vi tấn công Khái niệm này giảđịnh rang có thé mô hình hóa hoạt động bình thường của hệ thống Bằngcách sử dụng mô hình và đánh giá các phép đo hiện tại, có thể xác định xemhoạt động quan sát được có bất thường hay không

IDS dựa trên hành vi có tiềm năng lớn khi có khả năng phát hiện được các

loại tan công mới, bằng cách mô hình hóa các hành vi trong mạng Với sự

phát triển của máy học, nhiều kỹ thuật đã được áp dụng [11] dé tăng độ

chính xác và giảm tỷ lệ false positive (IDS phát hiện nhằm lưu lượng mạngbình thường là tan công) mang lại kết quả tốt

3.3.2 Ưu nhược điểm của 2 loại IDS

3.3.2.1 Ưu điểm

e Network based IDS — NIDS:

o Quản lý được cả một network segment (gồm nhiều host)o_ Cài đặt và bảo trì đơn giản, không ảnh hưởng đến mạng

o Có khả năng xác định lỗi ở tang Network

e Host based IDS — HIDS:

o Có khả năng xác định User liên quan đến event

o HIDS có khả năng phát hiện tan công diễn ra trên một máy, NIDS

thì không.

o Có thé phân tích các dữ liệu mã hóa

20

Trang 36

Có thé xảy ra trường hợp báo động giả

Không thé phân tích các dữ liệu đã được mã hóa (VD: SSH,

Hạn chế lớn nhất là giới hạn bang thông

Host based IDS — HIDS:

le)

Thông tin từ HIDS là không đáng tin cậy ngay khi sự tan công vào

host này thành công.

Khi OS bị sập do tan công, đồng thời HIDS cũng sập

HIDS phải được thiết lập trên từng host cần giám sát

HIDS không có khả năng phát hiện các cuộc tấn công dò quét

mang( Nmap, Netcat )

HIDS cần tài nguyên trên host dé hoạt động

3.3.3 IDS máy học

Trong lĩnh vực phân loại, các thuật toán học máy đã được áp dụng rộng rãi cho

IDS và đạt được kết quả khả quan Các thuật toán phát đã được sử dụng dé giám sát

và phân tích lưu lượng độc hại, bao gồm K-Nearest Neighbor, Support Vector

Machine (SVM), Cây quyếtđịnh (Decision Tree), v.v [11] Trong những năm gần

đây, các thuật toán học sâu phát triển nhanh và thúc đây sự phát triển trong trong

lĩnh vực phát hiện xâm nhập như Convolutional Neural Networks (CNN), Recurrent

21

Trang 37

Neural Networks (RNN), Auto Encoder, v.v [12] Các thuật toán này giúp cải thiện

độ chính xác và đơn giản hóa bài toán phát hiện xâm nhập trong các hệ thống mạng

3.4 Mạng khả lập trình (Software Defined Network -SDN)

3.4.1 Mạng khả lập trình là gì?

Mạng khả lập trình là kiến trúc mạng có thể lập trình được, mọi thiết bị phần

cứng trong một mô hình mạng sẽ được ảo hóa thành các chức năng tập trung tại bộ

xử lý (ví dụ router, switch, IDS, firewall,v.v) Bộ xử lý sẽ sử dụng các chức năng

của các thiết bị này thông qua API của chúng Điều này giúp cho người vận

hanh/quan trị mạng có thé dé dàng quản ly tập trung các các thiết bị trong cùng một

Hình 3.1: Su khác biệt giữa SDN va mạng truyền thống

Sự Khác biệt giữa SDN và mạng truyền thống được thê hiện ở Bảng 3.1

22

Trang 38

Bảng 3.1 Bảng so sánh giữa mạng truyền thống và mạng SDNMạng truyền thống SDN

Quản lý phân tán Quản lý tập trung

Không thể lập trình Có thể lập trình

Kiến trúc mạng rất phức tạp Kiến trúc mạng ít phức tạp

Các thiết bị mạng sử dụng phần cứng Các thiết bị mạng được ảo hóa sử dụng

dưới dạng phân mêm

Khả năng mở rộng mạng thấp Khả năng mở rộng mạng cao

Mỗi Data Plane đều có Control Plane Control Plane năm riêng biệt với Data

Plane

Việc cài đặt cấu hình mạng thủ công

nên mat nhiêu thời gian

Có thê tự động cai đặt cau hình mạng

nên mat ít thời gian hon

Tất cả packet có thê đi qua y như nhau

mà không có sự ưu tiên

Có thé ưu tiên hoặc chặn các packet

được xác định đi vào ra trong mang

Chi phí cai đặt cao Chỉ phí cài đặt thấp

Xử lý sự cô và báo cáo khó khăn vì

Trang 39

3.4.2 Kiến trúc của mang khả lập trình

e Tầng Ứng dụng (Application Layer/Application Plane): Là tầng chứa các

chức năng mạng của các thiết bị mạng chuyên dụng như router, switch, hệ thốngphát hiện xâm nhập (IDS), cân bằng tải và tưởng lửa

e Tầng điều khiển (Control Layer/Control Plane): Là nơi điều khiến tập trung

toàn bộ mạng Đây được coi là lõi của SDN Bộ điều khiển này sẽ được lưu tại

một máy chủ, quản lý các chính sách, dịch vụ và lưu lượng trên toàn mạng.

> Tầng điều khiến sẽ giao tiếp với tang ứng dung thông qua các API của các

phần mềm mạng Điều này giúp người quản trị mạng quản lý được lưu lượngtruy cập và triển khai các dịch vụ

> Tầng điều khiến sẽ giao tiếp với các router, switch ở tầng cơ sở hạ tầng

bằng API của giao thức OpenFLow

24

Trang 40

3.4.4

Tầng cơ sở hạ tang (Infrastructure Layer/Data Plane): là tang chứa các

thiết bị mạng vậy lý trong SDN

Những lợi ích va cách thách thức trong giải pháp SDN

Lợi ích

SDN cung cấp sự quản lý tập trung một cách logic và sự lập trình toàn bộ

hệ thống mạng Người quản trị mạng có thể theo dõi sơ đồ hình ảnh về hệthống mạng thông qua một ứng dụng của SDN giúp cho quản trị viên

quản lý một cách hiệu quả hơn.

Người quản trị viên có thé thay đối bat kì quy tắc chuyên đội mang nào

khi cần thiết Có thể cô lập, chặn các gói tin cụ thể với mức độ kiểm soát

và bảo mật cụ thể

SDN giúp ảo hóa các thiết bị phần cứng mạng chuyên dụng và dịch vụ

thành phần mềm Giúp cho các tô chức triển khai ứng dụng và dich dễ

dàng và nhanh chóng hơn.

Vì các thiết bị phần cứng đã được ao hóa nên chi phi để cài đặt và sửa

chữa sự cố, bảo trì giảm một cách dé và giảm bớt đi diện tích của vị trí

địa lý đặt các thiết bị phần cứng này

SDN giúp hệ thống mạng dé dàng mở rộng so với trước

3.4.5 Các thách thức

e Vi là một công nghệ mới nên bảo mật trong SDN đang là một van dé

dang quan tam nhất Vì tat cả thiết bi, lưu lượng mạng, chính sách, dịch

vụ, v.v đều được quản lý dưới sự giám sát của trung tâm điều khiển SDN.Nên có thé nói trung tâm điều khiển SDN là một mục tiêu mà kẻ tan công

sẽ luôn nhằm tới đầu tiên khi tan công một SDN Một khi trung tâm điềukhiển này rơi vào tay kẻ tan công thì họ có thé làm bất cứ điều gì với hệthống mạng của ta

25

Tiêu đề	Trình Phát Hiện Tấn Công Dựa Trên Học Cộng Tác Trong Mạng Khả Lập Trình
Tác giả	Nguyen Hong Ha, Tran Van Hung
Người hướng dẫn	ThS. Phan The Duy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	An Toan Thong Tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	83
Dung lượng	39,11 MB