Khóa luận tốt nghiệp An toàn thông tin: Phương pháp học liên kết cho dịch vụ săn tìm mối đe dọa trong mạng khả lập trình

Nhiều công trình nghiên cứu đã áp dụng phương pháp học máy để tìm kiếm các mối đe doạ, nhưng yêu cầu về một tập dữ liệu chất lượng cao từ các bên tham gia huấn luyện mô hình học máy lại

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG

TRAN CONG PHAT

DUONG MAI PHUONG

KHOA LUAN TOT NGHIEP PHUONG PHAP HOC LIEN KET CHO DICH VU SAN TIM MOI DE DOA TRONG MANG KHA LAP TRINH

FEDERATED LEARNING APPROACH FOR THREAT —

HUNTING SERVICES IN SDN

KY SƯ NGANH AN TOAN THONG TIN

TP HO CHÍ MINH, NĂM 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN

KHOA MANG MAY TINH VA TRUYEN THONG

TRAN CONG PHAT - 18521234

DUONG MAI PHUONG - 18520132

KHOA LUAN TOT NGHIEP

PHUONG PHAP HOC LIEN KET CHO DICH VU SAN TIM MOI DE DOA TRONG MANG KHA LAP TRINH

FEDERATED LEARNING APPROACH FOR THREAT —

HUNTING SERVICES IN SDN

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

TS PHAM VAN HAU

THS PHAN THE DUY

TP HO CHÍ MINH, NAM 2022

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

Ti8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

Nhóm cũng xin gửi lời cảm ơn sâu sắc nhất đến thạc sĩ Phan Thế Duy — giảng viên

hướng dẫn của nhóm — người đã hướng dẫn tận tình và giúp đỡ nhóm hoàn thành khoá luận tốt nghiệp Với kiến thức chuyên môn sâu rộng và sự yêu nghề, thay đã giúp nhóm chúng em có cơ hội tìm hiểu về những tri thức mới trong lĩnh vực công

nghệ thông tin nói chung và an toàn thông tin nói riêng.

Ngoài ra, nhóm xin cảm ơn gia đình đã luôn ủng hộ về cả sức mạnh tinh thần và vật chất, những người đã luôn bên cạnh động viên và khuyến khích nhóm hoàn thành

khoá luận tốt nghiệp Cuối cùng, sẽ thật thiếu sót nếu không gửi lời cảm ơn đến các anh chị, bạn bè khoa Mạng Máy tính và Truyền thông đã nhiệt tình hỗ trợ cũng như

giúp đỡ để nhóm có thể đạt được những kết quả tốt nhất.

Mặc dù đã cố gắng hết sức trong quá trình làm khoá luận tốt nghiệp, nhưng chắc

chắn rằng nhóm sẽ không thể tránh khỏi những sai sót do bản thân vẫn còn nhiều

hạn chế về kiến thức chuyên môn cũng như những kinh nghiệm thực tiễn Chúng

em kính mong nhận được sự thông cảm và những lời góp ý quý báu từ quý thầy cô

để có thé hoàn thiện bản thân minh hơn nữa.

Xin chân thành cảm ơn.

Thành phó Hồ Chí Minh, ngày 10 tháng 01 năm 2022

Trang 5

MỤC LỤC

Chương 1 TÔNG QUAN ccc2ctt2rttHhHhrrrrrrrrrre 2

1.1 Giới thiệu bài toán -c- + St nén 2 1.2 Các nghiên cứu liên quan

1.2.1 Bảo mật mang khả lập trình -¿-¿-< +sxs£vsseeeekeerrkrree 3

1.2.2 Dịch vụ cộng tác săn tìm mối đe doa dựa trên học liên kết và kiến trúc dịch vụ vi mô

1.2.3 Giải pháp đảm bảo quyền riêng tư dữ liệu trong học liên kết 6 1.2.4 Giải pháp giảm thiểu chi phí và thời gian truyền thông liên lac trong học liên kết

1.3 Tính ứng dụng trong thực (Ê ¿+ St sevekErkrkrkrererrkerke 7 1.4 Những thách thức.

1.5 Mục tiêu, đối tượng và phạm vi nghiên cứu -+-5- 5c =+<s+s+sz++ 7

1.5.1 Mục tiêu nghiên cứu.

1.5.2 Đối tượng và phạm vi nghiên cứu .-: +z+2vsc++2czsscce2 8 1.6 Cấu trúc khoá luận tốt nghiệp

Chương2 CƠ SỞ LÝ THUYÉT -22++++222Evvvvvrrrrrrrrrrrer 10

2.1 Học máy (Machine Learning) và học sâu (Deep Learning) 10

2.1.1 biên 0) II 2.1.2 HOC MAY Sàn HH HH rệt 12 2.1.3 HOC SAU 0 °ÖÐ©›› 14 2.2 Học máy và các bước xây dựng một mô hình học máy - 17

2.3 Học liên kết (Federated Learning) ‹-¿-¿ ¿5+5 + s*£tstekeerrerersee 20

Trang 6

2.3.1 Quá trình huấn luyện trong học liên kết cc:+cssc++ 20 2.3.2 _ Tính ứng dụng trong thực tế

2.3.3 Lợi ích và khó khăn của phương pháp học liên kết - 22 2.4 Quyền riêng tư khác biệt (Differential Privacy)

2.5 Săn tìm mối de doa (Threat — hunting) ¿-z+22s++z+22vscczrx 24

2.5.1 _ Phân tích Kill Chain.

2.5.2 _ Phân tích xâm nhập với mô hình kim cương (Diamond Model) 26

2.5.3 Mô hình săn tìm mối đe doa

2.6 Mạng khả lập trình (Software — defined Networking) - 28

2.6.1 Sự khác biệt giữa mạng khả lập trình và mạng truyền thống 29 2.6.2 Kiến trúc của mạng khả lập trình - ¿-cz+2sccz+ccsscee 30 2.6.3 Nguyên tắc hoạt động của mạng khả lập trình - 31

2.6.4 Lợi ích và khó khăn của giải pháp mạng khả lập trình 32 2.6.5 Giao thức OpenlFÏOW cccccxsseereerereieieeere.22 2.7 Điện toán biên di động (Mobile Edge Computing) - - -‹-+<«= 33 2.7.1 Sự khác biệt giữa điện toán biên và điện toán đám mây 35 2.7.2 Tính ứng dụng trong thực tẾ -c++++222vvvccree+rrrz 36

2.7.3 Loi ích và khó khăn của điện toán biên di động 37 2.8 Dịch vụ vi mô (MiCTOS€TVIC€S) (2c S332 EvEeErrrrrrksrvrkrrrrresvee 38

2.8.1 Mô tả kiến trúc của dịch Vụ Vi mÔ «55+ S+c+sxsterererrrkekrree 39 2.8.2 Lợi ích và khó khăn của kiến trúc dịch vụ vi mô - 40

Chuong3 PHƯƠNG PHÁP NGHIÊN CỨU - 2¿+2222+zc+cczxsce2 4I 3.1 Dich vụ săn tìm mối đe doa dựa trên học sâu liên kết nhiều tầng trong mạng

khả lập trình - - - 5522222 t2 221212321 121121211101.1111212 0101212 0111 gu 41

Trang 7

3.2 Mô hình học sâu liên kết nhiều tằng ¿-+z¿+22++ze+cvzvzeerrz 42 3.2.1 Tổng quan về mô hình học sâu liên kết nhiều tầng.

3.2.2 Luồng hoạt động của mô hình khi có sử dụng kỹ thuật quyền riêng tư

khác biệt 43

3.2.3 Thuật toán huấn luyện học sâu liên kết có sử dụng kỹ thuật quyền riêng tư khác biệt .44 3.3 Mô hình học sâu đề xuất cho dịch vụ săn tìm mối đe đoạ - 45

3.3.1 Deep Neural Network (DNN)

3.3.2 Long Short Term Memory (LSTM) - c5 ©+55+c+c+c<++ 46 3.4 Mô hình mang khả lập trình

Chương 4 THỰC NGHIEM VÀ ĐÁNH GIA c-:-cccc+ccssce2 48

4.1 Môi trường thực nghiệm.

4.1.1 Cấu hình cccccceccrrvrrrrrrrrrrrrrrrrererrrreg 48 4.1.2 Xây dựng hệ thống học liên kết nhiều tang

4.1.3 Xây dựng mạng khả lập trình - +cs+++c+ceesrecee 50 4.2 Kịch bản thực nghiệm - 5-5522 ‡ESEStzkeEEkerrrrkrrerrrrrree 53 4.3 Giới thiệu tập dữ liệu - 6 LH ưn 53

A.A, Dac ta tp ddr an cddd4Ạ5 55

4.5 Tiền xử lý tập dữ GU o cccsssssssssssssssessseesssssssssseccesssssssssssssssnsnnnenseeeeesseeeee 57

4.6 Tiêu chí đánh giá ch nghe 60 4.7 Kết quả thực nghiệm 2-©22+2++22EE2EEEEEEEEtEEEEEEErEEErkrrrrrrkrrrerrkii 61

4.7.1 M6 hinh 0900 61 4.7.2 Mô hình LSTM - c6 SStéttsterererkerirrrrerrrkerrrerrrrii 66

4.7.3 Đánh giá chỉ phí truyền thông liên lạc - 69

Trang 8

4.7.4 Triển khai dịch vụ săn tìm mối đe doạ trong mạng khả lập trình từ

mô hình học sâu liên kết nhiều tầng - 2-2-2 ££++£+£E++£++zx+rxezse2 73Chương 5 KET LUẬN -: -¿©2++2++2c+2Exvrreerkesrxrrrrees 75

Trang 9

DANH MỤC HÌNH

Hình 1.1: Sơ đồ hệ thống được đề xuất của mơ hình săn tìm mối de doa [5] 5

Hình 2.1: Mối quan hệ giữa trí tuệ nhân tao, học máy và học sâu - - 10

Ig01:8/28)/Eì:150i1àiir) 0 15

Hình 2.3: Mơ hình hồi quy tuyến tính cĩ ba thuộc tính đầu vào 15

Hình 2.4: Giá trị của đạo hàm và vi trí tại điểm đĩ so với điểm cực tiều 16

Hình 2.5: Ma trận biểu diễn Weights và Biases ¿ ¿©czcccccccsrsrrssree 19 Hình 2.6: Sơ đồ huấn luyện mơ hình ¿- ¿2£ ©5++x++£x+2E++£x++rxvzrxerxecree 19 Hinh 2.7: Ung dung cua hoc lién két trong lĩnh vực chăm sĩc sức khoẻ [15] 22

Hình 2.8: MITRE ATT&CKTM dành cho doanh nghiệp, năm 2020 [19] 26

Hình 2.9: Mơ hình kim cương [21] - ¿- 5+ 25+ +22 + + *+2E+vEEeeseereeerreereerererrre 26 Hình 2.10: Mơ hình săn tìm mối đe doạ bao gồm 6 giai đoạn [2I] 28

Hình 2.11: Sự khác biệt giữa mạng khả lập trình và mạng truyền thống 29

Hình 2.12: Kiến trúc của mạng khả lập trình 2 s¿+++++2x++zx++zxzxeerxs 3l Hình 2.13: Thành phần của OpenFlow Switch 2+ 222 x+£x+zEezzx+rxsrxcrez 33 Hình 2.14: Mơ hình hoạt động của điện tốn biên trong mạng lưới của đám mây 35

Hình 2.15: Hình minh hoạ phần mềm được xây dựng theo kiến trúc một khối 38

Hình 2.16: Hình minh hoạ phần mềm được xây dựng theo kiến trúc dịch vụ vi mơ38 Hình 2.17: Kiến trúc dich vụ vi mơ bao gồm nhiều thành phan nhỏ 39

Hình 3.1: Cau trúc dịch vụ săn tìm mối de doa dựa trên học sâu liên kết nhiều tang trong mạng khả lập trình được đề xuất 2- ¿2© +£+x++zx+tx+erxezrxesrseee 41 Hình 3.2: Mơ hình hoc sâu liên kết nhiều tang được dé xuat - 42

Hình 3.3: Mơ hình DNN được dé xuất c2 thue 46 Hình 3.4: Mơ hình LSTM được để xuẤt - 5555cc2trttttirrrrriirrerriie 47 Hình 4.1: Dia chi IP máy ONOS ControÏÏ€T - - c5 3+ +seseeeeserseesrs 50 Hình 4.2: Mơ phỏng mang khả lập trình - 5 55 5111 HH ng trên 52 Hình 4.3: Kết quả mơ phỏng mang khả lập trình với Controller -. - 52

Hình 4.4: Kiến trúc thử nghiệm [22] - 2 2 ¿5£ +E+EE+EE+EE£EE£EE£EEEerEerxerxrrsrree 54

Trang 10

Hình 4.5: Phân bố nhãn tập LDAP trong tập 03-11 CIC — DDoS2019 58

Hình 4.6: Phân bố nhãn tap SYN trong tập 03-11 CIC — DDoS2019 58

Hình 4.7: Phân bố nhãn sau khi tiền xử lý dữ liệu tap LDAP của tap dit liệu 03-11 CIC — DDoS/20119 á 1 29T HH HH HT TH HH Hư HT ngà 60 Hình 4.8: Phân bố nhãn sau khi tiền xử lý dữ liệu tập SYN của tập dit liệu 03-11 CIC 0909 /2060ẺNẽẽ 60

Hình 4.9: Sơ đồ quy trình bắt lưu lượng mạng giữa các máy docker trong Containernet để sử dụng cho việc phân loại lưu lượng bình thường và độc hai 73

Hình 4.10: Kết quả phân loại lưu lượng với 100% mẫu tan công 74

Hình 4.11: Kết quả phân loại lưu lượng với 100% mẫu lành tính 74

Hình 4.12: Kết quả phân loại lưu lượng với cả hai mẫu lưu lượng 74

Trang 11

Bảng 2.1:

Bảng 2.2:

Bảng 2.3:

Bảng 4.1:

Bảng 4.2:

Bảng 4.3:

Bảng 4.4:

Bảng 4.5:

Bảng 4.6:

Bảng 4.7:

Bảng 4.8:

Bảng 4.9:

Bảng 4.10

Bảng 4.11

Bảng 4.12:

Bảng 4.13:

Bảng 4.14:

Bảng 4.15:

Bảng 4.16:

Bảng 4.17:

Bảng 4.18:

Bảng 4.19:

Bảng 4.20:

DANH MỤC BANG

Ví dụ về bài toán hồi quy trong học có giám sát - 2-5 5+: 13

Sự khác biệt giữa mạng khả lập trình và mạng truyền thống 30

Sự khác biệt giữa điện toán biên và điện toán đám mây - 36

Số lượng mẫu của mỗi nhãn trong tập 01-12 CIC — DDoS§2019 55

Số lượng mẫu của mỗi nhãn trong tập 03-11 CIC - DDoS2019 56

Định nghĩa toán học của các tiêu chí đánh giá mô hình 61

Kết qua huấn luyện mô hình FL trên tập dit liệu LDAP - 62

Kết quả huấn luyện mô hình FL trên tập dit liệu SYN - 63

Kết quả huấn luyện mô hình FL + DP trên tap dit liệu LDAP 63

Kết quả huấn luyện mô hình FL + DP trên tập dữ liệu SYN 64

Kết quả huấn luyện mô hình HybridFL trên tập dữ liệu LDAP 64

Kết quả huấn luyện mô hình HybridFL trên tập dữ liệu SYN 65

: Kết quả huấn luyện mô hình HybridFL + DP trên tập dữ liệu LDAP 65

: Kết quả huấn luyện mô hình HybridFL + DP trên tập dữ liệu SYN 65

Kết quả huấn luyện mô hình FL trên tập dữ liệu LDAP 66

Kết quả huấn luyện mô hình FL trên tập dữ liệu SYN 66

Kết quả huấn luyện mô hình FL + DP trên tập dit liệu LDAP 67

Kết quả huấn luyện mô hình FL + DP trên tập dit liệu SYN 67

Kết quả huấn luyện mô hình HybridFL trên tập dữ liệu LDAP 67

Kết quả huấn luyện mô hình HybridFL trên tập dit liệu SYN 67

Kết qua huấn luyện mô hình HybridFL + DP trên tập dữ liệu LDAP 68

Kết quả huấn luyện mô hình HybridFL + DP trên tập dữ liệu SYN 68 Đánh giá chi phí truyền thông liên lạc -2- 2-2 52©52+£z+£e+£xzzse2 71

Trang 12

DANH MỤC TU VIET TAT

DDoS Distributed Denial of Service

DNN Deep Neural Network

FN False Negative

FP False Positive

HoT Industrial Internet of Things

IoT Internet of Things

LSTM Long Short Term Memory

RNN Recurrent Neural Network

SDN Software — defined Networking TCP Transmission Control Protocol

TN True Negative

TP True Positive

UDP User Datagram Protocol

Trang 13

TÓM TÁT KHÓA LUẬN

Ngày nay, mạng khả lập trình đã trở thành một lựa chọn phổ biến cho mục đích triển khai ứng dụng của các tổ chức Mạng khả lập trình giúp cho các tô chức có thé triển khai các ứng dụng nhanh hơn cũng như giảm thiểu phần lớn chỉ phí triển khai.

Tuy vậy, trải qua nhiều năm ứng dụng và phát triển, các tổ chức nhận ra rằng vẫn

còn một van dé cần phải quan tâm hơn nữa — làm thé nào dé bảo vệ hệ thống mạng

và các thiết bị có trong mạng khả lập trình Nhiều hệ thống tìm kiếm và phát hiện

xâm nhập đã được triển khai dé giám sát lưu lượng mạng, tuy nhiên, khi số lượng người dùng và thiết bị ngày càng tăng, các hệ thống này cũng phải chịu áp lực nhiều

hon trong việc thu thập và xử ly dữ liệu Mặt khác, các cuộc tan công ngày một tinh

vi khiến cho hệ thống tìm kiếm và phát hiện xâm nhập dựa trên dấu hiệu khó có thể phát hiện ra chúng Nhiều công trình nghiên cứu đã áp dụng phương pháp học máy

để tìm kiếm các mối đe doạ, nhưng yêu cầu về một tập dữ liệu chất lượng cao từ các bên tham gia huấn luyện mô hình học máy lại gặp phải những rắc rối nhất định về

bảo mật dữ liệu riêng tư của các bên tham gia Chính vì thế, phương pháp học liên kết đã ra đời dé giải quyết vấn đề trên Đối với học liên kết, các bên tham gia sẽ

không cần phải chia sẻ dữ liệu cá nhân của mình nữa mà họ có thể tự huấn luyện

mô hình ngay tại các thiết bị, giúp giảm lượng điện năng tiêu thụ và bảo mật dữ liệu

cá nhân Bên cạnh đó, để bảo vệ dữ liệu trong quá trình huấn luyện mô hình học

liên kết, kỹ thuật quyền riêng tư khác biệt cũng được sử dụng để góp phần đảm bảo quyền riêng tư dữ liệu của các bên tham gia Ngoài ra, dé tiết kiệm thời gian cũng

như chỉ phí truyền thông liên lạc, mô hình học liên kết sẽ được triển khai theo kiến trúc của điện toán biên di động Cụ thé, trong khoá luận này, nhóm sẽ triển khai một

mô hình học liên kết nhiều tang, trong đó có sử dụng kỹ thuật quyền riêng tư khác biệt để góp phần đảm bảo quyền riêng tư dữ liệu của người dùng, và thực hiện nghiên cứu thực nghiệm cách tiếp cận áp dụng phương pháp học liên kết trong bài

toán phát hiện xâm nhập mạng trong ngữ cảnh mạng khả lập trình.

Trang 14

Chuong 1 TONG QUAN

Tóm tắt

Trong chương này, nhóm xin trình bày tóm tắt về bài toán săn tìm mối de doa trong

mạng khả lập trình dựa trên phương pháp học liên kết, các nghiên cứu liên quan, các ứng dụng trong thực tế và thách thức mà bài toán đang gặp phải Đồng thời đưa

ra mục tiêu, đối tượng và phạm vi nghiên cứu cũng như cấu trúc của khoá luận.

1.1 Giới thiệu bài toán

Ngày nay, mạng khả lập trình trở thành một kiến trúc lý tưởng cho các hoạt động

cần băng thông cao và linh động nhờ vào các ưu điểm như dễ dàng quản lý và mở rộng, tiết kiệm chỉ phí triển khai và vận hành, Tuy nhiên, những thách thức về

bảo mật mạng khả lập trình trở nên đáng lo ngại hơn khi mà việc triển khai nó mang lại những lỗ hong nghiêm trọng Dé giải quyết van đề đó, các hệ thống săn tìm mối

đe doa đã được triển khai trong mạng khả lập trình dé phát hiện các mối đe doa tiềm

an có trong mạng Thế nhưng các cuộc tan công luôn phát triển mỗi ngày, chúng trở

nên khó lường trước và tỉnh vi hơn rất nhiều khiến cho các hệ thống phát hiện xâm

nhập dựa vào dau hiệu không còn hiệu quả, thay vào đó, các hệ thống phát hiện xâm nhập dựa trên học máy thường được sử dụng để có thể phát hiện được các hành vi

bất thường Và dé có được nguồn dữ liệu chất lượng cho các phương pháp học máy hiện đại, sự đóng góp dữ liệu từ các tổ chức tham gia vào mô hình là vô cùng cần

thiết Tuy vậy, hiện nay dữ liệu thường được phân tán và lưu trữ cần thận ngay tại

tổ chức do những quan ngại về tính bảo mật và quyền riêng tư dữ liệu.

Sự xuất hiện của phương pháp học liên kết chính là chìa khoá dé giải quyết vấn đề

trên khi nó cho phép các tô chức không cần phải chia sẻ dữ liệu cá nhân của mình

mà vẫn có thể tham gia đóng góp mô hình dé nâng cao độ chính xác trong việc phát

Trang 15

hiện các mối đe doạ Cần lưu ý rằng việc trao đổi các mô hình cục bộ vẫn có rủi ro

tiết lộ thông tin về dữ liệu ban đầu, do đó đặt ra một nhu cầu mới là cần phải bảo vệ

cả quá trình cập nhật mô hình cục bộ dé tránh việc dịch ngược khai phá dữ liệu Mặt

khác, tốc độ hội tụ của mô hình toàn cục là khá chậm do phải chờ đợi các bên thamgia cập nhật đầy đủ các mô hình cục bộ rồi mới tiếp tục huấn luyện, đây cũng làmột vấn đề mà phương pháp học liên kết cần phải giải quyết

Chính vì vậy, khoá luận này sẽ tập trung vào việc nghiên cứu phương pháp học sâu

liên kết cho việc xây dựng cộng tác dịch vụ săn tìm mối đe doạ trong mạng khả lập

trình Hệ thống nay sẽ được vận hành dựa trên các dịch vụ vi mô và áp dung kỹ

thuật quyền riêng tư khác biệt trong quá trình huấn luyện dé đảm bảo quyền riêng tư

dữ liệu của người dùng Ngoài ra, phương pháp học sâu liên kết sẽ được triển khainhiều tầng dé giảm tải chi phí và thời gian truyền thông liên lạc của hệ thống cũngnhư đưa quá trình xử lý dữ liệu đến gần hơn với nguồn dữ liệu giúp tăng tốc độ hội

tụ của mô hình toàn cục.

1.2 Các nghiên cứu liên quan

1.2.1 Bảo mật mạng khả lập trình

Sự phát triển của xu hướng tập trung hóa và ảo hóa kéo theo yêu cầu về một nền

tảng có khả năng đảm bảo an toàn, 6n định và có thé mở rộng quy mô Mặt khác,khi các hệ thống mạng phát triển phức tạp hơn với các dịch vụ đám mây và cơ sở hạtầng khác nhau, mạng kha lập trình (Software — defined Networking) được xem như

là một giải pháp nhằm cung cấp khả năng kiểm soát tập trung và mở rộng cho các tôchức lớn Mạng khả lập trình giúp đơn giản hóa công việc quản lý mạng bằng cách

phân tách luồng dữ liệu (Data Plane) và luồng điều khiển (Control Plane), cho phép

bộ điều khiến mạng có thể được lập trình trực tiếp và cơ sở hạ tầng cơ bản được

trừu tượng hóa cho các ứng dụng và dịch vụ mạng.

Trang 16

Cùng với sự phát triển mạnh mẽ của mạng khả lập trình, người ta không chỉ quan

tâm đến những lợi ích nó mang lại mà còn quan tâm liệu răng các giải pháp bảo mật

hiện tại có đủ để bảo vệ mô hình mạng này hay không, khi mà việc ảo hóa mạng

dẫn đến nhiều mối nguy hiểm mới cần phải được tìm hiểu và có chiến lược bảo vệphù hợp đề hạn chế tối đa những rủi ro có thê xảy ra [1]

1.2.2 Dịch vụ cộng tác săn tìm mối de doa dựa trên học liên kết và

kiên trúc dịch vụ vi mô

Dé đối phó với những van đề bảo mật ngày càng nguy hiểm và phức tap, các

chuyên gia đã nghiên cứu về việc phát triển một nền tảng có thể phát hiện các mối

đe dọa theo thời gian thực áp dụng phương pháp học máy (Machine Learning) [2].

Các nghiên cứu khoa học cũng chỉ ra rằng học máy là một phương pháp khả quantrong việc phát triển thông tin tình báo mối de doa (Threat Intelligence) dé săn tìmcác mối đe dọa trong mạng khả lập trình [3] Mặt khác, xu hướng thiết kế phân tán

của thị trường vạn vật kết nối Internet dẫn đến việc chia nhỏ các hệ thống phức tạpthành các dịch vụ vi mô (mieroservices) và thiết kế ảo hoá mang lại khả năng triểnkhai và mở rộng tối ưu (đã được kiểm chứng bởi các tập đoàn công nghệ tiên phong

như Amazon, Tesla và Google [4]), làm cho dịch vụ vi mô trở thành một trong

những giải pháp hàng đầu trong việc phát triển dịch vụ săn tìm mối đe doạ phi tập

trung trong mạng khả lập trình.

Sơ đồ hình 1.1 sẽ chỉ ra mô hình hệ thống được đề xuất dé săn tìm mối đe doa dựatrên dịch vụ vi mô, trong đó các mô hình săn tìm mối đe dọa được triển khai cục bộ

tại máy chủ biên đã được ảo hoá (Edge Tier), và mô hình toàn cục (Global Model)

được triển khai đồng bộ tại máy chủ đám mây (Cloud Tier) Cả Edge Tier, CloudTier và các ứng dụng độc lập (agent) đều giao tiếp thông qua mạng lưới vạn vật kết

nối Internet (Internet of Things) băng cách sử dụng kết hợp các công nghệ truyềnthông và giao thức truyền tin khác nhau [5]

Trang 17

Cloud Tier

* Initialization

*® Parameter aggregation

* Global update

* Final model broadcast

Service Manager Resource Manager

Edge Tier (containerized)

* Local Deep-TH training

ee ee ee ee a eee eee s Send local updates

Hình 1.1: Sơ đồ hệ thống được đề xuất của mô hình săn tìm mối de doa [5]

Quay trở lại với van đề áp dung phương pháp học máy vào việc phát hiện các mối

đe doạ, hầu hết các nghiên cứu hiện nay đều giả định rằng các mô hình học máy sẽđược huấn luyện tập trung với đữ liệu được lay từ các thiết bị đầu cuối không đồngnhất [6] [7] Tuy nhiên, khi các tô chức muốn mở rộng mô hình mang và gia tang sỐlượng các thiết bị đầu cuối, việc thu thập dữ liệu một cách tập trung như vậy sẽ gây

ra độ trễ lớn trong việc truyền tải dữ liệu cũng như khiến cho dit liệu dễ bị tan công

hơn Dé làm giảm áp lực trong việc thu thập và xử lý dữ liệu, phương pháp học liên

kết (Federated Learning) được sử dung để giúp các mô hình học máy có thể huấnluyện một cách phân tán, tức là huấn luyện trực tiếp tại các thiết bị (còn được gọi làhuấn luyện cục bộ) thay vì huấn luyện tập trung tại máy chủ như trước Đối với họcliên kết, các thiết bị tham gia vào mô hình huấn luyện sẽ sử dụng dữ liệu cục bộ(Local Data) dé huấn luyện tự động mô hình toàn cục được cung cấp từ máy chủ

Sau đó, thiết bị chỉ cần chia sẻ mô hình cục bộ (Local Update) dé xây dựng mô hình

học máy toàn cục thay vì dữ liệu cục bộ [5] nhăm bảo mật dữ liệu riêng của thiết bị

Không dừng lại ở đó, các nhà nghiên cứu đã tiếp tục phát triển mở rộng khả năng

của phương pháp học liên kết bằng cách kết hợp nó với phương pháp học sâu (mộthướng tiếp cận của học máy), phương pháp học liên kết mới này còn được gọi là

Trang 18

phương pháp học sâu liên kết (DeepFed) Học sâu liên kết cho phép thiết kế một mô

hình phát hiện các mối đe doạ trong mạng khả lập trình dựa trên các thuật toán phức

tạp, nơi mà nhiều thiết bị có thé cùng tham gia dé xây dựng mô hình phát hiện các

mối de doa toàn điện mà không cần phải chia sẻ dữ liệu riêng của mình Các cuộc

thử nghiệm mở rộng cũng đã chứng minh sự hiệu quả vượt trội của phương pháp

học sâu liên kết trong việc phát hiện các mối đe doạ so với các phương pháp tiếp

cận thông thường hiện nay [8].

1.2.3 Giải pháp dam bảo quyền riêng tư dữ liệu trong học liên kết

Trong phương pháp học liên kết, thông tin của người dùng vẫn có thé bị rò ri bằngcách phân tích mô hình cục bộ được gửi từ các thiết bị, điều này gây ra những ảnhhưởng nhất định đến quyền riêng tư đữ liệu cá nhân của người dùng Vì thế, kỹthuật quyền riêng tư khác biệt (Differential Privacy) được sử dụng như một cách décung cấp sự đảm bảo mang tính toán học về quyền riêng tư di liệu của người dùng

Kỹ thuật này sẽ thêm cần thận các dữ liệu gây nhiễu đã được điều chỉnh (đặc trưngbởi chỉ số epsilon €) vào các mô hình trước khi chúng được gửi đến nơi tổng hợp

[9] [10] dé đảm bảo rang quá trình dịch ngược dé khai phá dữ liệu không thê xảy ra

1.2.4 Giải pháp giảm thiểu chỉ phí và thời gian truyền thông liên lạc

trong học liên kết

Dé đưa quá trình xử lý và phân tích dữ liệu đến gần hơn với nguồn dữ liệu, các nhànghiên cứu đã nhắm đến điện toán biên di động (Mobile Edge Computing) như làmột cách tiếp cận dé có thé giải quyết van dé này Tuy vậy, việc tối ưu hoá hiệu quảkhi kết hợp phương pháp học liên kết với điện toán biên di động vẫn còn là mộtthách thức lớn Dựa trên ý tưởng triển khai của điện toán biên di động, các nhà

nghiên cứu đã đề ra một phương pháp học liên kết nhiều tầng mới, còn được gọi là

HybridFL HybridFL thông qua hai cấp độ tại biên và tại đám mây để đưa ra các

Trang 19

chiến lược tổng hợp khác nhau; từ đó đưa quá trình xử lý và phân tích dữ liệu đến

gan hơn với ngu6n dữ liệu, giúp tăng tốc độ hội tụ của mô hình toàn cục cũng như

giảm mức tiêu thụ năng lượng và thời gian truyền thông liên lạc của hệ thống [11]

1.3 Tính ứng dụng trong thực tế

Dịch vụ cộng tác săn tìm mối đe doạ được xây dựng dựa trên phương học sâu liênkết nhiều tang tích hop kỹ thuật quyền riêng tư khác biệt giúp cho các tổ chứckhông cần phải chia sẻ dữ liệu riêng của họ mà vẫn có thê tham gia vào mô hình

Tuy rang kỹ thuật quyền riêng tư khác biệt có thé đảm bảo quyền riêng tư dit liệu

của người dùng, song nó lại làm giảm đi độ chính xác của mô hình, sự suy giảm độ

chính xác càng thê hiện rõ rệt hơn đối với mô hình phức tạp có nhiều trọng số

Mặt khác, hệ thống học sâu liên kết nhiều tang tuy có thé giảm bớt áp lực của việc

truyền tải, xử lý và phân tích dữ liệu nhưng đồng thời nó cũng làm giảm đi độ chính

xác của mô hình, sự suy giảm độ chính xác càng thể hiện rõ rệt hơn khi tăng dần sốvòng (round) trong quá trình huấn luyện

1.5 Mục tiêu, đối tượng và phạm vi nghiên cứu

Trang 20

1.5.1 Mục tiêu nghiên cứu

Xây dựng dịch vụ cộng tác săn tìm mối đe doạ trong mạng khả lập trình dựatrên phương pháp học sâu liên kết

Tích hợp kỹ thuật quyền riêng tư khác biệt trong quá trình huấn luyện họcsâu liên kết dé đảm bảo quyên riêng tư dữ liệu người dùng

Triển khai kiến trúc dịch vụ vi mô cho dịch vụ săn tìm mối đe doạ trong

1.5.2 Đối tượng và phạm vi nghiên cứu

Phương pháp học sâu liên kết cho dịch vu săn tìm mối de doa sử dụng mô

hình Deep Neural Network và Long Short Term Memory.

Hệ thống học sâu liên kết nhiều tang được xây dựng dựa trên ngôn ngữPython và các thư viện như Pytorch, Flask; thư viện hỗ trợ quyền riêng tư

khác biệt Opacus.

Tập dữ liệu được sử dụng để huấn luyện và đánh giá mô hình là CIC —

DDoS2019.

Mô hình mạng khả lập trình cơ bản dùng dé thực hiện các kịch ban thực

nghiệm săn tìm môi đe doạ khác nhau.

1.6 Cau trúc khoá luận tốt nghiệp

Thông qua phan trình bày tổng quan về những nội dung sẽ nghiên cứu trong khoá

luận tôt nghiệp, nhóm xin đưa ra câu trúc cụ thê của khoá luận tôt nghiệp như sau:

Chương I: Giới thiệu tông quan về khoá luận và các nghiên cứu liên quan.

Trang 21

Chương 2: Trình bày cơ sở lý thuyết và các kiến thức nền tảng có liên quan.Chương 3: Đề xuất phương pháp nghiên cứu dé giải quyết bài toán.

Chương 4: Trình bày môi trường và kịch bản thực nghiệm, mô tả tập dữ liệu

cũng như phương pháp đánh giá và kết quả thực nghiệm

Chương 5: Kết luận và đề xuất hướng phát triển của khoá luận

Chương 6: Tài liệu tham khảo.

Trang 22

Chương 2 CƠ SỞ LÝ THUYET

Tóm tắt

Trong chương này, nhóm xin trình bày về cơ sở lý thuyết và các kiến thức nên tảng

có liên quan đên đê tài nghiên cứu.

2.1 Học máy (Machine Learning) và học sâu (Deep Learning)

Trước khi nhắc đến hai khái niệm học máy và học sâu thì không thé không nhắc đến

khái niệm trí tuệ nhân tao (Artificial Intelligence) Cả ba khái niệm trí tuệ nhân tao,

học máy và học sâu có một mối quan hệ mật thiết với nhau và thường bị nhằm lẫn

là một, mặc dù bản thân chúng đều ám chỉ những khái niệm riêng biệt Dé dễ hìnhdung hơn, có thể xem học sâu là một tập hợp con của học máy, trong khi trí tuệ

nhân tạo là một siêu tập hợp của học máy và học sâu.

Artificial Intelligence

Deep

Learning

Hinh 2.1: Méi quan hệ giữa trí tuệ nhân tao, học máy va học sâu

10

Trang 23

2.1.1 Tri tuệ nhân tạo

Trí tuệ nhân tạo là thuật ngữ phổ biến đề cập đến việc mô phỏng quá trình suy nghĩ

và học tập của con người trên máy móc, đặc biệt là hệ thống máy tính

Năm 1997, nhân loại đã chứng kiến một bước ngoặt lịch sử trong lĩnh vực trí tuệnhân tạo khi mà siêu máy tính DeepBlue của IBM (sau nhiều lần thất bại) đã đánh

bại siêu đại kiện tướng cờ vua Garry Kasparov — người được mệnh danh là một

trong những kỳ thủ cờ vua vĩ đại nhất mọi thời đại [12] Ké từ đó, việc đánh bai một

máy tính ở bộ môn cờ vua dường như là một thách thức mà con người chưa thểvượt qua Tiếp nối thành công đó, sự ra đời của Alpha Go — chương trình của

DeepMind (công ty chuyên về trí tuệ nhân tạo của Google) đã cho thấy khả năngđáng kinh ngạc mà một máy tính có thê làm được Nó có thể tự học các thế trận cờ

vua của con người qua hàng trăm năm chỉ trong vòng bốn giờ đồng hồ Không chỉ

dừng lại ở đó, AlphaGo còn tự mình đưa ra những chiến thuật mới giúp nó chiến

thắng các đối thủ (là con người) Điều đặc biệt ở đây là AlphaGo tự học cách chơi

cờ vua từ con số 0, tức là nó chỉ được lập trình với luật chơi cờ vua và phải tự tìm ra

cách chiến thắng nhờ vào cách tự chơi với mình đề “huấn luyện” bản thân [13]

Ngày nay, trí tuệ nhân tạo được sử dụng trong hau hết tat cả các ngành công nghiệp.Thật khó dé có thể phủ nhận sự hiện diện của nó trong đời sống của con người, từviệc mua sản phâm trên Amazon hoặc đọc các tin tức trên Google, nghe nhạc hoặc

xem phim trên Netflix, Trí tuệ nhân tao đã và đang len lỏi vào từng mang của

đời sống thường ngày và cải thiện trải nghiệm của con người một cách tốt hơn baogiờ hết Với trí tuệ nhân tạo, sẽ thật không sai khi nói rang con người có thé mơ ước

về một thế giới mà ở đó, máy móc có thể giúp con người hiện thức hoá những điều

mà trước nay tưởng chừng như không thể thực hiện

lãi

Trang 24

2.1.2 Học máy

Được định nghĩa bởi Arthur Samuel vào năm 1959, học máy là thuật ngữ đề cậpđến một tập hợp các phương pháp cung cấp cho máy tính “khả năng học mà khôngcần được lập trình một cách rõ ràng” [14]

Học máy là một nhánh của lĩnh vực trí tuệ nhân tạo và khoa học máy tính, nó chủ

yếu tập trung vào việc sử dụng dir liệu và thuật toán dé bắt chước cách mà conngười học, từ đó dần dần cải thiện độ chính xác của mình Dựa trên phương pháp

tiếp cận, có thể chia học máy thành bốn nhóm cơ bản là học có giám sát

(Supervised Learning), học không giám sát (Unsupervised Learning), học bán giám sát (Semi — supervised Learning) và học tăng cường (Reinforcement Learning) Sự

khác biệt giữa các phương pháp tiếp cận học máy này năm ở các thuật toán được sử

dụng, dữ liệu dau vào và loại vân dé mà chúng giải quyết Cu thê như sau:

Học có giám sát: là thuật toán dự đoán đầu ra (còn được gọi là outcome) của một

dữ liệu mới (new, input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữliệu nay còn được gọi là dữ liệu và nhãn (data, label) Tuy thuộc vào loại đầu ra

mong muốn, học có giám sát lại được chia làm hai nhóm nhỏ là phân lớp

(Classification) và hồi quy (Regression)

e Phân lớp: được sử dụng khi đầu ra mong muốn là một tập hữu hạn và rời rạc

Ví dụ trong bài toán phát hiện xâm nhập mạng, sỐ lượng các lớp (class) cóthê là: nhị phân (tức là chỉ cần phân loại tất cả các hành vi mạng thành bìnhthường hoặc bất thường) và đa lớp (tức là ngoài việc phân loại hành vi mạngthành bình thường hoặc bất thường thì sau đó các hành vi bất thường cònphải được phân loại cụ thé hình thức tấn công như SYN Flood, TCP Flood,

UDP Flood hay Ping of Death, ).

e Hồi quy: được sử dụng khi đầu ra mong muốn là một dai giá trị liên tục Ví

dụ trong bài toán tính giá trị xác suất, giả sử bài toán cần giải quyết là điểm

đáng tin cậy của người dùng dé thực hiện cho vay tín dụng Điểm tin cậy dai

diện cho khả năng mà người đó có thê chi trả cho khoản vay của mình và

12

Trang 25

nằm trong khoảng từ 0 đến 1, và nó thể hiện xác suất một người sẽ trả cáckhoản vay của mình Khi đó, dit liệu sẽ giống như trong bảng 2.1:

Bảng 2.1: Ví dụ về bài toán hồi quy trong học có giám sát

Nghề nghiệp Thu nhập Tuổi Điểm tin cậy

Lập trình viên < 1000$ 25 0.85

Sinh viên < 200$ 18 0.3

Học có giám sát là một trong những phương pháp tiếp cận phô biến nhất của học

máy Tuy nhiên, hạn chế của phương pháp này là cần phải có một lượng lớn tập ditliệu có gán nhãn Và dé có được lượng lớn tập dữ liệu có gán nhãn thật sự tiêu tốn

rat nhiêu công sức cũng như chi phí dé thuê người đọc va gan nhãn thủ công.

Hoc không giám sát: là thuật toán dựa vào cấu trúc của dit liệu đầu vào dé khaiphá những quy luật ẩn bên trong các tập dữ liệu đầu vào, ví dụ như phân nhóm hoặcgiảm số chiều của dữ liệu dé thuận tiện cho việc lưu trữ và tính toán Lưu ý, đối vớihọc không có giám sát thì không có dữ liệu đầu ra (nhãn) mà chỉ có dữ liệu đầu vào

(tập dữ liệu chưa được gán nhãn) Học không giám sát lại được chia làm hai nhóm

nhỏ là phân nhóm (Clustering) và kết hợp (Association)

e Phan nhóm: được sử dụng khi muốn phân toàn bộ dữ liệu bất kỳ thành các

nhóm nhỏ dựa trên sự kiện liên quan giữa các dữ liệu trong mỗi nhóm, chang

hạn như phân nhóm khách hàng dựa trên hành vi mua hàng.

e Kết hợp: được sử dụng khi muốn khai phá các quy luật của cấu trúc dữ liệu,

chăng hạn như người mua món hàng A cũng có xu hướng mua món hàng B.Học bán giám sát: là thuật toán kết hợp giữa học có giám sát và không giám sát

Học tăng cường: là thuật toán giúp cho một hệ thống tự động xác định hành vi dựatrên ngữ cảnh để đạt được mục đích cao nhất Học tăng cường thường được ứngdụng trong lý thuyết trò chơi (Game Theory), trong đó, học tăng cường cần xác định

nước di tiép theo đê đạt được điêm sô cao nhat qua mỗi lần chơi.

13

Trang 26

Ngày nay, học máy được ứng dụng rộng rãi trong các lĩnh vực khác nhau, nổi bật

nhất có thé kế đến học máy truy tim dit liệu, chân đoán y khoa, phát hiện thẻ tín

dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng

giọng nói và chữ viết, dịch tự động, chơi trò chơi và điều khiến tự động robot,

các thuộc tính giúp phân biệt các dữ liệu với nhau Chính vì lý do đó mà học sâu

chủ yếu được ứng dụng trong lĩnh vực thị giác máy tính, xử lý ngôn ngữ tự nhiên và

nhận dạng giọng nói.

Trong học sâu, việc học các biểu diễn phân lớp thường được dựa trên các mô hìnhmang neural nhân tạo, hàm kích hoạt (Activation Function), hàm mất mát (LossFunction) và thuật toán suy giảm độ dốc (Gradient Descent) Cu thé nhu sau:

Mang neural: là một mô hình được lấy cảm hứng từ cấu trúc va chức năng của não

bộ con người, đúng hơn là sự kết nối giữa các tế bào thần kinh trong sinh học Như

trong hình 2.2 bên dưới, mỗi ô tròn đại diện cho một neural (còn được gọi là một

nút), mỗi neural có một giá trị riêng Giá trị của neural được tính toán thông qua giá

trị của các neural trước đó và giá trị này cũng là đầu vào cho các neural phía sau.Nói cách khác, mỗi neural có thể nhận một hoặc nhiều giá tri làm giá tri đầu vào và

thực hiện các phép tính toán dựa trên giá trị đó Kết quả của phép tính chính là giátrị của neural Giá trị của các neural đầu tiên (còn được gọi là input layer) được lay

từ đầu vào mà không cần phải thông qua bước tính toán, trong khi đó giá trị của

neural cuối cùng (còn được gọi là output layer) sẽ là kết quả cuối cùng của toàn bộ

quá trình tính toán.

14

Trang 27

Hidden layers Input layer

Các giá trị của neural được tính bang cách nhân mỗi giá tri đầu vào với trọng số của

nó roi cộng tat cả giá trị lại với nhau Tổng đó có thé là giá trị của neural hoặc phải

được thực hiện thông qua một hàm số trên tông đó Vi dụ mô hình hồi quy tuyếntính (Linear Regression) có thé được biéu diễn bằng mạng neural như hình 2.3:

W3 ⁄

Y = Wo †+Wxq + W2X2 + WaXz

(a) (b)

Hình 2.3: Mô hình hồi quy tuyến tính có ba thuộc tinh đầu vào

được biéu diễn bằng mạng neural dạng day du (a) và dang rút gọn (b)Hàm kích hoạt: là các hàm được đặt sau mỗi hidden layer trong mạng neural nhằm

phá vỡ sự tuyến tính của layer và chuẩn hoá đầu ra từ layer đó Các hàm này thường

là các hàm số phi tuyến tính và dễ dàng tính toán đạo hàm Một số hàm kích hoạtpho biến có thé kế đến là sigmoid, tanh, ReLU

15

Trang 28

Ham mat mát: được sử dụng để xác định khoảng cách giữa giá trị đầu ra của mô

hình và giá trị đầu ra thực tế Nói cách khác, trong mạng neural, việc tìm mô hìnhchính là việc xác định trọng số của mạng neural sao cho hàm mất mát có thê đạtđược giá trị nhỏ nhất Một số hàm mat mát phô biến có thé ké đến là RMSE, Cross

Entropy, Hinge Loss.

Suy giảm độ dốc: là thuật toán giúp ra các giá trị trọng số sao cho hàm mắt mát đạtgiá tri cực tiêu Khi giá trị đạo hàm của một hàm số tại một điểm nhỏ hơn 0 thì điểmcực tiêu dang nằm bên phải điểm đó, lớn hơn 0 thì điểm đó đang nằm bên trái điểmcực tiểu Điểm càng xa điểm cực tiểu thì đạo hàm tại điểm đó có giá tri tuyệt đối

càng lớn.

ƒœ)\

ƑŒa)<0 f'(x1) >0

Hình 2.4: Giá trị của đạo ham và vi trí tại điểm đó so với điểm cực tiểuMột vài biến thé của Gradient Discent có thé kế đến như Batch Gradient Descent,

Stochastic Gradient Descent, Mini — Batch Gradient Descent Sự khác biệt giữa

chúng chính là số lượng đữ liệu được sử dụng cho mỗi lần cập nhật trọng số Cụ thểhơn, Batch Gradient Descent sử dụng toàn bộ dữ liệu cho mỗi lần cập nhật,Stochastic Gradient Descent sử dung một dữ liệu để cập nhật, va Mini — BatchGradient Descent sử dụng batch_size dữ liệu dé cap nhat trong sé trong một lần Từ

đó, có thê định nghĩa được khác niệm về epoch, batch_ size và iterations như sau:

e Epoch: một epoch là một lần duyệt qua hết tất cả dit liệu có trong tập dữ liệu

huan luyện.

16

Trang 29

e Batch size: số lượng dữ liệu được sử dụng trong một lần để cập nhật trọng

số Giá trị batch_size thường được sử dụng là các giá trị 2" (32, 64, 128, )

để có thé tối ưu hoá thời gian tính toán.

e Iterations: số lượng batch_size mà mô hình phải duyệt trong một epoch.

Ví dụ một tap đữ liệu huấn luyện có 64.000 đữ liệu Nếu batch_size = 64 (mỗi lần

cập nhật trong số sẽ sử dung 64 dữ liệu), khi đó iterations = 64.000/64 = 1.000.

Mặc dù học sâu có khả năng giải quyết nhiều vấn đề phức tạp mà các phương pháp

học máy không thé, tuy nhiên, chi phí đề triển khai phương pháp học sâu là rất cao Đối với các tác vụ lớn, việc huấn luyện một mạng lưới thần kinh thường yêu cầu xử

lý lượng lớn dé liệu bằng cách sử dụng các cụm GPU cao cấp trong nhiều giờ liền

và chỉ phí cho các cum GPU này có thé lên đến hàng ngàn đô la mỹ hoặc năm đô la

mỹ mỗi giờ dé thuê dịch vụ đám mây từ bên thứ ba Chính vì thế, nếu một bài toán

có thể giải quyết bằng các phương pháp học máy thông thường thì không nên lạm

dụng học sâu như một phương pháp dé giải quyết tat cả mọi bài toán.

2.2 Học máy và các bước xây dựng một mô hình học máy

Khi nhắc đến điều gì là quan trọng nhất khi xây dựng một mô hình, đường như mọi người luôn cho rằng đó là việc tạo ra mô hình Tuy nhiên trong thực tế, sự thành

công hoặc thất bại của một mô hình học máy phụ thuộc vào rất nhiều yếu tố khác.

Cụ thể các bước xây dựng mô hình học máy sẽ được trình bày như sau:

Thu thập và chuẩn bị dữ liệu: là bước rất quan trọng vì số lượng và chất lượng của tập dữ liệu thu thập được sẽ ảnh hưởng trực tiếp tới kết quả dự đoán của mô

hình Tập dữ liệu thu thập ban đầu sẽ có thứ tự các mẫu được sắp xếp một cách ngẫu nhiên, đây được xem là thời điểm tốt nhất để trực quan hoá dữ liệu và tìm ra

mối quan hệ giữa các mẫu Đồng thời đây cũng là lúc thích hợp đề kiểm tra xem có

bat kỳ sự mắt cân bằng nào về dữ liệu hay không vì sự mắt cân bằng tập dữ liệu có thể gây ra các tình trạng dương tính giả (False Positive) hoặc âm tính giả (False

17

Trang 30

Negative) không mong muốn Điều quan trọng tiếp theo là tập dữ liệu đó cần được chia làm hai phần: phần thứ nhất sử dụng cho việc huấn luyện (training) mô hình và

sẽ chiếm phan lớn tập dữ liệu, phần thứ hai sử dụng cho việc đánh giá (testing) chất lượng mô hình đã huấn luyện Lý do cho việc phân chia tập dữ liệu thành hai phần

để huấn luyện và đánh giá là bởi vì nếu sử dụng cùng một tập dữ liệu, mô hình sẽ

“học vet” và tất cả những dự đoán nó đưa ra chỉ dựa trên những gì nó đã “học” được trước đó Quy tắc chia tập dữ liệu thường được sử dụng là 80/20 hoặc 70/30,

trong đó, phần lớn hơn luôn là phần dùng cho việc huấn luyện và phần nhỏ hơn luôn là phần dùng cho việc đánh giá Bên cạnh đó, những van đề như tinh giản dữ liệu khi gặp các trường hợp dữ liệu bị thiếu hoặc nhiễu; giảm bớt dữ liệu khi có quá nhiều các thuộc tính trong tập dữ liệu đầu vào cũng nên được lưu ý.

Chọn mô hình thích hợp: là bước tiếp theo trong việc xây dựng một mô hình học máy Việc lựa chọn một mô hình học máy thích hợp cho mục đích sử dụng là hết sức cần thiết, ví dụ như có một số mô hình rất phù hợp với dữ liệu hình ảnh, một số

khác lại phù hợp với dữ liệu chuỗi như văn bản hoặc âm nhạc, một số lại chỉ phù hợp với dữ liệu só, Nói tóm lại, tuỳ theo từng trường hợp, người xây dựng mô

hình học máy cần lựa chọn cho mình mô hình phù hợp với mục đích sử dụng để có

được kết quả tốt nhất.

Huấn luyện: được coi là bước quan trọng nhất vì trong bước này, tập dữ liệu con

đã được chia để thực hiện huấn luyện mô hình sẽ được sử dụng để từng bước cải thiện khả năng dự đoán của mô hình học máy.

Gia sử, công thức của một đường thang là y = mx + b, với x là giá trị đầu vào, m

là hệ số góc của đường đó, b là giao điểm của một hàm số với trục tung và y là giá trị của đường đó tại vị tri x Trong trường hợp của học máy, m sẽ đại diện cho các thuộc tính có trong một tập dữ liệu và tập hợp các giá trị m này sẽ tạo thành một ma trận, còn được gọi là trọng số (Weights) Tương tự với b, tập hợp các giá trị này

cũng tạo thành một ma trận là Biases.

18

Trang 31

'WEIGHTS =

BIASES = “bị

n."

Hình 2.5: Ma trận biéu diễn Weights và Biases

Quá trình huấn luyện bao gồm việc khởi tạo một số giá tri ngẫu nhiên cho Weights

va b, sau đó có gắng dự đoán dau ra với các giá trị đó Ban đầu, kết quả dự đoán của

mô hình này có thể rất kém Tuy nhiên, người xây dựng mô hình có thể so sánh các

dự đoán của mô hình đó với đầu ra đúng (đầu ra mà đáng lẽ mô hình phải dự đoán

được) dé điều chỉnh các giá trị trong Weights và b sao cho kết quả của những lần

dự đoán sau có thể chính xác hơn Quá trình điều chỉnh này sẽ được lặp đi lặp lại

như hình 2.6 và còn được gọi là một bước huấn luyện.

ngữ cảnh thực tế hay không.

19

Trang 32

Điều chỉnh thông số: là bước dé điều chỉnh các cấu hình mới cho thông số trước khi thực hiện huấn luyện lại mô hình một lần nữa nhằm cải thiện mô hình.

Nếu trong quá trình đánh giá, kết quả dự đoán của mô hình không tốt hoặc độ chính xác không đạt mức mong muốn, có thể đã có một số lỗi phát sinh như sau:

tập dữ liệu huấn luyện nhưng lại cho kết quả kém trên tập đữ liệu đánh giá Khi gặp trường hợp này, cách xử lý là thu thập thêm dữ liệu hoặc giảm độ

phức tạp của mô hình bằng cách loại bỏ đi một số layer.

trên cả tập dữ liệu huấn luyện lẫn tập dữ liệu đánh giá Khi gặp trường hợp này, cách xử lý là thu thập thêm dữ liệu hoặc tăng độ phức tạp của mô hình

bằng cách thêm một vài layer.

Dự đoán: là bước cuối cùng trong việc xây dựng mô hình học máy Ở bước này,

người xây dựng mô hình hoc máy có thé sử dụng mô hình của mình trong thực tế.

2.3 Học liên kết (Federated Learning)

Học liên kết là một phương pháp tiếp cận học máy cho phép các mô hình học máy nhận các cập nhật mô hình từ nhiều nguồn dữ liệu ở các vi trí khác nhau mà không cần phải chia sẻ dữ liệu huấn luyện Điều này cho phép dữ liệu cá nhân vẫn được giữ lại ở cục bộ, giảm thiểu khả năng vi phạm quyền bảo mật dữ liệu người dùng.

2.3.1 Quá trình huấn luyện trong học liên kết

Thay vì yêu cầu một tập dữ liệu thống nhất dé huấn luyện mô hình theo cách tập trung truyền thống, trong học liên kết, quá trình huấn luyện sẽ diễn ra ngay trên

chính các thiết bị có chứa tập dữ liệu (còn được gọi là huấn luyện cục bộ) Trước khi bắt đầu huấn luyện, tất cả các thiết bị sẽ cùng thống nhất một tập siêu tham số

20

Trang 33

(hyperparameters) như cau hình của mô hình và khởi tạo các trong số ngẫu nhiên cho mô hình khởi tạo Tại mỗi vòng huấn luyện, mô hình toàn cục hiện tại sẽ được gửi đến cho các thiết bị, sau đó, các thiết bị sẽ thực hiện tính toán cập nhật cho mô hình toàn cục này dựa việc huấn luyện cục bộ (huấn luyện trên chính tập dữ liệu mà thiết bị đó đang lưu trữ) và cho ra một mô hình cục bộ mới Mô hình toàn cục lúc

này có nhiệm vụ thu thập tất cả các mô hình cục bộ vừa mới được cập nhật, tổng

hợp chúng lần nữa và cho ra một mô hình toàn cục mới.

Qua quá trình huấn luyện trong học liên kết, có thé thay học liên kết có thể đảm bảo quyền bao mật dữ liệu vì các mô hình là thứ sẽ được trao đổi chứ không phải là tập

dữ liệu huấn luyện riêng biệt của các thiết bị Học liên kết còn cho phép tạo ra các

mô hình có độ chính xác cao hơn, độ trễ thấp hơn và tiêu thụ ít điện năng hơn so với

phương pháp huấn luyện truyền thống Ngoài ra, người dùng cũng có thể sử dụng

các mô hình đã được cập nhật ngay lập tức (từ mô hình toàn cục), mang lại trải

nghiệm cá nhân hoá theo ngữ cảnh sử dụng thiết bị của người dùng.

2.3.2 Tinh ứng dung trong thực tế

Các mô hình học liên kết có thể hoạt động với nhiều kỹ thuật học máy khác nhau,

nhưng quan trọng nhất vẫn là kiểu dữ liệu và ngữ cảnh mà nó được sử dụng Một số

ứng dụng tiềm năng của phương pháp học liên kết sẽ được trình bày cụ thể như sau:

e Xe tự lái: có thể sử dụng học liên kết để cung cấp trải nghiệm xe tự lái tốt

hơn và an toàn hơn với dữ liệu và dự đoán được đưa ra theo thời gian thực.

hành vi của người dùng từ nhóm dữ liệu của điện thoại thông minh mà không

làm rò ri dữ liệu cá nhân, chẳng hạn như dự đoán từ tiếp theo, nhận diện

khuôn mặt, nhận dạng giọng nói,

e_ Chăm sóc sức khoẻ: có thé sử dụng học liên kết để bảo vệ quyền bảo mật dữ

liệu của bệnh nhân Bằng cách này, các mô hình học tập liên kết có thể có

được nguồn cung cấp dữ liệu đa dạng đến từ nhiều bệnh viện hoặc cơ sở dữ

21

Trang 34

liệu hồ sơ sức khoẻ điện tử khác nhau, giúp nó có thé chan đoán các căn

bệnh một cách chính xác hơn, như hình 2.7.

X Community

« “A Hospital

tt Private Data

Federated Server Research

Global Model iat Private Data

a Cancer

f <Q Treatment Center

RNS

‘

nan Private Data À ñ)

Hình 2.7: Ứng dụng của học liên kết trong lĩnh vực chăm sóc sức khoẻ [15]

2.3.3 Lợi ích và khó khăn của phương pháp học liên kết

Một số lợi ích nỗi bật của phương pháp học liên kết có thé kể đến như sau:

e Bảo mật dữ liệu: bằng cách cho phép các thiết bị có thể huấn luyện bằng

chính tập dữ liệu mà nó đang lưu trữ (huấn luyện cục bộ).

¢ Dự đoán liên tục theo thời gian thực: bằng cách sử dụng mô hình đang có

trên thiết bị, mặc dù thiết bị đó đang không được kết nói Internet thì nó vẫn

có thé đưa ra các dự đoán ngay lập tức.

¢ Học liên tục theo thời gian thực: bằng cách cập nhật mô hình với dữ liệu mới

của người dùng trên thiết bi mà không cần tong hợp dữ liệu dé huấn luyện.

e _ Hiệu quả về phần cứng: bằng cách tận dụng phan cứng sẵn có trong các thiết

bị của người dùng mà không cần phải triển khai một máy chủ trung tâm phức

tạp đề phân tích dữ liệu.

22

Trang 35

Một số khó khăn mà phương pháp học liên kết phải đối mặt bao gồm:

Yêu cầu đầu tư cơ sở hạ tang: dé các mô hình học liên kết có thé giao tiếp

thường xuyên với các node Điều này đồng nghĩa với việc các hệ thống cần

phải có dung lượng lưu trữ lớn và băng thông cao.

Giới hạn về hiệu suất: bao gồm hai vấn đề cần phải quan tâm là việc dữ liệu hông đồng nhất và rò rỉ thông tin một cách gián tiếp Trong phương pháp

học liên kết, mô hình từ các thiết bị khác nhau sẽ được hợp nhất để xây dựng

một mô hình tốt hơn, tuy nhiên một vài thuộc tính cụ thể của thiết bị có thể làm hạn chế tính tổng quát của mô hình và làm giảm độ chính xác của mô hình tiếp theo Bên cạnh đó, các nhà nghiên cứu cũng đã xem xét đến tình

huống mà trong đó, một cá nhân có thé tan công ác ý bằng cách chèn một backdoor ẩn vào mô hình toàn cục.

Quyền riêng tu dit liệu: dé nâng cao khả năng đảm bảo quyền bảo mật dữ

liệu người dùng của phương pháp học liên kết Mặc dù chỉ có các mô hình

được trao đôi trong quá trình huấn luyện của phương pháp học liên kết, các

mô hình này vẫn có thé bị dịch ngược (reverse engineer) dé khai phá dữ liệu khách hàng Một số kỹ thuật như quyền riêng tư khác biệt (Differential

Privacy), tính toán đa bên an toàn (Secure Multiparty Computation) và mã

hoá đồng cấu (Homomorphic Encryption) có thể được sử dụng để đảm bảo quyền riêng tư dữ liệu người dùng.

2.4 Quyền riêng tư khác biệt (Differential Privacy)

Trong thế kỷ 21, nhiều vụ vi phạm dữ liệu lớn đã xảy ra khiến cho chính phủ và các

tổ chức phải xem xét về việc đảm bảo quyền riêng tư dữ liệu Theo Latanya

Sweeney (Giám đốc Phòng Thực nghiệm Differential Privacy tại Harvard), chỉ cần

có giới tính, ngày sinh và mã vùng là đã đủ dé xác định thông tin đại đa số người dân nước Mỹ Bằng cách liên kết các thuộc tính trên trong cơ sở dữ liệu chăm sóc sức khoẻ (được cho là ân danh), Latanya Sweeney đã có thé xác định được hồ sơ

Trang 36

sức khoẻ của Thống đốc bang Massachusetts của Mỹ [16] — chứng minh rằng điều

mà bà chỉ ra là hoàn toàn có thê thực hiện.

Quyền riêng tư khác biệt là một học thuyết cung cấp sự đảm bảo mang tính toán học

về quyền riêng tu di liệu của người dùng Mục đích chính của nó là làm giảm thiểuảnh hưởng của bất kỳ một đữ liệu đơn lẻ nào đến kết quả tông thể Trong bối cảnh

học liên kết, kỹ thuật quyền riêng tư khác biệt bảo đảm quyên riêng tư dit liệu củangười dùng bằng cách thêm cân thận các dữ liệu gây nhiễu đã được điều chỉnh (đặctrưng bởi chỉ số epsilon £) vào các mô hình trước khi chúng được gửi đến nơi tổnghợp Tuy nhiên, việc thêm nhiễu vào dữ liệu có thể làm giảm đi độ chính xác của

mô hình (mức độ riêng tư được đo băng epsilon và nó tỷ lệ nghịch với mức độ bảo

vệ quyên riêng tư) Điều đó nghĩa là, giá trị epsilon càng cao thi mức độ bảo vệ dữliệu càng thấp và khả năng làm lộ thông tin người dùng càng cao Do đó, đây là một

sự đánh đôi giữa độ chính xác của mô hình và quyên riêng tư dữ liệu cá nhân.

2.5 Săn tìm mối đe doa (Threat — hunting)

Có vẻ như công việc của những chuyên gia an ninh mang dường như không bao giờ

ngơi nghỉ Nghiên cứu của đại hoc Maryland định lượng tốc độ trung bình để kẻ tan

công thực hiện một cuộc tấn công là 39 giây [17] Điều này cho thấy rằng khi quátrình số hoá ngày càng tăng cũng là lúc các tội phạm mạng liên tục tìm ra những

phương thức mới dé khai thác điểm yếu trong cơ sở hạ tang công nghệ thông tin của

tổ chức Trong bối cảnh không thê đoán trước, liệu rằng một tổ chức có thể đón đầu

về xu hướng an ninh mạng sắp tới hay không, câu trả lời là có.

Khi nói đên “đón đâu”, một trong những chìa khoá đê đảm bảo an ninh mạng chính

là sự chủ động, thay vì chỉ phản ứng khi xảy ra sự cô bảo mật, một tô chức hoàn toàn có thê chủ động tìm kiêm và phát hiện ra sự hiện diện của kẻ tân công trong môi trường mang — hành vi chủ động này còn được gọi là săn tìm môi de doa.

24

Trang 37

Cu thé hơn, săn tìm mối de doa được định nghĩa là quá trình chủ động phân tích dé

tìm hiểu các loại chiến thuật, kỹ thuật và quy trình (tactics, techniques, and

procedures) khác nhau mà kẻ tan công sử dụng trong thé giới kỹ thuật số, từ đó giúp

các tổ chức có thé xác định được lỗ hồng trong hệ thống an ninh mạng Dé làmđược điều này, thông tin tình báo mối đe doạ (Threat Intelligence) đóng vai trò rấtquan trọng trong bất kỳ hệ sinh thái an ninh mạng nào bởi nó được xây dựng dựa

trên bằng chứng, bao gồm cả bối cảnh, cơ chế, chỉ số, chỉ thị và lời khuyên địnhhướng hành động về mối de doa đã có hoặc mới xuất hiện [18]; giúp cho các tô

chức có thé đề xuất phương pháp để giải quyết sự cô đang xảy ra cũng như củng cố

tình trạng an ninh mạng đê tránh các cuộc tân công bât ngờ.

2.5.1 Phân tích Kill Chain

Kill Chain là một chuỗi các bước theo dõi giai đoạn của một cuộc tấn công mạng,được tính từ giai đoạn thu thập thông tin cho đến khi thực hiện đánh cắp dữ liệuthành công Nói cách khác, Kill Chain cung cấp cho các tổ chức cái nhìn toàn diện

về quá trình tan công dé xây dựng hệ thống phòng thủ, bởi vi Kill Chain là các bước

mà kẻ tấn công bắt buộc phải tuân theo Từ góc nhìn của người xây dựng hệ thốngphòng thủ, có thê biết trước răng kẻ tấn công sẽ không thể bỏ qua bất kỳ bước nàotrong chuỗi Kill Chain, từ đó, có thé ngăn chặn bat kỳ hành động tan công nào của

chúng vào tô chức dé có thê bảo vệ an toàn dir liệu.

Lockheed Martin Cyber Kill ChainTM và MITRE’s ATT&CKTM là hai khung

(framework) nổi tiếng về các loại chiến thuật, kỹ thuật và quy trình của kẻ tan côngdựa trên ngữ cảnh thực tế Tat cả thông tin thu được (có liên quan đến các cuộc tancông) sẽ được trình bày băng nhiều ma trận khác nhau, chăng hạn như ma trận dành

cho doanh nghiệp (Enterprise) và ma trận dành cho di động (Mobile) Bảng này sẽ

bao gồm các chiến thuật khác nhau và mỗi chiến thuật được chia thành các kỹ thuật

cụ thé tương ứng với từng loại tan công Ngoài ra còn có các thông tin chi tiết khác

25

Trang 38

về kỹ thuật tấn công đó, ví dụ như tài liệu tham khảo và các giải pháp được đề xuất

để giảm thiểu hoặc phát hiện mối de doa

Credential Defense Evasion 'Access

ishing Audio Capture

Automated

Communication

‘Through Removable Media

Hinh 2.8: MITRE ATT&CKTM danh cho doanh nghiép, nam 2020 [19]

2.5.2 Phan tích xâm nhập với mô hình kim cương (Diamond Model)

Mô hình kim cương [20] thu thập các yếu tố cơ bản từ các hoạt động xâm nhập, baogồm bốn đặc điểm chính là kẻ tan công, cơ sở hạ tầng, khả năng tan công và nạn

nhân Các đặc điểm này sau đó sẽ được kết nối với nhau đề thé hiện mối quan hệ cơ

bản giữa chúng và được sắp xếp theo hình dạng của một viên kim cương, đó cũng là

lý do vì sao nó được đặt tên là mô hình kim cương.

Khen uu Adversary

Result Direction Methodology Resources

Infrastructure Capability

Victim

Hình 2.9: Mô hình kim cương [21]

26

Trang 39

Mô hình kim cương cung cấp thông tin tình báo mối đe doạ tập trung cho việc săn tìm mối đe doạ Mỗi đỉnh của kim cương đại điện cho một chiến thuật, kỹ thuật và quy trình của kẻ tan công.

2.5.3 Mô hình săn tim mối de doa

Một mô hình săn tìm mối đe doạ cơ bản bao gồm sáu giai đoạn là mục đích (Purpose), phạm vi (Scope), trang bị (Equip), đánh giá kế hoạch (Plan Review), thực thi (Execute) và cuối cùng là giai đoạn phản hồi (Feedback) Các cuộc săn tìm

mối đe doạ thường được diễn ra theo chu kỳ để đảm bảo rằng các kết quả cũng như

bài học kinh nghiệm từ những cuộc đi săn trước đây có thé đóng góp dé phát triển các cuộc săn tìm môi de doa trong tương lai Chu kỳ săn tìm mối de doa bao gồm sáu bước sẽ được thực hiện tuần tự như sau:

này, cần phải xác định được mục đích và kết quả mong muốn của việc săn

tìm mối đe doa.

e Pham vi: là giai đoạn xác định phạm vi thực hiện cuộc săn tim mối đe doa,

bao gồm cả việc phát triển một kế hoạch chỉ tiết về nơi thu thập dữ liệu cũng như phát triển các giả thuyết (còn có thé hiểu là các câu hỏi cần phải tìm ra câu trả lời như có mã độc hay không, có ngăn chặn được chưa, những nơi nao đã bị ảnh hưởng bởi mã độc, ).

e Trang bị: là giai đoạn tập trung vào việc tim hiểu chi tiết để hiểu rõ hơn về

đặc thù của các loại tắn công bằng cách sử dụng dữ liệu (từ nguồn thông tin tình báo mối đe doa) và các công cụ kỹ thuật để phân tích; từ đó đưa ra câu trả lời cho các giả thuyết đã đề ra ở giai đoạn trước.

¢ Đánh giá kế hoạch: là giai đoạn đảm bảo các giả thuyết và phạm vi của cuộc

săn tìm mối đe doạ đáp ứng được mục đích ban đầu của cuộc săn tìm.

27

Trang 40

e Thực thi: là giai đoạn triển khai kế hoạch sau khi nó đã được phê duyệt, cuộc

đi săn thật sự lúc này sẽ diễn ra và “kẻ đi săn” sẽ thu thập và phân tích dit

liệu dựa trên các giả thuyết đã đề ra ở giai đoạn trước.

này, toàn bộ chu kỳ của cuộc săn tìm sẽ được đánh giá tông quan dé tìm ra những ưu điểm có thé phát triển trong những lần săn tìm tiếp theo.

FEEDBACK

ent well?

be

Hình 2.10: Mô hình săn tim mối de doa bao gồm 6 giai đoạn [21]

2.6 Mạng kha lập trình (Software — defined Networking)

Mang khả lập trình là một kiểu kiến trúc mang mới cho phép kiến trúc mạng có thé được lập trình dựa trên việc phân tách luồng đữ liệu (Data Plane) và luồng điều

khiển (Control Plane) Bằng cách này, mạng khả lập trình cho phép bộ điều khiển mạng (Controller) có thể được lập trình trực tiếp và cơ sở hạ tầng cơ bản được trừu

tượng hoá cho các ứng dụng và dịch vụ mạng Mục tiêu chính của mạng khả lập trình là cải thiện khả năng kiểm soát mạng bằng cách cho phép quản trị viên có khả

28

Tiêu đề	Phương pháp học liên kết cho dịch vụ săn tìm mối đe dọa trong mạng khả lập trình
Tác giả	Trần Công Phát, Dương Mai Phương
Người hướng dẫn	TS Phạm Văn Hậu, THS Phan Thế Duy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	An toàn thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	93
Dung lượng	43,09 MB