Nhiều công trình nghiên cứu đã áp dụng phương pháp học máy để tìm kiếm các mối đe doạ, nhưng yêu cầu về một tập dữ liệu chất lượng cao từ các bên tham gia huấn luyện mô hình học máy lại
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG
TRAN CONG PHAT
DUONG MAI PHUONG
KHOA LUAN TOT NGHIEP PHUONG PHAP HOC LIEN KET CHO DICH VU SAN TIM MOI DE DOA TRONG MANG KHA LAP TRINH
FEDERATED LEARNING APPROACH FOR THREAT —
HUNTING SERVICES IN SDN
KY SƯ NGANH AN TOAN THONG TIN
TP HO CHÍ MINH, NĂM 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
KHOA MANG MAY TINH VA TRUYEN THONG
TRAN CONG PHAT - 18521234
DUONG MAI PHUONG - 18520132
KHOA LUAN TOT NGHIEP
PHUONG PHAP HOC LIEN KET CHO DICH VU SAN TIM MOI DE DOA TRONG MANG KHA LAP TRINH
FEDERATED LEARNING APPROACH FOR THREAT —
HUNTING SERVICES IN SDN
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
TS PHAM VAN HAU
THS PHAN THE DUY
TP HO CHÍ MINH, NAM 2022
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
Ti8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4Nhóm cũng xin gửi lời cảm ơn sâu sắc nhất đến thạc sĩ Phan Thế Duy — giảng viên
hướng dẫn của nhóm — người đã hướng dẫn tận tình và giúp đỡ nhóm hoàn thành khoá luận tốt nghiệp Với kiến thức chuyên môn sâu rộng và sự yêu nghề, thay đã giúp nhóm chúng em có cơ hội tìm hiểu về những tri thức mới trong lĩnh vực công
nghệ thông tin nói chung và an toàn thông tin nói riêng.
Ngoài ra, nhóm xin cảm ơn gia đình đã luôn ủng hộ về cả sức mạnh tinh thần và vật chất, những người đã luôn bên cạnh động viên và khuyến khích nhóm hoàn thành
khoá luận tốt nghiệp Cuối cùng, sẽ thật thiếu sót nếu không gửi lời cảm ơn đến các anh chị, bạn bè khoa Mạng Máy tính và Truyền thông đã nhiệt tình hỗ trợ cũng như
giúp đỡ để nhóm có thể đạt được những kết quả tốt nhất.
Mặc dù đã cố gắng hết sức trong quá trình làm khoá luận tốt nghiệp, nhưng chắc
chắn rằng nhóm sẽ không thể tránh khỏi những sai sót do bản thân vẫn còn nhiều
hạn chế về kiến thức chuyên môn cũng như những kinh nghiệm thực tiễn Chúng
em kính mong nhận được sự thông cảm và những lời góp ý quý báu từ quý thầy cô
để có thé hoàn thiện bản thân minh hơn nữa.
Xin chân thành cảm ơn.
Thành phó Hồ Chí Minh, ngày 10 tháng 01 năm 2022
Trang 5MỤC LỤC
Chương 1 TÔNG QUAN ccc2ctt2rttHhHhrrrrrrrrrre 2
1.1 Giới thiệu bài toán -c- + St nén 2 1.2 Các nghiên cứu liên quan
1.2.1 Bảo mật mang khả lập trình -¿-¿-< +sxs£vsseeeekeerrkrree 3
1.2.2 Dịch vụ cộng tác săn tìm mối đe doa dựa trên học liên kết và kiến trúc dịch vụ vi mô
1.2.3 Giải pháp đảm bảo quyền riêng tư dữ liệu trong học liên kết 6 1.2.4 Giải pháp giảm thiểu chi phí và thời gian truyền thông liên lac trong học liên kết
1.3 Tính ứng dụng trong thực (Ê ¿+ St sevekErkrkrkrererrkerke 7 1.4 Những thách thức.
1.5 Mục tiêu, đối tượng và phạm vi nghiên cứu -+-5- 5c =+<s+s+sz++ 7
1.5.1 Mục tiêu nghiên cứu.
1.5.2 Đối tượng và phạm vi nghiên cứu .-: +z+2vsc++2czsscce2 8 1.6 Cấu trúc khoá luận tốt nghiệp
Chương2 CƠ SỞ LÝ THUYÉT -22++++222Evvvvvrrrrrrrrrrrer 10
2.1 Học máy (Machine Learning) và học sâu (Deep Learning) 10
2.1.1 biên 0) II 2.1.2 HOC MAY Sàn HH HH rệt 12 2.1.3 HOC SAU 0 °ÖЩ›› 14 2.2 Học máy và các bước xây dựng một mô hình học máy - 17
2.3 Học liên kết (Federated Learning) ‹-¿-¿ ¿5+5 + s*£tstekeerrerersee 20
Trang 62.3.1 Quá trình huấn luyện trong học liên kết cc:+cssc++ 20 2.3.2 _ Tính ứng dụng trong thực tế
2.3.3 Lợi ích và khó khăn của phương pháp học liên kết - 22 2.4 Quyền riêng tư khác biệt (Differential Privacy)
2.5 Săn tìm mối de doa (Threat — hunting) ¿-z+22s++z+22vscczrx 24
2.5.1 _ Phân tích Kill Chain.
2.5.2 _ Phân tích xâm nhập với mô hình kim cương (Diamond Model) 26
2.5.3 Mô hình săn tìm mối đe doa
2.6 Mạng khả lập trình (Software — defined Networking) - 28
2.6.1 Sự khác biệt giữa mạng khả lập trình và mạng truyền thống 29 2.6.2 Kiến trúc của mạng khả lập trình - ¿-cz+2sccz+ccsscee 30 2.6.3 Nguyên tắc hoạt động của mạng khả lập trình - 31
2.6.4 Lợi ích và khó khăn của giải pháp mạng khả lập trình 32 2.6.5 Giao thức OpenlFÏOW cccccxsseereerereieieeere.22 2.7 Điện toán biên di động (Mobile Edge Computing) - - -‹-+<«= 33 2.7.1 Sự khác biệt giữa điện toán biên và điện toán đám mây 35 2.7.2 Tính ứng dụng trong thực tẾ -c++++222vvvccree+rrrz 36
2.7.3 Loi ích và khó khăn của điện toán biên di động 37 2.8 Dịch vụ vi mô (MiCTOS€TVIC€S) (2c S332 EvEeErrrrrrksrvrkrrrrresvee 38
2.8.1 Mô tả kiến trúc của dịch Vụ Vi mÔ «55+ S+c+sxsterererrrkekrree 39 2.8.2 Lợi ích và khó khăn của kiến trúc dịch vụ vi mô - 40
Chuong3 PHƯƠNG PHÁP NGHIÊN CỨU - 2¿+2222+zc+cczxsce2 4I 3.1 Dich vụ săn tìm mối đe doa dựa trên học sâu liên kết nhiều tầng trong mạng
khả lập trình - - - 5522222 t2 221212321 121121211101.1111212 0101212 0111 gu 41
Trang 73.2 Mô hình học sâu liên kết nhiều tằng ¿-+z¿+22++ze+cvzvzeerrz 42 3.2.1 Tổng quan về mô hình học sâu liên kết nhiều tầng.
3.2.2 Luồng hoạt động của mô hình khi có sử dụng kỹ thuật quyền riêng tư
khác biệt 43
3.2.3 Thuật toán huấn luyện học sâu liên kết có sử dụng kỹ thuật quyền riêng tư khác biệt .44 3.3 Mô hình học sâu đề xuất cho dịch vụ săn tìm mối đe đoạ - 45
3.3.1 Deep Neural Network (DNN)
3.3.2 Long Short Term Memory (LSTM) - c5 ©+55+c+c+c<++ 46 3.4 Mô hình mang khả lập trình
Chương 4 THỰC NGHIEM VÀ ĐÁNH GIA c-:-cccc+ccssce2 48
4.1 Môi trường thực nghiệm.
4.1.1 Cấu hình cccccceccrrvrrrrrrrrrrrrrrrrererrrreg 48 4.1.2 Xây dựng hệ thống học liên kết nhiều tang
4.1.3 Xây dựng mạng khả lập trình - +cs+++c+ceesrecee 50 4.2 Kịch bản thực nghiệm - 5-5522 ‡ESEStzkeEEkerrrrkrrerrrrrree 53 4.3 Giới thiệu tập dữ liệu - 6 LH ưn 53
A.A, Dac ta tp ddr an cddd4Ạ5 55
4.5 Tiền xử lý tập dữ GU o cccsssssssssssssssessseesssssssssseccesssssssssssssssnsnnnenseeeeesseeeee 57
4.6 Tiêu chí đánh giá ch nghe 60 4.7 Kết quả thực nghiệm 2-©22+2++22EE2EEEEEEEEtEEEEEEErEEErkrrrrrrkrrrerrkii 61
4.7.1 M6 hinh 0900 61 4.7.2 Mô hình LSTM - c6 SStéttsterererkerirrrrerrrkerrrerrrrii 66
4.7.3 Đánh giá chỉ phí truyền thông liên lạc - 69
Trang 84.7.4 Triển khai dịch vụ săn tìm mối đe doạ trong mạng khả lập trình từ
mô hình học sâu liên kết nhiều tầng - 2-2-2 ££++£+£E++£++zx+rxezse2 73Chương 5 KET LUẬN -: -¿©2++2++2c+2Exvrreerkesrxrrrrees 75
Trang 9DANH MỤC HÌNH
Hình 1.1: Sơ đồ hệ thống được đề xuất của mơ hình săn tìm mối de doa [5] 5
Hình 2.1: Mối quan hệ giữa trí tuệ nhân tao, học máy và học sâu - - 10
Ig01:8/28)/Eì:150i1àiir) 0 15
Hình 2.3: Mơ hình hồi quy tuyến tính cĩ ba thuộc tính đầu vào 15
Hình 2.4: Giá trị của đạo hàm và vi trí tại điểm đĩ so với điểm cực tiều 16
Hình 2.5: Ma trận biểu diễn Weights và Biases ¿ ¿©czcccccccsrsrrssree 19 Hình 2.6: Sơ đồ huấn luyện mơ hình ¿- ¿2£ ©5++x++£x+2E++£x++rxvzrxerxecree 19 Hinh 2.7: Ung dung cua hoc lién két trong lĩnh vực chăm sĩc sức khoẻ [15] 22
Hình 2.8: MITRE ATT&CKTM dành cho doanh nghiệp, năm 2020 [19] 26
Hình 2.9: Mơ hình kim cương [21] - ¿- 5+ 25+ +22 + + *+2E+vEEeeseereeerreereerererrre 26 Hình 2.10: Mơ hình săn tìm mối đe doạ bao gồm 6 giai đoạn [2I] 28
Hình 2.11: Sự khác biệt giữa mạng khả lập trình và mạng truyền thống 29
Hình 2.12: Kiến trúc của mạng khả lập trình 2 s¿+++++2x++zx++zxzxeerxs 3l Hình 2.13: Thành phần của OpenFlow Switch 2+ 222 x+£x+zEezzx+rxsrxcrez 33 Hình 2.14: Mơ hình hoạt động của điện tốn biên trong mạng lưới của đám mây 35
Hình 2.15: Hình minh hoạ phần mềm được xây dựng theo kiến trúc một khối 38
Hình 2.16: Hình minh hoạ phần mềm được xây dựng theo kiến trúc dịch vụ vi mơ38 Hình 2.17: Kiến trúc dich vụ vi mơ bao gồm nhiều thành phan nhỏ 39
Hình 3.1: Cau trúc dịch vụ săn tìm mối de doa dựa trên học sâu liên kết nhiều tang trong mạng khả lập trình được đề xuất 2- ¿2© +£+x++zx+tx+erxezrxesrseee 41 Hình 3.2: Mơ hình hoc sâu liên kết nhiều tang được dé xuat - 42
Hình 3.3: Mơ hình DNN được dé xuất c2 thue 46 Hình 3.4: Mơ hình LSTM được để xuẤt - 5555cc2trttttirrrrriirrerriie 47 Hình 4.1: Dia chi IP máy ONOS ControÏÏ€T - - c5 3+ +seseeeeserseesrs 50 Hình 4.2: Mơ phỏng mang khả lập trình - 5 55 5111 HH ng trên 52 Hình 4.3: Kết quả mơ phỏng mang khả lập trình với Controller -. - 52
Hình 4.4: Kiến trúc thử nghiệm [22] - 2 2 ¿5£ +E+EE+EE+EE£EE£EE£EEEerEerxerxrrsrree 54
Trang 10Hình 4.5: Phân bố nhãn tập LDAP trong tập 03-11 CIC — DDoS2019 58
Hình 4.6: Phân bố nhãn tap SYN trong tập 03-11 CIC — DDoS2019 58
Hình 4.7: Phân bố nhãn sau khi tiền xử lý dữ liệu tap LDAP của tap dit liệu 03-11 CIC — DDoS/20119 á 1 29T HH HH HT TH HH Hư HT ngà 60 Hình 4.8: Phân bố nhãn sau khi tiền xử lý dữ liệu tập SYN của tập dit liệu 03-11 CIC 0909 /2060ẺNẽẽ 60
Hình 4.9: Sơ đồ quy trình bắt lưu lượng mạng giữa các máy docker trong Containernet để sử dụng cho việc phân loại lưu lượng bình thường và độc hai 73
Hình 4.10: Kết quả phân loại lưu lượng với 100% mẫu tan công 74
Hình 4.11: Kết quả phân loại lưu lượng với 100% mẫu lành tính 74
Hình 4.12: Kết quả phân loại lưu lượng với cả hai mẫu lưu lượng 74
Trang 11Bảng 2.1:
Bảng 2.2:
Bảng 2.3:
Bảng 4.1:
Bảng 4.2:
Bảng 4.3:
Bảng 4.4:
Bảng 4.5:
Bảng 4.6:
Bảng 4.7:
Bảng 4.8:
Bảng 4.9:
Bảng 4.10
Bảng 4.11
Bảng 4.12:
Bảng 4.13:
Bảng 4.14:
Bảng 4.15:
Bảng 4.16:
Bảng 4.17:
Bảng 4.18:
Bảng 4.19:
Bảng 4.20:
DANH MỤC BANG
Ví dụ về bài toán hồi quy trong học có giám sát - 2-5 5+: 13
Sự khác biệt giữa mạng khả lập trình và mạng truyền thống 30
Sự khác biệt giữa điện toán biên và điện toán đám mây - 36
Số lượng mẫu của mỗi nhãn trong tập 01-12 CIC — DDoS§2019 55
Số lượng mẫu của mỗi nhãn trong tập 03-11 CIC - DDoS2019 56
Định nghĩa toán học của các tiêu chí đánh giá mô hình 61
Kết qua huấn luyện mô hình FL trên tập dit liệu LDAP - 62
Kết quả huấn luyện mô hình FL trên tập dit liệu SYN - 63
Kết quả huấn luyện mô hình FL + DP trên tap dit liệu LDAP 63
Kết quả huấn luyện mô hình FL + DP trên tập dữ liệu SYN 64
Kết quả huấn luyện mô hình HybridFL trên tập dữ liệu LDAP 64
Kết quả huấn luyện mô hình HybridFL trên tập dữ liệu SYN 65
: Kết quả huấn luyện mô hình HybridFL + DP trên tập dữ liệu LDAP 65
: Kết quả huấn luyện mô hình HybridFL + DP trên tập dữ liệu SYN 65
Kết quả huấn luyện mô hình FL trên tập dữ liệu LDAP 66
Kết quả huấn luyện mô hình FL trên tập dữ liệu SYN 66
Kết quả huấn luyện mô hình FL + DP trên tập dit liệu LDAP 67
Kết quả huấn luyện mô hình FL + DP trên tập dit liệu SYN 67
Kết quả huấn luyện mô hình HybridFL trên tập dữ liệu LDAP 67
Kết quả huấn luyện mô hình HybridFL trên tập dit liệu SYN 67
Kết qua huấn luyện mô hình HybridFL + DP trên tập dữ liệu LDAP 68
Kết quả huấn luyện mô hình HybridFL + DP trên tập dữ liệu SYN 68 Đánh giá chi phí truyền thông liên lạc -2- 2-2 52©52+£z+£e+£xzzse2 71
Trang 12DANH MỤC TU VIET TAT
DDoS Distributed Denial of Service
DNN Deep Neural Network
FN False Negative
FP False Positive
HoT Industrial Internet of Things
IoT Internet of Things
LSTM Long Short Term Memory
RNN Recurrent Neural Network
SDN Software — defined Networking TCP Transmission Control Protocol
TN True Negative
TP True Positive
UDP User Datagram Protocol
Trang 13TÓM TÁT KHÓA LUẬN
Ngày nay, mạng khả lập trình đã trở thành một lựa chọn phổ biến cho mục đích triển khai ứng dụng của các tổ chức Mạng khả lập trình giúp cho các tô chức có thé triển khai các ứng dụng nhanh hơn cũng như giảm thiểu phần lớn chỉ phí triển khai.
Tuy vậy, trải qua nhiều năm ứng dụng và phát triển, các tổ chức nhận ra rằng vẫn
còn một van dé cần phải quan tâm hơn nữa — làm thé nào dé bảo vệ hệ thống mạng
và các thiết bị có trong mạng khả lập trình Nhiều hệ thống tìm kiếm và phát hiện
xâm nhập đã được triển khai dé giám sát lưu lượng mạng, tuy nhiên, khi số lượng người dùng và thiết bị ngày càng tăng, các hệ thống này cũng phải chịu áp lực nhiều
hon trong việc thu thập và xử ly dữ liệu Mặt khác, các cuộc tan công ngày một tinh
vi khiến cho hệ thống tìm kiếm và phát hiện xâm nhập dựa trên dấu hiệu khó có thể phát hiện ra chúng Nhiều công trình nghiên cứu đã áp dụng phương pháp học máy
để tìm kiếm các mối đe doạ, nhưng yêu cầu về một tập dữ liệu chất lượng cao từ các bên tham gia huấn luyện mô hình học máy lại gặp phải những rắc rối nhất định về
bảo mật dữ liệu riêng tư của các bên tham gia Chính vì thế, phương pháp học liên kết đã ra đời dé giải quyết vấn đề trên Đối với học liên kết, các bên tham gia sẽ
không cần phải chia sẻ dữ liệu cá nhân của mình nữa mà họ có thể tự huấn luyện
mô hình ngay tại các thiết bị, giúp giảm lượng điện năng tiêu thụ và bảo mật dữ liệu
cá nhân Bên cạnh đó, để bảo vệ dữ liệu trong quá trình huấn luyện mô hình học
liên kết, kỹ thuật quyền riêng tư khác biệt cũng được sử dụng để góp phần đảm bảo quyền riêng tư dữ liệu của các bên tham gia Ngoài ra, dé tiết kiệm thời gian cũng
như chỉ phí truyền thông liên lạc, mô hình học liên kết sẽ được triển khai theo kiến trúc của điện toán biên di động Cụ thé, trong khoá luận này, nhóm sẽ triển khai một
mô hình học liên kết nhiều tang, trong đó có sử dụng kỹ thuật quyền riêng tư khác biệt để góp phần đảm bảo quyền riêng tư dữ liệu của người dùng, và thực hiện nghiên cứu thực nghiệm cách tiếp cận áp dụng phương pháp học liên kết trong bài
toán phát hiện xâm nhập mạng trong ngữ cảnh mạng khả lập trình.
Trang 14Chuong 1 TONG QUAN
Tóm tắt
Trong chương này, nhóm xin trình bày tóm tắt về bài toán săn tìm mối de doa trong
mạng khả lập trình dựa trên phương pháp học liên kết, các nghiên cứu liên quan, các ứng dụng trong thực tế và thách thức mà bài toán đang gặp phải Đồng thời đưa
ra mục tiêu, đối tượng và phạm vi nghiên cứu cũng như cấu trúc của khoá luận.
1.1 Giới thiệu bài toán
Ngày nay, mạng khả lập trình trở thành một kiến trúc lý tưởng cho các hoạt động
cần băng thông cao và linh động nhờ vào các ưu điểm như dễ dàng quản lý và mở rộng, tiết kiệm chỉ phí triển khai và vận hành, Tuy nhiên, những thách thức về
bảo mật mạng khả lập trình trở nên đáng lo ngại hơn khi mà việc triển khai nó mang lại những lỗ hong nghiêm trọng Dé giải quyết van đề đó, các hệ thống săn tìm mối
đe doa đã được triển khai trong mạng khả lập trình dé phát hiện các mối đe doa tiềm
an có trong mạng Thế nhưng các cuộc tan công luôn phát triển mỗi ngày, chúng trở
nên khó lường trước và tỉnh vi hơn rất nhiều khiến cho các hệ thống phát hiện xâm
nhập dựa vào dau hiệu không còn hiệu quả, thay vào đó, các hệ thống phát hiện xâm nhập dựa trên học máy thường được sử dụng để có thể phát hiện được các hành vi
bất thường Và dé có được nguồn dữ liệu chất lượng cho các phương pháp học máy hiện đại, sự đóng góp dữ liệu từ các tổ chức tham gia vào mô hình là vô cùng cần
thiết Tuy vậy, hiện nay dữ liệu thường được phân tán và lưu trữ cần thận ngay tại
tổ chức do những quan ngại về tính bảo mật và quyền riêng tư dữ liệu.
Sự xuất hiện của phương pháp học liên kết chính là chìa khoá dé giải quyết vấn đề
trên khi nó cho phép các tô chức không cần phải chia sẻ dữ liệu cá nhân của mình
mà vẫn có thể tham gia đóng góp mô hình dé nâng cao độ chính xác trong việc phát
Trang 15hiện các mối đe doạ Cần lưu ý rằng việc trao đổi các mô hình cục bộ vẫn có rủi ro
tiết lộ thông tin về dữ liệu ban đầu, do đó đặt ra một nhu cầu mới là cần phải bảo vệ
cả quá trình cập nhật mô hình cục bộ dé tránh việc dịch ngược khai phá dữ liệu Mặt
khác, tốc độ hội tụ của mô hình toàn cục là khá chậm do phải chờ đợi các bên thamgia cập nhật đầy đủ các mô hình cục bộ rồi mới tiếp tục huấn luyện, đây cũng làmột vấn đề mà phương pháp học liên kết cần phải giải quyết
Chính vì vậy, khoá luận này sẽ tập trung vào việc nghiên cứu phương pháp học sâu
liên kết cho việc xây dựng cộng tác dịch vụ săn tìm mối đe doạ trong mạng khả lập
trình Hệ thống nay sẽ được vận hành dựa trên các dịch vụ vi mô và áp dung kỹ
thuật quyền riêng tư khác biệt trong quá trình huấn luyện dé đảm bảo quyền riêng tư
dữ liệu của người dùng Ngoài ra, phương pháp học sâu liên kết sẽ được triển khainhiều tầng dé giảm tải chi phí và thời gian truyền thông liên lạc của hệ thống cũngnhư đưa quá trình xử lý dữ liệu đến gần hơn với nguồn dữ liệu giúp tăng tốc độ hội
tụ của mô hình toàn cục.
1.2 Các nghiên cứu liên quan
1.2.1 Bảo mật mạng khả lập trình
Sự phát triển của xu hướng tập trung hóa và ảo hóa kéo theo yêu cầu về một nền
tảng có khả năng đảm bảo an toàn, 6n định và có thé mở rộng quy mô Mặt khác,khi các hệ thống mạng phát triển phức tạp hơn với các dịch vụ đám mây và cơ sở hạtầng khác nhau, mạng kha lập trình (Software — defined Networking) được xem như
là một giải pháp nhằm cung cấp khả năng kiểm soát tập trung và mở rộng cho các tôchức lớn Mạng khả lập trình giúp đơn giản hóa công việc quản lý mạng bằng cách
phân tách luồng dữ liệu (Data Plane) và luồng điều khiển (Control Plane), cho phép
bộ điều khiến mạng có thể được lập trình trực tiếp và cơ sở hạ tầng cơ bản được
trừu tượng hóa cho các ứng dụng và dịch vụ mạng.
Trang 16Cùng với sự phát triển mạnh mẽ của mạng khả lập trình, người ta không chỉ quan
tâm đến những lợi ích nó mang lại mà còn quan tâm liệu răng các giải pháp bảo mật
hiện tại có đủ để bảo vệ mô hình mạng này hay không, khi mà việc ảo hóa mạng
dẫn đến nhiều mối nguy hiểm mới cần phải được tìm hiểu và có chiến lược bảo vệphù hợp đề hạn chế tối đa những rủi ro có thê xảy ra [1]
1.2.2 Dịch vụ cộng tác săn tìm mối de doa dựa trên học liên kết và
kiên trúc dịch vụ vi mô
Dé đối phó với những van đề bảo mật ngày càng nguy hiểm và phức tap, các
chuyên gia đã nghiên cứu về việc phát triển một nền tảng có thể phát hiện các mối
đe dọa theo thời gian thực áp dụng phương pháp học máy (Machine Learning) [2].
Các nghiên cứu khoa học cũng chỉ ra rằng học máy là một phương pháp khả quantrong việc phát triển thông tin tình báo mối de doa (Threat Intelligence) dé săn tìmcác mối đe dọa trong mạng khả lập trình [3] Mặt khác, xu hướng thiết kế phân tán
của thị trường vạn vật kết nối Internet dẫn đến việc chia nhỏ các hệ thống phức tạpthành các dịch vụ vi mô (mieroservices) và thiết kế ảo hoá mang lại khả năng triểnkhai và mở rộng tối ưu (đã được kiểm chứng bởi các tập đoàn công nghệ tiên phong
như Amazon, Tesla và Google [4]), làm cho dịch vụ vi mô trở thành một trong
những giải pháp hàng đầu trong việc phát triển dịch vụ săn tìm mối đe doạ phi tập
trung trong mạng khả lập trình.
Sơ đồ hình 1.1 sẽ chỉ ra mô hình hệ thống được đề xuất dé săn tìm mối đe doa dựatrên dịch vụ vi mô, trong đó các mô hình săn tìm mối đe dọa được triển khai cục bộ
tại máy chủ biên đã được ảo hoá (Edge Tier), và mô hình toàn cục (Global Model)
được triển khai đồng bộ tại máy chủ đám mây (Cloud Tier) Cả Edge Tier, CloudTier và các ứng dụng độc lập (agent) đều giao tiếp thông qua mạng lưới vạn vật kết
nối Internet (Internet of Things) băng cách sử dụng kết hợp các công nghệ truyềnthông và giao thức truyền tin khác nhau [5]
Trang 17Cloud Tier
* Initialization
*® Parameter aggregation
* Global update
* Final model broadcast
Service Manager Resource Manager
Edge Tier (containerized)
* Local Deep-TH training
ee ee ee ee a eee eee s Send local updates
© Get global updates
Hình 1.1: Sơ đồ hệ thống được đề xuất của mô hình săn tìm mối de doa [5]
Quay trở lại với van đề áp dung phương pháp học máy vào việc phát hiện các mối
đe doạ, hầu hết các nghiên cứu hiện nay đều giả định rằng các mô hình học máy sẽđược huấn luyện tập trung với đữ liệu được lay từ các thiết bị đầu cuối không đồngnhất [6] [7] Tuy nhiên, khi các tô chức muốn mở rộng mô hình mang và gia tang sỐlượng các thiết bị đầu cuối, việc thu thập dữ liệu một cách tập trung như vậy sẽ gây
ra độ trễ lớn trong việc truyền tải dữ liệu cũng như khiến cho dit liệu dễ bị tan công
hơn Dé làm giảm áp lực trong việc thu thập và xử lý dữ liệu, phương pháp học liên
kết (Federated Learning) được sử dung để giúp các mô hình học máy có thể huấnluyện một cách phân tán, tức là huấn luyện trực tiếp tại các thiết bị (còn được gọi làhuấn luyện cục bộ) thay vì huấn luyện tập trung tại máy chủ như trước Đối với họcliên kết, các thiết bị tham gia vào mô hình huấn luyện sẽ sử dụng dữ liệu cục bộ(Local Data) dé huấn luyện tự động mô hình toàn cục được cung cấp từ máy chủ
Sau đó, thiết bị chỉ cần chia sẻ mô hình cục bộ (Local Update) dé xây dựng mô hình
học máy toàn cục thay vì dữ liệu cục bộ [5] nhăm bảo mật dữ liệu riêng của thiết bị
Không dừng lại ở đó, các nhà nghiên cứu đã tiếp tục phát triển mở rộng khả năng
của phương pháp học liên kết bằng cách kết hợp nó với phương pháp học sâu (mộthướng tiếp cận của học máy), phương pháp học liên kết mới này còn được gọi là
Trang 18phương pháp học sâu liên kết (DeepFed) Học sâu liên kết cho phép thiết kế một mô
hình phát hiện các mối đe doạ trong mạng khả lập trình dựa trên các thuật toán phức
tạp, nơi mà nhiều thiết bị có thé cùng tham gia dé xây dựng mô hình phát hiện các
mối de doa toàn điện mà không cần phải chia sẻ dữ liệu riêng của mình Các cuộc
thử nghiệm mở rộng cũng đã chứng minh sự hiệu quả vượt trội của phương pháp
học sâu liên kết trong việc phát hiện các mối đe doạ so với các phương pháp tiếp
cận thông thường hiện nay [8].
1.2.3 Giải pháp dam bảo quyền riêng tư dữ liệu trong học liên kết
Trong phương pháp học liên kết, thông tin của người dùng vẫn có thé bị rò ri bằngcách phân tích mô hình cục bộ được gửi từ các thiết bị, điều này gây ra những ảnhhưởng nhất định đến quyền riêng tư đữ liệu cá nhân của người dùng Vì thế, kỹthuật quyền riêng tư khác biệt (Differential Privacy) được sử dụng như một cách décung cấp sự đảm bảo mang tính toán học về quyền riêng tư di liệu của người dùng
Kỹ thuật này sẽ thêm cần thận các dữ liệu gây nhiễu đã được điều chỉnh (đặc trưngbởi chỉ số epsilon €) vào các mô hình trước khi chúng được gửi đến nơi tổng hợp
[9] [10] dé đảm bảo rang quá trình dịch ngược dé khai phá dữ liệu không thê xảy ra
1.2.4 Giải pháp giảm thiểu chỉ phí và thời gian truyền thông liên lạc
trong học liên kết
Dé đưa quá trình xử lý và phân tích dữ liệu đến gần hơn với nguồn dữ liệu, các nhànghiên cứu đã nhắm đến điện toán biên di động (Mobile Edge Computing) như làmột cách tiếp cận dé có thé giải quyết van dé này Tuy vậy, việc tối ưu hoá hiệu quảkhi kết hợp phương pháp học liên kết với điện toán biên di động vẫn còn là mộtthách thức lớn Dựa trên ý tưởng triển khai của điện toán biên di động, các nhà
nghiên cứu đã đề ra một phương pháp học liên kết nhiều tầng mới, còn được gọi là
HybridFL HybridFL thông qua hai cấp độ tại biên và tại đám mây để đưa ra các
Trang 19chiến lược tổng hợp khác nhau; từ đó đưa quá trình xử lý và phân tích dữ liệu đến
gan hơn với ngu6n dữ liệu, giúp tăng tốc độ hội tụ của mô hình toàn cục cũng như
giảm mức tiêu thụ năng lượng và thời gian truyền thông liên lạc của hệ thống [11]
1.3 Tính ứng dụng trong thực tế
Dịch vụ cộng tác săn tìm mối đe doạ được xây dựng dựa trên phương học sâu liênkết nhiều tang tích hop kỹ thuật quyền riêng tư khác biệt giúp cho các tổ chứckhông cần phải chia sẻ dữ liệu riêng của họ mà vẫn có thê tham gia vào mô hình
Tuy rang kỹ thuật quyền riêng tư khác biệt có thé đảm bảo quyền riêng tư dit liệu
của người dùng, song nó lại làm giảm đi độ chính xác của mô hình, sự suy giảm độ
chính xác càng thê hiện rõ rệt hơn đối với mô hình phức tạp có nhiều trọng số
Mặt khác, hệ thống học sâu liên kết nhiều tang tuy có thé giảm bớt áp lực của việc
truyền tải, xử lý và phân tích dữ liệu nhưng đồng thời nó cũng làm giảm đi độ chính
xác của mô hình, sự suy giảm độ chính xác càng thể hiện rõ rệt hơn khi tăng dần sốvòng (round) trong quá trình huấn luyện
1.5 Mục tiêu, đối tượng và phạm vi nghiên cứu
Trang 201.5.1 Mục tiêu nghiên cứu
Xây dựng dịch vụ cộng tác săn tìm mối đe doạ trong mạng khả lập trình dựatrên phương pháp học sâu liên kết
Tích hợp kỹ thuật quyền riêng tư khác biệt trong quá trình huấn luyện họcsâu liên kết dé đảm bảo quyên riêng tư dữ liệu người dùng
Triển khai kiến trúc dịch vụ vi mô cho dịch vụ săn tìm mối đe doạ trong
1.5.2 Đối tượng và phạm vi nghiên cứu
Phương pháp học sâu liên kết cho dịch vu săn tìm mối de doa sử dụng mô
hình Deep Neural Network và Long Short Term Memory.
Hệ thống học sâu liên kết nhiều tang được xây dựng dựa trên ngôn ngữPython và các thư viện như Pytorch, Flask; thư viện hỗ trợ quyền riêng tư
khác biệt Opacus.
Tập dữ liệu được sử dụng để huấn luyện và đánh giá mô hình là CIC —
DDoS2019.
Mô hình mạng khả lập trình cơ bản dùng dé thực hiện các kịch ban thực
nghiệm săn tìm môi đe doạ khác nhau.
1.6 Cau trúc khoá luận tốt nghiệp
Thông qua phan trình bày tổng quan về những nội dung sẽ nghiên cứu trong khoá
luận tôt nghiệp, nhóm xin đưa ra câu trúc cụ thê của khoá luận tôt nghiệp như sau:
Chương I: Giới thiệu tông quan về khoá luận và các nghiên cứu liên quan.
Trang 21Chương 2: Trình bày cơ sở lý thuyết và các kiến thức nền tảng có liên quan.Chương 3: Đề xuất phương pháp nghiên cứu dé giải quyết bài toán.
Chương 4: Trình bày môi trường và kịch bản thực nghiệm, mô tả tập dữ liệu
cũng như phương pháp đánh giá và kết quả thực nghiệm
Chương 5: Kết luận và đề xuất hướng phát triển của khoá luận
Chương 6: Tài liệu tham khảo.
Trang 22Chương 2 CƠ SỞ LÝ THUYET
Tóm tắt
Trong chương này, nhóm xin trình bày về cơ sở lý thuyết và các kiến thức nên tảng
có liên quan đên đê tài nghiên cứu.
2.1 Học máy (Machine Learning) và học sâu (Deep Learning)
Trước khi nhắc đến hai khái niệm học máy và học sâu thì không thé không nhắc đến
khái niệm trí tuệ nhân tao (Artificial Intelligence) Cả ba khái niệm trí tuệ nhân tao,
học máy và học sâu có một mối quan hệ mật thiết với nhau và thường bị nhằm lẫn
là một, mặc dù bản thân chúng đều ám chỉ những khái niệm riêng biệt Dé dễ hìnhdung hơn, có thể xem học sâu là một tập hợp con của học máy, trong khi trí tuệ
nhân tạo là một siêu tập hợp của học máy và học sâu.
Artificial Intelligence
Deep
Learning
Hinh 2.1: Méi quan hệ giữa trí tuệ nhân tao, học máy va học sâu
10
Trang 232.1.1 Tri tuệ nhân tạo
Trí tuệ nhân tạo là thuật ngữ phổ biến đề cập đến việc mô phỏng quá trình suy nghĩ
và học tập của con người trên máy móc, đặc biệt là hệ thống máy tính
Năm 1997, nhân loại đã chứng kiến một bước ngoặt lịch sử trong lĩnh vực trí tuệnhân tạo khi mà siêu máy tính DeepBlue của IBM (sau nhiều lần thất bại) đã đánh
bại siêu đại kiện tướng cờ vua Garry Kasparov — người được mệnh danh là một
trong những kỳ thủ cờ vua vĩ đại nhất mọi thời đại [12] Ké từ đó, việc đánh bai một
máy tính ở bộ môn cờ vua dường như là một thách thức mà con người chưa thểvượt qua Tiếp nối thành công đó, sự ra đời của Alpha Go — chương trình của
DeepMind (công ty chuyên về trí tuệ nhân tạo của Google) đã cho thấy khả năngđáng kinh ngạc mà một máy tính có thê làm được Nó có thể tự học các thế trận cờ
vua của con người qua hàng trăm năm chỉ trong vòng bốn giờ đồng hồ Không chỉ
dừng lại ở đó, AlphaGo còn tự mình đưa ra những chiến thuật mới giúp nó chiến
thắng các đối thủ (là con người) Điều đặc biệt ở đây là AlphaGo tự học cách chơi
cờ vua từ con số 0, tức là nó chỉ được lập trình với luật chơi cờ vua và phải tự tìm ra
cách chiến thắng nhờ vào cách tự chơi với mình đề “huấn luyện” bản thân [13]
Ngày nay, trí tuệ nhân tạo được sử dụng trong hau hết tat cả các ngành công nghiệp.Thật khó dé có thể phủ nhận sự hiện diện của nó trong đời sống của con người, từviệc mua sản phâm trên Amazon hoặc đọc các tin tức trên Google, nghe nhạc hoặc
xem phim trên Netflix, Trí tuệ nhân tao đã và đang len lỏi vào từng mang của
đời sống thường ngày và cải thiện trải nghiệm của con người một cách tốt hơn baogiờ hết Với trí tuệ nhân tạo, sẽ thật không sai khi nói rang con người có thé mơ ước
về một thế giới mà ở đó, máy móc có thể giúp con người hiện thức hoá những điều
mà trước nay tưởng chừng như không thể thực hiện
lãi
Trang 242.1.2 Học máy
Được định nghĩa bởi Arthur Samuel vào năm 1959, học máy là thuật ngữ đề cậpđến một tập hợp các phương pháp cung cấp cho máy tính “khả năng học mà khôngcần được lập trình một cách rõ ràng” [14]
Học máy là một nhánh của lĩnh vực trí tuệ nhân tạo và khoa học máy tính, nó chủ
yếu tập trung vào việc sử dụng dir liệu và thuật toán dé bắt chước cách mà conngười học, từ đó dần dần cải thiện độ chính xác của mình Dựa trên phương pháp
tiếp cận, có thể chia học máy thành bốn nhóm cơ bản là học có giám sát
(Supervised Learning), học không giám sát (Unsupervised Learning), học bán giám sát (Semi — supervised Learning) và học tăng cường (Reinforcement Learning) Sự
khác biệt giữa các phương pháp tiếp cận học máy này năm ở các thuật toán được sử
dụng, dữ liệu dau vào và loại vân dé mà chúng giải quyết Cu thê như sau:
Học có giám sát: là thuật toán dự đoán đầu ra (còn được gọi là outcome) của một
dữ liệu mới (new, input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữliệu nay còn được gọi là dữ liệu và nhãn (data, label) Tuy thuộc vào loại đầu ra
mong muốn, học có giám sát lại được chia làm hai nhóm nhỏ là phân lớp
(Classification) và hồi quy (Regression)
e Phân lớp: được sử dụng khi đầu ra mong muốn là một tập hữu hạn và rời rạc
Ví dụ trong bài toán phát hiện xâm nhập mạng, sỐ lượng các lớp (class) cóthê là: nhị phân (tức là chỉ cần phân loại tất cả các hành vi mạng thành bìnhthường hoặc bất thường) và đa lớp (tức là ngoài việc phân loại hành vi mạngthành bình thường hoặc bất thường thì sau đó các hành vi bất thường cònphải được phân loại cụ thé hình thức tấn công như SYN Flood, TCP Flood,
UDP Flood hay Ping of Death, ).
e Hồi quy: được sử dụng khi đầu ra mong muốn là một dai giá trị liên tục Ví
dụ trong bài toán tính giá trị xác suất, giả sử bài toán cần giải quyết là điểm
đáng tin cậy của người dùng dé thực hiện cho vay tín dụng Điểm tin cậy dai
diện cho khả năng mà người đó có thê chi trả cho khoản vay của mình và
12
Trang 25nằm trong khoảng từ 0 đến 1, và nó thể hiện xác suất một người sẽ trả cáckhoản vay của mình Khi đó, dit liệu sẽ giống như trong bảng 2.1:
Bảng 2.1: Ví dụ về bài toán hồi quy trong học có giám sát
Nghề nghiệp Thu nhập Tuổi Điểm tin cậy
Lập trình viên < 1000$ 25 0.85
Sinh viên < 200$ 18 0.3
Học có giám sát là một trong những phương pháp tiếp cận phô biến nhất của học
máy Tuy nhiên, hạn chế của phương pháp này là cần phải có một lượng lớn tập ditliệu có gán nhãn Và dé có được lượng lớn tập dữ liệu có gán nhãn thật sự tiêu tốn
rat nhiêu công sức cũng như chi phí dé thuê người đọc va gan nhãn thủ công.
Hoc không giám sát: là thuật toán dựa vào cấu trúc của dit liệu đầu vào dé khaiphá những quy luật ẩn bên trong các tập dữ liệu đầu vào, ví dụ như phân nhóm hoặcgiảm số chiều của dữ liệu dé thuận tiện cho việc lưu trữ và tính toán Lưu ý, đối vớihọc không có giám sát thì không có dữ liệu đầu ra (nhãn) mà chỉ có dữ liệu đầu vào
(tập dữ liệu chưa được gán nhãn) Học không giám sát lại được chia làm hai nhóm
nhỏ là phân nhóm (Clustering) và kết hợp (Association)
e Phan nhóm: được sử dụng khi muốn phân toàn bộ dữ liệu bất kỳ thành các
nhóm nhỏ dựa trên sự kiện liên quan giữa các dữ liệu trong mỗi nhóm, chang
hạn như phân nhóm khách hàng dựa trên hành vi mua hàng.
e Kết hợp: được sử dụng khi muốn khai phá các quy luật của cấu trúc dữ liệu,
chăng hạn như người mua món hàng A cũng có xu hướng mua món hàng B.Học bán giám sát: là thuật toán kết hợp giữa học có giám sát và không giám sát
Học tăng cường: là thuật toán giúp cho một hệ thống tự động xác định hành vi dựatrên ngữ cảnh để đạt được mục đích cao nhất Học tăng cường thường được ứngdụng trong lý thuyết trò chơi (Game Theory), trong đó, học tăng cường cần xác định
nước di tiép theo đê đạt được điêm sô cao nhat qua mỗi lần chơi.
13
Trang 26Ngày nay, học máy được ứng dụng rộng rãi trong các lĩnh vực khác nhau, nổi bật
nhất có thé kế đến học máy truy tim dit liệu, chân đoán y khoa, phát hiện thẻ tín
dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng
giọng nói và chữ viết, dịch tự động, chơi trò chơi và điều khiến tự động robot,
các thuộc tính giúp phân biệt các dữ liệu với nhau Chính vì lý do đó mà học sâu
chủ yếu được ứng dụng trong lĩnh vực thị giác máy tính, xử lý ngôn ngữ tự nhiên và
nhận dạng giọng nói.
Trong học sâu, việc học các biểu diễn phân lớp thường được dựa trên các mô hìnhmang neural nhân tạo, hàm kích hoạt (Activation Function), hàm mất mát (LossFunction) và thuật toán suy giảm độ dốc (Gradient Descent) Cu thé nhu sau:
Mang neural: là một mô hình được lấy cảm hứng từ cấu trúc va chức năng của não
bộ con người, đúng hơn là sự kết nối giữa các tế bào thần kinh trong sinh học Như
trong hình 2.2 bên dưới, mỗi ô tròn đại diện cho một neural (còn được gọi là một
nút), mỗi neural có một giá trị riêng Giá trị của neural được tính toán thông qua giá
trị của các neural trước đó và giá trị này cũng là đầu vào cho các neural phía sau.Nói cách khác, mỗi neural có thể nhận một hoặc nhiều giá tri làm giá tri đầu vào và
thực hiện các phép tính toán dựa trên giá trị đó Kết quả của phép tính chính là giátrị của neural Giá trị của các neural đầu tiên (còn được gọi là input layer) được lay
từ đầu vào mà không cần phải thông qua bước tính toán, trong khi đó giá trị của
neural cuối cùng (còn được gọi là output layer) sẽ là kết quả cuối cùng của toàn bộ
quá trình tính toán.
14
Trang 27Hidden layers Input layer
Các giá trị của neural được tính bang cách nhân mỗi giá tri đầu vào với trọng số của
nó roi cộng tat cả giá trị lại với nhau Tổng đó có thé là giá trị của neural hoặc phải
được thực hiện thông qua một hàm số trên tông đó Vi dụ mô hình hồi quy tuyếntính (Linear Regression) có thé được biéu diễn bằng mạng neural như hình 2.3:
W3 ⁄
Y = Wo †+Wxq + W2X2 + WaXz
(a) (b)
Hình 2.3: Mô hình hồi quy tuyến tính có ba thuộc tinh đầu vào
được biéu diễn bằng mạng neural dạng day du (a) và dang rút gọn (b)Hàm kích hoạt: là các hàm được đặt sau mỗi hidden layer trong mạng neural nhằm
phá vỡ sự tuyến tính của layer và chuẩn hoá đầu ra từ layer đó Các hàm này thường
là các hàm số phi tuyến tính và dễ dàng tính toán đạo hàm Một số hàm kích hoạtpho biến có thé kế đến là sigmoid, tanh, ReLU
15
Trang 28Ham mat mát: được sử dụng để xác định khoảng cách giữa giá trị đầu ra của mô
hình và giá trị đầu ra thực tế Nói cách khác, trong mạng neural, việc tìm mô hìnhchính là việc xác định trọng số của mạng neural sao cho hàm mất mát có thê đạtđược giá trị nhỏ nhất Một số hàm mat mát phô biến có thé ké đến là RMSE, Cross
Entropy, Hinge Loss.
Suy giảm độ dốc: là thuật toán giúp ra các giá trị trọng số sao cho hàm mắt mát đạtgiá tri cực tiêu Khi giá trị đạo hàm của một hàm số tại một điểm nhỏ hơn 0 thì điểmcực tiêu dang nằm bên phải điểm đó, lớn hơn 0 thì điểm đó đang nằm bên trái điểmcực tiểu Điểm càng xa điểm cực tiểu thì đạo hàm tại điểm đó có giá tri tuyệt đối
càng lớn.
ƒœ)\
ƑŒa)<0 f'(x1) >0
Hình 2.4: Giá trị của đạo ham và vi trí tại điểm đó so với điểm cực tiểuMột vài biến thé của Gradient Discent có thé kế đến như Batch Gradient Descent,
Stochastic Gradient Descent, Mini — Batch Gradient Descent Sự khác biệt giữa
chúng chính là số lượng đữ liệu được sử dụng cho mỗi lần cập nhật trọng số Cụ thểhơn, Batch Gradient Descent sử dụng toàn bộ dữ liệu cho mỗi lần cập nhật,Stochastic Gradient Descent sử dung một dữ liệu để cập nhật, va Mini — BatchGradient Descent sử dụng batch_size dữ liệu dé cap nhat trong sé trong một lần Từ
đó, có thê định nghĩa được khác niệm về epoch, batch_ size và iterations như sau:
e Epoch: một epoch là một lần duyệt qua hết tất cả dit liệu có trong tập dữ liệu
huan luyện.
16
Trang 29e Batch size: số lượng dữ liệu được sử dụng trong một lần để cập nhật trọng
số Giá trị batch_size thường được sử dụng là các giá trị 2" (32, 64, 128, )
để có thé tối ưu hoá thời gian tính toán.
e Iterations: số lượng batch_size mà mô hình phải duyệt trong một epoch.
Ví dụ một tap đữ liệu huấn luyện có 64.000 đữ liệu Nếu batch_size = 64 (mỗi lần
cập nhật trong số sẽ sử dung 64 dữ liệu), khi đó iterations = 64.000/64 = 1.000.
Mặc dù học sâu có khả năng giải quyết nhiều vấn đề phức tạp mà các phương pháp
học máy không thé, tuy nhiên, chi phí đề triển khai phương pháp học sâu là rất cao Đối với các tác vụ lớn, việc huấn luyện một mạng lưới thần kinh thường yêu cầu xử
lý lượng lớn dé liệu bằng cách sử dụng các cụm GPU cao cấp trong nhiều giờ liền
và chỉ phí cho các cum GPU này có thé lên đến hàng ngàn đô la mỹ hoặc năm đô la
mỹ mỗi giờ dé thuê dịch vụ đám mây từ bên thứ ba Chính vì thế, nếu một bài toán
có thể giải quyết bằng các phương pháp học máy thông thường thì không nên lạm
dụng học sâu như một phương pháp dé giải quyết tat cả mọi bài toán.
2.2 Học máy và các bước xây dựng một mô hình học máy
Khi nhắc đến điều gì là quan trọng nhất khi xây dựng một mô hình, đường như mọi người luôn cho rằng đó là việc tạo ra mô hình Tuy nhiên trong thực tế, sự thành
công hoặc thất bại của một mô hình học máy phụ thuộc vào rất nhiều yếu tố khác.
Cụ thể các bước xây dựng mô hình học máy sẽ được trình bày như sau:
Thu thập và chuẩn bị dữ liệu: là bước rất quan trọng vì số lượng và chất lượng của tập dữ liệu thu thập được sẽ ảnh hưởng trực tiếp tới kết quả dự đoán của mô
hình Tập dữ liệu thu thập ban đầu sẽ có thứ tự các mẫu được sắp xếp một cách ngẫu nhiên, đây được xem là thời điểm tốt nhất để trực quan hoá dữ liệu và tìm ra
mối quan hệ giữa các mẫu Đồng thời đây cũng là lúc thích hợp đề kiểm tra xem có
bat kỳ sự mắt cân bằng nào về dữ liệu hay không vì sự mắt cân bằng tập dữ liệu có thể gây ra các tình trạng dương tính giả (False Positive) hoặc âm tính giả (False
17
Trang 30Negative) không mong muốn Điều quan trọng tiếp theo là tập dữ liệu đó cần được chia làm hai phần: phần thứ nhất sử dụng cho việc huấn luyện (training) mô hình và
sẽ chiếm phan lớn tập dữ liệu, phần thứ hai sử dụng cho việc đánh giá (testing) chất lượng mô hình đã huấn luyện Lý do cho việc phân chia tập dữ liệu thành hai phần
để huấn luyện và đánh giá là bởi vì nếu sử dụng cùng một tập dữ liệu, mô hình sẽ
“học vet” và tất cả những dự đoán nó đưa ra chỉ dựa trên những gì nó đã “học” được trước đó Quy tắc chia tập dữ liệu thường được sử dụng là 80/20 hoặc 70/30,
trong đó, phần lớn hơn luôn là phần dùng cho việc huấn luyện và phần nhỏ hơn luôn là phần dùng cho việc đánh giá Bên cạnh đó, những van đề như tinh giản dữ liệu khi gặp các trường hợp dữ liệu bị thiếu hoặc nhiễu; giảm bớt dữ liệu khi có quá nhiều các thuộc tính trong tập dữ liệu đầu vào cũng nên được lưu ý.
Chọn mô hình thích hợp: là bước tiếp theo trong việc xây dựng một mô hình học máy Việc lựa chọn một mô hình học máy thích hợp cho mục đích sử dụng là hết sức cần thiết, ví dụ như có một số mô hình rất phù hợp với dữ liệu hình ảnh, một số
khác lại phù hợp với dữ liệu chuỗi như văn bản hoặc âm nhạc, một số lại chỉ phù hợp với dữ liệu só, Nói tóm lại, tuỳ theo từng trường hợp, người xây dựng mô
hình học máy cần lựa chọn cho mình mô hình phù hợp với mục đích sử dụng để có
được kết quả tốt nhất.
Huấn luyện: được coi là bước quan trọng nhất vì trong bước này, tập dữ liệu con
đã được chia để thực hiện huấn luyện mô hình sẽ được sử dụng để từng bước cải thiện khả năng dự đoán của mô hình học máy.
Gia sử, công thức của một đường thang là y = mx + b, với x là giá trị đầu vào, m
là hệ số góc của đường đó, b là giao điểm của một hàm số với trục tung và y là giá trị của đường đó tại vị tri x Trong trường hợp của học máy, m sẽ đại diện cho các thuộc tính có trong một tập dữ liệu và tập hợp các giá trị m này sẽ tạo thành một ma trận, còn được gọi là trọng số (Weights) Tương tự với b, tập hợp các giá trị này
cũng tạo thành một ma trận là Biases.
18
Trang 31'WEIGHTS =
BIASES = “bị
n."
Hình 2.5: Ma trận biéu diễn Weights và Biases
Quá trình huấn luyện bao gồm việc khởi tạo một số giá tri ngẫu nhiên cho Weights
va b, sau đó có gắng dự đoán dau ra với các giá trị đó Ban đầu, kết quả dự đoán của
mô hình này có thể rất kém Tuy nhiên, người xây dựng mô hình có thể so sánh các
dự đoán của mô hình đó với đầu ra đúng (đầu ra mà đáng lẽ mô hình phải dự đoán
được) dé điều chỉnh các giá trị trong Weights và b sao cho kết quả của những lần
dự đoán sau có thể chính xác hơn Quá trình điều chỉnh này sẽ được lặp đi lặp lại
như hình 2.6 và còn được gọi là một bước huấn luyện.
ngữ cảnh thực tế hay không.
19
Trang 32Điều chỉnh thông số: là bước dé điều chỉnh các cấu hình mới cho thông số trước khi thực hiện huấn luyện lại mô hình một lần nữa nhằm cải thiện mô hình.
Nếu trong quá trình đánh giá, kết quả dự đoán của mô hình không tốt hoặc độ chính xác không đạt mức mong muốn, có thể đã có một số lỗi phát sinh như sau:
© Qué khớp (Overfitting): thể hiện rõ nhất khi mô hình cho ra kết quả tốt trên
tập dữ liệu huấn luyện nhưng lại cho kết quả kém trên tập đữ liệu đánh giá Khi gặp trường hợp này, cách xử lý là thu thập thêm dữ liệu hoặc giảm độ
phức tạp của mô hình bằng cách loại bỏ đi một số layer.
© Chua khớp (Underfitting): thể biện rõ nhất khi mô hình cho ra kết quả kém
trên cả tập dữ liệu huấn luyện lẫn tập dữ liệu đánh giá Khi gặp trường hợp này, cách xử lý là thu thập thêm dữ liệu hoặc tăng độ phức tạp của mô hình
bằng cách thêm một vài layer.
Dự đoán: là bước cuối cùng trong việc xây dựng mô hình học máy Ở bước này,
người xây dựng mô hình hoc máy có thé sử dụng mô hình của mình trong thực tế.
2.3 Học liên kết (Federated Learning)
Học liên kết là một phương pháp tiếp cận học máy cho phép các mô hình học máy nhận các cập nhật mô hình từ nhiều nguồn dữ liệu ở các vi trí khác nhau mà không cần phải chia sẻ dữ liệu huấn luyện Điều này cho phép dữ liệu cá nhân vẫn được giữ lại ở cục bộ, giảm thiểu khả năng vi phạm quyền bảo mật dữ liệu người dùng.
2.3.1 Quá trình huấn luyện trong học liên kết
Thay vì yêu cầu một tập dữ liệu thống nhất dé huấn luyện mô hình theo cách tập trung truyền thống, trong học liên kết, quá trình huấn luyện sẽ diễn ra ngay trên
chính các thiết bị có chứa tập dữ liệu (còn được gọi là huấn luyện cục bộ) Trước khi bắt đầu huấn luyện, tất cả các thiết bị sẽ cùng thống nhất một tập siêu tham số
20
Trang 33(hyperparameters) như cau hình của mô hình và khởi tạo các trong số ngẫu nhiên cho mô hình khởi tạo Tại mỗi vòng huấn luyện, mô hình toàn cục hiện tại sẽ được gửi đến cho các thiết bị, sau đó, các thiết bị sẽ thực hiện tính toán cập nhật cho mô hình toàn cục này dựa việc huấn luyện cục bộ (huấn luyện trên chính tập dữ liệu mà thiết bị đó đang lưu trữ) và cho ra một mô hình cục bộ mới Mô hình toàn cục lúc
này có nhiệm vụ thu thập tất cả các mô hình cục bộ vừa mới được cập nhật, tổng
hợp chúng lần nữa và cho ra một mô hình toàn cục mới.
Qua quá trình huấn luyện trong học liên kết, có thé thay học liên kết có thể đảm bảo quyền bao mật dữ liệu vì các mô hình là thứ sẽ được trao đổi chứ không phải là tập
dữ liệu huấn luyện riêng biệt của các thiết bị Học liên kết còn cho phép tạo ra các
mô hình có độ chính xác cao hơn, độ trễ thấp hơn và tiêu thụ ít điện năng hơn so với
phương pháp huấn luyện truyền thống Ngoài ra, người dùng cũng có thể sử dụng
các mô hình đã được cập nhật ngay lập tức (từ mô hình toàn cục), mang lại trải
nghiệm cá nhân hoá theo ngữ cảnh sử dụng thiết bị của người dùng.
2.3.2 Tinh ứng dung trong thực tế
Các mô hình học liên kết có thể hoạt động với nhiều kỹ thuật học máy khác nhau,
nhưng quan trọng nhất vẫn là kiểu dữ liệu và ngữ cảnh mà nó được sử dụng Một số
ứng dụng tiềm năng của phương pháp học liên kết sẽ được trình bày cụ thể như sau:
e Xe tự lái: có thể sử dụng học liên kết để cung cấp trải nghiệm xe tự lái tốt
hơn và an toàn hơn với dữ liệu và dự đoán được đưa ra theo thời gian thực.
© Ứng dụng di động: có thé sử dụng học liên kết để xây dựng các mô hình về
hành vi của người dùng từ nhóm dữ liệu của điện thoại thông minh mà không
làm rò ri dữ liệu cá nhân, chẳng hạn như dự đoán từ tiếp theo, nhận diện
khuôn mặt, nhận dạng giọng nói,
e_ Chăm sóc sức khoẻ: có thé sử dụng học liên kết để bảo vệ quyền bảo mật dữ
liệu của bệnh nhân Bằng cách này, các mô hình học tập liên kết có thể có
được nguồn cung cấp dữ liệu đa dạng đến từ nhiều bệnh viện hoặc cơ sở dữ
21
Trang 34liệu hồ sơ sức khoẻ điện tử khác nhau, giúp nó có thé chan đoán các căn
bệnh một cách chính xác hơn, như hình 2.7.
X Community
« “A Hospital
tt Private Data
Federated Server Research
Global Model iat Private Data
a Cancer
f <Q Treatment Center
RNS
‘
nan Private Data À ñ)
Hình 2.7: Ứng dụng của học liên kết trong lĩnh vực chăm sóc sức khoẻ [15]
2.3.3 Lợi ích và khó khăn của phương pháp học liên kết
Một số lợi ích nỗi bật của phương pháp học liên kết có thé kể đến như sau:
e Bảo mật dữ liệu: bằng cách cho phép các thiết bị có thể huấn luyện bằng
chính tập dữ liệu mà nó đang lưu trữ (huấn luyện cục bộ).
¢ Dự đoán liên tục theo thời gian thực: bằng cách sử dụng mô hình đang có
trên thiết bị, mặc dù thiết bị đó đang không được kết nói Internet thì nó vẫn
có thé đưa ra các dự đoán ngay lập tức.
¢ Học liên tục theo thời gian thực: bằng cách cập nhật mô hình với dữ liệu mới
của người dùng trên thiết bi mà không cần tong hợp dữ liệu dé huấn luyện.
e _ Hiệu quả về phần cứng: bằng cách tận dụng phan cứng sẵn có trong các thiết
bị của người dùng mà không cần phải triển khai một máy chủ trung tâm phức
tạp đề phân tích dữ liệu.
22
Trang 35Một số khó khăn mà phương pháp học liên kết phải đối mặt bao gồm:
Yêu cầu đầu tư cơ sở hạ tang: dé các mô hình học liên kết có thé giao tiếp
thường xuyên với các node Điều này đồng nghĩa với việc các hệ thống cần
phải có dung lượng lưu trữ lớn và băng thông cao.
Giới hạn về hiệu suất: bao gồm hai vấn đề cần phải quan tâm là việc dữ liệu hông đồng nhất và rò rỉ thông tin một cách gián tiếp Trong phương pháp
học liên kết, mô hình từ các thiết bị khác nhau sẽ được hợp nhất để xây dựng
một mô hình tốt hơn, tuy nhiên một vài thuộc tính cụ thể của thiết bị có thể làm hạn chế tính tổng quát của mô hình và làm giảm độ chính xác của mô hình tiếp theo Bên cạnh đó, các nhà nghiên cứu cũng đã xem xét đến tình
huống mà trong đó, một cá nhân có thé tan công ác ý bằng cách chèn một backdoor ẩn vào mô hình toàn cục.
Quyền riêng tu dit liệu: dé nâng cao khả năng đảm bảo quyền bảo mật dữ
liệu người dùng của phương pháp học liên kết Mặc dù chỉ có các mô hình
được trao đôi trong quá trình huấn luyện của phương pháp học liên kết, các
mô hình này vẫn có thé bị dịch ngược (reverse engineer) dé khai phá dữ liệu khách hàng Một số kỹ thuật như quyền riêng tư khác biệt (Differential
Privacy), tính toán đa bên an toàn (Secure Multiparty Computation) và mã
hoá đồng cấu (Homomorphic Encryption) có thể được sử dụng để đảm bảo quyền riêng tư dữ liệu người dùng.
2.4 Quyền riêng tư khác biệt (Differential Privacy)
Trong thế kỷ 21, nhiều vụ vi phạm dữ liệu lớn đã xảy ra khiến cho chính phủ và các
tổ chức phải xem xét về việc đảm bảo quyền riêng tư dữ liệu Theo Latanya
Sweeney (Giám đốc Phòng Thực nghiệm Differential Privacy tại Harvard), chỉ cần
có giới tính, ngày sinh và mã vùng là đã đủ dé xác định thông tin đại đa số người dân nước Mỹ Bằng cách liên kết các thuộc tính trên trong cơ sở dữ liệu chăm sóc sức khoẻ (được cho là ân danh), Latanya Sweeney đã có thé xác định được hồ sơ
Trang 36sức khoẻ của Thống đốc bang Massachusetts của Mỹ [16] — chứng minh rằng điều
mà bà chỉ ra là hoàn toàn có thê thực hiện.
Quyền riêng tư khác biệt là một học thuyết cung cấp sự đảm bảo mang tính toán học
về quyền riêng tu di liệu của người dùng Mục đích chính của nó là làm giảm thiểuảnh hưởng của bất kỳ một đữ liệu đơn lẻ nào đến kết quả tông thể Trong bối cảnh
học liên kết, kỹ thuật quyền riêng tư khác biệt bảo đảm quyên riêng tư dit liệu củangười dùng bằng cách thêm cân thận các dữ liệu gây nhiễu đã được điều chỉnh (đặctrưng bởi chỉ số epsilon £) vào các mô hình trước khi chúng được gửi đến nơi tổnghợp Tuy nhiên, việc thêm nhiễu vào dữ liệu có thể làm giảm đi độ chính xác của
mô hình (mức độ riêng tư được đo băng epsilon và nó tỷ lệ nghịch với mức độ bảo
vệ quyên riêng tư) Điều đó nghĩa là, giá trị epsilon càng cao thi mức độ bảo vệ dữliệu càng thấp và khả năng làm lộ thông tin người dùng càng cao Do đó, đây là một
sự đánh đôi giữa độ chính xác của mô hình và quyên riêng tư dữ liệu cá nhân.
2.5 Săn tìm mối đe doa (Threat — hunting)
Có vẻ như công việc của những chuyên gia an ninh mang dường như không bao giờ
ngơi nghỉ Nghiên cứu của đại hoc Maryland định lượng tốc độ trung bình để kẻ tan
công thực hiện một cuộc tấn công là 39 giây [17] Điều này cho thấy rằng khi quátrình số hoá ngày càng tăng cũng là lúc các tội phạm mạng liên tục tìm ra những
phương thức mới dé khai thác điểm yếu trong cơ sở hạ tang công nghệ thông tin của
tổ chức Trong bối cảnh không thê đoán trước, liệu rằng một tổ chức có thể đón đầu
về xu hướng an ninh mạng sắp tới hay không, câu trả lời là có.
Khi nói đên “đón đâu”, một trong những chìa khoá đê đảm bảo an ninh mạng chính
là sự chủ động, thay vì chỉ phản ứng khi xảy ra sự cô bảo mật, một tô chức hoàn toàn có thê chủ động tìm kiêm và phát hiện ra sự hiện diện của kẻ tân công trong môi trường mang — hành vi chủ động này còn được gọi là săn tìm môi de doa.
24
Trang 37Cu thé hơn, săn tìm mối de doa được định nghĩa là quá trình chủ động phân tích dé
tìm hiểu các loại chiến thuật, kỹ thuật và quy trình (tactics, techniques, and
procedures) khác nhau mà kẻ tan công sử dụng trong thé giới kỹ thuật số, từ đó giúp
các tổ chức có thé xác định được lỗ hồng trong hệ thống an ninh mạng Dé làmđược điều này, thông tin tình báo mối đe doạ (Threat Intelligence) đóng vai trò rấtquan trọng trong bất kỳ hệ sinh thái an ninh mạng nào bởi nó được xây dựng dựa
trên bằng chứng, bao gồm cả bối cảnh, cơ chế, chỉ số, chỉ thị và lời khuyên địnhhướng hành động về mối de doa đã có hoặc mới xuất hiện [18]; giúp cho các tô
chức có thé đề xuất phương pháp để giải quyết sự cô đang xảy ra cũng như củng cố
tình trạng an ninh mạng đê tránh các cuộc tân công bât ngờ.
2.5.1 Phân tích Kill Chain
Kill Chain là một chuỗi các bước theo dõi giai đoạn của một cuộc tấn công mạng,được tính từ giai đoạn thu thập thông tin cho đến khi thực hiện đánh cắp dữ liệuthành công Nói cách khác, Kill Chain cung cấp cho các tổ chức cái nhìn toàn diện
về quá trình tan công dé xây dựng hệ thống phòng thủ, bởi vi Kill Chain là các bước
mà kẻ tấn công bắt buộc phải tuân theo Từ góc nhìn của người xây dựng hệ thốngphòng thủ, có thê biết trước răng kẻ tấn công sẽ không thể bỏ qua bất kỳ bước nàotrong chuỗi Kill Chain, từ đó, có thé ngăn chặn bat kỳ hành động tan công nào của
chúng vào tô chức dé có thê bảo vệ an toàn dir liệu.
Lockheed Martin Cyber Kill ChainTM và MITRE’s ATT&CKTM là hai khung
(framework) nổi tiếng về các loại chiến thuật, kỹ thuật và quy trình của kẻ tan côngdựa trên ngữ cảnh thực tế Tat cả thông tin thu được (có liên quan đến các cuộc tancông) sẽ được trình bày băng nhiều ma trận khác nhau, chăng hạn như ma trận dành
cho doanh nghiệp (Enterprise) và ma trận dành cho di động (Mobile) Bảng này sẽ
bao gồm các chiến thuật khác nhau và mỗi chiến thuật được chia thành các kỹ thuật
cụ thé tương ứng với từng loại tan công Ngoài ra còn có các thông tin chi tiết khác
25
Trang 38về kỹ thuật tấn công đó, ví dụ như tài liệu tham khảo và các giải pháp được đề xuất
để giảm thiểu hoặc phát hiện mối de doa
Credential Defense Evasion 'Access
ishing Audio Capture
Automated
Communication
‘Through Removable Media
Hinh 2.8: MITRE ATT&CKTM danh cho doanh nghiép, nam 2020 [19]
2.5.2 Phan tích xâm nhập với mô hình kim cương (Diamond Model)
Mô hình kim cương [20] thu thập các yếu tố cơ bản từ các hoạt động xâm nhập, baogồm bốn đặc điểm chính là kẻ tan công, cơ sở hạ tầng, khả năng tan công và nạn
nhân Các đặc điểm này sau đó sẽ được kết nối với nhau đề thé hiện mối quan hệ cơ
bản giữa chúng và được sắp xếp theo hình dạng của một viên kim cương, đó cũng là
lý do vì sao nó được đặt tên là mô hình kim cương.
Khen uu Adversary
Result Direction Methodology Resources
Infrastructure Capability
Victim
Hình 2.9: Mô hình kim cương [21]
26
Trang 39Mô hình kim cương cung cấp thông tin tình báo mối đe doạ tập trung cho việc săn tìm mối đe doạ Mỗi đỉnh của kim cương đại điện cho một chiến thuật, kỹ thuật và quy trình của kẻ tan công.
2.5.3 Mô hình săn tim mối de doa
Một mô hình săn tìm mối đe doạ cơ bản bao gồm sáu giai đoạn là mục đích (Purpose), phạm vi (Scope), trang bị (Equip), đánh giá kế hoạch (Plan Review), thực thi (Execute) và cuối cùng là giai đoạn phản hồi (Feedback) Các cuộc săn tìm
mối đe doạ thường được diễn ra theo chu kỳ để đảm bảo rằng các kết quả cũng như
bài học kinh nghiệm từ những cuộc đi săn trước đây có thé đóng góp dé phát triển các cuộc săn tìm môi de doa trong tương lai Chu kỳ săn tìm mối de doa bao gồm sáu bước sẽ được thực hiện tuần tự như sau:
© Muc đích: là giai đoạn đầu tiên của chu kỳ săn tìm mối đe doạ Ở giai đoạn
này, cần phải xác định được mục đích và kết quả mong muốn của việc săn
tìm mối đe doa.
e Pham vi: là giai đoạn xác định phạm vi thực hiện cuộc săn tim mối đe doa,
bao gồm cả việc phát triển một kế hoạch chỉ tiết về nơi thu thập dữ liệu cũng như phát triển các giả thuyết (còn có thé hiểu là các câu hỏi cần phải tìm ra câu trả lời như có mã độc hay không, có ngăn chặn được chưa, những nơi nao đã bị ảnh hưởng bởi mã độc, ).
e Trang bị: là giai đoạn tập trung vào việc tim hiểu chi tiết để hiểu rõ hơn về
đặc thù của các loại tắn công bằng cách sử dụng dữ liệu (từ nguồn thông tin tình báo mối đe doa) và các công cụ kỹ thuật để phân tích; từ đó đưa ra câu trả lời cho các giả thuyết đã đề ra ở giai đoạn trước.
¢ Đánh giá kế hoạch: là giai đoạn đảm bảo các giả thuyết và phạm vi của cuộc
săn tìm mối đe doạ đáp ứng được mục đích ban đầu của cuộc săn tìm.
27
Trang 40e Thực thi: là giai đoạn triển khai kế hoạch sau khi nó đã được phê duyệt, cuộc
đi săn thật sự lúc này sẽ diễn ra và “kẻ đi săn” sẽ thu thập và phân tích dit
liệu dựa trên các giả thuyết đã đề ra ở giai đoạn trước.
© Phản hồi: là giai đoạn cuối cùng của cuộc săn tìm mối đe doa Ở giai đoạn
này, toàn bộ chu kỳ của cuộc săn tìm sẽ được đánh giá tông quan dé tìm ra những ưu điểm có thé phát triển trong những lần săn tìm tiếp theo.
FEEDBACK
ent well?
be
Hình 2.10: Mô hình săn tim mối de doa bao gồm 6 giai đoạn [21]
2.6 Mạng kha lập trình (Software — defined Networking)
Mang khả lập trình là một kiểu kiến trúc mang mới cho phép kiến trúc mạng có thé được lập trình dựa trên việc phân tách luồng đữ liệu (Data Plane) và luồng điều
khiển (Control Plane) Bằng cách này, mạng khả lập trình cho phép bộ điều khiển mạng (Controller) có thể được lập trình trực tiếp và cơ sở hạ tầng cơ bản được trừu
tượng hoá cho các ứng dụng và dịch vụ mạng Mục tiêu chính của mạng khả lập trình là cải thiện khả năng kiểm soát mạng bằng cách cho phép quản trị viên có khả
28