Một hệ thống phát hiện xâm nhập IDS áp dụng nền tảng mô hình FL, tối ưu số lần cập nhật tham số giữa master và các workers dé giảm thiểu tài nguyên mang và tính toán cho các thiết bị IoT
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HQC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG
CHAU THANH TUAN - 19522463 NGUYEN MY QUYNH - 19520241
KHOA LUAN TOTNGHIEP
XAY DUNG VA TOI UU
HE THONG FEDERATED IDS
BUILD AND OPTIMIZE
FEDERATED IDS SYSTEM
KY SƯ NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
TS LE KIM HUNG THS LE MINH KHANH HOI
TP HO CHi MINH, 2023
Trang 2Lời Cảm Ơn
Lời đầu tiên, chúng em xin gửi lời cảm ơn đến các Thầy/Cô khoa Mạng máy tính và Truyền thông
đã tận tình chỉ dạy và truyền tải cho chúng em kiến thức nền tảng quý báu trong suốt những năm đại học vừa qua Chúng em cũng xin gửi lời cảm ơn đến trường Đại học Công Nghệ Thông Tin - Đại Học Quốc
Gia TPHCM đã tạo điều kiện để chúng em có cơ hội giúp bản thân tích lũy được nhiều kiến thức, kinh
nghiệm và kỹ năng can thiết cho tương lai Chúng em kính chúc khoa Mang máy tính và Truyền thông nói riêng cũng như trường Đại học Công Nghệ Thông Tin — Dai Học Quốc Gia TPHCM nói chung sẽ đạt được nhiều thành tựu to lớn trong lĩnh vực đào tạo và nghiên cứu khoa học, phát triển nhân tải cống hiến
em sức mạnh lớn về mặt tinh thần, để chúng em mau chóng quên đi bỡ ngỡ, hòa nhập nhanh hơn với môi
trường mới và những con người mới.
TP Hồ Chí Minh, ngày tháng năm 2020
Nhóm tác giả
Trang 3ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHE THONG TIN ————
DE CƯƠNG CHI TIẾT
TÊN DE TÀI:
- _ Tiếng Việt: Xây dựng và tối ưu hệ thống Federated IDS
- _ Tiếng Anh: Build and optimize Federated IDS system
Cán bộ hướng dẫn: TS Lê Kim Hùng, ThS Lê Minh Khánh Hội
Thời gian thực hiện: Từ ngày 27/02/2023 đến ngày 30/06/2023
Sinh viên thực hiện:
Châu Thanh Tuan — 19522463 - 0776914765
Nguyễn Mỹ Quỳnh — 19520241 - 0932883682
Nội dung đề tài:
IDS là cơ chế bảo vệ mặc định và được sử dụng rộng rãi trong các thiết bị loT IDS yêu
cầu các kỹ thuật mạnh mẽ và cải tiễn để tồn tại trước các hoạt động độc hại tiên tiến Tuynhiên, các cuộc tan công zero-day, các kỹ thuật tan công đột phá và các hacker lập di
khiến bat kỳ IDS nào cũng trở nên lỗi thời khi đối mặt với các cuộc tan công mới Débảo vệ chống lại các hoạt động độc hại gây rỗi như vậy, IDS cần cải tiến liên tục với tốc
độ thay đôi của các mẫu lưu lượng truy cập
Các giải pháp Trí tuệ nhân tao (AI) như Deep Learning (DL) và Machine Learning (ML)
đã thu hút được sự chú ý lớn trong việc phát triển các kỹ thuật phát hiện xâm nhập và bất
thường Nghiên cứu chỉ ra rằng độ chính xác của các mô hình phát hiện xâm nhập tỷ lệ
thuận với lượng đữ liệu huấn luyện Tuy nhiên, mỗi thiết bị loT có một lượng đữ liệu
hạn chế dẫn đến làm suy yếu các mô hình riêng biệt Không nên thu thập dữ liệu cục bộ
của các thiết bị IoT vì dữ liệu có độ nhạy cảm cao Các mẫu lưu lượng khác nhau trênmỗi thiết bị thông minh có thể được sử dụng đề đào tạo IDS Nếu dữ liệu của tất cả các
li
Trang 4thiết bị được sử dụng đề đào tạo, thì hiệu suất của mô hình có thê được cải thiện Tuy
nhiên, việc tập trung dữ liệu để đào tạo là không khả thi do các hạn chế về nguồn lực,
các lo ngại vê bảo mật và quyên riêng tư.
Vi hai trở ngại đáng kể này, dé tài hướng đến việc xây dựng một mô hình IDS ứng dụng
mô hình học liên kết (Federated Learning) có độ chính xác cao, triển khai mô hình lên
các thiệt bị IoT va tôi ưu hóa sô lân chuyên giao mô hình giữa các worker và server.
Đối tượng và phạm vi nghiên cứu: Khóa luận nghiên cứu kiến trúc cho hệ thống phathiện xâm nhập (IDS) cho IoT; nghiên cứu và ứng dụng mô hình Federated Learning dé
đạt được hiệu suât tot mà van đảm bảo quyên riêng tư cua dữ liệu.
e Nội dung 1: Tìm hiểu kiến trúc, cách thức hoạt động và cách triển khai mô hình
Federated Learning, tìm hiểu các công cụ hỗ trợ, thư viện liên quan
Phương pháp:
= Tham khảo các bài báo, tài liệu hướng dẫn, code triển khai Federated
Learning.
= Xem video mô phỏng mô hình Federated Learning.
= Tìm hiểu thư viện pysyft, cách làm việc với các worker va ứng dụng pysyft
trong Federated Learning.
e Nội dung 2: Tìm kiếm Dataset phù hợp cho IoT và thực hiện tiền xử ly dit liệu
Phương pháp:
= Tìm kiếm Dataset mới nhất, phù hợp nhất cho IoT
= Tham khảo về cách xử ly Dataset cũng như lựa chọn các thuộc tính tối ưu
và loại bỏ nhiêu, ngoại lai.
11
Trang 5¢ _ Nội dung 3: Tìm hiểu học sâu, cách xây dựng và triển khai mô hình học sâu, ứng
dụng xây dựng mô hình cho việc phát hiện xâm nhập phù hợp với Dataset đã chọn
" Đọc tài liệu về cách đánh giá và xử lí giá trị bất thường.
=" Đềxuất phương pháp tối ưu dé giảm số lần chuyền giao và cập nhật mô hình
nhưng vẫn đảm bảo cho kết quả tốt nhất.
¢ _ Nội dung 5: Thực nghiệm và đánh giá kết quả.
Phương pháp:
" Xay dựng mô hình học sâu phát hiện xâm nhập áp dụng mô hình Federated
Learning.
= Kiểm tra luồng hoạt động của mô hình.
= Sử dụng các kĩ thuật đánh giá độ chính xác, thời gian đào tạo, chuyền giao
mô hình.
Kết quả mong đợi:
© _ Thiết kế được hệ thống phát hiện xâm nhập có độ chính xác cao (Trên 90%)
© _ Triển khai lên các thiết bị loT
¢ Tdi ưu số lần cập nhật tham số giữa worker và master.
Kế hoạch thực hiện:
1 01/03 - 15/03: Tìm hiểu mô hình Federated Learning và hệ thống áp dụng mô hình
Federated Learning.
2 16/03 — 31/03: Tìm kiếm Dataset hiện đại, phù hợp cho IoT.
3 01/04 — 30/04: Tiền xử lý dataset mới, chỉnh sửa code, đề xuất mô hình mới phù hợp
với dataset mới
iv
Trang 601/05 — 08/05: Tôi ưu hóa các tham sô đê tăng hiệu suât mô hình.
09/05 — 16/05: Áp dụng mô hình lên các thiết bị IoT.
17/05 — 31/05: Giảm thiểu số lần chuyền giao mô hình mà vẫn đảm bảo độ chính xác
hệ thống.
01/06 — 30/06: Thực nghiệm, đánh giá kết quả đạt được Viết báo cáo về quá trình thực
hiện đề tài.
Xác nhận của CBHD TP HCM, ngày 16 tháng 03 năm 2023
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Tuan Quynh
Châu Thanh Tuấn Nguyễn Mỹ Quỳnh
Trang 7CHƯƠNG 1 MỞ ĐẦU
11 "0/10 —¬ 2
1.2 DAT VAN DE
1.3 MỤC TIÊU CUA DE TÀI
1.4 [290199 1c0 0:7 0004016:/05)160000Ẻ 4
BI, nghién CUA n 8 Ô 4
1.4.2 Pham vi nghién 5n ốc Ặ.ẶcAIẠỤI Ầ 4
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 W Ð/c9)00904:0 21011555 5
21.2 CC MO’ de dO nha 6
2.2 GAFGYT ATTACK VA MIRAI ATTACK sseecsesssessssesssesesseesseeessecsnecnseessnesssessseesssesssesssneessecsnssssessasesssecssetssnesssecsseees 7 2.2.1 Botnets và DDOS tt HH HH HH HH HH Hà HH HH rc 7
2.2.2 Gafgyt Attack và Bashlite AtfqCĂ csceseestesescsseseesessesseseesesssesssssaeesssesaessssessesssessssssessesessesseseeae D
2.2.3 Biện pháp phòng CHONG vcssssssscssscssesesessssesssvssssssssssssssessesesssesnsnsssnussunuinsssseseeeeeeessssssnsnssunusssseseeceeeeessesssannanee 12
2.3 MAY HỌC
2.3.1 Tổng quan máy h0C cessssssscssseessvvvssvesssseeesesssesssssssnvussnssnsssssssceceeeceessssisuuuunnunnnnsnssssseeceeeseeessissumnnnnnnnsnnnseeeeeeeeee 12
2.3.2 Phân loại
2.3.3 Ưu điển và nhược điỂm sọc nhọ vn re 15
2.4 NEURAL NETWORK ssssessssseesssssescssseneasssscesssesessssessssvesensiscssssvsesssisssssseesssesessssecessivseesseeesssueessieessssvecessestssseeessses 15
1N, g5 nh n.ố.ốe 15 2.4.2 Kiến trúc Neural network sssssssssssssssssssssssvsssssssssssssesseeeeseessssnssnsssunussssseseeeeeeeesesssannassunmnsssseseeeeeeeessensnanannee 16 2.4.3 Ung dung Neural network.ccccsssssssssssvssssssssssssssscssssssssssssssssssssunssssssssecescsssssssssnisssisuusssssssssceecessssssssnssssnsssneaeeee 17
2.5 HỌC LIEN KET (FEDERATED LEARNING) scssessssssesseessesseesesucenessesuesuecsncesecnessnesuesuecseesucsussseeauesueeaeeaneeneaseeanenneensens 18
DST TONG QUAM na:‹14 HHẬHặăH _
3.3.1 Đào tạo mô hình
3.3.2 Đào tạo mô hình áp dụng Federated Learning
3.3.3 Đào tạo mô hình áp dụng Federated Learning được toi tru hóÓa 55 55cccssccerveteereeeteereerereeerrcev 27
vi
Trang 8CHƯƠNG 4 KÉT QUÁ THỰC NGHIỆM
CHƯƠNG 5 KET LUẬN VÀ HƯỚNG PHAT TRIÊN
5.1 KET QUA DAT ĐƯỢC
5.2 HƯỚNG PHAT TRIEN TIẾP THEO sssssssesssessseesseesssseestscsnsccssccssscssssesneesbocsssesssscssssessscsssecssecssscsssecssecsssessneessnseaneeess 49
vi
Trang 9DANH MỤC HÌNH ANH
Hình 2-1 Lợi ích của ÍO TẺ «1 1 1 91191 91193910 1 0H HH HH TT TH TH HH HT 5
Hình 2-2 Các mối đe dọa đối với IoT - ¿-©+++2E+++t2EE++tEEEEEEEEELEEEELLEEEErieriirrirrii 7
Hình 2-3 Phương pháp lây nhiễm IoT' Botnet ¿5-5 25 StS£ SE E£EESE‡E£EEEEEEEEEEEEEEEEEEEEEEEEEEErErrerkrrerrrs 8
Hình 2-4 Username va Password trong source code của ÌMITa1 - - 5 5 + xxx ng 11
Hình 2-5 Ung dụng của máy h0C cecsccsscssssssessssessessessessessesussvcsvcsssesscssesussucsucsscsessessssussucsusavesessesseesesaease 13Hình 2-6 Kiến trúc mạng Neural netWOFK -¿- 2: 5c 5£©S£2EE2EE£EE+2EESEEEEEEEEEE2E121127112711211 21121 2 17
Hình 2-7 Phương pháp học liên KẾT - ¿2 2 + +E£+S£+EE£EE#EEEEEEEEEEEEEEEEEEEEEEEEE71121121171712211 11111 19
Hình 3-1 Mô hình tổng quan hệ thống dé XuẤt ¿- ¿2° +E+SE+SE+EE+E£+E£EE£EEEEEEEEEEEEEEEE2EEEEEEEErkrree 23Hình 3-2 Mô hình dự đoán mối đe dọa .: 52:55+2t22E++t 2E 2E tt EttEktrtttttrrtrrirrrtrerrrre 24
Hình 3-3 Cac kĩ thuật nén và giải nén dữ lIỆU - - - - + +11 HH ng HH Hàng 25
Hình 3-4 Tối ưu hóa mô hình theo cách kiểm tra thay đổi của ÏOSS - 2 2 22 2+S£+£++£s+zxzsezz 28Hình 3-5 Tối ưu hóa mô hình theo cách kiểm tra độ chính xác trước và sau khi đảo tạo 29
Hình 4-2 Giao diện trang discover ElasfICS€ATCÌ - - 6 2c 2 1821118311 83911 1311 9111 911 1 911 81 ng ng rry 43 Hình 4-3 Log trong quá trình đào tạo mô hình - + 6 1x 1 91 91 93 1121 H1 HH HH ngưng 44 Hình 4-4 Lọc các log trong quá trình đào tạo mô hình - -¿- + + 2222 E333 *#EESEEeeErekeeeeerersesse 45
Hình 4-5 Giao diện chính trang web ứng dụng hệ thống - + 2 ¿+ + E+EE+E£+EE+E++E£zE££EerEerxerxsxez 45Hình 4-6 Kết quả dự đoán lưu lượng mạng từ file ŒSV - 2-2 252 £+E+E£EE£EESEEEEEEEEEEEEEEEerkerkerkrree 47Hình 4-7 Thực hiện tấn công mirai udp 2- 2 2 2 £E+E£EE#EE#EE+EEEEEEEEEEEEEEEEEEEEEEEEEEE2EE1E1EEErkrree 48Hình 4-8 Dự đoán mối đe dọa thời HAN HU 1 ‹sa 48
VI
Trang 10DANH MỤC BANG
Bảng 1-1 Top 10 quốc gia là nơi xuất phát của các cuộc tan công mạng bang botnet mirai 3
Bang 2-1 Các thành phan trong BOfnet - 2-2-2 ©5£2S£SE+EE£EEEEE2EEEEEEEEEEEE2E1717112112117171 7111111 cxe 9Bang 3-1 Ý nghĩa các hang số trong Early Stopping - ¿+52 2+EE+EE£EE2EE2EEEEEEEEEEkrrkerkerreee 25
Bang 4-1 Các thiết bị thương mại bị nhiễm botnet 2-2: + 2 £SE+EE£2E££EE+EE£EEZEEEEEEEEerkerrerrsers 30Bảng 4-2 Phân loại mối đe đọa -¿- ¿S519 EEE2E121212171711112112112111111111111111 11111111 31Bảng 4-3 Ý nghĩa của các biến thống kê -2- 2£ 2 SESE£SE2EEEEEEEEEE211221717112112117171 211111110 32Bảng 4-4 Mô tả ngắn gọn ý nghĩa của các đặc trưng trong tập dữ liệu NbaloT - - 33Bang 4-5 Các biện pháp thống kê áp dung cho từng loại đặc trưng trong tập dit liệu NbaloT 34
Bang 4-6 Đánh giá thực nghiệm mô hình không áp dụng FL, ¿55 32+ +22 £**E+*vE+eexeesseereeersss 39
Bảng 4-7 Đánh giá mô hình áp dụng FL truyền thống 2-22 5¿2+£2++2E+2EE+2E+tEE++Ex+zzxrzxrerxeee 40Bảng 4-8 Đánh giá mô hình áp dụng FL được tối ưu hóa theo cách kiểm tra thay đổi của loss 40Bảng 4-9 Đánh giá mô hình áp dụng FL được tối ưu hóa theo cách kiểm tra độ chính xác trước và sau
1X
Trang 11DANH MỤC TỪ VIET TAT
Từ Nội dung Diễn giải
CnCs Command-and-Control Server Máy chủ ra lệnh va quản li botnet
DDoS Distributed Denial Of Service Tân công từ chối dich vu phân tán
DNS Domain Name System Hệ thống phân giải tên miền
ELK Elasticsearch, Logstash và Kibana | Ba phần mềm cốt lõi đi kèm với nhau, phục vụ cho
công việc giám sát hệ thống
FL Federated Learning Hoc lién két
IoT Internet of Things Mang lưới van vật kết nối Internet
ML Machine Learning May hoc
IDS Intrusion Detection System Hệ thống phát hiện xâm nhập
Trang 12TÓM TÁT KHÓA LUẬN
Công nghệ IoT phát triển dẫn đến sự ra đời ngày càng nhiều của các mỗi dedọa nhắm đến IoT Thế nhưng, việc bảo mật cho chúng lại chưa được quan tâm từphía nhà sản xuất lần người dùng, các thiết bị IoT chi được trang bị các phương phápbảo mật truyền thống như bảo mật dựa trên các quy tắc có định (rule-based security)
Các mối đe dọa ngày càng tinh vi có thé dé dàng vượt qua các lớp bảo mật thô sơ đó,
do đó, việc áp dụng ML để phát hiện các mối đe dọa đã trở thành xu hướng Tuynhiên, bản than ML cũng tiềm ấn nhiều rủi ro, chang hạn như vi phạm quyền riêng tưcủa dữ liệu Do đó, chúng tôi quan tâm đến học liên kết (FL), mô hình có thể tận dụngtốt khả năng của ML mà vẫn đảm bảo quyền riêng tư của dit liệu
Trong khóa luận này, chúng tôi sẽ thảo luận về các mối đe dọa phô biến màToT phải đối mặt Bên cạnh đó, chúng tôi đề xuất mô hình phát hiện mối đe dọa dựa
trên bộ dit liệu NBaloT Cuối cùng, chúng tôi sẽ đưa ra kết luận về việc đánh giá hiệu
suất mô hình Ngoài ra, chúng tôi còn trực quan hóa và cung cấp giao diện web giúpviệc sử dụng hệ thống dễ dàng hơn
Thông qua khóa luận này, chúng tôi mong muốn đem lại cái nhìn khách quan
về các mối đe doa đối với IoT; cung cấp ki thuật phát hiện các mối đe dọa, góp phầngiảm thiểu các cuộc tan công Đồng thời, góp phần mở ra hướng nghiên cứu, phát
triên các công cụ bảo mật cho an ninh mạng hiện nay.
Trang 13Chương 1 MỞ ĐẦU
1.1 Tên đề tài
XÂY DỰNG VÀ TOI UU HE THONG FEDERATED IDS
(BUILD AND OPTIMIZE FEDERATED IDS SYSTEM)
1.2 Đặt van đề
Nhu cầu tiện ich của con người ngày càng tang cũng như các yêu cầu về hiệusuất, tự động hóa càng cao dẫn đến ngày cảng nhiều các thiết bị IoT hiện đại ra đời,trải dài trong mọi lĩnh vực, từ cung cấp tiện ích cá nhân cho đến các hoạt động giám
sát rộng lớn Do đó, nó đóng vai trò quan trọng, lưu giữ nhiều dữ liệu nhạy cảm và
đòi hỏi phải hoạt động tốt, không có độ trễ
Song song với sự phát trién của IoT, các môi de dọa ngày càng da dang vàtinh vi Kẻ tan công giờ đây không chỉ xâm phạm đến các thiết bị IoT mà còn biến
các thiệt bị đó thành công cụ đê tân công các mục tiêu khác.
Vào tháng 10 năm 2016, ba cuộc tấn công DdoS liên tiếp được thực hiện nhắmvào Dyn, một nhà cung cấp DNS lớn Chúng đã tạo ra nhiều thiệt hại và gián đoạn
cho nhiều dịch vụ và nền tảng Internet lớn bao gồm Netflix, PayPal, Visa, Amazon,New York Times, Reddit, GitHub, đối với một lượng lớn người dùng ở Châu Âu
và Bắc Mỹ Cuộc tấn công được cho là thực hiện từ một mạng botnet từ các thiết bịIoT bị xâm nhập như cameralP, TV thông minh, công khu dân cư, máy in, thậm chi
cả màn hình quan sát em bé, dé thực hiện hàng loạt DNS lookup
Các cuộc tấn công botnet trong loT ngày càng trở nên phố biến do việc triển
khai rộng rãi các thiết bị IoT và các lỗ hồng của chúng Cũng trong năm 2016, Việt
Nam đã bị ghi nhận là một trong những quốc gia là nơi xuất phát của các cuộc tan
công mạng bang botnet
Trang 14Quốc gia Tỷ lệ % của BotNet Mirai IPs
dùng.
Trang 151.3 Mục tiêu của đề tài
Đề tài được chúng tôi phát triển nham tìm hiểu một số mối đe dọa đối với hệthống IoT, ảnh hưởng của nó và cách phòng chống
Đồng thời, chúng tôi cũng thực hiện nghiên cứu, tìm hiểu về FL cũng như
cân nhắc ưu nhược điểm của mô hình sử dụng nó Một hệ thống phát hiện xâm nhập
(IDS) áp dụng nền tảng mô hình FL, tối ưu số lần cập nhật tham số giữa master và
các workers dé giảm thiểu tài nguyên mang và tính toán cho các thiết bị IoT sẽ đượcchúng tôi đề xuất, trình bay và tiến hành xây dựng
Sau cùng, chúng tôi cung cấp giao diện web dé người dùng có thé dé dàng
sử dụng mô hình đã dao tạo.
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
Khóa luận hướng đến việc nghiên cứu kiến trúc cho hệ thống phát hiện xâmnhập (IDS) trên các thiết bị IoT Chúng tôi cũng đã tìm hiểu và ứng dụng mô hìnhFederated Learning vào đề tài dé đạt được hiệu suất tốt mà vẫn đảm bảo quyền riêng
tư của dir liệu.
1.4.2 Phạm vi nghiên cứu
Nghiên cứu các cuộc tấn công Gafgyt Attack và Mirai Attack trên thiết bị IoT
Trang 16Chương 2 CƠ SỞ LY THUYET
2.1 Tỗng quan về IoT
2.1.1 Lợiích
IoT đề cập đến một mạng lưới các thiết bị được kết nối với nhau, giao
tiếp với nhau và với internet oT mang lại nhiều lợi ich trong nhiều lĩnh vựckhác nhau có thê ké đến như: cải thiện hiệu suất; giảm chi phí vận hành; nângcao trải nghiệm người dùng: thu thập, phân tích chỉ tiết khối lượng dữ liệu lớn;
cải thiện an ninh, bảo mật; giám sát, điều khién từ xa; và ngày càng được
phát triên, ứng dụng rộng rãi vào nhiêu lĩnh vực khác.
Cost savings and increased | T
productivity leads to le]
increased profitability ° Environment
Benefits Pollution levels, air quality,
flooding alerts
Innovation
New products and service
opportunities or new markets
Compliance
New and more effective ways to monitor and report compliance Business intelligence
requirements Allowing gathering of data to make better
decisions to benefit the organisation
Hình 2-1 Lợi ích cua loT
(Nguồn:
https://censis.org.uk/what-we-do/sensing-imaging-iot/internet-of-things-iot/the-benefits-of-iot/ )
Trang 172.1.2 Các mối đe dọa
IoT không ngừng thu thập thông tin người dùng để cung cấp tiện ích tốt nhất
và sớm nhất, do đó, nó lưu trữ nhiều dữ liệu riêng tư của người dùng Mặt khác, nănglực tính toán của các thiết bị IoT cũng được cải thiện dé phù hợp cho việc lưu trữlượng di liệu không 16 và khả năng xử lý nhanh chóng Do đó, nó trở thành mục tiêu
của những kẻ tấn công, không chỉ đánh cắp dit liệu người dùng, mà còn lợi dụng các
thiết bị IoT cho các hành động xấu của chúng
Botnets: Kẻ tan công có thé sử dụng phần mềm độc hại dé lây nhiễm số lượnglớn các thiết bị loT và biến chúng thành các bots, được xử dụng dé tấn công các thiết
bị khác hoặc tan công DDoS
Tan công từ chối dịch vu (DDoS): kẻ tan công tìm cách làm cho máy chủ, dich
vụ hoặc mạng mục tiêu không khả dụng cho người dùng hợp pháp của họ bằng cáchlàm cạn kiệt tài nguyên mục tiêu với lưu lượng truy cập xấu
Đánh cap dữ liệu: Các thiết bị IoT thường thu thập và lưu trữ các thông tinnhạy cảm Do đó, nó trở thành mục tiêu của kẻ tan công nhằm mục dich tài chính
hoặc các mục đích độc hại khác.
Vi phạm quyên riêng tw: Dữ liệu nhạy cảm của người dùng hoặc doanh nghiệpcũng có thé bị xâm phạm đề thu thập danh tính hoặc bán cho bên thứ ba
Trang 18su mÊ
Advanced Persistent @
Network tage Threat (APT)
Sensitive data leakage Malware @
‘Crucial High Medium
Hình 2-2 Các mối de dọa doi với loT
các bots đang hoạt động dé thu thập thông tin từ các bots đó và ra lệnh cho chúng
Bots có thé thực hiện nhiều nhiệm vụ khác nhau, bao gồm: quét các thiết bị khác dé
Trang 19tìm lỗ hỏng, lây nhiễm các thiết bị có lỗ hỏng, spam email, tăng tương tac,
Sự phát triển của IoT đi kèm với năng lực tính toán và băng thông mạng ngàycàng mở rộng đã tạo điều kiện lí tưởng cho kẻ tấn công Trong một cuộc tấn côngDDoS ngày nay, lưu lượng tan công có thê lên tới đơn vị Tbps, có thể phá vỡ thành
công các dịch vụ cơ ban, ảnh hưởng đên hang triệu người dùng.
& Control = Vulnerable devices
Interface results
® Commands ¥ | Notifications a
Hình 2-3 Phương pháp lây nhiễm IoT Botnet
(Nguồn: A Marzano et al., "The Evolution of Bashlite and Mirai loT Botnets, "
2018 IEEE Symposium on Computers and Communications (ISCC), Natal, Brazil,
2018, pp 00813-00818, doi: 10.1109/ISCC.2018.8538636)
Trang 20Thành phần Chức năng
Command and control | Nhận lệnh từ kẻ tấn công hoặc khách hàng của kẻ tấn
servers (CnCs) công và duy trì kết nối với các thiết bị bị nhiễm dé
truyền lệnhBots Gửi thông tin đến CnCs và thực thi lệnh
Scanners Thăm dò các thiết bị dé tìm cách xâm nhập
Loaders Xâm nhập vao thiết bị có lỗ hỏng, kết nôi đến
Malware servers đề tải và thực thi mã độc, biến thiết
bị trở thành bot Malware servers Lưu giữ các file mã độc
Database Lưu trữ các thông tin trong botnet như: các bot đang
hoạt động, thông tin thu thập được từ Scanners,
Internet of Things (IoT) Các thiết bị chứa lỗ hỏng có thê trở thành bot
Bang 2-1 Các thành phan trong Botnet
Hình 2-3 cho thấy các bước ma botnet hoạt động:
Scanners bắt đầu thăm dò các thiết bị IoT dé tìm lỗ hỏng
Kết quả thăm dò được gửi đến Database
Các thiết bị chứa lỗ hỏng được gửi đến cho Loaders
Xâm nhập vào các thiết bị chứa lỗ hỏng
Két nôi đên Malware servers đê tải và thực thi mã độc.
NM ® YN PF Kẻ tan công hoặc khách hang của kẻ tan công truy cập vào web interface
dé ra lệnh cho các bots.
7 CnCs sẽ truyền các lệnh đó đến các bots đang hoạt động
8 Cac bots tiến hành tấn công mục tiêu
2.2.2 Gafgyt Attack va Bashlite Attack
Gafgyt, hay còn gọi là Bashlite, là một phần mềm độc hại thuộc loại botnet
thường được sử dụng trong các cuộc tấn công DDoS Nó được phát hiện lần đầu vào
Trang 21năm 2014 và ké từ đó đã gây ra nhiều cuộc tan công nhắm mục tiêu là các trang web
và các máy chủ trò chơi.
Gafgyt thực hiện lây nhiễm các thiết bị IoT bằng cách lợi dụng các lỗ hỏngtrong thiết bị và lây nhiễm nó Sau khi bị nhiễm, các thiết bị trở thành một phần của
botnet Kẻ tan công có thé điều khiển các bots nam trong botnet này để tiễn hành tan
công DDoS vào các mục tiêu của chúng.
Tương tự như Gafgyt, Mirai cũng là loại botnet được sử dụng chủ yếu trong
việc tan công DDoS Nó được phát hiện lần đầu vào năm 2016 và thường nhắm đến
các trang web va các dich vụ trực tuyến.
Phương pháp tan công của Mirai cũng tương tự như Gafgyt, nó bắt đầu bằngviệc lây nhiễm các thiết bị IoT Mirai lợi dụng thông tin đăng nhập mặc định hoặcyếu để có quyền xâm nhập vào các thiết bị này Sau khi xâm nhập, các thiết bị cũng
sẽ trở thành một phan của botnet và bị kẻ tan công điều khiển dé tan công DDoS vàocác mục tiêu của chúng Điều khiến Mirai khác biệt là khả năng lây lan nhanh chóng,lây nhiễm cho hàng chục nghìn thiết bị trong vòng vài giờ Điều này là do nó quétInternet dé tìm các thiết bi dé bị ton thương, sử dụng danh sách tên người dùng và
mật khâu đã biệt đê có quyên xâm nhập vào máy mục tiêu.
10
Trang 22Username/Password |Manufacturer Link to supporting evidence
admin/123456 ACTi IP Camera 2s ili om/reports/ip-cameras-default-passwords-directoy
r0ot/anko ANKO Products DVR L i
rootlpass Axis IP Camera, et al Awww, Cleancss cc iter-default/Axis/0545
root/vizxv Dahua Camera L i i
root/888888 Dahua DVR http: (Aww cam-it org/index php ?topic=5035.0
roo686688 Dahua DVR http://www cameit orq/index.php topic=5035.0
root/7ujMkoOvizxv Dahua IP Camera http/Awww.cam-it.orq/index.php?topic=9396.0
root/7ujMko0admin Dahua IP Camera http-/www.cam-it.org/index php ?topic=9396.0
666666/666666 Dahua IP Camera http://www.cleancss.com/router-default/Dahua/DH-IPC-HDW4300C
root/dreambox Dreambox TV receiver https Jwww.satellites.co.uk/forums/threads/reset-root-password-plugin.101146/
rootlzlxx EV ZLX Two-way Speaker? |?
rootjuantech Guangzhou Juan Optical
rootxc3511 H.264 - Chinese DVR
root/hi3518 HiSilicon IP Camera
root/klv123 HiSilicon IP Camera
root/klv1234 HiSilicon IP Camera
roojvbzd HiSilicon IP Camera
root/admin IPX-DDK Network Camera xinc cor z ideo-servers/nelwoik-cz
root/system IQinVision Cameras, et al hftps:Jipvm.comirei ip-cameras-defaull-passwords-directory
admin/meinsm Mobotix Network Camera htto:/Awww.forum.use-ip.co.uk/threads/mobotix-default-password.76/
rootJ54321 Packet8 VOIP Phone, et al htto:webcache.googleusercontent.com/search?g=cache:W1phozOZURUJ:community.freepbx org/t/packet8-atas-phones/411!
root/00000000 Panasonic Printer https :/www.experts-exchange.com/questions/26194395/Default-User-Password-for-Panasonic-DP-C405-Web-Interface.html
rootlrealtek RealTek Routers
admin/1111111 Samsung IP Camera ;llipvm = ras o rds-di
root/xmhdipc Shenzhen Anran Security Camera |hfips://www.amazon.com/MenaPixel-VVireless-Network-Surveillance-Camera/product-reviews/300EB6FENDI
admin/smeadmin SMC Routers
rootikwb Toshiba Network Camera Ip;//fag.surveillixdvrsupport.comiind ior ikel%cat=4%id=8&artlang=e
ubnt/ubnt Ubiquiti AirOS Router Ip;/se e outer/ubiqui t i
supervisor/supervisor |VideolQ t con a ector
root/<none> |Vivotek IP Camera p 8 a irectos
admin/1111 Xerox printers, et al tps://atvourservice blogs xero 8/28/logging-in-as-system-administrator-on-your-xerox-printe
root/Zte521 ZTE Router http: ugs.com/2|
Hinh 2-4 Username va Password trong source code cua Mirai
(Nguồn:
https://krebsonsecurity.com/2016/10/who-makes-the-iot-things-under-attack/ )
Trong một cuộc tan công Gafgyt/Mirai, botnet sẽ làm tran ngập (flood) lưu
lượng truy cập vào các máy chủ mục tiêu, làm nó bị quá tải và không thê cung câp
dich vụ cho các người dùng hợp pháp Cuộc tan công đặc biệt hiệu quả vi botnet có
thể tạo ra một lượng lớn lưu lượng truy cập, lớn hơn nhiều so với những gì có thể
được tạo ra bởi một thiết bị hoặc một nhóm nhỏ các thiết bị
Dé bảo vệ chong lại các cuộc tan công Gafgyt/Mirai, cân phải luôn cập nhật các bản vá bảo mật mới nhât, thay đôi mật khâu mặc định và sử dụng mật khâu mạnh
cho bất kỳ quyền truy cập từ xa vào thiết bị Ngoài ra, quản trị viên nên giám sátmạng để phát hiện bat ky dau hiéu hoat động bất thường nao và nhanh chóng hạn chế
việc thiệt bi của họ tiép xúc với các môi de dọa bên ngoài.
11
Trang 232.2.3 Biện pháp phòng chống
Gafgyt/Mirai thường chiếm tương đối nhiều tài nguyên cho việc thực hiện tấncông DDoS, do đó, nó làm chậm hoạt động của thiết bị và giảm tốc độ truy cập mạng.Thông thường, mục tiêu của tấn công DDoS thường là các doanh nghiệp, nên ngườidùng cá nhân thường có xu hướng chủ quan Tuy nhiên, ngày càng nhiều thiết bị IoT
lưu trữ các thông tin nhạy cảm của người dùng cá nhân như: camera an ninh, thiết bị
y tế, nên chúng ta cần phải đặt nặng van đề bảo mật dé tránh bị đánh cắp thông tincũng như tiếp tay cho các hoạt động độc hại khác
Vi vậy việc chúng ta cần tuân thủ một số cách dé hạn chế việc bị nhiễm botnetscho các thiết bị là vô cùng cần thiết, chăng hạn: Thay đôi mật khâu mặc định và sửdụng mật khẩu mạnh, sử dụng cơ chế xác thực hai bước; luôn cập nhật bản vá bảo
mật mới nhất; sử dụng các phương pháp giao tiếp an toàn đã được mã hóa; cách ly
các thiết bị IoT với các hệ thông và mạng quan trong; quan lý quyền truy cập thiết bi,
dữ liệu, giới hạn các hành động mà các thiết bị IoT có thể thực hiện
Tuy nhiên, trên thực tế, các bước trên chỉ giúp giảm thiểu botnets xâm nhập
vào các thiết bị Một khi thiết bi đã bị xâm nhập (có thé do lỗ hỏng zero-day hoặc
gián điệp nội bộ ) thì các bước trên có thê không còn hiệu quả Do đó, cần có mộtIDS có tích hợp ML đề giám sát lưu lượng mạng, nhanh chóng phát hiện botnets để
cách li và xử lý.
Máy học
2.3.1 Tổng quan máy học
Máy học là một lĩnh vực con của trí tuệ nhân tạo liên quan đến việc tạo ra các
thuật toán và mô hình cho phép máy tính học hỏi từ dữ liệu mà không cần phải lập
trình chi tiết từng bước Cơ sở lý thuyết của học máy bao gồm một số khái niệm và
kỹ thuật chính: lý thuyết xac suất, số liệu thống kê, đại số tuyến tính, Thuật ngữ
máy học được đặt ra vào năm 1959 bởi Arthur Samue.
Máy học sử dụng các loại thuật toán dé phân tích dữ liệu đầu vào, sau đó học
12
Trang 24hỏi các đặc trưng của dữ liệu và đưa ra các dự đoán về dữ liệu đó Máy học giúpchúng ta đào tạo máy tính học cách thực hiện các nhiệm vụ mà ta mong muốn thông
qua các thuật toán và dữ liệu phù hợp, thay vì chúng ta phải lập trình, hướng dẫn cho
máy tính từng hành động cụ thê
2.3.2 Phân loại
Máy học được phân loại dựa trên cách mà nó học, bao gồm 4 hướng tiếp cận
chính: học có giám sát, học không giám sát, học bán giám sát và học tăng cường.
Image
Structure Classification
Discovery Feature e Customer
- @ Elicitation Fraud @ Retention
Recommended UNSUPERVISED SUPERVISED
Systems LEARNING LEARNING ® Predictions
2.3.2.1 Học có giám sat (Supervised learning)
Học có giám sat là loại học may ma các thuộc tính đã được định trước đê mô
13
Trang 25hình đánh giá về mối tương quan và nhãn của dữ liệu dao tạo cũng đã được gan bởicác chuyên gia trong lĩnh vực Trong loại học máy này, cả đầu vào và đầu ra đều đãđược chỉ định, mô hình sẽ tìm một hàm ánh xạ có thể dự đoán đầu ra chính xác cho
các đầu vào mới (chưa được gán nhãn)
Học có giám sát được sử dụng cho hai mục đích chính: phân loại
(classification) và hồi quy (regression) VD: Dự đoán giới tinh, dự đoán mức lương
2.3.2.2 Học không giám sát (Unsupervised learning)
Học không giám sát được dao tạo trên dt liệu chưa được gan nhãn, mô hình
sẽ phân tích toàn bộ tập dit liệu và tìm ra các mẫu hoặc các mối quan hệ giữa các
thuộc tính.
Học không giám sát được sử dụng cho việc phân cụm, phát hiện bất thường,giảm chiều dữ liệu,
2.3.2.3 Học bán giám sát (Semi-supervised learning)
Mô hình được đào tạo trên dữ liệu có gán nhãn sẽ đem lại hiệu suất cao hơn,tuy nhiên việc gán nhãn dữ liệu đòi hỏi phải có trình độ chuyên môn cao và tiêu tốnkhá nhiều thời gian Học bán giám sát sẽ giải quyết nhược điểm đó, loại học máy này
là sự kết hợp giữa hai mô hình trước đó Nó được cung cấp một lượng nhỏ các dữ
liệu được gán nhãn, từ đó, nó học được số chiều dữ liệu, mối quan hệ giữa các đặc
trưng dé áp dụng với các dữ liệu mới chưa được gan nhãn
Học bán giám sát được sử dụng cho việc dịch thuật, gán nhãn tập dữ liệu khac,
2.3.2.4 Học tăng cường (Reinforcement learning)
Học tăng cường hoạt động băng cách chỉ ra mục tiêu cần hoàn thành và mộtquy tắc các hành động dé đạt được mục tiêu đó Mô hình sẽ được tương tác với môitrường và nhận phản hồi với các hành động nó đã thực hiện trong môi trường đó Môhình sẽ học cách đạt được các phần thưởng — các hành động có lợi cho mục tiêu cuối
cùng và tránh các hình phạt — các hành động khiên nó xa rời mục tiêu.
14
Trang 26Học tăng cường được sử dụng cho việc dao tao robot, hướng dẫn máy tính
chơi game, quản li tai nguyén,
2.3.3 Ưu điểm va nhược điểm
Máy học giúp doanh nghiệp hiểu khách hàng của họ ở mức độ sâu hơn, giúp
cá nhân hóa các tư vấn, quảng cáo tiếp thị phù hợp với nhu cầu của từng khách hàngriêng biệt Máy học còn có thé tự động hóa trong nhiều lĩnh vực, giảm bớt chi phí chonguồn nhân lực Bên cạnh đó, nó còn có thể dễ dàng mở rộng, đôi mới nếu được liêntục cập nhật dữ liệu mới, chính xác giúp nắm bắt được xu hướng liên tục thay đôi của
người dùng.
Ngoài những lợi ích mà máy học mang lại, nó cũng đi kèm với nhiều nhượcđiểm Dé có được mô hình phù hợp, có thé sử dụng trong thực tế, cần phải có tập ditliệu chính xác và đủ lớn dé dao tạo mô hình, nó thường khá tốn kém và tốn thời gian.Việc thu thập dữ liệu người dùng cũng tiềm ân nhiều rủi ro ảnh hưởng đến quyền
riêng tư Mô hình máy học còn thiếu tính sáng tạo, nó không thé “nghĩ” điều gì khác
ngoài những gì được dao tạo Ngoài ra, may học như một hộp đen vì người dùng
không thể biết được các hướng phân tích dé đưa ra kết quả, do đó không thé kiểmchứng được kết quả của mô hình đưa ra
2.4 Neural network
2.4.1 Tổng quan Neural network
Neural Network, hay còn gọi là mang no-ron nhân tạo được phat triển dựa trênmạng thần kinh sinh học của não người, là một mô hình tính toán phức tạp bao gồmchuỗi các thuật toán được sử dụng để tìm ra các mối quan hệ, các liên kết trong một
tập dữ liệu.
Mạng nơ-ron nhân tạo này bao gồm nhiều nút tương tự như các tế bào thầnkinh, được kết nối với nhau, có nhiệm vụ tiếp nhận thông tin, truyền di liệu và thựchiện học hỏi, phân tích, tính toán ở nhiều đặc điểm, chỉ tiết khác nhau từ lượng lớn
dữ liệu đầu vào được cung cấp dé đưa ra kết quả tốt nhất, bắt chước chức năng của
não người.
15
Trang 27Neural Network được huấn luyện thông qua việc học các mau dit liệu Cácđiều chỉnh cần thiết trong mạng sẽ được diễn ra nhằm cải thiện, tinh chỉnh kết quả
trở nên phù hợp hơn.
2.4.2 Kiến trúc Neural network
Neural Network được cấu thành từ các nút được liên kết với nhau tạo thànhnhững tang perceptron, gồm ba thành phan chính: lớp đầu vào, lớp đầu ra và lớp ân
Mỗi mạng nơ-ron nhân tạo luôn có một lớp đầu vào, một lớp đầu ra, và có thé có
nhiều lớp ân
Lớp đầu vào (hay còn gọi là input layer): là lớp đầu tiên trong mạng, tiếp nhận
thông tin, xử li và biểu diễn dữ liệu, chuyền dữ liệu làm đầu vào cho lớp tiếp theo
Lớp ân (hay còn gọi là hidden layer): là các lớp ở giữa mạng, nằm giữa lớpđầu vào và lớp đầu ra, nhận đữ liệu từ input layer hoặc đữ liệu từ các hidden layer
trước, thực hiện một loạt các phép tính phức tạp dé học các chi tiết khác nhau của
dữ liệu qua từng lớp ân, tim ra mối tương quan và tinh chỉnh mạng một chút sau
mỗi lần học dé cải thiện kết quả cuối cùng, rồi chuyền dữ liệu làm đầu vào cho lớptiếp theo
Lớp dau ra (hay còn gọi là output layer): là lớp cuối cùng trong mạng, nhận dữliệu vào từ lớp an, thê hiện đầu ra của mạng sau qua trình phân tích, suy luận logic
từ đầu vào, có thể bao gồm một nút (phân loại nhị phân) hoặc nhiều nút (phân loại
Trang 283/2 Và CN
2X về aR OXIA NA VĂN `Œ@ 22 CSET SEU RN ON XS
RESO SQ Ore: peas S SRA cs oS a
BON “ZINN Wares S
UES
2S
@ Output Layer
@ Input Layer @ Hidden Layer
Hình 2-6 Kiến trúc mang Neural network
(Nguon:
https://www.researchgate.net/publication/350486076_Artificial_Neural_Network_S
ystems)
2.4.3 Ứng dung Neural network
Mang nơ-ron nhân tao đã và dang liên tục được sử dung trong rất nhiều lĩnh
vực khác nhau như khoa học, tài chính, giao dịch, giáo dục, y học, công nghệ
blockchain, phân tích kinh doanh, dự báo thời tiết, đánh giá rủi ro, cũng như được
mở rộng sang nhiều lĩnh vực ứng dụng mới
Những ứng dụng quan trọng và điển hình của Neural network có thể ké đếnnhư: Thị giác máy tính (trích xuất thông tin, đặc điểm từ nhiều hình ảnh và video,
phân tích, xử lí dé nhận diện, phân biệt hình ảnh); nhận diện giọng nói (trích xuất
đặc điểm từ giọng nói, phân tích, nhận dạng, xử lí với nhiều tông giọng và ngôn ngữ
17
Trang 29vùng miền khác nhau); xử lí ngôn ngữ tự nhiên (phân tích văn bản và tài liệu trongnhiều ngữ cảnh và ý nghĩa khác nhau); công cụ đề xuất (thu thập thông tin hành vi
người dùng dé tạo ra các đề xuất thích hợp)
2.5 Học liên kết (Federated Learning)
2.5.1 Tổng quan
IDS tích hợp ML đã đem lại nhiều đóng góp tích cức trong lĩnh vực an ninhmạng Tuy nhiên, việc các thiết bị gửi dữ liệu của chúng lên server trung tâm để đàotạo có thé dẫn đến rò ri dit liệu, xâm phạm quyền riêng tư Do đó, phương pháp họcliên kết được phát minh ra nhằm khắc phục nhược điểm này
FL bao gồm sever trung tâm (master), các thiết bị (workers) và tập dữ liệu trên
mỗi thiết bị Quá trình đào tạo của FL được diễn ra theo các bước sau:
1 Master gửi mô hình toàn cục đến các workers
Worker đào tạo mô hình cục bộ với dữ liệu của nó.
Worker gửi tham số của mô hình sau khi đào tạo cho master
Master cập nhật mô hình toàn cục dựa trên các tham sô từ worker.
A FY NY Lap lai từ bước 1 cho đến khi được mô hình tối ưu
18
Trang 30nã SG Update Model
Worker 1 Worker 2 Worker k
Dataset 1 Dataset 2 Dataset k
Hình 2-7 Phương pháp hoc liên kết
(Nguôn: I Chatterjee, “Patenting machine-learning: review and discussions,”
International Journal of Modern Research, vol 1, no 1, pp 15-21, 2021)
2.5.2 Uudiém
Quyền riêng tư: Vi worker chỉ gửi tham số chứ không gửi dữ liệu, dé liệu luônnam trên thiết bị nên đảm bảo được quyền riêng tư dữ liệu
Giảm độ trễ: Mô hình được đảo tạo cục bộ nên sẽ không phải tốn thời gian
truyền dữ liệu từ thiết bị đến server trung tâm
Tận dụng tối ưu tài nguyên: Các thiết bị giờ đây có thể được sử dụng đề đàotạo mô hình giúp tận dụng năng lực tính toán của các thiết bị IoT thay vì tập trung
gánh nặng cho master.
Khả năng mở rộng: FL cho phép mở rộng dé đáp ứng số lượng lớn thiết bị và
người dùng.
Tính mạnh mẽ: Dữ liệu nằm phân tán trên các thiết bị sẽ giảm thiệt hại khi gặp
sự cô hoặc bi tan công hon so với dit liệu tập trung tại một địa diém.
19
Trang 312.5.3 Nhược điểm
Tính không đồng nhất: Các thiết bị có thé có các phiên bản phần mềm, phancứng hoặc điều kiện mạng khác nhau có thể không tương thích được với mô hình
hoặc ảnh hưởng độ chính xác của mô hình.
Bảo mật: FL vẫn phải đối mặt với các cuộc tấn công: Poisoning Attack,
Reconstruction Attack.
Co sở ha tang: FL yêu cầu co sở hạ tang mạnh mẽ dé có thé duy trì các kết nối
giữa master và các workers và xử lý luông dữ liệu lớn.
20
Trang 32Chương 3 Mô hình hệ thống
3.1 Hệ thống đề xuất
Chúng tôi đề xuất hệ thống IDS cho IoT áp dụng Feaderated Learning, được
triển khai thực nghiệm trên 3 raspberry (kiến trac ARMv8, hệ điều hành Ubuntu 22.10
64 bit) bao gồm 1 raspberry đóng vai trò là master dé tong hop mô hình và 2 raspberryđóng vai trò là 2 worker dé đào tạo mô hình
Bộ dữ liệu được sử dụng dé dao tạo là NbaloT, cung cấp lưu lượng lành tính
và độc hại từ các thiết bị IoT bị nhiễm Mirai và Gafgyt
Quá trình đào tạo chính sẽ được xây dựng dựa trên phương pháp học liên kết:
Đầu tiên, master sẽ khởi tạo mô hình và gửi mô hình ban đầu đến cho các workers,worker sẽ đào tạo mô hình cục bộ với dit liệu của chính nó dé đảm bảo tính riêng tư
về đữ liệu trong Feaderated Learning và gửi tham số mô hình cho master Master thựchiện tính toán, tổng hợp tham số mới dé cập nhật mô hình toàn cục, mô hình đó sẽ
được master gửi đến tất cả workers và quá trình đào tạo được tiếp tục đến khi đạt
được kết quả mong đợi
Chúng tôi sử dụng kết nối socket dé master và worker thực hiện giao tiếp vớinhau Trong khi đào tạo, worker sẽ lưu các tham số của mô hình tốt nhất vào fileIoT_Intrusions_Detection.pth tương ứng Cu thé các giai đoạn đào tao mô hình được
chúng tôi thực hiện theo các giai đoạn sau:
Khởi tạo mô hình và thiết lập kết nối: Master sẽ khởi tạo mô hình toàn cục,
sau đó nó mở công dé lăng nghe kết nối socket từ các workers Các workers kết nốisocket với master, sau khi đủ số lượng workers mong muốn, master sẽ dừng lắng
nghe socket, broadcast mô hình đến các workers và tiễn vào giai đoạn đào tạo
Dao tạo mô hình: Worker đào tạo mô hình cục bộ với dữ liệu cục bộ của nó.
Sau khi đào tạo đủ số epoch cục bộ được chỉ định hoặc khi mô hình đạt EarlyStopping, nó sẽ ngừng đào tạo và gửi mô hình cục bộ tốt nhất đến cho master Đồngthời tham số mô hình tốt nhất cũng được lưu vảo file IoT_ Intrusions_ Detection.pthtương ứng với worker đó, VD: workerl sẽ lưu tham số vào fileIoT_Intrusions_Detectionl.pth, worker2 sẽ lưu tham số vào file
21
Trang 33loT_ Intrusions_ Detection2.pth,
T ổng hợp mô hình: Master đợi nhận đủ hết tất cả mô hình cục bộ từ cácWorkers, sau đó nó sẽ tính trung bình các tham số từ các mô hình đó va tong hợp
thành mô hình toàn cục mới Từ mô hình mới này, nó sẽ đánh giá độ chính xác của
mô hình và broadcast đến các workers để tiếp tục đào tạo cho đến khi không còn
worker nào tham gia đào tạo Đồng thời sẽ lưu mô hình mới này vào fileIoT_Intrusions_Detection.pth dé sử dụng cho việc đánh giá và sử dụng sau này
Giám sát quá trình dao tạo: Trong khi đào tạo, các chỉ số của RAM, CPU đã
sử dụng, độ chính xác qua các epoch toàn cục được gửi lên hệ thống giám sát dé dễ
dàng theo dõi.
Hệ thống ELK được tích hợp để giám sát tiến trình cũng như tai nguyên và
hiệu suất đào tạo Log của quá trình dao tạo sẽ được ghi lại, gửi trực tiếp đến hệ thốngELK dé giám sát theo thời gian thực
Cuối cùng, một giao điện web được cung cấp đề triển khai ứng dụng mô hình
đã đào tạo, với các tính năng thân thiện và dễ sử dụng với người dùng nhằm trực quan
hóa giai đoạn thực nghiệm Trang web này sẽ tải các tham số của mô hình từ fileIoT Intrusions Detection.pth dé thực hiện dự đoán dựa trên input từ người dùng, baogồm 2 tính năng chính: dự đoán dựa trên tệp lưu lượng mạng sẵn có và giám sát thờigian thực dé dự đoán lưu lượng mạng được nam bắt từ card mạng của thiết bị Các
cảnh báo về môi đe dọa sẽ được hiên thi trực tiêp trên màn hình cho người dùng.
22
Trang 34Train Logging Benign traffic
Hình 3-1 Mô hình tổng quan hệ thống đề xuất
3.2 Mô hình phát hiện mối đe doa
Chúng tôi xây dựng mô hình học sâu bằng cách sử dụng lớp nn.Module của
mô hình PyTorch bao gồm 2 lớp 1D Convolution và 3 lớp Linear.
Mô hình nhận 2 tham số: số thuộc tính và số lớp (số lượng mối đe dọa) Đầuvào của mô hình là 775 thuộc tính trong bộ dữ liệu NBaloT và đầu ra là danh sách
xác suất tương ứng khả năng mà record thuộc về lớp đó Danh sách đầu ra bao gồm
benign, gafgyt_combo, gafgyt Junk, gafgyt_scan, gafgyt_udp, mirai_ack,
mirai_scan, mirai_syn, mirai_udp, mirai_udpplain Từ danh sách đó, chúng tôi sé lấy
ra xác suât lớn nhât và đưa ra dự đoán môi đe dọa tương ứng.
23
Trang 35Hình 3-2 Mô hình dự đoán mối de doa
3.3 Đào tạo mô hình
Dé đào tạo và đánh giá mô hình, chúng tôi cung cấp ham train và ham test
Trong ham train, chúng tôi sẽ duyệt qua từng record, lay kết quả dự đoán của
mô hình đối với record đó và sử dụng hàm mat mát dé tính toán sự khác biệt giữa đầu
ra dự đoán và đầu ra thực tế Sau đó, chúng tôi sử dụng trình tối ưu hóa để cập nhậtcác tham số trong quá trình đào tao dé giảm thiêu ham mất mát, từ đó cải thiện hiệu
các record được sử dụng dé đánh giá
Đề giảm thiểu thời gian đào tạo nhưng vẫn đảm bảo hiệu suất mô hình, chúng
tôi thêm vào cơ chế Early Stopping cho mô hình Đầu tiên, chúng tôi đặt ngưỡng
early_stop_thresh, best_accuracy, best_epoch và expected_threshold Sau khi mô
hình đào tạo xong | epoch, chúng tôi sẽ tiến hành đánh giá độ chính xác của mô hình
trên test_dataset thông qua hàm test, chúng tôi sẽ kiểm tra độ chính xác đó có lớnhơn (best_accuracy + expected_threshold) hay không Nếu có, mô hình sẽ được lưu
24
Trang 36lại đồng thời lưu độ chính xác đó cùng với epoch đó vào best_accuracy và best_epoch
tương ứng Ngược lại, mô hình sẽ kiểm tra nếu (epoch hiện tại - best_epoch) >
early_stop_thresh thì sẽ ngừng đào tạo và load mô hình tốt nhất đã đào tạo
Hằng số Y nghiaearly_stop_thresh | Ngưỡng tối da ma mô hình được đào tạo khi độ chính xác liên
tục không tăng quá ngưỡng mong đợi
best_accuracy Độ chính xác cao nhất từng ghi nhận trong quá trình đào tạobest_epoch Epoch mà mô hình đạt đến độ chính xác cao nhất
expected_threshold | Ngưỡng thay đổi độ chính xác của mô hình mà chúng tôi
mong đợi tăng lên sau khi đào tao so với best_accuracy
Bảng 3-1 Ý nghĩa các hăng số trong Early Stopping
Ngoài ra, chúng tôi còn hỗ trợ kĩ thuật nén và giải nén dit liệu trao đổi giữamaster và các workers, góp phần giảm thiểu gánh nặng giữa những lần trao đổi môhình Tùy vào từng loại kĩ thuật mà hiệu suất nén và thời gian nén sẽ khác nhau,nhưng nhìn chung, sẽ có sự đánh đôi giữa hiệu suất và thời gian, hiệu suất cảng tốt
thì thời gian xử lý cũng sẽ càng cao.
25
Trang 37Hình trên là các kĩ thuật nén và giải nén dữ liệu sử dụng thư viện compress
của Python, bao gồm LZ4, BZ2, LZMA, GZIP Mỗi loại kết quả đều bao gồm: Tên
ki thuật, dung lượng sau khi nén/giải nén, tỉ lệ dung lượng cua dữ liệu nén/giai nén
so với dung lượng đữ liệu ban đầu và thời gian dé nén/giai nén đữ liệu đó Dữ liệu
sau khi nén giảm không nhiều, nhưng thời gian nén và giải nén tương đối nhỏ chonên đây cũng là biện pháp đáng dé cân nhắc Tuy nhiên, dé tối ưu hơn, chúng tôi cungcấp hai kĩ thuật đánh giá hiệu suất mô hình trong quá trình dao tạo dé quyết định cónên gửi mô hình hay không, góp phần giảm đáng kê gánh nặng giữa những lần traođổi dữ liệu giữa master và các workers
Chúng tôi cung cấp 3 chế độ đảo tạo: đào tạo không áp dụng FL, đào tạo có
áp dung FL va dao tạo có ap dụng FL được tối ưu hóa dé hỗ trợ cho nhiều mục đích
sử dụng.
3.3.1 Đào tạo mô hình
Chế độ này đơn giản nhất, không phân chia master và worker nên không cần
các kĩ thuật kết nối phức tạp, thường được sử dụng cho việc chạy thử mô hình hoặc
đánh giá hiệu suất mô hình
Đầu tiên, hệ thong sẽ đọc dữ liệu từ file csv và tiến hành tiền xử lý dit liệu,Sau đó nó sẽ qua ham train dé dao tao và hàm test dé đánh giá mô hình sau dao tạo
cho đến khi đủ số lượng epoch hoặc cho đến khi đạt Early Stopping
Chúng tôi thử nghiệm mô hình này với 3.000.000 dữ liệu đào tạo và 700.000
dữ liệu kiểm thử Chúng tôi ghi nhận mô hình đạt hiệu suất cao trong 5 lần đánh giá
(>98%):
3.3.2 Đào tạo mô hình áp dung Federated Learning
Dữ liệu được năm trên chính các Workers giúp đảm bảo quyền riêng tư dữ liệu
và tận dụng tốt các tài nguyên tính toán từ nhiều thiết bị Chúng tôi sử dụng Sockettrong Python và áp dụng đa luồng để quản lý việc giao tiếp giữa master và các
workers.
Đâu tiên master khởi tạo trình lăng nghe két nôi socket va chờ đợi các workers
26
Trang 38kết nối đến Khi đủ số lượng worker kết nối, master sẽ gửi tham số mô hình cho các
workers và các workers sẽ đào tạo mô hình cục bộ với dữ liệu của chính nó và sau đó
gửi tham số mô hình cho master dé tổng hop Sau khi nhận đủ các tham số mô hình
từ các workers đang kết nối, master sẽ tông hợp mô hình bằng cách tính trung bìnhcác tham số đó và thực hiện đánh giá mô hình vừa tông hợp Toàn bộ quá trình lặp
lại cho đến khi không còn workers nào duy trì kết nối socket (đủ số epoch toàn cục
được định nghĩa trong từng worker).
3.3.3 Đào tạo mô hình áp dung Federated Learning được tối ưu hóa
FL giúp giảm gánh nặng cho việc đảm bảo quyền riêng tư và việc sử dụng tàinguyên tính toán nhưng gặp nhược diém ở việc chuyền giao model giữa các
workers với master Việc liên tục chuyển giao mô hình với số lượng lớn các workertham gia có thể tiêu tốn khá nhiều tài nguyên của master Mô hình sau đào tạo có
thé không tối ưu hơn so với trước khi đào tạo do đó không cần thiết phải chuyền
giao, tránh tiêu tốn tài nguyên
Dé giải quyết van dé này, chúng tôi thử nghiệm 2 giải pháp tối ưu Quá trình
tương tự như trong phần 3.3.2, tuy nhiên, sau khi đào tạo xong mô hình cục bộ,
chúng tôi sẽ kiểm tra các điều kiện xem mô hình có đủ tiêu chuẩn dé gửi lên cho
master tông hợp hay không
Giải pháp 1: Chúng tôi sử đánh giá dựa trên danh sách loss thu được khi
train cục bộ, áp dụng định luật three-sigma dé loại bỏ các loss nhiễu và tiễn hành
tính toán sự biến thiên của các loss và so sánh nó với ngưỡng nhất định được chọn
trước đó Nếu thỏa điều kiện được đặt ra thì mô hình sẽ được gửi cho Master, ngượclại, nó sẽ không gửi mô hình Cụ thể, trong mỗi lần train cục bộ đối với mỗi worker,tiền hành thực hiện các bước sau dé xác định xem liệu có nên gửi trọng số model
cục bộ đến model trung tâm không:
1 Ap dụng quy tắc Three-Sigma để loại bỏ dữ liệu nhiễu (dit liệu cách xa so
với 3 lần độ lệch chuẩn) trong tập các giá tri loss thu được trong mỗi lần
train cục bộ trên worker đó.
2 Tính mean _loss: trung bình tất cả các giá trị loss thu được sau khi áp
27
Trang 39dụng quy tắc trên.
3 Tính change rate: tỉ lệ sai khác của mean_loss so với trung bình 5 giá tri
loss đầu tiên trong cùng lần train
4 Đặt điều kiện ngưỡng cập nhật trọng 36 dua trén change_rate va
mean_loss:
Nếu lần train cục bộ đối với mỗi worker thỏa cả 2 điều kiện bên dưới thigửi trọng số model cục bộ đến model trung tâm Ngược lại thì gửi None
“_ change rate > x: độ biến thiên giá tri loss trung bình so với những
loss ban đầu trong lần train đó nhiều hơn x, tức loss có thay đổi nhiều
(x là một ngưỡng được chọn sau nhiều lần đánh giá)
= mean loss > y: giá trị loss trung bình trong lần train đó lớn hon y, tức
là trong lần train trên worker, model học được nhiều những thay đổi(y là một ngưỡng được chọn sau nhiều lần đánh giá)
change_
rdte
loss_ list Change_rate > 0.1 and
Model Train loss_list (filter noise) mean _lost > 0.05
lost
Hình 3-4 Tối wu hóa mô hình theo cách kiểm tra thay đổi của loss
Giải pháp 2: Chúng tôi đặt ra yêu cầu việc đánh giá mô hình trước và sau
khi đảo tạo cục bộ Nếu độ chính xác của mô hình tăng lên sau khi đào tạo thì mô
hình sẽ được gửi cho Master, ngược lại, nó sẽ không gửi mô hình Cụ thé, trong mỗi
lân train cục bộ đôi với môi worker, tiên hành thực hiện các bước sau dé xác định
28