Khóa luận tốt nghiệp An toàn thông tin: Xây dựng và tối ưu hệ thống Federated IDS

Một hệ thống phát hiện xâm nhập IDS áp dụng nền tảng mô hình FL, tối ưu số lần cập nhật tham số giữa master và các workers dé giảm thiểu tài nguyên mang và tính toán cho các thiết bị IoT

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HQC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG

CHAU THANH TUAN - 19522463 NGUYEN MY QUYNH - 19520241

KHOA LUAN TOTNGHIEP

XAY DUNG VA TOI UU

HE THONG FEDERATED IDS

BUILD AND OPTIMIZE

FEDERATED IDS SYSTEM

KY SƯ NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

TS LE KIM HUNG THS LE MINH KHANH HOI

TP HO CHi MINH, 2023

Trang 2

Lời Cảm Ơn

Lời đầu tiên, chúng em xin gửi lời cảm ơn đến các Thầy/Cô khoa Mạng máy tính và Truyền thông

đã tận tình chỉ dạy và truyền tải cho chúng em kiến thức nền tảng quý báu trong suốt những năm đại học vừa qua Chúng em cũng xin gửi lời cảm ơn đến trường Đại học Công Nghệ Thông Tin - Đại Học Quốc

Gia TPHCM đã tạo điều kiện để chúng em có cơ hội giúp bản thân tích lũy được nhiều kiến thức, kinh

nghiệm và kỹ năng can thiết cho tương lai Chúng em kính chúc khoa Mang máy tính và Truyền thông nói riêng cũng như trường Đại học Công Nghệ Thông Tin — Dai Học Quốc Gia TPHCM nói chung sẽ đạt được nhiều thành tựu to lớn trong lĩnh vực đào tạo và nghiên cứu khoa học, phát triển nhân tải cống hiến

em sức mạnh lớn về mặt tinh thần, để chúng em mau chóng quên đi bỡ ngỡ, hòa nhập nhanh hơn với môi

trường mới và những con người mới.

TP Hồ Chí Minh, ngày tháng năm 2020

Nhóm tác giả

Trang 3

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHE THONG TIN ————

DE CƯƠNG CHI TIẾT

TÊN DE TÀI:

- _ Tiếng Việt: Xây dựng và tối ưu hệ thống Federated IDS

- _ Tiếng Anh: Build and optimize Federated IDS system

Cán bộ hướng dẫn: TS Lê Kim Hùng, ThS Lê Minh Khánh Hội

Thời gian thực hiện: Từ ngày 27/02/2023 đến ngày 30/06/2023

Sinh viên thực hiện:

Châu Thanh Tuan — 19522463 - 0776914765

Nguyễn Mỹ Quỳnh — 19520241 - 0932883682

Nội dung đề tài:

IDS là cơ chế bảo vệ mặc định và được sử dụng rộng rãi trong các thiết bị loT IDS yêu

cầu các kỹ thuật mạnh mẽ và cải tiễn để tồn tại trước các hoạt động độc hại tiên tiến Tuynhiên, các cuộc tan công zero-day, các kỹ thuật tan công đột phá và các hacker lập di

khiến bat kỳ IDS nào cũng trở nên lỗi thời khi đối mặt với các cuộc tan công mới Débảo vệ chống lại các hoạt động độc hại gây rỗi như vậy, IDS cần cải tiến liên tục với tốc

độ thay đôi của các mẫu lưu lượng truy cập

Các giải pháp Trí tuệ nhân tao (AI) như Deep Learning (DL) và Machine Learning (ML)

đã thu hút được sự chú ý lớn trong việc phát triển các kỹ thuật phát hiện xâm nhập và bất

thường Nghiên cứu chỉ ra rằng độ chính xác của các mô hình phát hiện xâm nhập tỷ lệ

thuận với lượng đữ liệu huấn luyện Tuy nhiên, mỗi thiết bị loT có một lượng đữ liệu

hạn chế dẫn đến làm suy yếu các mô hình riêng biệt Không nên thu thập dữ liệu cục bộ

của các thiết bị IoT vì dữ liệu có độ nhạy cảm cao Các mẫu lưu lượng khác nhau trênmỗi thiết bị thông minh có thể được sử dụng đề đào tạo IDS Nếu dữ liệu của tất cả các

li

Trang 4

thiết bị được sử dụng đề đào tạo, thì hiệu suất của mô hình có thê được cải thiện Tuy

nhiên, việc tập trung dữ liệu để đào tạo là không khả thi do các hạn chế về nguồn lực,

các lo ngại vê bảo mật và quyên riêng tư.

Vi hai trở ngại đáng kể này, dé tài hướng đến việc xây dựng một mô hình IDS ứng dụng

mô hình học liên kết (Federated Learning) có độ chính xác cao, triển khai mô hình lên

các thiệt bị IoT va tôi ưu hóa sô lân chuyên giao mô hình giữa các worker và server.

Đối tượng và phạm vi nghiên cứu: Khóa luận nghiên cứu kiến trúc cho hệ thống phathiện xâm nhập (IDS) cho IoT; nghiên cứu và ứng dụng mô hình Federated Learning dé

đạt được hiệu suât tot mà van đảm bảo quyên riêng tư cua dữ liệu.

e Nội dung 1: Tìm hiểu kiến trúc, cách thức hoạt động và cách triển khai mô hình

Federated Learning, tìm hiểu các công cụ hỗ trợ, thư viện liên quan

Phương pháp:

= Tham khảo các bài báo, tài liệu hướng dẫn, code triển khai Federated

Learning.

= Xem video mô phỏng mô hình Federated Learning.

= Tìm hiểu thư viện pysyft, cách làm việc với các worker va ứng dụng pysyft

trong Federated Learning.

e Nội dung 2: Tìm kiếm Dataset phù hợp cho IoT và thực hiện tiền xử ly dit liệu

Phương pháp:

= Tìm kiếm Dataset mới nhất, phù hợp nhất cho IoT

= Tham khảo về cách xử ly Dataset cũng như lựa chọn các thuộc tính tối ưu

và loại bỏ nhiêu, ngoại lai.

11

Trang 5

¢ _ Nội dung 3: Tìm hiểu học sâu, cách xây dựng và triển khai mô hình học sâu, ứng

dụng xây dựng mô hình cho việc phát hiện xâm nhập phù hợp với Dataset đã chọn

" Đọc tài liệu về cách đánh giá và xử lí giá trị bất thường.

=" Đềxuất phương pháp tối ưu dé giảm số lần chuyền giao và cập nhật mô hình

nhưng vẫn đảm bảo cho kết quả tốt nhất.

¢ _ Nội dung 5: Thực nghiệm và đánh giá kết quả.

Phương pháp:

" Xay dựng mô hình học sâu phát hiện xâm nhập áp dụng mô hình Federated

Learning.

= Kiểm tra luồng hoạt động của mô hình.

= Sử dụng các kĩ thuật đánh giá độ chính xác, thời gian đào tạo, chuyền giao

mô hình.

Kết quả mong đợi:

¢ Tdi ưu số lần cập nhật tham số giữa worker và master.

Kế hoạch thực hiện:

1 01/03 - 15/03: Tìm hiểu mô hình Federated Learning và hệ thống áp dụng mô hình

Federated Learning.

2 16/03 — 31/03: Tìm kiếm Dataset hiện đại, phù hợp cho IoT.

3 01/04 — 30/04: Tiền xử lý dataset mới, chỉnh sửa code, đề xuất mô hình mới phù hợp

với dataset mới

iv

Trang 6

01/05 — 08/05: Tôi ưu hóa các tham sô đê tăng hiệu suât mô hình.

09/05 — 16/05: Áp dụng mô hình lên các thiết bị IoT.

17/05 — 31/05: Giảm thiểu số lần chuyền giao mô hình mà vẫn đảm bảo độ chính xác

hệ thống.

01/06 — 30/06: Thực nghiệm, đánh giá kết quả đạt được Viết báo cáo về quá trình thực

hiện đề tài.

Xác nhận của CBHD TP HCM, ngày 16 tháng 03 năm 2023

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Tuan Quynh

Châu Thanh Tuấn Nguyễn Mỹ Quỳnh

Trang 7

CHƯƠNG 1 MỞ ĐẦU

11 "0/10 —¬ 2

1.2 DAT VAN DE

1.3 MỤC TIÊU CUA DE TÀI

1.4 [290199 1c0 0:7 0004016:/05)160000Ẻ 4

BI, nghién CUA n 8 Ô 4

1.4.2 Pham vi nghién 5n ốc Ặ.ẶcAIẠỤI Ầ 4

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 W Ð/c9)00904:0 21011555 5

21.2 CC MO’ de dO nha 6

2.2 GAFGYT ATTACK VA MIRAI ATTACK sseecsesssessssesssesesseesseeessecsnecnseessnesssessseesssesssesssneessecsnssssessasesssecssetssnesssecsseees 7 2.2.1 Botnets và DDOS tt HH HH HH HH HH Hà HH HH rc 7

2.2.2 Gafgyt Attack và Bashlite AtfqCĂ csceseestesescsseseesessesseseesesssesssssaeesssesaessssessesssessssssessesessesseseeae D

2.2.3 Biện pháp phòng CHONG vcssssssscssscssesesessssesssvssssssssssssssessesesssesnsnsssnussunuinsssseseeeeeeessssssnsnssunusssseseeceeeeessesssannanee 12

2.3 MAY HỌC

2.3.1 Tổng quan máy h0C cessssssscssseessvvvssvesssseeesesssesssssssnvussnssnsssssssceceeeceessssisuuuunnunnnnsnssssseeceeeseeessissumnnnnnnnsnnnseeeeeeeeee 12

2.3.2 Phân loại

2.3.3 Ưu điển và nhược điỂm sọc nhọ vn re 15

2.4 NEURAL NETWORK ssssessssseesssssescssseneasssscesssesessssessssvesensiscssssvsesssisssssseesssesessssecessivseesseeesssueessieessssvecessestssseeessses 15

1N, g5 nh n.ố.ốe 15 2.4.2 Kiến trúc Neural network sssssssssssssssssssssssvsssssssssssssesseeeeseessssnssnsssunussssseseeeeeeeesesssannassunmnsssseseeeeeeeessensnanannee 16 2.4.3 Ung dung Neural network.ccccsssssssssssvssssssssssssssscssssssssssssssssssssunssssssssecescsssssssssnisssisuusssssssssceecessssssssnssssnsssneaeeee 17

2.5 HỌC LIEN KET (FEDERATED LEARNING) scssessssssesseessesseesesucenessesuesuecsncesecnessnesuesuecseesucsussseeauesueeaeeaneeneaseeanenneensens 18

DST TONG QUAM na:‹14 HHẬHặăH _

3.3.1 Đào tạo mô hình

3.3.2 Đào tạo mô hình áp dụng Federated Learning

3.3.3 Đào tạo mô hình áp dụng Federated Learning được toi tru hóÓa 55 55cccssccerveteereeeteereerereeerrcev 27

vi

Trang 8

CHƯƠNG 4 KÉT QUÁ THỰC NGHIỆM

CHƯƠNG 5 KET LUẬN VÀ HƯỚNG PHAT TRIÊN

5.1 KET QUA DAT ĐƯỢC

5.2 HƯỚNG PHAT TRIEN TIẾP THEO sssssssesssessseesseesssseestscsnsccssccssscssssesneesbocsssesssscssssessscsssecssecssscsssecssecsssessneessnseaneeess 49

vi

Trang 9

DANH MỤC HÌNH ANH

Hình 2-1 Lợi ích của ÍO TẺ «1 1 1 91191 91193910 1 0H HH HH TT TH TH HH HT 5

Hình 2-2 Các mối đe dọa đối với IoT - ¿-©+++2E+++t2EE++tEEEEEEEEELEEEELLEEEErieriirrirrii 7

Hình 2-3 Phương pháp lây nhiễm IoT' Botnet ¿5-5 25 StS£ SE E£EESE‡E£EEEEEEEEEEEEEEEEEEEEEEEEEEErErrerkrrerrrs 8

Hình 2-4 Username va Password trong source code của ÌMITa1 - - 5 5 + xxx ng 11

Hình 2-5 Ung dụng của máy h0C cecsccsscssssssessssessessessessessesussvcsvcsssesscssesussucsucsscsessessssussucsusavesessesseesesaease 13Hình 2-6 Kiến trúc mạng Neural netWOFK -¿- 2: 5c 5£©S£2EE2EE£EE+2EESEEEEEEEEEE2E121127112711211 21121 2 17

Hình 2-7 Phương pháp học liên KẾT - ¿2 2 + +E£+S£+EE£EE#EEEEEEEEEEEEEEEEEEEEEEEEE71121121171712211 11111 19

Hình 3-1 Mô hình tổng quan hệ thống dé XuẤt ¿- ¿2° +E+SE+SE+EE+E£+E£EE£EEEEEEEEEEEEEEEE2EEEEEEEErkrree 23Hình 3-2 Mô hình dự đoán mối đe dọa .: 52:55+2t22E++t 2E 2E tt EttEktrtttttrrtrrirrrtrerrrre 24

Hình 3-3 Cac kĩ thuật nén và giải nén dữ lIỆU - - - - + +11 HH ng HH Hàng 25

Hình 3-4 Tối ưu hóa mô hình theo cách kiểm tra thay đổi của ÏOSS - 2 2 22 2+S£+£++£s+zxzsezz 28Hình 3-5 Tối ưu hóa mô hình theo cách kiểm tra độ chính xác trước và sau khi đảo tạo 29

Hình 4-2 Giao diện trang discover ElasfICS€ATCÌ - - 6 2c 2 1821118311 83911 1311 9111 911 1 911 81 ng ng rry 43 Hình 4-3 Log trong quá trình đào tạo mô hình - + 6 1x 1 91 91 93 1121 H1 HH HH ngưng 44 Hình 4-4 Lọc các log trong quá trình đào tạo mô hình - -¿- + + 2222 E333 *#EESEEeeErekeeeeerersesse 45

Hình 4-5 Giao diện chính trang web ứng dụng hệ thống - + 2 ¿+ + E+EE+E£+EE+E++E£zE££EerEerxerxsxez 45Hình 4-6 Kết quả dự đoán lưu lượng mạng từ file ŒSV - 2-2 252 £+E+E£EE£EESEEEEEEEEEEEEEEEerkerkerkrree 47Hình 4-7 Thực hiện tấn công mirai udp 2- 2 2 2 £E+E£EE#EE#EE+EEEEEEEEEEEEEEEEEEEEEEEEEEE2EE1E1EEErkrree 48Hình 4-8 Dự đoán mối đe dọa thời HAN HU 1 ‹sa 48

VI

Trang 10

DANH MỤC BANG

Bảng 1-1 Top 10 quốc gia là nơi xuất phát của các cuộc tan công mạng bang botnet mirai 3

Bang 2-1 Các thành phan trong BOfnet - 2-2-2 ©5£2S£SE+EE£EEEEE2EEEEEEEEEEEE2E1717112112117171 7111111 cxe 9Bang 3-1 Ý nghĩa các hang số trong Early Stopping - ¿+52 2+EE+EE£EE2EE2EEEEEEEEEEkrrkerkerreee 25

Bang 4-1 Các thiết bị thương mại bị nhiễm botnet 2-2: + 2 £SE+EE£2E££EE+EE£EEZEEEEEEEEerkerrerrsers 30Bảng 4-2 Phân loại mối đe đọa -¿- ¿S519 EEE2E121212171711112112112111111111111111 11111111 31Bảng 4-3 Ý nghĩa của các biến thống kê -2- 2£ 2 SESE£SE2EEEEEEEEEE211221717112112117171 211111110 32Bảng 4-4 Mô tả ngắn gọn ý nghĩa của các đặc trưng trong tập dữ liệu NbaloT - - 33Bang 4-5 Các biện pháp thống kê áp dung cho từng loại đặc trưng trong tập dit liệu NbaloT 34

Bang 4-6 Đánh giá thực nghiệm mô hình không áp dụng FL, ¿55 32+ +22 £**E+*vE+eexeesseereeersss 39

Bảng 4-7 Đánh giá mô hình áp dụng FL truyền thống 2-22 5¿2+£2++2E+2EE+2E+tEE++Ex+zzxrzxrerxeee 40Bảng 4-8 Đánh giá mô hình áp dụng FL được tối ưu hóa theo cách kiểm tra thay đổi của loss 40Bảng 4-9 Đánh giá mô hình áp dụng FL được tối ưu hóa theo cách kiểm tra độ chính xác trước và sau

1X

Trang 11

DANH MỤC TỪ VIET TAT

Từ Nội dung Diễn giải

CnCs Command-and-Control Server Máy chủ ra lệnh va quản li botnet

DDoS Distributed Denial Of Service Tân công từ chối dich vu phân tán

DNS Domain Name System Hệ thống phân giải tên miền

ELK Elasticsearch, Logstash và Kibana | Ba phần mềm cốt lõi đi kèm với nhau, phục vụ cho

công việc giám sát hệ thống

FL Federated Learning Hoc lién két

IoT Internet of Things Mang lưới van vật kết nối Internet

ML Machine Learning May hoc

IDS Intrusion Detection System Hệ thống phát hiện xâm nhập

Trang 12

TÓM TÁT KHÓA LUẬN

Công nghệ IoT phát triển dẫn đến sự ra đời ngày càng nhiều của các mỗi dedọa nhắm đến IoT Thế nhưng, việc bảo mật cho chúng lại chưa được quan tâm từphía nhà sản xuất lần người dùng, các thiết bị IoT chi được trang bị các phương phápbảo mật truyền thống như bảo mật dựa trên các quy tắc có định (rule-based security)

Các mối đe dọa ngày càng tinh vi có thé dé dàng vượt qua các lớp bảo mật thô sơ đó,

do đó, việc áp dụng ML để phát hiện các mối đe dọa đã trở thành xu hướng Tuynhiên, bản than ML cũng tiềm ấn nhiều rủi ro, chang hạn như vi phạm quyền riêng tưcủa dữ liệu Do đó, chúng tôi quan tâm đến học liên kết (FL), mô hình có thể tận dụngtốt khả năng của ML mà vẫn đảm bảo quyền riêng tư của dit liệu

Trong khóa luận này, chúng tôi sẽ thảo luận về các mối đe dọa phô biến màToT phải đối mặt Bên cạnh đó, chúng tôi đề xuất mô hình phát hiện mối đe dọa dựa

trên bộ dit liệu NBaloT Cuối cùng, chúng tôi sẽ đưa ra kết luận về việc đánh giá hiệu

suất mô hình Ngoài ra, chúng tôi còn trực quan hóa và cung cấp giao diện web giúpviệc sử dụng hệ thống dễ dàng hơn

Thông qua khóa luận này, chúng tôi mong muốn đem lại cái nhìn khách quan

về các mối đe doa đối với IoT; cung cấp ki thuật phát hiện các mối đe dọa, góp phầngiảm thiểu các cuộc tan công Đồng thời, góp phần mở ra hướng nghiên cứu, phát

triên các công cụ bảo mật cho an ninh mạng hiện nay.

Trang 13

Chương 1 MỞ ĐẦU

1.1 Tên đề tài

XÂY DỰNG VÀ TOI UU HE THONG FEDERATED IDS

(BUILD AND OPTIMIZE FEDERATED IDS SYSTEM)

1.2 Đặt van đề

Nhu cầu tiện ich của con người ngày càng tang cũng như các yêu cầu về hiệusuất, tự động hóa càng cao dẫn đến ngày cảng nhiều các thiết bị IoT hiện đại ra đời,trải dài trong mọi lĩnh vực, từ cung cấp tiện ích cá nhân cho đến các hoạt động giám

sát rộng lớn Do đó, nó đóng vai trò quan trọng, lưu giữ nhiều dữ liệu nhạy cảm và

đòi hỏi phải hoạt động tốt, không có độ trễ

Song song với sự phát trién của IoT, các môi de dọa ngày càng da dang vàtinh vi Kẻ tan công giờ đây không chỉ xâm phạm đến các thiết bị IoT mà còn biến

các thiệt bị đó thành công cụ đê tân công các mục tiêu khác.

Vào tháng 10 năm 2016, ba cuộc tấn công DdoS liên tiếp được thực hiện nhắmvào Dyn, một nhà cung cấp DNS lớn Chúng đã tạo ra nhiều thiệt hại và gián đoạn

cho nhiều dịch vụ và nền tảng Internet lớn bao gồm Netflix, PayPal, Visa, Amazon,New York Times, Reddit, GitHub, đối với một lượng lớn người dùng ở Châu Âu

và Bắc Mỹ Cuộc tấn công được cho là thực hiện từ một mạng botnet từ các thiết bịIoT bị xâm nhập như cameralP, TV thông minh, công khu dân cư, máy in, thậm chi

cả màn hình quan sát em bé, dé thực hiện hàng loạt DNS lookup

Các cuộc tấn công botnet trong loT ngày càng trở nên phố biến do việc triển

khai rộng rãi các thiết bị IoT và các lỗ hồng của chúng Cũng trong năm 2016, Việt

Nam đã bị ghi nhận là một trong những quốc gia là nơi xuất phát của các cuộc tan

công mạng bang botnet

Trang 14

Quốc gia Tỷ lệ % của BotNet Mirai IPs

dùng.

Trang 15

1.3 Mục tiêu của đề tài

Đề tài được chúng tôi phát triển nham tìm hiểu một số mối đe dọa đối với hệthống IoT, ảnh hưởng của nó và cách phòng chống

Đồng thời, chúng tôi cũng thực hiện nghiên cứu, tìm hiểu về FL cũng như

cân nhắc ưu nhược điểm của mô hình sử dụng nó Một hệ thống phát hiện xâm nhập

(IDS) áp dụng nền tảng mô hình FL, tối ưu số lần cập nhật tham số giữa master và

các workers dé giảm thiểu tài nguyên mang và tính toán cho các thiết bị IoT sẽ đượcchúng tôi đề xuất, trình bay và tiến hành xây dựng

Sau cùng, chúng tôi cung cấp giao diện web dé người dùng có thé dé dàng

sử dụng mô hình đã dao tạo.

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

Khóa luận hướng đến việc nghiên cứu kiến trúc cho hệ thống phát hiện xâmnhập (IDS) trên các thiết bị IoT Chúng tôi cũng đã tìm hiểu và ứng dụng mô hìnhFederated Learning vào đề tài dé đạt được hiệu suất tốt mà vẫn đảm bảo quyền riêng

tư của dir liệu.

1.4.2 Phạm vi nghiên cứu

Nghiên cứu các cuộc tấn công Gafgyt Attack và Mirai Attack trên thiết bị IoT

Trang 16

Chương 2 CƠ SỞ LY THUYET

2.1 Tỗng quan về IoT

2.1.1 Lợiích

IoT đề cập đến một mạng lưới các thiết bị được kết nối với nhau, giao

tiếp với nhau và với internet oT mang lại nhiều lợi ich trong nhiều lĩnh vựckhác nhau có thê ké đến như: cải thiện hiệu suất; giảm chi phí vận hành; nângcao trải nghiệm người dùng: thu thập, phân tích chỉ tiết khối lượng dữ liệu lớn;

cải thiện an ninh, bảo mật; giám sát, điều khién từ xa; và ngày càng được

phát triên, ứng dụng rộng rãi vào nhiêu lĩnh vực khác.

Cost savings and increased | T

productivity leads to le]

increased profitability ° Environment

Benefits Pollution levels, air quality,

flooding alerts

Innovation

New products and service

opportunities or new markets

Compliance

New and more effective ways to monitor and report compliance Business intelligence

requirements Allowing gathering of data to make better

decisions to benefit the organisation

Hình 2-1 Lợi ích cua loT

(Nguồn:

https://censis.org.uk/what-we-do/sensing-imaging-iot/internet-of-things-iot/the-benefits-of-iot/ )

Trang 17

2.1.2 Các mối đe dọa

IoT không ngừng thu thập thông tin người dùng để cung cấp tiện ích tốt nhất

và sớm nhất, do đó, nó lưu trữ nhiều dữ liệu riêng tư của người dùng Mặt khác, nănglực tính toán của các thiết bị IoT cũng được cải thiện dé phù hợp cho việc lưu trữlượng di liệu không 16 và khả năng xử lý nhanh chóng Do đó, nó trở thành mục tiêu

của những kẻ tấn công, không chỉ đánh cắp dit liệu người dùng, mà còn lợi dụng các

thiết bị IoT cho các hành động xấu của chúng

Botnets: Kẻ tan công có thé sử dụng phần mềm độc hại dé lây nhiễm số lượnglớn các thiết bị loT và biến chúng thành các bots, được xử dụng dé tấn công các thiết

bị khác hoặc tan công DDoS

Tan công từ chối dịch vu (DDoS): kẻ tan công tìm cách làm cho máy chủ, dich

vụ hoặc mạng mục tiêu không khả dụng cho người dùng hợp pháp của họ bằng cáchlàm cạn kiệt tài nguyên mục tiêu với lưu lượng truy cập xấu

Đánh cap dữ liệu: Các thiết bị IoT thường thu thập và lưu trữ các thông tinnhạy cảm Do đó, nó trở thành mục tiêu của kẻ tan công nhằm mục dich tài chính

hoặc các mục đích độc hại khác.

Vi phạm quyên riêng tw: Dữ liệu nhạy cảm của người dùng hoặc doanh nghiệpcũng có thé bị xâm phạm đề thu thập danh tính hoặc bán cho bên thứ ba

Trang 18

su mÊ

Advanced Persistent @

Network tage Threat (APT)

Sensitive data leakage Malware @

‘Crucial High Medium

Hình 2-2 Các mối de dọa doi với loT

các bots đang hoạt động dé thu thập thông tin từ các bots đó và ra lệnh cho chúng

Bots có thé thực hiện nhiều nhiệm vụ khác nhau, bao gồm: quét các thiết bị khác dé

Trang 19

tìm lỗ hỏng, lây nhiễm các thiết bị có lỗ hỏng, spam email, tăng tương tac,

Sự phát triển của IoT đi kèm với năng lực tính toán và băng thông mạng ngàycàng mở rộng đã tạo điều kiện lí tưởng cho kẻ tấn công Trong một cuộc tấn côngDDoS ngày nay, lưu lượng tan công có thê lên tới đơn vị Tbps, có thể phá vỡ thành

công các dịch vụ cơ ban, ảnh hưởng đên hang triệu người dùng.

& Control = Vulnerable devices

Interface results

® Commands ¥ | Notifications a

Hình 2-3 Phương pháp lây nhiễm IoT Botnet

(Nguồn: A Marzano et al., "The Evolution of Bashlite and Mirai loT Botnets, "

2018 IEEE Symposium on Computers and Communications (ISCC), Natal, Brazil,

2018, pp 00813-00818, doi: 10.1109/ISCC.2018.8538636)

Trang 20

Thành phần Chức năng

Command and control | Nhận lệnh từ kẻ tấn công hoặc khách hàng của kẻ tấn

servers (CnCs) công và duy trì kết nối với các thiết bị bị nhiễm dé

truyền lệnhBots Gửi thông tin đến CnCs và thực thi lệnh

Scanners Thăm dò các thiết bị dé tìm cách xâm nhập

Loaders Xâm nhập vao thiết bị có lỗ hỏng, kết nôi đến

Malware servers đề tải và thực thi mã độc, biến thiết

bị trở thành bot Malware servers Lưu giữ các file mã độc

Database Lưu trữ các thông tin trong botnet như: các bot đang

hoạt động, thông tin thu thập được từ Scanners,

Internet of Things (IoT) Các thiết bị chứa lỗ hỏng có thê trở thành bot

Bang 2-1 Các thành phan trong Botnet

Hình 2-3 cho thấy các bước ma botnet hoạt động:

Scanners bắt đầu thăm dò các thiết bị IoT dé tìm lỗ hỏng

Kết quả thăm dò được gửi đến Database

Các thiết bị chứa lỗ hỏng được gửi đến cho Loaders

Xâm nhập vào các thiết bị chứa lỗ hỏng

Két nôi đên Malware servers đê tải và thực thi mã độc.

NM ® YN PF Kẻ tan công hoặc khách hang của kẻ tan công truy cập vào web interface

dé ra lệnh cho các bots.

7 CnCs sẽ truyền các lệnh đó đến các bots đang hoạt động

8 Cac bots tiến hành tấn công mục tiêu

2.2.2 Gafgyt Attack va Bashlite Attack

Gafgyt, hay còn gọi là Bashlite, là một phần mềm độc hại thuộc loại botnet

thường được sử dụng trong các cuộc tấn công DDoS Nó được phát hiện lần đầu vào

Trang 21

năm 2014 và ké từ đó đã gây ra nhiều cuộc tan công nhắm mục tiêu là các trang web

và các máy chủ trò chơi.

Gafgyt thực hiện lây nhiễm các thiết bị IoT bằng cách lợi dụng các lỗ hỏngtrong thiết bị và lây nhiễm nó Sau khi bị nhiễm, các thiết bị trở thành một phần của

botnet Kẻ tan công có thé điều khiển các bots nam trong botnet này để tiễn hành tan

công DDoS vào các mục tiêu của chúng.

Tương tự như Gafgyt, Mirai cũng là loại botnet được sử dụng chủ yếu trong

việc tan công DDoS Nó được phát hiện lần đầu vào năm 2016 và thường nhắm đến

các trang web va các dich vụ trực tuyến.

Phương pháp tan công của Mirai cũng tương tự như Gafgyt, nó bắt đầu bằngviệc lây nhiễm các thiết bị IoT Mirai lợi dụng thông tin đăng nhập mặc định hoặcyếu để có quyền xâm nhập vào các thiết bị này Sau khi xâm nhập, các thiết bị cũng

sẽ trở thành một phan của botnet và bị kẻ tan công điều khiển dé tan công DDoS vàocác mục tiêu của chúng Điều khiến Mirai khác biệt là khả năng lây lan nhanh chóng,lây nhiễm cho hàng chục nghìn thiết bị trong vòng vài giờ Điều này là do nó quétInternet dé tìm các thiết bi dé bị ton thương, sử dụng danh sách tên người dùng và

mật khâu đã biệt đê có quyên xâm nhập vào máy mục tiêu.

10

Trang 22

Username/Password |Manufacturer Link to supporting evidence

admin/123456 ACTi IP Camera 2s ili om/reports/ip-cameras-default-passwords-directoy

r0ot/anko ANKO Products DVR L i

rootlpass Axis IP Camera, et al Awww, Cleancss cc iter-default/Axis/0545

root/vizxv Dahua Camera L i i

root/888888 Dahua DVR http: (Aww cam-it org/index php ?topic=5035.0

roo686688 Dahua DVR http://www cameit orq/index.php topic=5035.0

root/7ujMkoOvizxv Dahua IP Camera http/Awww.cam-it.orq/index.php?topic=9396.0

root/7ujMko0admin Dahua IP Camera http-/www.cam-it.org/index php ?topic=9396.0

666666/666666 Dahua IP Camera http://www.cleancss.com/router-default/Dahua/DH-IPC-HDW4300C

root/dreambox Dreambox TV receiver https Jwww.satellites.co.uk/forums/threads/reset-root-password-plugin.101146/

rootlzlxx EV ZLX Two-way Speaker? |?

rootjuantech Guangzhou Juan Optical

rootxc3511 H.264 - Chinese DVR

root/hi3518 HiSilicon IP Camera

root/klv123 HiSilicon IP Camera

root/klv1234 HiSilicon IP Camera

roojvbzd HiSilicon IP Camera

root/admin IPX-DDK Network Camera xinc cor z ideo-servers/nelwoik-cz

root/system IQinVision Cameras, et al hftps:Jipvm.comirei ip-cameras-defaull-passwords-directory

admin/meinsm Mobotix Network Camera htto:/Awww.forum.use-ip.co.uk/threads/mobotix-default-password.76/

rootJ54321 Packet8 VOIP Phone, et al htto:webcache.googleusercontent.com/search?g=cache:W1phozOZURUJ:community.freepbx org/t/packet8-atas-phones/411!

root/00000000 Panasonic Printer https :/www.experts-exchange.com/questions/26194395/Default-User-Password-for-Panasonic-DP-C405-Web-Interface.html

rootlrealtek RealTek Routers

admin/1111111 Samsung IP Camera ;llipvm = ras o rds-di

root/xmhdipc Shenzhen Anran Security Camera |hfips://www.amazon.com/MenaPixel-VVireless-Network-Surveillance-Camera/product-reviews/300EB6FENDI

admin/smeadmin SMC Routers

rootikwb Toshiba Network Camera Ip;//fag.surveillixdvrsupport.comiind ior ikel%cat=4%id=8&artlang=e

ubnt/ubnt Ubiquiti AirOS Router Ip;/se e outer/ubiqui t i

supervisor/supervisor |VideolQ t con a ector

root/<none> |Vivotek IP Camera p 8 a irectos

admin/1111 Xerox printers, et al tps://atvourservice blogs xero 8/28/logging-in-as-system-administrator-on-your-xerox-printe

root/Zte521 ZTE Router http: ugs.com/2|

Hinh 2-4 Username va Password trong source code cua Mirai

(Nguồn:

https://krebsonsecurity.com/2016/10/who-makes-the-iot-things-under-attack/ )

Trong một cuộc tan công Gafgyt/Mirai, botnet sẽ làm tran ngập (flood) lưu

lượng truy cập vào các máy chủ mục tiêu, làm nó bị quá tải và không thê cung câp

dich vụ cho các người dùng hợp pháp Cuộc tan công đặc biệt hiệu quả vi botnet có

thể tạo ra một lượng lớn lưu lượng truy cập, lớn hơn nhiều so với những gì có thể

được tạo ra bởi một thiết bị hoặc một nhóm nhỏ các thiết bị

Dé bảo vệ chong lại các cuộc tan công Gafgyt/Mirai, cân phải luôn cập nhật các bản vá bảo mật mới nhât, thay đôi mật khâu mặc định và sử dụng mật khâu mạnh

cho bất kỳ quyền truy cập từ xa vào thiết bị Ngoài ra, quản trị viên nên giám sátmạng để phát hiện bat ky dau hiéu hoat động bất thường nao và nhanh chóng hạn chế

việc thiệt bi của họ tiép xúc với các môi de dọa bên ngoài.

11

Trang 23

2.2.3 Biện pháp phòng chống

Gafgyt/Mirai thường chiếm tương đối nhiều tài nguyên cho việc thực hiện tấncông DDoS, do đó, nó làm chậm hoạt động của thiết bị và giảm tốc độ truy cập mạng.Thông thường, mục tiêu của tấn công DDoS thường là các doanh nghiệp, nên ngườidùng cá nhân thường có xu hướng chủ quan Tuy nhiên, ngày càng nhiều thiết bị IoT

lưu trữ các thông tin nhạy cảm của người dùng cá nhân như: camera an ninh, thiết bị

y tế, nên chúng ta cần phải đặt nặng van đề bảo mật dé tránh bị đánh cắp thông tincũng như tiếp tay cho các hoạt động độc hại khác

Vi vậy việc chúng ta cần tuân thủ một số cách dé hạn chế việc bị nhiễm botnetscho các thiết bị là vô cùng cần thiết, chăng hạn: Thay đôi mật khâu mặc định và sửdụng mật khẩu mạnh, sử dụng cơ chế xác thực hai bước; luôn cập nhật bản vá bảo

mật mới nhất; sử dụng các phương pháp giao tiếp an toàn đã được mã hóa; cách ly

các thiết bị IoT với các hệ thông và mạng quan trong; quan lý quyền truy cập thiết bi,

dữ liệu, giới hạn các hành động mà các thiết bị IoT có thể thực hiện

Tuy nhiên, trên thực tế, các bước trên chỉ giúp giảm thiểu botnets xâm nhập

vào các thiết bị Một khi thiết bi đã bị xâm nhập (có thé do lỗ hỏng zero-day hoặc

gián điệp nội bộ ) thì các bước trên có thê không còn hiệu quả Do đó, cần có mộtIDS có tích hợp ML đề giám sát lưu lượng mạng, nhanh chóng phát hiện botnets để

cách li và xử lý.

Máy học

2.3.1 Tổng quan máy học

Máy học là một lĩnh vực con của trí tuệ nhân tạo liên quan đến việc tạo ra các

thuật toán và mô hình cho phép máy tính học hỏi từ dữ liệu mà không cần phải lập

trình chi tiết từng bước Cơ sở lý thuyết của học máy bao gồm một số khái niệm và

kỹ thuật chính: lý thuyết xac suất, số liệu thống kê, đại số tuyến tính, Thuật ngữ

máy học được đặt ra vào năm 1959 bởi Arthur Samue.

Máy học sử dụng các loại thuật toán dé phân tích dữ liệu đầu vào, sau đó học

12

Trang 24

hỏi các đặc trưng của dữ liệu và đưa ra các dự đoán về dữ liệu đó Máy học giúpchúng ta đào tạo máy tính học cách thực hiện các nhiệm vụ mà ta mong muốn thông

qua các thuật toán và dữ liệu phù hợp, thay vì chúng ta phải lập trình, hướng dẫn cho

máy tính từng hành động cụ thê

2.3.2 Phân loại

Máy học được phân loại dựa trên cách mà nó học, bao gồm 4 hướng tiếp cận

chính: học có giám sát, học không giám sát, học bán giám sát và học tăng cường.

Image

Structure Classification

Discovery Feature e Customer

- @ Elicitation Fraud @ Retention

Recommended UNSUPERVISED SUPERVISED

Systems LEARNING LEARNING ® Predictions

2.3.2.1 Học có giám sat (Supervised learning)

Học có giám sat là loại học may ma các thuộc tính đã được định trước đê mô

13

Trang 25

hình đánh giá về mối tương quan và nhãn của dữ liệu dao tạo cũng đã được gan bởicác chuyên gia trong lĩnh vực Trong loại học máy này, cả đầu vào và đầu ra đều đãđược chỉ định, mô hình sẽ tìm một hàm ánh xạ có thể dự đoán đầu ra chính xác cho

các đầu vào mới (chưa được gán nhãn)

Học có giám sát được sử dụng cho hai mục đích chính: phân loại

(classification) và hồi quy (regression) VD: Dự đoán giới tinh, dự đoán mức lương

2.3.2.2 Học không giám sát (Unsupervised learning)

Học không giám sát được dao tạo trên dt liệu chưa được gan nhãn, mô hình

sẽ phân tích toàn bộ tập dit liệu và tìm ra các mẫu hoặc các mối quan hệ giữa các

thuộc tính.

Học không giám sát được sử dụng cho việc phân cụm, phát hiện bất thường,giảm chiều dữ liệu,

2.3.2.3 Học bán giám sát (Semi-supervised learning)

Mô hình được đào tạo trên dữ liệu có gán nhãn sẽ đem lại hiệu suất cao hơn,tuy nhiên việc gán nhãn dữ liệu đòi hỏi phải có trình độ chuyên môn cao và tiêu tốnkhá nhiều thời gian Học bán giám sát sẽ giải quyết nhược điểm đó, loại học máy này

là sự kết hợp giữa hai mô hình trước đó Nó được cung cấp một lượng nhỏ các dữ

liệu được gán nhãn, từ đó, nó học được số chiều dữ liệu, mối quan hệ giữa các đặc

trưng dé áp dụng với các dữ liệu mới chưa được gan nhãn

Học bán giám sát được sử dụng cho việc dịch thuật, gán nhãn tập dữ liệu khac,

2.3.2.4 Học tăng cường (Reinforcement learning)

Học tăng cường hoạt động băng cách chỉ ra mục tiêu cần hoàn thành và mộtquy tắc các hành động dé đạt được mục tiêu đó Mô hình sẽ được tương tác với môitrường và nhận phản hồi với các hành động nó đã thực hiện trong môi trường đó Môhình sẽ học cách đạt được các phần thưởng — các hành động có lợi cho mục tiêu cuối

cùng và tránh các hình phạt — các hành động khiên nó xa rời mục tiêu.

14

Trang 26

Học tăng cường được sử dụng cho việc dao tao robot, hướng dẫn máy tính

chơi game, quản li tai nguyén,

2.3.3 Ưu điểm va nhược điểm

Máy học giúp doanh nghiệp hiểu khách hàng của họ ở mức độ sâu hơn, giúp

cá nhân hóa các tư vấn, quảng cáo tiếp thị phù hợp với nhu cầu của từng khách hàngriêng biệt Máy học còn có thé tự động hóa trong nhiều lĩnh vực, giảm bớt chi phí chonguồn nhân lực Bên cạnh đó, nó còn có thể dễ dàng mở rộng, đôi mới nếu được liêntục cập nhật dữ liệu mới, chính xác giúp nắm bắt được xu hướng liên tục thay đôi của

người dùng.

Ngoài những lợi ích mà máy học mang lại, nó cũng đi kèm với nhiều nhượcđiểm Dé có được mô hình phù hợp, có thé sử dụng trong thực tế, cần phải có tập ditliệu chính xác và đủ lớn dé dao tạo mô hình, nó thường khá tốn kém và tốn thời gian.Việc thu thập dữ liệu người dùng cũng tiềm ân nhiều rủi ro ảnh hưởng đến quyền

riêng tư Mô hình máy học còn thiếu tính sáng tạo, nó không thé “nghĩ” điều gì khác

ngoài những gì được dao tạo Ngoài ra, may học như một hộp đen vì người dùng

không thể biết được các hướng phân tích dé đưa ra kết quả, do đó không thé kiểmchứng được kết quả của mô hình đưa ra

2.4 Neural network

2.4.1 Tổng quan Neural network

Neural Network, hay còn gọi là mang no-ron nhân tạo được phat triển dựa trênmạng thần kinh sinh học của não người, là một mô hình tính toán phức tạp bao gồmchuỗi các thuật toán được sử dụng để tìm ra các mối quan hệ, các liên kết trong một

tập dữ liệu.

Mạng nơ-ron nhân tạo này bao gồm nhiều nút tương tự như các tế bào thầnkinh, được kết nối với nhau, có nhiệm vụ tiếp nhận thông tin, truyền di liệu và thựchiện học hỏi, phân tích, tính toán ở nhiều đặc điểm, chỉ tiết khác nhau từ lượng lớn

dữ liệu đầu vào được cung cấp dé đưa ra kết quả tốt nhất, bắt chước chức năng của

não người.

15

Trang 27

Neural Network được huấn luyện thông qua việc học các mau dit liệu Cácđiều chỉnh cần thiết trong mạng sẽ được diễn ra nhằm cải thiện, tinh chỉnh kết quả

trở nên phù hợp hơn.

2.4.2 Kiến trúc Neural network

Neural Network được cấu thành từ các nút được liên kết với nhau tạo thànhnhững tang perceptron, gồm ba thành phan chính: lớp đầu vào, lớp đầu ra và lớp ân

Mỗi mạng nơ-ron nhân tạo luôn có một lớp đầu vào, một lớp đầu ra, và có thé có

nhiều lớp ân

Lớp đầu vào (hay còn gọi là input layer): là lớp đầu tiên trong mạng, tiếp nhận

thông tin, xử li và biểu diễn dữ liệu, chuyền dữ liệu làm đầu vào cho lớp tiếp theo

Lớp ân (hay còn gọi là hidden layer): là các lớp ở giữa mạng, nằm giữa lớpđầu vào và lớp đầu ra, nhận đữ liệu từ input layer hoặc đữ liệu từ các hidden layer

trước, thực hiện một loạt các phép tính phức tạp dé học các chi tiết khác nhau của

dữ liệu qua từng lớp ân, tim ra mối tương quan và tinh chỉnh mạng một chút sau

mỗi lần học dé cải thiện kết quả cuối cùng, rồi chuyền dữ liệu làm đầu vào cho lớptiếp theo

Lớp dau ra (hay còn gọi là output layer): là lớp cuối cùng trong mạng, nhận dữliệu vào từ lớp an, thê hiện đầu ra của mạng sau qua trình phân tích, suy luận logic

từ đầu vào, có thể bao gồm một nút (phân loại nhị phân) hoặc nhiều nút (phân loại

Trang 28

3/2 Và CN

2X về aR OXIA NA VĂN `Œ@ 22 CSET SEU RN ON XS

RESO SQ Ore: peas S SRA cs oS a

BON “ZINN Wares S

UES

2S

@ Output Layer

@ Input Layer @ Hidden Layer

Hình 2-6 Kiến trúc mang Neural network

(Nguon:

https://www.researchgate.net/publication/350486076_Artificial_Neural_Network_S

ystems)

2.4.3 Ứng dung Neural network

Mang nơ-ron nhân tao đã và dang liên tục được sử dung trong rất nhiều lĩnh

vực khác nhau như khoa học, tài chính, giao dịch, giáo dục, y học, công nghệ

blockchain, phân tích kinh doanh, dự báo thời tiết, đánh giá rủi ro, cũng như được

mở rộng sang nhiều lĩnh vực ứng dụng mới

Những ứng dụng quan trọng và điển hình của Neural network có thể ké đếnnhư: Thị giác máy tính (trích xuất thông tin, đặc điểm từ nhiều hình ảnh và video,

phân tích, xử lí dé nhận diện, phân biệt hình ảnh); nhận diện giọng nói (trích xuất

đặc điểm từ giọng nói, phân tích, nhận dạng, xử lí với nhiều tông giọng và ngôn ngữ

17

Trang 29

vùng miền khác nhau); xử lí ngôn ngữ tự nhiên (phân tích văn bản và tài liệu trongnhiều ngữ cảnh và ý nghĩa khác nhau); công cụ đề xuất (thu thập thông tin hành vi

người dùng dé tạo ra các đề xuất thích hợp)

2.5 Học liên kết (Federated Learning)

2.5.1 Tổng quan

IDS tích hợp ML đã đem lại nhiều đóng góp tích cức trong lĩnh vực an ninhmạng Tuy nhiên, việc các thiết bị gửi dữ liệu của chúng lên server trung tâm để đàotạo có thé dẫn đến rò ri dit liệu, xâm phạm quyền riêng tư Do đó, phương pháp họcliên kết được phát minh ra nhằm khắc phục nhược điểm này

FL bao gồm sever trung tâm (master), các thiết bị (workers) và tập dữ liệu trên

mỗi thiết bị Quá trình đào tạo của FL được diễn ra theo các bước sau:

1 Master gửi mô hình toàn cục đến các workers

Worker đào tạo mô hình cục bộ với dữ liệu của nó.

Worker gửi tham số của mô hình sau khi đào tạo cho master

Master cập nhật mô hình toàn cục dựa trên các tham sô từ worker.

A FY NY Lap lai từ bước 1 cho đến khi được mô hình tối ưu

18

Trang 30

nã SG Update Model

Worker 1 Worker 2 Worker k

Dataset 1 Dataset 2 Dataset k

Hình 2-7 Phương pháp hoc liên kết

(Nguôn: I Chatterjee, “Patenting machine-learning: review and discussions,”

International Journal of Modern Research, vol 1, no 1, pp 15-21, 2021)

2.5.2 Uudiém

Quyền riêng tư: Vi worker chỉ gửi tham số chứ không gửi dữ liệu, dé liệu luônnam trên thiết bị nên đảm bảo được quyền riêng tư dữ liệu

Giảm độ trễ: Mô hình được đảo tạo cục bộ nên sẽ không phải tốn thời gian

truyền dữ liệu từ thiết bị đến server trung tâm

Tận dụng tối ưu tài nguyên: Các thiết bị giờ đây có thể được sử dụng đề đàotạo mô hình giúp tận dụng năng lực tính toán của các thiết bị IoT thay vì tập trung

gánh nặng cho master.

Khả năng mở rộng: FL cho phép mở rộng dé đáp ứng số lượng lớn thiết bị và

người dùng.

Tính mạnh mẽ: Dữ liệu nằm phân tán trên các thiết bị sẽ giảm thiệt hại khi gặp

sự cô hoặc bi tan công hon so với dit liệu tập trung tại một địa diém.

19

Trang 31

2.5.3 Nhược điểm

Tính không đồng nhất: Các thiết bị có thé có các phiên bản phần mềm, phancứng hoặc điều kiện mạng khác nhau có thể không tương thích được với mô hình

hoặc ảnh hưởng độ chính xác của mô hình.

Bảo mật: FL vẫn phải đối mặt với các cuộc tấn công: Poisoning Attack,

Reconstruction Attack.

Co sở ha tang: FL yêu cầu co sở hạ tang mạnh mẽ dé có thé duy trì các kết nối

giữa master và các workers và xử lý luông dữ liệu lớn.

20

Trang 32

Chương 3 Mô hình hệ thống

3.1 Hệ thống đề xuất

Chúng tôi đề xuất hệ thống IDS cho IoT áp dụng Feaderated Learning, được

triển khai thực nghiệm trên 3 raspberry (kiến trac ARMv8, hệ điều hành Ubuntu 22.10

64 bit) bao gồm 1 raspberry đóng vai trò là master dé tong hop mô hình và 2 raspberryđóng vai trò là 2 worker dé đào tạo mô hình

Bộ dữ liệu được sử dụng dé dao tạo là NbaloT, cung cấp lưu lượng lành tính

và độc hại từ các thiết bị IoT bị nhiễm Mirai và Gafgyt

Quá trình đào tạo chính sẽ được xây dựng dựa trên phương pháp học liên kết:

Đầu tiên, master sẽ khởi tạo mô hình và gửi mô hình ban đầu đến cho các workers,worker sẽ đào tạo mô hình cục bộ với dit liệu của chính nó dé đảm bảo tính riêng tư

về đữ liệu trong Feaderated Learning và gửi tham số mô hình cho master Master thựchiện tính toán, tổng hợp tham số mới dé cập nhật mô hình toàn cục, mô hình đó sẽ

được master gửi đến tất cả workers và quá trình đào tạo được tiếp tục đến khi đạt

được kết quả mong đợi

Chúng tôi sử dụng kết nối socket dé master và worker thực hiện giao tiếp vớinhau Trong khi đào tạo, worker sẽ lưu các tham số của mô hình tốt nhất vào fileIoT_Intrusions_Detection.pth tương ứng Cu thé các giai đoạn đào tao mô hình được

chúng tôi thực hiện theo các giai đoạn sau:

Khởi tạo mô hình và thiết lập kết nối: Master sẽ khởi tạo mô hình toàn cục,

sau đó nó mở công dé lăng nghe kết nối socket từ các workers Các workers kết nốisocket với master, sau khi đủ số lượng workers mong muốn, master sẽ dừng lắng

nghe socket, broadcast mô hình đến các workers và tiễn vào giai đoạn đào tạo

Dao tạo mô hình: Worker đào tạo mô hình cục bộ với dữ liệu cục bộ của nó.

Sau khi đào tạo đủ số epoch cục bộ được chỉ định hoặc khi mô hình đạt EarlyStopping, nó sẽ ngừng đào tạo và gửi mô hình cục bộ tốt nhất đến cho master Đồngthời tham số mô hình tốt nhất cũng được lưu vảo file IoT_ Intrusions_ Detection.pthtương ứng với worker đó, VD: workerl sẽ lưu tham số vào fileIoT_Intrusions_Detectionl.pth, worker2 sẽ lưu tham số vào file

21

Trang 33

loT_ Intrusions_ Detection2.pth,

T ổng hợp mô hình: Master đợi nhận đủ hết tất cả mô hình cục bộ từ cácWorkers, sau đó nó sẽ tính trung bình các tham số từ các mô hình đó va tong hợp

thành mô hình toàn cục mới Từ mô hình mới này, nó sẽ đánh giá độ chính xác của

mô hình và broadcast đến các workers để tiếp tục đào tạo cho đến khi không còn

worker nào tham gia đào tạo Đồng thời sẽ lưu mô hình mới này vào fileIoT_Intrusions_Detection.pth dé sử dụng cho việc đánh giá và sử dụng sau này

Giám sát quá trình dao tạo: Trong khi đào tạo, các chỉ số của RAM, CPU đã

sử dụng, độ chính xác qua các epoch toàn cục được gửi lên hệ thống giám sát dé dễ

dàng theo dõi.

Hệ thống ELK được tích hợp để giám sát tiến trình cũng như tai nguyên và

hiệu suất đào tạo Log của quá trình dao tạo sẽ được ghi lại, gửi trực tiếp đến hệ thốngELK dé giám sát theo thời gian thực

Cuối cùng, một giao điện web được cung cấp đề triển khai ứng dụng mô hình

đã đào tạo, với các tính năng thân thiện và dễ sử dụng với người dùng nhằm trực quan

hóa giai đoạn thực nghiệm Trang web này sẽ tải các tham số của mô hình từ fileIoT Intrusions Detection.pth dé thực hiện dự đoán dựa trên input từ người dùng, baogồm 2 tính năng chính: dự đoán dựa trên tệp lưu lượng mạng sẵn có và giám sát thờigian thực dé dự đoán lưu lượng mạng được nam bắt từ card mạng của thiết bị Các

cảnh báo về môi đe dọa sẽ được hiên thi trực tiêp trên màn hình cho người dùng.

22

Trang 34

Train Logging Benign traffic

Hình 3-1 Mô hình tổng quan hệ thống đề xuất

3.2 Mô hình phát hiện mối đe doa

Chúng tôi xây dựng mô hình học sâu bằng cách sử dụng lớp nn.Module của

mô hình PyTorch bao gồm 2 lớp 1D Convolution và 3 lớp Linear.

Mô hình nhận 2 tham số: số thuộc tính và số lớp (số lượng mối đe dọa) Đầuvào của mô hình là 775 thuộc tính trong bộ dữ liệu NBaloT và đầu ra là danh sách

xác suất tương ứng khả năng mà record thuộc về lớp đó Danh sách đầu ra bao gồm

benign, gafgyt_combo, gafgyt Junk, gafgyt_scan, gafgyt_udp, mirai_ack,

mirai_scan, mirai_syn, mirai_udp, mirai_udpplain Từ danh sách đó, chúng tôi sé lấy

ra xác suât lớn nhât và đưa ra dự đoán môi đe dọa tương ứng.

23

Trang 35

Hình 3-2 Mô hình dự đoán mối de doa

3.3 Đào tạo mô hình

Dé đào tạo và đánh giá mô hình, chúng tôi cung cấp ham train và ham test

Trong ham train, chúng tôi sẽ duyệt qua từng record, lay kết quả dự đoán của

mô hình đối với record đó và sử dụng hàm mat mát dé tính toán sự khác biệt giữa đầu

ra dự đoán và đầu ra thực tế Sau đó, chúng tôi sử dụng trình tối ưu hóa để cập nhậtcác tham số trong quá trình đào tao dé giảm thiêu ham mất mát, từ đó cải thiện hiệu

các record được sử dụng dé đánh giá

Đề giảm thiểu thời gian đào tạo nhưng vẫn đảm bảo hiệu suất mô hình, chúng

tôi thêm vào cơ chế Early Stopping cho mô hình Đầu tiên, chúng tôi đặt ngưỡng

early_stop_thresh, best_accuracy, best_epoch và expected_threshold Sau khi mô

hình đào tạo xong | epoch, chúng tôi sẽ tiến hành đánh giá độ chính xác của mô hình

trên test_dataset thông qua hàm test, chúng tôi sẽ kiểm tra độ chính xác đó có lớnhơn (best_accuracy + expected_threshold) hay không Nếu có, mô hình sẽ được lưu

24

Trang 36

lại đồng thời lưu độ chính xác đó cùng với epoch đó vào best_accuracy và best_epoch

tương ứng Ngược lại, mô hình sẽ kiểm tra nếu (epoch hiện tại - best_epoch) >

early_stop_thresh thì sẽ ngừng đào tạo và load mô hình tốt nhất đã đào tạo

Hằng số Y nghiaearly_stop_thresh | Ngưỡng tối da ma mô hình được đào tạo khi độ chính xác liên

tục không tăng quá ngưỡng mong đợi

best_accuracy Độ chính xác cao nhất từng ghi nhận trong quá trình đào tạobest_epoch Epoch mà mô hình đạt đến độ chính xác cao nhất

expected_threshold | Ngưỡng thay đổi độ chính xác của mô hình mà chúng tôi

mong đợi tăng lên sau khi đào tao so với best_accuracy

Bảng 3-1 Ý nghĩa các hăng số trong Early Stopping

Ngoài ra, chúng tôi còn hỗ trợ kĩ thuật nén và giải nén dit liệu trao đổi giữamaster và các workers, góp phần giảm thiểu gánh nặng giữa những lần trao đổi môhình Tùy vào từng loại kĩ thuật mà hiệu suất nén và thời gian nén sẽ khác nhau,nhưng nhìn chung, sẽ có sự đánh đôi giữa hiệu suất và thời gian, hiệu suất cảng tốt

thì thời gian xử lý cũng sẽ càng cao.

25

Trang 37

Hình trên là các kĩ thuật nén và giải nén dữ liệu sử dụng thư viện compress

của Python, bao gồm LZ4, BZ2, LZMA, GZIP Mỗi loại kết quả đều bao gồm: Tên

ki thuật, dung lượng sau khi nén/giải nén, tỉ lệ dung lượng cua dữ liệu nén/giai nén

so với dung lượng đữ liệu ban đầu và thời gian dé nén/giai nén đữ liệu đó Dữ liệu

sau khi nén giảm không nhiều, nhưng thời gian nén và giải nén tương đối nhỏ chonên đây cũng là biện pháp đáng dé cân nhắc Tuy nhiên, dé tối ưu hơn, chúng tôi cungcấp hai kĩ thuật đánh giá hiệu suất mô hình trong quá trình dao tạo dé quyết định cónên gửi mô hình hay không, góp phần giảm đáng kê gánh nặng giữa những lần traođổi dữ liệu giữa master và các workers

Chúng tôi cung cấp 3 chế độ đảo tạo: đào tạo không áp dụng FL, đào tạo có

áp dung FL va dao tạo có ap dụng FL được tối ưu hóa dé hỗ trợ cho nhiều mục đích

sử dụng.

3.3.1 Đào tạo mô hình

Chế độ này đơn giản nhất, không phân chia master và worker nên không cần

các kĩ thuật kết nối phức tạp, thường được sử dụng cho việc chạy thử mô hình hoặc

đánh giá hiệu suất mô hình

Đầu tiên, hệ thong sẽ đọc dữ liệu từ file csv và tiến hành tiền xử lý dit liệu,Sau đó nó sẽ qua ham train dé dao tao và hàm test dé đánh giá mô hình sau dao tạo

cho đến khi đủ số lượng epoch hoặc cho đến khi đạt Early Stopping

Chúng tôi thử nghiệm mô hình này với 3.000.000 dữ liệu đào tạo và 700.000

dữ liệu kiểm thử Chúng tôi ghi nhận mô hình đạt hiệu suất cao trong 5 lần đánh giá

(>98%):

3.3.2 Đào tạo mô hình áp dung Federated Learning

Dữ liệu được năm trên chính các Workers giúp đảm bảo quyền riêng tư dữ liệu

và tận dụng tốt các tài nguyên tính toán từ nhiều thiết bị Chúng tôi sử dụng Sockettrong Python và áp dụng đa luồng để quản lý việc giao tiếp giữa master và các

workers.

Đâu tiên master khởi tạo trình lăng nghe két nôi socket va chờ đợi các workers

26

Trang 38

kết nối đến Khi đủ số lượng worker kết nối, master sẽ gửi tham số mô hình cho các

workers và các workers sẽ đào tạo mô hình cục bộ với dữ liệu của chính nó và sau đó

gửi tham số mô hình cho master dé tổng hop Sau khi nhận đủ các tham số mô hình

từ các workers đang kết nối, master sẽ tông hợp mô hình bằng cách tính trung bìnhcác tham số đó và thực hiện đánh giá mô hình vừa tông hợp Toàn bộ quá trình lặp

lại cho đến khi không còn workers nào duy trì kết nối socket (đủ số epoch toàn cục

được định nghĩa trong từng worker).

3.3.3 Đào tạo mô hình áp dung Federated Learning được tối ưu hóa

FL giúp giảm gánh nặng cho việc đảm bảo quyền riêng tư và việc sử dụng tàinguyên tính toán nhưng gặp nhược diém ở việc chuyền giao model giữa các

workers với master Việc liên tục chuyển giao mô hình với số lượng lớn các workertham gia có thể tiêu tốn khá nhiều tài nguyên của master Mô hình sau đào tạo có

thé không tối ưu hơn so với trước khi đào tạo do đó không cần thiết phải chuyền

giao, tránh tiêu tốn tài nguyên

Dé giải quyết van dé này, chúng tôi thử nghiệm 2 giải pháp tối ưu Quá trình

tương tự như trong phần 3.3.2, tuy nhiên, sau khi đào tạo xong mô hình cục bộ,

chúng tôi sẽ kiểm tra các điều kiện xem mô hình có đủ tiêu chuẩn dé gửi lên cho

master tông hợp hay không

Giải pháp 1: Chúng tôi sử đánh giá dựa trên danh sách loss thu được khi

train cục bộ, áp dụng định luật three-sigma dé loại bỏ các loss nhiễu và tiễn hành

tính toán sự biến thiên của các loss và so sánh nó với ngưỡng nhất định được chọn

trước đó Nếu thỏa điều kiện được đặt ra thì mô hình sẽ được gửi cho Master, ngượclại, nó sẽ không gửi mô hình Cụ thể, trong mỗi lần train cục bộ đối với mỗi worker,tiền hành thực hiện các bước sau dé xác định xem liệu có nên gửi trọng số model

cục bộ đến model trung tâm không:

1 Ap dụng quy tắc Three-Sigma để loại bỏ dữ liệu nhiễu (dit liệu cách xa so

với 3 lần độ lệch chuẩn) trong tập các giá tri loss thu được trong mỗi lần

train cục bộ trên worker đó.

2 Tính mean _loss: trung bình tất cả các giá trị loss thu được sau khi áp

27

Trang 39

dụng quy tắc trên.

3 Tính change rate: tỉ lệ sai khác của mean_loss so với trung bình 5 giá tri

loss đầu tiên trong cùng lần train

4 Đặt điều kiện ngưỡng cập nhật trọng 36 dua trén change_rate va

mean_loss:

Nếu lần train cục bộ đối với mỗi worker thỏa cả 2 điều kiện bên dưới thigửi trọng số model cục bộ đến model trung tâm Ngược lại thì gửi None

“_ change rate > x: độ biến thiên giá tri loss trung bình so với những

loss ban đầu trong lần train đó nhiều hơn x, tức loss có thay đổi nhiều

(x là một ngưỡng được chọn sau nhiều lần đánh giá)

= mean loss > y: giá trị loss trung bình trong lần train đó lớn hon y, tức

là trong lần train trên worker, model học được nhiều những thay đổi(y là một ngưỡng được chọn sau nhiều lần đánh giá)

change_

rdte

loss_ list Change_rate > 0.1 and

Model Train loss_list (filter noise) mean _lost > 0.05

lost

Hình 3-4 Tối wu hóa mô hình theo cách kiểm tra thay đổi của loss

Giải pháp 2: Chúng tôi đặt ra yêu cầu việc đánh giá mô hình trước và sau

khi đảo tạo cục bộ Nếu độ chính xác của mô hình tăng lên sau khi đào tạo thì mô

hình sẽ được gửi cho Master, ngược lại, nó sẽ không gửi mô hình Cụ thé, trong mỗi

lân train cục bộ đôi với môi worker, tiên hành thực hiện các bước sau dé xác định

28

Tiêu đề	Xây dựng và tối ưu hệ thống Federated IDS
Tác giả	Châu Thanh Tuan, Nguyễn Mỹ Quỳnh
Người hướng dẫn	TS. Lê Kim Hùng, ThS. Lê Minh Khánh Hội
Trường học	Trường Đại học Công Nghệ Thông Tin - Đại Học Quốc Gia TPHCM
Chuyên ngành	An toàn thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	78
Dung lượng	41,24 MB