Ban chat phi tập trung và kết nối của mang IoT đã tạo ra một bềmặt tấn công mở rộng, khiến chúng dễ bị tan công trước nhiều mỗi đe dọa tiềm ân, từ các nỗ lực truy cập trái phép đến vi ph
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
O00
ĐỖ THỊ PHƯƠNG UYEN
XÂY DỰNG IDS DỰA TRÊN HỌC SÂU
CHO BẢO MẬT MẠNG IOT
LUẬN VĂN THẠC SĨ NGÀNH AN TOÀN THÔNG TIN
Mã số: 8.48.02.02
NGƯỜI HƯỚNG DAN KHOA HOC
TS LE KIM HUNG
TP HO CHi MINH, 2023
Trang 2LỜI CẢM ƠN
Chân thành cảm ơn đến tất cả những người đã đồng hành và hỗ trợ tôi
trong hành trình học tập tại trường Đại học Công nghệ Thông tin Sự hỗ trợ, dạy
dỗ và chia sẻ kiến thức của quý thầy cô các thầy cô giáo tận tâm và nhiệt huyết tại trường, đặc biệt là thầy cô khoa Mạng máy tính và Truyền thông, đã giúp tôi phát triển không chỉ trong học thuật mà còn trong tư đuy và kỹ năng thực tế.
Tôi cũng muốn bày tỏ lòng biết ơn đặc biệt sâu sắc đến Tiến sĩ Lê Kim Hùng, người đã dành thời gian và tâm huyết dé hướng dẫn và hỗ trợ tôi trong
suốt quá trình thực hiện khoá luận Những lời khuyên quý báu, sự chia sẻ kinh
nghiệm và những lời động viên từ thầy là nguồn động lực vô cùng to lớn, giúp
tôi vượt qua những thách thức khó khăn và hoàn thành đề tài một cách xuất sắc.
Tôi cũng muốn gửi lời cảm ơn chân thành đến các bạn trong phòng thí
nghiệm IEC, nơi sự hỗ trợ và đóng góp của họ đã góp phần quan trọng vào việc
hoàn thành luận văn của tôi.
Cuối cùng, không thé không dé cập đến sự ủng hộ, động viên từ gia đình, bạn bè và các anh chị đồng nghiệp Những lời khích lệ của mọi người giúp tôi
vượt qua những khó khăn và duy trì động lực trong suốt quãng thời gian dài học
tập và làm luận văn.
Một lần nữa, tôi xin chân thành cảm ơn tat cả những người đã giúp cho
hành trình học tập của tôi trở nên ý nghĩa và thành công.
Trang 3LOT CAM áo ÔỎÔỎ 3
08009060 4
DANH MỤC HÌNH ẢNH 222222222 22221121222111227211122711122211122111 E21 e 6 DANH MỤC BẢNG
ID )280100i9I00A2)506Ề0035 8
"9100 0
Chương 1 TONG QUAN -22222222++2222222222EEEE2EEEEtrrrrrrrrrrrrrrrre 2
1.1 Tên để tài, cnc cv TH nhe 2
12 Đặtvấnđề €⁄⁄⁄,g50” 2
1.3 Mục tiêu để tài à HHHHHHHH HH 3
1.4 Đối tượng và phạm vi nghiên cứu 13 1.4.1 Đối tượng nghiên cứu : -2222+++2222E2++++rttttvvzvrrrrrrrrrrrrrrrrree 3 1.4.2 Phạm vi nghiên CỨU -¿ - 5+5 S2SE2*£E#E£E#E+E+EEEeEererkrkrkrkrrrrrkrrre 3
1.5 Nội dung và phương pháp nghiên cứu ¿-+++s+x+++cezez+xrxexsrerrxsx 3
1.5.1 Nội dung 1: Chọn bộ dữ liệu, trích xuất đặc trưng và gan nhãn dữ liệu 4 1.5.2 Nội dung 2: Xây dựng mô hình học sâu, huấn luyện & kiểm thử 4
1.5.3 Nội dung 3: Xây dựng, triển khai hệ thống IDS tích hợp mô hình học sâu 15 Chuong 2 CƠ SỞ LÝ THUYET VÀ NGHIÊN CỨU LIÊN QUAN 7 2.1 Cơ sở lý thuyết „17 2.1.1 Internet vạn vật 7 2.1.2 Các thách thức trong bảo mật trong loT 7 2.1.3 Tan công từ chối dịch vụ trong IoT .19
2.1.4 Hệ thống phát hiện xâm nhập :2:+++222+++++222++ertrrkserrrrrvee 20
2.1.5 Kỹ thuật học máy, học sâu trong hệ thống phát hiện xâm nhập 23
Trang 42.2 Các công trình nghiên cứu liên quan ¿+ +5 +t+*£vxvxeeeeerererexee 28 Chương 3 MÔ HÌNH -22222:c-222222222222222221112 21212111 re 33
3.1 Tổng quan về giải pháp đề xuất :©222++++22++rtttrxvrrsrrrrrrrrrrree 33 3.2 Các khối chức năng -22-222++++22EEEEEEEirtEEEEELrrrtrrtrrrrrrrrrtrii 37
3.2.1 Trình trích xuất thông tin gói tỉn -:¿+2+z++22+zz+czxszrrrrrxee 37 3.2.2 Rút trích đặc trưng - kh TH HH HH Hư 38
3.2.3 Ánh xạ nhãn 2222222++2222221112222222211111122221111111.2121111111 10.111 ee 40
3.2.4 Mô hình máy hoc - - ¿+55 2S 2 2+2 E12 2 121217111 111gr 4I 3.2.5 Giám sát và DAO CáO kh HH HH HH HH re 47
3.3 Luồng hoạt động 22::12221%:222212222111 21211121111 cv 49 3.3.1 Chế độ đào tạO séc «6c cc c8 re 3y 11c rree 50 3.3.2 Chế độ phát hiện bat thường -. ++¿22V+++++22E++++t2EE+rrtrrkxrrrrrrvee 52
Chương 4 _ THỰC NGHIỆM VÀ ĐÁNH GIÁ ¿222z+22+z+tzvzvszrrrrrs 53 4.1 Môi trường thực nghiệm - - - c5 ri 53 4.2 Bộ dữ liệu
4.3 Chỉ số đánh giá 22222222+2222222212 2222111 c ree 55
4.4 Kết quá đánh giá mô hình -222+++2222E2++++rttttErxvxrrrrrrrrrrrrcee 58
4.4.1 Đánh giá khả năng phân loại tấn công -:¿©+cz222vsz+etczveccee 58 4.4.2 Đánh giá hiệu suất thực thi -¿-:¿2222++tSCESxrrttrrtvrerrrrrresrrkrrree 61 4.5 Thực nghiệm tn công -.-2-:+-©222V+++++e+22EEEEEEvrtrtEErkkrrrrrrrrrrrrrree 63
Chương 5 KÉT LUẬN VÀ HƯỚNG PHAT TRIẺN ¿¿©2scz+2c++ 65 5.1 Kếtluận cccc222222EEErEEEEEEEErrrrrEEEErrrrrrrrrrrrrrrrrrrres 65
5.2 Hướng phát triển :+:©2V2+++222++++2E2E+EEE2EEEE22211 221 ccrrrvev 66 TÀI LIEU THAM KHẢO 222+£22222222+22222EE2222+2222222322222222E2EEerrrrrrrrks 67
Trang 5DANH MỤC HÌNH ẢNH
Hình 1 Phân loại IIDS -¿- G22 S236 3E E23 E9E 3E £EEEESt SE E1 31 1 111 cv 21
Hình 2 Vị trí triển khai HIDS và NIDS trong hệ thống mạng - 22
Hình 3 Phân loại các kỹ thuật học máy, học sâu ¿- 5-5 25+ S+S++xzxexersrerre 24 Hình 4 Tổng quan mô hình để xuất -+¿+©©©V++2+++222EEEE+vvrrttrrtrrrrrrrrie 36 Hình 5 Mô hình CNN được sử dụng dé phân loại tấn công - 43
Hình 6 Sơ đồ hoạt động của hệ thống ELK 5c 12t S2 2x EkssErxrrrrekseerer 48 Hình 7 Giao diện bảng điều khiển hệ thống IDS -2¿:©2++22cvvzc+crz+ 49 Hình 8 Độ chính xác (trên) và hàm mat mát (dưới) trong quá trình dao tạo mô hình 51 Hình 9 Confussion matrix trong trường hợp phân loại nhiều nhãn - 56
Hình 10 Confusion matrix của mô hình trên tập dữ liệu CIC DDoS 2019 60
Hình 11 Mức độ tiêu thụ CPU (a), RAM (b) khi thực thi trên Mac MI 62
Hình 12 Mức độ tiêu thụ CPU (a), RAM (b) khi thực thi trên Raspberry Pi 62
Hình 13 Mô hình thực nghiệm tấn công ¿ 22+++222EEEEvvrrrrrrrrrrrrrrrree 64 Hình 14 Kết quả nhận diện tan công được hiền thị tại bảng điều khiển IDS 65
Trang 6DANH MỤC BANG
Bang 1 Một số công trình nghiên cứu liên quan - 2 5¿+5£+2+£x£+z++zxzzzscred 30
Bang 2 Thông tin được trích xuất từ mỗi gói tin thông qua pyshark 37
Bang 3 Bang mô tả thông số tính toán các đặc trưng được trích xuất 40
Bang 4 Giá trị siêu tham số cho các lớp của mô hình CNN đề xuắt 46
Bang 5 Mô tả các loại tan công trong tập dit liệu CICDDoS2019 - 54
Bang 6 Số lượng gói tin được sử dụng trong quá trình dao tạo, đánh giá và kiêm thử 58 Bảng 7 Hiệu suất phân loại tắn công của mô hình đề xuất trên tập dữ liệu CIC DDoS PhbsottdaidđiddiẳidaiiẳẳầaiiÝŸ - 59
Bang 8 So sánh hiệu suất dự đoán giữa mô hình đề xuất với các mô hình học máy khác Ề -< 6 Y ốốốẽ 60 Bang 9 Hiệu suất thực thi của mô hình trên Mac MI va Raspberry Pi 4 61
Trang 7DANH MỤC TU VIET TAT
Số thứ tự | Thuật ngữ Mô ta
1 AE Auto Encoder
2 CNN Convolutional Neural Network
3 CPU Central Processing Unit
4 DDOS Distributed Denial-Of-Service
10 FNR False Negative Rate
11 EP! False Positive
12 FPR False Positive Rate
13 FTP File Transfer Protocol
14 HIDS Host-Based Intrusion Detection System
15 HTTP Hypertext Transfer Protocol
16 IDS Intrusion Detection System
17 loT Internet Of Thing
18 IP Internet Protocol
19 KNN K-Nearest Neighbors
20 ML Machine Learning
21 NIDS Network-Based Intrusion Detection System
22 RAM Random-Access Memory
23 ML Machine Learning
24 SVM Support Vector Machine
25 TCP Transmission Control Protocol
26 TN True Negative
27 TNR True Negative Rate
28 TP True Positive
Trang 829 TPR True Positive Rate
30 UDP User Datagram Protocol
31 VM Virtual Machine
Trang 9MỞ ĐÀU
Kỷ nguyên công nghệ 4.0 chứng kiến sự tăng trưởng vô cùng mạnh mẽ củaInternet van vật (Internet of Things — IoT) với sự bùng nỗ về số lượng cũng như kết nối
IoT Sự phát triển của IoT mang lai sự đôi mới và tiện lợi to lớn cho nhiều khía cạnh
khác nhau, từ nhà thông minh, các thiết bị công nghệ đeo tay đến các giải phap chăm sóc
sức khoẻ, theo dõi môi trường và tự động hoá công nghiệp.
Tuy nhiên, sự phát triển nhanh chóng này cũng kéo theo một loạt các vấn đề về
an ninh Có thé thay rằng các thiết bị IoT da số là có có những giới hạn về tài nguyên,khi phải tích hợp vào các thiết bị nhỏ gọn như đồng hồ thông minh, sensor đo nhiệt độ
Bên cạnh đó, các thiết bị JoT còn thiếu đồng bộ với nhau về giới hạn tài nguyên, chuẩn
giao tiếp Chúng đồng thời thu thập và trực tiếp tạo ra một lượng lớn dit liệu đa dang từnhiều nguồn khác nhau như chỉ số sức khoẻ người dùng, chỉ số quan trắc môi trường,chỉ số của động cơ Ban chat phi tập trung và kết nối của mang IoT đã tạo ra một bềmặt tấn công mở rộng, khiến chúng dễ bị tan công trước nhiều mỗi đe dọa tiềm ân, từ
các nỗ lực truy cập trái phép đến vi phạm dữ liệu và thao tác độc hại trên các thiết bị
được kết nối Do đó, nhu cầu tăng cường bảo mật IoT va bảo vệ dữ liệu nhạy cảm được
truyên qua các mạng này là rat cân thiệt.
Nhiều biện pháp phát hiện và ngăn chặn đã được đưa ra nhằm phát hiện kịp thời
và giảm thiêu thiệt hai, một trong số đó có thê kê đến là sử dụng IDS-Intrusion DetectionSystem dé giám sát và phát hiện những bat thường trong lưu lượng mang, thông báo kip
thời đến quản trị viên Các IDS này thường được đặt trên các thiết bị mạng biên năm gần
nguôn dữ liệu đê có thê phản ứng nhanh trước các cuộc tân công.
Tuy nhiên, các cuộc tan công ngày càng đa dang và kết hợp với nhau, dé dang có
thé vượt qua hệ thống IDS theo cách truyền thống dựa trên dấu hiệu tấn công vì không
thé phát hiện kịp thời các cuộc tan công mới ma IDS chưa được cập nhật IDS kết hợpvới máy học phân tích các gói tin mạng dé xác định các dấu hiệu bat thường có thé nhận
10
Trang 10diện được các cuộc tấn công mới nhưng lại nặng nè, tiêu tốn quá nhiều tài nguyên, khôngphù hợp để triển khai thực tế trên các thiết bị mạng biên nhỏ gọn Bên cạnh đó, hầu hếtcác phương pháp IDS hiện đại ngày nay đều được xây dựng dựa trên đặc tính của luồngmạng, điều này đã gây ra một độ trễ nhất định khi phải chờ một lượng gói tin mạng đến
rồi mới được xử ly & dự đoán Nghiên cứu này đề xuất xây dựng một IDS dựa trên học
sâu gọn nhẹ, độ chính xác cao, có khả năng xử lý theo thời gian thực bằng việc sử dụngđặc tính của gói tin, phù hợp khi triển khai trên các thiết bị mạng biên Đồng thời, đónggói hệ thống thành một IDS học sâu theo thời gian thực mã nguồn mở cho phép quản trịqua giao diện web va dé dàng cài đặt IDS này lên các thiết bi mạng biên dưới dang gói
cài đặt.
Luận văn được trình bày như sau:
Chương | trình bày tong quan chung về đề tài, mục tiêu, nội dung và phương pháp thực
hiện đê tài.
Chương 2 giới thiệu về tình hình bảo mật trong IoT, cách thức hoạt động của IDS, cáccông trình nghiên cứu trong và ngoài nước về việc sử dụng IDS nhằm mục đích bảo mật
mang IoT.
Chương 3 đưa ra một cái nhìn tổng quan về mô hình IDS đề xuất trong dự đoán tan côngDDoS, những cải tiến giúp mô hình phù hợp hơn với việc triển khai trên các thiết bị IOTthực tế
Chương 4 là những thông tin về việc cài đặt, kết quả thực nghiệm Bên cạnh đó là đánh
giá, so sánh kết quả thực nghiệm với những công trình liên quan.
Chương 5 đưa ra kết luận về mô hình và hướng cải tiến, phát triển mô hình trong tương
lai.
11
Trang 11Chương 1 TONG QUAN
Mỗi năm, chúng ta vẫn chứng kiến sự gia tang đáng kể của cuộc tan công
từ chối dịch vụ trên mạng, và tình hình này tiếp tục gây ra những thiệt hại đáng kế
cho cả các cơ quan và tô chức Các cuộc tan công này ngày càng trở nên da dang
và phức tap hơn, thậm chí còn kết hợp với nhau dé tạo ra những thách thức đáng
kế cho hệ thống phát hiện xâm nhập truyền thống.
Các hệ thống IDS dựa trên học máy, học sâu đã được phát triển để có khả năng phát hiện các cuộc tan công mới, nhưng chúng thường khá nặng nề và tiêu tốn quá nhiều tài nguyên, do đó chỉ thường được sử dụng trên các thiết bị có tài nguyên phần cứng mạnh mẽ Điều này làm cho các hệ thống này trở nên không phù hợp cho việc triển khai trên các thiết bị mạng có tài nguyên hạn chế, như các
thiết bị biên Ngoài ra, việc xây dựng các IDS dựa trên đặc tính luồng mạng có thể
gây ra độ trễ không mong muốn trong việc thu thập và dự đoán tấn công, khi mà chúng phải thu thập đủ các gói tin trong một luồng mạng mới tiến hành xử lý và
dự đoán tấn công.
Do đó, tại tương lai, sự phát triển của hệ thống IDS sẽ đặt sự tập trung vào việc xây dựng một hệ thống IDS dựa trên học máy, học sâu, gọn nhẹ và có khả năng xử lý theo thời gian thực Điều này sẽ được thực hiện bằng việc sử dụng
thông tin từ các đặc tính của gói tin mạng dé giảm độ trễ và tối ưu hóa việc thu
thập và dự đoán Mục tiêu là tạo ra một giải pháp IDS hiệu quả, có độ chính xác
cao, và có khả năng triển khai một cách linh hoạt trên các thiết bị mạng biên, đóng
12
Trang 12góp đáng ké vào việc bảo vệ mạng lưới trước các cuộc tan công DDoS ngày càng
phúc tạp.
1.3 Mục tiêu đề tài
Xây dựng một IDS gọn nhẹ, có độ chính xác cao, phát hiện tấn công trực tuyến
có thê đễ dàng cài đặt và sử dụng trên các thiết bị IoT
Đề đạt được mục tiêu này, nghiên cứu này sẽ thực hiện:
e_ Cải tiến quá trình tiền xử lý gói tin dé giảm thời gian chờ thu thập dữ liệu
e Ap dụng các kỹ thuật học máy dé xây dựng mô hình phát hiện tan công gọn nhẹ,
có thê dự đoán được nhiều cuộc tấn công với độ chính xác cao
e_ Đóng gói hệ thống thành một phiên bản cài đặt gói gọn nhẹ, có thé dé dàng cài
đặt trên các thiết bị IoT, có giao diện quản tri để quản trị viên dễ dàng theo dõi vàtương tác với hệ thống
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
Nghiên cứu tập trung vào phát triển một mô hình phát hiện và phân loại các cuộc tấn công mạng triển khai trên các thiết bị IoT.
1.4.2 Phạm vi nghiên cứu
Nghiên cứu nay tập trung vào thiết kế một IDS phát hiện tấn công dành cho các thiết bị loT với tài nguyên hạn chế.
e Xác định và phân loại các mối de doa tiềm ấn đối với các thiết bị IoT, trong
đó nồi bật nhất là các cuộc tấn công DDoS dựa trên giao thức TCP/IP.
e Tối ưu hoá quá trình xử lý gói tin, tối ưu hoá việc sử dụng tài nguyên hệ
thống để phù hợp với môi trường thiết bị IoT có tài nguyên hạn chế.
e_ Triển khai thực tế trên thiết bị IoT, đảm bảo tính ứng dụng và khả năng hoạt
động của hệ thống.
1.5.Nội dung và phương pháp nghiên cứu
13
Trang 131.5.1 Nội dung 1: Chọn bộ dữ liệu, trích xuất đặc trưng và gán nhãn
dữ liệu
Mục tiêu:
Xây dựng bộ dữ liệu tắn công mạng đã được rút trích đặc trưng và gán nhãn
Phương pháp:
e Thu thập các bộ dữ liệu là các tập tin lưu lượng mang ở trang thái bình thường và có
các cuộc tan công mạng từ nhiều nguồn: các bài báo khảo sát liên quan tới tan công
mạng, các trang web lớn chuyên cung cấp các bộ dữ liệu (Kagsle)
e Xây dựng bộ trích xuất đặc trưng trích xuất các đặc trưng từ lưu lượng mạng, bộ trích
xuất xử lý theo gói tin dé rút trích các đặc trưng theo thời gian thực, giảm thiểu thời
gian chờ.
e Sau khi đã rút trích đặc trưng, thực hiện gan nhãn cho bộ dữ liệu dựa trên các thông
tin: địa chỉ IP nguồn, địa chỉ IP đích, dấu thời gian.
Xây dung mô hình học sâu gọn nhẹ, tinh giản với độ chính xác cao và kích thước
gọn nhẹ phù hợp triển khai trên các thiết bị mạng biên IoT
Phương pháp:
Sau khi có bộ dữ liệu đã được rút trích đặc trưng va gan nhãn cho từng gói tin,
nghiên cứu tiến hành tiền xử lý bộ dữ liệu bao gồm sàng lọc & loại các dữ liệu khônghợp lệ, cân bằng dữ liệu, phân tách bộ dữ liệu thành 3 tập huấn luyện (training) / thẩmđịnh (validating) / kiểm thử (testing) với tỉ lệ tương ứng 80% - 10% - 10%
Tiếp đến, xây dựng mô hình học sâu có giám sát sử dụng thuật toán ConvolutionalNeural Network (CNN) dé huấn luyện và thâm định trên những tập dữ liệu tương ứng
này.
14
Trang 14Với việc sử dung CNN, mô hình tận dụng được việc chia sẽ và sử dụng lại tham
số Do đó, số lượng tham số được sử dụng trong mô hình ít hơn, mô hình cũng yêu cầu
ít tài nguyên bộ nhớ dé huấn luyện và ít không gian lưu trữ hơn
Từ mô hình đã xây dựng bước đầu, thực hiện dự đoán kết quả với bộ dữ liệu kiểmthử, so sánh với kết quả được gán nhãn trước đó và đánh giá thông qua các kết quảConfusion Matrix, Accuracy, F1 Score, Từ đó tiến hành điều chỉnh các siêu tham số
dé thu được mô hình với kết qua dự đoán chính xác là cao nhất
Kết quả:
Mô hình học sâu gọn nhẹ có khả năng dự đoán một gói tin mạng có phải là một gói
tin tấn công hay không với khả năng chính xác cao nhất
1.5.3 Nội dung 3: Xây dựng, triển khai hệ thống IDS tích hợp mô
hình học sâu
Mục tiêu:
Đưa mô hình đã huấn luyện vào ứng dụng thực tiễn triển khai trên mạng biên.Xây dựng hệ thống IDS tích hợp mô hình học sâu dé dự đoán theo thời gian thực các góitin mạng đang đi qua thiết bị có phải là tình nghi tắn công mạng hay không, từ đó thôngbáo cho người quản trị và ngăn chặn cuộc tan công kịp thời
Phương pháp:
Bắt gói tin theo thời gian thực từ công mạng vật lý chiều vào (inbound port) của
thiết bị, rút trích đặc trưng mạng ngay lập tức của gói tin mạng đang được giữ lại (hold),
gửi các đặc trưng mạng này đến mô hình học sâu đã huấn luyện, tiến hành dự đoán kếtquả Nếu kết quả thu được là an toàn thì cho phép gói tin đi đến cổng mạng vật lý chiều
ra (outbound port) dé tiếp tục quá trình truyền tin, ngược lại nếu kết quả thu được là tan
công thì thông báo đến quản trị viên, không cho phép gói tin đi tiếp đến hệ thống mạng
bên trong.
Xây dựng giao diện điều khiến web cho phép người quản trị lựa chọn tùy chỉnh
hệ thong IDS va xem lại lịch sử ghi nhận trên hệ thống
Kết quả:
15
Trang 15Hệ thống IDS tích hợp mô hình học sâu với khả năng nhận diện & dự đoán góitin có phải là tắn công mạng hay không theo thời gian thực với khả năng xử lý nhanh,
độ trễ thấp
16
Trang 16Chương 2 CƠ SỞ LÝ THUYÉT VÀ NGHIÊN CỨU LIÊN QUAN
2.1 Cơ sở lý thuyết
2.1.1 Internet vạn vật
Thuật ngữ Internet vạn vật (Internet of Things — IoT) được giới thiệu vào năm
1999 bởi Kevin Ashton đề cập đến một mạng lướt các thiết bị, cảm biến có khả năng kếtnối internet, kết nối với nhau thông qua một mạng chung và trao đổi dữ liệu với nhau màkhông cần sự tham gia trực tiếp của con người
IoT được coi là một trong những trụ cột trong cuộc cách mạng công nghệ 4.0 Theo
dự báo, số lượng các thiết bị IoT được kết nối tăng lên đến 27 tỷ vào năm 2025 [I] Số
lượng thiết bị và kết nối của IoT lại không lồ như vậy bởi mạng này không yêu cầu cácthiết bi có phần cứng mạnh hay dat tiền, những thiết bị tham gia vào mạng lưới IoT cóthé là những máy tính nhúng nhỏ gọn hay những cảm biến rẻ tiền được sử dụng dé thu
thập các thông tin từ môi trường xung quanh.
IoT được trién khai trong nhiều lĩnh vực khác nhau [2]: (1) thiết bi di động, (2) du
lịch và thương mai, (3) an toàn công cộng, (4) giám sát môi trường, (5) nhà thông minh,
(6) lưới điện thông minh, (7) 6 tô, (8) chế biến công nghiệp, (9) nông nghiệp, (10) hậucần và quản lý vòng đời sản pham, (11) chăm sóc sức khỏe và (12) cuộc sống độc lập.Phạm vi ứng dụng rộng rãi của IoT chứng tỏ tiềm năng to lớn của công nghệ IoT đối với
xã hội hiện đại và nhân mạnh tầm quan trọng trong nghiên cứu phát triển các hệ thống
IoT an toàn, bao mật va đáng tin cậy.
2.1.2 Các thách thức trong bảo mật trong IoT
Đặc điểm và sự phát triển nhanh chóng của IoT cũng đặt ra nhiều vấn đề bảo mật
đáng lo ngại.
(1) Quản lý thiết bi và kết nối: Số lượng các thiết bị IoT tham gia vào mang lưới là
rất lớn Các thiết bị này tham gia vào mang Internet với nhiéu nguy co tan cong.Với số lượng thiết bị lớn, việc bao mật cho từng thiết bị là điều khó khăn và một
17
Trang 17khi một thiết bị trong mạng bị nhiễm mã độc hoặc bị tấn công, nó có thé trở thành
lỗ hồng bảo mật cho toàn hệ thống
(2) Quyền riêng tư: Có thé thấy rằng các thiết bị loT tham gia trực tiếp vào quá trình
thu thập dữ liệu Lượng dữ liệu mà các thiết bị IoT thu thập là rất lớn và là những
dữ liệu riêng tư, nhạy cảm, điều này làm tăng mối lo ngại về bảo mật và quyền
riêng tư của người dùng.
(3) Hạn chế về tài nguyên: Các thiết bị IoT thường bị giới hạn về sức mạnh tính toán,
gây khó khăn trong việc triển khai các biện pháp bảo mật mạnh mẽ và mã hóa dữliệu Điều này làm cho các thiết bi dé trở thành nạn nhân của các cuộc tấn công
và tạo ra sự lo ngại về việc bảo vệ thông tin quan trọng trong mang IoT
(4) Thiếu đồng bộ về cấu hình và sức mạnh tính toán: Các thiết bị loT tham gia vào
mạng lưới là rất lớn và không có sự đồng bộ về cau hình, sức mạnh tính toán Cácthiết bị tham gia vào mạng lưới có thê là những máy tính bảng, điện thoại thôngminh với cau hình phan cứng mạnh mẽ nhưng cũng có thé là những cảm biến đơngiản chỉ có thể thu thập được đữ liệu nhiệt độ, độ âm môi trường Sự thiếu đồng
bộ này gây khó khăn trong khi lựa chọn một giải pháp bảo mật chung có thê sửdụng được trên tất cả các thiết bị
(5) Bảo mật trong giao tiếp giữa các thiết bị: Vì sự hạn chế về tài nguyên, nhiều thiết
bị loT không phù hợp với các giao thức truyền thống như TCP, UDP Thay vào
đó, hàng loại các giao thức khác dành cho mạng IoT ra đời với những mục tiêu
khác nhau hỗ trợ cho các thiết bị loT như tiết kiệm điện năng, tăng tốc độ truyền
trong phạm vi ngắn hay cải thiện về phạm vi truyền dit liệu Các giao thức có thé
kê đến như Bluetooth Low Energy, ZigBee, Lora, NB-loT, CoAP, 6LoWPAN,MQTT Việc có nhiều giao thức truyền thông khác nhau cũng đặt ra van đề về
khả năng tương tác và bảo mật trong giao tiếp giữa các thiết bị.
(6) Sự cần đảm bảo tích hợp: IoT thường bao gồm nhiều hệ thống và thiết bị từ nhiều
nhà cung cấp, và việc đảm bảo tích hợp của chúng đòi hỏi sự cân nhắc đặc biệt
đê đảm bảo bảo mật toàn diện.
18
Trang 18(7) Lỗ hồng trong mật khẩu mặc định: Các thiết bị loT thường sử dụng các mật khâu
mặc định yếu và không được thay đôi trong quá trình sử dụng, tạo cơ hội cho kẻtấn công thực hiện các tấn công dựa trên danh bạ mật khẩu dé chiếm quyền kiểmsoát thiết bị
2.1.3 Tấn công từ chối dịch vụ trong IoT
Từ chối dịch vụ (Denial of Service — DoS) là một thách thức to lớn trong lĩnh vực
mạng máy tính Mục tiêu của cuộc tấn công này là làm chậm hoặc vô hiệu hoá khả năng
phục vụ của máy chủ, dịch vụ Từ chối dịch vụ phân tán (Demial of Service - DDoS)
triển khai một mạng gọi là botnet tấn công vào các máy chủ, thiết bị mạng hoặc ứngdụng, bằng cách làm quá tải tài nguyên hệ thống bằng một lượng lớn các yêu cầu xử lýtới hệ thống nhằm làm gián đoạn việc truy cập bình thường vào các máy chủ, thiết bịmạng hoặc ứng dụng Có nhiều bằng chứng cho thấy răng IoT đã và đang được coi làmục tiêu tiềm năng đề trở thành các mạng botnet trong các cuộc tấn công DDoS
e Số lượng các cuộc tan công DDoS vẫn tiếp tục gia tăng Cụ thé, theo báo cáo
của CloudFlare — một CDN cung cấp dịch vụ bảo vệ trước các cuộc tấn công
DDoS - vào quý 3 năm 2022, số lượng các cuộc tấn công Ransom DDoS là
15 %, tăng 67% so với cùng kỳ năm trước [3].
e Nhiều loại tan công DDoS gia tăng mạnh, trong đó tan công DDoS sử dụng
Mirai tăng 405 % trong quý 3 năm 2022.
e Thời lượng của các cuộc tân công cũng gia tăng Nếu như trước đây, thời
lượng tấn công chỉ tính bằng phút, giờ thì giờ đây, đã có những cuộc tan
công kéo dày gần 23 ngày [4].
Lich sử cũng cho thay nhiều cuộc tan công DDoS vào mạng lưới IoT và sử dụngmạng lưới IoT thành botnet trong các cuộc tan công DDoS [5] Năm 2014, Bashlitebotnet, một mang botnet khai thác các lỗ hồng trên hệ thong Linux dé triển khải mộtcuộc tan công DDoS Hơn 96% thiết bị tham gia vào cuộc tan công này được ghi nhận
là thiết bị IoT, trong đó camera và máy ghi hình kỹ thuật số (DVR) chiếm 95% [6] [7].Tháng 9/2016 nhóm tác giả của mã độc Mirai đã triển khai một cuộc tắn công DDoS vàotrang web của một chuyên gia bảo mật noi tiéng [8] [9] Mã độc này tim kiếm những
19
Trang 19thiết bị IoT chạy trên bộ xử lý ARC sử dụng tên người dùng và mật khâu mặc định déđăng nhập, lây nhiễm và tạo thành một mạng botnet Sau khi mã nguồn mã độc đượccông bồ rộng rãi, và được sao chép bởi các tội phạm mạng khác, hàng loạt cuộc tan côngkhác đã diễn ra Một trong số những nạn nhân của các cuộc tan công này là nhà cung cấpdich vụ tên miền Dyn với lưu lượng tan công lên tới hơn 1Tbps Dot tan công này ảnhhưởng tới hàng loạt tổ chức như Twitter, Reddit, Airbnb, Netflix, Github, Dựa vào
mã nguồn đã được công bó, hàng loạt các biến thé của Mirai ra đời và tiếp tục phát triển
Hai biến thể OMG và Wicked của Mirai xuất hiện vào 2018 mở rộng hơn khả năng tấn
công ban đầu của Mirai OMG bồ sung thêm tinh năng cho phép kích hoạt may chủproxy SOCKS và HTTP trên thiết bị IoT bị nhiễm, điều này giúp OMG có thê quét các
lỗ hồng mới, khởi chạy các cuộc tấn công bồ sung hoặc tiếp cận nhiều thiết bị loT khác
đang kết nối với thiết bị hiện tại Wicked tận dụng các lỗ hồng RCE trên bộ định tuyếtNetgear và các thiết bi CCTV-DVR khai thác các công 8080, 8443, 80, 81 và tìm kiếm
các thiết bị loT chưa được vá lỗi để tắn công [8].
2.1.4 Hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập (Intrusion Detection System — IDS) được sử dụng để
giám sát lưu lượng truy cập mạng đề phát hiện các bất thường trong lưu lượng mạng,
xác định các mã độc cũng như các cuộc tấn công
Hình 1 cho thấy tổng quan chung về các loại hệ thống IDS
20
Trang 20Hình 1 Phân loại IDS
Dựa trên vị trí triển khai:
Dựa vào vi trí triển khai IDS, có thé chia IDS thành IDS dựa trên máy chủ (Host
Intrusion Detection Systems) và IDS dựa trên mang (Network Intrusion Detection
Systems).
Host Intrusion Detection Systems (HIDS) được trién khai trén thiét bi mang hoặcmáy chủ HIDS chỉ thu thập, phân tích và phát hiện những bat thường của các gói dữliệu inbound và outbound từ thiết bị
21
Trang 21Network Intrusion Detection System (NIDS) thường được đặt riêng biệt tại một
vị trí chiến lược trong mạng, thông thường là tại các công mang (network gateway),nhằm giám sát tat cả các lưu lượng inbound va outbound trong hệ thống mạng
Hình 2 Vị trí triển khai HIDS và NIDS trong hệ thống mạng
Dựa trên cách triển khai:
IDS riêng biệt (Standalone IDS) giám sát một hệ thống hoặc một mạng bằng cáchthực hiện các phân tích cục bộ về các cuộc tấn công
IDS cộng tác (Collaborative IDSs) được đề cập tới trong các hệ thống lớn nhưSDN Trong đó, các IDS hoạt động cùng nhau dé nâng cao khả năng của chúng trong
việc xác định và giảm thiểu các mối đe doa bảo mật Hệ thống IDS cộng tác thường gồm
có 2 thành phần chính: bộ giám sát (monitors) và bộ phân tích (analysis unit) Trong phát
hiện tập trung, bộ giám sát chia sẽ các thông tin với bộ phân tích tập trung, bộ phân tích
tính toán các thông số của gói tin trong mạng dé phát hiện sự thay đôi về các đặc trưngtrong các thống kê số liệu dé nhận diện tan công Trong phát hiện phân tán, mọi nút trong
mạng đều có bộ giám sát và phân tích, do đó mọi nút đều chịu trách nhiệm phát hiện
thay đôi trên các số liệu cục bộ của chính nó và thông báo cho các nút còn lại trong mạngkhi phát hiện có sự bất thường
22
Trang 22Dựa trên phương pháp phát hiện:
Dựa trên phương pháp phát hiện bất thường có thể phân loại IDS thành IDSphát hiện xâm nhập dựa trên dấu hiệu (signature-based IDS) và IDS phát hiện xâm
nhập dựa trên sự bat thuong (anomaly-based IDS)
Signature-based IDS sử dụng một tập các quy tắc, các mẫu xác định trước các dauhiệu của mã độc Bởi vi signature-based IDS sử dụng danh sách các dấu hiệu mã độcđược thu thập từ những cuộc tan công đã biết, danh sách này phải được cập nhật thường
xuyên để luôn có những dấu hiệu của những loại tấn công mới Có thé thấy rang
Signature-based IDS sẽ không kịp phát hiện được những mối đe doạ mới nếu những mối
de doa này chưa được cập nhật vào danh sách này Đây là một điểm bat lợi của
signature-based IDS khi các cuộc tấn công hiện nay phát triển và biến hoá mạnh mẽ và kết hợp
giữa nhiều loại tấn công khác nhau sản sinh ra rất nhiều loại tấn công không biết trước(zero-day attack) đặc biệt là trong môi trường nhiều lỗ hong bảo mật như IoT
Anomaly-based IDS giám sát các lưu lượng mạng và so sánh những đặc tính của
những gói tin, lưu lượng mạng với một ngưỡng bình thường được thiết lập từ trước, bất
kỳ sai khác nào so với ngưỡng bình thường này được coi là bất bình thường based IDS có thé phát hiện được các cuộc tan công zero-day attack Các Anomaly-basedIDS thường được kết hợp với các thuật toán học máy đề tăng độ chính xác của việc pháthiện tấn công
Anomaly-2.1.5 Ky thuật hoc máy, học sâu trong hệ thống phát hiện xâm nhập
Các phương pháp học máy, học sâu đã được rất phd biến trong các hệ thống pháthiện xâm nhập Một thành phần quan trọng trong việc áp dụng học máy vào IDS là sử
dụng bộ dữ liệu chứa thông tin về các đặc trưng của các gói tin trong dòng lưu lượng
mạng bình thường và không bình thường Các thuật toán học máy, học sâu sẽ tiến hành
việc học dựa trên thông tin được cung cấp từ bộ dữ liệu này va sau đó qua giai đoạn đào
tạo dé hiểu và nhận biết các mẫu khác nhau, từ đó thực hiện các dự đoán Vì vậy, chấtlượng và sự đại diện của bộ dữ liệu này đóng vai trò quan trọng đối với hiệu suất của hệ
thống IDS dựa trên học máy, học sâu Dựa trên quá trình học từ các bộ dữ liệu này, chúng
23
Trang 23ta có thể chia các kỹ thuật học máy, học sâu thành hai nhóm chính: học có giám sát và
học không giám sát [9].
ANN
Supervised learning
Trang 24Học có giám sát: là phương pháp tiếp cận thông dụng nhất của IDS Với phương phápnày, IDS cần được tham gia quá trình dao tao với bộ dữ liệu có gan nhãn xác định rõràng những hoạt động nào là lành tính và độc hai Các kỹ thuật học máy có giám sát phốbiến bao gồm SVM, cây quyết định (Decision Tree), các kỹ thuật hậu sâu như mạng lướithần kinh (CNN) Những mô hình này có thể có độ chính xác cao khi được đảo tạo vớitập dữ liệu lớn và đa dạng Tuy nhiên, những mô hình này có thể gặp khó khăn trongviệc phát hiện các cuộc tan công mới vì chúng chi dựa vào các mẫu dit liệu đã được đào
tạo.
Support Vector Machine:
Máy vectơ hỗ trợ (Support Vector Machine) là một trong những công cụ
mạnh mẽ và linh hoạt nhất trong lĩnh vực học máy và nhận dạng mẫu Nguyêntắc cơ bản của SVM là tìm ra siêu phẳng tối ưu giúp phân tách tốt nhất các điểm
dữ liệu thành các lớp riêng biệt đồng thời tối đa hóa khoảng cách lề giữa chúng
Siêu phẳng này được lay từ các vectơ hỗ trợ, một tập hợp con các điểm dữ liệu
gan ranh giới quyết định nhất SVM hoạt động tốt khi làm việc với dữ liệu nhiềuchiều và có thê xử lý các mối quan hệ phi tuyến tính một cách hiệu quả thông quaviệc sử dụng các hàm hạt nhân, siúp chuyên đồi dữ liệu thành không gian có chiềucao hơn, nơi có thê đạt được sự phân tách tuyến tính Khả năng nắm bắt các mẫuphi tuyến tính này giúp SVM trở nên linh hoạt cho nhiều ứng dụng, bao gồm phân
loại văn bản, nhận dạng hình ảnh và phân tích dữ liệu sinh học.
SVM được công nhận rộng rãi về khả năng xử lý các bộ dữ liệu mat cân
bang, trong đó một lớp vượt trội hơn đáng kề so với lớp kia Tuy nhiên, SVM đòi
hỏi nhiều tính toán, đặc biệt là khi xử lý các tập dữ liệu lớn và việc điều chỉnh cácsiêu tham số dé đạt được hiệu suất tối ưu có thé là một quá trình phức tạp và tốn
thời gian.
Decision Tree:
Cây quyết định (Decision Tree) là một thuật toán học máy phô biến và trực
quan được sử dụng cho cả nhiệm vụ phân loại và hồi quy Cây quyết định biểu
diễn bằng đồ họa của một quá trình ra quyết định, trong đó mỗi nút trong cây biểu
25
Trang 25thị một quyết định và mỗi nhánh biểu thị một kết quả hoặc một lựa chọn Về cốtlõi, cây quyết định hoạt động băng cách chia đệ quy dữ liệu thành các tập con dựatrên các thuộc tính quan trọng nhất, cho phép thuật toán đưa ra quyết định sángsuốt.
Một trong những ưu điểm của thuật toán cây quyết định là sự rõ ràng và
dễ hiểu trong kết qua dự đoán Tuy nhiên, với những dé đạt được hiệu qua dựđoán trên những tập dữ liệu phức tạp, cây quyết định có thể phình to và phát triển
rất phức tạp, đồng thời thuật toán cây quyết định dễ bị quá khớp (overfitting) với
tập dữ liệu đào tạo.
CNN:
Mô hình học máy Convolutional Neural Network (CNN) được thiết kếtheo cấu trúc xử lý của bộ não con người, bao gồm các lớp chập (convolutionallayer), các lớp gộp (pooling layer) và các lớp kết nối đầy đủ (fully connected
layer) Các lớp này hoạt động song song dé tìm hiéu và học từ các tính năng đầu
vào.
CNN thường được sử dụng phổ biến nhất là xử lý trên dữ liệu hình ảnh
Nhiều mạng kiến trúc CNN đã được ra đời được dao tạo trên những bộ dữ liệu hình ảnh không 16 như VGG, ResNet, AlexNet, Tuy nhiên, việc đào tạo các
mạng CNN sâu đòi hỏi rất nhiều tài nguyên tính toán do đó nó thường được dùng
trên các máy chủ có tài nguyên tính toán mạnh mẽ.
Học không giám sát: Các phương pháp học không giám sát đặc biệt phù hợp cho bài
toán phát hiện bất thường Các thuật toán không giám sát không đòi hỏi quá trình gán
nhãn các dị thường thường tiêu tốn nhiều thời gian, chi phí Các thuật toán này sử dụngcác lưu lượng mạng bình thường cho quá trình đào tạo, học tập các cau trúc gói tin, đặctính thống kê, của các lưu lượng mạng lành tính từ đó nhận biết được các sai khác trongcác lưu lượng độc hại Một trong những lợi thế chính của phát hiện bất thường khônggiám sát là khả năng thích ứng với môi trường thay đôi và các mối đe doa mới nổi Tuy
nhiên, không phải là không có thách thức Các phương pháp không được giám sát có thé
gặp khó khăn trong việc phân biệt giữa các trường hợp bất thường và các trường hợp
26
Trang 26hiếm gặp nhưng hợp pháp, đồng thời việc lựa chọn thuật toán và điều chỉnh tham số phùhợp là rất quan trọng cho sự thành công của hệ thống phát hiện Một số thuật toán họctập không giám sát thường dùng dé phát hiện bat thường gồm Kmeans, PCA, Isolation
Forest, AutoEncoder
Isolation Forest:
Rừng cách ly (Isolation Forest) là một thuật toán phat hiện bat thuong trén
dữ liệu không gán nhãn Không giống như nhiều phương pháp phát hiện bat
thường khác dựa trên số liệu khoảng cách hoặc ước tính mật độ, rừng cách ly tận
dụng cây nhị phân và phân vùng ngẫu nhiên dé cô lập các điểm bat thường mộtcách hiệu quả Ý tưởng chính đằng sau Rừng cách ly là các điểm bất thường
thường hiếm gặp và có thê được tách biệt nhanh hơn trong cấu trúc cây nhị phân.
Thuật toán tạo ra một rừng cây quyết định ngẫu nhiên và trong quá trình xây dựng
các cây này, thuật toán sẽ phân chia tập dữ liệu thành các tập con ngày càng nhỏ
hơn Các điểm bất thường, là những trường hợp riêng biệt, cần ít sự phân tách
hơn đề tách khỏi phần lớn các điểm đữ liệu thông thường Do đó, chúng kết thúc
Ở gần gốc cây hơn, trong khi các điểm dir liệu thông thường có khả năng đượcphân bồ sâu hơn trong cây Sự khác biệt về độ dài đường dẫn trung bình này giúpviệc xác định các điểm bất thường tương đối dễ dàng băng cách tìm kiếm các
điểm dữ liệu có độ đài đường dẫn ngắn hơn trong rừng.
Rừng cách ly có khả năng mở rộng cao và hoạt động tốt trên cả các tập dữliệu lớn Tuy nhiên, rừng cách ly sẽ hoạt động không tốt trên các tập dit liệu với
điểm bat thường không quá tách biệt rõ ràng với phan lớn điểm dữ liệu.
AutoEncoder:
Bộ mã hoá tự động (Auto Encoder) cũng là một thuật toán học không giám.
Bộ mã hóa tự động gồm một mạng bộ mã hóa chuyên đổi dữ liệu đầu vào thànhbiểu diễn có chiều thấp hơn (encoder), cùng với một mạng bộ giải mã tái tạo dữliệu gốc từ biéu diễn nén đó (decoder) Kiến trúc này về cơ bản cé gắng nắm bắt
các tính năng cần thiết và mang tính thông tin nhất của dữ liệu đầu vào đồng thời
27
Trang 27giảm tính chiều của nó Bộ mã hoá tự động có vô số ứng dụng, từ giảm kích thước,khử nhiễm dữ liệu đến phát hiện sự bất thường và tạo mô hình tông quát.
Đối với phát hiện bất thường, bộ mã hoá tự động học những đặc điểm của
các điểm dữ liệu bình thường qua quá trình mã hoá và tái tạo lại các điểm dữ liệu.Những điểm dữ liệu bat thường sẽ là những điểm dữ liệu không được tái tạo tốt,
có kết quả sai lệch đáng ké so với những mẫu đữ liệu đã học Một trong nhữngthách thức khi làm việc với bộ mã hóa tự động là chọn kiến trúc và siêu tham số
phù hợp, cũng như cân bằng sự đánh đôi giữa nén và mat thông tin.
2.2 Các công trình nghiên cứu liên quan
Sử dụng học máy trong phát hiện bất thường trong IDS đã được triển khai trong
nhiều nghiên cứu Surasit và các cộng sự [11] đã sử dụng nhiều mô hình học máy khácnhau và nhận thay XGBoost, DT và RF cho kết quả tốt trong việc phát hiện bat thường
trên tap dữ liệu CSE-CIC-IDS-2018 Nghiên cứu cũng sử dung PCA va RF dé chọn lọc
tính năng cần thiết, tôi ưu thời gian xử lý của mô hình
Nhóm nghiên cứu của Mojtaba đề xuất Passban [12], xác định tan công bằng cách
dùng phân loại một lớp (one-class classification), sử dung Isolation Forest (khu rừng
cách ly) dé cách ly mã độc khỏi các dit liệu không độc hại và Local Outlier Factor (yếu
tố ngoại lệ cục bộ) dé phát hiện các cuộc tan công
Wang và cộng sự [13] đề xuất một SVM dựa trên hành vi được cải thiện dé phan
loại các cuộc tấn công mạng Đề tăng độ chính xác của việc phát hiện xâm nhập và tăng
tốc độ huấn luyện các mẫu bình thường và xâm nhập, DT được sử dụng như một phương pháp giảm đặc trưng dé nâng thứ hạng các đặc trưng thô và chọn các đặc trưng đủ điều
kiện nhất Các đặc trưng đã chọn này là dữ liệu đầu vào dé đào tạo bộ phân loại SVM
ATLANTIC [14] (Anomaly deTection and machine LeArNing Traffic classification for
software- defined networking - Phát hiện bat thường va phân loại Lưu lượng truy cậpLeArNing của máy cho mạng được xác định băng phần mềm) là một hệ thống đời đầu
từ năm 2016 bao gồm các thành phần phân loại và phát hiện bất thường riêng biệt Do
quá trình xử lý dựa trên máy học có thể đòi hỏi nhiều tính toán nên hệ thống ATLANTIC
28
Trang 28đã đề xuất giảm thiểu tính toán bằng cách sử dụng quy trình hai giai đoạn Một thànhphan đơn giản, gon nhẹ dé phát hiện sự bat thường, theo sau là hệ thống phân loại các
bất thường Việc phát hiện sự bat thuong ban dau trong ATLANTIC được thực hiện bằng
cách so sánh giữa entropy của Shannon của ảnh chụp nhanh lưu lượng mạng được đánh
giá và entropy thường thấy trong lưu lượng mạng Với entropy trung bình M và độ lệchchuẩn S trong dữ liệu lưu lượng truy cập mạng lịch sử, một ảnh chụp nhanh được coi làbat thường nếu entropy tương ứng nằm ngoài giới han của [M — S, M + S] Trong quátrình thử nghiệm trên dữ liệu tùy chỉnh được tạo bằng bộ đánh giá Mininet, trình pháthiện dị thường đã phân tích 4400 luồng lưu lượng truy cập từ 100 bộ chuyên mạch mạngtrong vòng 75 mili giây, giúp hệ thống có thê sử dụng được trong mang IoT Với phân
loại bất thường, ATIANTIC đề xuất hai bộ xử sử dụng phân cụm K-mean và phân loại
nhị phân SVM Mô hình SVM dat độ chính xác 88,7% và can 3 giây dé xử lý 4400 luồng
hiện DDoS dựa trên mạng bộ nhớ ngắn hạn dài (LSTM) Mô hình này phát hiện lưu
lượng truy cập bất thường băng cách trích xuất 20 tính năng từ một chuỗi các gói tin liêntục và sử dụng cửa số thời gian trượt Ở một nghiên cứu khác, Doriguzzi-Corin và các
cộng sự đã đề xuất Lucid - một mang CNN đơn giản phát hiện DDoS [17] Đề hỗ trợ hệ
thống phát hiện tan công trực tuyến, Lucid thu thập các đặc tính luồng mạng cho bướctiền xử lý lưu lượng mạng Các nghiên cứu [15], [16], [17] này sử dụng đặc tính luồng
mạng, do đó không tối ưu được khoảng thời gian chờ thu thập các gói tin trong luồng.
Ramanathan và các cộng sự [18] đã giới thiệu một mô hình sử dụng CNN dé phathiện bat thường trên tập dir liệu CICDDoS2019 Mô hình dé xuất tiền xử lý trước dữ liệu
bang cách trích xuất các gói tin trong luồng và xử lý chúng theo độ dài cố định trước khi
đưa vào mô hình CNN dé tăng tốc độ xử lý các luồng dữ liệu mạng Mô hình đạt độ
29
Trang 29chính xác 98,83% cho phân loại nhị phân giữa lưu lượng bình thường và lưu lượng bất
thường Shone và cộng sự, đề xuất một phương pháp phát hiện xâm nhập dựa trên học
sâu mới được gọi là NDAE [19] Đề tăng tốc độ phát hiện xâm nhập trong khi duy trì độchính xác phát hiện cao, NDAE kết hợp phương pháp học sâu và RF, trong đó phương
pháp học sâu được áp dụng dé giảm đặc trưng va RF được sử dụng dé phân loại lưu
lượng và phát hiện xâm nhập Yisroel Mirsky và các cộng sự đã phát triển Kitsune [20]
sử dụng autoencoder (tự động mã hoá) với nền tang là ANN — hoc không giám sát dé
phat hién bat thường Kitsune phân tích các đặc tính của cuộc tấn công theo gói tin mạng,
giảm thiểu thời gian chờ gói tin ở bước tiền xử lý Tuy nhiên, việc sử dụng AE và ANNvẫn đặt ra yêu cầu cao về mặt tài nguyên tính toán, khiến mô hình này không khả thi khitriển khai trên mạng IOT thực tế Một NIDS sử dụng Deep Feed-Forward Neural
Network (DNN), RF và Gradient Boosting Tree (GBT) đã được Faker và các cộng sự
[21] triển khai trong môi trường phân tán Kodyš và các cộng sự chứng minh ResNet và
EfficientNet đạt hiệu suất phân loại tan công tốt hơn LSTM trong [22].
Đề khắc phục những thiếu sót trên, nghiên cứu này đề xuất việc sử dụng bộ tiền
xử lý sử dụng đặc tính của gói tin mạng kết hợp với mạng CNN đơn giản để dự đoán cácloại tan công DDoS Với việc kết hợp này, mô hình giảm thiểu thời gian tiền xử lý góitin, mạng CNN đơn giản cũng yêu cầu ít tài nguyên tính toán mà vẫn có thé khái quát
hoá và phân loại nhiều loại tắn công DDoS khác nhau.
Bảng 1 Một số công trình nghiên cứu liên quan
Khía cạnh Số | Phân tích
XS Datasets ~ = tA nghiên cứu nhãn| dữ liệu
Tối ưu IDS
Surasit và các |học máy bằng
CSE-CIC-IDS-cộng sự [11] giảm chiều 2018
tính năng
Sử dung IF vài IF, Local
Local Outlier Outlier
Factor dé Factor
Mojtaba và các
cộng sự [12]
30
Trang 30phân loại tấn
côngPhân loại tắncông bằng
SVMPhát hiện bat
ATLANTIC[I14J| thường trong
Flow-ACC = 97.57%
Ramanathan và | CNN với cai
các cộng sự [18] | tiến trong tiền
Shone và cộng |_ trong phat
sự[19] hiện tân công
băng việc kếthợp RF và
CNN
Tap hop
utoencoders cho NIDS
thoi gian thuc
ANN chỉnh 10
DNN;
RF; CICIDS2017 | 14 Gradient | UNSW UB15| 9
Flow-TPR =
99.99%, AUC =
99.99%
ACC=
91-98%
Trang 31Kodyš và các
cộng sự [22]
Mô hìnhCNN dé phát
hién batthuong
0.66 %
32
Trang 32Chương 3 MÔ HÌNH
3.1.Tổng quan về giải pháp đề xuất
Mô hình IDS đề xuất được xây dựng trên 5 khối chức năng chính, được chia
thành các lớp:
e Tiền xử lý dữ liệu (Preprocess): bao gồm các khối chức năng Trình trích
xuất gói (Packet extractor) thực hiện trích xuất gói tin từ tập tin pcap hoặc
giao diện mạng từ đó thu thập được các thông tin cần thiết từ gói tin, Trình
trích xuất đặc trưng (Feature extractor) thực hiện trích xuất đặc trưng dựa trên phương pháp thống kê gia tăng giảm dần, Trình ánh xạ nhãn (Label mapping) thực hiện ánh xạ nhãn góc được gan theo luéng mạng sang thông
tin đặc trưng tương ứng với từng gói tin.
e Dao tạo mô hình (Train model): thực hiện đào tạo mô hình CNN với các
đặc trưng đã được gan nhãn dé có được mô hình CNN có kha năng phân
biệt 13 loại tấn công DDoS với độ chính xác cao.
e Phát hiện bất thường (Anomaly detect): sử dụng mô hình CNN đã được dao
tao dé phát hiện bat thường mạng.
e Giám sát và báo cáo (Monitor and report): Sử dụng hệ thống ELK thực hiện
thu thập log về dit liệu mạng và kết qua dự đoán bat thường, biểu diễn lên thành các bản điều khiến và gửi thông báo cảnh báo tới người dùng về các bất thường trong mạng.
Phần 3.2 mô tả chỉ tiết về các khối chức năng trong hệ thống IDS đề xuất.
Luong hoạt động cua IDS được thực hiện với tham số dòng lệnh ArgumentParser trong python Việc sử dụng tham số dòng lệnh đem lại một vài lợi ích trong quá trình sử dụng và phát triển IDS:
e Hướng dẫn và xử lý lỗi: argparse cung cấp xử lý lỗi tích hợp và tự động tạo
hướng dẫn về cách sử dụng chương trình nêu người dùng nhập sai hoặc
33
Trang 33không nhập đủ tham số, giúp người dùng dé hiểu hơn về cách hoạt động của
IDS.
e_ Quản lý tham số: Cho phép xác định kiểu dữ liệu, giá trị mặc định, thiết lập
giới hạn cho từng tham số, giúp tránh được nhiều lỗi liên quan tới tham số
trong quá trình chạy.
© Dễ dàng tích hợp, bảo trì và mở rộng: argparse là một thư viện chuẩn trong
Python, nên dễ dàng tích hợp mà không cần cài đặt thêm Kiến trúc tham số
dòng lệnh giúp code dé bảo trì bởi vì các tham số được định rõ và có thé
thêm vào một cách dé dàng.
Luéng hoạt động của IDS được chia làm hai luồng hoạt động: đào tạo mô hình với dt liệu đã được gan nhãn và sử dung mô hình đã được đào tạo dé phat hiện bat thường trên đữ liệu thực tế Hình 4 là tong quan về hai luồng hoạt động của IDS Tại luồng hoạt động đào tạo mô hình, IDS nhận đầu vào là các tập tin
pcap của các tap dữ liệu Các tập tin PCAP này sẽ được phân rã và thực hiện
các quá trình thu thập thông tin từ gói tin, trích xuất đặc trưng và ánh xạ nhãn
để thu được dữ liệu hoàn chỉnh cho phan dao tạo mô hình Tập dữ liệu sau day
được chia thành các tập train/validate/test và thực hiện đào tạo với mô hình
CNN dé thu được mô hình có độ chính xác tốt nhất Tại luồng hoạt động phát hiện bất thường, IDS nhận đầu vào là các gói tin trực tiếp từ giao điện mạng,
trải qua các bước trích xuất thông tin và đặc trưng, dữ liệu được sử dụng dé
phát hiện bat thường mô hình CNN đã đào tạo Ở luồng hoạt động này, một trình giám sát và báo cáo thu thập thông tin về tình hình hệ thống mạng kết hợp với kết qua phát hiện bat thường của mô hình CNN dé đưa ra báo cáo về hoạt
động mạng và các bat thường xảy ra trong mạng Phan 3.3 mô tả chi tiết về hai luồng hoạt động này của IDS Điểm nổi bật của mô hình IDS dé xuất là trình
rút trích đặc trưng sử dụng phương pháp thống kê gia tăng giảm dần giúp xử lý
dữ liệu mạng theo gói tin mà không tốn quá nhiều thời gian chờ và mô hình CNN
34
Trang 34gọn nhẹ với khả năng phân biệt 13 loại tan công DDoS khác nhau với độ chính xác
cao.
35
Trang 35PCAP files Network interface
01101100 01101111
01100101
Preprocess J
Packet extractor Packet extractor
Read pcap file Read pcap file
Extract packet information Extract packet information
Feature extraction Label mapping Feature extraction
Anomaly detect
‘Load model” SCs Anomaly detect
Monitor and report
1
= ~-Anomaly detected ~ ~ :
=
Email notification Dashboard
Hinh 4 Téng quan mé hinh dé xuat
36
Trang 363.2 Các khối chức năng
3.2.1 Trinh trích xuất thông tin gói tin Khối packet extractor sử dụng pyshark — một thư viện python được thiết kế
cho việc thu thập và xử lý các gói tin trong mạng Pyshark cho phép người dùng tuỳ
chỉnh các tuỳ chọn và lọc gói tin một cách tự động dựa trên nhiều yếu tố khác nhau nhưđịa chỉ IP nguồn và đích, cổng, giao thức, Điều này giúp cho việc điều chỉnh quá trình
thu thập và trích xuất thông tin của gói tin trở nên đơn giản và hiệu quả hơn, loại bỏ bớt
những thông tin không cần thiết, đơn giản hoá quá trình xử lý pyshark hỗ trợ trong cảquá trình xử lý trực tiếp trên các giao diện mạng và tập tin pcap
Trong phạm vi của luận văn này, mọi gói tin được xử lý bởi packet extractor sẽ
được phân tích dé trích xuất các thông tin quan trọng bao gồm: thông tin tong quan về
gói tin, thông tin lớp IP, lớp Ethernet, lớp TCP, lớp UDP, lớp ICMP, lớp ARP, và lớp
IPv6 Bang | mô tả về các thông tin được trích xuất từ mỗi gói tin
Bảng 2 Thông tin được trích xuất từ mỗi gói tin thông qua pyshark
Thông sốsniff_timestamp | Thời điểm gói tin được bắt giữ hoặc thu thập
captured_ lensth | Độ dài gói tin.
Địa chỉ MAC (Media Access Control) nguồn của gói tin
Dia chi MAC dich của gói tin.
Dia chi IP nguồn của gói tin
Dia chi IP đích của gói tin.
Công nguồn sử dung dé gửi gói tin
Công đích sử dung dé nhận gói tin
Công nguồn sử dụng để gửi gói tin.
dstport Cổng dich sử dụng dé nhận gói tin.
Loại ICMP message.
Mã code liên quan đến loại ICMP message
Mã opcode cho gói ARP (REQUEST hoặc REPLY).
src.proto_ipv4 |Địa chỉ IP nguồn trong gói ARP
37
Trang 37| dst.hw_ mac |Địa chỉ MAC đích trong gói ARP.
dst.proto_ipv4 |Dia chỉ IP dich trong gói ARP.
| sre Dia chi IPv6 nguồn của gói tin.
trường thông tin bị thiếu ở các lớp (ví dụ các gói tin TCP sẽ không có thông tin ở lớp
UDP), việc điền các giá trị 0 vào những thông tin này có thé được thực hiện dé bảo đảm
tính trọn vẹn của bộ dữ liệu.
3.2.2 Rut trích đặc trưng
Rút trích đặc trưng là một phan quan trọng của bước tiền xử lý dữ liệu Quá trình
này thu thập, chon lọc và chuyền đôi dữ liệu đầu vào thành tập hợp các đặc trưng có ý
nghĩa cho quá trình phân tích và xử lý sau này Quá trình rút trích đặc trưng trong mô
hình phát hiện bất thường là một khía cạnh quyết định tính hiệu quả trong việc phát hiện
và đánh giá trình trạng an ninh mạng Thông qua quá trình này, chúng ta có thê thu thập
được các dấu hiệu, đặc trưng tiềm ân bên trong cua dữ liệu, nhận biết kip thời những bất
thường trong lưu lượng mang dé đưa ra những quyết định phù hợp ngăn chặn các cuộctấn công
Một trong những thách thức trong quá trình rút trích đặc trưng dữ liệu mạng là
việc xử lý các gói tin thuộc nhiều kênh hoặc cuộc hội thoại khác nhau xen lẫn trong cùng
một thời điểm Điều này khiến quá trình nhận biết và phân tách các sự kiện đang diễn ra
khó khăn hơn, thông thường khung lưu trữ các gói tin theo từng kênh riêng biệt sẽ được
sử dung dé giải quyết van dé này Tuy nhiên, trong các cuộc tấn công, đặc biệt là cuộctan công DDoS, số lượng gói tin rất lớn và tốc độ đến của các gói tin cũng rất cao Do
đó việc lưu trữ này dường như là không khả thi đặc biệt là trong môi trường thiết bị cótài nguyên về bộ nhớ giới hạn như các thiết bị IoT
Do đó, trong mô hình này, phương pháp thống kê gia tăng giảm dan [9] được sửdụng dé trích xuất các đặc điểm lưu lượng mang Phương pháp này trích xuất các đặctrưng từ lưu lượng mạng ở tốc độ cao chỉ tiêu tốn O(1) tài nguyên tính toán
38
Trang 38Giả sử S = {%¡,#¿, , x„} là một luồng không giới hạn các thuộc tính x của góitin Giá trị trung bình, phương sai và độ lệch chuẩn của S có thé được cập nhật bằng cáchduy trì mảng I; = (N,Le,Ss,T,) trong đó N, Ls,S, là số lượng các gói tin đã được bắt,
tổng tuyến tính và tông bình phương của luồng dit liệu, 7, là thời gian cuối cùng I, được cập nhật Khi bắt được dữ liệu x mới I, sẽ cập nhật thành (N + 1,L, + x,SŠs + x”, Trow)
Dé trích xuất thông tin hiện tại của luồng dữ liệu, chúng ta phải bỏ qua các dữ liệu cũhơn Cách tiếp cận của phương pháp này là duy trì một cửa số trượt Trong phương pháp
này, trọng số của các giá trị cũ sẽ giảm dần theo cấp số nhân theo thời gian Hàm phânra:
d,(t) = eTM
trong đó, At > 0 là giá tri mặc định và t là thời gian trôi qua kể từ lần quan sắt cuối cùng
từ luồng dữ liệu Khi đó, quy trình cập nhật J, được thể hiện ở thuật toán 1 bao gồm:
e Tinh toán hàm phân rã: y = đa - (T;;sw — Tị,) cho từng khung thời gian [0.1, 0.5,
1.5, 10, 60]
e Xử lý phân rã: l¿ = Vm Yus›Yss; Ti)
e Thêm giá trị mới: J; = (n + 1, Ls +x,S5 + #”, Throw)
e Khi cả gói đến và gói đầu ra đều yêu cầu thống kê hai chiều, tính toán $R;; =
ySRij + Tự;
e Tra vê gia tri I,
Algorithm 1 Update J; Algorithm
Trang 3910: Isc (Ym, Vig Vss 07)
11: end while
Bang 3 Bảng mô tả thông số tinh toán các đặc trưng được trích xuất
Thông số Được tính toán từ Mô tả
Mean, Std SrcMAC-IP, SrcIP, Băng thông lưu lượng truy
Channel, Socket cập ra
Magnitude, Radius, Channel, Socket Băng thông của lưu lượng
Approx Covariance, truy cap vao va ra
Correlation
Coefficient
Weight SrcMAC-IP, SrcIP, Tốc độ gói tin của lưu
Channel, Socket lượng ra
Weight, Mean, Std Channel Độ trễ giữa các gói của
lưu lượng ra
Trình rút trích đặc trưng sử dụng cửa số tăng dần này để tính toán 20 đặc trưng
khác nhau của luồng dữ liệu Trong mô hình này, xem xét lựa chọn 5 khoảng thời gian
khác nhau dé tiến hành tính toán đặc trưng: 0,1s; 0,5s; 1,5s, 10s và 60s Các đặc trưngđược trích xuất được tóm tắt trong Bảng 2
3.2.3 Ánh xạ nhấn
Trong quá trình đào tạo mô hình, việc sử dụng các tập dữ liệu được gán nhãn theo
luồng mang (flow) đã tao ra một thách thức, vì mô hình IDS dé xuất xử lý theo gói tin
Điều này tạo ra sự không đồng nhất giữa định dạng dữ liệu được sử dụng trong hai ngữ
cảnh khác nhau Vì vậy, cần tiến hành quá trình phân rã dữ liệu từ định dạng flow sangđịnh dạng gói tin, nhằm gán nhãn cho từng gói tin một cách chính xác và hiệu quả
40