1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ An toàn thông tin: Xây dựng IDS dựa trên học sâu cho bảo mật mạng IOT

79 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng IDS dựa trên học sâu cho bảo mật mạng IOT
Tác giả Đỗ Thị Phương Uyên
Người hướng dẫn TS. Lê Kim Hùng
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành An toàn thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 79
Dung lượng 42,75 MB

Nội dung

Ban chat phi tập trung và kết nối của mang IoT đã tạo ra một bềmặt tấn công mở rộng, khiến chúng dễ bị tan công trước nhiều mỗi đe dọa tiềm ân, từ các nỗ lực truy cập trái phép đến vi ph

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

O00

ĐỖ THỊ PHƯƠNG UYEN

XÂY DỰNG IDS DỰA TRÊN HỌC SÂU

CHO BẢO MẬT MẠNG IOT

LUẬN VĂN THẠC SĨ NGÀNH AN TOÀN THÔNG TIN

Mã số: 8.48.02.02

NGƯỜI HƯỚNG DAN KHOA HOC

TS LE KIM HUNG

TP HO CHi MINH, 2023

Trang 2

LỜI CẢM ƠN

Chân thành cảm ơn đến tất cả những người đã đồng hành và hỗ trợ tôi

trong hành trình học tập tại trường Đại học Công nghệ Thông tin Sự hỗ trợ, dạy

dỗ và chia sẻ kiến thức của quý thầy cô các thầy cô giáo tận tâm và nhiệt huyết tại trường, đặc biệt là thầy cô khoa Mạng máy tính và Truyền thông, đã giúp tôi phát triển không chỉ trong học thuật mà còn trong tư đuy và kỹ năng thực tế.

Tôi cũng muốn bày tỏ lòng biết ơn đặc biệt sâu sắc đến Tiến sĩ Lê Kim Hùng, người đã dành thời gian và tâm huyết dé hướng dẫn và hỗ trợ tôi trong

suốt quá trình thực hiện khoá luận Những lời khuyên quý báu, sự chia sẻ kinh

nghiệm và những lời động viên từ thầy là nguồn động lực vô cùng to lớn, giúp

tôi vượt qua những thách thức khó khăn và hoàn thành đề tài một cách xuất sắc.

Tôi cũng muốn gửi lời cảm ơn chân thành đến các bạn trong phòng thí

nghiệm IEC, nơi sự hỗ trợ và đóng góp của họ đã góp phần quan trọng vào việc

hoàn thành luận văn của tôi.

Cuối cùng, không thé không dé cập đến sự ủng hộ, động viên từ gia đình, bạn bè và các anh chị đồng nghiệp Những lời khích lệ của mọi người giúp tôi

vượt qua những khó khăn và duy trì động lực trong suốt quãng thời gian dài học

tập và làm luận văn.

Một lần nữa, tôi xin chân thành cảm ơn tat cả những người đã giúp cho

hành trình học tập của tôi trở nên ý nghĩa và thành công.

Trang 3

LOT CAM áo ÔỎÔỎ 3

08009060 4

DANH MỤC HÌNH ẢNH 222222222 22221121222111227211122711122211122111 E21 e 6 DANH MỤC BẢNG

ID )280100i9I00A2)506Ề0035 8

"9100 0

Chương 1 TONG QUAN -22222222++2222222222EEEE2EEEEtrrrrrrrrrrrrrrrre 2

1.1 Tên để tài, cnc cv TH nhe 2

12 Đặtvấnđề €⁄⁄⁄,g50” 2

1.3 Mục tiêu để tài à HHHHHHHH HH 3

1.4 Đối tượng và phạm vi nghiên cứu 13 1.4.1 Đối tượng nghiên cứu : -2222+++2222E2++++rttttvvzvrrrrrrrrrrrrrrrrree 3 1.4.2 Phạm vi nghiên CỨU -¿ - 5+5 S2SE2*£E#E£E#E+E+EEEeEererkrkrkrkrrrrrkrrre 3

1.5 Nội dung và phương pháp nghiên cứu ¿-+++s+x+++cezez+xrxexsrerrxsx 3

1.5.1 Nội dung 1: Chọn bộ dữ liệu, trích xuất đặc trưng và gan nhãn dữ liệu 4 1.5.2 Nội dung 2: Xây dựng mô hình học sâu, huấn luyện & kiểm thử 4

1.5.3 Nội dung 3: Xây dựng, triển khai hệ thống IDS tích hợp mô hình học sâu 15 Chuong 2 CƠ SỞ LÝ THUYET VÀ NGHIÊN CỨU LIÊN QUAN 7 2.1 Cơ sở lý thuyết „17 2.1.1 Internet vạn vật 7 2.1.2 Các thách thức trong bảo mật trong loT 7 2.1.3 Tan công từ chối dịch vụ trong IoT .19

2.1.4 Hệ thống phát hiện xâm nhập :2:+++222+++++222++ertrrkserrrrrvee 20

2.1.5 Kỹ thuật học máy, học sâu trong hệ thống phát hiện xâm nhập 23

Trang 4

2.2 Các công trình nghiên cứu liên quan ¿+ +5 +t+*£vxvxeeeeerererexee 28 Chương 3 MÔ HÌNH -22222:c-222222222222222221112 21212111 re 33

3.1 Tổng quan về giải pháp đề xuất :©222++++22++rtttrxvrrsrrrrrrrrrrree 33 3.2 Các khối chức năng -22-222++++22EEEEEEEirtEEEEELrrrtrrtrrrrrrrrrtrii 37

3.2.1 Trình trích xuất thông tin gói tỉn -:¿+2+z++22+zz+czxszrrrrrxee 37 3.2.2 Rút trích đặc trưng - kh TH HH HH Hư 38

3.2.3 Ánh xạ nhãn 2222222++2222221112222222211111122221111111.2121111111 10.111 ee 40

3.2.4 Mô hình máy hoc - - ¿+55 2S 2 2+2 E12 2 121217111 111gr 4I 3.2.5 Giám sát và DAO CáO kh HH HH HH HH re 47

3.3 Luồng hoạt động 22::12221%:222212222111 21211121111 cv 49 3.3.1 Chế độ đào tạO séc «6c cc c8 re 3y 11c rree 50 3.3.2 Chế độ phát hiện bat thường -. ++¿22V+++++22E++++t2EE+rrtrrkxrrrrrrvee 52

Chương 4 _ THỰC NGHIỆM VÀ ĐÁNH GIÁ ¿222z+22+z+tzvzvszrrrrrs 53 4.1 Môi trường thực nghiệm - - - c5 ri 53 4.2 Bộ dữ liệu

4.3 Chỉ số đánh giá 22222222+2222222212 2222111 c ree 55

4.4 Kết quá đánh giá mô hình -222+++2222E2++++rttttErxvxrrrrrrrrrrrrcee 58

4.4.1 Đánh giá khả năng phân loại tấn công -:¿©+cz222vsz+etczveccee 58 4.4.2 Đánh giá hiệu suất thực thi -¿-:¿2222++tSCESxrrttrrtvrerrrrrresrrkrrree 61 4.5 Thực nghiệm tn công -.-2-:+-©222V+++++e+22EEEEEEvrtrtEErkkrrrrrrrrrrrrrree 63

Chương 5 KÉT LUẬN VÀ HƯỚNG PHAT TRIẺN ¿¿©2scz+2c++ 65 5.1 Kếtluận cccc222222EEErEEEEEEEErrrrrEEEErrrrrrrrrrrrrrrrrrrres 65

5.2 Hướng phát triển :+:©2V2+++222++++2E2E+EEE2EEEE22211 221 ccrrrvev 66 TÀI LIEU THAM KHẢO 222+£22222222+22222EE2222+2222222322222222E2EEerrrrrrrrks 67

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1 Phân loại IIDS -¿- G22 S236 3E E23 E9E 3E £EEEESt SE E1 31 1 111 cv 21

Hình 2 Vị trí triển khai HIDS và NIDS trong hệ thống mạng - 22

Hình 3 Phân loại các kỹ thuật học máy, học sâu ¿- 5-5 25+ S+S++xzxexersrerre 24 Hình 4 Tổng quan mô hình để xuất -+¿+©©©V++2+++222EEEE+vvrrttrrtrrrrrrrrie 36 Hình 5 Mô hình CNN được sử dụng dé phân loại tấn công - 43

Hình 6 Sơ đồ hoạt động của hệ thống ELK 5c 12t S2 2x EkssErxrrrrekseerer 48 Hình 7 Giao diện bảng điều khiển hệ thống IDS -2¿:©2++22cvvzc+crz+ 49 Hình 8 Độ chính xác (trên) và hàm mat mát (dưới) trong quá trình dao tạo mô hình 51 Hình 9 Confussion matrix trong trường hợp phân loại nhiều nhãn - 56

Hình 10 Confusion matrix của mô hình trên tập dữ liệu CIC DDoS 2019 60

Hình 11 Mức độ tiêu thụ CPU (a), RAM (b) khi thực thi trên Mac MI 62

Hình 12 Mức độ tiêu thụ CPU (a), RAM (b) khi thực thi trên Raspberry Pi 62

Hình 13 Mô hình thực nghiệm tấn công ¿ 22+++222EEEEvvrrrrrrrrrrrrrrrree 64 Hình 14 Kết quả nhận diện tan công được hiền thị tại bảng điều khiển IDS 65

Trang 6

DANH MỤC BANG

Bang 1 Một số công trình nghiên cứu liên quan - 2 5¿+5£+2+£x£+z++zxzzzscred 30

Bang 2 Thông tin được trích xuất từ mỗi gói tin thông qua pyshark 37

Bang 3 Bang mô tả thông số tính toán các đặc trưng được trích xuất 40

Bang 4 Giá trị siêu tham số cho các lớp của mô hình CNN đề xuắt 46

Bang 5 Mô tả các loại tan công trong tập dit liệu CICDDoS2019 - 54

Bang 6 Số lượng gói tin được sử dụng trong quá trình dao tạo, đánh giá và kiêm thử 58 Bảng 7 Hiệu suất phân loại tắn công của mô hình đề xuất trên tập dữ liệu CIC DDoS PhbsottdaidđiddiẳidaiiẳẳầaiiÝŸ - 59

Bang 8 So sánh hiệu suất dự đoán giữa mô hình đề xuất với các mô hình học máy khác Ề -< 6 Y ốốốẽ 60 Bang 9 Hiệu suất thực thi của mô hình trên Mac MI va Raspberry Pi 4 61

Trang 7

DANH MỤC TU VIET TAT

Số thứ tự | Thuật ngữ Mô ta

1 AE Auto Encoder

2 CNN Convolutional Neural Network

3 CPU Central Processing Unit

4 DDOS Distributed Denial-Of-Service

10 FNR False Negative Rate

11 EP! False Positive

12 FPR False Positive Rate

13 FTP File Transfer Protocol

14 HIDS Host-Based Intrusion Detection System

15 HTTP Hypertext Transfer Protocol

16 IDS Intrusion Detection System

17 loT Internet Of Thing

18 IP Internet Protocol

19 KNN K-Nearest Neighbors

20 ML Machine Learning

21 NIDS Network-Based Intrusion Detection System

22 RAM Random-Access Memory

23 ML Machine Learning

24 SVM Support Vector Machine

25 TCP Transmission Control Protocol

26 TN True Negative

27 TNR True Negative Rate

28 TP True Positive

Trang 8

29 TPR True Positive Rate

30 UDP User Datagram Protocol

31 VM Virtual Machine

Trang 9

MỞ ĐÀU

Kỷ nguyên công nghệ 4.0 chứng kiến sự tăng trưởng vô cùng mạnh mẽ củaInternet van vật (Internet of Things — IoT) với sự bùng nỗ về số lượng cũng như kết nối

IoT Sự phát triển của IoT mang lai sự đôi mới và tiện lợi to lớn cho nhiều khía cạnh

khác nhau, từ nhà thông minh, các thiết bị công nghệ đeo tay đến các giải phap chăm sóc

sức khoẻ, theo dõi môi trường và tự động hoá công nghiệp.

Tuy nhiên, sự phát triển nhanh chóng này cũng kéo theo một loạt các vấn đề về

an ninh Có thé thay rằng các thiết bị IoT da số là có có những giới hạn về tài nguyên,khi phải tích hợp vào các thiết bị nhỏ gọn như đồng hồ thông minh, sensor đo nhiệt độ

Bên cạnh đó, các thiết bị JoT còn thiếu đồng bộ với nhau về giới hạn tài nguyên, chuẩn

giao tiếp Chúng đồng thời thu thập và trực tiếp tạo ra một lượng lớn dit liệu đa dang từnhiều nguồn khác nhau như chỉ số sức khoẻ người dùng, chỉ số quan trắc môi trường,chỉ số của động cơ Ban chat phi tập trung và kết nối của mang IoT đã tạo ra một bềmặt tấn công mở rộng, khiến chúng dễ bị tan công trước nhiều mỗi đe dọa tiềm ân, từ

các nỗ lực truy cập trái phép đến vi phạm dữ liệu và thao tác độc hại trên các thiết bị

được kết nối Do đó, nhu cầu tăng cường bảo mật IoT va bảo vệ dữ liệu nhạy cảm được

truyên qua các mạng này là rat cân thiệt.

Nhiều biện pháp phát hiện và ngăn chặn đã được đưa ra nhằm phát hiện kịp thời

và giảm thiêu thiệt hai, một trong số đó có thê kê đến là sử dụng IDS-Intrusion DetectionSystem dé giám sát và phát hiện những bat thường trong lưu lượng mang, thông báo kip

thời đến quản trị viên Các IDS này thường được đặt trên các thiết bị mạng biên năm gần

nguôn dữ liệu đê có thê phản ứng nhanh trước các cuộc tân công.

Tuy nhiên, các cuộc tan công ngày càng đa dang và kết hợp với nhau, dé dang có

thé vượt qua hệ thống IDS theo cách truyền thống dựa trên dấu hiệu tấn công vì không

thé phát hiện kịp thời các cuộc tan công mới ma IDS chưa được cập nhật IDS kết hợpvới máy học phân tích các gói tin mạng dé xác định các dấu hiệu bat thường có thé nhận

10

Trang 10

diện được các cuộc tấn công mới nhưng lại nặng nè, tiêu tốn quá nhiều tài nguyên, khôngphù hợp để triển khai thực tế trên các thiết bị mạng biên nhỏ gọn Bên cạnh đó, hầu hếtcác phương pháp IDS hiện đại ngày nay đều được xây dựng dựa trên đặc tính của luồngmạng, điều này đã gây ra một độ trễ nhất định khi phải chờ một lượng gói tin mạng đến

rồi mới được xử ly & dự đoán Nghiên cứu này đề xuất xây dựng một IDS dựa trên học

sâu gọn nhẹ, độ chính xác cao, có khả năng xử lý theo thời gian thực bằng việc sử dụngđặc tính của gói tin, phù hợp khi triển khai trên các thiết bị mạng biên Đồng thời, đónggói hệ thống thành một IDS học sâu theo thời gian thực mã nguồn mở cho phép quản trịqua giao diện web va dé dàng cài đặt IDS này lên các thiết bi mạng biên dưới dang gói

cài đặt.

Luận văn được trình bày như sau:

Chương | trình bày tong quan chung về đề tài, mục tiêu, nội dung và phương pháp thực

hiện đê tài.

Chương 2 giới thiệu về tình hình bảo mật trong IoT, cách thức hoạt động của IDS, cáccông trình nghiên cứu trong và ngoài nước về việc sử dụng IDS nhằm mục đích bảo mật

mang IoT.

Chương 3 đưa ra một cái nhìn tổng quan về mô hình IDS đề xuất trong dự đoán tan côngDDoS, những cải tiến giúp mô hình phù hợp hơn với việc triển khai trên các thiết bị IOTthực tế

Chương 4 là những thông tin về việc cài đặt, kết quả thực nghiệm Bên cạnh đó là đánh

giá, so sánh kết quả thực nghiệm với những công trình liên quan.

Chương 5 đưa ra kết luận về mô hình và hướng cải tiến, phát triển mô hình trong tương

lai.

11

Trang 11

Chương 1 TONG QUAN

Mỗi năm, chúng ta vẫn chứng kiến sự gia tang đáng kể của cuộc tan công

từ chối dịch vụ trên mạng, và tình hình này tiếp tục gây ra những thiệt hại đáng kế

cho cả các cơ quan và tô chức Các cuộc tan công này ngày càng trở nên da dang

và phức tap hơn, thậm chí còn kết hợp với nhau dé tạo ra những thách thức đáng

kế cho hệ thống phát hiện xâm nhập truyền thống.

Các hệ thống IDS dựa trên học máy, học sâu đã được phát triển để có khả năng phát hiện các cuộc tan công mới, nhưng chúng thường khá nặng nề và tiêu tốn quá nhiều tài nguyên, do đó chỉ thường được sử dụng trên các thiết bị có tài nguyên phần cứng mạnh mẽ Điều này làm cho các hệ thống này trở nên không phù hợp cho việc triển khai trên các thiết bị mạng có tài nguyên hạn chế, như các

thiết bị biên Ngoài ra, việc xây dựng các IDS dựa trên đặc tính luồng mạng có thể

gây ra độ trễ không mong muốn trong việc thu thập và dự đoán tấn công, khi mà chúng phải thu thập đủ các gói tin trong một luồng mạng mới tiến hành xử lý và

dự đoán tấn công.

Do đó, tại tương lai, sự phát triển của hệ thống IDS sẽ đặt sự tập trung vào việc xây dựng một hệ thống IDS dựa trên học máy, học sâu, gọn nhẹ và có khả năng xử lý theo thời gian thực Điều này sẽ được thực hiện bằng việc sử dụng

thông tin từ các đặc tính của gói tin mạng dé giảm độ trễ và tối ưu hóa việc thu

thập và dự đoán Mục tiêu là tạo ra một giải pháp IDS hiệu quả, có độ chính xác

cao, và có khả năng triển khai một cách linh hoạt trên các thiết bị mạng biên, đóng

12

Trang 12

góp đáng ké vào việc bảo vệ mạng lưới trước các cuộc tan công DDoS ngày càng

phúc tạp.

1.3 Mục tiêu đề tài

Xây dựng một IDS gọn nhẹ, có độ chính xác cao, phát hiện tấn công trực tuyến

có thê đễ dàng cài đặt và sử dụng trên các thiết bị IoT

Đề đạt được mục tiêu này, nghiên cứu này sẽ thực hiện:

e_ Cải tiến quá trình tiền xử lý gói tin dé giảm thời gian chờ thu thập dữ liệu

e Ap dụng các kỹ thuật học máy dé xây dựng mô hình phát hiện tan công gọn nhẹ,

có thê dự đoán được nhiều cuộc tấn công với độ chính xác cao

e_ Đóng gói hệ thống thành một phiên bản cài đặt gói gọn nhẹ, có thé dé dàng cài

đặt trên các thiết bị IoT, có giao diện quản tri để quản trị viên dễ dàng theo dõi vàtương tác với hệ thống

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

Nghiên cứu tập trung vào phát triển một mô hình phát hiện và phân loại các cuộc tấn công mạng triển khai trên các thiết bị IoT.

1.4.2 Phạm vi nghiên cứu

Nghiên cứu nay tập trung vào thiết kế một IDS phát hiện tấn công dành cho các thiết bị loT với tài nguyên hạn chế.

e Xác định và phân loại các mối de doa tiềm ấn đối với các thiết bị IoT, trong

đó nồi bật nhất là các cuộc tấn công DDoS dựa trên giao thức TCP/IP.

e Tối ưu hoá quá trình xử lý gói tin, tối ưu hoá việc sử dụng tài nguyên hệ

thống để phù hợp với môi trường thiết bị IoT có tài nguyên hạn chế.

e_ Triển khai thực tế trên thiết bị IoT, đảm bảo tính ứng dụng và khả năng hoạt

động của hệ thống.

1.5.Nội dung và phương pháp nghiên cứu

13

Trang 13

1.5.1 Nội dung 1: Chọn bộ dữ liệu, trích xuất đặc trưng và gán nhãn

dữ liệu

Mục tiêu:

Xây dựng bộ dữ liệu tắn công mạng đã được rút trích đặc trưng và gán nhãn

Phương pháp:

e Thu thập các bộ dữ liệu là các tập tin lưu lượng mang ở trang thái bình thường và có

các cuộc tan công mạng từ nhiều nguồn: các bài báo khảo sát liên quan tới tan công

mạng, các trang web lớn chuyên cung cấp các bộ dữ liệu (Kagsle)

e Xây dựng bộ trích xuất đặc trưng trích xuất các đặc trưng từ lưu lượng mạng, bộ trích

xuất xử lý theo gói tin dé rút trích các đặc trưng theo thời gian thực, giảm thiểu thời

gian chờ.

e Sau khi đã rút trích đặc trưng, thực hiện gan nhãn cho bộ dữ liệu dựa trên các thông

tin: địa chỉ IP nguồn, địa chỉ IP đích, dấu thời gian.

Xây dung mô hình học sâu gọn nhẹ, tinh giản với độ chính xác cao và kích thước

gọn nhẹ phù hợp triển khai trên các thiết bị mạng biên IoT

Phương pháp:

Sau khi có bộ dữ liệu đã được rút trích đặc trưng va gan nhãn cho từng gói tin,

nghiên cứu tiến hành tiền xử lý bộ dữ liệu bao gồm sàng lọc & loại các dữ liệu khônghợp lệ, cân bằng dữ liệu, phân tách bộ dữ liệu thành 3 tập huấn luyện (training) / thẩmđịnh (validating) / kiểm thử (testing) với tỉ lệ tương ứng 80% - 10% - 10%

Tiếp đến, xây dựng mô hình học sâu có giám sát sử dụng thuật toán ConvolutionalNeural Network (CNN) dé huấn luyện và thâm định trên những tập dữ liệu tương ứng

này.

14

Trang 14

Với việc sử dung CNN, mô hình tận dụng được việc chia sẽ và sử dụng lại tham

số Do đó, số lượng tham số được sử dụng trong mô hình ít hơn, mô hình cũng yêu cầu

ít tài nguyên bộ nhớ dé huấn luyện và ít không gian lưu trữ hơn

Từ mô hình đã xây dựng bước đầu, thực hiện dự đoán kết quả với bộ dữ liệu kiểmthử, so sánh với kết quả được gán nhãn trước đó và đánh giá thông qua các kết quảConfusion Matrix, Accuracy, F1 Score, Từ đó tiến hành điều chỉnh các siêu tham số

dé thu được mô hình với kết qua dự đoán chính xác là cao nhất

Kết quả:

Mô hình học sâu gọn nhẹ có khả năng dự đoán một gói tin mạng có phải là một gói

tin tấn công hay không với khả năng chính xác cao nhất

1.5.3 Nội dung 3: Xây dựng, triển khai hệ thống IDS tích hợp mô

hình học sâu

Mục tiêu:

Đưa mô hình đã huấn luyện vào ứng dụng thực tiễn triển khai trên mạng biên.Xây dựng hệ thống IDS tích hợp mô hình học sâu dé dự đoán theo thời gian thực các góitin mạng đang đi qua thiết bị có phải là tình nghi tắn công mạng hay không, từ đó thôngbáo cho người quản trị và ngăn chặn cuộc tan công kịp thời

Phương pháp:

Bắt gói tin theo thời gian thực từ công mạng vật lý chiều vào (inbound port) của

thiết bị, rút trích đặc trưng mạng ngay lập tức của gói tin mạng đang được giữ lại (hold),

gửi các đặc trưng mạng này đến mô hình học sâu đã huấn luyện, tiến hành dự đoán kếtquả Nếu kết quả thu được là an toàn thì cho phép gói tin đi đến cổng mạng vật lý chiều

ra (outbound port) dé tiếp tục quá trình truyền tin, ngược lại nếu kết quả thu được là tan

công thì thông báo đến quản trị viên, không cho phép gói tin đi tiếp đến hệ thống mạng

bên trong.

Xây dựng giao diện điều khiến web cho phép người quản trị lựa chọn tùy chỉnh

hệ thong IDS va xem lại lịch sử ghi nhận trên hệ thống

Kết quả:

15

Trang 15

Hệ thống IDS tích hợp mô hình học sâu với khả năng nhận diện & dự đoán góitin có phải là tắn công mạng hay không theo thời gian thực với khả năng xử lý nhanh,

độ trễ thấp

16

Trang 16

Chương 2 CƠ SỞ LÝ THUYÉT VÀ NGHIÊN CỨU LIÊN QUAN

2.1 Cơ sở lý thuyết

2.1.1 Internet vạn vật

Thuật ngữ Internet vạn vật (Internet of Things — IoT) được giới thiệu vào năm

1999 bởi Kevin Ashton đề cập đến một mạng lướt các thiết bị, cảm biến có khả năng kếtnối internet, kết nối với nhau thông qua một mạng chung và trao đổi dữ liệu với nhau màkhông cần sự tham gia trực tiếp của con người

IoT được coi là một trong những trụ cột trong cuộc cách mạng công nghệ 4.0 Theo

dự báo, số lượng các thiết bị IoT được kết nối tăng lên đến 27 tỷ vào năm 2025 [I] Số

lượng thiết bị và kết nối của IoT lại không lồ như vậy bởi mạng này không yêu cầu cácthiết bi có phần cứng mạnh hay dat tiền, những thiết bị tham gia vào mạng lưới IoT cóthé là những máy tính nhúng nhỏ gọn hay những cảm biến rẻ tiền được sử dụng dé thu

thập các thông tin từ môi trường xung quanh.

IoT được trién khai trong nhiều lĩnh vực khác nhau [2]: (1) thiết bi di động, (2) du

lịch và thương mai, (3) an toàn công cộng, (4) giám sát môi trường, (5) nhà thông minh,

(6) lưới điện thông minh, (7) 6 tô, (8) chế biến công nghiệp, (9) nông nghiệp, (10) hậucần và quản lý vòng đời sản pham, (11) chăm sóc sức khỏe và (12) cuộc sống độc lập.Phạm vi ứng dụng rộng rãi của IoT chứng tỏ tiềm năng to lớn của công nghệ IoT đối với

xã hội hiện đại và nhân mạnh tầm quan trọng trong nghiên cứu phát triển các hệ thống

IoT an toàn, bao mật va đáng tin cậy.

2.1.2 Các thách thức trong bảo mật trong IoT

Đặc điểm và sự phát triển nhanh chóng của IoT cũng đặt ra nhiều vấn đề bảo mật

đáng lo ngại.

(1) Quản lý thiết bi và kết nối: Số lượng các thiết bị IoT tham gia vào mang lưới là

rất lớn Các thiết bị này tham gia vào mang Internet với nhiéu nguy co tan cong.Với số lượng thiết bị lớn, việc bao mật cho từng thiết bị là điều khó khăn và một

17

Trang 17

khi một thiết bị trong mạng bị nhiễm mã độc hoặc bị tấn công, nó có thé trở thành

lỗ hồng bảo mật cho toàn hệ thống

(2) Quyền riêng tư: Có thé thấy rằng các thiết bị loT tham gia trực tiếp vào quá trình

thu thập dữ liệu Lượng dữ liệu mà các thiết bị IoT thu thập là rất lớn và là những

dữ liệu riêng tư, nhạy cảm, điều này làm tăng mối lo ngại về bảo mật và quyền

riêng tư của người dùng.

(3) Hạn chế về tài nguyên: Các thiết bị IoT thường bị giới hạn về sức mạnh tính toán,

gây khó khăn trong việc triển khai các biện pháp bảo mật mạnh mẽ và mã hóa dữliệu Điều này làm cho các thiết bi dé trở thành nạn nhân của các cuộc tấn công

và tạo ra sự lo ngại về việc bảo vệ thông tin quan trọng trong mang IoT

(4) Thiếu đồng bộ về cấu hình và sức mạnh tính toán: Các thiết bị loT tham gia vào

mạng lưới là rất lớn và không có sự đồng bộ về cau hình, sức mạnh tính toán Cácthiết bị tham gia vào mạng lưới có thê là những máy tính bảng, điện thoại thôngminh với cau hình phan cứng mạnh mẽ nhưng cũng có thé là những cảm biến đơngiản chỉ có thể thu thập được đữ liệu nhiệt độ, độ âm môi trường Sự thiếu đồng

bộ này gây khó khăn trong khi lựa chọn một giải pháp bảo mật chung có thê sửdụng được trên tất cả các thiết bị

(5) Bảo mật trong giao tiếp giữa các thiết bị: Vì sự hạn chế về tài nguyên, nhiều thiết

bị loT không phù hợp với các giao thức truyền thống như TCP, UDP Thay vào

đó, hàng loại các giao thức khác dành cho mạng IoT ra đời với những mục tiêu

khác nhau hỗ trợ cho các thiết bị loT như tiết kiệm điện năng, tăng tốc độ truyền

trong phạm vi ngắn hay cải thiện về phạm vi truyền dit liệu Các giao thức có thé

kê đến như Bluetooth Low Energy, ZigBee, Lora, NB-loT, CoAP, 6LoWPAN,MQTT Việc có nhiều giao thức truyền thông khác nhau cũng đặt ra van đề về

khả năng tương tác và bảo mật trong giao tiếp giữa các thiết bị.

(6) Sự cần đảm bảo tích hợp: IoT thường bao gồm nhiều hệ thống và thiết bị từ nhiều

nhà cung cấp, và việc đảm bảo tích hợp của chúng đòi hỏi sự cân nhắc đặc biệt

đê đảm bảo bảo mật toàn diện.

18

Trang 18

(7) Lỗ hồng trong mật khẩu mặc định: Các thiết bị loT thường sử dụng các mật khâu

mặc định yếu và không được thay đôi trong quá trình sử dụng, tạo cơ hội cho kẻtấn công thực hiện các tấn công dựa trên danh bạ mật khẩu dé chiếm quyền kiểmsoát thiết bị

2.1.3 Tấn công từ chối dịch vụ trong IoT

Từ chối dịch vụ (Denial of Service — DoS) là một thách thức to lớn trong lĩnh vực

mạng máy tính Mục tiêu của cuộc tấn công này là làm chậm hoặc vô hiệu hoá khả năng

phục vụ của máy chủ, dịch vụ Từ chối dịch vụ phân tán (Demial of Service - DDoS)

triển khai một mạng gọi là botnet tấn công vào các máy chủ, thiết bị mạng hoặc ứngdụng, bằng cách làm quá tải tài nguyên hệ thống bằng một lượng lớn các yêu cầu xử lýtới hệ thống nhằm làm gián đoạn việc truy cập bình thường vào các máy chủ, thiết bịmạng hoặc ứng dụng Có nhiều bằng chứng cho thấy răng IoT đã và đang được coi làmục tiêu tiềm năng đề trở thành các mạng botnet trong các cuộc tấn công DDoS

e Số lượng các cuộc tan công DDoS vẫn tiếp tục gia tăng Cụ thé, theo báo cáo

của CloudFlare — một CDN cung cấp dịch vụ bảo vệ trước các cuộc tấn công

DDoS - vào quý 3 năm 2022, số lượng các cuộc tấn công Ransom DDoS là

15 %, tăng 67% so với cùng kỳ năm trước [3].

e Nhiều loại tan công DDoS gia tăng mạnh, trong đó tan công DDoS sử dụng

Mirai tăng 405 % trong quý 3 năm 2022.

e Thời lượng của các cuộc tân công cũng gia tăng Nếu như trước đây, thời

lượng tấn công chỉ tính bằng phút, giờ thì giờ đây, đã có những cuộc tan

công kéo dày gần 23 ngày [4].

Lich sử cũng cho thay nhiều cuộc tan công DDoS vào mạng lưới IoT và sử dụngmạng lưới IoT thành botnet trong các cuộc tan công DDoS [5] Năm 2014, Bashlitebotnet, một mang botnet khai thác các lỗ hồng trên hệ thong Linux dé triển khải mộtcuộc tan công DDoS Hơn 96% thiết bị tham gia vào cuộc tan công này được ghi nhận

là thiết bị IoT, trong đó camera và máy ghi hình kỹ thuật số (DVR) chiếm 95% [6] [7].Tháng 9/2016 nhóm tác giả của mã độc Mirai đã triển khai một cuộc tắn công DDoS vàotrang web của một chuyên gia bảo mật noi tiéng [8] [9] Mã độc này tim kiếm những

19

Trang 19

thiết bị IoT chạy trên bộ xử lý ARC sử dụng tên người dùng và mật khâu mặc định déđăng nhập, lây nhiễm và tạo thành một mạng botnet Sau khi mã nguồn mã độc đượccông bồ rộng rãi, và được sao chép bởi các tội phạm mạng khác, hàng loạt cuộc tan côngkhác đã diễn ra Một trong số những nạn nhân của các cuộc tan công này là nhà cung cấpdich vụ tên miền Dyn với lưu lượng tan công lên tới hơn 1Tbps Dot tan công này ảnhhưởng tới hàng loạt tổ chức như Twitter, Reddit, Airbnb, Netflix, Github, Dựa vào

mã nguồn đã được công bó, hàng loạt các biến thé của Mirai ra đời và tiếp tục phát triển

Hai biến thể OMG và Wicked của Mirai xuất hiện vào 2018 mở rộng hơn khả năng tấn

công ban đầu của Mirai OMG bồ sung thêm tinh năng cho phép kích hoạt may chủproxy SOCKS và HTTP trên thiết bị IoT bị nhiễm, điều này giúp OMG có thê quét các

lỗ hồng mới, khởi chạy các cuộc tấn công bồ sung hoặc tiếp cận nhiều thiết bị loT khác

đang kết nối với thiết bị hiện tại Wicked tận dụng các lỗ hồng RCE trên bộ định tuyếtNetgear và các thiết bi CCTV-DVR khai thác các công 8080, 8443, 80, 81 và tìm kiếm

các thiết bị loT chưa được vá lỗi để tắn công [8].

2.1.4 Hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập (Intrusion Detection System — IDS) được sử dụng để

giám sát lưu lượng truy cập mạng đề phát hiện các bất thường trong lưu lượng mạng,

xác định các mã độc cũng như các cuộc tấn công

Hình 1 cho thấy tổng quan chung về các loại hệ thống IDS

20

Trang 20

Hình 1 Phân loại IDS

Dựa trên vị trí triển khai:

Dựa vào vi trí triển khai IDS, có thé chia IDS thành IDS dựa trên máy chủ (Host

Intrusion Detection Systems) và IDS dựa trên mang (Network Intrusion Detection

Systems).

Host Intrusion Detection Systems (HIDS) được trién khai trén thiét bi mang hoặcmáy chủ HIDS chỉ thu thập, phân tích và phát hiện những bat thường của các gói dữliệu inbound và outbound từ thiết bị

21

Trang 21

Network Intrusion Detection System (NIDS) thường được đặt riêng biệt tại một

vị trí chiến lược trong mạng, thông thường là tại các công mang (network gateway),nhằm giám sát tat cả các lưu lượng inbound va outbound trong hệ thống mạng

Hình 2 Vị trí triển khai HIDS và NIDS trong hệ thống mạng

Dựa trên cách triển khai:

IDS riêng biệt (Standalone IDS) giám sát một hệ thống hoặc một mạng bằng cáchthực hiện các phân tích cục bộ về các cuộc tấn công

IDS cộng tác (Collaborative IDSs) được đề cập tới trong các hệ thống lớn nhưSDN Trong đó, các IDS hoạt động cùng nhau dé nâng cao khả năng của chúng trong

việc xác định và giảm thiểu các mối đe doa bảo mật Hệ thống IDS cộng tác thường gồm

có 2 thành phần chính: bộ giám sát (monitors) và bộ phân tích (analysis unit) Trong phát

hiện tập trung, bộ giám sát chia sẽ các thông tin với bộ phân tích tập trung, bộ phân tích

tính toán các thông số của gói tin trong mạng dé phát hiện sự thay đôi về các đặc trưngtrong các thống kê số liệu dé nhận diện tan công Trong phát hiện phân tán, mọi nút trong

mạng đều có bộ giám sát và phân tích, do đó mọi nút đều chịu trách nhiệm phát hiện

thay đôi trên các số liệu cục bộ của chính nó và thông báo cho các nút còn lại trong mạngkhi phát hiện có sự bất thường

22

Trang 22

Dựa trên phương pháp phát hiện:

Dựa trên phương pháp phát hiện bất thường có thể phân loại IDS thành IDSphát hiện xâm nhập dựa trên dấu hiệu (signature-based IDS) và IDS phát hiện xâm

nhập dựa trên sự bat thuong (anomaly-based IDS)

Signature-based IDS sử dụng một tập các quy tắc, các mẫu xác định trước các dauhiệu của mã độc Bởi vi signature-based IDS sử dụng danh sách các dấu hiệu mã độcđược thu thập từ những cuộc tan công đã biết, danh sách này phải được cập nhật thường

xuyên để luôn có những dấu hiệu của những loại tấn công mới Có thé thấy rang

Signature-based IDS sẽ không kịp phát hiện được những mối đe doạ mới nếu những mối

de doa này chưa được cập nhật vào danh sách này Đây là một điểm bat lợi của

signature-based IDS khi các cuộc tấn công hiện nay phát triển và biến hoá mạnh mẽ và kết hợp

giữa nhiều loại tấn công khác nhau sản sinh ra rất nhiều loại tấn công không biết trước(zero-day attack) đặc biệt là trong môi trường nhiều lỗ hong bảo mật như IoT

Anomaly-based IDS giám sát các lưu lượng mạng và so sánh những đặc tính của

những gói tin, lưu lượng mạng với một ngưỡng bình thường được thiết lập từ trước, bất

kỳ sai khác nào so với ngưỡng bình thường này được coi là bất bình thường based IDS có thé phát hiện được các cuộc tan công zero-day attack Các Anomaly-basedIDS thường được kết hợp với các thuật toán học máy đề tăng độ chính xác của việc pháthiện tấn công

Anomaly-2.1.5 Ky thuật hoc máy, học sâu trong hệ thống phát hiện xâm nhập

Các phương pháp học máy, học sâu đã được rất phd biến trong các hệ thống pháthiện xâm nhập Một thành phần quan trọng trong việc áp dụng học máy vào IDS là sử

dụng bộ dữ liệu chứa thông tin về các đặc trưng của các gói tin trong dòng lưu lượng

mạng bình thường và không bình thường Các thuật toán học máy, học sâu sẽ tiến hành

việc học dựa trên thông tin được cung cấp từ bộ dữ liệu này va sau đó qua giai đoạn đào

tạo dé hiểu và nhận biết các mẫu khác nhau, từ đó thực hiện các dự đoán Vì vậy, chấtlượng và sự đại diện của bộ dữ liệu này đóng vai trò quan trọng đối với hiệu suất của hệ

thống IDS dựa trên học máy, học sâu Dựa trên quá trình học từ các bộ dữ liệu này, chúng

23

Trang 23

ta có thể chia các kỹ thuật học máy, học sâu thành hai nhóm chính: học có giám sát và

học không giám sát [9].

ANN

Supervised learning

Trang 24

Học có giám sát: là phương pháp tiếp cận thông dụng nhất của IDS Với phương phápnày, IDS cần được tham gia quá trình dao tao với bộ dữ liệu có gan nhãn xác định rõràng những hoạt động nào là lành tính và độc hai Các kỹ thuật học máy có giám sát phốbiến bao gồm SVM, cây quyết định (Decision Tree), các kỹ thuật hậu sâu như mạng lướithần kinh (CNN) Những mô hình này có thể có độ chính xác cao khi được đảo tạo vớitập dữ liệu lớn và đa dạng Tuy nhiên, những mô hình này có thể gặp khó khăn trongviệc phát hiện các cuộc tan công mới vì chúng chi dựa vào các mẫu dit liệu đã được đào

tạo.

Support Vector Machine:

Máy vectơ hỗ trợ (Support Vector Machine) là một trong những công cụ

mạnh mẽ và linh hoạt nhất trong lĩnh vực học máy và nhận dạng mẫu Nguyêntắc cơ bản của SVM là tìm ra siêu phẳng tối ưu giúp phân tách tốt nhất các điểm

dữ liệu thành các lớp riêng biệt đồng thời tối đa hóa khoảng cách lề giữa chúng

Siêu phẳng này được lay từ các vectơ hỗ trợ, một tập hợp con các điểm dữ liệu

gan ranh giới quyết định nhất SVM hoạt động tốt khi làm việc với dữ liệu nhiềuchiều và có thê xử lý các mối quan hệ phi tuyến tính một cách hiệu quả thông quaviệc sử dụng các hàm hạt nhân, siúp chuyên đồi dữ liệu thành không gian có chiềucao hơn, nơi có thê đạt được sự phân tách tuyến tính Khả năng nắm bắt các mẫuphi tuyến tính này giúp SVM trở nên linh hoạt cho nhiều ứng dụng, bao gồm phân

loại văn bản, nhận dạng hình ảnh và phân tích dữ liệu sinh học.

SVM được công nhận rộng rãi về khả năng xử lý các bộ dữ liệu mat cân

bang, trong đó một lớp vượt trội hơn đáng kề so với lớp kia Tuy nhiên, SVM đòi

hỏi nhiều tính toán, đặc biệt là khi xử lý các tập dữ liệu lớn và việc điều chỉnh cácsiêu tham số dé đạt được hiệu suất tối ưu có thé là một quá trình phức tạp và tốn

thời gian.

Decision Tree:

Cây quyết định (Decision Tree) là một thuật toán học máy phô biến và trực

quan được sử dụng cho cả nhiệm vụ phân loại và hồi quy Cây quyết định biểu

diễn bằng đồ họa của một quá trình ra quyết định, trong đó mỗi nút trong cây biểu

25

Trang 25

thị một quyết định và mỗi nhánh biểu thị một kết quả hoặc một lựa chọn Về cốtlõi, cây quyết định hoạt động băng cách chia đệ quy dữ liệu thành các tập con dựatrên các thuộc tính quan trọng nhất, cho phép thuật toán đưa ra quyết định sángsuốt.

Một trong những ưu điểm của thuật toán cây quyết định là sự rõ ràng và

dễ hiểu trong kết qua dự đoán Tuy nhiên, với những dé đạt được hiệu qua dựđoán trên những tập dữ liệu phức tạp, cây quyết định có thể phình to và phát triển

rất phức tạp, đồng thời thuật toán cây quyết định dễ bị quá khớp (overfitting) với

tập dữ liệu đào tạo.

CNN:

Mô hình học máy Convolutional Neural Network (CNN) được thiết kếtheo cấu trúc xử lý của bộ não con người, bao gồm các lớp chập (convolutionallayer), các lớp gộp (pooling layer) và các lớp kết nối đầy đủ (fully connected

layer) Các lớp này hoạt động song song dé tìm hiéu và học từ các tính năng đầu

vào.

CNN thường được sử dụng phổ biến nhất là xử lý trên dữ liệu hình ảnh

Nhiều mạng kiến trúc CNN đã được ra đời được dao tạo trên những bộ dữ liệu hình ảnh không 16 như VGG, ResNet, AlexNet, Tuy nhiên, việc đào tạo các

mạng CNN sâu đòi hỏi rất nhiều tài nguyên tính toán do đó nó thường được dùng

trên các máy chủ có tài nguyên tính toán mạnh mẽ.

Học không giám sát: Các phương pháp học không giám sát đặc biệt phù hợp cho bài

toán phát hiện bất thường Các thuật toán không giám sát không đòi hỏi quá trình gán

nhãn các dị thường thường tiêu tốn nhiều thời gian, chi phí Các thuật toán này sử dụngcác lưu lượng mạng bình thường cho quá trình đào tạo, học tập các cau trúc gói tin, đặctính thống kê, của các lưu lượng mạng lành tính từ đó nhận biết được các sai khác trongcác lưu lượng độc hại Một trong những lợi thế chính của phát hiện bất thường khônggiám sát là khả năng thích ứng với môi trường thay đôi và các mối đe doa mới nổi Tuy

nhiên, không phải là không có thách thức Các phương pháp không được giám sát có thé

gặp khó khăn trong việc phân biệt giữa các trường hợp bất thường và các trường hợp

26

Trang 26

hiếm gặp nhưng hợp pháp, đồng thời việc lựa chọn thuật toán và điều chỉnh tham số phùhợp là rất quan trọng cho sự thành công của hệ thống phát hiện Một số thuật toán họctập không giám sát thường dùng dé phát hiện bat thường gồm Kmeans, PCA, Isolation

Forest, AutoEncoder

Isolation Forest:

Rừng cách ly (Isolation Forest) là một thuật toán phat hiện bat thuong trén

dữ liệu không gán nhãn Không giống như nhiều phương pháp phát hiện bat

thường khác dựa trên số liệu khoảng cách hoặc ước tính mật độ, rừng cách ly tận

dụng cây nhị phân và phân vùng ngẫu nhiên dé cô lập các điểm bat thường mộtcách hiệu quả Ý tưởng chính đằng sau Rừng cách ly là các điểm bất thường

thường hiếm gặp và có thê được tách biệt nhanh hơn trong cấu trúc cây nhị phân.

Thuật toán tạo ra một rừng cây quyết định ngẫu nhiên và trong quá trình xây dựng

các cây này, thuật toán sẽ phân chia tập dữ liệu thành các tập con ngày càng nhỏ

hơn Các điểm bất thường, là những trường hợp riêng biệt, cần ít sự phân tách

hơn đề tách khỏi phần lớn các điểm đữ liệu thông thường Do đó, chúng kết thúc

Ở gần gốc cây hơn, trong khi các điểm dir liệu thông thường có khả năng đượcphân bồ sâu hơn trong cây Sự khác biệt về độ dài đường dẫn trung bình này giúpviệc xác định các điểm bất thường tương đối dễ dàng băng cách tìm kiếm các

điểm dữ liệu có độ đài đường dẫn ngắn hơn trong rừng.

Rừng cách ly có khả năng mở rộng cao và hoạt động tốt trên cả các tập dữliệu lớn Tuy nhiên, rừng cách ly sẽ hoạt động không tốt trên các tập dit liệu với

điểm bat thường không quá tách biệt rõ ràng với phan lớn điểm dữ liệu.

AutoEncoder:

Bộ mã hoá tự động (Auto Encoder) cũng là một thuật toán học không giám.

Bộ mã hóa tự động gồm một mạng bộ mã hóa chuyên đổi dữ liệu đầu vào thànhbiểu diễn có chiều thấp hơn (encoder), cùng với một mạng bộ giải mã tái tạo dữliệu gốc từ biéu diễn nén đó (decoder) Kiến trúc này về cơ bản cé gắng nắm bắt

các tính năng cần thiết và mang tính thông tin nhất của dữ liệu đầu vào đồng thời

27

Trang 27

giảm tính chiều của nó Bộ mã hoá tự động có vô số ứng dụng, từ giảm kích thước,khử nhiễm dữ liệu đến phát hiện sự bất thường và tạo mô hình tông quát.

Đối với phát hiện bất thường, bộ mã hoá tự động học những đặc điểm của

các điểm dữ liệu bình thường qua quá trình mã hoá và tái tạo lại các điểm dữ liệu.Những điểm dữ liệu bat thường sẽ là những điểm dữ liệu không được tái tạo tốt,

có kết quả sai lệch đáng ké so với những mẫu đữ liệu đã học Một trong nhữngthách thức khi làm việc với bộ mã hóa tự động là chọn kiến trúc và siêu tham số

phù hợp, cũng như cân bằng sự đánh đôi giữa nén và mat thông tin.

2.2 Các công trình nghiên cứu liên quan

Sử dụng học máy trong phát hiện bất thường trong IDS đã được triển khai trong

nhiều nghiên cứu Surasit và các cộng sự [11] đã sử dụng nhiều mô hình học máy khácnhau và nhận thay XGBoost, DT và RF cho kết quả tốt trong việc phát hiện bat thường

trên tap dữ liệu CSE-CIC-IDS-2018 Nghiên cứu cũng sử dung PCA va RF dé chọn lọc

tính năng cần thiết, tôi ưu thời gian xử lý của mô hình

Nhóm nghiên cứu của Mojtaba đề xuất Passban [12], xác định tan công bằng cách

dùng phân loại một lớp (one-class classification), sử dung Isolation Forest (khu rừng

cách ly) dé cách ly mã độc khỏi các dit liệu không độc hại và Local Outlier Factor (yếu

tố ngoại lệ cục bộ) dé phát hiện các cuộc tan công

Wang và cộng sự [13] đề xuất một SVM dựa trên hành vi được cải thiện dé phan

loại các cuộc tấn công mạng Đề tăng độ chính xác của việc phát hiện xâm nhập và tăng

tốc độ huấn luyện các mẫu bình thường và xâm nhập, DT được sử dụng như một phương pháp giảm đặc trưng dé nâng thứ hạng các đặc trưng thô và chọn các đặc trưng đủ điều

kiện nhất Các đặc trưng đã chọn này là dữ liệu đầu vào dé đào tạo bộ phân loại SVM

ATLANTIC [14] (Anomaly deTection and machine LeArNing Traffic classification for

software- defined networking - Phát hiện bat thường va phân loại Lưu lượng truy cậpLeArNing của máy cho mạng được xác định băng phần mềm) là một hệ thống đời đầu

từ năm 2016 bao gồm các thành phần phân loại và phát hiện bất thường riêng biệt Do

quá trình xử lý dựa trên máy học có thể đòi hỏi nhiều tính toán nên hệ thống ATLANTIC

28

Trang 28

đã đề xuất giảm thiểu tính toán bằng cách sử dụng quy trình hai giai đoạn Một thànhphan đơn giản, gon nhẹ dé phát hiện sự bat thường, theo sau là hệ thống phân loại các

bất thường Việc phát hiện sự bat thuong ban dau trong ATLANTIC được thực hiện bằng

cách so sánh giữa entropy của Shannon của ảnh chụp nhanh lưu lượng mạng được đánh

giá và entropy thường thấy trong lưu lượng mạng Với entropy trung bình M và độ lệchchuẩn S trong dữ liệu lưu lượng truy cập mạng lịch sử, một ảnh chụp nhanh được coi làbat thường nếu entropy tương ứng nằm ngoài giới han của [M — S, M + S] Trong quátrình thử nghiệm trên dữ liệu tùy chỉnh được tạo bằng bộ đánh giá Mininet, trình pháthiện dị thường đã phân tích 4400 luồng lưu lượng truy cập từ 100 bộ chuyên mạch mạngtrong vòng 75 mili giây, giúp hệ thống có thê sử dụng được trong mang IoT Với phân

loại bất thường, ATIANTIC đề xuất hai bộ xử sử dụng phân cụm K-mean và phân loại

nhị phân SVM Mô hình SVM dat độ chính xác 88,7% và can 3 giây dé xử lý 4400 luồng

hiện DDoS dựa trên mạng bộ nhớ ngắn hạn dài (LSTM) Mô hình này phát hiện lưu

lượng truy cập bất thường băng cách trích xuất 20 tính năng từ một chuỗi các gói tin liêntục và sử dụng cửa số thời gian trượt Ở một nghiên cứu khác, Doriguzzi-Corin và các

cộng sự đã đề xuất Lucid - một mang CNN đơn giản phát hiện DDoS [17] Đề hỗ trợ hệ

thống phát hiện tan công trực tuyến, Lucid thu thập các đặc tính luồng mạng cho bướctiền xử lý lưu lượng mạng Các nghiên cứu [15], [16], [17] này sử dụng đặc tính luồng

mạng, do đó không tối ưu được khoảng thời gian chờ thu thập các gói tin trong luồng.

Ramanathan và các cộng sự [18] đã giới thiệu một mô hình sử dụng CNN dé phathiện bat thường trên tập dir liệu CICDDoS2019 Mô hình dé xuất tiền xử lý trước dữ liệu

bang cách trích xuất các gói tin trong luồng và xử lý chúng theo độ dài cố định trước khi

đưa vào mô hình CNN dé tăng tốc độ xử lý các luồng dữ liệu mạng Mô hình đạt độ

29

Trang 29

chính xác 98,83% cho phân loại nhị phân giữa lưu lượng bình thường và lưu lượng bất

thường Shone và cộng sự, đề xuất một phương pháp phát hiện xâm nhập dựa trên học

sâu mới được gọi là NDAE [19] Đề tăng tốc độ phát hiện xâm nhập trong khi duy trì độchính xác phát hiện cao, NDAE kết hợp phương pháp học sâu và RF, trong đó phương

pháp học sâu được áp dụng dé giảm đặc trưng va RF được sử dụng dé phân loại lưu

lượng và phát hiện xâm nhập Yisroel Mirsky và các cộng sự đã phát triển Kitsune [20]

sử dụng autoencoder (tự động mã hoá) với nền tang là ANN — hoc không giám sát dé

phat hién bat thường Kitsune phân tích các đặc tính của cuộc tấn công theo gói tin mạng,

giảm thiểu thời gian chờ gói tin ở bước tiền xử lý Tuy nhiên, việc sử dụng AE và ANNvẫn đặt ra yêu cầu cao về mặt tài nguyên tính toán, khiến mô hình này không khả thi khitriển khai trên mạng IOT thực tế Một NIDS sử dụng Deep Feed-Forward Neural

Network (DNN), RF và Gradient Boosting Tree (GBT) đã được Faker và các cộng sự

[21] triển khai trong môi trường phân tán Kodyš và các cộng sự chứng minh ResNet và

EfficientNet đạt hiệu suất phân loại tan công tốt hơn LSTM trong [22].

Đề khắc phục những thiếu sót trên, nghiên cứu này đề xuất việc sử dụng bộ tiền

xử lý sử dụng đặc tính của gói tin mạng kết hợp với mạng CNN đơn giản để dự đoán cácloại tan công DDoS Với việc kết hợp này, mô hình giảm thiểu thời gian tiền xử lý góitin, mạng CNN đơn giản cũng yêu cầu ít tài nguyên tính toán mà vẫn có thé khái quát

hoá và phân loại nhiều loại tắn công DDoS khác nhau.

Bảng 1 Một số công trình nghiên cứu liên quan

Khía cạnh Số | Phân tích

XS Datasets ~ = tA nghiên cứu nhãn| dữ liệu

Tối ưu IDS

Surasit và các |học máy bằng

CSE-CIC-IDS-cộng sự [11] giảm chiều 2018

tính năng

Sử dung IF vài IF, Local

Local Outlier Outlier

Factor dé Factor

Mojtaba và các

cộng sự [12]

30

Trang 30

phân loại tấn

côngPhân loại tắncông bằng

SVMPhát hiện bat

ATLANTIC[I14J| thường trong

Flow-ACC = 97.57%

Ramanathan và | CNN với cai

các cộng sự [18] | tiến trong tiền

Shone và cộng |_ trong phat

sự[19] hiện tân công

băng việc kếthợp RF và

CNN

Tap hop

utoencoders cho NIDS

thoi gian thuc

ANN chỉnh 10

DNN;

RF; CICIDS2017 | 14 Gradient | UNSW UB15| 9

Flow-TPR =

99.99%, AUC =

99.99%

ACC=

91-98%

Trang 31

Kodyš và các

cộng sự [22]

Mô hìnhCNN dé phát

hién batthuong

0.66 %

32

Trang 32

Chương 3 MÔ HÌNH

3.1.Tổng quan về giải pháp đề xuất

Mô hình IDS đề xuất được xây dựng trên 5 khối chức năng chính, được chia

thành các lớp:

e Tiền xử lý dữ liệu (Preprocess): bao gồm các khối chức năng Trình trích

xuất gói (Packet extractor) thực hiện trích xuất gói tin từ tập tin pcap hoặc

giao diện mạng từ đó thu thập được các thông tin cần thiết từ gói tin, Trình

trích xuất đặc trưng (Feature extractor) thực hiện trích xuất đặc trưng dựa trên phương pháp thống kê gia tăng giảm dần, Trình ánh xạ nhãn (Label mapping) thực hiện ánh xạ nhãn góc được gan theo luéng mạng sang thông

tin đặc trưng tương ứng với từng gói tin.

e Dao tạo mô hình (Train model): thực hiện đào tạo mô hình CNN với các

đặc trưng đã được gan nhãn dé có được mô hình CNN có kha năng phân

biệt 13 loại tấn công DDoS với độ chính xác cao.

e Phát hiện bất thường (Anomaly detect): sử dụng mô hình CNN đã được dao

tao dé phát hiện bat thường mạng.

e Giám sát và báo cáo (Monitor and report): Sử dụng hệ thống ELK thực hiện

thu thập log về dit liệu mạng và kết qua dự đoán bat thường, biểu diễn lên thành các bản điều khiến và gửi thông báo cảnh báo tới người dùng về các bất thường trong mạng.

Phần 3.2 mô tả chỉ tiết về các khối chức năng trong hệ thống IDS đề xuất.

Luong hoạt động cua IDS được thực hiện với tham số dòng lệnh ArgumentParser trong python Việc sử dụng tham số dòng lệnh đem lại một vài lợi ích trong quá trình sử dụng và phát triển IDS:

e Hướng dẫn và xử lý lỗi: argparse cung cấp xử lý lỗi tích hợp và tự động tạo

hướng dẫn về cách sử dụng chương trình nêu người dùng nhập sai hoặc

33

Trang 33

không nhập đủ tham số, giúp người dùng dé hiểu hơn về cách hoạt động của

IDS.

e_ Quản lý tham số: Cho phép xác định kiểu dữ liệu, giá trị mặc định, thiết lập

giới hạn cho từng tham số, giúp tránh được nhiều lỗi liên quan tới tham số

trong quá trình chạy.

© Dễ dàng tích hợp, bảo trì và mở rộng: argparse là một thư viện chuẩn trong

Python, nên dễ dàng tích hợp mà không cần cài đặt thêm Kiến trúc tham số

dòng lệnh giúp code dé bảo trì bởi vì các tham số được định rõ và có thé

thêm vào một cách dé dàng.

Luéng hoạt động của IDS được chia làm hai luồng hoạt động: đào tạo mô hình với dt liệu đã được gan nhãn và sử dung mô hình đã được đào tạo dé phat hiện bat thường trên đữ liệu thực tế Hình 4 là tong quan về hai luồng hoạt động của IDS Tại luồng hoạt động đào tạo mô hình, IDS nhận đầu vào là các tập tin

pcap của các tap dữ liệu Các tập tin PCAP này sẽ được phân rã và thực hiện

các quá trình thu thập thông tin từ gói tin, trích xuất đặc trưng và ánh xạ nhãn

để thu được dữ liệu hoàn chỉnh cho phan dao tạo mô hình Tập dữ liệu sau day

được chia thành các tập train/validate/test và thực hiện đào tạo với mô hình

CNN dé thu được mô hình có độ chính xác tốt nhất Tại luồng hoạt động phát hiện bất thường, IDS nhận đầu vào là các gói tin trực tiếp từ giao điện mạng,

trải qua các bước trích xuất thông tin và đặc trưng, dữ liệu được sử dụng dé

phát hiện bat thường mô hình CNN đã đào tạo Ở luồng hoạt động này, một trình giám sát và báo cáo thu thập thông tin về tình hình hệ thống mạng kết hợp với kết qua phát hiện bat thường của mô hình CNN dé đưa ra báo cáo về hoạt

động mạng và các bat thường xảy ra trong mạng Phan 3.3 mô tả chi tiết về hai luồng hoạt động này của IDS Điểm nổi bật của mô hình IDS dé xuất là trình

rút trích đặc trưng sử dụng phương pháp thống kê gia tăng giảm dần giúp xử lý

dữ liệu mạng theo gói tin mà không tốn quá nhiều thời gian chờ và mô hình CNN

34

Trang 34

gọn nhẹ với khả năng phân biệt 13 loại tan công DDoS khác nhau với độ chính xác

cao.

35

Trang 35

PCAP files Network interface

01101100 01101111

01100101

Preprocess J

Packet extractor Packet extractor

Read pcap file Read pcap file

Extract packet information Extract packet information

Feature extraction Label mapping Feature extraction

Anomaly detect

‘Load model” SCs Anomaly detect

Monitor and report

1

= ~-Anomaly detected ~ ~ :

=

Email notification Dashboard

Hinh 4 Téng quan mé hinh dé xuat

36

Trang 36

3.2 Các khối chức năng

3.2.1 Trinh trích xuất thông tin gói tin Khối packet extractor sử dụng pyshark — một thư viện python được thiết kế

cho việc thu thập và xử lý các gói tin trong mạng Pyshark cho phép người dùng tuỳ

chỉnh các tuỳ chọn và lọc gói tin một cách tự động dựa trên nhiều yếu tố khác nhau nhưđịa chỉ IP nguồn và đích, cổng, giao thức, Điều này giúp cho việc điều chỉnh quá trình

thu thập và trích xuất thông tin của gói tin trở nên đơn giản và hiệu quả hơn, loại bỏ bớt

những thông tin không cần thiết, đơn giản hoá quá trình xử lý pyshark hỗ trợ trong cảquá trình xử lý trực tiếp trên các giao diện mạng và tập tin pcap

Trong phạm vi của luận văn này, mọi gói tin được xử lý bởi packet extractor sẽ

được phân tích dé trích xuất các thông tin quan trọng bao gồm: thông tin tong quan về

gói tin, thông tin lớp IP, lớp Ethernet, lớp TCP, lớp UDP, lớp ICMP, lớp ARP, và lớp

IPv6 Bang | mô tả về các thông tin được trích xuất từ mỗi gói tin

Bảng 2 Thông tin được trích xuất từ mỗi gói tin thông qua pyshark

Thông sốsniff_timestamp | Thời điểm gói tin được bắt giữ hoặc thu thập

captured_ lensth | Độ dài gói tin.

Địa chỉ MAC (Media Access Control) nguồn của gói tin

Dia chi MAC dich của gói tin.

Dia chi IP nguồn của gói tin

Dia chi IP đích của gói tin.

Công nguồn sử dung dé gửi gói tin

Công đích sử dung dé nhận gói tin

Công nguồn sử dụng để gửi gói tin.

dstport Cổng dich sử dụng dé nhận gói tin.

Loại ICMP message.

Mã code liên quan đến loại ICMP message

Mã opcode cho gói ARP (REQUEST hoặc REPLY).

src.proto_ipv4 |Địa chỉ IP nguồn trong gói ARP

37

Trang 37

| dst.hw_ mac |Địa chỉ MAC đích trong gói ARP.

dst.proto_ipv4 |Dia chỉ IP dich trong gói ARP.

| sre Dia chi IPv6 nguồn của gói tin.

trường thông tin bị thiếu ở các lớp (ví dụ các gói tin TCP sẽ không có thông tin ở lớp

UDP), việc điền các giá trị 0 vào những thông tin này có thé được thực hiện dé bảo đảm

tính trọn vẹn của bộ dữ liệu.

3.2.2 Rut trích đặc trưng

Rút trích đặc trưng là một phan quan trọng của bước tiền xử lý dữ liệu Quá trình

này thu thập, chon lọc và chuyền đôi dữ liệu đầu vào thành tập hợp các đặc trưng có ý

nghĩa cho quá trình phân tích và xử lý sau này Quá trình rút trích đặc trưng trong mô

hình phát hiện bất thường là một khía cạnh quyết định tính hiệu quả trong việc phát hiện

và đánh giá trình trạng an ninh mạng Thông qua quá trình này, chúng ta có thê thu thập

được các dấu hiệu, đặc trưng tiềm ân bên trong cua dữ liệu, nhận biết kip thời những bất

thường trong lưu lượng mang dé đưa ra những quyết định phù hợp ngăn chặn các cuộctấn công

Một trong những thách thức trong quá trình rút trích đặc trưng dữ liệu mạng là

việc xử lý các gói tin thuộc nhiều kênh hoặc cuộc hội thoại khác nhau xen lẫn trong cùng

một thời điểm Điều này khiến quá trình nhận biết và phân tách các sự kiện đang diễn ra

khó khăn hơn, thông thường khung lưu trữ các gói tin theo từng kênh riêng biệt sẽ được

sử dung dé giải quyết van dé này Tuy nhiên, trong các cuộc tấn công, đặc biệt là cuộctan công DDoS, số lượng gói tin rất lớn và tốc độ đến của các gói tin cũng rất cao Do

đó việc lưu trữ này dường như là không khả thi đặc biệt là trong môi trường thiết bị cótài nguyên về bộ nhớ giới hạn như các thiết bị IoT

Do đó, trong mô hình này, phương pháp thống kê gia tăng giảm dan [9] được sửdụng dé trích xuất các đặc điểm lưu lượng mang Phương pháp này trích xuất các đặctrưng từ lưu lượng mạng ở tốc độ cao chỉ tiêu tốn O(1) tài nguyên tính toán

38

Trang 38

Giả sử S = {%¡,#¿, , x„} là một luồng không giới hạn các thuộc tính x của góitin Giá trị trung bình, phương sai và độ lệch chuẩn của S có thé được cập nhật bằng cáchduy trì mảng I; = (N,Le,Ss,T,) trong đó N, Ls,S, là số lượng các gói tin đã được bắt,

tổng tuyến tính và tông bình phương của luồng dit liệu, 7, là thời gian cuối cùng I, được cập nhật Khi bắt được dữ liệu x mới I, sẽ cập nhật thành (N + 1,L, + x,SŠs + x”, Trow)

Dé trích xuất thông tin hiện tại của luồng dữ liệu, chúng ta phải bỏ qua các dữ liệu cũhơn Cách tiếp cận của phương pháp này là duy trì một cửa số trượt Trong phương pháp

này, trọng số của các giá trị cũ sẽ giảm dần theo cấp số nhân theo thời gian Hàm phânra:

d,(t) = eTM

trong đó, At > 0 là giá tri mặc định và t là thời gian trôi qua kể từ lần quan sắt cuối cùng

từ luồng dữ liệu Khi đó, quy trình cập nhật J, được thể hiện ở thuật toán 1 bao gồm:

e Tinh toán hàm phân rã: y = đa - (T;;sw — Tị,) cho từng khung thời gian [0.1, 0.5,

1.5, 10, 60]

e Xử lý phân rã: l¿ = Vm Yus›Yss; Ti)

e Thêm giá trị mới: J; = (n + 1, Ls +x,S5 + #”, Throw)

e Khi cả gói đến và gói đầu ra đều yêu cầu thống kê hai chiều, tính toán $R;; =

ySRij + Tự;

e Tra vê gia tri I,

Algorithm 1 Update J; Algorithm

Trang 39

10: Isc (Ym, Vig Vss 07)

11: end while

Bang 3 Bảng mô tả thông số tinh toán các đặc trưng được trích xuất

Thông số Được tính toán từ Mô tả

Mean, Std SrcMAC-IP, SrcIP, Băng thông lưu lượng truy

Channel, Socket cập ra

Magnitude, Radius, Channel, Socket Băng thông của lưu lượng

Approx Covariance, truy cap vao va ra

Correlation

Coefficient

Weight SrcMAC-IP, SrcIP, Tốc độ gói tin của lưu

Channel, Socket lượng ra

Weight, Mean, Std Channel Độ trễ giữa các gói của

lưu lượng ra

Trình rút trích đặc trưng sử dụng cửa số tăng dần này để tính toán 20 đặc trưng

khác nhau của luồng dữ liệu Trong mô hình này, xem xét lựa chọn 5 khoảng thời gian

khác nhau dé tiến hành tính toán đặc trưng: 0,1s; 0,5s; 1,5s, 10s và 60s Các đặc trưngđược trích xuất được tóm tắt trong Bảng 2

3.2.3 Ánh xạ nhấn

Trong quá trình đào tạo mô hình, việc sử dụng các tập dữ liệu được gán nhãn theo

luồng mang (flow) đã tao ra một thách thức, vì mô hình IDS dé xuất xử lý theo gói tin

Điều này tạo ra sự không đồng nhất giữa định dạng dữ liệu được sử dụng trong hai ngữ

cảnh khác nhau Vì vậy, cần tiến hành quá trình phân rã dữ liệu từ định dạng flow sangđịnh dạng gói tin, nhằm gán nhãn cho từng gói tin một cách chính xác và hiệu quả

40

Ngày đăng: 08/11/2024, 17:17

w