1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Nâng cao độ chính xác phát hiện bất thường trong hệ thống phát hiện xâm nhập mạng

66 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nâng cao độ chính xác phát hiện bất thường trong hệ thống phát hiện xâm nhập mạng
Tác giả Nguyễn Minh Hoàng
Người hướng dẫn TS. Lâm Sinh Công
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn Thạc sĩ Khoa học Máy tính
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 66
Dung lượng 16,23 MB

Nội dung

Một trong những giải pháp bảo vệ đầu tiên để đảm bảo an ninhlà sử dụng hệ thống phát hiện xâm nhập IDS để phát hiện các cuộc tắn công mạng.Tuy nhiên, việc triển khai hệ thống IDS trên cá

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Minh Hoàng

trong hệ thong phát hiện xâm nhập mang

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2024

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Minh Hoàng

trong hệ thông phát hiện xâm nhập mạng

Ngành: Công nghệ thông tin

Chuyên ngành: Khoa học máy tính

Mã số: 840101.01

LUẬN VĂN THAC SĨ KHOA HOC MAY TÍNH

NGƯỜI HƯỚNG DAN KHOA HỌC: TS Lâm Sinh Công

Hà Nội - 2024

Trang 3

Lời cảm ơn

Luận văn này không thể được hoàn thành nếu không có sự giúp đỡ của nhiều

người mà tôi muốn bày tỏ lòng biết ơn

Trước tiên, tôi xin gửi lời cảm ơn chân thành nhất tới người hướng dẫn luận văn

của tôi, Tiến Sĩ Lâm Sinh Công vì những phản hồi quý báu và sự chỉ dẫn mang tínhchất xây dựng trong suốt quá trình học tập và thực hiện đề tài này Tôi cũng muốncảm ơn tới PGS.TS Nguyễn Nam Hoàng đã hỗ trợ và đưa ra góp ý quan trọng cho

nghiên cứu này.

Ngoài ra, tôi cũng muốn được gửi lời cảm ơn đến toàn thể đội ngũ giảng viên củatrường Đại học Công nghệ - Đại học Quốc gia Hà Nội Nếu không có sự chỉ dạycủa các thầy cô, tôi đã không có đủ kiến thức và kĩ năng để hoàn thành luận văn tốtnghiệp này, cũng như không thể có sự chuẩn bị kỹ càng cho tương lai.

Cuối cùng, tôi cũng xin được gửi lời cảm ơn đến gia đình và bạn bè của tôi, nhữngngười trong suốt thời gian qua đã luôn cổ vũ, động viên và giúp đỡ tôi hoàn thành tốtbản luận văn tốt nghiệp này

Trang 4

Lời cam đoan

Tôi xin cam đoan kết quả va báo cáo cua luận văn này là hoàn toàn do em thựchiện dưới sự hướng dẫn của tiễn sĩ Lâm Sinh Công, và không sao chép từ bat kỳnguồn nào Nếu phát hiện có bat kỳ sự gian lận nào, em xin chịu trách nhiệm trước

hội đồng cũng như kết quả Luận văn tốt nghiệp của mình

Tôi xin hoàn toàn chịu trách nhiệm và mọi hình thức kỷ luật với lời cam đoan của

Trang 5

1.1.2 Những thách thức trong bao mật hệ thông IoT} 9

1.2 _ Tổng quan về Intrusion Detection Systems (IDS)| 11

Le 15

2 Học sâu cho Hệ thông phát hiện xâm nhập 17

2.1 Phương pháp học sâu cho Hệ thông phát hiện xâm nhập 17

2.2_ Bộ dữ lệu loI-23| ẶẶ 23

2.3 Những nghiên cứu gầnđây| 28

2.4 Mô hình hệ thong đề xuất| - 302.5 Kétluanchuong} 0.0.00 0 37

3 Thực nghiệm và Kết qua 38

Trang 6

Mục lục

3.1 Phương pháp đánh giá mô hình|

3.2 Thiếtlậpthửnghiệm|

33 Kêtquảthựcnghiệm

3.3.1 Số liệu đánh giá hiệu năng

Tài liệu tham khảo

Trang 7

Internet of Things Internet van vat

Intrusion Detection System Network Intrusion Detec-

tion System

Host Intrusion Detection

ystem|

Hệ thống phát hiện bất thường

Hệ thống phát hiện bat thường mạng

Hệ thống phát hiện bat thường máy chủ

Machine Learning Hoc may Deep Learning Hoc sau

Artifactial Neural Network Convolutional Neural Net-

Mang nơ ron nhân tao Mang nơ ron tích chập

Deep Neural Network Feedforward Deep Neural

Mang nơ ron sâu

Mang nơ ron sâu truyền thang

Decision Tree Cay quyét dinh

Random Forest Rừng ngẫu nhiên

Logistic Regression Hồi quy logistic

Linear Discriminant

Analy-Principal Components

Analysis Open Worldwide Applica- tion Security Project

Naive Bayes

Phan tich biét thuc tuyén tinh

Phan tich thanh phan chinh

Du án Bao mật Ứng dụng Toàn cầu Mở

Comma-separated values Giá trị phân cách bằng dấu phẩy

Trang 8

Danh sách hình ve

I1 Kiến rúc củahệ thônglơl| - 7

1.2 Cloud, Fog và Edge Computing trên ldl[25]|_ 10

1.3 Sơ đồ hệ thông phát hiện xâm nhập 111.4 Sơ đồ kịch bản của Network based Intrusion Detection System] 13

1.5 Sơ đồ kịch ban của Hosted based Intrusion Detection System) 13

1.6 Phương pháp luận được sử dung trong IDS dựa trên chữ ky [30] 14

2.1 Các loại mô hình học sâu| - 18

` bbb beeen, 192.3 Kiến trúc tổng thé IDS khi dùng thuật toán hoc máy 302.4 Kiên trúc mô hình DNN đề xuất - 36

Trang 9

3.8 Classification Report(PCA+DNN)| 46

3.9 Classification Repor(SVD+DNNI| 47

3.10 Classification Report(CA+DNN)| 47

iv

Trang 10

Tóm tắt

Với sự phát triển không ngừng của các ứng dụng Internet vạn vật (IoT), các cuộc tan

công an ninh mạng độc hai và tinh vi ngày càng phức tạp đã va đang đặt ra những

yêu cầu bảo mật mới Một trong những giải pháp bảo vệ đầu tiên để đảm bảo an ninhlà sử dụng hệ thống phát hiện xâm nhập (IDS) để phát hiện các cuộc tắn công mạng.Tuy nhiên, việc triển khai hệ thống IDS trên các thiết bị IoT gặp nhiều trở ngại xuấtphát từ hạn chế về tài nguyên của các thiết bị IoT Do đó, các hệ thống IDS dựa trênhọc máy đã ra đời để giải quyết những thách thức đó Trong luận văn này dé xuất một

IDS triển khai Phân tích phân biệt tuyến tính (LDA) và Mạng nơ-ron sâu (DNN) nhẹ

phù hợp để triển khai ở các thiết bị IoT trong khi vẫn đảm bảo độ chính xác phát hiệntấn công cao Kết quả đánh giá trên tập dữ liệu IơT-23 với nhiều trường hợp khácnhau cho thay mô hình IDS đề xuất vượt trội hơn so với các mô hình hoc máy khácvà có thể đạt được độ chính xác cao với 99%, độ phức tạp tính toán thấp, rất phù hợp

với môi trường IơÏ.

Từ khóa: Internet Van Vật, Hệ thông phát hiện bắt thường, Phân biệt thành phantuyến tính, Mang no ron sâu, dit liệu loT-23

Trang 11

With the continuous development of Internet of Things (IoT) applications,

increas-ingly complex and sophisticated cyber-attacks have posed new security challenges.

One of the primary protective solutions to ensure security is the use of intrusion

detection systems (IDS) to detect network attacks However, deploying IDS on IoI

devices faces numerous obstacles due to the resource limitations of IoT devices Therefore, machine-learning-based IDS have emerged to address these challenges In this thesis, a lightweight IDS implementing linear discriminant analysis (LDA) and deep neural networks (DNN) is proposed for deployment on IoI devices while

still ensuring high attack detection accuracy Evaluation results on the IoI-23 dataset

with various scenarios show that the proposed IDS model outperforms other machine learning models and can achieve high accuracy of up to 99% with low computational complexity, making it highly suitable for the IoT environment.

Keywords: Internet of Things, Intrusion detection systems, Linear Discriminant

Analysis, Deep Neural Networks, IoT-23 dataset.

Trang 12

Lý do chọn đề tài

Sự phát triển nhanh chóng của các thiết bị Internet of Things (IoT) đã dẫn đến sựgia tăng đáng kể về quy mô va độ phức tạp của mạng IơT Các mang này bao gồm

nhiều loại thiết bị được kết nối với nhau, chẳng hạn như cảm biến, bộ truyền động

và hệ thống nhúng, thu thập và trao đổi dữ liệu để cho phép tự động hóa và ra quyết

định thông minh Tuy nhiên, việc áp dụng rộng rãi IoT cũng đặt ra những thách thức

bảo mật mới, vì các mạng này rất dễ bị tấn công và xâm nhập Hệ thống phát hiệnxâm nhập (IDS) đóng một vai trò quan trọng trong việc bảo vệ môi trường IoT bằng

cách giám sát lưu lượng mạng, xác định các hoạt động đáng ngờ và cảnh báo cho

quản trị viên hệ thống về các vi phạm bảo mật tiềm ẩn Các phương pháp IDS truyền

thống, chẳng hạn như các phương pháp dựa trên quy tắc hoặc dựa trên chữ ký, thường

không đủ hiệu quả trong việc phát hiện và giảm thiểu các mối đe dọa động và đang

phát triển trong mạng IoT Các đặc điểm độc đáo của IoT, bao gồm các hạn chế vềtài nguyên, giao thức truyền thông đa dạng và quy mô tuyệt đối của thiết bị, đòi hỏi

các phương pháp tiếp cận sáng tạo và thích ứng để phát hiện xâm nhập Các kỹ thuật

học sâu, cụ thể là mạng nơ-ron sâu, đã cho thấy tiềm năng đáng kể trong việc cảithiện độ chính xác và hiệu quả của IDS Các mô hình học sâu có thể học các mẫu vàmối quan hệ phức tạp từ các bộ dif liệu quy mô lớn, cho phép chúng phát hiện cả các

mẫu tan công đã biết và chưa biết với độ chính xác cao hơn Bằng cách tận dụng sức

mạnh của học sâu, IDS có thể nâng cao khả năng phát hiện các hành vi xâm nhập

phức tạp và chưa từng thấy trước đây trong mạng IơT Động lực dang sau nghiên cứu

này là nhằm giải quyết nhu cầu phát hiện xâm nhập chính xác và mạnh mẽ trong môi

Trang 13

Danh sách bang 3

trường IơT bằng cách sử dụng các kỹ thuật học sâu Bang cách phát triển các mô

hình IDS tiên tiến sử dụng mạng lưới nơ-ron sâu, chúng tôi mong muốn nâng cao

vị thé bảo mật của mạng IoT, phát hiện các mối đe dọa mới nổi và kích hoạt các cơchế phòng thủ chủ động chống lại các cuộc tấn công Cải thiện độ chính xác của IDSbằng cách sử dụng học sâu cho IoT có một số lợi ích chính Thứ nhất, nó có thể nâng

cao tính bảo mật tổng thể và độ tin cậy của việc triển khai IoT, đảm bảo quyền riêng

tư, tính toàn ven và tính khả dụng của dữ liệu IoT nhạy cảm Thứ hai, phát hiện xâm

nhập chính xác có thể cho phép các hành động giảm thiểu và phản ứng nhanh chóng,

giảm thiểu tác động của các cuộc tấn công và ngăn chặn truy cập trái phép vào cáchệ thống IơT Thứ ba, kết quả của nghiên cứu này có thể cung cấp những hiểu biết và

hướng dẫn có giá trị cho các nhà thực hành, nhà hoạch định chính sách và nhà nghiên

cứu trong ngành trong việc thiết kế và triển khai các cơ chế phát hiện xâm nhập hiệu

quả cho môi trường IoT.

Vân đề bài toán

Tinh bao mật của các mạng Internet van vật (IoT) đóng một vai trò cực kỳ quan trong

do bản chất nhạy cảm của dữ liệu được trao đổi và những rủi ro nghiêm trọng từ việctruy cập trái phép hoặc các hoạt động xâm hại Trong bối cảnh này, Hệ thống Phát

hiện Xâm nhập (IDS) nổi lên như một thành phần bảo vệ không thể thiếu, giúp phát

hiện và giảm thiểu các vi phạm bảo mật trong môi trường IơT Tuy nhiên, các phươngpháp IDS truyền thống gặp phải nhiều thách thức lớn trong việc chính xác phát hiệnvà phân loại các hành vi xâm nhập trên các mạng IơT đa dạng và không đồng nhất

Nghiên cứu này tập trung vào việc nâng cao độ chính xác của IDS trong môi trường

IơT bằng cách áp dụng các kỹ thuật học sâu, với mục tiêu giải quyết các van đề chính

sau:

* Phát hiện không hiệu quả các mối đe doa mới va dang phát triển

* Giới han trong khả năng thích ứng với các đặc trưng phức tap của mạng IoT.

* Các hạn chế về năng lực xử lý dữ liệu phức tap trong IoT

Trang 14

Mục tiêu cụ thể

Nghiên cứu tìm hiểu về tập dữ liệu IoT-23 được kết hợp từ 23 bộ dữ liệu đơn trongcác kịch bản khác nhau bao quát cho nhiều kịch bản thiết bị tích hợp cho hệ thốngIoT Dựa trên các mô hình học máy truyền thống và học sâu, chúng tôi xem xét vàđánh giá để tìm hiểu sâu hơn về việc ứng dụng bộ dữ liệu này vào việc phát hiện bấtthường trong môi trường IơT Mục tiêu cu thể của chúng tôi gồm có:

- Chúng tôi nghiên cứu bộ dữ liệu IơT-23 để tìm ra các đặc trưng cụ thể để áp dụng

cho IơT dựa trên các giao thức, các kết nối của các loại thiết bi đang được tích hợp từđó xem xét các đặc trưng cần thiết

- Đề xuất và xây dựng mô hình mạng no-ron sâu cùng với kỹ thuật giảm chiều,nghiên cứu tập trung vào việc đánh giá về các yếu tổ như độ chính xác, thời gian tính

toán.

Bo cục

Các chương tiếp theo sẽ đi sâu vào tổng quan lý thuyết, mô hình hệ thống, phương

pháp, kết quả thử nghiệm và đánh giá, nhằm mục đích chung là chứng minh hiệu quả

của học sâu trong việc nâng cao độ chính xác của Hệ thống phát hiện xâm nhập bat

thường.

Trang 15

Danh sách bảng 5

Danh mục công trình công bố

1 Nguyen, MH., Nguyen, VN., Nguyen, NH., Lam, SC., Hoang, TM (2023).

An IDS-Based DNN Utilized Linear Discriminant Analysis Method to Detect

IoI Attacks in Edge Computing In: Dao, NN., Thinh, T.N., and Nguyen,

N.T (eds), Intelligence of Things: Technologies and Applications ICIT 2023 Lecture Notes on Data Engineering and Communications Technologies, vol 188 Springer, Cham https: //doi.org/10.1007/978-3-031-46749-3_

2 D-T Luong, M-H Nguyen, H-D Nguyen, T-T Tran Thi, N-H Nguyen and

T-M Hoang, "A Study on the Efficiency of ML-Based IDS with Dimensional

Reduction Methods for Industry IoT," 2023 RIVF International Conference on

Computing and Communication Technologies (RIVF), Hanoi, Vietnam, 2023, pp 481-486.doi:10.1109/RIVF60135 2023 10471826.

Trang 16

8Ì Kể từ đó, các tổ chức khác cũng đã đề xuất định nghĩa cho thuật ngữ này Ví

dụ, Tổ chức Viễn thông Quốc tế (ITU) đã sử dụng thuật ngữ IoT trong báo cáo năm2005, và sau đó vào năm 2012, IoT được định nghĩa nó là cơ sở hạ tang toàn cầu cho

xã hội thông tin, cung cấp các dich vụ tiên tiến bằng cách kết nối các vật thé và ảo

dựa trên công nghệ thông tin và truyền thông có thể tương tác với các hệ thống hiệncó và đang phát triển hoặc một mạng có sẵn ở mọi nơi, mọi lúc, bởi mọi thứ và batkỳ ai Tương tự, IEEE đã định nghĩa IoT là một mạng gồm các cảm biến được kết nối

với Internet [8Ì ETSI, được EU chính thức công nhận là Tổ chức Tiêu chuẩn Châu

Âu, sử dụng thuật ngữ máy-với-máy (M2M) thay vì IoT và mô tả đó là giao tiếp giữa

hai hoặc nhiều thực thể không nhất thiết cần bat ky sự can thiệp nào của con người

Các dịch vụ M2M nhằm mục đích tự động hóa quá trình ra quyết định và giao tiếp.

NIST cũng sử dụng Hệ thống vật lý mang để mô tả IoT và định nghĩa nó là một cách

mới để kết nỗi các đối tượng được sử dung hàng ngày nhằm nâng cao hiệu quả, tính

bền vững và cải thiện chất lượng cuộc sống

Trang 17

1.1 Hệ thống IoT 7

Kiến trúc IoT

Mang IơT đòi hỏi một thiết kế linh hoạt và phân tang để kết nối các thiết bị khác

nhau, nhưng không có một mô hình tham chiếu chung nào cho kiến trúc IơT Kiến

trúc IoT ba tang được chấp nhận rộng rãi và sử dụng trong các tài liệu Theo đó, kiếntrúc IoT được xác định theo 3 tang gồm: ứâng cảm nhận - Perception, tang mạng -Networking va tang ứng dụng - Applications Ñó cung cấp một khung sườn rõ ràng

và ngắn gon để thiết kế các hệ thống IoT, dễ hiểu hơn so với kiến trúc năm tang Tuy

nhiên, lựa chọn kiến trúc phụ thuộc vào trường hợp sử dụng cụ thể và yêu cầu của hệ

thống đang được thiết kế Hình[I.1|minh họa kiến trúc ba tầng của IoT, bao gồm tang

cảm nhận, tầng mạng và tầng ứng dụng

Applications

Networking

Hình 1.1 — Kiến trúc của hệ thống IoT

Tầng cảm nhận bao gồm cảm biến, thiết bị điều khiển và các thiết bị khác tương

tác với môi trường vật lý Tầng mạng chịu trách nhiệm kết nối các thiết bị trong tầng

cảm nhận với đám mây hoặc các hệ thống khác Tầng ứng dụng là nơi dữ liệu được

xử lý, phân tích và sử dụng để đưa ra quyết định

Perception Layer

Lớp cảm nhận trong kiến trúc IoT bao gồm các thành phần như cảm biến, bộ điềukhiển, bộ kích hoạt và máy móc Lớp này xử lý việc thu thập thông tin, xử lý thôngtin, lưu trữ thông tin và nhận dạng đối tượng Việc đặt tên và địa chỉ các đối tượng

Trang 18

1.1 Hệ thống IoT 8

IơT cũng được thực hiện bởi lớp nay Các thiết bi trong IoT được theo dõi bằng các

số định danh Độc Nhất Toàn Cầu (UUID) Các kỹ thuật địa chỉ tương tự, như IPv6và IPv4, được sử dụng để đánh địa chỉ các đối tượng trong mạng IoT

Network Layer

Để truyền dữ liệu đến các hệ thống xử ly, như máy chủ, lớp mang của một mô hìnhIoT sử dụng nhiều phương pháp giao tiếp khác nhau giữa các thiết bị vật lý Giaotiếp này chỉ có thể được thực hiện qua các kết nối an toàn thông qua dây hoặc khôngdây Lớp này có thể được mở rộng cho việc truyền dữ liệu cảm biến Một số phươngpháp giao tiếp cho các thiết bị IoT được dé cập trong các tài liệu hiện có như Wi-Fi,

Bluetooth, ZigBee cho các khu vực nhỏ, và 4G và 5G cho môi trường IoT rộng lớn.

Tầng ứng dụng

Tầng ứng dung trong mô hình IoT hoạt động như một giám sát viên cho các dịch vụ

chuyên biệt của ứng dụng IoT Tự động hóa trong gia đình, nông nghiệp thông minh,

thành phố thông minh, chăm sóc sức khỏe thông minh, và công nghiệp thông minh là

những vi dụ về các ứng dụng IoT mà tang ứng dụng quản lý

1.1.1 Hạ tang IoT

Cơ sở ha tang IoT phức tạp, da tang va được thiết kế đặc biệt để tạo điều kiện cho

việc trao đổi, xử lý và phân tích dữ liệu trên một mạng lưới lớn các thiết bị liên kết và

phụ thuộc vào ba yếu tổ quan trọng: các lớp đám mây (cloud), lớp sương mù (fog) và

lớp biên (edge), mỗi lớp phục vụ một mục đích riêng như được mô tả trong Hình[I.2].

Lớp đám mây là kho lưu trữ trung tâm nơi lượng lớn dữ liệu được lưu trữ, xử lý và

phân tích trên quy mô lớn Đám mây cung cấp khả năng lưu trữ và tính toán không

giới hạn, tạo điều kiện cho việc phân tích phức tạp và sâu Cơ sở hạ tầng IơT được

thiết kế để có thể mở rộng, điều chỉnh công suất dựa trên lượng dữ liệu nhập vào từ

hệ sinh thái.

Lớp sương mù, được biết đến rộng rãi như là tính toán sương mù, hoạt động nhưmột trung gian xử lý trung tâm giữa các thiết bị biên và đám mây trung tâm Được

Trang 19

1.1 Hệ thống IoT 9

đặt gần nguồn dữ liệu hơn so với các trung tâm dữ liệu tập trung nhưng phân tán rộng

rãi hơn so với biên, các nút sương mù có thể xử lý dữ liệu một cách địa phương, do

đó đưa ra quyết định theo thời gian thực và giảm bét nhu cau cho tat cả dữ liệu phảidi chuyển đến đám mây Điều này dẫn đến việc giảm độ trễ và nâng cao hiệu suất sử

dụng băng thông.

Lớp cạnh nằm liền kề với lớp sương mù và hoạt động càng gần với các thiết bị IơT

hơn Tính toán cạnh cho phép các thiết bị xử lý dữ liệu ngay tại chỗ, ngay cả trước

khi nó đạt đến lớp sương mù Bang cách xử lý ngay lập tức nhu cầu xử lý dit liệu, nó

tiếp tục tối ưu hóa dữ liệu cần được gửi đến hệ thống trung tâm, bảo toàn băng thông

và đảm bảo các hành động kịp thời.

Một thành phần thiết yếu khác của cơ sở hạ tầng IoT là các Cổng kết nối Chúngđóng vai trò như những bộ kết nối giữa các thiết bị IoT và mạng truyền thông, chophép truyền dữ liệu giữa những thiết bị này và các nền tảng quản lý hoặc lưu trữ dựatrên đám mây Ngoài chức năng chuyển tiếp dữ liệu, các cổng còn có khả năng thựchiện xử lý và phân tích dữ liệu tại chỗ, do đó cho phép ra quyết định theo thời gianthực mà không cần đến nguồn lực dựa trên đám mây Điều này đặc biệt có lợi trong

các ứng dụng mà độ trễ là quan trọng hoặc khi lượng dữ liệu sinh ra bởi các thiết bị

quá lớn để liên tục gửi đến một máy chủ tập trung Ngoài khả năng truyền dẫn và xử

lý, các cổng còn cung cấp một lớp bảo mật thêm cho các hệ thống IoT Bang cách

đóng vai trò là một trung gian, chúng có thể triển khai IDS, xác thực các thiết bị vàlọc bỏ lưu lượng không mong muốn, bảo vệ các thiết bị dễ bị tổn thương và đảm bảochỉ có dữ liệu hợp lệ và an toàn mới được truyền đến đám mây hoặc các thiết bị khác

Hinh{1.2|cho thấy một vi du về các cổng IoT được kết nối với mang IoT.

1.1.2 Những thách thức trong bao mật hệ thong IoT

Nhiều thách thức về bảo mật trong các thiết bi IoT là do thị trường tăng trưởng nhanh

và sự phát triển nhanh chóng thường dẫn đến việc không chú trọng đến bảo mật khi

phát triển chúng 2Ì Các phần khác của thách thức được sinh ra do tính dé cấu hình

mà hầu hết các thiết bị đều có thể được thực hiện bởi những người không có kỹ thuậtvà kết quả là chúng tôi thấy nhiều thiết bị để lại thông tin xác thực mặc định và phần

mềm chưa được vá lỗi và lỗi thời [32] Có nghiên cứu [10] đã phân loại các thách

Trang 20

1.1 Hệ thống IoT 10

Hình 1.2 — Cloud, Fog và Edge Computing trên IoT

thức bảo mật của IoT thành bốn nhóm Nhóm thách thức dau tiên liên quan đến cácvan dé liên quan đến xác thực có thể được liên kết trực tiếp với lớp nhận thức vớicác mối đe doa vật lý do khả năng truy cập của các thiết bị IơT Các vấn dé về tínhbảo mật như tên của nó, liên quan đến tính bảo mật của các giao thức truyền thôngvà phương tiện truyền dif liệu trong mạng Tính toàn vẹn như một nguyên tắc bảomật chính khác là van dé đáng quan tâm khi dữ liệu có thể bị sửa đổi trong quá trìnhtruyền hoặc thậm chí bị gián đoạn do các cuộc tấn công từ chối dịch vụ Do đó, tính

toàn vẹn và tính sẵn sàng đã được xem xét trong cùng một nhóm các thách thức bảo

mật trong nghiên cứu này Những thách thức về quyền riêng tư là nhóm cuối cùngđược tập trung đáng kể trong thời gian gần đây Vì các thiết bị IoT sẽ xử lý dữ liệu

quan trọng và bí mật nên chính sách xử lý những dữ liệu này và giữ chúng an toàn

mà không cần biết nhiều về chúng là một thách thức khác Các giải pháp bảo mật có

thể không thực hiện được việc kiểm tra sâu gói tin để phát hiện các điểm bat thườngdo chính sách quyền riêng tư và nguồn lực hạn chế

Một lượng tài nguyên hạn chế để xử lý là một trong những thách thức chính này,đặc biệt là trong lĩnh vực mã hóa và phát hiện xâm nhập Bắt chấp tất cả những điều

này, nhiều nhà nghiên cứu tin rằng việc thiếu một nên tảng chung và các tiêu chuẩn

kiến trúc bảo mật cho IơT là một van dé lớn cần được giải quyết ngay lập tức.Nhận

Trang 21

1.1 Hệ thống IoT 11

thức được các thách thức, van dé và sự cố bảo mật IoT là điểm mau chốt đối với cácnhà sản xuất và nhà phát triển trong lĩnh vực này May mắn thay, OWASP đã bắt đầumột dự án IoT để nâng cao nhận thức về những thách thức bảo mật đã đề cập Dự ánnày giúp các nhà sản xuất, nhà phát triển và người tiêu dùng hiểu các vấn đề bảo mậtvà cho phép họ đưa ra quyết định tốt hơn trong quá trình xây dựng, triển khai và đánh

giá các công nghệ IoI.

1.2 Tong quan về Intrusion Detection Systems (IDS)

Khi Internet và các mạng nội bộ càng ngày càng phổ biến, thách thức của các van déxâm nhập mạng trái phép đã buộc các tổ chức phải bổ sung thêm hệ thống để kiểmtra các lỗ hổng về bảo mật CNTT Một trong những hệ thống được những người quan

tâm đến bảo mật nhắc đến nhiều nhất là hệ thống phát hiện xâm nhập (IDS) Phần

này sẽ giới thiệu về IDS, cụ thể là van đề tổng quan về một số loại tan công có thể

phát hiện, triệu chứng khi bị tấn công và nhiệm vụ của IDS, các kiến trúc khác nhau

và những khái niệm trong lĩnh vực này.

IDS Sensor

Machine Learning/Deep Anomaly Detection

Learning

Hình 1.3 — Sơ đồ hệ thống phát hiện xâm nhập

Intrusion Detection System Log Analysis

IDS là các hệ thống được xây dựng để giám sát và phân tích lưu lượng mạngvà/hoặc các hệ thống khác Mục tiêu của IDS là phát hiện sự bất thường, xâm nhậphoặc vi phạm quyên riêng tư Ferrag và cộng sự đưa ra biểu đạt chúng như dòngphòng vệ thứ hai sau các cơ chế kiểm soát truy cập, xác thực và mã hóa Sơ đồ trênmiêu tả Hệ thống Phát hiện Xâm nhập (IDS), một hệ thống an ninh mạng thiết kế

Trang 22

1.2 Tổng quan về Intrusion Detection Systems (IDS) 12

để phát hiện các hành vi đáng ngờ và ngăn chặn các mối de dọa Trung tâm của hệ

thống là IDS, nơi nhận dữ liệu từ các Cảm biến Mang (Network Sensors) và Phân

tích nhật ký (Log Analysis) Cảm biến Mạng theo dõi lưu lượng mạng và gửi thôngtin về các hoạt động bất thường về IDS, trong khi Phân tích Nhật ký xem xét các nhậtký sinh hoạt của mạng để tìm kiếm các dấu hiệu bất thường Học máy được áp dụng

để cải thiện khả năng nhận biết và dự đoán bất thường bằng cách học từ dữ liệu lịch

sử và các mẫu đã biết Quá trình Phát hiện Bất thường liên tục giám sát mạng để xácđịnh những biến động không mong muốn Cảm biến IDS (IDS Sensor) và Tường lửa(Firewall) được sử dung để củng cố an ninh, với Tường lửa hạn chế truy cập khôngđược phép và Cảm biến IDS giám sát các điểm nhạy cảm trong mạng Cuối cùng, các

Sự kiện An ninh được thu thập và phân tích để đánh giá và xử lý các mối đe dọa, đảm

bảo mạng luôn được bảo vệ tối đa IDS có thể là Hệ thống phát hiện xâm nhập máy

chủ (HIDS)(Hình[I.5) hoặc Hệ thống phát hiện xâm nhập mạng (NIDS) (Hình[I.4).

Hệ thống phát hiện xâm nhập dựa trên mạng (NIDS):

° NIDS giám sát lưu lượng mạng va phân tích nó để tìm các mẫu không bình

thường, chữ ký của các cuộc tấn công đã biết hoặc sự khác biệt so với các cơ

sở dữ liệu đã thiết lập trước đó

* Nó hoạt động ở mức mạng và thường được triển khai tại các điểm chiến lượctrong mạng để ghi và kiểm tra lưu lượng.

* NIDS có thể phát hiện nhiều loại tan công, chẳng hạn như quét cổng, hoạt

động của phần mềm độc hại, tan công từ chối dich vụ (DoS) và các cỗ gắng

khai thác lỗ hổng trong các dịch vụ mạng.

Hệ thống phát hiện xâm nhập dựa trên máy chủ (HIDS):

* HIDS hoạt động trên từng hệ thống máy chủ riêng lẻ và giám sát các hoạt động

bên trong hệ thống đó Nó kiểm tra các tệp nhật ký hệ thống, tích hợp tệp, các

thay đổi trong registry và các sự kiện cụ thể của máy chủ khác để phát hiện

truy cập trái phép, phần mềm độc hại hoặc hành vi không bình thường

Trang 23

1.2 Tổng quan về Intrusion Detection Systems (IDS) 13

Internet

Hình 1.4 — So đồ kịch ban của Network based Intrusion Detection System

» HIDS hiệu qua trong việc phát hiện các cuộc tấn công có thé không được nhận

thấy bởi các giải pháp dựa trên mạng, chẳng hạn như các cuộc tấn công từ

nguồn nội bộ hoặc các môi đe dọa không bao giờ đi qua mạng.

Internet

HIDS

HIDS HIDS

Hình 1.5 — Sơ đồ kịch bản của Hosted based Intrusion Detection System

IDS được phân loại thành dựa trên chữ ký và dựa trên sự bat thường

Phát hiện dựa trên Chữ ký (Signature-Based Detection)

Một trong những phương pháp chính được sử dụng bởi IDS là phát hiện dựa trên chữ

ký Phương pháp này liên quan đến việc so sánh lưu lượng mạng hoặc sự kiện hệthống với một cơ sở dữ liệu các chữ ký tấn công đã biết Các chữ ký này biểu thị cácmẫu hoặc đặc điểm cu thể của các mối de dọa đã biết Nếu có sự khớp, IDS tạo ra

Trang 24

1.2 Tổng quan về Intrusion Detection Systems (IDS) 14

cảnh báo Phát hiện dựa trên chữ ky hiệu quả đối với các mối de dọa đã biết va được

xác định rõ ràng, nhưng có thể gặp khó khăn trong việc xử lý các cuộc tan công mới

hoặc trước đây chưa từng thấy Phát hiện dựa trên Chữ ký bao gồm bốn thành phần

như được mô tả trong Hình|I.6|[30]

Hình 1.6 — Phương pháp luận được sử dung trong IDS dựa trên chữ ky

Phát hiện dựa trên Bất thường (Anomaly-Based Detection)

Luận văn sẽ tập trung nghiên cứu về nâng cao độ chính xác và xử lý hiệu năng cho

Phát hiện dựa trên bất thường trong IơT Đây là một nhiệm vụ chính của học máy và

khai thác dữ liệu Theo Chandola et al (71 “phát hiện bat thường là van dé tìm kiếm

các quan sát hoặc mẫu trong dữ liệu không phù hợp với hành vi dự kiến” Mặt khác,

IDS dựa trên sự bắt thường, phụ thuộc việc nhận dạng các mẫu 5ó] Phương pháp

này yêu cầu huấn luyện hệ thống trước khi triển khai Các kỹ thuật Trí tuệ nhân tạo

(AI), cụ thể là ML và DL, rat phù hợp với IDS dựa trên sự bat thường do khả năng

huấn luyện quan trọng của chúng Ưu điểm của IDS dựa trên sự bất thường là khả

năng phân loại cả lưu lượng bình thường và bất thường, do đó phát hiện các cuộc tấn

công đã biết và chưa biết Độ chính xác của IDS dựa trên sự bất thường trước cáccuộc tan công không xác định tốt hơn khi so với IDS dựa trên chữ ky IDS dựa trênđặc điểm kỹ thuật kết hợp sức mạnh của cả chữ ký và dựa trên điểm bất thường đểtạo thành một mô hình kết hợp, có thể phát hiện cả các cuộc tấn công đã biết và chưa

biết bằng các kỹ thuật AI khác nhau Cả IDS dựa trên chữ ký và IDS dựa trên sự bất

thường đều có thể chạy trên cơ sở không trạng thái hoặc có trạng thái IDS khôngtrạng thái dựa vào các gói trong khi các IDS có trang thái dựa vào các luồng mang.Các IDS gần đây có trạng thái vì chúng được hưởng lợi từ các luồng “bối cảnh” cungcấp

Trang 25

1.2 Tổng quan về Intrusion Detection Systems (IDS) 15

Dữ liệu trong bài toán phát hiện điểm bat thường thường có dang bảng, hình ảnh, văn

bản hoặc trình tự, giống như trong một tác vụ học máy truyền thống Loại dữ liệu có

thể hạn chế lựa chọn phương pháp; chẳng hạn, các kỹ thuật khai thác văn bản dường

như không liên quan ngay đến dữ liệu hình ảnh Chúng tôi đang xử lý dữ liệu dạngbảng trong luận văn này có cả thuộc tính phân loại và số hỗn hợp Ba loại thườngđược sử dụng để phân loại bất thường:

* Điểm bat thường: Một điểm bắt thường là một điểm dữ liệu duy nhất được

tìm thấy là bất thường đối với phần còn lại của dữ liệu Ví dụ: một tên trộm

thực hiện giao dịch mua đắt tiền bằng thẻ bị đánh cắp từ tài khoản ngân hàng

có chỉ tiêu thấp

* Bối cảnh bất thường: Điểm bắt thường theo ngữ cảnh là một điểm dữ liệu

duy nhất được tìm thấy là bất thường trong một ngữ cảnh nhất định Chẳng

hạn, kẻ trộm sử dụng thẻ bị đánh cắp để thực hiện giao dịch thông thường vào

thời gian hoặc vi trí địa lý thông thường.

+ Tập thể bất thường: Điểm bắt thường tập thể là một tập hợp các điểm dữ liệu

được tìm thấy là bất thường với phần còn lại của dữ liệu Ví dụ, một tên trộmthực hiện một loạt các giao dịch thông thường trên cơ sở bất thường, tạo thành

một mô hình đáng ngờ.

1.3 Hiện trang và cơ sở nghiên cứu

Phát hiện bất thường là nhiệm vụ phát hiện các hành vi bất thường thông qua các gói

tin bất thường, chẳng hạn như phát hiện tấn công mạng hoặc hoạt động gian lận Quá

trình phát hiện bất thường bao gồm xử lý dữ liệu đầu vào và áp dụng trí tuệ nhân

tạo, cụ thể là các kỹ thuật học máy và học sâu để phân tích và nhận diện các mẫubất thường Nhiều nghiên cứu đã khảo sát việc phát hiện xâm nhập mạng, dựa trên

các bộ dataset phổ biến như CICIoT 2023, Bot-IơT và IoT-23 Các bước nghiên cứuthường bao gồm chọn tập dữ liệu, phân tích, tiền xử lý, trích chọn đặc trưng, và áp

dụng các mô hình học máy hoặc học sâu.

Trang 26

1.3 Hiện trạng và cơ sở nghiên cứu 16

Đầu tiên, các bộ dữ liệu sé được xem xét, phân tích và đánh giá để xác định mứcđộ phù hợp cho các ứng dụng thiết bị IoT cụ thể Giai đoạn tiền xử lý dữ liệu có thểbao gồm chuyển đổi các giá trị không phải số (categorical), loại bỏ các giá trị vô

nghĩa (NaN), và chuyển đổi định dang dif liệu từ log sang csv nếu cần thiết Cácđặc trưng sẽ được trích chọn và giảm kích thước bằng các phương pháp như phân tíchbiệt thực tuyến tính (LDA), phân tích thành phần chính (PCA), Phân rã giá trị đơn lẻ

(SVD), ICA, Việc xử lý giá trị bị thiếu và mã hóa các nhãn phân loại cũng sé được

thực hiện trong bước này Việc tiền xử lý này sẽ nói rõ hơn trong phần 2.4

Kế tiếp, dữ liệu sẽ được chia tỷ lệ, thông thường là 80% cho huấn luyện và 20% chokiểm thử Các mô hình học máy và học sâu như Decision Tree, Logistic Regression,

Naive Bayes, Random Forest, Mạng nơ-ron sẽ được áp dung và tinh chỉnh để cảithiện hiệu năng và độ chính xác trong việc phát hiện bất thường Các nghiên cứu đã

thực hiện trên các bộ dataset lớn cho thấy sự hiệu quả của các mô hình này trong việc

phát hiện các mẫu bắt thường

Tuy nhiên, các nghiên cứu trước đây đã đề xuất các kỹ thuật huấn luyện mô hình

và xử lý dữ liệu khác nhau và đã chứng minh việc triển khai mạng lưới nơ-ron có thểđạt được độ chính xác cao Tuy nhiên, họ không xem xét việc phân loại nhiều lớp để

phân tích nhiều cuộc tắn công cùng một lúc Trong luận văn này, chúng tôi đề xuất

một mô hình IDS mới để phát hiện nhiều cuộc tấn công trong mạng IoT Mô hình

IDS được đề xuất dựa trên phương pháp Phân tích phân biệt tuyến tính (LDA) và mô

hình DNN và được xác thực trên bộ dữ liệu IoT-23.

1.4 Kết luận chương

Chương 1 đã cung cấp một cái nhìn tổng quan về vai trò quan trọng của IDS và sự

ứng dụng của học máy trong việc phát hiện và ngăn chặn các hành vi xâm nhập trong

mạng IoT Những kiến thức nén tang này sẽ là cơ sở cho các chương tiếp theo, nơichúng ta sẽ đi sâu vào các phương pháp cụ thể và kết quả thực nghiệm trong việc

triển khai IDS sử dụng hoc máy và học sâu trong môi trường IoT

Trang 27

Học sâu đã trở thành một lĩnh vực ngày càng có nhu cầu đối với nhiều nhà nghiên

cứu trong các lĩnh vực khác nhau, đặc biệt là khoa học và công nghệ Học sâu là một

phần của họ rộng hơn các phương pháp học máy dựa trên mạng nơ-ron nhân tạo vớihọc đại diện Các phương pháp hoc sâu hầu như sử dụng kiến trúc Mạng nơ-ron nhân

tạo, đó là lý do tại sao chúng được gọi là Mạng nơ-ron sâu hoặc Mô hình học sâu.

Mạng lưới nơ-ron sâu triển khai nhiều lớp ẩn để dần dần trích xuất các đặc trưng cấpcao hơn từ đầu vào thô Mặc dù các mạng lưới nơ-ron sâu đã được phát triển vàonhững năm 1980, nhưng nó chỉ mới trở nên hữu ích gần đây do sức mạnh tính toán vàlượng lớn dữ liệu được dán nhãn Hơn nữa, việc cải tiến kiến trúc, các kỹ thuật chính

quy hóa mới, thư viện và khung mới cũng được giới thiệu Các mô hình được tạo ra

từ học sâu có thể được áp dụng cho nhiều nhiệm vụ khác nhau trong an ninh mạng,tài chính và thị trường chứng khoán, y học, xử lý hình ảnh, tìm kiếm nhận dạng động

cơ và mẫu (3) Chương trình học sâu có thể được triển khai nhanh hơn nhiều với sự

ra đời của các lớp điện toán như Bộ xử lý đồ hoa (GPU) và Bộ xử ly Tensor (TPU)

17

Trang 28

2.1 Phương pháp học sâu cho Hệ thống phát hiện xâm nhập 18

với chi phí cao Sự gia tăng đột ngột về tốc độ tăng trưởng của DL cũng được bắt đầu

bởi sự sẵn có của các mã nguồn mở khác nhau (TensorFlow, Keras, PyTorch, MXNet

và Caffe) có thể được sử dụng để xây dựng và triển khai các mô hình học sâu

Có nhiều phương pháp học sâu khác nhau dựa trên kiến trúc đa dạng khác nhau

và có thể được phân loại thành ba nhóm như hình dưới:

hệ nơ-ron và não bộ con người (14) Trong những năm qua, một số mô hình mang

nơ-ron nhân tao đã được phát triển dựa trên các cau trúc liên kết khác nhau, thuật

toán học tập và chức nang Yusuf Sani và cộng sự vào năm 2009 đã thảo luận

về việc sử dụng mạng nơ-ron trong hệ thống IDS Họ tin rằng IDS dựa trên mạng

nơ-ron có những ưu điểm tốt hơn như hiệu suất tốt hơn, chi phí phát triển thấp hơn,

có khả năng mở rộng cao.

Kiến trúc của ANN

Trong mạng nơ-ron, có nhiều nút được kết nối với nhau theo một kiến trúc mạng cụ

thể và mỗi nút nhận đầu vào với cường độ tín hiệu được gọi là trọng số Lớp đầu vào,

lớp ẩn và lớp đầu ra là ba lớp tạo nên mọi mạng nơ-ron nhân tạo Các thành phần của

mạng nơ-ron nhân tạo được thể hiện qua hinh{2.2|va sẽ được nói ki hơn ở chương sau.

Trang 29

2.1 Phương pháp học sâu cho Hệ thống phát hiện xâm nhập 19

Input layer

Hình 2.2 — Kiến trúc mang ANN

Mang no-ron sau Feedforward (FFDNN)

Mang nơ-ron feedforward là mạng nơ-ron nhiều lớp chỉ có một hướng, từ đầu vào

đến đầu ra và có thể được huấn luyện thông qua lan truyền ngược Kiến trúc FFDNN

có được bằng cách tăng số lớp ẩn trong kiến trúc, do đó biến nó thành một mạng lưới

nơ-ron sâu.

Mạng nơ-ron tích chập (CNN)

Dữ liệu đầu vào cho quy trình này được lưu trữ trong các mảng (29, có thể có các

chiều khác nhau như hình ảnh hai chiều (2D) màu sắc hoặc xám, các mảng ba chiều(3D) (ví dụ như video), và mảng một chiều (1D) (như tín hiệu) Nó đặc biệt phù hợp

để xử lý dữ liệu không gian thiếu mẫu cấu trúc CNN đã đạt được chiến thắng quan

trọng tại cuộc thi ImageNet vào năm 2012, vượt qua các phương pháp khác [19].

Các lĩnh vực khác như mô hình ngôn ngữ (nhận dạng giọng nói), thị giác máy tính,

phát hiện hình ảnh, nhận dạng khuôn mặt, y học và an ninh mạng đều hưởng lợi từviệc sử dụng nó CNN bao gồm ba lớp quan trọng: lớp tích chập, lớp gộp (pooling)và lớp phân loại Lớp tích chập là phần chính của CNN, nơi quá trình xử lý dữ liệu

bắt đầu Nó được sử dụng để trích xuất các đặc điểm quan trọng từ hình ảnh bằng

cách thực hiện hai bước riêng biệt: phát hiện đặc điểm (tạo ma trận hoặc mẫu trên dữ

liệu để biến nó thành bản đồ đặc trưng) và ánh xa đặc điểm (lay các hình ảnh nhỏ từviệc phát hiện đặc điểm), quá trình này được gọi là phép toán tích chập Công việccủa lớp gộp là làm giảm kích thước của bản đồ đặc trưng để chỉ giữ lại các đặc điểm

liên quan Điều này cũng giúp giảm thời gian tính toán của phép gộp Quá trình này

Trang 30

2.1 Phương pháp học sâu cho Hệ thống phát hiện xâm nhập 20

còn được gọi là thu nhỏ hoặc lấy mẫu, có ba loại khác nhau: max-pooling, average

pooling va sum pooling [27] Lớp kết nối day đủ (fully connected layer) là một mang

no-ron feedforward thực hiện phân loại trên các đặc điểm đã được trích xuất

Thuật ngư với mạng nơ-ron sâu

Ham mất mát (Loss function)

Huan luyện các mẫu va tính toán dau ra trên các đầu vào huấn luyện, sau đó so sánh

kết quả với nhãn thực sẽ xác định hàm lỗi hoặc hàm mat mát Do đó, cần phải định

nghĩa một hàm để đo lỗi khi huấn luyện một mô hình Việc định nghĩa hàm mất mát

cho một mạng nơ-ron sâu phụ thuộc vào van dé và mục tiêu cần đạt được vì các mạngkhác nhau sẽ có các dự đoán khác nhau dựa trên các đầu vào Để phân loại, hàm mắtmát được tính bằng cách tính xác suất lỗi mô hình, cũng là tỷ lệ đầu vào bị phân loạisai trong tập dữ liệu Hai hàm mat mát phổ biến được sử dụng để phân loại là:

1 Entropy chéo nhị phân (Binary Cross Entropy): Điều này được sử dụng khi xử

lý các van dé phân loại hai lớp/nhị phân Dau ra là một xác suất giữa 0 và 1

2 Entropy chéo phân loại: Điều này được định nghĩa cho bài toán phân loại nhiều

lớp (hơn hai lớp).

Hàm kích hoạt (Activation function)

Khi thiết kế mạng nơ-ron sâu, ngoài việc chọn kích thước của các lớp và số lượng

nơ-ron, hàm kích hoạt cũng là một tham số quan trọng cần được chọn cho các lớp ẩnvà lớp đầu ra Hàm kích hoạt được chọn tùy thuộc vào bản chất của vấn đề cần giảiquyết và hiệu năng của mô hình được đánh giá tốt như thế nào Dưới đây là một số

hàm kích hoạt hay dùng: - Sigmod

Hàm kích hoạt nay được sử dụng ở lớp dau ra để phân loại nhị phân Dau ra của nó làxác suất của một đầu vào nhất định thuộc về một lớp Giá trị out của hàm sigmoid

nằm trong khoảng từ 0 đến 1 [35] Về mặt toán hoc, nó có thể được biểu diễn dưới

dạng:

1

I+e*

Sigmoid = (2.1)

Trang 31

2.1 Phương pháp học sâu cho Hệ thống phát hiện xâm nhập 21

- Tanh

Đầu ra của hàm tanh nằm trong phạm vi -1 và 1 Nó chủ yêu được sử dụng trong các

lớp ẩn và trung bình của các đầu ra trong mỗi lớp gần bằng không Biểu thức toán

huấn luyện nhờ tốc độ của nó [35] Nó trả về 0 nếu nhận bắt kỳ đầu vào âm nào và

trả về cùng một giá trị néu nhận bat kỳ giá trị dương nào

ReLu = max(0,x) (2.3)

- GeLu

Gelu là một hàm kích hoạt phi tuyến tính đã trở nên phổ biến trong các mô hình

học sâu nhờ tính trơn tru và khả năng ước tính hàm phân phối tích lũy Gaussian

0.5x(1 + tanh[+/2/Z(x + 0.0044715x7)]) (2.4)

- Softmax

Ham Softmax còn được gọi là hàm mũ chuẩn hóa Nó chuẩn hóa đầu vào thành phan

phối xác suất có tổng bằng 1 Nó có thể được tính

Xj

Ham tôi ưu hóa (Optimization)

Huấn luyện mạng nơ-ron sâu yêu cầu thay đổi các tham số mô hình (trọng số, tốc độ

học) cho đến khi thu được tổn thất tối thiểu (chênh lệch giữa đầu ra dự đoán và đầu

ra thực) và đạt được kết quả chính xác nhất Quá trình điều chỉnh này được gọi là quátrình tối ưu hóa Các chức năng tối ưu hóa là các thuật toán hoặc phương pháp được

Trang 32

2.1 Phương pháp học sâu cho Hệ thống phát hiện xâm nhập 22

sử dụng trong quá trình tối ưu hóa Các trình tối ưu hóa sé được sử dụng là Adam

(Adaptive Moment Estimation) - Ham này tích lũy các gradient trước đó để giữ da

khi cập nhật các trọng số và cung cấp sự hội tụ nhanh hơn và ổn định hơn Trình tốiưu hóa này được sử dụng để giảm thiểu tổn thất trong phân loại nhị phân và đa phânloại Nó có sự hội tụ nhanh nhất khi so sánh với các chức năng tối ưu hóa khác

Regularization

Regularization là một phương pháp được sử dụng để điều chỉnh các thuật toán họcsâu Điều này bao gồm việc điều chỉnh các siêu tham số của mạng neural sâu, đượcsử dụng để kiểm soát quá trình học của mạng neural Các siêu tham số này được

thiết lập trước khi bắt đầu quá trình học, ví dụ như số lượng epochs, số lượng nhánh,

tỷ lệ dropout, v.v Trong học sâu, regularization thông thường là bao gồm một lớp

dropout vào các lớp của mạng với một tỷ lệ dropout nằm trong khoảng từ 0 đến 1.

Lớp dropout là một hình thức regularization giúp giảm thiểu overfitting để mô hình

có thể tổng quát hoá tốt trên dữ liệu không nhìn thấy trước Khi được áp dụng, điềunày có nghĩa là quá trình huấn luyện được thực hiện trên một mạng nhỏ hơn so với

mạng gốc, và vì mạng nhỏ hơn có thể ít linh hoạt hơn, khả năng xảy ra overfitting

giảm đi Ý tưởng là ngẫu nhiên loại bỏ một số neuron hoặc đặt các neuron về giá trị

không, từ đó giảm thiểu tính toán trong quá trình huấn luyện Ngoài ra, trong quátrình dropout, số lượng trọng số được cập nhật trong quá trình huấn luyện cũng giảm,cho phép các trọng số khác tham gia vào quá trình học Điều này giúp các giá trịtrọng số được phân bồ tốt hơn ở giai đoạn cuối, giảm thiểu hiện tượng overfitting

trong mạng.

Iteration

Đây là số lượng các batch cần thiết để hoàn thành một epoch Số lượng các iterationphụ thuộc vào kích thước của batch, với batch lớn thì số lượng iteration sẽ nhỏ vàkhông cần thay đổi nhiều trước khi mạng neural học tốt

Trang 33

2.1 Phương pháp học sâu cho Hệ thống phát hiện xâm nhập 23

Batch size

Đây là số lượng dữ liệu huấn luyện có trong một batch duy nhất Vì một epoch quálớn để đưa vào máy tính cùng một lúc và do giới hạn của hệ thống, dữ liệu huấn luyệncó thể được chia thành nhiều batch, quyết định số lượng iteration

Epoch

Một epoch được hoàn thành khi toàn bộ dữ liệu đã được đưa vào và ra khỏi mạng

neural cùng một lúc Liên tục cung cấp dữ liệu huấn luyện cho mạng neural có thểgiúp cải thiện trọng số Cập nhật các tham số được thực hiện sau mỗi iteration Việctăng số lượng epochs thông thường có thể làm tăng độ chính xác và giảm thiểu tổnthất (loss)

Learning Rate

Tham số này quan trọng trong cấu hình của mạng neural sâu, và có giá trị nhỏ trongkhoảng từ 0 đến 1 Nó điều khiển tốc độ mà mô hình thích nghi với van dé Mộtlearning rate nhỏ sẽ yêu cầu nhiều epochs huấn luyện liên quan đến những thay đổi

nhỏ về trọng số trong mỗi cập nhật, và ngược lại, learning rate lớn sẽ yêu cầu ít

epochs huấn luyện

2.2 Bộ dw liệu IoT-23

Hiện nay, một trong những thách thức không nhỏ trong việc nghiên cứu trong lĩnh

vực phát hiện xâm nhập IoT ứng dung học máy chính là không có bộ dữ liệu dựa

trên mạng toàn diện, một bộ dữ liệu có thể phản ánh các kịch bản lưu lượng tấn công

mạng hiện đại Trong nghiên cứu hệ thống phát hiện xâm nhập trước, bộ dữ liệu

chuẩn như UNSW-NB15, KDDCUP99 và NSLKDD đã được tao ra từ rất lâu Tuy

nhiên có rất nhiều nghiên cứu hiện tại đã cho thấy đối với môi trường tan công thựctế thì những bộ dữ liệu này không thể phản ánh đầy đủ lưu lượng truy cập mạng cũngnhư các cuộc tan công hiện đại Do đó, dé tài luận văn sử dụng bộ dữ liệu IoT-23

để đánh giá hiệu quả của mô hình IDS được dé xuất IoT-23 là bộ dữ liệu mới về lưulượng mang từ các thiết bị IơT Nó có 20 lần ghi phần mềm độc hai được thực thi

Ngày đăng: 27/09/2024, 01:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN