1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Xây dựng hệ thống phát hiện xâm nhập dựa trên máy học cho mạng khả lập trình trong ngữ cảnh dữ liệu lớn

84 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ thống phát hiện xâm nhập dựa trên máy học cho mạng khả lập trình trong ngữ cảnh dữ liệu lớn
Tác giả Huynh Hoang Hai, Nguyen Xuan Ha
Người hướng dẫn TS. Le Kim Hung
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành Phố Hồ Chí Minh
Chuyên ngành An toàn thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 84
Dung lượng 43,1 MB

Nội dung

Chúng tôi đã đánh giá mô hình trên ba bộ dữ liệu với kết quả đạt được rat đáng lưu ý: độ chính xác đạt từ 97% tới 99%, tỉ lệcảnh báo giả chỉ từ 0.37% tới 1.15% khi phân loại nhiều cuộc t

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG

HUYNH HOANG HAI

NGUYEN XUAN HA

KHOA LUAN TOT NGHIEP

XAY DUNG HE THONG PHAT HIEN XAM NHAP DUA

TREN MAY HOC CHO MANG KHA LAP TRINH

TRONG NGỮ CANH DU LIEU LON

BUILDING MACHINE LEARNING BASED INTRUSION

DETECTION SYSTEM FOR SOFTWARE DEFINED

NETWORK IN BIG DATA CONTEXT

KY SƯ NGANH AN TOAN THONG TIN

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA MANG MAY TINH VA TRUYEN THONG

HUYNH HOANG HAI - 18520697 NGUYEN XUAN HA - 18520042

KHOA LUAN TOT NGHIEP

XÂY DUNG HE THONG PHÁT HIỆN XÂM NHAP DỰA

TREN MAY HỌC CHO MẠNG KHẢ LAP TRÌNH

TRONG NGỮ CANH DỮ LIEU LỚN

BUILDING MACHINE LEARNING BASED INTRUSION

DETECTION SYSTEM FOR SOFTWARE DEFINED

NETWORK IN BIG DATA CONTEXT

KY SƯ NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

TS LE KIM HUNG

TP HO CHÍ MINH, 2021

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1.Chủ tịch.

2 Thư ký.

3.Ủy viên.

4.Ủy viên.

Trang 4

LỜI CẢM ƠN

Trong suốt quá trình học tập và nghiên cứu ở trường Đại Học Công Nghệ Thông Tin

- Đại Học Quốc Gia Thành Phố Hồ Chí Minh, chúng tôi đã được sự giúp đỡ tận tình,

sự sẻ chia từ các thầy cô, bạn bè, các cô chú nhân viên và cùng nhiều người khác đã

và đang học tập và làm việc tại trường Chúng tôi rất trân trọng những sự giúp đỡ mà

mọi người đã dành cho chúng tôi.

Để hoàn thành khoá luận này, chúng tôi muốn đặc biệt cảm ơn sự giúp đỡ của những

người sau đây.

Đầu tiên, chúng tôi bày tỏ lời cảm ơn trân trọng nhất dành cho thầy giáo Tiến sĩ Lê

Kim Hùng - người thầy trực tiếp hướng dẫn khoá luận Thầy đã truyền cảm hứng nghiên cứu khoa học chúng tôi, luôn hướng dẫn tận tình, giúp đỡ chúng tôi trong cuộc sống và công việc trong quá trình làm làm việc cùng thay.

Bên cạnh đó chúng tôi muốn dành lời cảm ơn tới các thầy cô ở khoa Mạng Máy Tính

và Truyền Thông đã giảng dạy những kiến thức quý báu để chúng tôi có thể hoàn

thành khoá luận này, đồng thời gửi lời cảm ơn tới những người bạn, đặc biệt các bạn

ở lớp ATTN2018, đã luôn đồng hành cùng chúng tôi trong suốt hành trình học đại học Chúng tôi cũng gửi lời cảm ơn tới bạn Nguyễn Xuân Dương lớp KHTN2018 đã

cùng chúng tôi trong suốt quá trình làm nghiên cứu khoa học và khóa luận tốt nghiệp.

Cuối cùng, chúng tôi muốn gửi lời cảm ơn tới bố mẹ, gia đình, người thân của chúng

tôi, những người đã luôn đồng hành, tin tưởng và quan tâm giúp đỡ trong những lúc

khó khăn nhất Thiếu đi những sự giúp đỡ quý giá đó, chúng tôi sẽ không thể có được

ngày hôm nay.

Trang 5

Chương 1 MO ĐẦU -2222222222222222111222111221111 221111211 2

DD TQ dG ti na ` 2 1.2 Đặt vấn 4b ccccccssssssseescecssssssssccsccessssssscseccsssssneceessesssssseseeseessssseseeseeesssseeeeess 2

1.3 Mục tiêu của đê tài Sc 2c St S1 v11 191511112 1111111 1 111 11x grrrưyn 5

1.4 Đối tượng và phạm vi nghiên cứu -¿2+c++22v2+z++2vvsvrrsrrvscree 7 1.4.1 _ Đối tượng nghiên cứu 2-ccc+c+estrrrrrrreerrrrrrrrrrrree 7

1.4.2 _ Phạm vi nghiên cứu -. -555+5++c+cscseeterererereerrre 7

Chương2 TONG QUAN -2-22222+2222212222211222111 2221112 §

QA Cơ sở lý thuyẾt 222:-222222222211222221111222711222711122221111 21.111 cerxee § 2.1.1 Tổng quan về hệ thống phát hiện xâm nhập - 8 2.1.2 Tổng quan về mang khả lập trình.

2.1.3 Kỹ thuật học máy trong phát hiện xâm nhập -. - 11 2.1.4 Kỹ thuật dữ liệu lớn trong phát hiện xâm nhập

2.2 Các công trình liên quan ¿-¿- + ¿5+5 S+2*+*‡+‡Et£etexexrkerrkererrree 15

Chương 3 NỘI DUNG VÀ PHƯƠNG PHÁP.

3.1 Téng chốn ẽ.ẽ 4a14gĐ:ẦH.L)L 19

3.2 Xây dựng ha tang dữ liệu lớn kết hợp với mạng khả lập trình.

Trang 6

3.2.1 Kiến trúc mạng khả lập trình ¿++2v+z++2cvvvr+rrssvee 21 3.2.2 Các thành phan phân tích giám sát và phát hiện xâm nhập

3.3 Các bộ dữ liệu -.c c2 2H 222121012122 01212 re 30

3.4 Mô hình phát hiện và phân loại các cuộc tân công mạng

3.4.1 _ Tiền xử lý dữ liệu -.ccccccccErkrrrrrrrrrrrrrrrrerrrrer 37

3.4.2 Huấn luyện mô hình máy học dé phát hiện các cuộc tan công mang38

3.4.3 Huấn luyện mô hình học sâu để phân loại các cuộc tấn công mạng 38 3.4.4 Chỉ số đánh giá mô hình phát hiện và phân loại các cuộc tấn công 42

3.5 Phương pháp thực nghiệm kiểm thử hệ thống -: -z-2 45 3.5.1 Giả lập lưu lượng dữ liệu mạng kiểm định hệ thống 45 3.5.2 Chan lưu lượng mạng của kẻ tan công khi được phát hiện 46 Chương 4 THỰC NGHIEM VÀ ĐÁNH GIA c-:2cc+ccccccsscee 41

4.1 Môi trường thực hiỆn 6-5 St Sky 47

4.2 Kết quả nghiên cứu -22c:¿22222E222++ttEEEEEEEvrrrtrttrrrkvrrrrrrrrrrrrvev 48 4.2.1 Kết qua huấn luyện mô hình ML .cz sccczz+c 48

4.2.2 Kết quả huấn luyện mô hình DL -c¿525c++225sscz+s 51 4.2.3 So sánh kết quả toàn bộ hệ thống với nghiên cứu khác 54 4.2.4 Kết quả triển khai thực tế hệ thống -ccccccc+++crr 56 Chương 5 | TONG KET VÀ HƯỚNG PHÁT TRIẺN - 63

5.1 Kết luận 2 v.v re 63 5.2 Ý nghĩa khoa học . -222+2¿+2222+2E22211122221122212112 E211 63

5.3 Hiệu qua về mặt kinh tế - xã NOL eececcecssecssesssecssesssecssesssesssesssesssesssecased 64 5.4 Hướng phát triển trong tương lai - ::c+22v+zvevvvvrrerrvvvrrerrrer 65 Phụ lục A: Các công bố khoa hỌC ¿ 5c Ss x2 E2 211211111111 111 111111 66

Trang 7

TÀI LIỆU THAM KHẢO

Trang 8

DANH MỤC HÌNH

Hình I Tổng quan về hệ thống phát hiện xâm nhập [ 10] 2- 2-2 s+sz+s2 9i0n009849i0ã1169)850107777 10Hình 3 Tổng quan về phân loại các thuật toán máy học . ¿- ¿25+ 11Hình 4 Quy trình xử ly dữ liệu lớn dé phát hiện bat thường trong thời gian thực [18]

%ũũÚỖŨỖỒ 15

Hình 5 Tổng quan về kiến trúc hệ thống chúng tôi đề xuất - 2-52 19Hình 6 Kiến trúc mô phỏng SDN 2-2 © £+E£+E£EE#EE+EE+EE+EE£EEEEeEEeEkerkrrkrree 24Hình 7 Tổng quan về mô hình hạ tang dữ liệu lớn dé xuất -2- s2 s2 25Hình 8 Sơ đồ thuật toán hệ thông phát hiện và phân loại cuộc tan công 36Hình 9 Thiết kế mô hình phát hiện va phân loại các cuộc tan công mạng 40Hình 10 Chỉ số accuracy của mô hình trên tập huấn luyện và tập hiệu chỉnh trong

quá trình huấn luyỆn -2 2 2 2 £SE2E2EE2EE9EEEEE2E12E15717112117117171211 1111 42

Hình 11 Mô tả confusion matrix cho bài toán phân loại nhiều nhãn - 44Hình 12 Confusion matrix cho phát hiện tấn công trên tập dữ liệu NF-BoT-IoT-v2

(bên trái là kiểm thử trên tập dữ liệu con, bên phải là toàn bộ dif liệu) 49Hình 13 Confusion matrix cho phát hiện tan công trên tập di liệu NF-CSE-CIC-

IDS2018-v2 (bên trái là kiêm thử trên tập dữ liệu con, bên phải là toàn bộ dữ liệu)

:cđt — 50

Hình 14 Confusion matrix cho phát hiện tấn công trên tập dữ liệu NF-ToN-IoT-v2

(bên trái là kiểm thử trên tập dữ liệu con, bên phải là toàn bộ dữ liệu) 50Hình 15 Confusion matrix cho phân loại tấn công của bộ dtr liệu NF-BoT-IoT-v2 52Hình 16 Confusion matrix cho phân loại tan công của bộ dữ liệu NF-CSE-CIC-

P0027 53

Hinh 17 Confusion matrix cho phan loai tan công của bộ dit liệu NF-ToN-IoT-v2 54

Hình 18 Dia chi IP được gan cho các Host và S€TV€T - .- Ăn se 57

Hình 19 Kiến trúc SDN được khởi tạo thành công với bộ điều khiển ONOS 57

Hình 20 Cac hosts được khởi tao đã hoàn toàn kết nối với nhatl e eee 57

Hình 21 Cấu hình trong nprobe.COnÝ - 2-22 5¿+5+2E++E+2EEt2EEtEE++rxezrxerresree 58

Trang 9

Hình 22 Các trường đặc trưng nhận được ở Apache Kafka từ nProbe theo dạng

Impật :555ốỐŸ4 58

Hình 23 Code tạo luồng dữ liệu giữa Spark và Kafka ceccccccccscsssesssesstecstessesseeseeens 58

Hình 24 Log của Spark khi chạy thành công 5 + sen 59

Hình 25 Các luồng lưu lượng mạng được phân tích và trực quan hóa trên giao diện

Aol Ok © ) ce 59

Hình 26 Các luồng lưu lượng mạng được phân tích và trực quan hóa trên giao diện

1002117 4Ả Ô 60

Hình 27 Câu lệnh tan công TCP SYS Flooding - 2 2 2+s2+x£x+zx+zxzzszsez 60

Hình 28 Cảnh báo cuộc tấn công DDoS và thông báo chặn thiết bị được trả về từ

MO Hinh IDS 00 eee 60

Hình 29 Luéng dữ liệu được gửi tới dé chặn vĩnh viễn tat cả lưu lượng từ địa chi IPnguôn 10.0.0.1 tại QVS ¿ 2:-25:©2+2222223222122112211271121121112111211211111 2112111 cre 61Hình 30 Kết quả kiểm tra khi chặn lưu lượng mạng của thiết bị tắn công 62

Hình 31 Câu lệnh thực hiện tan công Port Scanning 2 2 + 5s s+zs2 5+2 62

Hình 32 Cảnh báo cuộc tan công Scanning được trả về từ mô hình IDS 62

Trang 10

DANH MỤC BANG

Bang | So sánh giữa các phương thức phát hiện xâm nhâp [ 16] - - - 9 Bang 2 Bang mô tả các đặc trưng của các bộ dữ liệu -+-<<++<s++sss+ 31

Bảng 3 Mô ta tập dữ liệu NF-BO/T-IO7T-V2 2Á + + kS SH HH HH HH gttưệp 33

Bang 4 Mô tả chỉ tiết tập dit liệu NF-ToN-IoT-v22 -¿2s- s+cx+zxzzs+zxsrxcrez 34

Bảng 5 Mô ta tập dữ liệu NF-CSE-CIC-IDS2018-V2 - ác ssessssesske 35

Bảng 6 Chỉ tiết các giá trị siêu tham số tại mỗi lớp 2-2 +s2+s+zx+zxzsz 40

Bang 7 Tổng số lượng mẫu dung dé đánh giá mô hình và thời gian huấn luyện 42

Bang 8 Mô tả confusion matrix cho bài toán phân loại nhị phân 43

Bảng 9 Bảng so sánh kết quả giữa các thuật toán máy học cho mô-đun phát hiện tấn

Bảng 12 Bảng so sánh chỉ số độ chính xác phân loại tân công trên bộ dữ liệu

CSE-CIC-IDS20118 c3 2312 HH HH TT HH HH HT TH HH 56

Trang 11

DANH MỤC TU VIET TAT

Số thứ tu | Thuật ngữ Mô tả

1 Al Artificial Intelligence

2 API Application Programming Interface

3 CNN Convolutional Neural Network

4 CPU Central Processing Unit

5 DB Database

6 DBN Deep Belief Network

7 DDOS Distributed Denial-Of-Service

8 DL Deep Learning

9 DNN Deep Neural Network

10 DNS Domain Name System

11 FN False Negative

12 FNR False Negative Rate

13 FP False Positive

14 FPR False Positive Rate

15 FTP File Transfer Protocol

16 GPU Graphics Processing Unit

17 HIDS Host-Based Intrusion Detection System

18 HTTP Hypertext Transfer Protocol

19 IDS Intrusion Detection System

20 IOT Internet Of Thing

21 IP Internet Protocol,

22 KNN K-Nearest Neighbors

23 ML Machine Learning

24 NÑIDS | Network-Based Intrusion Detection System

25 ONOS Open Network Operating System

26 PCA Principal Component Analysis

Trang 12

27 RAM Random-Access Memory

28 RBM Restricted Boltzmann Machine

29 RDD Resilient Distributed Datasets

30 RF Random Forest

31 RNN Recurrent Neural Network

32 SDN Software-Defined Networking

34 SSH Secure Shell

35 SVM Support Vector Machine

36 TCP Transmission Control Protocol

Trang 13

TÓM TẮT KHÓA LUẬN

Mạng khả lập trình (Software-defined Networking, viết tắt là SDN) đang trở thànhmột trong những giải pháp đầy hứa hẹn cho Internet trong tương lai Là một kiến trúc

mạng mới, linh hoạt và dé quản lý với khả năng lập trình, SDN là một giải pháp hiệu

quả cho các doanh nghiệp lớn dé quản lý giám sát hạ tang mạng của mình Tuy nhiêncũng như các kiến trúc truyền thống khác, SDN phải đối mặt với các mối đe dọa tiềm

ân từ các cuộc tấn công mạng Cùng với sự phát triển của các thiết bị thông minh,lượng dữ liệu lưu thông trên Internet ngày càng nhiều, dẫn tới tầm quan trọng của hệ

thống phân tích dữ liệu và bảo mật thông tin đối với dữ liệu lớn ngày càng tăng lên

Do đó, nghiên cứu này cung cấp giải pháp cho hệ thống phát hiện và phân loại xâmnhập mạng toàn diện và chỉ tiết, phù hợp với kiến trúc mạng khả lập trình trong bối

cảnh dữ liệu lớn.

Cu thé, chúng tôi đã kết hợp thuật toán máy học và học sâu trên công nghệ xử lý dữ

liệu lớn dé xây dựng mô hình phát hiện và phân loại các cuộc tan công Phương phápnày không chỉ giúp giải quyết các van đề về tốc độ và thời gian tính toán của thuậttoán mà còn có thé đảm bảo độ chính xác cao Chúng tôi đã đánh giá mô hình trên ba

bộ dữ liệu với kết quả đạt được rat đáng lưu ý: độ chính xác đạt từ 97% tới 99%, tỉ lệcảnh báo giả chỉ từ 0.37% tới 1.15% khi phân loại nhiều cuộc tấn công khác nhau.Toàn bộ hệ thống đã được chúng tôi triển khai thực nghiệm thành công, tạo nên một

hệ thống phòng thủ vững chắc, không chỉ giúp quản trị viên theo dõi và phát hiệnnhững bắt thường trong lưu lượng mạng của thiết bị mà còn có những hành động cụ

thê đê ứng phó hiệu quả với các cuộc tân công.

Ngoài ra, công trình của chúng tôi còn là một tư liệu hữu ích cho các nhà nghiên cứu

muốn tiếp cận vấn đề này vì nó là một trong những đề tài đi đầu về việc phát triểngiải pháp giám sát, phát hiện và phân loại các cuộc tan công cho kiến trúc SDN trongngữ cảnh dữ liệu lớn Không những thế, kiến trúc mô hình linh hoạt giúp việc ứngdụng của nó phù hợp với mọi quy mô doanh nghiệp Do đó, nó mang lại tiềm năng

ứng dụng rât lớn đôi với các doanh nghiệp trong và ngoài nước.

Trang 14

Chương 1 MỞ DAU

1.1 Tên đề tài

Tên tiếng Việt: XÂY DUNG HE THONG PHÁT HIỆN XÂM NHẬP DUA TRENMÁY HỌC CHO MẠNG KHẢ LẬP TRÌNH TRONG NGỮ CẢNH DỮ LIỆU LỚNTên tiếng Anh: BUILDING MACHINE LEARNING BASED INTRUSION

DETECTION SYSTEM FOR SOFTWARE DEFINED NETWORK IN BIG DATA

CONTEXT

1.2 Dat van dé

Sự phát triển bùng nỗ của việc sử dung Internet đã đưa chúng ta vào ky nguyên dữ

liệu lớn Vào đầu năm 2021, có hơn 65% dân số trên thế giới sử dụng Internet (88%

ở Europe và 94% ở North America) [I] Ngoài ra, sự phát triển của các xu hướngcông nghệ hiện nay như IoT, Cloud, mạng xã hội cũng góp phan tạo ra khối dit liệukhống 16 Theo báo của Statista [2], dự kiến vào năm 2030, các thiết bị IoT kết nốiInternet sẽ đạt tới 25.4 tỷ thiết bị tức tăng gấp ba lần so với năm 2020 là khoảng 8.74

tỷ thiết bị Dẫn đến hàng nghìn exabyte (EB) dữ liệu được tạo ra và lưu thông trênInternet hàng ngày với tốc độ chóng mặt Dữ liệu lớn là dữ liệu khó lưu trữ, quản lý

và phân tích bằng công nghệ phần mềm và cơ sở dữ liệu truyền thống Dữ liệu lớn

bao gồm dung lượng lớn và tốc độ cao, cũng như nhiều loại dữ liệu khác nhau đòi hỏi

các công nghệ mới dé xử lý Từ đó, các thách thức về phân tích dữ liệu lớn đã đượcđưa ra trong [3] Các công nghệ hiện đại hơn như điện toán hiệu suất cao, điện toánđám mây, điện toán phân tán đã xuất hiện dé lưu trữ và xử lý các tập dữ liệu không

lồ Các công cụ phân tích dữ liệu tiên tiến cũng cho phép chúng ta trích xuất thông

tin hữu ích từ dữ liệu và sau đó tạo dự báo xu hướng sự kiện Việc phân tích dữ liệu

lớn được ứng dụng rộng rãi trong hầu hết các lĩnh vực như quân sự, y tế, sản xuất Tuy nhiên, với sự gia tăng nhu cầu và lợi ích của dữ liệu lớn, khả năng xảy ra cáccuộc tan công mạng cũng gia tăng với tốc độ tương tự [4]

Trang 15

Xung quanh ta đầy rẫy những kẻ xâm nhập như vậy, chúng cố gắng xâm nhập vào hệ

thống mạng nội bộ dé đánh cắp dữ liệu và phá hủy tài nguyên mạng Trong một số

trường hợp, kẻ tấn công truy cập bất hợp pháp vào mạng nội bộ bằng cách khai thác

các lỗ hồng hiện có trong hệ thống Quan trọng hơn, chúng có thể sử dụng một hệthống ân danh hoặc kiểm soát máy tính của người dùng bình thường như thay ma,kiểm soát trái phép chúng mà người dùng không hè hay biết sau đó khởi động các

cuộc tấn công tu chối dịch vụ (DDoS) Hiện nay, các cuộc tấn công từ chối dịch vụ

đã trở thành một trong những mối đe dọa lớn nhất mà các nhà cung cấp dịch vụ phải

đối mặt Khi nhiều hệ thống máy tính làm tràn băng thông của mục tiêu hoặc tàinguyên hệ thống cùng một lúc, một cuộc tấn công từ chối dịch vụ sẽ xảy ra, dẫn đếnviệc cơ sở hạ tầng ngừng hoạt động, đây cũng là một vấn đề nghiêm trọng mà cácnhà cung cấp dịch vụ không muốn gặp phải Từ năm 2018 đến 2019, tần suất các

cuộc tan công DDoS tăng 39% và tần suất các cuộc tan công từ 100 Gbps đến 400Gbps tăng 776% Ước tính đến năm 2023, tông số vụ tan công DDoS sẽ tăng lên 15,4

triệu [5] Các cơ chế bảo mật khác nhau cũng như hệ thống phát hiện xâm nhập (IDS)

đã được đề xuất và sử dụng dé phát hiện các cuộc tấn công như vậy Tuy nhiên, với

số lượng lón, sự đa dạng và tốc độ của dữ liệu được tạo ra trong mạng khiến việc sửdụng các kỹ thuật truyền thống dé phân tích dit liệu dé phát hiện các cuộc tấn công làrất khó khăn Do đó, công nghệ dữ liệu lớn được sử dụng trong IDS nhằm tạo ra một

quy trình phân tích dữ liệu lớn chính xác và hiệu quả hơn.

Hệ thống phát hiện xâm nhập được Denning đề xuất lần đầu tiên vào năm 1986 [6]

Đây là một mô hình có thể phát hiện các hoạt động độc hại và các hành vi bất thường

trong mạng, là nền tang quan trọng dé bảo vệ mạng Tuy nhiên, do sự phát triển đồimới không ngừng của mạng cùng với các kỹ thuật tan công mạng ngày càng tinh vihơn, IDS vẫn là một chủ đề quan trọng đối với các nhà nghiên cứu Cho đến nay, với

sự phát triển của điện toán đám mây, mạng xã hội, IoT va SDN, IDS càng trở nên

quan trọng hơn bao giờ hết IDS có thé giúp các hệ thống khác giảm thiểu và khắc

phục hậu quả của việc xâm nhập bằng cách cung cấp thông tin về cuộc tấn công đượcthực hiện bởi kẻ xâm nhập (chăng hạn như danh tính, cách thức, thời gian và kiểu

Trang 16

xâm nhập) Hệ thống phát hiện xâm nhập truyền thống sử dụng các phương pháp pháthiện xâm nhập dựa trên dấu hiệu Nó được xem là phương pháp phát hiện tan công

sớm và chính xác nhất đối với các cuộc tan công đã biết Tuy nhiên, các kiểu tan công

mới không thé bị phát hiện vì dấu hiệu của nó không được biết trước Dé khắc phụcvan dé này, phương pháp phát hiện xâm nhập dựa trên điểm bất thường sẽ so sánhtrạng thái hành vi hiện tại của người dùng với cấu hình được xác định trước để pháthiện hành vi bất thường có thê là hành vi xâm nhập Dù vậy, phương pháp này thường

có tỷ lệ báo động giả khá cao (high false positive rate) [7] Hiện nay, nhiều nghiên

cứu đề xuất áp dụng các thuật toán máy học và học sâu dé cải thiện độ chính xác vagiảm tỷ lệ báo động giả [8] Tuy nhiên, đối với ngữ cảnh dữ liệu lớn, công nghệ họcsâu thường mất nhiều thời gian để huấn luyện và tính toán cũng như phân loại dữliệu Bằng cách kết hợp công nghệ dữ liệu lớn cho hệ thống phát hiện xâm nhập,

các vấn đề về tốc độ và thời gian tính toán của thuật toán có thể được giải quyết

mà vẫn đảm bảo độ chính xác cao.

Mặc khác, những nghiên cứu được tập trung phát triển gần đây triển khai hệ thốngphát hiện xâm nhập với các phương pháp tiếp cận học sâu được dựa trên một kiến

trúc mạng mới - mạng khả lập trình (SDN) [9], [10] SDN là một kiến trúc mạng đầy

hứa hẹn, nó xuất hiện như một giải pháp hiệu quả cho việc quản lý và cấu hình cácthiết bi mạng Kiến trúc này tách rời chức năng điều khiển mang và chuyền tiếp ditliệu, cho phép phần điều khiển mạng có thé được lập trình dé dang SDN có thể được

ứng dụng trong nhìu ngữ cảnh khác nhau và đã được các công ty lớn như Huawel,

Google hay ngân hàng OCB ở Việt Nam đã triển khai rất thành công [11] Với các

ưu điểm nổi bật như điều khiến tập trung hợp lý, chế độ xem toàn mạng, phân tíchlưu lượng dựa trên phần mềm và cập nhật động các quy tắc chuyên tiếp, kiến trúc

SDN đã giúp việc phát hiện xâm nhập dựa trên máy học thuận lợi hơn cũng như tăng

cường an ninh mạng [12] Chế độ xem toàn mạng của bộ điều khiển SDN đơn giản

hóa việc thu thập va phân tích lưu lượng mạng Ngoài ra, khả năng lập trình của SDN

giúp dé dàng đối phó khi phát hiện ra một cuộc tấn công mạng Nhiều nghiên cứu đãđược thực hiện về phát hiện xâm nhập dựa trên máy học trong SDN [13] Tuy nhiên,

Trang 17

các nghiên cứu về phát hiện xâm nhập dựa trên SDN trong bối cảnh dữ liệu lớn

vẫn còn hạn chế.

Dé giải quyết các van đề trên, nghiên cứu nay đưa ra một giải pháp kết hợp toàn diện

để xây dựng một hệ thong phát hiện xâm nhập dựa trên máy hoc cho mang khả lập

trình trong ngữ cảnh dữ liệu lớn Đồng thời, đề xuất một phương pháp tận dụng ưuđiểm của SDN dé ứng phó với các cuộc tan công được phát hiện Theo như chúng tôitìm hiểu, giải pháp trong nghiên cứu này là giải pháp đầu tiên đưa ra một môhình hệ thống toàn diện và chỉ tiết về phát hiện xâm nhập ứng dụng cho mạng

khả lập trình (SDN) trong ngữ cảnh dit liệu lớn.

1.3 Mục tiêu của đề tài

Từ vấn đề trên, ta có thể thấy việc thiết kế một hệ thống giám sát và phát hiện xâmnhập cho kiến trúc mạng SDN là chưa đủ Hệ thống phát hiện xâm nhập thông thườngrất khó dé xử lý các luồng dữ liệu lớn với tốc độ cao Do đó, chúng tôi cần xây dựngmột mô hình hạ tầng đữ liệu lớn tích hợp IDS với nhu cầu giám sát và phát hiện phân

loại các cuộc tan công với tốc độ cao Với định hướng đó, mô hình phù hợp hạ tang

dữ liệu lớn được chúng tôi dé xuât và thiệt kê phải có bôn ưu điêm sau:

e_ Tích hợp linh hoạt các công nghệ - giúp doanh nghiệp có nhiều lựa chọn

hơn cho các công nghệ kỹ thuật cũng như các công cụ hiện hành Do đó, tận

dụng được các công nghệ kỹ thuật hiện có của doanh nghiệp kết hợp vớicác công nghệ kỹ thuật mới dé áp dụng giải pháp dữ liệu lớn này

e Tối ưu hiệu suất với mô hình phân tán - mô hình chúng tôi có khả năng

tích hợp các hệ thống phân tán cho phép các giải pháp hiệu suất cao và có

khả năng mở rộng nhưng vẫn đảm bảo được độ chính xác.

e Linh hoạt về quy mô - với khả năng mở rộng vốn có trên tat cả các thành

phan, doanh nghiệp có thé linh hoạt điều chỉnh quy mô công việc nhỏ hoặclớn phù hợp với nhu cầu doanh nghiệp, giúp tiết kiệm được tài nguyên và

tiên bạc.

Trang 18

e _ Tương thích tốt với các giải pháp của doanh nghiệp hiện đại - các thành

phần của hạ tầng dữ liệu lớn có thể được sử dụng cho các giải pháp khác

như IoT hay doanh nghiệp lớn và cho phép tích hop các giải pháp dé dàng.

Không những thế, mô hình phát hiện và phân loại các cuộc tấn công mạng được tích

hợp trên mô hình trên sử dụng các kỹ thuật máy học phải tối ưu về khả năng tính toáncũng như vẫn đảm bảo được độ chính xác cao Cách tiếp cận này được xem như mộtgiải pháp an ninh mạng, giúp quan trị viên dé dang giám sát và phân tích các luồng

dữ liệu mạng cũng như phản ứng kịp thời với các cuộc tấn công Do đó, chúng tôi sẽ

thiết kế và huấn luyện mô hình này trên nhiều tập dữ liệu uy tín khác nhau với mức

kì vọng về độ chính xác cũng như tốc độ xử lý cao đối với cả việc phát hiện và phânloại các cuộc tấn công khác nhau Đề làm được điều đó, chúng tôi cần nghiên cứu cácloại dữ liệu hỗ trợ phân tích và giám sát theo luồng dé tối ưu về tốc độ Từ đó đề xuất

một loại dữ liệu tốt nhất và chọn ra những trường đặc trưng cơ bản thường được sử

dụng dé phản ánh tổng quan về các cuộc tan công trong kiến trúc SDN

Mặc khác, mô hình hệ thông phải được triển khai thực nghiệm cũng như kiểm định

được độ hiệu quả của IDS được tích hợp trong mô hình này Vì thế, chúng tôi cần

xây dựng một mạng mô phỏng kiến trúc SDN giống như doanh nghiệp Đồng thời,chúng tôi cần tạo ra các lưu lượng mạng thông thường cũng như thực hiện các cuộctấn công lẫn nhau trên các thiết bị để kiểm thử mô hình này trong ngữ cảnh thực tế.Khi phát hiện được các cuộc tấn công, tận dụng khả năng lập trình và quản lý linh

hoạt của SDN, chúng tôi phải xây dựng được một giải pháp dé kịp thời ngăn chặn các

cuộc tấn công này Bên cạnh đó, các thông số trong lưu lượng mạng cũng như các

cảnh báo về các cuộc tấn công đều phải được trực quan hóa trên giao diện web, kết

hợp với giao diện quản lý của bộ điều khiển SDN giúp quản trị viên có cái hình tổngquát về toàn thê các thiết bị có trong mạng và lưu lượng truy cập của chúng

Trang 19

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

¢ Mô hình phát hiện và phân loại các cuộc tan công mạng trong ngữ cảnh dữ

liệu lớn.

e Mô hình kiến trúc hệ thống có khả năng phân tích giám sát dữ liệu lớn trong

kiến trúc mạng khả lập trình tích hợp IDS được đề xuất

1.4.2 Phạm vỉ nghiên cứu

Trong đề tài này, chúng tôi tập trung thiết kế một mô hình hệ thống tích hợp hệ thông

phát hiện xâm nhập cho kiến trúc SDN trong ngữ cảnh dit liệu lớn Hiện nay, các IDSthông thường đã không đủ khả năng hoạt động tốt khi xử lý các luồng dit liệu lớn vớitốc độ cao Thế nên, chúng tôi sẽ xây dựng một quy trình phân tích giám sát dữ liệulớn trong thời gian thực dựa trên mô hình hệ thống phân tán và tích hợp IDS được đề

xuât vào đó đê phát hiện và phân loại các cuộc tân công mạng.

Đồng thời, IDS do chúng tôi xây dựng sẽ dựa trên phương pháp kết hợp thuật toán

máy học và học sâu nhằm tối ưu về tốc độ xử lý nhưng vẫn đảm bảo được độ chínhxác cao Mô hình này sẽ được chúng tôi triển khai thực nghiệm và đánh giá các chỉ

số trên các tập dữ liệu uy tín Bên cạnh đó, với khả năng lập trình mạnh mẽ trong kiếntrúc SDN, chúng tôi sẽ nghiên cứu đưa ra một giải pháp phản ứng lại các cuộc tấn

công được phát hiện.

Trang 20

Chương 2 TONG QUAN

2.1 Cơ sở lý thuyết

2.1.1 Tổng quan về hệ thống phát hiện xâm nhập

Chức năng chính của IDS là giám sát các nguồn thông tin, như máy tính hoặc mạng,

với các hoạt động truy cập trái phép Nó thu thập dữ liệu từ các hệ thống và nguồnmạng khác nhau sau đó phân tích dữ liệu dé tìm các mối đe dọa có thé xảy ra [14]

Do đó, IDS cần phải xử lý được các gói tin trong môi trường phức tạp như lưu lượngmạng lớn và phân phối dữ liệu không đồng đều IDS được phát triển thêm thành hệthong phát hiện xâm nhập mạng (NIDS) va hệ thong phát hiện xâm nhập dựa trênmáy chủ (HIDS) Hình 1 cho thấy tông quan chung về IDS dựa trên các kỹ thuật phát

hiện được triển khai và môi trường triển khai.

Như thể hiện trong Hình 1 [10], các hệ thống phát hiện xâm nhập có thể được thực

hiện bằng các phương pháp và kỹ thuật khác nhau Một số cơ chế đã được phát triển

để phát hiện các bất thường, được phân loại thành các phương pháp thống kê, phương

pháp khai thác dữ liệu và phương pháp dựa trên máy học [15] NIDS có thé được thực

hiện bằng cách sử dụng hai kỹ thuật phát hiện: phát hiện dựa trên dấu hiệu và pháthiện dựa trên bất thường NIDS dựa trên dấu hiệu bị giới hạn trong việc phát hiện cácmối de doa nguy hiém đã biết Sự kết hợp của tiêu đề gói tin và các quy tắc kiêm tra

nội dung gói được áp dụng cho hệ thống phát hiện từ các luồng lưu lượng bat thường

thông qua đặc ta dấu hiệu Các kỹ thuật phát hiện bat thường được thiết kế dé tự độnghiểu các cuộc tấn công không xác định và không thê đoán trước đối với NIDS dựatrên dấu hiệu [15] Phương pháp máy học là một trong những ví dụ về kỹ thuật phát

hiện xâm nhập dựa trên sự bất thường Có một số tiêu chí đánh giá dé so sánh hiệu

suất của các thuật toán trong NIDS như độ chính xác (Accuracy), tỷ lệ âm tính giả

(FNR), tỷ lệ dương tính gia (FPR), thời gian sử dụng, mức tiêu thụ bộ nhớ Accuracy,

FNR và FPR thường được sử dụng làm tiêu chí đánh giá cho NIDS [16] So sánh hai

kĩ thuật phát hiện dựa trên các tiêu chí hiệu suất khác nhau cho NIDS được thể hiện

trong Bang 1.

Trang 21

Bảng 1 So sánh giữa các phương thức phát hiện xâm nhâp [16]

Detection technique Alarm Rate Speed _ Flexibility Reliability Scalability Robustness

Signature Low High Low High Low Low

Anomaly High Low High Moderate High High

a ntrusion Detection Intrusion Technique

HIDS Anomaly Based] | Signature Based

Open Networking Foundation (ONE) là một trong những kiến trúc phù hợp cho SDN

Trong Hình 2, minh họa tổng quan về kiến trúc lưu trữ SDN với ba tang chức năngchính: tang cơ sở hạ tầng (Infrastructure Layer), tầng điều khién (Control Layer) vàtầng ứng dụng (Application Layer) [11]

e Tầng cơ sở hạ tầng: còn được gọi là Data Plane Nó chủ yếu bao gồm

các bộ chuyên mạch vật lý được kết nối với nhau thông qua phương thức

có dây hoặc không dây Ví dụ các bộ chuyển mạch vật lý thông dụng như

Cisco, Juniper, HP, và các bộ chuyên mạch ảo như OpenvSwitch [17]

e Tầng điều khiến: còn được gọi là Control Plane Nó bao gồm các bộ

điều khién SDN cung cấp các chức năng điều khiển thông qua các API

Trang 22

để giám sát hành vi chuyền tiếp mạng thông qua giao diện công khai Ba giao diện cho phép bộ điều khiển tương tác là giao điện hướng nam, hướng bắc và hướng đông-tây Cac API hướng nam được sử dụng dé giao tiếp giữa bộ điều khiển và phần cứng mạng máy tính Các giao diện hướng bắc được sử dụng giao tiếp giữa tang ứng dụng và tầng điều khiển.

Các giao điện hướng đông-tây sử dụng chủ yếu đề giao tiếp giữa các bộ điều khiển.

e _ Tầng ứng dụng: bao gồm các ứng dụng của người dùng cuối.

Software-Defined Networking Network Applications

Application Layer

Infrastructure

es

Hình 2 Kiến trúc SDN [11]

2.1.2.2 Hệ thống phát hiện xâm nhập cho mạng khả lập trình

Tận dụng tính năng mở rộng của SDN, một số ứng dụng của SDN đã được phát triển

để tăng tính linh hoạt của mạng, giảm thời gian va chi phí quản lý cơ sở hạ tang mạng

trong tương lai Hơn nữa, do sự gia tăng các cuộc tấn công mạng gần đây, kiến trúc SDN đã được sử dụng để phát triển và triển khai nhanh chóng trên các dịch vụ mới

trong nhiều lĩnh vực khác nhau như truyền thông không dây, trung tâm dữ liệu,

SDN-10

Trang 23

Based Cloud và môi trường dân cư [18] Hệ thống phát hiện xâm nhập dựa trên SDN

sử dụng cách tiếp cận ML/DL cũng cho thay nhiều lợi thế như tăng cường bảo mật mạnh mẽ và cung cấp tính linh hoạt dé lập trình các thiết bị mạng cũng như loại bỏ

sự phụ thuộc vào phần cứng Do đó, việc triển khai IDS trên nền tảng SDN là điều tất yếu.

2.1.3 Ky thuật hoc máy trong phát hiện xâm nhập

Lĩnh vực học máy (Machine Learning — viết tắt ML) được dành riêng cho việc phát triển các hệ thống có thé tự động học từ dữ liệu cũng như xác định các dâu hiệu hay đặc tính ẩn mà không cần phải lập trình một cách rõ ràng [14] Kỹ thuật máy học

được coi là phương pháp hiệu quả đề tăng tỷ lệ phát hiện, giảm tỷ lệ cảnh báo sai

đồng thời giảm chỉ phí tính toán và truyền thông [14] so với các phương pháp dựa vào điểm bất thường khác Các phương pháp máy học có thé được phân loại thành

học có giám sát, không giám sát và học bán giám sát (Hình 3).

Supervised Recurrent Unsupervised

Nay >] Neural [ Way

Network

| —y| Auto-Encoder

Convolutional Deep Belief

—3 Neural I—} Network

Trang 24

Học có giám sát: các thuật toán học các biểu diễn từ dữ liệu đầu vào được gắn nhãn

dé dự đoán các trường hợp chưa biết Ví dụ về các thuật toán máy học có giám sát là

Support Vector Machine (SVM) cho các bài toán phân loại và Random Forest (RF)

cho các bài toán phân loại và hồi quy [19] Các thuật toán SVM được sử dụng rộng rãi trong nghiên cứu NIDS do khả năng phân loại mạnh mẽ và tính thực tiễn của nó.

Thuật toán này phù hợp với dữ liệu nhiều chiều, nhưng việc lựa chọn một hàm hạt

nhân phù hợp là rất quan trọng Nó rất tốn tài nguyên, đòi hỏi khả năng xử lý tính toán và bộ nhớ rất lớn [14] Thuật toán RF là một cách tiếp cận mạnh mẽ để xử lý hiệu quả với dữ liệu mat cân bằng, tuy nhiên nó có xu hướng over-fitting.

Học không giám sát: các thuật toán học cấu trúc và biểu diễn từ đữ liệu đầu vào

không được gắn nhãn Mục tiêu của thuật toán học không giám sát là mô hình hóa cấu trúc cơ bản hoặc phân bó trong dữ liệu dé dự đoán dữ liệu chưa biết [14] Ví dụ

về thuật toán học tập không giám sát là các kỹ thuật giảm đặc trưng như Principal

Component Analysis (PCA) và kỹ thuật phân cụm, ví dụ, Self-Organizing Map

(SOM) Principal Component Analysis (PCA) là một thuật toán được sử dụng để tăng tốc đáng kể việc học các đặc trưng bằng cách giảm chiều dữ liệu [20] Nhiều nhà

nghiên cứu sử dụng PCA để lựa chọn đặc trưng trước khi áp dụng phân loại Các

thuật toán phân cụm như K-means và các thuật toán học tập dựa trên khoảng cách

khác được sử dụng dé phát hiện bat thường SOM là một mạng nơ-ron nhân tạo được

sử dụng để giảm tải trọng trong NIDS Nhược điểm của việc sử dụng các thuật toán phân cụm trong phát hiện bất thường là các thuật toán phân cụm cần khởi tạo tham

số đầu vào một cách chủ quan, ví dụ, điểm trung tâm của mỗi cụm (centroid), và có thể tạo ra tỷ lệ cảnh báo giả cao [21].

Học tập bán giám sát: là một loại học tập có giám sát cũng sử dụng dữ liệu không

được gắn nhãn đề đào tạo Dữ liệu đào tạo bao gồm một lượng nhỏ dữ liệu được gắn nhãn và một số lượng lớn dữ liệu không được gắn nhãn Nó phù hợp với các trường

hợp không có sẵn một lượng lớn dit liệu được gắn nhãn, ví dụ, các kho lưu trữ ảnh

trong đó chỉ một số hình ảnh được gắn nhãn (ví dụ: người) và hầu hết chúng đều không được gắn nhãn SVM, được sử dụng để nâng cao độ chính xác của NIDS [22].

12

Trang 25

Hai phương pháp tiếp cận phân loại bán giám sát Spectral Graph Transducer và Gaussian Fields được sử dụng để phát hiện các cuộc tấn công chưa biết và một phương pháp phân nhóm bán giám sát MPCK-means được sử dụng dé cải thiện hiệu suất của hệ thống

Thuật toán học s:

phát hiện [23].

âu (Deep Learning, viết tắt DL): là một mô hình mới cho mạng

nơ-ron nhân tạo khai thác khả năng tính toán phong phú với mức tiêu thụ tài nguyên hợp lý Học sâu cl ho phép một thuật toán học cách biểu diễn dữ liệu với nhiều mức

độ tổng quát hóa khác nhau Các phương pháp này đã được áp dụng để nhận dạng đối

tượng trực quan, phát hiện đối tượng, phát hiện xâm nhập mạng và nhiều lĩnh vực

khác [24] Một thuật toán học sâu có thể được đảo tạo theo cách có giám sát và khong

giám sát [14].

¢ DL có giám sát: Mạng no-ron tích chập (CNN) [24] được thường được

huấn luyện theo phương pháp có giám sát CNN hiện là mô hình chuẩn

cho lĩnh vực thị giác máy tính Kiến trúc CNN thường sử dụng trên hình ảnh 2D và ứng dụng nồi bật nhất của CNN là nhận dang khuôn mặt [25].

e DL không giám sat: Thuật toán Autoencoder [26] được sử dụng để học

cách biểu diễn (mã hóa) cho một tập dữ liệu để giảm số chiều Deep

Belief Network (DBN) [27] có thé học cách tái cấu trúc lại các đầu vào của nó trong quá trình huấn luyện Các lớp sau đó hoạt động như bộ phát

hiện đặc trưng dựa trên đầu vào Sau bước huấn luyện này, DBN được

huấn luyện bổ sung bằng phương pháp học có giám sát dé thực hiện phân loại DBN cũng giống như Restricted Boltzmann Machines (RBM) [25]

hoặc Autoencoder được áp dụng cho phương pháp giảm số chiều, hồi

quy, feature learning, v.v.

2.1.4 Ky thuật dữ liệu lớn trong phát hiện xâm nhập

Mặc khác, khi tốc

liệu lớn với tốc độ

độ của lưu lượng mạng tăng lên từng ngày, dẫn đến việc tạo ra dữ

cao, việc chỉ ứng dụng ML/DL cho IDS là chưa đủ Trong thời đại

như vậy, chúng ta cần một hệ thống phát hiện xâm nhập có thể hoạt động hiệu quả

Trang 26

trong môi trường tốc độ cao Hình 4 minh họa trình tự từ dưới lên của các quy trình

xử lý dữ liệu lớn để phát hiện bất thường theo thời gian thực, trong đó các thiết bị

thông minh khác nhau được giao tiếp thông qua các công nghệ mạng hiện đại [18]

Các thiết bị như Vậy tạo ra rất nhiều dữ liệu cảm biến, được lưu trữ trên đám mây vàcác thiết bị lưu trữ khác Các tập dữ liệu này được thu thập từ các thiết bị cảm biếnsau đó xử lý bằng công nghệ xử lý dữ liệu lớn, chang hạn như Hadoop, Spark, Apache

và kết quả được sử dụng đề phân tích và phát hiện bất thường bằng thuật toán máyhọc Do đó việc ứng dụng quy trình này cho hệ thống phát hiện xâm nhập dựa trên

SDN được chúng tôi đề xuất như một giải pháp mới dé giải quyết các van đề kẻ trên

14

Trang 27

Network and Storage Infrastructure

Hình 4 Quy trình xử ly đữ liệu lớn dé phát hiện bat thường trong thời gian thực [18]

2.2 Các công trình liên quan

Trong những năm gần đây, các nhà nghiên cứu đang triển khai IDS dựa trên ML trongSDN và nhận thấy rằng độ chính xác của IDS đã được cải thiện rất nhiều do lợi ích

của các thuật toán dựa trên ML và khả năng mở rộng của SDN mang lại Hơn thế

nữa, khả năng lập trình của SDN giúp dé dang phản ứng nhanh với các cuộc tan côngmạng khi được phát hiện Một số công trình nghiên cứu đã được thực hiện dé triển

15

Trang 28

khai NIDS, với các thuật toán ML/DL trong kiến trúc SDN chang hạn như phát hiện

phân loại các luồng lưu lượng mạng theo nhị phân (bình thường và bất thường) hoặcphân loại theo các kiêu tan công khác nhau

Song va cộng sự [28] đề xuất một hệ thống nhận biết mối đe doa dé phát hiện và đối

phó với sự xâm nhập mạng trong SDN, bao gồm tiền xử lý dữ liệu, mô hình hóa dữliệu và dự đoán sau đó hệ thống con ra quyết định và phản ứng Đầu tiên, chiến lượclựa chọn đặc trưng chuyên tiếp được sử dụng bởi hệ thống tiền xử lý dữ liệu để chọn

các tập đặc trưng thích hợp Sau đó, các thuật toán DT và RF được áp dung bởi hệ

thống mô hình dự đoán dữ liệu để phát hiện các hành vi độc hại Dựa trên kết quả

phát hiện xâm nhập, hệ thống ra quyết định và phản hồi sử dụng định tuyến dé cài đặtcác quy tac luồng khác nhau cho các kiêu luồng khác nhau Các thí nghiệm toàn diện

đã được thực hiện và kết quả cho thấy rằng bằng cách sử dụng chiến lược lựa chọnđặc trưng chuyên tiếp, hệ thong nhận biết mối de doa được dé xuất có thé giảm thời

gian xử lý lưu lượng trong khi van duy trì độ chính xác phát hiện xâm nhập cao.

Tang và cộng sự [9] tích hợp thuật toán bất thường vào các bộ định tuyến OpenFlow

bang cách sử dụng một bộ điều khiển Họ đã xây dựng một mô hình DNN dé đơn

giản hóa các đặc trưng của lưu lượng truy cập bình thường và bat thường

Wang và cộng sự [29] đề xuất một SVM dựa trên hành vi được cải thiện để phân loạicác cuộc tan công mạng Dé tăng độ chính xác của việc phát hiện xâm nhập và tăng

tốc độ huấn luyện các mẫu bình thường và xâm nhập, DT được sử dụng như một

phương pháp giảm đặc trưng dé nâng thứ hạng các đặc trưng thô và chọn các đặctrưng đủ điều kiện nhất Các đặc trưng đã chọn này là dữ liệu đầu vào dé đào tạo bộ

Trang 29

Shone và cộng sự [31], đề xuất một phương pháp phát hiện xâm nhập dựa trên học

sâu mới được gọi là NDAE Dé tăng tốc độ phát hiện xâm nhập trong khi duy trì độchính xác phát hiện cao, NDAE kết hợp phương pháp học sâu và RF, trong đó phươngpháp học sâu được áp dụng đề giảm đặc trưng và RF được sử dụng để phân loại lưu

lượng và phát hiện xâm nhập.

Mặc khác, các cuộc tấn công DDoS là một mối đe dọa lớn đối với an ninh mạng trongkiến trúc SDN Tại đó, cuộc tấn công DDoS có thé làm cạn kiệt mạng, tài nguyên lưutrữ và máy tính trong mặt phang dữ liệu và mặt phang điều khiến, điều này sẽ làm

cho mạng SDN không khả dụng Do đó, việc phát hiện tắn công DDoS rất quan trọng

đối với hoạt động bình thường của mạng SDN

Barki và cộng sự [32] triển khai IDS mới trong bộ điều khién SDN dé phát hiện các

cuộc tấn công DDoS IDS được dé xuất bao gồm hai mô-đun: IDS dựa theo dấu hiệu

và IDS nâng cao Các thuật toán ML khác nhau, chăng hạn như K-Nearest Neighbors

(KNN), Naive Bayes, k-means và k-medoids, được sử dụng bởi mô-đun IDS dựa theo

dau hiệu dé phân loại luồng lưu lượng là bình thường và bất thường rồi tìm ra mộttập hợp các máy chủ có hành vi bất thường Sau đó, các gói được gửi bởi các máychủ này có hành vi bat thường sẽ được kiêm tra bởi mô-đun IDS nâng cao dé pháthiện xem máy chủ là người dùng bất thường hay được ủy quyền Băng cách này, thờigian xử lý của mô-đun IDS nâng cao được giảm xuống vì chỉ những máy chủ có hành

vi bất thường mới cần được phân tích

Li và cộng sự [33], một mô hình học sâu được sử dụng để phát hiện các cuộc tấn công

DDoS trong SDN RNN và CNN được đưa vào mô hình hoc sâu Mô hình học sâu

bao gồm một lớp đầu vào, một lớp đệ quy thuận, một lớp đệ quy ngược, một lớp an

được kết nối đầy đủ và một lớp đầu ra Sau khi thu thập và phân tích thông tin đặc

trưng lưu lượng mạng, mô hình học sâu được sử dụng dé giảm thiểu đặc trưng và pháthiện tan công DDoS

Với sự xuât hiện của dữ liệu lớn, nhiêu nhà nghiên cứu cũng đã có y định sử dụng kỹ

thuật dữ liệu lớn để tạo ra hệ thống phát hiện xâm nhập tốc độ cao và chính xác

17

Trang 30

Ferhat và cộng sự [34] đã sử dụng kỹ thuật học máy cum Các tác giả đã sử dung

phương pháp k-Means trong thư viện học máy trên Spark dé xác định xem lưu lượngmạng là tan công hay bình thường Trong phương pháp đề xuất, KDD Cup 1999 được

sử dụng cho việc đào tạo và thử nghiệm.

Peng và cộng sự [35] đề xuất một phương pháp phân cụm cho IDS dựa trên Mini

Batch K-means kết hợp với PCA Phương pháp PCA được sử dụng để giảm kích

thước của tập dữ liệu đã xử lý và sau đó phương pháp mini-batch K-mean ++ được

sử dụng dé phân cum dữ liệu Tập dữ liệu KDDCup1999 day đủ đã được sử dụng dé

kiêm tra mô hình được dé xuât.

Belouch và cộng sự [36] đã đánh giá hiệu suất của các thuật toán phân loại SVM,Naive Bayes, DT và RF của IDS bang Apache Spark So sánh hiệu suất tong thé được

đánh gia trên tap dữ liệu UNSW-NB15 về độ chính xác, thời gian đào tạo và thời gian

dự đoán.

Với các công trình nêu trên, các nhà nghiên cứu vẫn đang tìm cách phát hiện các cuộc

xâm nhập hiệu quả với hiệu suất cao, tốc độ cao và tỷ lệ cảnh báo giả thấp Tuy nhiên,

đề tài này nhắm mục tiêu tới việc thiết kế một hệ thống vận dụng kỹ thuật dữ liệu lớntích hợp vào hệ thống phát hiện xâm nhập cho kiến tric SDN nhăm giúp quản trị viên

dễ dàng giám sát lưu lượng mạng cũng như có thể phản ứng nhanh chóng đối với các

cuộc cuộc tân công Đê tài này van là một dé tài mới và mang lại nhiêu hứa hẹn.

18

Trang 31

Chương 3 NỘI DUNG VÀ PHƯƠNG PHÁP

cả các doanh nghiệp lớn và nhỏ.

Controller h ‘ Big Data Infrostructure Ì

Mỹ

External SDN Controller Network Source:

Database and Reporting

Hình 5 Tổng quan về kiến trúc hệ thống chúng tôi đề xuất

Đề dễ dàng quan sát, chúng tôi chia nó thành 2 phần chính bao gồm: mạng mô phỏngSDN trong doanh nghiệp (Hình 6) và cơ sở hạ tầng dt liệu lớn (Hình 7) về phía môhình mạng SDN, chúng tôi xây dựng cấu trúc mạng dựa trên mô hình thủ nhỏ của

doanh nghiệp với 9 Host (h11-h33) và 3 Server (Database Server - h41, Web Server

- h42, App Server - h51) cùng với 10 bộ chuyên mạch (S1-S10), trong đó 5 bộ chuyênmach màu đỏ (S1-S5) được tích hợp OpenvSwitch (OVS) [17] dé trích xuất cácNetFlow (luồng dữ liệu hiệu quả để giám sát và phân tích các cuộc tấn công mạng

[37]) tới bộ thu thập luồng (Collector) dé tiến hành phân tích giám sát dữ liệu Cơ sở

hạ tầng dit liệu lớn của chúng tôi có quy trình xử lý bao gồm 5 khối chính: Collector,

19

Trang 32

Distributed System, Stream Processing, Analytical Database, Analytics and Reporting.

Khối đầu tiên - Collector giống như tên gọi của nó, khối nay được dùng dé thu thập

các luồng dữ liệu mạng được trích xuất bởi thiết bị OVS đồng thời chọn lọc cáctrường dữ liệu cần thiết để chuyền tiếp vào khối thứ hai - Distributed System Bên

cạnh đó, dé đánh giá model AI một cách khách quan bang confusion matrix chúng tacần chọn và đánh giá dựah trên tập dữ liệu uy tín, do đó khối này phải hỗ trợ đọcđược dữ liệu từ các tệp pcaps (khối External Network Source) đề trích xuất các trường

dữ liệu cần thiết cho mô hình huấn luyện

Với mục tiêu đáp ứng yêu cầu xử lý dữ liệu lớn với hiệu suất cao cũng như đảm bảotính nhân rộng quy mô, mô hình bắt buộc phải được xây dựng với khả năng xử lýphân tán và khối Distributed System đại diện cho đặc tính này Mặc khác, đối với cácgiải pháp bao gồm xử lý nguồn dữ liệu trong thời gian thực, một số giải pháp cần một

kho lưu trữ nạp tạm thời hoạt động như một bộ đệm dữ liệu, hỗ trợ xử lý theo quy

mô, đảm bảo không mất mát dữ liệu cũng như khả năng phân phối đáng tin cậy Cáctính chất trên sẽ được chúng tôi gói gọn trong khối Distributed System

Sau khi đã có được các luồng dữ liệu sẵn sàng, chúng ta cần tiễn hành xử lý chúngnhư lọc, tong hợp, hay chuẩn hóa sau đó đưa vào mô hình phát hiện và phân loại cáccuộc tan công Và khối thứ ba - Stream Processing sẽ đảm nhiệm công việc này Tại

khối này, các dữ liệu sẽ được tiền xử ly và đưa vào các thuật toán ML hay DL để tính

toán và tìm ra các mối đe dọa trong các luồng dữ liệu Day được xem là phan cốt lõiđóng vai trò quan trọng như một hệ thống AI-IDS Bên cạnh đó, dé đảm bảo kha năngphát hiện sớm, khối này cũng là nơi sẽ phản ứng ngăn chặn các cuộc tan công phát

hiện được băng cách sử dụng các API được hỗ trợ từ bộ điều khiển SDN

Nhiều giải pháp dữ liệu lớn chuẩn bị dữ liệu dé phân tích sau đó cung cap dữ liệu đã

xử lý ở định dạng có cau trúc có thé được truy van bằng các công cụ phân tích Hay

trong dé tài này, các luồng di liệu gốc sẽ được lưu trữ vào một cơ sở dữ liệu sau đó

kết hợp với bộ phân tích để trực quan hóa dữ liệu Và cơ sở dữ liệu đó chính là khối

20

Trang 33

thứ tư — Analytical Database Với nhu cầu truy vấn nhanh kết hợp với khả năng mở

rộng linh hoạt, co sở dữ liệu NoSQL, cơ sở dữ liệu được tối ưu hóa dành riêng cho

các ứng dụng yêu cầu mô hình đữ liệu lớn linh hoạt và độ trễ thấp là một công nghệ

tốt dé đáp ứng những yêu cầu nay Do đó, Analytical Database là nơi lưu trữ các ditliệu đã được xử lý với khả năng truy vấn linh hoạt thường được đặt các công cụ sửdụng công nghệ NoSQL dé hỗ trợ lưu trữ và truy van cho các ứng dụng phân tích dữ

liệu lớn.

Và cuối cùng, mục tiêu của hầu hết các giải pháp dữ liệu lớn là cung cấp thông tinchi tiết về dữ liệu thông qua phân tích và báo cáo Khối thứ năm - Analysis and

reporting sẽ đóng vai trò truy vấn đữ liệu từ Analytical Database, phân tích hiển thị

các luồng dữ liệu một cách trực quan Giúp các doanh nghiệp dễ dàng giám sát xuhướng của các luồng dữ liệu Là bước đệm cho các quyết định sáng suốt trong tương

lai.

3.2 Xây dung hạ tang dữ liệu lớn kết hợp với mang khả lập trình

3.2.1 Kiến trúc mang khả lập trình

Đề giảm sát và phân tích bảo mật mạng, điều kiện cần là phải thu thập và ghi lại lưu

lượng mạng một cách chính xác Hiện nay, có hai xu hướng chính cho quá trình này

đó là thu thập các gói lưu lượng mạng hoàn chỉnh và thu thập bản tổng hợp tóm tắtcác gói mạng ở dạng luồng Việc thu thập các gói hoàn chỉnh giúp ta toàn quyền truycập và phân tích lưu lượng mạng một cách chỉ tiết, tuy nhiên khi ghi lại lưu lượngmạng trong thời gian ngăn nó cũng có thể yêu cầu dung lượng lưu trữ dữ liệu lớnngay cả đối với mô hình mạng nhỏ Việc đó không chỉ dẫn tới khó khăn trong việcphân tích mà còn phải đối mặt với quyền riêng tư cũng như các van đề về bao mậtkhác Do đó, đối với các doanh nghiệp lớn, phương pháp thu thập các luồng tóm tắtlưu lượng mạng được ưa chuộng và phổ biến hơn do tính dé mở rộng của nó Mỗiluồng mạng xác định một chuỗi các gói giữa hai điểm dich có thé là một chiều hoặchai chiều sau đó tổng hợp chúng thành một số thuộc tính chung Vì thế thông qua

21

Trang 34

việc theo dõi các thông tin của luồng mạng, ta không chỉ có thé giám sát và phân tích

bảo mật mạng mà còn có thể lập kế hoạch mạng thích hợp [38]

Trong mang SDN, bộ điều khién và các thiết bị chuyên mach giao tiếp với nhau thông

qua giao thức chuyền mạch OpenFlow (OpenFlow Switching Protocol) giúp các quảntrị viên có thé thay đồi bat kỳ quy tắc nào trên các thiết bị chuyên mach thông qua bộ

điều khiển khi cần thiết như ưu tiên, loại bỏ hay thậm chí chặn các gói tin cụ thê vớimức độ kiểm soát và bảo mật có độ chỉ tiết cao Việc này đặc biệt hữu ích trong kiến

trúc điện toán đám mây với quy mô lớn, bởi nó cho phép người quản trị quản lý lưu

lượng một cách hiệu quả, linh hoạt Tuy nhiên nó vẫn chưa được phát triển đặc biệt

dé xuất dữ liệu cũng như giám sát mạng một cách hiệu quả [37] Do đó, Netflow

-một giao thức mang phổ biến hơn được phát triển bởi Cisco dé thu thập số liệu thống

kê lưu lượng IP và giám sát lưu lượng mạng với tính tương thích cao trên nhiều thiết

bi, được xem là một lựa chọn hiệu quả dé giai quyét van dé nay Bộ định tuyến vàthiết bị chuyên mạch hỗ trợ NetFlow có thê thu thập thống kê lưu lượng IP sau đó

xuất các thống kê đó dưới dạng bản ghi NetFlow cho các bộ thu thập luồng dé tiến

hành xử lý và phân tích IPFIX (IP Flow Information eXport) - một phiên bản mở

rộng của Netflow v9, được định nghĩa trong [39] là một giao thức truyền tải độc lập,đơn hướng với khả năng biểu diễn dữ liệu linh hoạt, cùng với đó theo [37] IPFIX làgiao thức tốt nhất dé giám sát dir liệu mạng theo luồng lúc bay giờ Do đó, trong bàibáo này, chúng tôi sử dụng IPFIX (hay còn gọi là NetFlow) như là luồng dữ liệu

chính được trích xuất ra từ SDN bằng công cụ Open vSwitches (OVS) [17] thực hiện

phân tích, giám sát lưu lượng và phát hiện xâm nhập mạng.

Dé thuận tiện cho việc triển khai và kiểm thử hệ thống, chúng tôi thiết kế một mô

hình mạng giả lập (Hình 6) Lấy ý tưởng từ những cấu trúc mạng trong thực tế, chúng

ta có thê chia thành 3 phần bao gồm: phía nam, trung tâm và phía bắc Đầu tiên ở

phía nam, chúng tôi thiết kế 9 Host đại diện cho những người dùng cuối, được kết nốitrực tiếp với 3 thiết bị chuyền mạch đảm nhiệm chức năng trích xuất đữ liệu tới

Collector để thực hiện phân tích giám sát, chúng tôi gọi chúng là các thiết bị OVS

Có thể hiểu rằng mỗi thiết bị OVS ở đây sẽ là một vùng mạng nội bộ Các vùng mạng

22

Trang 35

nội bộ sẽ được kết nối ra bên ngoài thông qua phần trung tâm gồm 5 bộ chuyên mạnh

trung tâm Chúng đại diện cho những cấu trúc mạng phức tạp mà dữ liệu phải đi qua

dé đến được dich trong mô hình mạng thực tế Và đích đến đó chính là phía bắc - nơi

sẽ tập chung các Server như DB Server, Web Server và App Server cung cấp các dịch

vụ thiết yếu cho người dùng cuối Cũng giống như phía nam chúng tôi đặt 2 thiết bịOVS giúp trích xuất dữ liệu từ các Server này Có thé thay, chúng tôi chủ ý đặt thiết

bị OVS như các thiết bị biên nhằm mục đích trích xuất luồng dữ liệu một cách chínhxác và sớm nhất từ đó giúp quá trình phân tích hiệu quả hơn Toàn bộ thiết bị chuyển

mạch trong kiến trúc mạng này đều được quản lý bởi SDN controller qua giao thứcOpenFlow Trong nghiên cứu này chúng tôi đề xuất sử dụng bộ điều khiến ONOS.Đây cũng là nơi có cái nhìn tông quát các thiết bị có trong mạng Đồng thời, bộ điềukhiển SDN cũng hỗ trợ một số API quản lý các thiết bị mạng Tan dụng ưu thế này,chúng tôi sẽ xây dựng một phương pháp dé phản ứng lại các cuộc tan công được phát

hiện.

23

Trang 36

OM Os

Open Network Operating System

24

Trang 37

3.2.2 Các thành phan phân tích giám sát và phát hiện xâm nhập

Thiết kế một mô hình hệ thống xử lý dữ liệu lớn đảm bảo được bốn yếu tổ được trìnhbày ở phần 1.3 sẽ giúp các doanh nghiệp vận hành các giải pháp của mình một cách

hiệu quả và linh hoạt Dé thiết kế được một co sở hạ tang xử lý dữ liệu lớn (Hình 7)

thì đầu tiên, một bộ phận không thể thiếu trong mọi mô hình hệ thống nao đó là nguồn

dữ liệu Cũng như trong bài báo này dé nhận được các luồng dữ liệu NetFlow từ cácthiết bị OVS, cần có bộ thu thập luồng - Collector đóng vai trò thu thập và chuyểntiếp dir liệu cho các bộ phận phía sau xử lý Sau đó chúng đi qua các khối Distributed

System, Stream Processing, Analytical Database va Analytics and Reporting giúp cho

luồng dữ liệu có sẵn được phân tích một cách tự động hóa bằng các công cụ kĩ thuật

được tích hợp trong các khối này sau đó được trực quan hóa trên giao diện web cho

người quản trị viên, giúp dé dàng giám sát va đưa ra hành động phù hợp trong tương

lai Tổng quan về các mô hình hạ tầng dữ liệu lớn được chúng tôi đề xuất như Hình

(vs | aNetwork Traffic Flows

Trang 38

3.2.2.1 Collector

Đóng vai trò là một bộ thu luồng dữ liệu, là một phần không thể thiếu trong hệ thốnggiám sát và phân tích luồng, vì chúng nhận, lưu trữ và tiền xử lý đữ liệu luồng từ mộthoặc nhiều bộ xuất luồng được thiết kế trong mô hình mạng [37] Trong bài báo này,

chúng tôi đề xuất sử dụng bộ công cụ nProbe của Ntop [40] cho vai trò thu thập luồng

dữ liệu mạng.

Nprobe là một công cụ mạnh mẽ hỗ trợ xử lý NetFlow giúp thu thập và xuất các luồngNetFlow cũng như phân tích lượng lớn lưu lượng mạng với tốc độ cao mà gần nhưkhông mất gói Bên cạnh đó, Nprobe còn giúp chuyên đổi các tệp pcaps thành địnhdạng NetFlow đồng thời lọc, lựa chọn và trích xuất các đặc trưng cần thiết giúp chúng

ta đánh giá mô hình hệ thống phát hiện xâm nhập một cách khách quan trên các tập

dữ liệu uy tín Sau tất cả, nProbe sẽ đóng vai trò như một bộ thu thập các NetFlowcũng như là nguồn dữ liệu đầu vào cho các khối tiếp theo tiến hành xử lý và phân tíchgiám sát luồng

3.2.2.2 Distributed System

Có thé hiểu hệ thong phân tán là một hệ thống có nhiều quá trình xử lý độc lập trên

nhiều máy chủ vật lý khác nhau mà vẫn đảm bảo được khả năng tính toán Đối với

các hệ thống doanh nghiệp quy mô lớn, yêu cầu khả năng mở rộng và bảo trì linhhoạt, hệ thống phân tán là sự lựa chọn hoàn hảo bởi những ưu điểm vốn có của nó

Có ba lý do chính dé một doanh nghiệp quyết định sử dụng hệ thống phân tán: khả

năng mở rộng, độ tin cậy và hiệu suât.

Với nhu câu về sô lượng công việc cân xử ly ngày càng tăng, khả năng mở rộng cua

hệ thông là điêu rât cân thiệt Có hai dạng mở rộng: mở rộng theo chiêu ngang và mở

rộng theo chiều dọc

e_ Mớ rộng theo chiều dọc - phương pháp tăng kha năng phan cứng của

máy chủ bằng cách nâng cấp CPU, RAM, Disk Storage, v.v Phươngpháp này thường bị giới hạn bởi nhu cầu xử lý vượt quá cau hình vật lý

hiện tại và có độ trễ cao khi nâng câp hoặc bảo trì.\

26

Trang 39

e Mở rộng theo chiều ngang - phương pháp mở rộng bang cách thêm

nhiều Node/Server vào mạng hiện có dé tăng khả nang chịu tải của hệthống Phương pháp này rẻ hơn và dé thực hiện hơn mở rộng theo chiềudọc, đặc biệt dễ dàng thu nhỏ và phóng to hệ thống khi thêm nhiều

Node/Server Đồng thời hạn chế được độ trễ khi nâng cấp hoặc bảo trì

Bên cạnh đó, hiện nay, hầu hết các doanh nghiệp đều hướng tới sự linh hoạt về quy

mô tối ưu hóa tài nguyên sử dụng giúp tiết kiệm được tài sản và tiền bạc Không

những thế, việc đảm bảo dữ liệu không thất thoát trong quá trình truy xuất hay truyền

tải cũng không kém phan quan trọng Do đó, việc xây dựng một hệ thống đáng tin

cậy hay có khả năng chịu lỗi là điều cần thiết Nó có nghĩa mọi hỏng hóc của bất kỳmột thành phan nào trong hệ thống đều phải được thay thé bằng một thành phần đang

én định khác, đảm bảo luôn hoàn thành tốt các công việc được yêu cầu Hệ thôngđáng tin cậy cũng đồng nghĩa với việc hệ thống đó có tinh sẵn sang cao Dé đạt được

độ tin cậy, hệ thống phải thực hiện sao lưu theo thời gian thực của mọi thành phầntrong hệ thống, đây cũng là một thách thức về mặt kỹ thuật và chi phí cho dự án

Một hệ thống khi đã có tính sẵn sàng và tiềm năng mở rộng thì hiệu suất tính toán

của hệ thống đó không thê thấp được khi sử dụng công nghệ điện toán phân tán Khác

với tính toán song song, điện toán phân tán là một loại tính toán trong đó các máy

tính nối mạng giao tiếp và điều phối các tác vụ thông qua việc truyền thông điệp để

đạt được mục tiêu chung.

Mặc khác, nhiều giải pháp xử lý dữ liệu lớn trong thời gian thực cần một kho lưu trữ

tạm thời cho các dữ liệu dé làm bước đệm đáng tin cậy cho hệ thống xử lý dit liệu

phía sau nhằm tránh các lỗi phát sinh gây mat mát dit liệu Tóm lại, trong bài báo này,

khối này có thể được xem là phần đại diện chính cho kiến trúc phân tán và là một kho

lưu trữ đơn giản đáng tin cậy, nơi các luồng NetFlow đến và được đưa vào một khốikhác dé xử lý mà vẫn đảm bảo được các tinh chat cần thiết đối với một hệ thống phân

tán.

27

Trang 40

Bởi thế, Apache Kafka [41] được chúng tôi đề xuất sử dụng cho vai trò Distributed

System Apache Kafka là một kho dữ liệu phân tán được tối ưu hóa dé nhập và xử lý

luồng dữ liệu lớn trong thời gian thực với tốc độ cao Hoạt động dựa trên mô hình

Publish-Subscribe và được xây dựng dựa trên hệ thống phân tán [42] kết hợp với cơchế lưu trữ đặc biệt làm cho Kafka phù hợp với những cấu hình hệ thống mở rộngcũng như giúp chúng ta tránh khỏi các sự cố máy chủ, đảm bảo khả năng chịu lỗi và

bền vững cho dữ liệu Nhờ đó, nó đóng vai trò như một bộ đệm đáng tin cậy giữa

khối Collector và khối Streaming Processing nhằm hỗ trợ các luồng dữ liệu NetFlow

sẵn sàng trước khi được phân tích và xử lý.

3.2.2.3 Stream Processing

Stream Processing hay xử ly luồng là công nghệ dữ liệu lớn tập trung vào việc xử lýtheo thời gian thực các luồng dé liệu chuyền động liên tục Khi dữ liệu đã được chuẩn

bị sẵn sàng bởi Apache Kafka, khối này đảm nhiệm vai trò xử lý và phân tích chuyên

sâu dữ liệu Trong bài báo này, chúng tôi nhận các trường đặc trưng cua NetFlow,

thực hiện xử lý các thuật toán máy học sau đó đưa ra các nhãn dán thích hợp đối với

từng cuộc tấn công Đề đảm bảo tính phân tán cũng như khả năng xử lý luồng, chúng

tôi đề xuất sử dụng Apache Spark [43] Nó cung cấp một công cụ đề xử lý khối lượngcông việc lớn Thành phần trung tâm của Spark là Spark Core: cung cấp những chức

năng cơ bản nhất của Spark như lập lịch cho các tác vụ, quản lý bộ nhớ, tương tác với

các hệ thống lưu trữ Đặc biệt, Spark Core cung cấp API để định nghĩa RDD

(Resilient Distributed DataSet) là tập hợp của các item được phân tán trên các node

của cluster và có thê được xử lý song song đảm bảo các yêu cầu đối với một hệ thống

phân tán Bên cạnh đó, Spark Streaming cung cap API dé dé dàng tương tác và xử lý

dữ liệu với các hệ thống lưu trữ, trong bài báo này là Apache Kafka Ngoài ra, Spark

MLIIb cung cấp rất nhiều thuật toán máy học như: classification, regression,

clustering, collaborative filtering hỗ trợ xây dựng các mô hình máy học hoạt động

trên hệ thống phân tán Khối này được xem là một cụm cluster ảo hóa tài nguyên

nhiều node được sử dụng xử lý dữ liệu NIDS của nhóm được chạy trên khối này dé

tận dụng tài nguyên và tốc độ xử lý của cum node phân tán Sau đó các kết quả dự

28

Ngày đăng: 03/11/2024, 18:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN