Chúng tôi đã đánh giá mô hình trên ba bộ dữ liệu với kết quả đạt được rat đáng lưu ý: độ chính xác đạt từ 97% tới 99%, tỉ lệcảnh báo giả chỉ từ 0.37% tới 1.15% khi phân loại nhiều cuộc t
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG
HUYNH HOANG HAI
NGUYEN XUAN HA
KHOA LUAN TOT NGHIEP
XAY DUNG HE THONG PHAT HIEN XAM NHAP DUA
TREN MAY HOC CHO MANG KHA LAP TRINH
TRONG NGỮ CANH DU LIEU LON
BUILDING MACHINE LEARNING BASED INTRUSION
DETECTION SYSTEM FOR SOFTWARE DEFINED
NETWORK IN BIG DATA CONTEXT
KY SƯ NGANH AN TOAN THONG TIN
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA MANG MAY TINH VA TRUYEN THONG
HUYNH HOANG HAI - 18520697 NGUYEN XUAN HA - 18520042
KHOA LUAN TOT NGHIEP
XÂY DUNG HE THONG PHÁT HIỆN XÂM NHAP DỰA
TREN MAY HỌC CHO MẠNG KHẢ LAP TRÌNH
TRONG NGỮ CANH DỮ LIEU LỚN
BUILDING MACHINE LEARNING BASED INTRUSION
DETECTION SYSTEM FOR SOFTWARE DEFINED
NETWORK IN BIG DATA CONTEXT
KY SƯ NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
TS LE KIM HUNG
TP HO CHÍ MINH, 2021
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1.Chủ tịch.
2 Thư ký.
3.Ủy viên.
4.Ủy viên.
Trang 4LỜI CẢM ƠN
Trong suốt quá trình học tập và nghiên cứu ở trường Đại Học Công Nghệ Thông Tin
- Đại Học Quốc Gia Thành Phố Hồ Chí Minh, chúng tôi đã được sự giúp đỡ tận tình,
sự sẻ chia từ các thầy cô, bạn bè, các cô chú nhân viên và cùng nhiều người khác đã
và đang học tập và làm việc tại trường Chúng tôi rất trân trọng những sự giúp đỡ mà
mọi người đã dành cho chúng tôi.
Để hoàn thành khoá luận này, chúng tôi muốn đặc biệt cảm ơn sự giúp đỡ của những
người sau đây.
Đầu tiên, chúng tôi bày tỏ lời cảm ơn trân trọng nhất dành cho thầy giáo Tiến sĩ Lê
Kim Hùng - người thầy trực tiếp hướng dẫn khoá luận Thầy đã truyền cảm hứng nghiên cứu khoa học chúng tôi, luôn hướng dẫn tận tình, giúp đỡ chúng tôi trong cuộc sống và công việc trong quá trình làm làm việc cùng thay.
Bên cạnh đó chúng tôi muốn dành lời cảm ơn tới các thầy cô ở khoa Mạng Máy Tính
và Truyền Thông đã giảng dạy những kiến thức quý báu để chúng tôi có thể hoàn
thành khoá luận này, đồng thời gửi lời cảm ơn tới những người bạn, đặc biệt các bạn
ở lớp ATTN2018, đã luôn đồng hành cùng chúng tôi trong suốt hành trình học đại học Chúng tôi cũng gửi lời cảm ơn tới bạn Nguyễn Xuân Dương lớp KHTN2018 đã
cùng chúng tôi trong suốt quá trình làm nghiên cứu khoa học và khóa luận tốt nghiệp.
Cuối cùng, chúng tôi muốn gửi lời cảm ơn tới bố mẹ, gia đình, người thân của chúng
tôi, những người đã luôn đồng hành, tin tưởng và quan tâm giúp đỡ trong những lúc
khó khăn nhất Thiếu đi những sự giúp đỡ quý giá đó, chúng tôi sẽ không thể có được
ngày hôm nay.
Trang 5Chương 1 MO ĐẦU -2222222222222222111222111221111 221111211 2
DD TQ dG ti na ` 2 1.2 Đặt vấn 4b ccccccssssssseescecssssssssccsccessssssscseccsssssneceessesssssseseeseessssseseeseeesssseeeeess 2
1.3 Mục tiêu của đê tài Sc 2c St S1 v11 191511112 1111111 1 111 11x grrrưyn 5
1.4 Đối tượng và phạm vi nghiên cứu -¿2+c++22v2+z++2vvsvrrsrrvscree 7 1.4.1 _ Đối tượng nghiên cứu 2-ccc+c+estrrrrrrreerrrrrrrrrrrree 7
1.4.2 _ Phạm vi nghiên cứu -. -555+5++c+cscseeterererereerrre 7
Chương2 TONG QUAN -2-22222+2222212222211222111 2221112 §
QA Cơ sở lý thuyẾt 222:-222222222211222221111222711222711122221111 21.111 cerxee § 2.1.1 Tổng quan về hệ thống phát hiện xâm nhập - 8 2.1.2 Tổng quan về mang khả lập trình.
2.1.3 Kỹ thuật học máy trong phát hiện xâm nhập -. - 11 2.1.4 Kỹ thuật dữ liệu lớn trong phát hiện xâm nhập
2.2 Các công trình liên quan ¿-¿- + ¿5+5 S+2*+*‡+‡Et£etexexrkerrkererrree 15
Chương 3 NỘI DUNG VÀ PHƯƠNG PHÁP.
3.1 Téng chốn ẽ.ẽ 4a14gĐ:ẦH.L)L 19
3.2 Xây dựng ha tang dữ liệu lớn kết hợp với mạng khả lập trình.
Trang 63.2.1 Kiến trúc mạng khả lập trình ¿++2v+z++2cvvvr+rrssvee 21 3.2.2 Các thành phan phân tích giám sát và phát hiện xâm nhập
3.3 Các bộ dữ liệu -.c c2 2H 222121012122 01212 re 30
3.4 Mô hình phát hiện và phân loại các cuộc tân công mạng
3.4.1 _ Tiền xử lý dữ liệu -.ccccccccErkrrrrrrrrrrrrrrrrerrrrer 37
3.4.2 Huấn luyện mô hình máy học dé phát hiện các cuộc tan công mang38
3.4.3 Huấn luyện mô hình học sâu để phân loại các cuộc tấn công mạng 38 3.4.4 Chỉ số đánh giá mô hình phát hiện và phân loại các cuộc tấn công 42
3.5 Phương pháp thực nghiệm kiểm thử hệ thống -: -z-2 45 3.5.1 Giả lập lưu lượng dữ liệu mạng kiểm định hệ thống 45 3.5.2 Chan lưu lượng mạng của kẻ tan công khi được phát hiện 46 Chương 4 THỰC NGHIEM VÀ ĐÁNH GIA c-:2cc+ccccccsscee 41
4.1 Môi trường thực hiỆn 6-5 St Sky 47
4.2 Kết quả nghiên cứu -22c:¿22222E222++ttEEEEEEEvrrrtrttrrrkvrrrrrrrrrrrrvev 48 4.2.1 Kết qua huấn luyện mô hình ML .cz sccczz+c 48
4.2.2 Kết quả huấn luyện mô hình DL -c¿525c++225sscz+s 51 4.2.3 So sánh kết quả toàn bộ hệ thống với nghiên cứu khác 54 4.2.4 Kết quả triển khai thực tế hệ thống -ccccccc+++crr 56 Chương 5 | TONG KET VÀ HƯỚNG PHÁT TRIẺN - 63
5.1 Kết luận 2 v.v re 63 5.2 Ý nghĩa khoa học . -222+2¿+2222+2E22211122221122212112 E211 63
5.3 Hiệu qua về mặt kinh tế - xã NOL eececcecssecssesssecssesssecssesssesssesssesssesssecased 64 5.4 Hướng phát triển trong tương lai - ::c+22v+zvevvvvrrerrvvvrrerrrer 65 Phụ lục A: Các công bố khoa hỌC ¿ 5c Ss x2 E2 211211111111 111 111111 66
Trang 7TÀI LIỆU THAM KHẢO
Trang 8DANH MỤC HÌNH
Hình I Tổng quan về hệ thống phát hiện xâm nhập [ 10] 2- 2-2 s+sz+s2 9i0n009849i0ã1169)850107777 10Hình 3 Tổng quan về phân loại các thuật toán máy học . ¿- ¿25+ 11Hình 4 Quy trình xử ly dữ liệu lớn dé phát hiện bat thường trong thời gian thực [18]
%ũũÚỖŨỖỒ 15
Hình 5 Tổng quan về kiến trúc hệ thống chúng tôi đề xuất - 2-52 19Hình 6 Kiến trúc mô phỏng SDN 2-2 © £+E£+E£EE#EE+EE+EE+EE£EEEEeEEeEkerkrrkrree 24Hình 7 Tổng quan về mô hình hạ tang dữ liệu lớn dé xuất -2- s2 s2 25Hình 8 Sơ đồ thuật toán hệ thông phát hiện và phân loại cuộc tan công 36Hình 9 Thiết kế mô hình phát hiện va phân loại các cuộc tan công mạng 40Hình 10 Chỉ số accuracy của mô hình trên tập huấn luyện và tập hiệu chỉnh trong
quá trình huấn luyỆn -2 2 2 2 £SE2E2EE2EE9EEEEE2E12E15717112117117171211 1111 42
Hình 11 Mô tả confusion matrix cho bài toán phân loại nhiều nhãn - 44Hình 12 Confusion matrix cho phát hiện tấn công trên tập dữ liệu NF-BoT-IoT-v2
(bên trái là kiểm thử trên tập dữ liệu con, bên phải là toàn bộ dif liệu) 49Hình 13 Confusion matrix cho phát hiện tan công trên tập di liệu NF-CSE-CIC-
IDS2018-v2 (bên trái là kiêm thử trên tập dữ liệu con, bên phải là toàn bộ dữ liệu)
:cđt — 50
Hình 14 Confusion matrix cho phát hiện tấn công trên tập dữ liệu NF-ToN-IoT-v2
(bên trái là kiểm thử trên tập dữ liệu con, bên phải là toàn bộ dữ liệu) 50Hình 15 Confusion matrix cho phân loại tấn công của bộ dtr liệu NF-BoT-IoT-v2 52Hình 16 Confusion matrix cho phân loại tan công của bộ dữ liệu NF-CSE-CIC-
P0027 53
Hinh 17 Confusion matrix cho phan loai tan công của bộ dit liệu NF-ToN-IoT-v2 54
Hình 18 Dia chi IP được gan cho các Host và S€TV€T - .- Ăn se 57
Hình 19 Kiến trúc SDN được khởi tạo thành công với bộ điều khiển ONOS 57
Hình 20 Cac hosts được khởi tao đã hoàn toàn kết nối với nhatl e eee 57
Hình 21 Cấu hình trong nprobe.COnÝ - 2-22 5¿+5+2E++E+2EEt2EEtEE++rxezrxerresree 58
Trang 9Hình 22 Các trường đặc trưng nhận được ở Apache Kafka từ nProbe theo dạng
Impật :555ốỐŸ4 58
Hình 23 Code tạo luồng dữ liệu giữa Spark và Kafka ceccccccccscsssesssesstecstessesseeseeens 58
Hình 24 Log của Spark khi chạy thành công 5 + sen 59
Hình 25 Các luồng lưu lượng mạng được phân tích và trực quan hóa trên giao diện
Aol Ok © ) ce 59
Hình 26 Các luồng lưu lượng mạng được phân tích và trực quan hóa trên giao diện
1002117 4Ả Ô 60
Hình 27 Câu lệnh tan công TCP SYS Flooding - 2 2 2+s2+x£x+zx+zxzzszsez 60
Hình 28 Cảnh báo cuộc tấn công DDoS và thông báo chặn thiết bị được trả về từ
MO Hinh IDS 00 eee 60
Hình 29 Luéng dữ liệu được gửi tới dé chặn vĩnh viễn tat cả lưu lượng từ địa chi IPnguôn 10.0.0.1 tại QVS ¿ 2:-25:©2+2222223222122112211271121121112111211211111 2112111 cre 61Hình 30 Kết quả kiểm tra khi chặn lưu lượng mạng của thiết bị tắn công 62
Hình 31 Câu lệnh thực hiện tan công Port Scanning 2 2 + 5s s+zs2 5+2 62
Hình 32 Cảnh báo cuộc tan công Scanning được trả về từ mô hình IDS 62
Trang 10DANH MỤC BANG
Bang | So sánh giữa các phương thức phát hiện xâm nhâp [ 16] - - - 9 Bang 2 Bang mô tả các đặc trưng của các bộ dữ liệu -+-<<++<s++sss+ 31
Bảng 3 Mô ta tập dữ liệu NF-BO/T-IO7T-V2 2Á + + kS SH HH HH HH gttưệp 33
Bang 4 Mô tả chỉ tiết tập dit liệu NF-ToN-IoT-v22 -¿2s- s+cx+zxzzs+zxsrxcrez 34
Bảng 5 Mô ta tập dữ liệu NF-CSE-CIC-IDS2018-V2 - ác ssessssesske 35
Bảng 6 Chỉ tiết các giá trị siêu tham số tại mỗi lớp 2-2 +s2+s+zx+zxzsz 40
Bang 7 Tổng số lượng mẫu dung dé đánh giá mô hình và thời gian huấn luyện 42
Bang 8 Mô tả confusion matrix cho bài toán phân loại nhị phân 43
Bảng 9 Bảng so sánh kết quả giữa các thuật toán máy học cho mô-đun phát hiện tấn
Bảng 12 Bảng so sánh chỉ số độ chính xác phân loại tân công trên bộ dữ liệu
CSE-CIC-IDS20118 c3 2312 HH HH TT HH HH HT TH HH 56
Trang 11DANH MỤC TU VIET TAT
Số thứ tu | Thuật ngữ Mô tả
1 Al Artificial Intelligence
2 API Application Programming Interface
3 CNN Convolutional Neural Network
4 CPU Central Processing Unit
5 DB Database
6 DBN Deep Belief Network
7 DDOS Distributed Denial-Of-Service
8 DL Deep Learning
9 DNN Deep Neural Network
10 DNS Domain Name System
11 FN False Negative
12 FNR False Negative Rate
13 FP False Positive
14 FPR False Positive Rate
15 FTP File Transfer Protocol
16 GPU Graphics Processing Unit
17 HIDS Host-Based Intrusion Detection System
18 HTTP Hypertext Transfer Protocol
19 IDS Intrusion Detection System
20 IOT Internet Of Thing
21 IP Internet Protocol,
22 KNN K-Nearest Neighbors
23 ML Machine Learning
24 NÑIDS | Network-Based Intrusion Detection System
25 ONOS Open Network Operating System
26 PCA Principal Component Analysis
Trang 1227 RAM Random-Access Memory
28 RBM Restricted Boltzmann Machine
29 RDD Resilient Distributed Datasets
30 RF Random Forest
31 RNN Recurrent Neural Network
32 SDN Software-Defined Networking
34 SSH Secure Shell
35 SVM Support Vector Machine
36 TCP Transmission Control Protocol
Trang 13TÓM TẮT KHÓA LUẬN
Mạng khả lập trình (Software-defined Networking, viết tắt là SDN) đang trở thànhmột trong những giải pháp đầy hứa hẹn cho Internet trong tương lai Là một kiến trúc
mạng mới, linh hoạt và dé quản lý với khả năng lập trình, SDN là một giải pháp hiệu
quả cho các doanh nghiệp lớn dé quản lý giám sát hạ tang mạng của mình Tuy nhiêncũng như các kiến trúc truyền thống khác, SDN phải đối mặt với các mối đe dọa tiềm
ân từ các cuộc tấn công mạng Cùng với sự phát triển của các thiết bị thông minh,lượng dữ liệu lưu thông trên Internet ngày càng nhiều, dẫn tới tầm quan trọng của hệ
thống phân tích dữ liệu và bảo mật thông tin đối với dữ liệu lớn ngày càng tăng lên
Do đó, nghiên cứu này cung cấp giải pháp cho hệ thống phát hiện và phân loại xâmnhập mạng toàn diện và chỉ tiết, phù hợp với kiến trúc mạng khả lập trình trong bối
cảnh dữ liệu lớn.
Cu thé, chúng tôi đã kết hợp thuật toán máy học và học sâu trên công nghệ xử lý dữ
liệu lớn dé xây dựng mô hình phát hiện và phân loại các cuộc tan công Phương phápnày không chỉ giúp giải quyết các van đề về tốc độ và thời gian tính toán của thuậttoán mà còn có thé đảm bảo độ chính xác cao Chúng tôi đã đánh giá mô hình trên ba
bộ dữ liệu với kết quả đạt được rat đáng lưu ý: độ chính xác đạt từ 97% tới 99%, tỉ lệcảnh báo giả chỉ từ 0.37% tới 1.15% khi phân loại nhiều cuộc tấn công khác nhau.Toàn bộ hệ thống đã được chúng tôi triển khai thực nghiệm thành công, tạo nên một
hệ thống phòng thủ vững chắc, không chỉ giúp quản trị viên theo dõi và phát hiệnnhững bắt thường trong lưu lượng mạng của thiết bị mà còn có những hành động cụ
thê đê ứng phó hiệu quả với các cuộc tân công.
Ngoài ra, công trình của chúng tôi còn là một tư liệu hữu ích cho các nhà nghiên cứu
muốn tiếp cận vấn đề này vì nó là một trong những đề tài đi đầu về việc phát triểngiải pháp giám sát, phát hiện và phân loại các cuộc tan công cho kiến trúc SDN trongngữ cảnh dữ liệu lớn Không những thế, kiến trúc mô hình linh hoạt giúp việc ứngdụng của nó phù hợp với mọi quy mô doanh nghiệp Do đó, nó mang lại tiềm năng
ứng dụng rât lớn đôi với các doanh nghiệp trong và ngoài nước.
Trang 14Chương 1 MỞ DAU
1.1 Tên đề tài
Tên tiếng Việt: XÂY DUNG HE THONG PHÁT HIỆN XÂM NHẬP DUA TRENMÁY HỌC CHO MẠNG KHẢ LẬP TRÌNH TRONG NGỮ CẢNH DỮ LIỆU LỚNTên tiếng Anh: BUILDING MACHINE LEARNING BASED INTRUSION
DETECTION SYSTEM FOR SOFTWARE DEFINED NETWORK IN BIG DATA
CONTEXT
1.2 Dat van dé
Sự phát triển bùng nỗ của việc sử dung Internet đã đưa chúng ta vào ky nguyên dữ
liệu lớn Vào đầu năm 2021, có hơn 65% dân số trên thế giới sử dụng Internet (88%
ở Europe và 94% ở North America) [I] Ngoài ra, sự phát triển của các xu hướngcông nghệ hiện nay như IoT, Cloud, mạng xã hội cũng góp phan tạo ra khối dit liệukhống 16 Theo báo của Statista [2], dự kiến vào năm 2030, các thiết bị IoT kết nốiInternet sẽ đạt tới 25.4 tỷ thiết bị tức tăng gấp ba lần so với năm 2020 là khoảng 8.74
tỷ thiết bị Dẫn đến hàng nghìn exabyte (EB) dữ liệu được tạo ra và lưu thông trênInternet hàng ngày với tốc độ chóng mặt Dữ liệu lớn là dữ liệu khó lưu trữ, quản lý
và phân tích bằng công nghệ phần mềm và cơ sở dữ liệu truyền thống Dữ liệu lớn
bao gồm dung lượng lớn và tốc độ cao, cũng như nhiều loại dữ liệu khác nhau đòi hỏi
các công nghệ mới dé xử lý Từ đó, các thách thức về phân tích dữ liệu lớn đã đượcđưa ra trong [3] Các công nghệ hiện đại hơn như điện toán hiệu suất cao, điện toánđám mây, điện toán phân tán đã xuất hiện dé lưu trữ và xử lý các tập dữ liệu không
lồ Các công cụ phân tích dữ liệu tiên tiến cũng cho phép chúng ta trích xuất thông
tin hữu ích từ dữ liệu và sau đó tạo dự báo xu hướng sự kiện Việc phân tích dữ liệu
lớn được ứng dụng rộng rãi trong hầu hết các lĩnh vực như quân sự, y tế, sản xuất Tuy nhiên, với sự gia tăng nhu cầu và lợi ích của dữ liệu lớn, khả năng xảy ra cáccuộc tan công mạng cũng gia tăng với tốc độ tương tự [4]
Trang 15Xung quanh ta đầy rẫy những kẻ xâm nhập như vậy, chúng cố gắng xâm nhập vào hệ
thống mạng nội bộ dé đánh cắp dữ liệu và phá hủy tài nguyên mạng Trong một số
trường hợp, kẻ tấn công truy cập bất hợp pháp vào mạng nội bộ bằng cách khai thác
các lỗ hồng hiện có trong hệ thống Quan trọng hơn, chúng có thể sử dụng một hệthống ân danh hoặc kiểm soát máy tính của người dùng bình thường như thay ma,kiểm soát trái phép chúng mà người dùng không hè hay biết sau đó khởi động các
cuộc tấn công tu chối dịch vụ (DDoS) Hiện nay, các cuộc tấn công từ chối dịch vụ
đã trở thành một trong những mối đe dọa lớn nhất mà các nhà cung cấp dịch vụ phải
đối mặt Khi nhiều hệ thống máy tính làm tràn băng thông của mục tiêu hoặc tàinguyên hệ thống cùng một lúc, một cuộc tấn công từ chối dịch vụ sẽ xảy ra, dẫn đếnviệc cơ sở hạ tầng ngừng hoạt động, đây cũng là một vấn đề nghiêm trọng mà cácnhà cung cấp dịch vụ không muốn gặp phải Từ năm 2018 đến 2019, tần suất các
cuộc tan công DDoS tăng 39% và tần suất các cuộc tan công từ 100 Gbps đến 400Gbps tăng 776% Ước tính đến năm 2023, tông số vụ tan công DDoS sẽ tăng lên 15,4
triệu [5] Các cơ chế bảo mật khác nhau cũng như hệ thống phát hiện xâm nhập (IDS)
đã được đề xuất và sử dụng dé phát hiện các cuộc tấn công như vậy Tuy nhiên, với
số lượng lón, sự đa dạng và tốc độ của dữ liệu được tạo ra trong mạng khiến việc sửdụng các kỹ thuật truyền thống dé phân tích dit liệu dé phát hiện các cuộc tấn công làrất khó khăn Do đó, công nghệ dữ liệu lớn được sử dụng trong IDS nhằm tạo ra một
quy trình phân tích dữ liệu lớn chính xác và hiệu quả hơn.
Hệ thống phát hiện xâm nhập được Denning đề xuất lần đầu tiên vào năm 1986 [6]
Đây là một mô hình có thể phát hiện các hoạt động độc hại và các hành vi bất thường
trong mạng, là nền tang quan trọng dé bảo vệ mạng Tuy nhiên, do sự phát triển đồimới không ngừng của mạng cùng với các kỹ thuật tan công mạng ngày càng tinh vihơn, IDS vẫn là một chủ đề quan trọng đối với các nhà nghiên cứu Cho đến nay, với
sự phát triển của điện toán đám mây, mạng xã hội, IoT va SDN, IDS càng trở nên
quan trọng hơn bao giờ hết IDS có thé giúp các hệ thống khác giảm thiểu và khắc
phục hậu quả của việc xâm nhập bằng cách cung cấp thông tin về cuộc tấn công đượcthực hiện bởi kẻ xâm nhập (chăng hạn như danh tính, cách thức, thời gian và kiểu
Trang 16xâm nhập) Hệ thống phát hiện xâm nhập truyền thống sử dụng các phương pháp pháthiện xâm nhập dựa trên dấu hiệu Nó được xem là phương pháp phát hiện tan công
sớm và chính xác nhất đối với các cuộc tan công đã biết Tuy nhiên, các kiểu tan công
mới không thé bị phát hiện vì dấu hiệu của nó không được biết trước Dé khắc phụcvan dé này, phương pháp phát hiện xâm nhập dựa trên điểm bất thường sẽ so sánhtrạng thái hành vi hiện tại của người dùng với cấu hình được xác định trước để pháthiện hành vi bất thường có thê là hành vi xâm nhập Dù vậy, phương pháp này thường
có tỷ lệ báo động giả khá cao (high false positive rate) [7] Hiện nay, nhiều nghiên
cứu đề xuất áp dụng các thuật toán máy học và học sâu dé cải thiện độ chính xác vagiảm tỷ lệ báo động giả [8] Tuy nhiên, đối với ngữ cảnh dữ liệu lớn, công nghệ họcsâu thường mất nhiều thời gian để huấn luyện và tính toán cũng như phân loại dữliệu Bằng cách kết hợp công nghệ dữ liệu lớn cho hệ thống phát hiện xâm nhập,
các vấn đề về tốc độ và thời gian tính toán của thuật toán có thể được giải quyết
mà vẫn đảm bảo độ chính xác cao.
Mặc khác, những nghiên cứu được tập trung phát triển gần đây triển khai hệ thốngphát hiện xâm nhập với các phương pháp tiếp cận học sâu được dựa trên một kiến
trúc mạng mới - mạng khả lập trình (SDN) [9], [10] SDN là một kiến trúc mạng đầy
hứa hẹn, nó xuất hiện như một giải pháp hiệu quả cho việc quản lý và cấu hình cácthiết bi mạng Kiến trúc này tách rời chức năng điều khiển mang và chuyền tiếp ditliệu, cho phép phần điều khiển mạng có thé được lập trình dé dang SDN có thể được
ứng dụng trong nhìu ngữ cảnh khác nhau và đã được các công ty lớn như Huawel,
Google hay ngân hàng OCB ở Việt Nam đã triển khai rất thành công [11] Với các
ưu điểm nổi bật như điều khiến tập trung hợp lý, chế độ xem toàn mạng, phân tíchlưu lượng dựa trên phần mềm và cập nhật động các quy tắc chuyên tiếp, kiến trúc
SDN đã giúp việc phát hiện xâm nhập dựa trên máy học thuận lợi hơn cũng như tăng
cường an ninh mạng [12] Chế độ xem toàn mạng của bộ điều khiển SDN đơn giản
hóa việc thu thập va phân tích lưu lượng mạng Ngoài ra, khả năng lập trình của SDN
giúp dé dàng đối phó khi phát hiện ra một cuộc tấn công mạng Nhiều nghiên cứu đãđược thực hiện về phát hiện xâm nhập dựa trên máy học trong SDN [13] Tuy nhiên,
Trang 17các nghiên cứu về phát hiện xâm nhập dựa trên SDN trong bối cảnh dữ liệu lớn
vẫn còn hạn chế.
Dé giải quyết các van đề trên, nghiên cứu nay đưa ra một giải pháp kết hợp toàn diện
để xây dựng một hệ thong phát hiện xâm nhập dựa trên máy hoc cho mang khả lập
trình trong ngữ cảnh dữ liệu lớn Đồng thời, đề xuất một phương pháp tận dụng ưuđiểm của SDN dé ứng phó với các cuộc tan công được phát hiện Theo như chúng tôitìm hiểu, giải pháp trong nghiên cứu này là giải pháp đầu tiên đưa ra một môhình hệ thống toàn diện và chỉ tiết về phát hiện xâm nhập ứng dụng cho mạng
khả lập trình (SDN) trong ngữ cảnh dit liệu lớn.
1.3 Mục tiêu của đề tài
Từ vấn đề trên, ta có thể thấy việc thiết kế một hệ thống giám sát và phát hiện xâmnhập cho kiến trúc mạng SDN là chưa đủ Hệ thống phát hiện xâm nhập thông thườngrất khó dé xử lý các luồng dữ liệu lớn với tốc độ cao Do đó, chúng tôi cần xây dựngmột mô hình hạ tầng đữ liệu lớn tích hợp IDS với nhu cầu giám sát và phát hiện phân
loại các cuộc tan công với tốc độ cao Với định hướng đó, mô hình phù hợp hạ tang
dữ liệu lớn được chúng tôi dé xuât và thiệt kê phải có bôn ưu điêm sau:
e_ Tích hợp linh hoạt các công nghệ - giúp doanh nghiệp có nhiều lựa chọn
hơn cho các công nghệ kỹ thuật cũng như các công cụ hiện hành Do đó, tận
dụng được các công nghệ kỹ thuật hiện có của doanh nghiệp kết hợp vớicác công nghệ kỹ thuật mới dé áp dụng giải pháp dữ liệu lớn này
e Tối ưu hiệu suất với mô hình phân tán - mô hình chúng tôi có khả năng
tích hợp các hệ thống phân tán cho phép các giải pháp hiệu suất cao và có
khả năng mở rộng nhưng vẫn đảm bảo được độ chính xác.
e Linh hoạt về quy mô - với khả năng mở rộng vốn có trên tat cả các thành
phan, doanh nghiệp có thé linh hoạt điều chỉnh quy mô công việc nhỏ hoặclớn phù hợp với nhu cầu doanh nghiệp, giúp tiết kiệm được tài nguyên và
tiên bạc.
Trang 18e _ Tương thích tốt với các giải pháp của doanh nghiệp hiện đại - các thành
phần của hạ tầng dữ liệu lớn có thể được sử dụng cho các giải pháp khác
như IoT hay doanh nghiệp lớn và cho phép tích hop các giải pháp dé dàng.
Không những thế, mô hình phát hiện và phân loại các cuộc tấn công mạng được tích
hợp trên mô hình trên sử dụng các kỹ thuật máy học phải tối ưu về khả năng tính toáncũng như vẫn đảm bảo được độ chính xác cao Cách tiếp cận này được xem như mộtgiải pháp an ninh mạng, giúp quan trị viên dé dang giám sát và phân tích các luồng
dữ liệu mạng cũng như phản ứng kịp thời với các cuộc tấn công Do đó, chúng tôi sẽ
thiết kế và huấn luyện mô hình này trên nhiều tập dữ liệu uy tín khác nhau với mức
kì vọng về độ chính xác cũng như tốc độ xử lý cao đối với cả việc phát hiện và phânloại các cuộc tấn công khác nhau Đề làm được điều đó, chúng tôi cần nghiên cứu cácloại dữ liệu hỗ trợ phân tích và giám sát theo luồng dé tối ưu về tốc độ Từ đó đề xuất
một loại dữ liệu tốt nhất và chọn ra những trường đặc trưng cơ bản thường được sử
dụng dé phản ánh tổng quan về các cuộc tan công trong kiến trúc SDN
Mặc khác, mô hình hệ thông phải được triển khai thực nghiệm cũng như kiểm định
được độ hiệu quả của IDS được tích hợp trong mô hình này Vì thế, chúng tôi cần
xây dựng một mạng mô phỏng kiến trúc SDN giống như doanh nghiệp Đồng thời,chúng tôi cần tạo ra các lưu lượng mạng thông thường cũng như thực hiện các cuộctấn công lẫn nhau trên các thiết bị để kiểm thử mô hình này trong ngữ cảnh thực tế.Khi phát hiện được các cuộc tấn công, tận dụng khả năng lập trình và quản lý linh
hoạt của SDN, chúng tôi phải xây dựng được một giải pháp dé kịp thời ngăn chặn các
cuộc tấn công này Bên cạnh đó, các thông số trong lưu lượng mạng cũng như các
cảnh báo về các cuộc tấn công đều phải được trực quan hóa trên giao diện web, kết
hợp với giao diện quản lý của bộ điều khiển SDN giúp quản trị viên có cái hình tổngquát về toàn thê các thiết bị có trong mạng và lưu lượng truy cập của chúng
Trang 191.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
¢ Mô hình phát hiện và phân loại các cuộc tan công mạng trong ngữ cảnh dữ
liệu lớn.
e Mô hình kiến trúc hệ thống có khả năng phân tích giám sát dữ liệu lớn trong
kiến trúc mạng khả lập trình tích hợp IDS được đề xuất
1.4.2 Phạm vỉ nghiên cứu
Trong đề tài này, chúng tôi tập trung thiết kế một mô hình hệ thống tích hợp hệ thông
phát hiện xâm nhập cho kiến trúc SDN trong ngữ cảnh dit liệu lớn Hiện nay, các IDSthông thường đã không đủ khả năng hoạt động tốt khi xử lý các luồng dit liệu lớn vớitốc độ cao Thế nên, chúng tôi sẽ xây dựng một quy trình phân tích giám sát dữ liệulớn trong thời gian thực dựa trên mô hình hệ thống phân tán và tích hợp IDS được đề
xuât vào đó đê phát hiện và phân loại các cuộc tân công mạng.
Đồng thời, IDS do chúng tôi xây dựng sẽ dựa trên phương pháp kết hợp thuật toán
máy học và học sâu nhằm tối ưu về tốc độ xử lý nhưng vẫn đảm bảo được độ chínhxác cao Mô hình này sẽ được chúng tôi triển khai thực nghiệm và đánh giá các chỉ
số trên các tập dữ liệu uy tín Bên cạnh đó, với khả năng lập trình mạnh mẽ trong kiếntrúc SDN, chúng tôi sẽ nghiên cứu đưa ra một giải pháp phản ứng lại các cuộc tấn
công được phát hiện.
Trang 20Chương 2 TONG QUAN
2.1 Cơ sở lý thuyết
2.1.1 Tổng quan về hệ thống phát hiện xâm nhập
Chức năng chính của IDS là giám sát các nguồn thông tin, như máy tính hoặc mạng,
với các hoạt động truy cập trái phép Nó thu thập dữ liệu từ các hệ thống và nguồnmạng khác nhau sau đó phân tích dữ liệu dé tìm các mối đe dọa có thé xảy ra [14]
Do đó, IDS cần phải xử lý được các gói tin trong môi trường phức tạp như lưu lượngmạng lớn và phân phối dữ liệu không đồng đều IDS được phát triển thêm thành hệthong phát hiện xâm nhập mạng (NIDS) va hệ thong phát hiện xâm nhập dựa trênmáy chủ (HIDS) Hình 1 cho thấy tông quan chung về IDS dựa trên các kỹ thuật phát
hiện được triển khai và môi trường triển khai.
Như thể hiện trong Hình 1 [10], các hệ thống phát hiện xâm nhập có thể được thực
hiện bằng các phương pháp và kỹ thuật khác nhau Một số cơ chế đã được phát triển
để phát hiện các bất thường, được phân loại thành các phương pháp thống kê, phương
pháp khai thác dữ liệu và phương pháp dựa trên máy học [15] NIDS có thé được thực
hiện bằng cách sử dụng hai kỹ thuật phát hiện: phát hiện dựa trên dấu hiệu và pháthiện dựa trên bất thường NIDS dựa trên dấu hiệu bị giới hạn trong việc phát hiện cácmối de doa nguy hiém đã biết Sự kết hợp của tiêu đề gói tin và các quy tắc kiêm tra
nội dung gói được áp dụng cho hệ thống phát hiện từ các luồng lưu lượng bat thường
thông qua đặc ta dấu hiệu Các kỹ thuật phát hiện bat thường được thiết kế dé tự độnghiểu các cuộc tấn công không xác định và không thê đoán trước đối với NIDS dựatrên dấu hiệu [15] Phương pháp máy học là một trong những ví dụ về kỹ thuật phát
hiện xâm nhập dựa trên sự bất thường Có một số tiêu chí đánh giá dé so sánh hiệu
suất của các thuật toán trong NIDS như độ chính xác (Accuracy), tỷ lệ âm tính giả
(FNR), tỷ lệ dương tính gia (FPR), thời gian sử dụng, mức tiêu thụ bộ nhớ Accuracy,
FNR và FPR thường được sử dụng làm tiêu chí đánh giá cho NIDS [16] So sánh hai
kĩ thuật phát hiện dựa trên các tiêu chí hiệu suất khác nhau cho NIDS được thể hiện
trong Bang 1.
Trang 21Bảng 1 So sánh giữa các phương thức phát hiện xâm nhâp [16]
Detection technique Alarm Rate Speed _ Flexibility Reliability Scalability Robustness
Signature Low High Low High Low Low
Anomaly High Low High Moderate High High
a ntrusion Detection Intrusion Technique
HIDS Anomaly Based] | Signature Based
Open Networking Foundation (ONE) là một trong những kiến trúc phù hợp cho SDN
Trong Hình 2, minh họa tổng quan về kiến trúc lưu trữ SDN với ba tang chức năngchính: tang cơ sở hạ tầng (Infrastructure Layer), tầng điều khién (Control Layer) vàtầng ứng dụng (Application Layer) [11]
e Tầng cơ sở hạ tầng: còn được gọi là Data Plane Nó chủ yếu bao gồm
các bộ chuyên mạch vật lý được kết nối với nhau thông qua phương thức
có dây hoặc không dây Ví dụ các bộ chuyển mạch vật lý thông dụng như
Cisco, Juniper, HP, và các bộ chuyên mạch ảo như OpenvSwitch [17]
e Tầng điều khiến: còn được gọi là Control Plane Nó bao gồm các bộ
điều khién SDN cung cấp các chức năng điều khiển thông qua các API
Trang 22để giám sát hành vi chuyền tiếp mạng thông qua giao diện công khai Ba giao diện cho phép bộ điều khiển tương tác là giao điện hướng nam, hướng bắc và hướng đông-tây Cac API hướng nam được sử dụng dé giao tiếp giữa bộ điều khiển và phần cứng mạng máy tính Các giao diện hướng bắc được sử dụng giao tiếp giữa tang ứng dụng và tầng điều khiển.
Các giao điện hướng đông-tây sử dụng chủ yếu đề giao tiếp giữa các bộ điều khiển.
e _ Tầng ứng dụng: bao gồm các ứng dụng của người dùng cuối.
Software-Defined Networking Network Applications
Application Layer
Infrastructure
es
Hình 2 Kiến trúc SDN [11]
2.1.2.2 Hệ thống phát hiện xâm nhập cho mạng khả lập trình
Tận dụng tính năng mở rộng của SDN, một số ứng dụng của SDN đã được phát triển
để tăng tính linh hoạt của mạng, giảm thời gian va chi phí quản lý cơ sở hạ tang mạng
trong tương lai Hơn nữa, do sự gia tăng các cuộc tấn công mạng gần đây, kiến trúc SDN đã được sử dụng để phát triển và triển khai nhanh chóng trên các dịch vụ mới
trong nhiều lĩnh vực khác nhau như truyền thông không dây, trung tâm dữ liệu,
SDN-10
Trang 23Based Cloud và môi trường dân cư [18] Hệ thống phát hiện xâm nhập dựa trên SDN
sử dụng cách tiếp cận ML/DL cũng cho thay nhiều lợi thế như tăng cường bảo mật mạnh mẽ và cung cấp tính linh hoạt dé lập trình các thiết bị mạng cũng như loại bỏ
sự phụ thuộc vào phần cứng Do đó, việc triển khai IDS trên nền tảng SDN là điều tất yếu.
2.1.3 Ky thuật hoc máy trong phát hiện xâm nhập
Lĩnh vực học máy (Machine Learning — viết tắt ML) được dành riêng cho việc phát triển các hệ thống có thé tự động học từ dữ liệu cũng như xác định các dâu hiệu hay đặc tính ẩn mà không cần phải lập trình một cách rõ ràng [14] Kỹ thuật máy học
được coi là phương pháp hiệu quả đề tăng tỷ lệ phát hiện, giảm tỷ lệ cảnh báo sai
đồng thời giảm chỉ phí tính toán và truyền thông [14] so với các phương pháp dựa vào điểm bất thường khác Các phương pháp máy học có thé được phân loại thành
học có giám sát, không giám sát và học bán giám sát (Hình 3).
Supervised Recurrent Unsupervised
Nay >] Neural [ Way
Network
| —y| Auto-Encoder
Convolutional Deep Belief
—3 Neural I—} Network
Trang 24Học có giám sát: các thuật toán học các biểu diễn từ dữ liệu đầu vào được gắn nhãn
dé dự đoán các trường hợp chưa biết Ví dụ về các thuật toán máy học có giám sát là
Support Vector Machine (SVM) cho các bài toán phân loại và Random Forest (RF)
cho các bài toán phân loại và hồi quy [19] Các thuật toán SVM được sử dụng rộng rãi trong nghiên cứu NIDS do khả năng phân loại mạnh mẽ và tính thực tiễn của nó.
Thuật toán này phù hợp với dữ liệu nhiều chiều, nhưng việc lựa chọn một hàm hạt
nhân phù hợp là rất quan trọng Nó rất tốn tài nguyên, đòi hỏi khả năng xử lý tính toán và bộ nhớ rất lớn [14] Thuật toán RF là một cách tiếp cận mạnh mẽ để xử lý hiệu quả với dữ liệu mat cân bằng, tuy nhiên nó có xu hướng over-fitting.
Học không giám sát: các thuật toán học cấu trúc và biểu diễn từ đữ liệu đầu vào
không được gắn nhãn Mục tiêu của thuật toán học không giám sát là mô hình hóa cấu trúc cơ bản hoặc phân bó trong dữ liệu dé dự đoán dữ liệu chưa biết [14] Ví dụ
về thuật toán học tập không giám sát là các kỹ thuật giảm đặc trưng như Principal
Component Analysis (PCA) và kỹ thuật phân cụm, ví dụ, Self-Organizing Map
(SOM) Principal Component Analysis (PCA) là một thuật toán được sử dụng để tăng tốc đáng kể việc học các đặc trưng bằng cách giảm chiều dữ liệu [20] Nhiều nhà
nghiên cứu sử dụng PCA để lựa chọn đặc trưng trước khi áp dụng phân loại Các
thuật toán phân cụm như K-means và các thuật toán học tập dựa trên khoảng cách
khác được sử dụng dé phát hiện bat thường SOM là một mạng nơ-ron nhân tạo được
sử dụng để giảm tải trọng trong NIDS Nhược điểm của việc sử dụng các thuật toán phân cụm trong phát hiện bất thường là các thuật toán phân cụm cần khởi tạo tham
số đầu vào một cách chủ quan, ví dụ, điểm trung tâm của mỗi cụm (centroid), và có thể tạo ra tỷ lệ cảnh báo giả cao [21].
Học tập bán giám sát: là một loại học tập có giám sát cũng sử dụng dữ liệu không
được gắn nhãn đề đào tạo Dữ liệu đào tạo bao gồm một lượng nhỏ dữ liệu được gắn nhãn và một số lượng lớn dữ liệu không được gắn nhãn Nó phù hợp với các trường
hợp không có sẵn một lượng lớn dit liệu được gắn nhãn, ví dụ, các kho lưu trữ ảnh
trong đó chỉ một số hình ảnh được gắn nhãn (ví dụ: người) và hầu hết chúng đều không được gắn nhãn SVM, được sử dụng để nâng cao độ chính xác của NIDS [22].
12
Trang 25Hai phương pháp tiếp cận phân loại bán giám sát Spectral Graph Transducer và Gaussian Fields được sử dụng để phát hiện các cuộc tấn công chưa biết và một phương pháp phân nhóm bán giám sát MPCK-means được sử dụng dé cải thiện hiệu suất của hệ thống
Thuật toán học s:
phát hiện [23].
âu (Deep Learning, viết tắt DL): là một mô hình mới cho mạng
nơ-ron nhân tạo khai thác khả năng tính toán phong phú với mức tiêu thụ tài nguyên hợp lý Học sâu cl ho phép một thuật toán học cách biểu diễn dữ liệu với nhiều mức
độ tổng quát hóa khác nhau Các phương pháp này đã được áp dụng để nhận dạng đối
tượng trực quan, phát hiện đối tượng, phát hiện xâm nhập mạng và nhiều lĩnh vực
khác [24] Một thuật toán học sâu có thể được đảo tạo theo cách có giám sát và khong
giám sát [14].
¢ DL có giám sát: Mạng no-ron tích chập (CNN) [24] được thường được
huấn luyện theo phương pháp có giám sát CNN hiện là mô hình chuẩn
cho lĩnh vực thị giác máy tính Kiến trúc CNN thường sử dụng trên hình ảnh 2D và ứng dụng nồi bật nhất của CNN là nhận dang khuôn mặt [25].
e DL không giám sat: Thuật toán Autoencoder [26] được sử dụng để học
cách biểu diễn (mã hóa) cho một tập dữ liệu để giảm số chiều Deep
Belief Network (DBN) [27] có thé học cách tái cấu trúc lại các đầu vào của nó trong quá trình huấn luyện Các lớp sau đó hoạt động như bộ phát
hiện đặc trưng dựa trên đầu vào Sau bước huấn luyện này, DBN được
huấn luyện bổ sung bằng phương pháp học có giám sát dé thực hiện phân loại DBN cũng giống như Restricted Boltzmann Machines (RBM) [25]
hoặc Autoencoder được áp dụng cho phương pháp giảm số chiều, hồi
quy, feature learning, v.v.
2.1.4 Ky thuật dữ liệu lớn trong phát hiện xâm nhập
Mặc khác, khi tốc
liệu lớn với tốc độ
độ của lưu lượng mạng tăng lên từng ngày, dẫn đến việc tạo ra dữ
cao, việc chỉ ứng dụng ML/DL cho IDS là chưa đủ Trong thời đại
như vậy, chúng ta cần một hệ thống phát hiện xâm nhập có thể hoạt động hiệu quả
Trang 26trong môi trường tốc độ cao Hình 4 minh họa trình tự từ dưới lên của các quy trình
xử lý dữ liệu lớn để phát hiện bất thường theo thời gian thực, trong đó các thiết bị
thông minh khác nhau được giao tiếp thông qua các công nghệ mạng hiện đại [18]
Các thiết bị như Vậy tạo ra rất nhiều dữ liệu cảm biến, được lưu trữ trên đám mây vàcác thiết bị lưu trữ khác Các tập dữ liệu này được thu thập từ các thiết bị cảm biếnsau đó xử lý bằng công nghệ xử lý dữ liệu lớn, chang hạn như Hadoop, Spark, Apache
và kết quả được sử dụng đề phân tích và phát hiện bất thường bằng thuật toán máyhọc Do đó việc ứng dụng quy trình này cho hệ thống phát hiện xâm nhập dựa trên
SDN được chúng tôi đề xuất như một giải pháp mới dé giải quyết các van đề kẻ trên
14
Trang 27Network and Storage Infrastructure
Hình 4 Quy trình xử ly đữ liệu lớn dé phát hiện bat thường trong thời gian thực [18]
2.2 Các công trình liên quan
Trong những năm gần đây, các nhà nghiên cứu đang triển khai IDS dựa trên ML trongSDN và nhận thấy rằng độ chính xác của IDS đã được cải thiện rất nhiều do lợi ích
của các thuật toán dựa trên ML và khả năng mở rộng của SDN mang lại Hơn thế
nữa, khả năng lập trình của SDN giúp dé dang phản ứng nhanh với các cuộc tan côngmạng khi được phát hiện Một số công trình nghiên cứu đã được thực hiện dé triển
15
Trang 28khai NIDS, với các thuật toán ML/DL trong kiến trúc SDN chang hạn như phát hiện
phân loại các luồng lưu lượng mạng theo nhị phân (bình thường và bất thường) hoặcphân loại theo các kiêu tan công khác nhau
Song va cộng sự [28] đề xuất một hệ thống nhận biết mối đe doa dé phát hiện và đối
phó với sự xâm nhập mạng trong SDN, bao gồm tiền xử lý dữ liệu, mô hình hóa dữliệu và dự đoán sau đó hệ thống con ra quyết định và phản ứng Đầu tiên, chiến lượclựa chọn đặc trưng chuyên tiếp được sử dụng bởi hệ thống tiền xử lý dữ liệu để chọn
các tập đặc trưng thích hợp Sau đó, các thuật toán DT và RF được áp dung bởi hệ
thống mô hình dự đoán dữ liệu để phát hiện các hành vi độc hại Dựa trên kết quả
phát hiện xâm nhập, hệ thống ra quyết định và phản hồi sử dụng định tuyến dé cài đặtcác quy tac luồng khác nhau cho các kiêu luồng khác nhau Các thí nghiệm toàn diện
đã được thực hiện và kết quả cho thấy rằng bằng cách sử dụng chiến lược lựa chọnđặc trưng chuyên tiếp, hệ thong nhận biết mối de doa được dé xuất có thé giảm thời
gian xử lý lưu lượng trong khi van duy trì độ chính xác phát hiện xâm nhập cao.
Tang và cộng sự [9] tích hợp thuật toán bất thường vào các bộ định tuyến OpenFlow
bang cách sử dụng một bộ điều khiển Họ đã xây dựng một mô hình DNN dé đơn
giản hóa các đặc trưng của lưu lượng truy cập bình thường và bat thường
Wang và cộng sự [29] đề xuất một SVM dựa trên hành vi được cải thiện để phân loạicác cuộc tan công mạng Dé tăng độ chính xác của việc phát hiện xâm nhập và tăng
tốc độ huấn luyện các mẫu bình thường và xâm nhập, DT được sử dụng như một
phương pháp giảm đặc trưng dé nâng thứ hạng các đặc trưng thô và chọn các đặctrưng đủ điều kiện nhất Các đặc trưng đã chọn này là dữ liệu đầu vào dé đào tạo bộ
Trang 29Shone và cộng sự [31], đề xuất một phương pháp phát hiện xâm nhập dựa trên học
sâu mới được gọi là NDAE Dé tăng tốc độ phát hiện xâm nhập trong khi duy trì độchính xác phát hiện cao, NDAE kết hợp phương pháp học sâu và RF, trong đó phươngpháp học sâu được áp dụng đề giảm đặc trưng và RF được sử dụng để phân loại lưu
lượng và phát hiện xâm nhập.
Mặc khác, các cuộc tấn công DDoS là một mối đe dọa lớn đối với an ninh mạng trongkiến trúc SDN Tại đó, cuộc tấn công DDoS có thé làm cạn kiệt mạng, tài nguyên lưutrữ và máy tính trong mặt phang dữ liệu và mặt phang điều khiến, điều này sẽ làm
cho mạng SDN không khả dụng Do đó, việc phát hiện tắn công DDoS rất quan trọng
đối với hoạt động bình thường của mạng SDN
Barki và cộng sự [32] triển khai IDS mới trong bộ điều khién SDN dé phát hiện các
cuộc tấn công DDoS IDS được dé xuất bao gồm hai mô-đun: IDS dựa theo dấu hiệu
và IDS nâng cao Các thuật toán ML khác nhau, chăng hạn như K-Nearest Neighbors
(KNN), Naive Bayes, k-means và k-medoids, được sử dụng bởi mô-đun IDS dựa theo
dau hiệu dé phân loại luồng lưu lượng là bình thường và bất thường rồi tìm ra mộttập hợp các máy chủ có hành vi bất thường Sau đó, các gói được gửi bởi các máychủ này có hành vi bat thường sẽ được kiêm tra bởi mô-đun IDS nâng cao dé pháthiện xem máy chủ là người dùng bất thường hay được ủy quyền Băng cách này, thờigian xử lý của mô-đun IDS nâng cao được giảm xuống vì chỉ những máy chủ có hành
vi bất thường mới cần được phân tích
Li và cộng sự [33], một mô hình học sâu được sử dụng để phát hiện các cuộc tấn công
DDoS trong SDN RNN và CNN được đưa vào mô hình hoc sâu Mô hình học sâu
bao gồm một lớp đầu vào, một lớp đệ quy thuận, một lớp đệ quy ngược, một lớp an
được kết nối đầy đủ và một lớp đầu ra Sau khi thu thập và phân tích thông tin đặc
trưng lưu lượng mạng, mô hình học sâu được sử dụng dé giảm thiểu đặc trưng và pháthiện tan công DDoS
Với sự xuât hiện của dữ liệu lớn, nhiêu nhà nghiên cứu cũng đã có y định sử dụng kỹ
thuật dữ liệu lớn để tạo ra hệ thống phát hiện xâm nhập tốc độ cao và chính xác
17
Trang 30Ferhat và cộng sự [34] đã sử dụng kỹ thuật học máy cum Các tác giả đã sử dung
phương pháp k-Means trong thư viện học máy trên Spark dé xác định xem lưu lượngmạng là tan công hay bình thường Trong phương pháp đề xuất, KDD Cup 1999 được
sử dụng cho việc đào tạo và thử nghiệm.
Peng và cộng sự [35] đề xuất một phương pháp phân cụm cho IDS dựa trên Mini
Batch K-means kết hợp với PCA Phương pháp PCA được sử dụng để giảm kích
thước của tập dữ liệu đã xử lý và sau đó phương pháp mini-batch K-mean ++ được
sử dụng dé phân cum dữ liệu Tập dữ liệu KDDCup1999 day đủ đã được sử dụng dé
kiêm tra mô hình được dé xuât.
Belouch và cộng sự [36] đã đánh giá hiệu suất của các thuật toán phân loại SVM,Naive Bayes, DT và RF của IDS bang Apache Spark So sánh hiệu suất tong thé được
đánh gia trên tap dữ liệu UNSW-NB15 về độ chính xác, thời gian đào tạo và thời gian
dự đoán.
Với các công trình nêu trên, các nhà nghiên cứu vẫn đang tìm cách phát hiện các cuộc
xâm nhập hiệu quả với hiệu suất cao, tốc độ cao và tỷ lệ cảnh báo giả thấp Tuy nhiên,
đề tài này nhắm mục tiêu tới việc thiết kế một hệ thống vận dụng kỹ thuật dữ liệu lớntích hợp vào hệ thống phát hiện xâm nhập cho kiến tric SDN nhăm giúp quản trị viên
dễ dàng giám sát lưu lượng mạng cũng như có thể phản ứng nhanh chóng đối với các
cuộc cuộc tân công Đê tài này van là một dé tài mới và mang lại nhiêu hứa hẹn.
18
Trang 31Chương 3 NỘI DUNG VÀ PHƯƠNG PHÁP
cả các doanh nghiệp lớn và nhỏ.
Controller h ‘ Big Data Infrostructure Ì
Mỹ
External SDN Controller Network Source:
Database and Reporting
Hình 5 Tổng quan về kiến trúc hệ thống chúng tôi đề xuất
Đề dễ dàng quan sát, chúng tôi chia nó thành 2 phần chính bao gồm: mạng mô phỏngSDN trong doanh nghiệp (Hình 6) và cơ sở hạ tầng dt liệu lớn (Hình 7) về phía môhình mạng SDN, chúng tôi xây dựng cấu trúc mạng dựa trên mô hình thủ nhỏ của
doanh nghiệp với 9 Host (h11-h33) và 3 Server (Database Server - h41, Web Server
- h42, App Server - h51) cùng với 10 bộ chuyên mạch (S1-S10), trong đó 5 bộ chuyênmach màu đỏ (S1-S5) được tích hợp OpenvSwitch (OVS) [17] dé trích xuất cácNetFlow (luồng dữ liệu hiệu quả để giám sát và phân tích các cuộc tấn công mạng
[37]) tới bộ thu thập luồng (Collector) dé tiến hành phân tích giám sát dữ liệu Cơ sở
hạ tầng dit liệu lớn của chúng tôi có quy trình xử lý bao gồm 5 khối chính: Collector,
19
Trang 32Distributed System, Stream Processing, Analytical Database, Analytics and Reporting.
Khối đầu tiên - Collector giống như tên gọi của nó, khối nay được dùng dé thu thập
các luồng dữ liệu mạng được trích xuất bởi thiết bị OVS đồng thời chọn lọc cáctrường dữ liệu cần thiết để chuyền tiếp vào khối thứ hai - Distributed System Bên
cạnh đó, dé đánh giá model AI một cách khách quan bang confusion matrix chúng tacần chọn và đánh giá dựah trên tập dữ liệu uy tín, do đó khối này phải hỗ trợ đọcđược dữ liệu từ các tệp pcaps (khối External Network Source) đề trích xuất các trường
dữ liệu cần thiết cho mô hình huấn luyện
Với mục tiêu đáp ứng yêu cầu xử lý dữ liệu lớn với hiệu suất cao cũng như đảm bảotính nhân rộng quy mô, mô hình bắt buộc phải được xây dựng với khả năng xử lýphân tán và khối Distributed System đại diện cho đặc tính này Mặc khác, đối với cácgiải pháp bao gồm xử lý nguồn dữ liệu trong thời gian thực, một số giải pháp cần một
kho lưu trữ nạp tạm thời hoạt động như một bộ đệm dữ liệu, hỗ trợ xử lý theo quy
mô, đảm bảo không mất mát dữ liệu cũng như khả năng phân phối đáng tin cậy Cáctính chất trên sẽ được chúng tôi gói gọn trong khối Distributed System
Sau khi đã có được các luồng dữ liệu sẵn sàng, chúng ta cần tiễn hành xử lý chúngnhư lọc, tong hợp, hay chuẩn hóa sau đó đưa vào mô hình phát hiện và phân loại cáccuộc tan công Và khối thứ ba - Stream Processing sẽ đảm nhiệm công việc này Tại
khối này, các dữ liệu sẽ được tiền xử ly và đưa vào các thuật toán ML hay DL để tính
toán và tìm ra các mối đe dọa trong các luồng dữ liệu Day được xem là phan cốt lõiđóng vai trò quan trọng như một hệ thống AI-IDS Bên cạnh đó, dé đảm bảo kha năngphát hiện sớm, khối này cũng là nơi sẽ phản ứng ngăn chặn các cuộc tan công phát
hiện được băng cách sử dụng các API được hỗ trợ từ bộ điều khiển SDN
Nhiều giải pháp dữ liệu lớn chuẩn bị dữ liệu dé phân tích sau đó cung cap dữ liệu đã
xử lý ở định dạng có cau trúc có thé được truy van bằng các công cụ phân tích Hay
trong dé tài này, các luồng di liệu gốc sẽ được lưu trữ vào một cơ sở dữ liệu sau đó
kết hợp với bộ phân tích để trực quan hóa dữ liệu Và cơ sở dữ liệu đó chính là khối
20
Trang 33thứ tư — Analytical Database Với nhu cầu truy vấn nhanh kết hợp với khả năng mở
rộng linh hoạt, co sở dữ liệu NoSQL, cơ sở dữ liệu được tối ưu hóa dành riêng cho
các ứng dụng yêu cầu mô hình đữ liệu lớn linh hoạt và độ trễ thấp là một công nghệ
tốt dé đáp ứng những yêu cầu nay Do đó, Analytical Database là nơi lưu trữ các ditliệu đã được xử lý với khả năng truy vấn linh hoạt thường được đặt các công cụ sửdụng công nghệ NoSQL dé hỗ trợ lưu trữ và truy van cho các ứng dụng phân tích dữ
liệu lớn.
Và cuối cùng, mục tiêu của hầu hết các giải pháp dữ liệu lớn là cung cấp thông tinchi tiết về dữ liệu thông qua phân tích và báo cáo Khối thứ năm - Analysis and
reporting sẽ đóng vai trò truy vấn đữ liệu từ Analytical Database, phân tích hiển thị
các luồng dữ liệu một cách trực quan Giúp các doanh nghiệp dễ dàng giám sát xuhướng của các luồng dữ liệu Là bước đệm cho các quyết định sáng suốt trong tương
lai.
3.2 Xây dung hạ tang dữ liệu lớn kết hợp với mang khả lập trình
3.2.1 Kiến trúc mang khả lập trình
Đề giảm sát và phân tích bảo mật mạng, điều kiện cần là phải thu thập và ghi lại lưu
lượng mạng một cách chính xác Hiện nay, có hai xu hướng chính cho quá trình này
đó là thu thập các gói lưu lượng mạng hoàn chỉnh và thu thập bản tổng hợp tóm tắtcác gói mạng ở dạng luồng Việc thu thập các gói hoàn chỉnh giúp ta toàn quyền truycập và phân tích lưu lượng mạng một cách chỉ tiết, tuy nhiên khi ghi lại lưu lượngmạng trong thời gian ngăn nó cũng có thể yêu cầu dung lượng lưu trữ dữ liệu lớnngay cả đối với mô hình mạng nhỏ Việc đó không chỉ dẫn tới khó khăn trong việcphân tích mà còn phải đối mặt với quyền riêng tư cũng như các van đề về bao mậtkhác Do đó, đối với các doanh nghiệp lớn, phương pháp thu thập các luồng tóm tắtlưu lượng mạng được ưa chuộng và phổ biến hơn do tính dé mở rộng của nó Mỗiluồng mạng xác định một chuỗi các gói giữa hai điểm dich có thé là một chiều hoặchai chiều sau đó tổng hợp chúng thành một số thuộc tính chung Vì thế thông qua
21
Trang 34việc theo dõi các thông tin của luồng mạng, ta không chỉ có thé giám sát và phân tích
bảo mật mạng mà còn có thể lập kế hoạch mạng thích hợp [38]
Trong mang SDN, bộ điều khién và các thiết bị chuyên mach giao tiếp với nhau thông
qua giao thức chuyền mạch OpenFlow (OpenFlow Switching Protocol) giúp các quảntrị viên có thé thay đồi bat kỳ quy tắc nào trên các thiết bị chuyên mach thông qua bộ
điều khiển khi cần thiết như ưu tiên, loại bỏ hay thậm chí chặn các gói tin cụ thê vớimức độ kiểm soát và bảo mật có độ chỉ tiết cao Việc này đặc biệt hữu ích trong kiến
trúc điện toán đám mây với quy mô lớn, bởi nó cho phép người quản trị quản lý lưu
lượng một cách hiệu quả, linh hoạt Tuy nhiên nó vẫn chưa được phát triển đặc biệt
dé xuất dữ liệu cũng như giám sát mạng một cách hiệu quả [37] Do đó, Netflow
-một giao thức mang phổ biến hơn được phát triển bởi Cisco dé thu thập số liệu thống
kê lưu lượng IP và giám sát lưu lượng mạng với tính tương thích cao trên nhiều thiết
bi, được xem là một lựa chọn hiệu quả dé giai quyét van dé nay Bộ định tuyến vàthiết bị chuyên mạch hỗ trợ NetFlow có thê thu thập thống kê lưu lượng IP sau đó
xuất các thống kê đó dưới dạng bản ghi NetFlow cho các bộ thu thập luồng dé tiến
hành xử lý và phân tích IPFIX (IP Flow Information eXport) - một phiên bản mở
rộng của Netflow v9, được định nghĩa trong [39] là một giao thức truyền tải độc lập,đơn hướng với khả năng biểu diễn dữ liệu linh hoạt, cùng với đó theo [37] IPFIX làgiao thức tốt nhất dé giám sát dir liệu mạng theo luồng lúc bay giờ Do đó, trong bàibáo này, chúng tôi sử dụng IPFIX (hay còn gọi là NetFlow) như là luồng dữ liệu
chính được trích xuất ra từ SDN bằng công cụ Open vSwitches (OVS) [17] thực hiện
phân tích, giám sát lưu lượng và phát hiện xâm nhập mạng.
Dé thuận tiện cho việc triển khai và kiểm thử hệ thống, chúng tôi thiết kế một mô
hình mạng giả lập (Hình 6) Lấy ý tưởng từ những cấu trúc mạng trong thực tế, chúng
ta có thê chia thành 3 phần bao gồm: phía nam, trung tâm và phía bắc Đầu tiên ở
phía nam, chúng tôi thiết kế 9 Host đại diện cho những người dùng cuối, được kết nốitrực tiếp với 3 thiết bị chuyền mạch đảm nhiệm chức năng trích xuất đữ liệu tới
Collector để thực hiện phân tích giám sát, chúng tôi gọi chúng là các thiết bị OVS
Có thể hiểu rằng mỗi thiết bị OVS ở đây sẽ là một vùng mạng nội bộ Các vùng mạng
22
Trang 35nội bộ sẽ được kết nối ra bên ngoài thông qua phần trung tâm gồm 5 bộ chuyên mạnh
trung tâm Chúng đại diện cho những cấu trúc mạng phức tạp mà dữ liệu phải đi qua
dé đến được dich trong mô hình mạng thực tế Và đích đến đó chính là phía bắc - nơi
sẽ tập chung các Server như DB Server, Web Server và App Server cung cấp các dịch
vụ thiết yếu cho người dùng cuối Cũng giống như phía nam chúng tôi đặt 2 thiết bịOVS giúp trích xuất dữ liệu từ các Server này Có thé thay, chúng tôi chủ ý đặt thiết
bị OVS như các thiết bị biên nhằm mục đích trích xuất luồng dữ liệu một cách chínhxác và sớm nhất từ đó giúp quá trình phân tích hiệu quả hơn Toàn bộ thiết bị chuyển
mạch trong kiến trúc mạng này đều được quản lý bởi SDN controller qua giao thứcOpenFlow Trong nghiên cứu này chúng tôi đề xuất sử dụng bộ điều khiến ONOS.Đây cũng là nơi có cái nhìn tông quát các thiết bị có trong mạng Đồng thời, bộ điềukhiển SDN cũng hỗ trợ một số API quản lý các thiết bị mạng Tan dụng ưu thế này,chúng tôi sẽ xây dựng một phương pháp dé phản ứng lại các cuộc tan công được phát
hiện.
23
Trang 36OM Os
Open Network Operating System
24
Trang 373.2.2 Các thành phan phân tích giám sát và phát hiện xâm nhập
Thiết kế một mô hình hệ thống xử lý dữ liệu lớn đảm bảo được bốn yếu tổ được trìnhbày ở phần 1.3 sẽ giúp các doanh nghiệp vận hành các giải pháp của mình một cách
hiệu quả và linh hoạt Dé thiết kế được một co sở hạ tang xử lý dữ liệu lớn (Hình 7)
thì đầu tiên, một bộ phận không thể thiếu trong mọi mô hình hệ thống nao đó là nguồn
dữ liệu Cũng như trong bài báo này dé nhận được các luồng dữ liệu NetFlow từ cácthiết bị OVS, cần có bộ thu thập luồng - Collector đóng vai trò thu thập và chuyểntiếp dir liệu cho các bộ phận phía sau xử lý Sau đó chúng đi qua các khối Distributed
System, Stream Processing, Analytical Database va Analytics and Reporting giúp cho
luồng dữ liệu có sẵn được phân tích một cách tự động hóa bằng các công cụ kĩ thuật
được tích hợp trong các khối này sau đó được trực quan hóa trên giao diện web cho
người quản trị viên, giúp dé dàng giám sát va đưa ra hành động phù hợp trong tương
lai Tổng quan về các mô hình hạ tầng dữ liệu lớn được chúng tôi đề xuất như Hình
(vs | aNetwork Traffic Flows
Trang 383.2.2.1 Collector
Đóng vai trò là một bộ thu luồng dữ liệu, là một phần không thể thiếu trong hệ thốnggiám sát và phân tích luồng, vì chúng nhận, lưu trữ và tiền xử lý đữ liệu luồng từ mộthoặc nhiều bộ xuất luồng được thiết kế trong mô hình mạng [37] Trong bài báo này,
chúng tôi đề xuất sử dụng bộ công cụ nProbe của Ntop [40] cho vai trò thu thập luồng
dữ liệu mạng.
Nprobe là một công cụ mạnh mẽ hỗ trợ xử lý NetFlow giúp thu thập và xuất các luồngNetFlow cũng như phân tích lượng lớn lưu lượng mạng với tốc độ cao mà gần nhưkhông mất gói Bên cạnh đó, Nprobe còn giúp chuyên đổi các tệp pcaps thành địnhdạng NetFlow đồng thời lọc, lựa chọn và trích xuất các đặc trưng cần thiết giúp chúng
ta đánh giá mô hình hệ thống phát hiện xâm nhập một cách khách quan trên các tập
dữ liệu uy tín Sau tất cả, nProbe sẽ đóng vai trò như một bộ thu thập các NetFlowcũng như là nguồn dữ liệu đầu vào cho các khối tiếp theo tiến hành xử lý và phân tíchgiám sát luồng
3.2.2.2 Distributed System
Có thé hiểu hệ thong phân tán là một hệ thống có nhiều quá trình xử lý độc lập trên
nhiều máy chủ vật lý khác nhau mà vẫn đảm bảo được khả năng tính toán Đối với
các hệ thống doanh nghiệp quy mô lớn, yêu cầu khả năng mở rộng và bảo trì linhhoạt, hệ thống phân tán là sự lựa chọn hoàn hảo bởi những ưu điểm vốn có của nó
Có ba lý do chính dé một doanh nghiệp quyết định sử dụng hệ thống phân tán: khả
năng mở rộng, độ tin cậy và hiệu suât.
Với nhu câu về sô lượng công việc cân xử ly ngày càng tăng, khả năng mở rộng cua
hệ thông là điêu rât cân thiệt Có hai dạng mở rộng: mở rộng theo chiêu ngang và mở
rộng theo chiều dọc
e_ Mớ rộng theo chiều dọc - phương pháp tăng kha năng phan cứng của
máy chủ bằng cách nâng cấp CPU, RAM, Disk Storage, v.v Phươngpháp này thường bị giới hạn bởi nhu cầu xử lý vượt quá cau hình vật lý
hiện tại và có độ trễ cao khi nâng câp hoặc bảo trì.\
26
Trang 39e Mở rộng theo chiều ngang - phương pháp mở rộng bang cách thêm
nhiều Node/Server vào mạng hiện có dé tăng khả nang chịu tải của hệthống Phương pháp này rẻ hơn và dé thực hiện hơn mở rộng theo chiềudọc, đặc biệt dễ dàng thu nhỏ và phóng to hệ thống khi thêm nhiều
Node/Server Đồng thời hạn chế được độ trễ khi nâng cấp hoặc bảo trì
Bên cạnh đó, hiện nay, hầu hết các doanh nghiệp đều hướng tới sự linh hoạt về quy
mô tối ưu hóa tài nguyên sử dụng giúp tiết kiệm được tài sản và tiền bạc Không
những thế, việc đảm bảo dữ liệu không thất thoát trong quá trình truy xuất hay truyền
tải cũng không kém phan quan trọng Do đó, việc xây dựng một hệ thống đáng tin
cậy hay có khả năng chịu lỗi là điều cần thiết Nó có nghĩa mọi hỏng hóc của bất kỳmột thành phan nào trong hệ thống đều phải được thay thé bằng một thành phần đang
én định khác, đảm bảo luôn hoàn thành tốt các công việc được yêu cầu Hệ thôngđáng tin cậy cũng đồng nghĩa với việc hệ thống đó có tinh sẵn sang cao Dé đạt được
độ tin cậy, hệ thống phải thực hiện sao lưu theo thời gian thực của mọi thành phầntrong hệ thống, đây cũng là một thách thức về mặt kỹ thuật và chi phí cho dự án
Một hệ thống khi đã có tính sẵn sàng và tiềm năng mở rộng thì hiệu suất tính toán
của hệ thống đó không thê thấp được khi sử dụng công nghệ điện toán phân tán Khác
với tính toán song song, điện toán phân tán là một loại tính toán trong đó các máy
tính nối mạng giao tiếp và điều phối các tác vụ thông qua việc truyền thông điệp để
đạt được mục tiêu chung.
Mặc khác, nhiều giải pháp xử lý dữ liệu lớn trong thời gian thực cần một kho lưu trữ
tạm thời cho các dữ liệu dé làm bước đệm đáng tin cậy cho hệ thống xử lý dit liệu
phía sau nhằm tránh các lỗi phát sinh gây mat mát dit liệu Tóm lại, trong bài báo này,
khối này có thể được xem là phần đại diện chính cho kiến trúc phân tán và là một kho
lưu trữ đơn giản đáng tin cậy, nơi các luồng NetFlow đến và được đưa vào một khốikhác dé xử lý mà vẫn đảm bảo được các tinh chat cần thiết đối với một hệ thống phân
⁄
tán.
27
Trang 40Bởi thế, Apache Kafka [41] được chúng tôi đề xuất sử dụng cho vai trò Distributed
System Apache Kafka là một kho dữ liệu phân tán được tối ưu hóa dé nhập và xử lý
luồng dữ liệu lớn trong thời gian thực với tốc độ cao Hoạt động dựa trên mô hình
Publish-Subscribe và được xây dựng dựa trên hệ thống phân tán [42] kết hợp với cơchế lưu trữ đặc biệt làm cho Kafka phù hợp với những cấu hình hệ thống mở rộngcũng như giúp chúng ta tránh khỏi các sự cố máy chủ, đảm bảo khả năng chịu lỗi và
bền vững cho dữ liệu Nhờ đó, nó đóng vai trò như một bộ đệm đáng tin cậy giữa
khối Collector và khối Streaming Processing nhằm hỗ trợ các luồng dữ liệu NetFlow
sẵn sàng trước khi được phân tích và xử lý.
3.2.2.3 Stream Processing
Stream Processing hay xử ly luồng là công nghệ dữ liệu lớn tập trung vào việc xử lýtheo thời gian thực các luồng dé liệu chuyền động liên tục Khi dữ liệu đã được chuẩn
bị sẵn sàng bởi Apache Kafka, khối này đảm nhiệm vai trò xử lý và phân tích chuyên
sâu dữ liệu Trong bài báo này, chúng tôi nhận các trường đặc trưng cua NetFlow,
thực hiện xử lý các thuật toán máy học sau đó đưa ra các nhãn dán thích hợp đối với
từng cuộc tấn công Đề đảm bảo tính phân tán cũng như khả năng xử lý luồng, chúng
tôi đề xuất sử dụng Apache Spark [43] Nó cung cấp một công cụ đề xử lý khối lượngcông việc lớn Thành phần trung tâm của Spark là Spark Core: cung cấp những chức
năng cơ bản nhất của Spark như lập lịch cho các tác vụ, quản lý bộ nhớ, tương tác với
các hệ thống lưu trữ Đặc biệt, Spark Core cung cấp API để định nghĩa RDD
(Resilient Distributed DataSet) là tập hợp của các item được phân tán trên các node
của cluster và có thê được xử lý song song đảm bảo các yêu cầu đối với một hệ thống
phân tán Bên cạnh đó, Spark Streaming cung cap API dé dé dàng tương tác và xử lý
dữ liệu với các hệ thống lưu trữ, trong bài báo này là Apache Kafka Ngoài ra, Spark
MLIIb cung cấp rất nhiều thuật toán máy học như: classification, regression,
clustering, collaborative filtering hỗ trợ xây dựng các mô hình máy học hoạt động
trên hệ thống phân tán Khối này được xem là một cụm cluster ảo hóa tài nguyên
nhiều node được sử dụng xử lý dữ liệu NIDS của nhóm được chạy trên khối này dé
tận dụng tài nguyên và tốc độ xử lý của cum node phân tán Sau đó các kết quả dự
28