công
Bài toán phát hiện xâm nhập hệ thống mạng tương đương với bài toán phân loại nhị phân, trong đó các luồng dữ liệu được phân loại thành hai nhãn: bất thường
(abnormal) hoặc bình thường (normal). Tương tự như các bài toán phân loại, dé
đánh giá hiệu suất của hệ thống phát hiện xâm nhập mang, chúng ta sử dung các chi
số đánh giá phù hợp. Kết quả xác định của hệ thống phát hiện xâm nhập (IDS) có
thé thuộc một trong bốn trạng thái sau:
e True Positive (TP): Day là trạng thái khi IDS xác định một luồng dir liệu là
tan công và thực tế đó là một luồng dữ liệu tan công.
e True Negative (TN): Đây là trạng thái khi IDS xác định một luồng di liệu là
không tan công và thực tế đó là một luồng dữ liệu không tan công.
e False Positive (FP): Trạng thái khi IDS xác định một luồng dữ liệu là tấn
công, nhưng thực tế đó không phải là tấn công. Đây là một kết quả sai lầm, khiến hệ thống IDS đánh giá sai một luồng dit liệu không tan công là tan công.
44
e False Negative (FN): Trang thái khi IDS xác định một luéng dữ liệu là không
tan công, nhưng thực tế đó là một luồng dữ liệu tan công. Day là một kết quả sai lầm, khiến hệ thống IDS bỏ qua việc phát hiện một luồng dữ liệu tan công. Confusion matrix sẽ biểu diễn 4 trạng thái ở trên thành một biểu đồ được sử dụng
dé mô tả hiệu suất của một hệ thống phát hiện xâm nhập mạng.
Bang 3: Bang mô tả confustion matrix cho bài toán phân loại nhị phân
Predicted Class
Normal Abnormal
Normal TP FN
True Class
Abnormal FP TN
Tuy nhiên, đối với bài toán phân loại đa lớp (tức có nhiều hơn 2 nhãn), chúng có
thêm các phương pháp tính toán trạng thái TP, TN, FP và FN. Trong đó, tổng giá trị các 6 trên cùng một hàng thê hiện tổng số mẫu thực tế của nhãn tương ứng: tổng giá trị các ô trên cùng một cột thé hiện tổng số mẫu mà chúng ta dự đoán được trên
nhãn tương ứng; giao diém của các hàng và cột có cùng nhãn sẽ là số lượng mẫu mà
chúng ta dự đoán chính xác cho nhãn này.
Trong nghiên cứu này, chúng tôi tập trung tính toán các chỉ số hiệu suất phổ biến dé đánh giá hệ thống phát hiện xâm nhập mạng bao gồm tỷ lệ dự đoán chính xác
(accuracy), độ nhạy (recall), độ chính xác (precision) và Fl-score. Những chỉ số này giúp đánh giá khả năng của hệ thống IDS trong việc xác định chính xác các luồng
dữ liệu tan công và không tan công.
Accuracy: là tỷ lệ của kết quả dự đoán đúng trên tất cả các kết quả được dự đoán.
TP+TN
A =(IS ~ TP 4 FP +TN + FN
45
Recall: là tỷ lệ các luồng dữ liệu tan công được phát hiện trên tổng số các hoạt động thực sự là tan công.
Precision: là tỉ lệ các luông đữ liệu giữa số lượng mẫu được phân loại đúng thuộc
lớp cần xác định trên tổng sô mẫu được phân loại thuộc lớp cần xác định.
TP
P we __
reclston TP + FP
F1-score: cung cap một cái nhìn tông thê vê hiệu suat của hệ thong phát hiện xâm
nhập mạng, đông thời cân nhắc cả độ chính xác và độ nhạy.
Precision x Recall
1S =2 X————— ca
ƒ15 0 Precision + Recall
true negative true positive false negative false positive
annotated ground truth
Hình 18: Mô ta confusion matrix cho bài toán phân loại đa lớp Š
8 https://www.researchgate.net/figure/Confusion-matrix-for-multi-class-classification-The-confusion-matrix-
of-a_fig7_314116591
46
Ngoài ra, để có những chính xác về khả năng đánh giá các loại thuật toán, chúng tôi cũng ghi nhận lại thời gian thực thi (TimeExec) trên một tập dữ liệu cụ thé dé tính
toán tốc độ xử lý (ExecRate).
Tổng s6 mẫu
ExecRate = ———————
Thoi gian thuc thi
3.5.2. Mô hình phát hiện xâm nhập theo thời gian thực
Sau khi hoàn thành giai đoạn Huan luyện mô hình, chúng tôi tiễn hành giai đoạn
Ung dụng mô hình, một quy trình quan trọng dé đánh giá và phân loại các luồng
mạng trong môi trường thực tẾ. Trong giai đoạn này, mô hình phát hiện xâm nhập,
đã được huấn luyện trước đó, được áp dụng cho dữ liệu Netflow được tạo ra từ
mạng mô phỏng SDN và không được sử dụng trong quá trình huấn luyện.
Quá trình ứng dụng mô hình bắt đầu bằng việc truyền luồng dit liệu Netflow đến
mô hình. Với tính chất thời gian thực, chúng tôi dam bảo rang dữ liệu được chuyển đến mô hình ngay khi nó xuất hiện, giúp chúng tôi phát hiện và xử lý các hoạt động
xâm nhập mạng một cách nhanh chóng.
Quá trình Ứng dụng mô hình bắt đầu bằng việc truyền dữ liệu mới qua mô hình.
Với ưu điểm của quá trình xử lý đữ liệu bằng Pipeline và khả năng tái sử dụng mô
hình huấn luyện được đề cập tại mục 3.5.1, các luồng mạng từ dữ liệu Netflow được chuyên thành các đặc trưng tương ứng và đưa vào mô hình phân loại một cách tối
ưu nhất. Điều này giúp dữ liệu được chuẩn hóa và chuyên đổi thành dạng phù hợp
cũng như tiết kiệm được thời gian xử lý trong mô hình thực tế, đảm bảo được khả
năng phát hiện theo thời gian thực. Với mô hình ở giai đoạn huấn luyện, hệ thong sé
dự đoán xem liệu các luồng mang đó có chứa xâm nhập hay không. Kết quả của quá
trình phân loại được gọi là Detection Result.
Sau khi thu được Detection Result, nó có thé được sử dụng dé xác định xem các
luồng mạng có chứa xâm nhập hay không. Các luồng mạng được phân loại là bất
thường (Abnormal) hoặc bình thường (Normal) dựa trên các ngưỡng hoặc quy tắc
xác định trước. Kết qua này được gửi đến bộ Analytics & Monitoring dé lưu trữ,
47
phân tích và thông báo đến người quản lý hoặc hệ thống giám sát dé phản ứng và
đối phó với các tình huống xâm nhập mạng. Hình 19 mô tả chỉ tiết quá trình dữ liệu được phân tích và xử lý trong kiến trúc mô hình thực tế.
1
SDN Simulation |
Network ;
I
Analytics & |
Monitoring ;
Hình 19: Tổng quan quá trình xử lý dữ liệu Netflow trong mô hình thực tế Giai đoạn Ứng dụng mô hình đóng vai trò quan trọng trong việc áp dụng các kết
quả và kiến thức từ mô hình phát hiện xâm nhập vào thực tế. N6 cung cap một
phương pháp tự động và liên tục dé xác định, đánh giá và phân loại các hoạt động
mạng, đảm bảo an ninh và sự toàn vẹn của hệ thông mạng trong môi trường thực tê.