Chỉ số đánh giá mô hình phát hiện và phân loại các- 123docz.net

công

Bài toán phát hiện xâm nhập hệ thống mạng tương đương với bài toán phân loại nhị phân, trong đó các luồng dữ liệu được phân loại thành hai nhãn: bất thường

(abnormal) hoặc bình thường (normal). Tương tự như các bài toán phân loại, dé

đánh giá hiệu suất của hệ thống phát hiện xâm nhập mang, chúng ta sử dung các chi

số đánh giá phù hợp. Kết quả xác định của hệ thống phát hiện xâm nhập (IDS) có

thé thuộc một trong bốn trạng thái sau:

e True Positive (TP): Day là trạng thái khi IDS xác định một luồng dir liệu là

tan công và thực tế đó là một luồng dữ liệu tan công.

e True Negative (TN): Đây là trạng thái khi IDS xác định một luồng di liệu là

không tan công và thực tế đó là một luồng dữ liệu không tan công.

e False Positive (FP): Trạng thái khi IDS xác định một luồng dữ liệu là tấn

công, nhưng thực tế đó không phải là tấn công. Đây là một kết quả sai lầm, khiến hệ thống IDS đánh giá sai một luồng dit liệu không tan công là tan công.

e False Negative (FN): Trang thái khi IDS xác định một luéng dữ liệu là không

tan công, nhưng thực tế đó là một luồng dữ liệu tan công. Day là một kết quả sai lầm, khiến hệ thống IDS bỏ qua việc phát hiện một luồng dữ liệu tan công. Confusion matrix sẽ biểu diễn 4 trạng thái ở trên thành một biểu đồ được sử dụng

dé mô tả hiệu suất của một hệ thống phát hiện xâm nhập mạng.

Bang 3: Bang mô tả confustion matrix cho bài toán phân loại nhị phân

Predicted Class

Normal Abnormal

Normal TP FN

True Class

Abnormal FP TN

Tuy nhiên, đối với bài toán phân loại đa lớp (tức có nhiều hơn 2 nhãn), chúng có

thêm các phương pháp tính toán trạng thái TP, TN, FP và FN. Trong đó, tổng giá trị các 6 trên cùng một hàng thê hiện tổng số mẫu thực tế của nhãn tương ứng: tổng giá trị các ô trên cùng một cột thé hiện tổng số mẫu mà chúng ta dự đoán được trên

nhãn tương ứng; giao diém của các hàng và cột có cùng nhãn sẽ là số lượng mẫu mà

chúng ta dự đoán chính xác cho nhãn này.

Trong nghiên cứu này, chúng tôi tập trung tính toán các chỉ số hiệu suất phổ biến dé đánh giá hệ thống phát hiện xâm nhập mạng bao gồm tỷ lệ dự đoán chính xác

(accuracy), độ nhạy (recall), độ chính xác (precision) và Fl-score. Những chỉ số này giúp đánh giá khả năng của hệ thống IDS trong việc xác định chính xác các luồng

dữ liệu tan công và không tan công.

Accuracy: là tỷ lệ của kết quả dự đoán đúng trên tất cả các kết quả được dự đoán.

TP+TN

A =(IS ~ TP 4 FP +TN + FN

Recall: là tỷ lệ các luồng dữ liệu tan công được phát hiện trên tổng số các hoạt động thực sự là tan công.

Precision: là tỉ lệ các luông đữ liệu giữa số lượng mẫu được phân loại đúng thuộc

lớp cần xác định trên tổng sô mẫu được phân loại thuộc lớp cần xác định.

P we __

reclston TP + FP

F1-score: cung cap một cái nhìn tông thê vê hiệu suat của hệ thong phát hiện xâm

nhập mạng, đông thời cân nhắc cả độ chính xác và độ nhạy.

Precision x Recall

1S =2 X————— ca

ƒ15 0 Precision + Recall

true negative true positive false negative false positive

annotated ground truth

Hình 18: Mô ta confusion matrix cho bài toán phân loại đa lớp Š

8 https://www.researchgate.net/figure/Confusion-matrix-for-multi-class-classification-The-confusion-matrix-

of-a_fig7_314116591

Ngoài ra, để có những chính xác về khả năng đánh giá các loại thuật toán, chúng tôi cũng ghi nhận lại thời gian thực thi (TimeExec) trên một tập dữ liệu cụ thé dé tính

toán tốc độ xử lý (ExecRate).

Tổng s6 mẫu

ExecRate = ———————

Thoi gian thuc thi

3.5.2. Mô hình phát hiện xâm nhập theo thời gian thực

Sau khi hoàn thành giai đoạn Huan luyện mô hình, chúng tôi tiễn hành giai đoạn

Ung dụng mô hình, một quy trình quan trọng dé đánh giá và phân loại các luồng

mạng trong môi trường thực tẾ. Trong giai đoạn này, mô hình phát hiện xâm nhập,

đã được huấn luyện trước đó, được áp dụng cho dữ liệu Netflow được tạo ra từ

mạng mô phỏng SDN và không được sử dụng trong quá trình huấn luyện.

Quá trình ứng dụng mô hình bắt đầu bằng việc truyền luồng dit liệu Netflow đến

mô hình. Với tính chất thời gian thực, chúng tôi dam bảo rang dữ liệu được chuyển đến mô hình ngay khi nó xuất hiện, giúp chúng tôi phát hiện và xử lý các hoạt động

xâm nhập mạng một cách nhanh chóng.

Quá trình Ứng dụng mô hình bắt đầu bằng việc truyền dữ liệu mới qua mô hình.

Với ưu điểm của quá trình xử lý đữ liệu bằng Pipeline và khả năng tái sử dụng mô

hình huấn luyện được đề cập tại mục 3.5.1, các luồng mạng từ dữ liệu Netflow được chuyên thành các đặc trưng tương ứng và đưa vào mô hình phân loại một cách tối

ưu nhất. Điều này giúp dữ liệu được chuẩn hóa và chuyên đổi thành dạng phù hợp

cũng như tiết kiệm được thời gian xử lý trong mô hình thực tế, đảm bảo được khả

năng phát hiện theo thời gian thực. Với mô hình ở giai đoạn huấn luyện, hệ thong sé

dự đoán xem liệu các luồng mang đó có chứa xâm nhập hay không. Kết quả của quá

trình phân loại được gọi là Detection Result.

Sau khi thu được Detection Result, nó có thé được sử dụng dé xác định xem các

luồng mạng có chứa xâm nhập hay không. Các luồng mạng được phân loại là bất

thường (Abnormal) hoặc bình thường (Normal) dựa trên các ngưỡng hoặc quy tắc

xác định trước. Kết qua này được gửi đến bộ Analytics & Monitoring dé lưu trữ,

phân tích và thông báo đến người quản lý hoặc hệ thống giám sát dé phản ứng và

đối phó với các tình huống xâm nhập mạng. Hình 19 mô tả chỉ tiết quá trình dữ liệu được phân tích và xử lý trong kiến trúc mô hình thực tế.

SDN Simulation |

Network ;

Analytics & |

Monitoring ;

Hình 19: Tổng quan quá trình xử lý dữ liệu Netflow trong mô hình thực tế Giai đoạn Ứng dụng mô hình đóng vai trò quan trọng trong việc áp dụng các kết

quả và kiến thức từ mô hình phát hiện xâm nhập vào thực tế. N6 cung cap một

phương pháp tự động và liên tục dé xác định, đánh giá và phân loại các hoạt động

mạng, đảm bảo an ninh và sự toàn vẹn của hệ thông mạng trong môi trường thực tê.

Chỉ số đánh giá mô hình phát hiện và phân loại các cuộc tan công