Khoa luận này sẽ trình bay phương pháp xây dung một IDS ứng dung kỹ thuật học máy có khả năng thích nghi được với các bộ dữ liệu có tỉ lệ mất cân bằng cao.. Trong quá trình thực hiện, cá
Cấu trúc khóa luận . ::-52++t222xvt2EExt2EE tt 5 Chương2 KIÊN THUC TONG QUAN - 22E+2E2EE2ESEEeEErErrkerxerxee 6 2.1 Hệ thống phát hiện xâm nhập dựa trên luồng lưu lượng mạng
Tổng quan về IDS 2-55-25222ESEEEE2EE2E1EEE2E2EEEExerkrrer 6 2.1.2 Tổng quan về luỗng lưu lượng mạng (network flow)
Hệ thống phát hiện xâm nhập (IDS) là tập hợp các thiết bị phần cứng/phần mềm có khả năng giám sát, phân tích và đưa ra các cảnh báo về bất thường trong hệ thống IDS có thể được phân loại thành một số loại chính như ở Hình
- _ Dựa trên nguồn dt liệu: o_ Hệ thống phát hiện xâm nhập trên máy đích (Host-based IDS —
HIDS), được sử dụng dé giám sát hoạt động cua các may được cài lên Khác với các hệ thống chống thất thoát dit liệu, HIDS chủ yếu tập trung giám sát vào các yếu tô an ninh của máy như tính toàn vẹn, kiểm tra rootkit, tìm kiếm các hoạt động đáng ngờ. o Hệ thống phát hiện xâm nhập trong mang (Network-based IDS —
NIDS) được sử dung dé phát hiện các bất thường trong hạ tang mạng NIDS sử dụng 2 nguồn chính đề phát hiện xâm nhập: luồng lưu lượng mạng và gói tin Cả 2 nguồn này đều có những ưu và nhược điểm riêng đối với quá trình phát hiện xâm nhập Chang hạn, nếu phân tích các gói tin thì sẽ đưa ra dự báo chính xác hon, nhưng tiêu hao tài nguyên nhiều hon và dé bi qua mặt bởi các gói tin đã được mã hóa Trong khi đó, phân tích dựa trên luồng lưu lượng mạng chỉ chiếm dụng một lượng tài nguyên rất nhỏ, nhưng do không phân tích nội dung gói tin nên phân tích lưu lượng sẽ thiếu chính xác hơn.
Hinh 2 1: Phan loai cac IDS Error! Reference source not found Ở góc độ phương pháp phát hiện: o Dựa trên dấu hiệu (Signature-based IDS): phát hiện dựa vào các dau hiệu đã được quy định trước IDS dang này phát hiện rất tốt với các mau tan công đã ghi nhận và không có khả năng phát hiện các loại tân công mới hoàn toản. o Dựa trên bat thường (Anomaly-based IDS): phát hiện các thay đôi dựa trên một ngưỡng được cho là bình thường Dựa trên các đánh giá nhất định khi so sánh với ngưỡng này, IDS sẽ kết luận rằng mẫu đầu vào là bất thường hay bình thường IDS loại này có nhược diém là tỉ lệ báo động giả thường rat cao so với phát hiện dựa trên dấu hiệu Tuy nhiên, các IDS này có lợi thế ở việc có thể phát hiện các loại tấn công mới và đễ dàng triển khai, do không đòi hỏi phải thu thập các mẫu nhận diện từ trước.
2.1.2 Tổng quan về luồng lưu lượng mang (network flow)
Flow-based IDS phân tích đữ liệu các luồng lưu lượng mạng (network flow) dé phat hién tan công Một network flow được định nghĩa là một tập hop các gói tin/frame dữ liệu được đi qua một điểm quan sát trong một khoảng thời gian nhất định giữa hai hệ thong máy tính Mọi gói tin nằm trong một network flow sẽ có một số các thuộc tính tương tự nhau (IP nguon/dich, port nguồn/đích, giao thức, ) như được mô tả tại Hình 2 2 Ngoài ra, một số thuộc tính khác sẽ được tính toán dựa trên dữ liệu thống kê của flow (số lượng packet/byte của flow trong một đơn vi thời gian, khoảng thời gian trung bình giữa các gói tin, ).
ATTRIBUTES IN FLOW-BASED NETWORK TRAFFIC.
Attribute Date first seen Duration
Transport protocol Source IP address
Source port Destination IP address Destination port
Number of transmitted bytes Number of transmitted packets
Hình 2 2: Cac thuộc tính co ban cua network flow Error! Reference source not found
Một hệ thống giám sát luồng lưu lượng mạng thường gồm 3 thành phan:
(1) các điểm quan sát (observation point); (2) một trình kết xuất (flow exporter) vả (3) một trình thu thập (flow collector) Một flow exporter sẽ trích xuất header từ các gói tin đi qua các điểm quan sát (có thể là switch, router hoặc một thiết bị thu thập đặt trên đường truyền) Sau đó, flow exporter sé tong hop và kết xuất ra các ban ghi về luồng lưu lượng mang (flow record) từ các thông tin trên và gửi đến cho collector Các flow record sẽ được lưu trữ và chuẩn hóa tại collector để phục vụ cho việc phân tích của IDS (Hình 2 3).
Rules for Flow Record Template, Sending and Selection
Functions for generating IPFIX export packets
Flow feature : Í Pre-Processing selection
Hinh 2 3: Mot hé thống flow-based IDS sử dụng IPFIX Error! Reference source not found
Một flow có thé được ghi lai đưới dang don hướng (unidirectional) hoặc song hướng (bidirectional) Error! Reference source not found Một flow record đơn hướng sẽ tổng hợp mọi gói tin giữa 2 node trong mạng theo một hướng có định (từ
A sang B là một record và ngược lại), trong khi một flow record song hướng sẽ tổng hợp mọi gói tin mà không cần quan tâm đến chiều truyền của gói tin Một số định dạng network flow phổ biến có thé ké đến gồm: IPFIX Error! Reference
Các kỹ thuật phát hiện tan công trong flow-based IDS
2.1.3 Các kỹ thuật phát hiện tấn công trong flow-based IDS
Các kỹ thuật phát hiện phát hiện tấn công hiện tại (kế cả signature-based hay anomaly-based) có thé được chia thành 2 hướng chủ yếu: phân tích stateless (theo từng packet) và stateful (theo flow) Các IDS ngày nay đa số phân tích theo hướng stateful Error! Reference source not found., do việc phân tích theo flow sẽ cho
IDS cái nhìn về “ngữ cảnh” thay vì rời rac như phân tích từng packet (stateless). Ngoài ra, việc phân tích theo network flow cũng làm giảm tiêu tốn tài nguyên cũng như không gặp khó khăn khi phải phân tích các traffic đã được mã hóa.
Các flow-based anomaly IDS thường được phân loại bởi một số phương pháp huấn luyện (train) bao gồm (Hình 2 4): phương pháp thống kê, phương pháp học máy (ML-based) và cơ sở tri thức (knowledge-base) Cụ thê:
Bao gồm các phương pháp thống kê đơn biến (univariate), đa biến
(multivariate) và chuỗi thời gian (time-series).
- _ Phương pháp thống kê đơn biến sẽ phân tích thông tin thống kê của một biến duy nhất tại một thời điểm xác định (chăng hạn trung bình, phân phối chuẩn) Kỹ thuật này đòi hỏi biết trước về phân phối của dữ liệu cần phân tích Thống kê đơn biến có thể là thống kê mô tả (các hệ số mô tả ngắn gọn hay tóm tắt về dữ liệu, đại điện cho toàn bộ hoặc một mẫu của một tổng thể) hoặc là thống kê suy diễn (suy ra tính chất của tổng thê từ mẫu) IDS sẽ dựa trên đó làm ngưỡng để nhận diện các hành vi bất thường.
- _ Phương pháp thống kê đa biến phân tích các mối quan hệ giữa hai hay nhiều biến Do đó, khai thác được tổng hợp mỗi tương quan giữa các biến và phản ánh toàn điện, khách quan hơn so với thống kê đơn biến Một số dạng thống kê đa biến thường dùng gồm phân tích thành phần chính (Principal component analysis - PCA), phân tích biệt thức tuyến tính (linear discriminant analysis -LDA) va phân tích biệt số (discriminant analysis - DA).
- Phuong pháp phân tích time-series sử dung các giá tri được quan sat trước một thời điểm nhất định dé dự đoán các giá trị mới Chuỗi thời gian (time-series) có thê được định nghĩa là chuỗi các giá trị của một biến theo các khoảng thời gian cách đều nhau Các phương pháp này phụ thuộc vào dữ liệu trong quá khứ, do đó yêu cầu các đữ liệu này có chất lượng cao, có tính đại diện cho tổng thé và ít biến động.
Các IDS sử dụng phân tích thống kê nhìn chung không yêu cầu các hiểu biết về các cuộc tan công Nguyên nhân là do cơ chế phát hiện tan công của các IDS này chỉ dựa trên sự thay đôi về các phân phối dữ liệu trong mạng khi có một cuộc tấn công xảy ra, đặc biệt là các cuộc tấn công có lưu lượng lớn như DoS Tuy nhiên, các cuộc tan công với vector đầu vào nhiều chiều/nhiều biến số ảnh hưởng rất lớn đến hiệu suất của các IDS này Các cuộc tân công ít làm thay đồi dir liệu thống kê trong mạng cũng rất khó bị phát hiện bởi các IDS này.
Bao gồm các phương pháp clustering, giải thuật di truyền (genetic algorithm), học sâu (Deep Learning - DL), mạng thần kinh nhân tạo (Artificial neural network - ANN), máy vector hỗ trợ (support vector machine - SVM)
Hién tai, cac IDS hoc may dang chiém wu thé trong cac hé thong anomaly-based IDS [17] Thống kê về các thuật toán sử dụng trong anomaly-based IDS được trình bày như trong Hình 2 4.
Các thuật toán học máy có điểm tương đồng với các phương pháp dựa trên cơ sở tri thức Tuy nhiên, các phương pháp dựa trên cơ sở tri thức cần phụ thuộc vào yêu tố con người và đòi hỏi kiến thức chuyên môn để xây dựng nên các profile Tuy nhiên điều này được diễn ra hoàn toàn tự động với các phương pháp học máy Các “profile” sẽ được tạo ra dưới dạng các mô hình học máy sau khi đã huấn luyện Đôi lại, các mô hình học máy thường không có sự nhất quán như các profile từ cơ sở tri thức và thường rất khó dé thông dich (interpret) các mô hình này sang ngôn ngữ ma con người có thé dễ hiểu được.
Trong đó, các kỹ thuật sử dụng mạng thần kinh nhân tạo (ANN) hiện đang có một tiềm năng lớn nhờ sự phát triển về phần cứng và chất lượng các tập dữ liệu trong thời gian gần đây ANN mô phỏng hoạt động não bộ của con người thông qua một mạng liên kết các đơn vị tính toán gọi là neuron Mọi neuron trong ANN có bản chất là các hàm tính toán, nhận kết quả đầu vào và trả về kết quả đầu ra cho các layer tiếp theo (nếu có) Kết quả từ các neuron của layer cuối cùng sẽ được tổng hợp và đưa ra kết quả dự đoán tương ứng với đữ liệu đầu vào Thông qua huấn luyện, ANN có thé mô hình hóa cả hành vi người dùng lẫn hành vi của các cuộc tan công và phán đoán kết quả tương ứng với dữ liệu đâu vào.
Các IDS sử dụng phương pháp học máy có độ thích ứng cao với các thay đổi từ môi trường Các kỹ thuật ứng dụng ML có thê khái quát hóa rất tốt về các hành vi trong mạng Do đó, các kỹ thuật ML có tỉ lệ phát hiện rất cao, và cũng kéo theo tỉ lệ báo động giả cao (false-positive) Bên cạnh đó, việc thiết kế các dataset có tính phô quát cao cho việc train model trong các kỹ thuật supervised learning cũng rất khó khăn.
2.1.3.3 Phuong pháp sử dụng cơ sở tri thức
Bao gồm các phương pháp sử dụng máy trang thái hữu han (finite-state machine) kết hợp các luật dạng case-based, N-based, hệ chuyên gia (expert systems) và ngôn ngữ đặc tả (descriptor language).
Các kỹ thuật này có sự phụ thuộc mạnh vào các tri thức cho trước, do đó có tính thích ứng không cao với môi trường Việc xây dựng các profile có độ bao phủ cao cho các IDS sử dụng cơ sở tri thức cũng rất khó khăn và đòi hỏi nhân sự chuyên nghiệp.
2.1.4 Cac metric đánh giá IDS
Các nhận định của một IDS có thể được chia thành 4 loại:
- True Positive (TP): Traffic tan công phát hiện được là đúng (chắc chắn là tan công).
- False Positive (FP): Traffic tan công phát hiện được là sai (không phải là tan công nhưng bị báo động gia).
- True Negative (TN): Traffic được nhận định bình thường là đúng (chắc chan không phải tấn công).
- False Negative (FN): Traffic được nhận định bình thường là sai (là traffic tan công nhưng lai được ghi nhận là bình thường)
Một IDS được đánh giá là hiệu quả khi có tần suất lệ phát hiện tan công cao và tỉ lệ báo động giả thấp Bên cạnh đó, tỉ lệ FN thấp cũng là một yếu tố quan trong, vì tỉ lệ FN tương ứng với số cuộc tan công ma IDS không nhận diện được Có rất nhiều metric (độ đo) có thé được sử dụng dé đánh giá độ hiệu quả của một IDS Trong đó, các metrics phô biến nhất khi đánh giá một IDS có thé ké đến như accuracy, decision rate, precision, recall, Fl và Mcc.
2.1.4.1 Overall accuracy (ti lệ chính xác)
Overall accuracy = (TP + TN) / (TP + FP + TN + FP)
- Overall accuracy là tỉ lệ nhận định đúng (đúng traffic nao là tấn công, traffic nào là bình thường) của IDS trên tổng số kết luận được đưa ra.
- Average accuracy là trung bình độ chính xác của mỗi class được nhận định.
- Precision là tỉ lệ nhận định traffic tan công thật sự đúng trên tổng số traffic được kết luận là tấn công.
- _ Xét riêng các kết luận một traffic là tắn công (positive), mối tương quan giữa accuracy và precision của các kết luận này được thể hiện tại Hình 2.
Các phương pháp đối phó với tính trạng mat cân bang dif liệu
Ở cấp độ dữ liệu -¿-25- 22c 2222 22212212112 25 1 Tái chọn mẫu (data resampling) 2s 2s s+szx+zezxerszea 25 2 Trích chọn đặc trưng (feature selecfion) ‹ s<++<s+ss+2 27 3 Thu thập thêm các dit liệu từ thực tẾ - 2-5 s+cczxsrxee 29 2.3.2 Ở cấp độ thuật toán -:- 5c St 2 2122121211211 te 30 Chương 3 PHƯƠNG PHÁP XÂY DỰNG MÔ HÌNH IDS MAY HOC TREN TẬP DU LIEU MAT CÂN BẢẰNG . 2:22 221221222122122112211271211 221.2 ee 31 3.1 Mô hình tổng quan - 2 2 +E82EEEk£EEEEE2E12E12112121711111211 21.1 xe 31 3.1.1 Bộnhận di ⁄2/xưứố A À
2.3.1.1 Tái chọn mẫu (data resampling)
Random Under-Sampling (RUS): hay còn gọi là under sampling, là phương pháp xử lý dữ liệu mat cân bằng thông qua việc giảm bớt số lượng các mẫu của lớp đa số một cách ngẫu nhiên RUS cho phép cân bằng lại tập dữ liệu nhanh chóng va dé dang mà không phải phát sinh thêm đữ liệu. Tuy nhiên, RUS có thê dẫn đến việc loại bỏ nhằm các dữ liệu có ảnh hưởng cao đến đa số (để đảm bảo khái quát lớp đa số), dẫn đến việc giảm hiệu suât đâu ra.
Random Over-Sampling (ROS): hay còn gọi là over-sampling, là phương pháp giải quyết mat cân bằng trong dữ liệu thông qua về gia tăng mẫu vào nhóm thiểu số ROS thường có nguy cơ gây ra overfitting lớp thiểu số, do các đữ liệu thiểu số được thêm vào thường là các đữ liệu từ chính lớp thiêu số hoặc các dữ liệu được tổng hợp từ lớp thiểu số với số lượng rất lớn Hai phương pháp chính dé gia tăng mẫu bao gồm: o_ Lựa chọn mẫu có tái lập. o Giả lap/téng hợp dữ liệu mới dựa trên các mẫu sẵn có.
Tổng hop dữ liệu lớp thiểu số: là phương pháp over-sampling dựa trên co sở tong hợp các dữ liệu (data synthetic) bố sung cho lớp thiêu số dựa trên các mẫu hiện có Các kỹ thuật tổng hợp dit liệu có thể kế đến như: © SMOTE (Synthetic Minority Over-sampling) Error! Reference source not found.: chon ngau nhién mét diém mau Su dung thuat toan kNN dé xác định các điểm mẫu lân cận và khoảng cách với điểm mẫu được chọn, sau đó thêm vào hệ số ngẫu nhiên và tổng hợp một mẫu mới năm giữa giữa đoạn thăng nối 2 điểm mẫu gốc Các điểm dữ liệu được tổng hợp mới này mang lại hiệu quả tốt hơn việc tái chọn mẫu, do chúng
25 mở rộng không gian lựa chọn của của mô hình xung quanh các mẫu dữ liệu lớp thiêu số thay vì trực tiếp sử dụng lại các mẫu này Tuy nhiên, SMOTE vẫn tồn tại các nhược điểm như việc thực hiện tổng hợp dit liệu từ một lớp không cân nhắc đến các điểm dit liệu từ các lớp khác, dễ dẫn đến việc xuất hiện các dữ liệu nằm trong vùng trùng lặp giữa các lớp và gây ra các hiệu ứng bat thường.
ADASYN (Adaptive Synthetic Sampling) Error! Reference source not found.: là phương pháp dựa trên SMOTE được dé xuất dé cải thiện hiệu quả của quá trình tổng hợp dữ liệu mẫu ADASYN sẽ lựa chọn các mẫu ở các khu vực mà mật độ điểm dé liệu mẫu thấp, và ít lựa chọn hơn ở các khu vực có mật độ cao Do đó, ADASYN có thé cải thiện hiệu quả phát hiện cho các mẫu lớp thiểu số thực sự “thiểu số” hơn những mau lớp thiểu số khác.
GAN (Generative Adversarial Networks): trái với các phương pháp dựa trên khoảng cách giữa các điểm giữ liệu, phương pháp ứng dụng GAN sẽ tạo ra các dữ liệu mới thông qua việc thêm nhiễu vào dữ liệu Cụ thể hơn, GAN gồm 2 mạng/mô hình (network) đối nghịch: Generator Network (GN) va Discriminator Network (DC) Nhiéu (không phải dữ liệu mẫu) sé được dùng làm đầu vào cho GN để tạo ra các mẫu dữ liệu gia từ dữ liệu thật Cac dữ liệu này sau đó sẽ được đưa vào DC dé phan biệt với dữ liệu thật Mục tiêu của việc huấn luyện là khiến cho cả 2 model của GAN đạt đến trạng thái cân bằng (lý tưởng) Dù việc sử dụng các phương pháp dựa trên SMOTE để tạo dữ liệu tổng hợp dé đối phó tình trạng mat cân bằng đã được sử dung từ lâu Error! Reference source not found Nhưng bên cạnh đó, cũng có nhiều nghiên cứu cho thấy dữ liệu được tổng hợp từ GAN có hiệu quả rất tốt khi so sánh với SMOTE Tuy nhiên, việc huấn luyện cho GAN được đánh giá là không dễ, chậm và thiếu ôn định Error! Reference source not found
Các phương pháp over-sampling và under-sampling cần phải được kiểm soát và thực nghiệm để tìm ra tỉ lệ phù hợp Trong một số trường hợp tập dữ liệu có kích thước nhỏ, có thé kết hợp cả hai phương pháp ở một tỉ lệ thấp dé đảm bảo không làm ảnh hưởng quá nhiều đến lớp đa số cũng như giảm thiểu thiên kiến ở lớp thiểu số.
2.3.1.2 Trich chon đặc trưng (feature selection)
Trong thực tế, các dữ liệu có số chiều lớn thường chứa dữ liệu nhiễu, đặc trưng dư thừa và ảnh hưởng đến hiệu suất của quá trình xử lý Trích chọn đặc trưng là quá trình loại bỏ bớt các đặc trưng dư thừa và ít liên quan đến kết quả đầu ra Trích chọn đặc trưng được thực hiện chủ yếu để nhằm mục đích cải thiện hiệu suất và tốc độ xử ly cho các thuật toán học máy Tuy nhiên, có nhiều nghiên cứu cho thấy rằng, việc thực hiện trích xuất đặc trưng có thể giúp tập trung hơn vào các đặc trưng có sự ảnh hưởng cao đến quá trình phân biệt giữa các lớp, giúp cải thiện hiệu quả khi xử lý các tập dit liệu mat cân bằng Error!
Các phương pháp trích chon đặc trưng được chia làm 3 loại chính dựa theo đặc điểm tương tác với mô hình học máy:
- Filter: sử dụng các phương thức thống ké/kiém định và toán học dé tính toán sự tương quan giữa các đặc trưng Các đặc trưng có sự liên quan cao đến các biến phụ thuộc (kết quả đầu ra, hoặc là cơ sở suy ra các đặc trưng khác) thường sẽ được chọn giữ lại Một số phương thức tính toán thường được sử dụng bao gồm: o Information Gain. o Kiém tra Chi Square. o VIF (Variance Inflation Factor).
27 o Tính toán hệ số tương quan. o Odds ratio.
Wrapper: sử dung sự giúp đỡ của của các thuật toán hoc máy dé đánh gia hiệu quả các nhóm đặc trưng con trong tập đặc trưng của bộ dữ liệu Cụ thể, một tập các đặc trưng con từ tập đặc trưng gốc sẽ được trích xuất và sử dung dé huấn luyện mô hình máy học Quá trình này được lặp lại với nhiều tập đặc trưng con khác Các tập đặc trưng con này sẽ được đánh giá dựa theo hiệu quả huấn luyện tương ứng trên các mô hình học máy.
Do phải lặp đi lặp lại quá trình huấn luyện nên wrapper tiêu tốn rất nhiều tài nguyên xử lý, đặc biệt là với các tập dữ liệu có số lượng chiều lớn. Đôi lại, wrapper sẽ mang lại hiệu quả tốt hơn nhờ kết quả được kết luận thông qua thực nghiệm Các kỹ thuật lựa chọn nhóm đặc trưng bao gồm: o_ Forward selection: Bắt đầu từ tập đặc trưng rỗng và thêm dần các đặc trưng giúp nâng cao hiệu quả. o_ Backward elimination: Bắt đầu với tập đặc trưng đầy đủ và loại bỏ dân các đặc trưng kém liên quan.
Recursive feature elimination (RFE): sử dụng giải thuật tham lam dé đảm bảo tập đặc trưng được lựa chọn sau mỗi lần lặp lại huấn luyện là tốt nhất Các đặc trưng sẽ được lựa chọn mà không cần quan tâm đến hiệu quả để đảm bảo không đặc trưng nào sẽ bị bỏ sót RFE sẽ theo dõi hiệu quả các đặc trưng sau mỗi lần huấn luyện Sau khi hoàn tất RFE, các đặc trưng sẽ được xếp hạng dựa trên độ quan trọng của chúng (sau mỗi lần bị loại bỏ).
Embedded: là sự kết hợp giữa filter và wrapper Cụ thể, phương pháp này sẽ sử dụng các thuật toán học máy mà trong đó được tích hợp
(embed) sẵn các kỹ thuật trích xuất đặc trưng riêng Các phương pháp
28 chính quy hóa (Regularization) thường được sử dụng phô biến trong embedded Cụ thể, các feature có độ liên quan thấp sẽ bi phạt và giảm hệ số tương quan Các phương pháp thường được sử dụng trong embedded feature selection gồm LASSO và RIDGE.
Ngoài việc lựa chọn các đặc trưng có liên quan đến đầu ra, việc chọn các đặc trưng có liên quan đến nhau dé loại bỏ cũng quan trọng Nguyên nhân của điều này là do hệ quả từ hiện tượng đa cộng tuyến (multicollinearity) Hiện tượng nay xảy ra bởi nhiêu yêu tô như:
- Mét số đặc trưng là biến phụ thuộc hoặc có thể suy ra dựa vào các đặc trưng khác (biến tự do) Chăng hạn đặc trưng “thông lượng mạng trung bình có thé dé dàng được tính ra từ đặc trưng “thông lượng mạng tổng cộng" và “thời gian lưu lượng mạng tôn tai’.
- T6n tại đặc trưng giống nhau nhưng với tên gọi khác nhau.
Bộ phân loại - 222 1221121122112 11511 11115 111111111 11 E11 g1 kr rrệp 34 3.2 Phương pháp tiến hành . - ¿2c SE 2EE2EE2EEEEEEEEEEEEEE12E1EEEerreeg 34 3.2.1 _ Phân tích khám pha dif liệu (EDA) . - 2 z+s+cx+zxzszresred 34 3.2.2 _ Tiền xử lý dữ liệu lỗi ¿+ E+EEeEeEEEEeErrrrerrered 38 3.2.3 8s10/61830000121002322 5
Khác với bộ nhận diện, bộ phân loại có tác dụng phân loại cụ thể các traffic Tuy nhiên, bài toán phân loại đa lớp với dit liệu mat cân bang là rất khó để có thé tối ưu Do đó, van dé này sẽ tiếp tục nghiên cứu trong tương lai Tuy nhiên, các mô hình enssemble learning kết hợp nhiều mô hình, với mỗi mô hình chỉ dự đoán cho một lớp duy nhất và thực hiện bình chọn để có kết quả chính xác nhất, sẽ là một lựa chọn tốt cho bộ phân loại Các model nhận diện này có thê thử nghiệm sử dụng GAN, cụ thê là các trình phân biệt của GAN. 3.2 Phương pháp tiến hành
Tập dữ liệu được sử dụng là CIC-IDS-2018 Error! Reference source not found., một trong những bộ đữ liệu thường được sử dụng trong các IDS thành phẩm (product-level) nhờ được tạo ra với nhiều kịch bản đa dạng và mô phỏng thực tế Bộ dữ liệu này bao gồm ca dit liệu thô lẫn dữ liệu đã qua xử lý dang flow record, phù hợp cho việc tiên hành các nghiên cứu và thử nghiệm.
3.2.1 Phân tích khám phá dữ liệu (EDA)
Tập dữ liệu CIC-IDS-2018 gồm khoảng 80 đặc trưng với độ phủ gần như mọi thông tin về lưu lượng mạng Tuy nhiên trong thực tế, không phải tất cả thuộc tính
34 đều có đóng góp vào quá trình huấn luyện Bên cạnh đó, đây là một bộ đữ liệu rất lớn Do đó cần tiễn hành phân tích khám phá dữ liệu để có cái nhìn tổng quan và đưa ra hướng di dé tối ưu hơn về hiệu quả xử lý Chưa kẻ, việc tìm ra thuộc tinh thừa và giảm bớt số chiều đầu vào sẽ hỗ trợ đáng kế trong việc tối ưu hiệu quả làm việc của IDS Cần phải nhớ rằng, bên cạnh độ chính xác thì hao phí về tài nguyên xử lý cũng là một yếu tô quan trọng khi xây dựng một sản phẩm ứng dụng thực tế.
CIC-IDS-2018 bao gồm nhiều tập dữ liệu con (theo từng ngày) Trong khuôn khổ khóa luận này, các tập dữ liệu con có tỉ lệ giữa lớp thiếu số và đa số lớn hơn 1:4 và nhỏ hơn 1:100 sẽ được sử dụng, cụ thé như sau:
Bang 3 1: Tỉ lệ mat cân bằng trong các tập dữ liệu được lựa chọn
Dữ liệu ngày 2018_02_15 DoS attacks-GoldenEye 1:24 DoS attacks-Slowloris 1:90
Ti lệ mat cân bang sau khi gộp (Hình 3 2) Tan công 1:13
Hình 3 2: Phân phối các lớp trong tap dit liệu.
Việc gdp 2 tập dữ liệu con có các nhóm tan công mang đặc tính khác nhau nhằm mục tiêu mô phỏng lại thực tế, khi mà có thé có nhiều cuộc tan công diễn ra cùng lúc Ở ngữ cảnh này, sự mat cân băng không chỉ xảy ra giữa lớp tan công với lớp bình thường, mà còn có ti lệ mat cân bằng riêng giữa các nhóm trong lớp tấn công (thậm chí kể cả trong lớp bình thường) Ngoài ra, phân phối giá trị các thuộc tính giữa các lớp còn bị chồng lên nhau rất nặng (Hình 3 3) Những điều này cùng với van dé mắt cân bằng khiến cho tập dữ liệu có độ phức tạp cao, và do đó khiến cho hiệu quả phân loại có khả năng trở nên tôi tệ hon rat nhiêu Error! Reference source not found.0.
Fs 0.0015 —= Benign a =——— DoS attacks-GoldenEye
Hình 3 3: Phân phối giá trị ở thuộc tính bwd_pkt len max giữa các lớp.
Các thuộc tính được sử dụng trong CIC-IDS-2018 là các thuộc tính được trích xuất từ trình kết xuất lưu lượng mạng CICFlowMerer-V3, các thông tin chỉ tiết về danh sách các thuộc tính có thê tìm thấy tại Phụ lục C Các thuộc tính này có thé được chia thành các nhóm như sau:
Bảng 3 2: Phân loại các thuộc tính trong tập dữ liệu CIC-IDS-2018
Cac dữ liệu đặc trưng | fin flag cnt, syn flag cnt, rst flag cnt, được trích xuất trong | psh flag cnt, ack flag cnt,urg flag cnt, header gói tin ece flag cnt, fwd psh flags, dst_ip, dst_port, src_ip, src_port
Các dữ liệu thống kê | fwd header len, bwd header len, pkt len max, về gói tin pkt len mean, pkt len std, pkt len mm, fwd _pkt len max, fwd_pkt len mm, fwd pkt_ len mean, fwd_pkt_len_std,
37 bwd pkt len max, bwd pkt len mịn, bwd_pkt len mean, bwd_pkt len std, pkt len var
Các đữ liệu thống kê đặc trưng về hành vi mạng flow lat mean, flow_iat_std, flow_ lat max, flow_lat min, fwd iat tot,fwd lat mean, fwd lat std, fwd lat max, fwd_iat_min, bwd_iat tot, bwd_iat mean, bwd_iat_ std, bwd_iat_max, bwd_iat min, active mean, active std, active max, active min, idle_mean, idle_std, idle max, idle min,down_up ratio, init_fwd_win_byts, init_bwd_win_byts,
Cac dữ liệu thống kê về lưu lượng trong mạng tot fwd_pkts, tot bwd_pkts, totlen_fwd_pkts, totlen_bwd_pkts, flow_ byts s, flow pkts s,subflow fwd byts, subflow_bwd_pkts, subflow_bwd_byts, fwd_seg s1ze avg, bwd seg s1ze avg, subflow_fwd_pkts, fwd seg size min, fwd act data pkts, fwd byts b avg, fwd pkts b avg, fwd blk rate avg, bwd_byts b avg, bwd_pkts_b_avg, bwd_blk_rate_avg
3.2.2 Tiền xử ly dữ liệu lỗi
Việc dit liệu có chứa các giá trị lỗi sẽ khiến các tính toán bị sai lệch hoặc không thê thực hiện Do đó, xử lý lỗi là quá trình bắt buộc phải thực hiện đầu tiên.
Quy trình xử lý dữ liệu lỗi trong báo cáo này gồm các công đoạn sau đây:
- - Thực hiện chuyền đôi tất cả các thuộc tính nhận giá trỊ SỐ (float, int) sang đúng kiểu số Các giá trị lỗi, giá tri null sẽ được sửa thành NaN.
Thực hiện tính toán các giá tri trung bình, độ lệch tiêu chuẩn, giá trị nhỏ nhất, giá trị lớn nhất và tứ phân vi dé tìm ra các thuộc tính chỉ nhận một giá trị duy nhất, các thuộc tính có chứa giá trị vô cùng.
Loại bỏ các thuộc tính nhận một giá trị duy nhất hoặc các hàng bị lặp. Chuyên đổi các giá trị vô cùng thành NaN.
Thực hiện xóa tất cả các bản ghi chứa toàn giá trị NaN cho tất cả thuộc tính.
Thống kê các bản ghi chứa giá trị NaN còn sót lại, nếu các bản ghi này chiếm tỉ lệ ít so với bộ dữ liệu thì loại bỏ (0.5 % trở xuống).
Chuẩn hóa dữ liệu -:-©-<+2E++EECSEEtEEESEESrkrrrrerreee 40 3.3 Trich 0i: a Al 3.4 Xây dựng các mô hình ceceeseeeseeeceeeeeeeeeeeceeeeaeeeeeceeeeeeeseeseeeneeeaes 45 3.5 Đánh giá hiệu quả đối với tap dit liệu mất cân băng
Các dữ liệu thường nắm ở các miên giá trị khác nhau Do đó, việc thực hiện chuân hóa đữ liệu là cân thiệt, nhât là với các mô hình học máy nhạy cam với khoảng cách giữa các diém dir liệu Việc chuân hóa thường được thực hiện với các phương pháp sau:
- Chuan hóa Min-Max: Ánh xạ các giá trị vào khoảng [0,1] dựa vào tỉ lệ giữa giá trị lớn nhất và giá trị nhỏ nhất của thuộc tính Tác động của các biến ngoại biên (outlier) là rất cao trong phương pháp này, do tỉ lệ giữa các giá tri van được bảo tôn.
- Chuan hóa theo phân phối chuẩn (Z-score): nhăm mục đích đưa các điểm giá trị tụ về điểm trung bình (mean = 0) và có độ lệch bằng với độ lệch chuẩn (Hình 3 4) Chuân hóa này ít bị ảnh hưởng bởi outlier, nhưng đữ liệu gốc cần tuân theo phân phối chuẩn đề hoạt động tốt nhất. z = (x— mean) / std
Hình 3 4: Z-score va phân phối chuan
Trong bộ đữ liệu CIC-IDS-2018, phân phối các thuộc tính đều có độ lệch rất lớn (Hình 3 5), do đó rất khó dé xác định loại chuẩn hóa nào phù hợp mà cần phải thông qua thực nghiệm cả hai Lưu ý, chỉ nên thực hiện công đoạn
40 chuẩn hóa sau khi thực hiện phân chia dữ liệu thành các tập huấn luyện và test riêng biệt dé đề phòng rò rỉ đữ liệu đến mô hình học máy.
Hinh 3 5: Phan phối dữ liệu của các thuộc tính trong bộ dữ liệu.
Trong thực tế, các dữ liệu có số chiều lớn thường chứa dữ liệu nhiễu, đặc trưng dư thừa và ảnh hưởng đến hiệu suất của quá trình xử lý Trích chọn (không phải trích xuất) đặc trưng là quá trình loại bỏ bớt các đặc trưng dư thừa và ít liên quan đến kết quả đầu ra Trích chọn đặc trưng được thực hiện chủ yếu để nhằm mục đích cải thiện hiệu suất và tốc độ xử lý cho các thuật toán học máy Ngoài ra, việc lựa chọn đúng các đặc trưng có liên quan cũng có thé giúp mô hình kết luận chính xác hơn về kết quả dau ra và giảm ảnh hưởng từ sự mat cân bang trong dữ liệu.
Quy trình trích chọn đặc trưng được thực hiện trong báo cáo này gồm:
Thực hiện phép phân tích thành phần chính (PCA) trên tập dữ liệu đang sử dụng, và tap dir liệu chứa tat cả tan công (dé đảm bảo giữ lại đủ thông tin dé mô hình nhận diện các loại tắn công khác trong tương lai) Các kết quả trên tập dir liệu chứa tất cả loại tấn công cho thấy, rang có khoảng một nửa các thuộc tính có tác động chính đến đữ liệu (Hình 3 6) Tuy nhiên, kết quả trên tập dữ liệu sử dụng (có cả lưu lượng bình thường) chỉ có 10 thuộc tính Do đó, nhóm quyết định lựa chọn số lượng thuộc tính để giữ lại rơi vào quanh con sé
40 Luu y, cần thực hiện chuẩn hóa z-score dé đưa các feature về chung điểm trung tâm (mean = 0) trước khi PCA.
Tiếp theo đó, thực hiện tính toán hệ số tương quan giữa các biến với thuộc tính đích (label) Hình 3 7 mô tả độ tương quan giữa toàn bộ các thuộc tính trong bộ dữ liệu, trong đó màu càng nóng thê hiện độ tương quan càng cao Cần lưu ý, có một số thuộc tính có độ tương quan với nhau rất cao do hiện tượng da cộng tuyến (multicollinearity) Tuy nhiên, không phải bat cứ thuộc tính nao như vậy cũng là dư thừa Chăng hạn các thuộc tính về min, max, kỳ vọng, phương sai của độ dài gói tin chắc chắn sẽ có độ tương quan rất cao Tuy nhiên, nhóm các thuộc tinh này mang giá tri thông kê rất lớn và có thé ảnh hưởng đến kết quả đầu ra, do đó cần cần than trong việc lựa chọn hoặc loại bỏ Lưu ý, vì phân phối của các dir liệu này có độ lệch rất lớn, nên hoàn toàn khó có thé ước tính được giá trị min, max dựa trên kỳ vọng và độ lệch chuẩn Ngoài ra, đối với việc tính toán hệ số tương quan hay hiệp phương sai, không nhất thiết phải thực hiện chuẩn hóa trước (dù sẽ giúp việc tính toán nhanh hơn).
Hình 3 7: Heatmap biêu diễn tương quan giữa các thuộc tính trong bộ đữ liệu.
- Song song cùng lúc, thực hiện tính toán độ quan trọng của thuộc tinh thông qua một mô hình học máy Mô hình được lựa chọn là Random Forest, một mô hình ensemble learning rất phù hợp cho kỹ thuật này Do trong quá trình xây dựng cấu trúc cây cho RF có thực hiện tối ưu information gain cho từng biến
(thuộc tính) và tìm ra các thuộc tính khiến information gain đạt cực đại Có thể coi RF như một phương pháp trích xuất thuộc tính loại embedded Kết quả được thể hiện ở Hình 3 8.
POME MMR ccUXx CeO Mcp x we eww PPoPpeeee yee yMecEesenx cour a gegieg= 2 Eg teed Me lễ Tu g ee 111110 1L se ees SS aSesppescs EGS SE “5 BE ¢ Poke weeps sees es v's n
SE 1 nh ẽ.ằns = HH ốnn 1 OB 52 = oa oe +! Tt ee, rò HÿNs EE nh Zkepo~ SS aan FFsisteateepe= seeps epic aes aeesigs nát “5# Teyana too Zac R SgBg5p6 SH i6 5V ha ở rà) Wš5XTS33EES UV e 12h in h tố | Lá n- Brahe sẽ San"
HESE EEUSE ` 2 BS Ea BEEP? yee Ễ 33731 8EZEEE
Hình 3 8: Độ quan trọng của các thuộc tính được tính toán bởi Random
Thực hiện sắp xép lại độ tương quan giữa các thuộc tính với đầu ra, kết hợp với kiến thức lĩnh vực dé xác định các yêu tố nào có vai trò quan trọng Vì trong số các thuộc tính này, có rất nhiều thuộc tính có độ ảnh hưởng thấp đến kết quả, tuy nhiên lại có liên quan trực tiếp đến các cuộc tấn công Sở đĩ, các thuộc tính này có giá trị kết quả thấp là do lớp đa số chiếm tỉ lệ quá chênh lệch.
Do đó cần thực hiện lựa chọn thuộc tính kết hợp kết quả từ tính toán lẫn từ kiến thức chuyên môn, hoặc nếu day đủ tài nguyên thì có thé thử chiến thuật vét cạn.
Sử dung kỹ thuật backward elimination (wrapper) sử dụng chính model IDS với câu hình sô thuộc tính giảm dân dé đánh giá các cau hình thuộc tính.
- _ Thực nghiệm cho thấy các thuộc tính năm trong nhóm “Các dt liệu đặc trưng được trích xuất trong header gói tin’ và ‘Cac dit liệu thống kê đặc trưng về hành vi mang’ là 2 nhóm dữ liệu quan trọng nhất dé phát hiện tan công Kết quả sẽ được trình bảy ở chương 4.
3.4 Xây dựng các mô hình
Trong nghiên cứu này, một số nhóm thuật toán học máy phổ biến trong IDS được tác giả H Hindy và các cộng sự liệt kê ra trong khảo sát của họ Error!
Reference source not found sẽ được sử dụng, bao gồm:
Trong đó, các mô hình sẽ được xây dựng dựa trên 5 siêu tham số chính:
- _ Số thuộc tính (kèm với danh sách tương ứng) được sử dụng.
- _ Trọng số phạt đối với lớp thiểu số và lớp da số.
- Tilé dữ liệu tổng hợp (ADASYN) được thêm vào.
THỰC NGHIỆM & KET QUẢ 2: 52+2+c2£++rxzxezrszes 49 4.1 Môi trường triển khai . ¿5s tEEEE9EE2E12E1211211171111111 111.11 49 42 ‹ón na Ả ốỐ
Dữ liệu - 2.22222122222122 49 4.2.2 Cac thuat tOan VN
- Tập dữ liệu được tong hop từ 2 tap con ngày 15/02/2018 và 28/02/2018 của bộ dữ liệu CIC-IDS.
- Các nhãn: 0 cho lưu lượng bình thường và 1 cho tan công.
- Logistic Regression (regression) với cấu hình thiết lập ban đầu như sau:
LogisticRegression(penalty='12', *, dualse, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_stateG, solver='Ibfgs', max_iter0, multi_class="auto', verbose=0, warm_startse, n_jobs=None, 11_ratio=None)
- Decision Tree (tree-based) với cau hình thiết lập ban đầu như sau:
DecisionTreeClassifier(*, criterion='gini', spÌitter='besf, max_depth=None, min_samples_split=2, min_samples_leaf=1, min weight fraction leafE0.0, max_features=None, random_stateG, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, ccp_alpha=0.0)
Random Forest (ensemble learning) với cau hình thiết lập ban đầu như sau:
RandomForestClassifier(n_estimators0, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min weight fraction leaf=0.0, max_features='auto', max leaf nodes=None, min_impurity_decrease=0.0, min 1Impurtfty_splitENone, bootstrap=True, oob_scorese, n_jobs=None, random_stateG, verbose=0, warm_startse, class weight=None, ccp_alpha=0.0, max_samples=None)
SVM sử dung linear kernel (instance-based) với cấu hình thiết lập ban đầu như sau:
LinearSVC(penalty='12', loss='squared_hinge', *, dual=True, tol=0.0001, C=1.0, multi_class='ovr', fit_intercept=True, intercept_scaling=1, class weight=None, verbose=0, random_stateG, max_iter00)
Gaussian Naive Bayes (Bayesian) với cau hình thiết lập ban đầu như sau:
GaussianNB(*, priors=None, var_smoothing-09)
- Multi Layer Perceptron (ANN) với cau hình thiết lập ban đầu như sau:
MLPClassifier(hidden_layer_sizes0, activation=relu', *, solver='adam', alpha=0.0001, batch size='auto', learning rate='constant', learning rate _init=0.001, power_t=0.5, max_iter 0, shuffle=True, random_stateG, tol=0.0001, verbosese, warm_startse, momentum=0.9, nesterovs_ momentum=True, early_stoppingse, validation_fraction=0.1, beta_1=0.9, beta_2=0.999, epsilon=le-08, n_iter no change, max_fun000)
Tất cả mô hình đều được khởi tao với cấu hình random seed là 47 dé dam bảo tính tái thực hiện Các thông số khác sẽ được dé mặc định như thiết lập trong scikit-learn trừ các siêu tham sô bên dưới.
Bang 4 1: Danh sách các siêu tham số Siêu tham số Mô tả featureScaler Nhận 2 loại chuẩn hóa:
- Min-Max seed Random seed, giá tri cô định 47 osStrategy Nhận giá trị là một số thực không âm < 1 tương ứng với ti lệ lớp thiểu số Mặc định nhận giá trị 0 (không thực hiện thêm dit liệu tổng hợp vào tập huấn luyện) Sử dụng bộ tạo sinh ADASYN từ thư viện imbalanced-learn. usStrategy Nhận giá tri là một số thực không âm < | tương ứng với tỉ lệ của lớp thiểu số Mặc định nhận giá trị 0 (không thực hiện loại bỏ dữ liệu từ lớp đa số) Sử dụng bộ rút trích mẫu
RUS từ thư viện imbalanced-learn.
51 weight0 Trọng số cho lớp đa số.
Weightl Trọng số cho lớp thiêu sé.
Số lượng và danh | Gồm 6 cấu hình (Phu Lục B): sách các thuộc | Trọng hầu hết các cấu hình, nhóm các thuộc tính hành vi tính được lựa và đặc trưng cho lưu lượng đều được giữ lại. chọn `
55: Cấu hình đầy đủ được loại bỏ các thuộc tính trùng lặp, các thuộc tính đa cộng tuyến hoặc có độ quan trọng và hệ số tương quan thấp.
45: Loại bỏ các thuộc tinh max min (trừ fwd seg size min) thừa từ cấu hình 55 và chỉ giữ các thuộc tính độ lệch chuan/trung binh.
40: Loại bỏ các thuộc tinh subflow từ cau hình 45.
37: Loại bỏ các thuộc tinh flag, giữ nguyên các thuộc tính subflow; loại bỏ các thuộc tính giống cau hình 45.
32: Loại bỏ toàn bộ các thuộc tính trừ các thuộc tính trong khoảng 40 thuộc tính có điểm số cao nhất.
4.2.4 Các kịch bản thực hiện
- _ Thực hiện thực nghiệm lay kết quả control (không sử dụng siêu tham số tùy chỉnh).
- So sánh các phương pháp chuẩn hóa, bao gồm: o_ Chuẩn hóa toan tập dữ liệu. o Chuẩn hóa cho tập kiểm tra.
- _ Thực nghiệm với các tập đặc trưng khác nhau (trích xuất đặc trưng).
- Thực nghiệm các trọng số khác nhau (không áp dụng cho MLP va NB).
- Thuc nghiệm các tỉ lệ under-sampling và over-sampling khác nhau.
- _ Thực nghiệm mô hình hỗn hợp.
Tổng cộng 1038 model đã được xây dựng và huấn luyện (độ lặp không quá 5%) Do lượng đữ liệu rất lớn nên đa số kết quả sẽ được đính kèm trong DVD của khóa luận Lưu ý: Yếu tổ thời gian chỉ mang tính tương đối do có thé bi ảnh hưởng bởi các tác nhân từ môi trường triên khai.
4.3.1 Thue hiện lấy kết qua control
Bảng 4 2: Kết quả thực nghiệm mô hình control sử dụng tham số mặc định
Model TP FN FP TN Acc | Prec | Recall | F2 Time
100000 = = ° 7 = ° FP s00 SÊn TC RR SŠR 28
- Dé dàng nhận thay việc model bị fit vào lớp đa số, tỉ lệ bỏ sót tan công cao trong mọi trường hợp trừ mô hình NB Tuy nhiên, mô hình này cũng hầu như nhận diện mọi dữ liệu đâu vào là tân công.
-_ Nhìn chung, mô hình MLP, SVM va Logistic Regression cho ra kết quả tốt nhất, với tỉ lệ báo động giả thấp và recall tương đối.
- Mô hình Random Forest cũng cho ra tỉ lệ báo động giả thấp, tuy nhiên tỉ lệ bỏ sót rat cao Nguyên nhân có thể là do các model dang tree-based thường rat dé underfit với các bộ dữ liệu mất cân băng khi chưa được hiệu chỉnh.
- Mô hình Logistic Regression mang lại hiệu qua tôi ưu nhất về độ chính xác so với thời gian huân luyện.
4.3.2 So sánh các phương pháp chuẩn hóa
Bảng 43: Kết quả thực hiện chuẩn hóa trên toàn tập dữ liệu
Model TP FN FP TN Acc Prec | Recall | F2 Time LogisticRegression 10105 | 14003 921 304461 | 0.95 0.92 0.42 0.47 | 48.6
100000 = FP wn 2 on œ © no nN co O oO AD ô+ a DS m8 st t Re
Kết quả thực hiện chuẩn hóa trên toàn tập dữ liệu không khác nhiều so với việc thực hiện riêng trên tập huấn luyện và test đối với các model Logistic Regression, SVM va MLP, dù rang có nguy cơ xảy ra rò ri dit liệu ở đây. Điều này có thể giải thích là do tap dtr liệu được sử dụng là rất lớn, dẫn đến 10-20% dir liệu test được lay ngẫu nhiên từ quan thé mẫu cũng sẽ mang phân phối dữ liệu tương tự Do đó, việc thực hiện chuẩn hóa trên toàn tập dữ liệu có thê cũng không gây ảnh hưởng lớn với các tập đữ liệu có số mẫu đủ lớn.
Kết quả triển khai trên các mô hình dạng cây lại có sự thay đôi rõ rệt Đối với mô hình Decision Tree, hiệu quả tăng lên một cách đáng ké khi mà tỉ lệ báo động giả đã giảm đi một nửa Hiệu quả dự đoán của Random Forest cũng tăng rõ rệt, tỉ lệ bỏ sót tan công giảm gần một nửa và kéo theo là tỉ lệ báo động giả cũng tăng lên rất nhiều Sự thay đổi rõ rệt này có thé là do đặc tính các mô hình tree-based rất dễ biến động cấu trúc khi có sự thay đổi ở dataset Cần kiểm chứng thêm bằng dữ liệu mới hoặc thực nghiệm. Ở thử nghiệm chỉ chuẩn hóa trên tập huấn luyện (Bảng 4 4), hiệu quả của các mô hình giảm rõ rệt như trong dự đoán Do các dữ liệu này có khoảng giá trị biến động rất lớn.
Mô hình LR vẫn cho ra kết quả tương đối tốt, tuy nhiên tỉ lệ báo động giả lai tang mạnh.
Có thé chuẩn hóa Min-Max ở dit liệu huấn luyện sé mang lại kết quả tốt hơn trong trường hợp này, đo tỉ lệ vẫn được bảo toàn Cần thực nghiệm thêm.
Bảng 4 4: Kết quả thực nghiệm chuẩn hóa chỉ trên tập huấn luyện
Model TP FN FP TN Acc Prec | Recall F2 Time
100000 3 3 a FP ae š Š Sh i $ 88 oi _=M a ge” ‘Na 1m “a œ — a = faa) a att a a a ơ a a = -
Bảng 4 5: Kết quả thực nghiệm chuẩn hóa Min-Max
Model TP FN FP TN Acc Prec | Recall | F2 | Time LogisticRegression 10934 | 13174 | 6552 | 298830 | 0.94 | 0.63 045 | 0.48} 47.9
- Keét quả thực hiện chuân hóa Min-Max có một sự gia tăng về về tỉ lệ âm tính gia và dương tính gia ở các mô hình LR, DT, SVM Nguyên nhân cho sự thay đổi này có thể là đo chuẩn hóa Min-Max hoạt động không tốt với các tập dữ liệu có phân phối giá trị lệch như tập đữ liệu hiện tại khi mà các mô hình này rat nhạy với các sự biên động của dir liệu.
- _ Mô hình MLP vẫn cho kết quả tương đồng khi thực hiện chuẩn hóa Min-
Max Tuy nhiên, tỉ lệ báo động giả lại tăng cao gấp nhiều lần.
- Tuy nhiên, những nhận định trên là giả định va cần thêm các thử nghiệm khác dé kết luận.
- Cac thử nghiệm tiếp theo sẽ tập trung chỉ sử dung chuẩn hóa Z-score.
Bảng 4 6: Kết quả thực nghiệm trên cau hình 55 feature
Model TP FN FP TN Acc Prec | Recall Fl Time
Bảng 4 7: Kết quả thực nghiệm trên cau hình 45 feature
Model TP FN FP TN ACC | Prec | Recall Fl Time LogisticRegression | 10113 | 13995 | 3456 | 301926 | 0.95 | 0.75 | 042 |046| 37.5 DecisionTreeClassifier | 11342 | 12766 | 14616 | 290766 | 0.92 0.45 0.47 0.47 | 67.8 RandomForestClassifier | 2647 | 21461 5 305377 | 0.93 1.00 0.11 0.13 | 908.6
50000 = 2-8 aR So 2s 3 9 3ó + 8 aa rs m œ= @ G Osa e a ọ x
Bảng 4 8: Kết quả thực nghiệm trên cầu hình 40 feature
Model TP FN FP TN ACC | Prec | Recall | Fl Time LogisticRegression | 10024 | 14084 | 3474 | 301908 | 0.95 | 0.74 | 042 | 0.46] 28.6 DecisionTreeClassifier | 15094 | 9014 | 92171 | 213211] 0.69 | 0.14 063 | 0.37 | 62.2
+ 3 Dy % wo © a Oe so000 8 SS aS 8a Sas Ro zo
- _ Ở cấu hình 55, hầu hết các mô hình đều có sự tăng ở tỉ lệ báo động giả và âm tinh giả do sự thiếu hụt một số đặc tính Tuy nhiên nhìn chung thì kết quả vẫn rất khả quan, thời gian chạy đã giảm xuống gần một nửa với hầu hết thuật toán.
- Cấu hình 45 feature là cấu hình loại bỏ các thuộc tinh max min (nằm trong một set các thuộc tính max, min, mean, độ lệch chuẩn về một thông số nào đó của lưu lượng mạng) Ở điều kiện phân phối giá trị của đữ liệu phù hợp với phân phối chuẩn, các giá trị max min hoàn toàn có thể ước tính được bằng độ lệch chuẩn và trung bình Tuy nhiên, thử nghiệm nay là điều cần thiệt đê xác nhận vê khả năng sử dụng của câu hình nảy.