Kiểu tấn cơng Bộ phân loại
cơ sở Precision Recall F-Measure AUC
Normal RT 98,10% 91,50% 91,50% 97,30% Backdoor RT 36,20% 74,30% 14,70% 87,50% Analysis RT 49,50% 17,20% 25,50% 89,40% Fuzzers RT 70,60% 66,50% 67,90% 93,10% Shellcode RT 50,10% 98,70% 48,60% 92,50% Reconnaissance RT 85,80% 77,90% 78,20% 95,60% Exploits RT 66,90% 83,00% 68,70% 94,00% DoS SVM 31,40% 14,80% 20,00% 88,90% Worms RT 42,90% 20,50% 20,60% 80,00% Generic RT 99,80% 98,10% 98,50% 99,50%
Qua kết quả đạt được, chúng tơi cĩ một số nhận xét:
- Trường hợp sử dụng đánh giá chéo 10-fold cho kết quả tốt hơn so với trường hợp sử dụng tập kiểm tra riêng. Điều đĩ cho thấy tập kiểm tra cĩ nhiều mẫu phức tạp với các kiểu tấn cơng tổng hợp đương đại.
- Việc sử dụng đánh giá chéo 10-fold dễ dẫn đến hiện tượng vừa khớp dữ liệu (overfitting), cụ thể thuật tốn cây quyết định thể hiện rất tốt ở đánh giá chéo 10-fold nhưng lại khơng tốt bằng cây ngẫu nhiên RT ở trường hợp sử dụng tập kiểm tra riêng để đánh giá. Điều này đúng, vì cây ngẫu nhiên chính là cây quyết định, nhưng khơng
đầy đủ, điều đĩ giúp giải quyết vấn đề quá khớp dữ liệu.
- Thuật tốn kết hợp Boosting mất khá nhiều thời gian tính tốn so với kỹ thuật học truyền thống. Điều này khá hiển nhiên vì việc phân loại được thực hiện bởi cả một kết hợp gồm nhiều bộ kiểu tấn cơng thay vì một thuật tốn kiểu tấn cơng đơn.
4.6.1.2. Kỹ thuật kết hợp Bagging
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính.
Với kiểu tấn cơng sử dụng thuật tốn Bagging trên WEKA chúng tơi sử dụng kết hợp từng bộ phân loại cơ sở như Bảng 4.37. (tham khảo phục lục 3.2).