Chỉ số F-Measure của kỹ thuật máy học đơn với Tập- 123docz.net

Kiểu tấn cơng F-Measure

DT NB LR MLP SVM KNN Normal 81,10% 65,90% 73,70% 73,20% 75,20% 81,50% Backdoor 00,10% 06,40% 00,00% 00,00% 00,00% 04,70% Analysis 00,00% 01,80% 02,10% 00,00% 00,00% 00,00% Fuzzers 30,60% 20,60% 37,90% 30,30% 36,70% 32,20% Shellcode 13,10% 03,00% 00,00% 00,00% 00,00% 24,70% Reconnaissance 11,10% 00,90% 52,60% 00,00% 52,50% 57,80% Exploits 67,20% 37,40% 61,20% 61,10% 63,10% 64,90% DoS 11,40% 00,20% 08,20% 00,00% 00,60% 20,10% Worms 16,90% 00,60% 10,90% 00,00% 00,00% 10,90% Generic 74,50% 94,30% 97,80% 97,50% 98,00% 98,10%

Với kết quả như Bảng 16 ở trên ta thấy thuật tốn KNN cho kết quả tốt nhất trên 5 kiểu tấn cơng sau: Normal, Shellcode, Reconnaissance, DoS và Generic; Thuật tốn cây quyết định cho kết quả tốt nhất trên 2 kiểu tấn cơng Exploits và Worms; Kiểu tấn cơng Backdoor cho kết quả trên thuật tốn NB, kiểu tấn cơng Analysis cho kết quả cao nhất với thuật tốn LR và cuối cùng kiểu tấn cơng Fuzzers cho kết quả cao nhất với thuật tốn SVM.

Qua đĩ ta thấy với kỹ thuật máy học truyền thống, thuật tốn KNN cho kết quả tốt nhất trên nhiều kiểu tấn cơng khi sử dụng trên tập kiểm tra riêng để đánh giá.

Qua kết quả trình bày ở trên với kỹ thuật học truyền thống, chúng tơi cĩ một số nhận xét như sau:

- Việc sử dụng đánh giá chéo 10-fold để kiểm tra, đánh giá cho kết quả tốt hơn so với khi sử dụng tập kiểm tra độc lập. Điều này thường xảy ra do hiện tượng quá khớp (overfitting) khi huấn luyện với các tập dữ liệu huấn luyện nhỏ. Trong trường hợp này, các cây quyết định, với các nhánh khơng cắt tỉa, dễ xảy ra quá khớp, nên sẽ khơng cho kết quả tốt khi sử dụng tập dữ liệu riêng để đánh giá.

- KNN cho kết quả tốt trong hầu hết các trường hợp khi sử dụng tập kiểm tra riêng để đánh giá. Tuy nhiên, thời gian huấn luyện và kiểm tra của KNN tương đối cao. - Tập kiểm tra của tập dữ liệu UNSW-NB15 cĩ nhiều mẫu phức tạp, đặc biệt là các mẫu tấn cơng tổng hợp.

4.5. Sử dụng kỹ thuật học sâu

Các lớp mạng nơ-ron ẩn được sử dụng để xây dựng các kiến trúc trong thí nghiệm kỹ thuật học sâu gồm:

- DenseLayer: với kiến trúc này, tất cả các đơn vị được kết nối với tất cả các đơn vị của lớp cha của nĩ.

- BatchNormalization: với kiến trúc này, chiến lược chuẩn hĩa hàng loạt phổ biến trên các kích hoạt của lớp cha được áp dụng.

- LSTM: sử dụng phương pháp tiếp cận trí nhớ ngắn hạn - dài hạn

Trong thử nghiệm, chúng tơi sử dụng 3 kiến trúc để so sánh, đánh giá: DenseLayer + OutputLayer, BatchNormalization + OutputLayer và LSTM + OutputLayer. Phần tiếp theo trình bày kết quả với từng kiến trúc.

4.5.1. Kiến trúc lớp ẩn dùng BatchNormalization

Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính.

Với lớp mạng nơ-ron ẩn dùng BatchNormalization trên WEKA - Trường hợp sử dụng đánh giá chéo k-fold:

Trường hợp việc huấn luyện và kiểm tra được thực hiện trên cùng một tập dữ liệu sử dụng đánh giá chéo 10-fold (tham khảo phục lục 2.1). Thời gian xây dựng mơ hình là 17.502,23 giây. Kết quả kiểm tra, đánh giá được thể hiện như ở Bảng 4.17.

Với kết quả này, kiểu tấn cơng Generic cho kết quả cao cả trên 4 chỉ số đánh giá lần lượt là 91,90%, 94,50%, 93,20% và 98,20%. Tuy nhiên kiểu tấn cơng

Shellcode và Worm cho kết quả thấp chỉ bằng 00,00%.

Chỉ số F-Measure của kỹ thuật máy học đơn với Tập kiểm tra

Các kỹ thuật máy học đơn

Các kỹ thuật máy học kết hợp