Thơng tin của Tập dữ liệu huấn luyện và Tập kiểm tra

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng máy học để nâng cao hiệu năng của các hệ thống phát hiện xâm nhập mạng (Trang 52 - 53)

Loại tấn cơng Tập dữ liệu huấn luyện Tập kiểm tra Số bản ghi Tỷ lệ Số bản ghi Tỷ lệ Normal 56.000 31, 94% 37.000 44, 94% Analysis 2.000 01, 14% 677 00, 82% Backdoor 1.746 01, 00% 583 00, 71% DoS 12.264 06, 99% 4.089 04, 97% Exploits 33.393 19, 04% 11.132 13, 52% Fuzzers 18.184 10, 37% 6.062 07, 36% Generic 40.000 22, 81% 18.871 22, 92% Reconnaissance 10.491 05, 98% 3.496 04, 25% Shellcode 1.133 00, 65% 378 00, 46% Worms 130 00, 07% 44 00, 05% Tổng cộng 175.341 100% 82.332 100% 4.3. Tiền xử lý dữ liệu

Việc tiền xử lý dữ liệu cho quá trình phân lớp kiểu tấn cơng là một việc làm khơng thể thiếu và cĩ vai trị quan trọng quyết định tới sự áp dụng được hay khơng của mơ hình phân lớp. Quá trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính hiệu quả và khả năng mở rộng được của mơ hình phân lớp . Quá trình tiền xử lý dữ liệu, chúng ta phải nắm được dạng dữ liệu, thuộc tính mơ tả của dữ liệu. Thơng thường cĩ bốn giai đoạn chính là: làm sạch, tích hợp, biến đổi, thu giảm dữ liệu. Việc khái quát hĩa dữ liệu lên mức khái niệm cao hơn đơi khi là cần thiết trong quá trình tiền xử lý. Việc này đặc biệt hữu ích với những thuộc tính liên tục (continuous attribute hay numeric attribute) hay những thuộc tính rời rạc (categorical attribute). Việc khái quát hĩa làm cơ đọng dữ liệu học nguyên thủy, vì vậy các thao tác vào/ ra liên quan đến quá trình học sẽ giảm. Đối với tập dữ liệu UNSW-NB15, chúng tơi thực hiện việc làm sạch và biến đổi dữ liệu.

4.4. Sử dụng các kỹ thuật học truyền thống

Chúng tơi sử dụng 6 kỹ thuật học truyền thống gồm: Cây quyết định, Nạve Bayes, k láng giềng gần nhất, Hồi quy logistic, Máy véc-tơ hỗ trợ và Mạng nơ-ron. Kết quả đạt được trình bày chi tiết ở các phần tiếp theo.

4.4.1. Thuật tốn Cây quyết định

Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính.

Với kiểu tấn cơng sử dụng thuật tốn Cây quyết định (DT) trên

- Trường hợp sử dụng đánh giá chéo k-fold:

Trường hợp việc huấn luyện và kiểm tra được thực hiện trên cùng một tập dữ liệu sử dụng đánh giá chéo 10-fold (tham khảo phục lục 1.1). Thời gian xây dựng mơ hình là 4.623,02 giây. Kết quả kiểm tra, đánh giá được thể hiện như ở Bảng 4.3.

Kết quả trên ta thấy kiểu tấn cơng Generic cĩ kết quả tốt nhất cho tất cả các chỉ số Precision, Recall, F-Measure và AUC lần lượt là 99,70%,98,30%, 99,00% và 99,60% và kế tiếp là kiểu tấn cơng Normal đạt kết quả > 92,00% cho tất cả 4 chỉ số

đánh giá; Kiểu tấn cơng Fuzzers cho kết quả 91,50% và kiểu tấn cơng Exploits cho kết quả là 94,30% trên chỉ số AUC, Nhìn chung các kiểu tấn cơng của mơ hình này đạt kết quả tương đối cao. Mơ hình này kết quả kiểu tấn cơng đúng Corectly Classified Instance đạt đến 82%.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng máy học để nâng cao hiệu năng của các hệ thống phát hiện xâm nhập mạng (Trang 52 - 53)

Tải bản đầy đủ (PDF)

(136 trang)