5. Phương pháp nghiên cứu của đề tài
2.3.2 Giai đoạn phát hiện
Sau khi hoàn thành giai đoạn huấn luyện, ta sẽ sử dụng mô hình phát hiện thu được để thực hiện đối với X test. Giai đoạn này được tiến hành theo các bước sau như biểu diễn trên Hình 2.16 dưới đây
Hình 2.16: Mô hình phát hiện tấn công xâm nhập: Giai đoạn phát hiện
+ X test (30% của bộ dữ liệu đầu vào ban đầu) được trích chọn đặc trưng (tiền
xử lý) theo mô hình nhận được từ giai đoạn huấn luyện. Kết quả của tiền xử lý là véc
tơ được sử dụng cho bước tiếp theo;
+ Véc tơ được phân loại sử dụng Bộ phân loại (bao gồm các thuật toán phân loại SVM - Support Vector Machine, DT - Decision Tree, RF - Random Forest, NB -
Naive Baves, K Neighbors) đã xây dựng trong giai đoạn huấn luyện. Kết quả của bước
này là trạng thái dữ liệu đầu vào: Bình thường hoặc Tấn công.
Cụ thể, các thuật toán trong Bộ phân loại sẽ tạo ra một Y_predict là kết quả phân loại của Z_test. Sau đó, ta sẽ so sánh với Y_test với Y_predict. Kết quả phân loại sẽ được tính theo chỉ số AUC để đánh giá mức độ chính xác của mô hình phát hiện.
Tấn công Bình thường
Dữ liệu giám sát
Tiền xử lý dữ liệu
Bộ phân
Hình 2.17 Tổng thể mô hình ứng dụng SAE và SDAE vào phát hiện xâm nhập mạng
2.4 Kết luận chương
Chương 2 đã tìm hiểu khái quát về học máy máy và học sâu, đồng thời nghiên cứu xây dựng mô hình ứng dụng Autoencoder trong phát hiện xâm nhập mạng với 02 giai đoạn: Giai đoạn huấn luyện và giai đoạn phát hiện. Giai đoạn phát hiện sử dụng một số thuật toán phân loại có giám sát.
Trong Chương 3 CÀI ĐẶT VÀ THỬ NGHIỆM, nội dung chủ yếu là giới
thiệu tập dữ liệu được sử dụng để huấn luyện cho học máy, phương pháp trích chọn đặc trưng sử dụng AE, các bước làm trong pha huấn luyện và phát hiện xâm nhập, các kết quả được dùng để đánh giá mức độ hiệu quả khi sử dụng AE.
CHƯƠNG 3
CÀI ĐẶT VÀ THỬ NGHIỆM