BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH VÕ THANH HẢI NGHIÊN CỨU KỸ THUẬT MÁY HỌC CHO HỆ THỐNG PHÁT HIỆN XÂM NHẬP Chuyên ngành KHOA HỌC MÁY TÍNH Mã chuyên ngành 60 48 01 01 LUẬN[.]
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH VÕ THANH HẢI NGHIÊN CỨU KỸ THUẬT MÁY HỌC CHO HỆ THỐNG PHÁT HIỆN XÂM NHẬP Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60.48.01.01 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2021 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: TS Đặng Quang Vinh Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: - Chủ tịch Hội đồng - Phản biện - Phản biện - Ủy viên - Thư ký (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN BỘ CƠNG THƯƠNG CỘNG HỊA XÃ HỘI CHỦ NGHĨAVIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP Độc lập - Tự - Hạnh phúc THÀNH PHỐ HỒ CHÍ MINH NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Võ Thanh Hải MSHV: 17112681 Ngày, tháng, năm sinh: 27/05/1994 Nơi sinh: Long an Chuyên ngành: Khoa học Máy tính Mã chuyên ngành: 60480101 I TÊN ĐỀ TÀI: Nghiên cứu kỹ thuật máy học cho hệ thống phát xâm nhập NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu kĩ thuật phát xâm nhập - So sánh, đánh giá số kĩ thuật nhận dạng xâm nhập với tập dataset intrusion detection evaluation dataset - CICIDS 2017 - Nghiên cứu phương pháp học máy, áp dụng phương pháp học máy vào nhận dạng phát mạng bất thường - Phân tích kết đưa hướng phát triển II NGÀY GIAO NHIỆM VỤ: 06/09/2019 III NGÀY HOÀN THÀNH NHIỆM VỤ: 15/10/2020 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đặng Quang Vinh Tp Hồ Chí Minh, ngày … tháng NGƯỜI HƯỚNG DẪN năm 20 CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN LỜI CẢM ƠN Để hoàn thành luận văn thạc sĩ này, tơi xin bày tỏ cảm kích đặc biệt tới cố vấn tôi, Tiến sĩ Đặng Quang Vinh - người định hướng, trực tiếp dẫn dắt cố vấn cho suốt thời gian thực đề tài nghiên cứu khoa học Tôi xin gửi lời cảm ơn đến thầy tất lịng biết ơn Tơi xin gửi lời cảm ơn chân thành đến thầy Lê Nhật Duy – Phó khoa Cơng nghệ thơng tin hướng dẫn giúp đỡ biểu mẫu quy trình hoàn thành đề tài luận văn từ bắt đầu đăng ký đề cương đến bảo vệ luận văn Tơi xin trân trọng cảm ơn Phịng quản lý Sau đại học giúp đỡ thủ tục cần thiết để hồn thành luận văn Sau cùng, tơi xin tỏ lòng biết ơn đến Trung tâm điều hành quản trị mạng Tiên Phát – Cơ quan nơi công tác, tạo điều kiện thời gian, công việc để tơi hồn thành luận văn thạc sĩ Xin chân thành cảm ơn tất người! i TÓM TẮT LUẬN VĂN THẠC SĨ Trong sống nay, mạng Internet phát triển vượt bậc đóng góp vai trị to lớn sống người Internet chi phối đến nhiều khía cạnh sống kinh tế, giáo dục, khoa học xã hội … đặc biệt tác động mạnh mẽ đến thương mại điện tử Người dùng sử dụng trang website bán hàng, ứng dụng mua bán hay toán qua ví điện tử chứa nhiều rủi ro bảo mật an tồn thơng tin Trong luận văn này, chúng tơi thực tìm hiểu, đánh giá số kĩ thuật xâm nhập tập liệu intrusion detection evaluation dataset 2017 Mục tiêu nghiên cứu nghiên cứu số phương pháp học máy áp dụng phương pháp học máy nhận dạng phát mạng bất thường Sản phẩm đề tài hoàn thành giúp có nhìn tổng quan phương pháp máy học vào việc nhận dạng phát xâm nhập Trong luận văn này, tơi cố gắng tìm hiểu phối hợp kĩ thuật nhận dạng nhằm tăng khả nhận diện, phát công với tỉ lệ cao số tập liệu cụ thể ii LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thân Các kết nghiên cứu kết luận luận văn trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Học viên (Chữ ký) Võ Thanh Hải iii MỤC LỤC MỤC LỤC iv DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG BIỂU vii DANH MỤC TỪ VIẾT TẮT viii MỞ ĐẦU 1 Đặt vấn đề Mục tiêu nghiên cứu 2.1 Mục tiêu nghiên cứu tổng quát 2.2 Mục tiêu nghiên cứu cụ thể Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu Cách tiếp cận phương pháp nghiên cứu 4.1 Cách tiếp cận 4.2 Phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài CHƯƠNG TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU VÀ CÁC CƠNG TRÌNH LIÊN QUAN CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CƠNG TRÌNH LIÊN QUAN 2.1 Phát bất thường loại công 2.1.1 Các phát bất thường 2.1.2 Các loại công mạng: 2.2 Các thuật toán máy học: 2.2.1 Thuật toán Random Forest 10 2.2.2 Thuật toán AdaBoost 16 2.2.3 Thuật toán K-nearest neighbors 20 2.2.4 Thuật toán Naive Bayes 21 2.2.5 Thuật toán QDA (quadratic discriminant analysis) 25 2.2.6 Thuật toán MLP Classifier 28 iv 2.2.7 Thuật toán ID3 31 2.2.8 Thuật toán ID3 32 2.3 Các nghiên cứu liên quan: 34 CHƯƠNG PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP VÀ CÁCH TIẾP CẬN BẰNG PHƯƠNG PHÁP HỌC MÁY 38 3.1 Mô hình thử nghiệm 38 3.2 Thực nghiệm 39 3.2.1 Giai đoạn tiền xử lý liệu 39 3.2.2 Tạo liệu huấn luyện kiểm tra 41 3.2.3 Lựa chọn đặc trưng 42 3.2.4 Triển khai thuật toán học máy 46 CHƯƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 48 4.1 Giới thiệu tập liệu 48 4.2 Yêu cầu phần cứng 54 4.3 Yêu cầu phần mềm 54 4.4 Phương pháp đánh giá hiệu suất 55 4.5 Phân tích đánh giá 56 4.5.1 Phương pháp sử dụng 12 loại công 56 4.5.2 Phương pháp sử dụng hai nhóm chứa luồng cơng luồng liệu bình thường 59 KẾT LUẬN VÀ KIẾN NGHỊ 65 TÀI LIỆU THAM KHẢO 67 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 72 v DANH MỤC HÌNH ẢNH Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 1.1 Thể danh mục cơng giới theo loại công 1.2 Thể thay đổi mục tiêu công giai đoạn 2018-2019 2.1 Mối quan hệ bất thường mạng công mạng 2.2 Ví dụ phân tách định 11 2.3 Đặc trưng quan trọng tập liệu CICIDS 2017 15 2.4 Biểu đồ trọng số công cụ ước tính dạng hàm tổng sai số có trọng số chuẩn hóa 17 2.5 Ví dụ mạng Bayes 23 2.6 Hai phương pháp để điều chỉnh đường biên bậc hai 27 2.7 Một perceptron đơn giản 29 2.8 Cấu trúc perceptron nhiều lớp 30 3.1 Mơ hình thực nghiệm hệ thống 38 3.2 Đồ thị tầm quan trọng đặc trưng theo nhãn luồng cơng luồng bình thường 45 4.1 So sánh hiệu suất Sharafaldin luận văn 64 vi DANH MỤC BẢNG BIỂU Bảng 3.1 Bảng thể số lượng mẫu theo loại công 40 Bảng 3.2 Sự phân bố đặc trưng bốn đặc trưng có giá trị quan trọng cho công 43 Bảng 3.3 Tầm quan trọng đặc trưng theo nhãn công không công 46 Bảng 3.4 Trọng số đặc trưng theo luồng cơng luồng bình thường 47 Bảng 4.1 Bảng liệu data ghi nhận tập liệu CIC-IDS 2017 48 Bảng 4.2 F-Measure loại công 57 Bảng 4.3 Bảng kết implement với 18 đặc trưng 60 Bảng 4.4 Thực đặc trưng cách sử dụng Random Forest Regression cho tập liệu 61 Bảng 4.5 Thuật toán máy học cập nhật đặc trưng 62 Bảng 4.6 F-measure việc lựa chọn đặc trưng khác 63 Bảng 4.7 So Sánh hiệu suất đạt luận văn [13] 63 vii ... học Máy tính Mã chuyên ngành: 60480101 I TÊN ĐỀ TÀI: Nghiên cứu kỹ thuật máy học cho hệ thống phát xâm nhập NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu kĩ thuật phát xâm nhập - So sánh, đánh giá số kĩ thuật. .. Hiện nay, nhiều hệ thống phát xâm nhập nhận dạng công mẫu liệu có sẵn Hệ thống phát xâm nhập chưa có khả phân tích nhận diện công xảy ra, đặc biệt giai đoạn Do đó, hệ thống phát xâm nhập cần tăng... mật cho hệ thống Vì vậy, nhiều hệ thống xây dựng nhằm chống lại công từ bên lẫn bên ngồi mơi trường internet Hệ thống phát xâm nhập( intrusion detection systems - IDS) hệ thống cần nghiên cứu