Nghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phépNghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phép
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN HOÀNG GIANG NGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY VÀ ỨNG DỤNG TRONG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2016 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN HOÀNG GIANG NGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY VÀ ỨNG DỤNG TRONG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN QUANG ANH HÀ NỘI - 2016 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên công trình, thời gian địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả luận văn Nguyễn Hoàng Giang ii LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn sâu sắc đến thầy giáo, PGS TS Trần Quang Anh – Phó giám đốc Học viện – Học viện Công nghệ Bưu Viễn thông Thầy định hướng nghiên cứu, bảo tận tình, đôn đốc đầy trách nhiệm, cho em ý kiến đóng góp giá trị suốt trình làm nghiên cứu khoa học, làm luận văn, đồng thời tạo điều kiện thuận lợi để em hoàn thành luận văn Em xin chân thành cảm ơn toàn thể thầy cô Khoa Quốc tế Đào tạo Sau Đại học; Khoa Công nghệ thông tin I – Học viện Công nghệ Bưu viễn thông truyền đạt kiến thức bổ ích lý thú, giúp ích cho em đường học tập nghiên cứu Cuối cùng, xin cảm ơn tất người bạn đóng góp ý kiến, động viên, giúp đỡ hoàn thành luận văn Hà Nội, ngày 15 tháng 06 năm 2016 Tác giả luận văn Nguyễn Hoàng Giang iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii MỞ ĐẦU Tính cấp thiết đề tài Mục đích nghiên cứu Đối tượng nghiên cứu phạm vi nghiên cứu Phương pháp nghiên cứu Cấu trúc luận văn CHƯƠNG TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP HỌC MÁY 1.1 Giới thiệu học máy 1.2 Phân loại phương pháp học máy 1.2.1 Phương pháp học máy có giám sát 1.2.2 Phương pháp học máy giám sát 1.3 Một số thuật toán học máy 1.3.1 Thuật toán học máy có giám sát: Support Vector Machine (SVM) 1.3.1.1 Tổng quan SVM 1.3.1.2 Phân lớp tuyến tính 1.3.1.3 Phân lớp tuyến tính với trường hợp không phân tách 1.3.1.4 Phân lớp phi tuyến tính 1.3.2 Thuật toán học máy có giám sát: K-Nearest Neighbor (K-NN) 1.3.2.1 Tổng quan K láng giềng gần 1.3.2.2 Thuật toán K-NN 1.3.2.3 Hàm tính khoảng cách 1.3.2.4 Chọn K 1.3.3 Thuật toán học máy giám sát: One-class SVM 1.3.3.1 Tổng quan One-class SVM 1.3.3.2 Thuật toán One-class SVM 1.4 Kết luận chương 1 2 4 5 6 7 10 15 19 23 23 24 25 26 27 27 27 28 CHƯƠNG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP VÀ CÁCH TIẾP CẬN BẰNG PHƯƠNG PHÁP HỌC MÁY 30 2.1 Khái niệm xâm nhập trái phép 2.1.1 Xâm nhập trái phép 2.1.2 Hệ thống IDS 2.1.2.1 Khái niệm 2.1.2.2 Thành phần hệ thống IDS 30 30 31 31 32 iv 2.2 Phân loại phát xâm nhập trái phép theo nguồn liệu 2.2.1 Phát xâm nhập trái phép mạng (Network-based) 2.2.2 Phát xâm nhập trái phép máy chủ (Host-based) 2.3 Phân loại phát xâm nhập trái phép theo kỹ thuật phân tích liệu 2.3.1 Misuse Detection 2.3.2 Anomaly Detection 2.4 Phát xâm nhập trái phép tiếp cận băng phương pháp học máy (Machine Learning Approach) 2.4.1 Phát xâm nhập trái phép dựa vào học máy có giám sát 2.4.2 Phát xâm nhập trái phép dựa vào học máy giám sát 2.5 Mô tả toán đề xuất luận văn 2.5.1 Lựa chọn luồng liệu Net-Flow 2.5.2 Phát bất thường K-NN, SVM One-class SVM 2.6 Kết luận chương 33 33 35 36 36 37 39 40 41 41 42 42 43 CHƯƠNG ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY KNN, SVM VÀ ONE-CLASS SVM ĐỂ PHÁT HIỆN BẤT THƯỜNG 44 3.1 Mô hình thử nghiệm 3.1.1 Giới thiệu liệu thử nghiệm DARPA ISCX Research Center 3.1.1.1 Bộ liệu DARPA Tcpdump 3.1.1.2 Bộ liệu ISCX Tcpdump 3.1.2 Chuyển đổi liệu từ Tcpdump sang Netflow 3.2 Cài đặt thử nghiệm 3.2.1 Tập liệu thử nghiệm DARPA Netflow 3.2.2 Tập liệu thử nghiệm ISCX Netflow 3.2.3 Trích chọn đặc trưng 3.2.4 Cài đặt 3.3 Kết đánh giá 3.3.1 Tiêu chí đánh giá hệ thống IDS 3.3.2 Kết thử nghiệm 3.3.3 Đánh giá 3.4 Kết luận chương KẾT LUẬN Kết đạt Hướng nghiên cứu tương lai 44 45 45 46 47 50 50 52 52 54 54 54 56 56 59 60 60 60 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC 01: DỮ LIỆU VÀ KẾT QUẢ THỬ NGHIỆM 63 Chuẩn hóa liệu DARPA Netflow Chuẩn hóa liệu ISCX Netflow Kết thử nghiệm với liệu DARPA Netflow 3.1 Thuật toán K-NN 3.2 Thuật toán SVM 3.3 Thuật toán One-class SVM 63 66 69 69 71 75 v Kết thử nghiệm với liệu ISCX Netflow 4.1 Thuật toán K-NN 4.2 Thuật toán SVM 4.3 Thuật toán One-class SVM PHỤ LỤC 02 : CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 75 75 78 82 83 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt/Thuật ngữ Ý nghĩa Bộ liệu nghiên cứu phát xâm nhập trái phép DARPA/Defense Advanced Cục dự án nghiên cứu cao cấp Bộ quốc phòng Research Project Agency Mỹ Bộ liệu nghiên cứu phát xâm nhập trái DARPA Dataset phép DARPA Hệ thống phát xâm nhập trái phép HIDS/Network Based IDS máy chủ IDS/Intrusion Detection Systems Hệ thống phát xâm nhập trái phép ISCX/Information Security Trung tâm nghiên cứu an toàn thông tin Center of Excellence trường đại học New Brunswick Bộ liệu nghiên cứu phát xâm nhập trái ISCX Dataset phép ISCX K-NN/K-Nearest Neighbor Thuật toán học máy K láng giềng gần ML/Machine Learning Học máy Định dạng liệu thu thập qua việc bắt Netflow giữ gói tin dạng Flow Hệ thống phát xâm nhập trái phép NIDS/Network Based IDS mạng SVM/Support Vector Machine Thuật toán học máy Máy hỗ trợ Vector Định dạng liệu thu thập qua việc bắt Tcpdump giữ gói tin dạng Packet Phần mềm học máy trường đại học Weka Waikato Dataset vii DANH SÁCH BẢNG Bảng 3.1: Các nhóm xâm nhập trái phép liệu DARPA 46 Bảng 3.2: Bộ liệu ISCX 47 Bảng 3.3: Các thông số liệu netflow máy chủ Pascal 50 Bảng 3.4: Số lượng công từ máy chủ tới máy chủ Pascal 51 Bảng 3.5: Số lượng công theo cổng đích tới máy chủ Pascal 51 Bảng 3.6: Các thông số liệu ISCX Netflow 52 Bảng 3.7: Số lượng công theo cổng đích với liệu ISCX 52 Bảng 3.8: Các đặc trưng lựa chọn phát xâm nhập trái phép 53 Bảng 3.9: Thông tin liệu thử nghiệm DARPA Netflow máy chủ Pascal 53 Bảng 3.10: Thông tin liệu thử nghiệm ISCX Netflow ngày 14/6 53 Bảng 3.11: Confusion Matrix 55 Bảng 3.12: Đánh giá kết thử nghiệm với liệu DARPA Netflow 57 Bảng 3.13: Đánh giá kết thử nghiệm với liệu ISCX Netflow 58 69 Kết thử nghiệm với liệu DARPA Netflow 3.1 Thuật toán K-NN Hình 0.13: ROC thuật toán K-NN với K=1 với liệu DARPA Netflow 70 Hình 0.14: ROC thuật toán K-NN với K=4 với liệu DARPA Netflow 71 3.2 Thuật toán SVM Hình 0.15: ROC thuật toán SVM Linear với liệu DARPA Netflow 72 Hình 0.16: ROC thuật toán SVM Polynominal với liệu DARPA Netflow 73 Hình 0.17: ROC thuật toán SVM-RBF với liệu DARPA Netflow 74 Hình 0.18: ROC thuật toán SVM-Sigmoid với liệu DARPA Netflow 75 3.3 Thuật toán One-class SVM Hình 0.19: Kết phân loại với thuật toán One-class SVM với liệu DARPA Netflow Kết thử nghiệm với liệu ISCX Netflow 4.1 Thuật toán K-NN Hình 0.20: ROC thuật toán K-NN với K=1 với liệu ISCX Netflow 76 77 Hình 0.21: ROC thuật toán K-NN với K=4 với liệu ISCX Netflow 78 4.2 Thuật toán SVM Hình 0.22: ROC thuật toán SVM Linear với liệu ISCX Netflow 79 Hình 0.23: ROC thuật toán SVM Polynominal với liệu ISCX Netflow 80 Hình 0.24: ROC thuật toán SVM-RBF với liệu ISCX Netflow 81 Hình 0.25: ROC thuật toán SVM-Sigmoid với liệu ISCX Netflow 82 4.3 Thuật toán One-class SVM Hình 0.26: Kết phân loại với thuật toán One-class SVM với liệu ISCX Netflow 83 PHỤ LỤC 02 : CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [...]... trong phát hiện xâm nhập mạng bất thường 2 Mục đích nghiên cứu Nghiên cứu các phương pháp học máy; Nghiên cứu một số cách thức phát hiện xâm nhập trái phép Từ đó ứng dụng phương pháp học máy phát hiện bất thường mạng 3 Đối tượng nghiên cứu và phạm vi nghiên cứu Đối tượng nghiên cứu: Các phương pháp học máy; phương pháp phát hiện xâm nhập trái phép đặc biệt là phát hiện bất thường mạng; các luồng dữ liệu... hiện theo đúng các quy tắc đã được lập trình sẵn Chính vì thế, việc ứng dụng Học máy trong phát hiện xâm nhập trái phép, đặc biệt đối với phát hiện bất thường, là phù hợp và cần thiết trong bối cảnh hiện nay Chính vì vậy, học viên chọn đề tài luận văn Nghiên cứu các phương pháp học máy và ứng dụng trong phát hiện xâm nhập trái phép , trong đó tập trung nghiên cứu ứng dụng học máy trong phát hiện xâm. .. học máy có giám sát và phương pháp học máy không có giám sát; tiếp đó sẽ trình bày một số thuật toán học máy tiêu biểu của các phương pháp học máy, trong đó đi sâu vào 3 thuật toán học máy là SVM, KNN và One-class SVM sẽ được sử dụng trong ứng dụng phát hiện xâm nhập mạng bất thường nêu ở chương 3 Chương 2: Phát hiện xâm nhập trái phép và cách tiếp cận bằng phương pháp học máy Trong chương này, luận... liệu trên mạng Phạm vi nghiên cứu: Phát hiện bất thường trong mạng máy tính 4 Phương pháp nghiên cứu a) Về lý thuyết: Đọc, phân tích, tổng hợp tài liệu về các phương các phương pháp học máy 3 Đọc, phân tích, tổng hợp tài liệu về các cách thức phát hiện xâm nhập trái phép và cách tiếp cận bằng phương pháp học máy trên các luồng dữ liệu b)Về thực nghiệm: Sử dụng phương pháp học máy K-Nearest Neighbor... về xâm nhập trái phép; phân loại phát hiện xâm nhập trái phép dựa trên nguồn dữ liệu (Network-based, Hostbased) và dựa theo phương pháp xử lý (Misuse Detection, Anomaly Detection); cách tiếp cận phát hiện xâm nhập trái phép dựa trên bất thường bằng phương pháp học máy; Mô tả bài toán đề xuất trong luận văn Chương 3: Ứng dụng phương pháp học máy KNN, SVM và One-class SVM để phát hiện bất thường Trong. .. thức phát hiện xâm nhập trái phép dựa trên bất thường mạng hiện nay đang trở thành hướng nghiên cứu chủ yếu đối với các hệ thống phát hiện xâm nhập trái phép Học máy (Machine learning) là kỹ thuật cho phép giải quyết vấn để hoặc ra quyết định dựa trên dữ liệu và kinh nghiệm Với học máy, chương trình máy tính sử dụng kinh nghiệm, quan sát, hoặc dữ liệu trong quá khứ để cải thiện công việc của mình trong. .. xuất, áp dụng nhằm đảm bảo an toàn thông tin như: triển khai các hệ thống tường lửa (Firewall) nhiều lớp, hệ thống phát hiện xâm nhập trái phép (IDS), các hệ thống xác thực, các hệ thống bảo mật thiết bị đầu cuối (Endpoint) Tuy vậy, giải pháp phát hiện xâm nhập trái phép (IDS) vẫn luôn là một trong những giải pháp quan trọng, được quan tâm triển khai Có nhiều cách để phát hiện các xâm nhập trái phép hệ... (phát hiện dựa trên sự lạm dụng) và Anomaly Detection (phát hiện bất thường) Cách thức phát hiện dựa trên sự lạm dụng phân tích các hoạt động của hệ thống, tìm kiếm các sự kiện giống với các mẫu tấn công đã biết trước Các mẫu tấn công biết trước này gọi là các dấu hiệu tấn công Do vậy cách thức này còn được gọi là cách thức phát hiện dựa trên dấu hiệu Kiểu phát hiện tấn công này có ưu điểm là phát hiện. .. (SVM) và One-class SVM phát hiện bất thường mạng máy tính sử dụng tập dữ liệu dataset của DARPA và ISCX Research Center 5 Cấu trúc luận văn Nội dung của luận văn dự kiến sẽ được chia thành 3 chương với những nội dung chính như sau: Chương 1: Tổng quan về các phương pháp học máy Trong chương này, luận văn sẽ trình bày khái niệm về học máy; phân loại các phương pháp học máy chủ yếu là phương pháp học máy. .. nghiệm ứng dụng phương pháp học máy để phát hiện xâm nhập mạng bất thường: giới thiệu về mô hình thử nghiệm, trong đó giới thiệu về cách thức xây dựng các bộ dữ liệu thử nghiệm ở dạng Netflow (từ bộ dữ liệu thử nghiệm dạng Tcpdump của DARPA, ISCX); cách thức cài đặt thử nghiệm; kết quả thử nghiệm và đánh giá kết quả thử nghiệm 4 CHƯƠNG 1 TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP HỌC MÁY 1.1 Giới thiệu về học máy