Phát hiện xâm nhập dựa trên thuật toán K Means Số hóa bởi Trung tâm Học liệu ĐHTN http //www lrc tnu edu vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐINH MẠNH CƢỜNG PHÁT[.]
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐINH MẠNH CƢỜNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN THUẬT TOÁN K-MEANS Thái Nguyên 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐINH MẠNH CƢỜNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN THUẬT TOÁN K-MEANS Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS NGUYỄN VĂN TAM Thái Nguyên 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Phát xâm nhập dựa thuật toán KMeans” PGS.TS Nguyễn Văn Tam Các nội dung trình bày luận văn kết đạt thời gian thực đề tài hướng tập thể giáo viên hướng dẫn, không chép nguyên lại kết nghiên cứu công bố kết trình nghiên cứu, học tập làm việc nghiêm túc trình học cao học Bên cạch đó, số nội dung luận văn kết phân tích, nghiên cứu, tổng hợp từ nhiều nguồn tài liệu khác Các thông tin tổng hợp hay kết lấy từ nhiều nguồn tài liệu khác tơi trích dẫn cách đầy đủ hợp lý Nguồn tài tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Các số liệu thơng tin sử dụng luận văn trung thực Thái Nguyên, ngày 20 tháng 07 năm 2015 Ngƣời cam đoan Đinh Mạnh Cƣờng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy, cô Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tham gia giảng dạy, giúp đỡ tơi suốt q trình học tập nâng cao trình độ kiến thức để phục vụ cho công tác giảng dạy sau Tơi xin bày tỏ lịng biết ơn chân thành tới PGS.TS Nguyễn Văn Tam, Thầy tận tình hướng dẫn hướng dẫn suốt thời gian thực luận văn Vì điều kiện thời gian trình độ có hạn nên luận văn khơng thể tránh khỏi thiếu sót Tơi xin kính mong Thầy, Cơ giáo, bạn đồng nghiệp đóng góp ý kiến để đề tài hồn thiện Tơi xin chân thành cảm ơn! Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ i MỤC LỤC MỞ ĐẦU .4 Chƣơng 1: KHÁI QUÁT BÀI TOÁN PHÁT HIỆN XÂM NHẬP 1.1 Định nghĩa phát xâm nhập 1.1.1 Định nghĩa 1.1.2 Sự khác IDS/IPS 1.2 Các thành phần chức hệ thống phát thâm nhập .5 1.2.1 Thành phần thu thập gói tin .6 1.2.2 Thành phần phát gói tin .6 1.2.3 Thành phần phản hồi 1.3 Phân loại phát xâm nhập 1.3.1 Network based IDS – NIDS .7 1.3.2 Host based IDS – HIDS .9 11 1.4.1 Mơ hình phát lạm dụng .11 1.4.2 Mơ hình phát bất thường 12 1.4.3 So sánh hai mơ hình 15 Chƣơng 2: PHÁT HIỆN XÂM NHẬP DỰA TRÊN THUẬT TOÁN K-MEANS 17 2.1 Thuật toán K-means 17 2.1.1 Các khái niệm 17 2.1.2 Thuật toán 20 2.1.3 Nhược điểm K-Means cách khắc phục 35 2.2 Thuật toán K-means với phát xâm nhập .35 2.2.1 Phân tích tập liệu kiểm thử .35 2.2.2 Mơ hình phát bất thường dựa thuât toán K-means 39 Chƣơng 3: XÂY DỰNG CHƢƠNG TRÌNH PHÁT HIỆN XÂM NHẬP DỰA TRÊN THUẬT TOÁN K-MEANS 47 3.1 Mơ tả tốn 47 3.2 Mô tả liệu đầu vào 47 3.2.1 Mơ tả thuộc tính file liệu đầu vào .48 3.2.2 Giảm số lượng ghi liệu đầu vào: 50 3.3 Cài đặt thuật toán K-Means thử nghiệm phân cụm phần tử dị biệt 53 3.3.1 Giới thiệu môi trường cài đặt 53 3.3.2 Các chức chương trình .53 3.4 Nhận xét, đánh giá chương trình thử nghiệm .59 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU 60 TÀI LIỆU THAM KHẢO 61 PHẦN PHỤ LỤC .62 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ii DANH MỤC HÌNH ẢNH Hình 1.1: Các vị trí đặt IDS mạng .4 Hình 1.2: Mơ hình kiến trúc hệ thống phát xâm nhập (IDS) Hình 1.3: Mơ hình NIDS Hình 2.1 Ví dụ phân nhóm đối tượng 17 Hình 2.2: Các thiết lập để xác định ranh giới cụm ban đầu .18 Hình 2.3: Mơ tả độ đo khoảng cách đối tượng 19 Hình 2.4: Sơ đồ thuật tốn phân nhóm K-Means 21 Hình 2.5: Mơ tả trực quan q trình phân cụm liệu 22 Hình 2.6: Biểu diễn đối tượng mặt phẳng toạ độ x, y .25 Hình 2.7: Biểu diễn đối tượng, phần tử trung tâm mặt phẳng toạ độ x, y 26 Hình 2.8: Biểu diễn đối tượng, phần tử trung tâm mặt phẳng toạ độ x, y (Vòng lặp 1) .29 Hình 2.9: Biểu diễn đối tượng, phần tử trung tâm mặt phẳng toạ độ x, y 31 (Vòng lặp 2) 31 Hình 2.10: Biểu diễn đối tượng, phần tử trung tâm mặt phẳng toạ độ x, y (Vòng lặp 3) 33 Hình 2.11: Mơ hình hệ thống phát bất thường sử dụng thuật tốn K-means 40 Hình 2.12: Bốn quan hệ công 42 Hình 2.13: Mơ tả hoạt động môđun tổng hợp 44 Hình 3.1: Giảm số ghi cho file đầu vào chương trình 51 Hình 3.2: Xem chỉnh sửa cho file đầu vào chương trình cần 52 Hình 3.3: Dữ liệu chương trình mở Notepad 52 Hình 3.5: Giao diện chọn liệu 54 Hình 3.6: Hiển thị chi tiết liệu đầu vào 55 Hình 3.7: Form thực thuật tốn K-Means 56 Hình 3.8: Kết thực thuật toán K-Means 57 Hình 3.9: Số ghi kết nối thuộc cụm 58 Hình 3.10: Kết thực thuật tốn K-Means với liệu có 494020 ghi kết nối 58 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iii DANH MỤC BẢNG Bảng 2.1: Danh mục đối tượng 24 Bảng 2.2: Bảng biểu diễn thuộc tính mặt phẳng x,y 24 Bảng 2.3: Khởi tạo phần tử trọng tâm 25 Bảng 2.4: Bảng khoảng cách Euclidean (vòng lặp 1) 28 Bảng 2.5: Tìm khoảng cách khoảng cách (Vòng lặp 1) 28 Bảng 2.6: Kết phân nhóm đối tượng (vòng lặp 1) .28 Bảng 2.7: Phần tử trọng tâm (vòng lặp 1) 29 Bảng 2.8: Bảng khoảng cách Euclidean (Vòng lặp 2) 30 Bảng 2.9: Tìm khoảng cách khoảng cách (Vòng lặp 2) 30 Bảng 2.10: Kết phân nhóm đối tượng (vịng lặp 2) 31 Bảng 2.11: Phần tử trọng tâm (vòng lặp 2) .31 Bảng 2.12: Bảng khoảng cách Euclidean (vòng lặp 3) 32 Bảng 2.13: Tìm khoảng cách khoảng cách (vòng lặp 3) 32 Bảng 2.14: Kết phân nhóm đối tượng (vòng lặp 3) 33 Bảng 2.15: Phần tử trọng tâm (vòng lặp 3) .33 Bảng 2.16: Kết phân nhóm đối tượng (vịng lặp 4) 34 Bảng 2.17: Bảng kết phân nhóm thuốc .34 Bảng 2.18: danh sách cảnh báo chưa rút gọn 45 Bảng 2.19: Danh sách cảnh báo sau rút gọn 46 Bảng 3.1: Các thuộc tính (nhóm chứa tất thuộc tính có từ kết nối TCP / IP) 48 Bảng 3.2: Các thuộc tính lưu thong (nhóm bao gồm thuộc tính mà tính tốn với khoảng thời gian cửa sổ) 49 Bảng 3.2: Các thuộc tính nội dung 49 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iv BẢNG TỪ VIẾT TẮT IDS IPS Intrusion Detection System Intrusion Prevention Systems HIDS Host-based IDS NIDS Network-based IDS Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Ngày nay, hệ thống mạng máy tính trở nên phổ biến ứng dụng hầu hết hoạt động kinh tế-xã hội nước ta Tuy nhiên, mạng máy tính phải đương đầu với nhiều thách thức, đặc biệt vấn đề an toàn bảo mật liệu mạng Trong mối đe dọa an ninh mạng việc xâm nhập mạng để thay đổi thơng tin, lấy cắp liệu phá hoại hạ tầng mạng nghiêm trọng Chính vậy, việc phát ngăn chặn xâm nhập mạng máy tính chủ đề quan tâm nghiên cứu phát triển ứng dụng mạnh mẽ Phát ngăn chặn hiểu xác định xâm nhập ngăn chặn cách nhanh xảy Hiện khơng có phương pháp phát truy nhập trái phép hoàn hảo kĩ thuật xâm nhập ngày tinh vi luôn đổi Khi phương pháp phát xâm nhập biết đến kẻ xâm nhập sửa chiến lược thử kiểu xâm nhập Chính tơi lựa chọn chủ đề “ -means.” đề tài nghiên cứu cho luận văn * Cấu trúc luận văn bao gồm chương sau: Chƣơng 1: Chương trình bày kiến thức phát xâm nhập như: định nghĩa, thành phần chức hệ thống, phân loại, phương pháp phát xâm nhập Chƣơng 2: Chương trình bày việc phát xâm nhập dựa thuật toán K-means Nội dung thuật tốn, ví dụ minh họa thuật tốn, tập liệu kiểm thử mơ hình phát xâm nhập dựa thuật toán K-means Chƣơng 3: Chương kết cài đặt toán phát xâm nhập dựa thuật tốn k-means Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Chƣơng KHÁI QUÁT BÀI TOÁN PHÁT HIỆN XÂM NHẬP 1.1 Định nghĩa phát xâm nhập 1.1.1 Định nghĩa Hệ thống phát xâm nhập (IDS) hệ thống có nhiệm vụ theo dõi, phát (có thể) ngăn cản xâm nhập, hành vi khai thác trái phép tài nguyên hệ thống bảo vệ mà dẫn đến việc làm tổn hại đến tính bảo mật, tính tồn vẹn tính sẵn sàng hệ thống.[6] Hệ thống IDS thu thập thông tin từ nhiều nguồn hệ thống bảo vệ sau tiến hành phân tích thơng tin theo cách khác để phát xâm nhập trái phép Khi hệ thống IDS có khả ngăn chặn nguy xâm nhập mà phát gọi hệ thống phịng chống xâm nhập hay IPS Hình sau minh họa vị trí thường cài đặt IDS mạng: Hình 1.1: Các vị trí đặt IDS mạng 1.1.2 Sự khác IDS/IPS Có thể nhận thấy khác biệt hai khái niệm tên gọi: “phát hiện” “ngăn chặn” Các hệ thống IDS thiết kế với mục đích chủ yếu phát cảnh báo nguy xâm nhập mạng máy tính bảo vệ đó, hệ thống IPS ngồi khả phát cịn tự hành động chống lại Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ... dung thuật tốn, ví dụ minh họa thuật tốn, tập liệu kiểm thử mơ hình phát xâm nhập dựa thuật toán K-means Chƣơng 3: Chương kết cài đặt toán phát xâm nhập dựa thuật tốn k-means Số hóa Trung tâm Học... Mô hình phát lạm dụng .11 1.4.2 Mơ hình phát bất thường 12 1.4.3 So sánh hai mơ hình 15 Chƣơng 2: PHÁT HIỆN XÂM NHẬP DỰA TRÊN THUẬT TOÁN K-MEANS 17 2.1 Thuật toán K-means. .. Chƣơng KHÁI QUÁT BÀI TOÁN PHÁT HIỆN XÂM NHẬP 1.1 Định nghĩa phát xâm nhập 1.1.1 Định nghĩa Hệ thống phát xâm nhập (IDS) hệ thống có nhiệm vụ theo dõi, phát (có thể) ngăn cản xâm nhập, hành vi khai