Tìm hiểu nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

70 20 0
Tìm hiểu nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN & TRUYỀN THƠNG Trần Huy Phong TÌM HIỂU, NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Ngun - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực chƣa đƣợc sử dụng để bảo vệ học hàm, học vị Tôi xin cam đoan: Mọi giúp đỡ cho việc thực luận văn đƣợc cám ơn, thơng tin trích dẫn luận văn đƣợc rõ nguồn gốc Thái nguyên, ngày tháng năm TÁC GIẢ LUẬN VĂN Trần Huy Phong Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii LỜI CẢM ƠN Trong thời gian nghiên cứu thực luận văn này, em may mắn đƣợc thầy bảo, dìu dắt đƣợc gia đình, bạn bè quan tâm, động viên Em xin bày tỏ lời cảm ơn sâu sắc tới tất tập thể, cá nhân tạo điều kiện giúp đỡ em suốt trình thực nghiên cứu luận văn Trƣớc hết em xin trân trọng cảm ơn Ban giám hiệu trƣờng Đại học Công nghệ thông tin truyền thơng, Phịng Đào tạo Khoa Sau đại học nhà trƣờng thầy cô giáo, ngƣời trang bị kiến thức cho em suốt q trình học tập Với lịng biết ơn chân thành sâu sắc nhất, em xin trân trọng cảm ơn thầy giáo- TS Trần Đức Sự, ngƣời thầy trực tiếp bảo, hƣớng dẫn khoa học giúp đỡ em suốt q trình nghiên cứu, hồn thành luận văn Xin chân thành cảm ơn tất bạn bè, đồng nghiệp động viên, giúp đỡ nhiệt tình đóng góp nhiều ý kiến q báu để em hoàn thành luận văn Do thời gian nghiên cứu có hạn, luận văn em hẳn khơng thể tránh khỏi sơ suất, thiếu sót, em mong nhận đƣợc đóng góp thầy giáo toàn thể bạn đọc Xin trân trọng cảm ơn! Thái nguyên, ngày……tháng….năm…… TÁC GIẢ LUẬN VĂN Trần Huy Phong Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài: Mục tiêu nghiên cứu: Đối tƣợng phạm vi nghiên cứu: Ý nghĩa thực tiễn luận văn: Phƣơng pháp nghiên cứu: CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG PHÁT HIỆN XÂM NHẬP 1.1 Khái niệm hệ thống phát xâm nhập 1.2 Chức vai trò hệ thống phát xâm nhập .5 1.2.1 Chức nhiệm vụ IDS 1.2.2 Vai trò hệ thống phát xâm nhập 1.3 Mơ hình kiến trúc hệ thống phát xâm nhập 1.3.1 Các thành phần bản: 1.3.2 Kiến trúc hệ thống IDS: 11 1.4 Phân loại hệ thống phát xâm nhập 13 1.4.1 Hệ thống phát xâm nhập máy chủ (HIDS) 14 1.4.2 Hệ thống phát xâm nhập mạng (NIDS) 16 1.5 Các kỹ thuật phát xâm nhập hệ thống IDS 18 1.5.1 Phát dựa vào dấu hiệu ( Signature-base detection) 18 1.5.2 Phát dựa bất thƣờng (Abnormaly - base detection) 19 1.5.3 Kỹ thuật phát dựa vào phân tích trạng thái giao thức 19 1.5.4 Phát dựa mơ hình 20 1.6 Hệ thống phát xâm nhập dựa khai phá liệu 20 CHƢƠNG II: KHAI PHÁ DỮ LIỆU 23 2.1 Khái niệm khai phá liệu 23 2.2 Các tốn khai phá liệu 25 2.2.1 Phân lớp (Classification) 25 2.2.1.1 Quá trình phân lớp 25 2.2.1.2 Dự đoán 27 2.2.2 Phân cụm (Clustering) 27 2.2.3 Hồi quy dự báo ( Regression and Prediction) 27 2.2.3.1 Hồi quy 27 2.2.3.2 Dự báo 28 2.2.4 Tổng hợp (summarization) 28 2.2.5 Mơ hình hố phụ thuộc (dependency modeling) 28 2.2.6 Phát biến đổi độ lệch (change and deviation dectection) 29 2.3 Ứng dụng phân loại khai phá liệu 29 2.3.1 Ứng dụng 29 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v 2.3.2 Phân loại 30 2.4 Những thách thức khó khăn khai phá liệu 31 2.4.1 Những thách thức khai phá liệu 31 2.4.2 Những khó khăn khai phá liệu 31 2.4.2.1 Các vấn đề sở liệu 31 2.4.2.2 Một số vấn đề khác 34 CHƢƠNG III: MƠ HÌNH HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT PHÂN LỚP 36 3.1 Đánh giá kỹ thuật phân lớp 36 3.1.1 Khái niệm phân lớp 36 3.1.1.1 Khái niệm 36 3.1.1.2 Mục đích phân lớp 37 3.1.1.3 Các tiêu chí để đánh giá thuật toán phân lớp 38 3.1.1.4 Các phƣơng pháp đánh giá độ xác mơ hình phân lớp 39 3.1.2 Phân lớp dựa phƣơng pháp học Naïve bayes 39 3.1.2.1 Giới thiệu 39 3.1.2.2 Bộ phân lớp Naïve bayes 40 3.1.3 Phân lớp dựa định (Decision Tree) 41 3.1.3.1 Khái niệm định 41 3.1.3.2 Giải thuật qui nạp định (ID3) 42 3.1.3.3 Độ lợi thông tin (Information Gain) định 43 3.1.3.4 Nội dung giải thuật học định ID3 43 3.1.3.5 Những thiếu sót giải thuật ID3 46 3.1.3.6 Các vấn đề cần xem xét phân lớp dựa định 46 3.2 Xây dựng mô hình phát xâm nhập trái phép sử dụng kỹ thuật phân lớp 48 3.2.1 Mơ hình toán 48 3.2.1.1 Thu thập liệu 49 3.2.1.2 Trích rút lựa chọn thuộc tính 52 3.2.1.3 Xây dựng phân lớp 55 3.2.2 Tiến hành thực nghiệm 55 3.2.2.1 Phân lớp đa lớp 55 3.2.2.2 Bộ phân lớp nhị phân 56 3.3 Phân tích đánh giá kết 58 KẾT LUẬN 60 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC VIẾT TẮT Ký Hiệu Ý Nghĩa Tiếng Anh IDS Intrusion Detection System Hệ thống phát xâm nhập NIDS Network-base IDS HIDS Host-based IDS KDD Knowledge Discovery and Phát tri thức Data Mining AAFID Autonomous Agents for Tác nhân tự trị cho việc phát Intrusion Detection xâm phạm Cơ sở liệu CSDL OLAP On Line Analytical Processing Công cụ phân tích trực tuyến DARPA Defense Advanced Cơ quan dự án phòng thủ tiên tiến Research Projects Agency CPU Central Processing Unit Đơn vị xử lý trung tâm DoS Denial-of-Service Tấn công từ chối dịch vụ MADAMID Mining Audit Data for Automated Models for mơ hình tự động để phát xâm Instruction Detection nhập RIPPER WEKA Khai phá liệu đƣợc sử dụng Thuật toán phân lớp dựa vào luật Waikato Enviroment for krowledge Analysis Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC HÌNH VẼ Hình 1.1- IDS-giải pháp bảo mật bổ sung cho Firewall Hình 1.2 - Quá trình thực IDS Hình 1.3 - Mơ tả sách bảo mật Hình 1.4 - Các thành phần IDS 10 Hình 1.5- Một ví dụ IDS 11 Hình 1.6 - Giải pháp kiến trúc đa tác nhân 12 Hình 1.7 - Phân loại hệ thống phát xâm nhập 13 Hình 1.8 - Mơ hình HIDS 14 Hình 1.9 - Mơ hình Network IDS 17 Hình 1.10 - Mô tả dấu hiệu xâm nhập 18 Hình 1.11 - Quá trình khai phá liệu nhằm xây dựng mơ hình phát xâm nhập trái phép [9] 21 Hình 2.1 - Các bƣớc xây dựng hệ thống khai phá liệu 24 Hình 2.2 - Quá trình học 26 Hình 2.3 - Quá trình phân lớp 26 Hình 3.1 Ƣớc lƣợng độ xác mơ hình phân lớp với phƣơng pháp holduot 39 Hình 3.2 - Các bƣớc xây dựng mơ hình xâm nhập trái phép 48 Hình 3.3 - Quá trình khai phá tri thức 49 Hình 3.4 - Mơ hình DoS attack 50 DANH MỤC BẢNG Bảng 3.1 - Dữ liệu chơi tenis 45 Bảng 3.2 - Mô tả lớp công từ chối dịch vụ (DoS) 50 Bảng 3.3 - Bảng mô tả lớp công trinh sát hệ thống Probe 51 Bảng 3.4 - Bảng mô tả lớp công chiếm quyền hệ thống U2R 51 Bảng 3.5 - Bảng mô tả lớp công khai thác điểm yếu từ xa R2L 52 Bảng 3.6- Mô tả 41 thuộc tính tập liệu KDD Cup 1999 53 Bảng 3.7 – Phân phối số lƣợng ghi 54 Bảng 3.8- Độ xác phân lớp đa lớp 56 Bảng 3.9- Thống kê kết phân lớp nhị phân sử dụng định 57 Bảng 3.10 - Thống kê kết phân lớp nhị phân sử dụng Naïve Bayes 57 DANH MỤC BIỂU ĐỒ Biểu đồ 3.1 - Biểu đồ so sánh độ xác (%) hai thuật toán 58 Biểu đồ 3.2 - Biểu đồ so sánh thời gian xây dựng mô hình (giây) hai thuật tốn 59 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU Lý chọn đề tài: Kể từ mạng Internet đời đến nay, giới chứng kiến thay đổi vô to lớn kì diệu nhiều mặt đời sống ngƣời Nền kinh tế giới đời sống xã hội có nhiều biến đổi ngày phụ thuộc vào cơng nghệ thơng tin nói chung nhƣ cơng nghệ Internet nói riêng Điều dẫn đến mặt trái, ngày nhiều thông tin quan trọng quan, tổ chức hay cá nhân lƣu trữ mạng máy tính, mà đa số mạng máy tính lại khơng đảm bảo độ an tồn, bảo mật thơng tin tuyệt đối Đi với phát triển nguy công xâm nhập mạng không ngừng gia tăng Các đối tƣợng cơng hình thức công mạng ngày đa dạng, tinh vi phức tạp Vấn đề bảo mật, an toàn cho hệ thống thơng tin nói chung hệ thống mạng nói riêng vấn đề cấp bách đáng đƣợc quan tâm Bởi vậy, để bảo vệ hệ thống thông tin ngƣời ta sử dụng nhiều giải pháp kỹ thuật khác nhƣ hệ thống tƣờng lửa, mã hố, mạng riêng ảo (VPN), phịng chống virus…Trong phát xâm nhập trái phép (IDS) công nghệ quan trọng nhằm giúp tổ chức phát ngăn chặn kịp thời công thời gian thực, nhƣ dự đốn đƣợc nguy cơng tƣơng lai [3], [5] Chính vậy, nghiên cứu hệ thống IDS giúp nâng cao khả xây dựng hệ thống phòng thủ cho việc giám sát an ninh mạng Hai phƣơng pháp để phát xâm nhập trái phép dựa tập luật dựa dấu hiệu bất thƣờng [1], [2], [6], [7] Phƣơng pháp dựa tập luật phát công dựa sở liệu dấu hiệu đƣợc định nghĩa trƣớc Phƣơng pháp thƣờng có độ xác cao nhƣ đƣa cảnh báo nhầm Tuy nhiên, vấn đề phƣơng pháp phát đƣợc công chƣa đƣợc định nghĩa cập nhật sở liệu Phƣơng pháp dựa dấu hiệu bất thƣờng giúp xác định cơng nhƣng thƣờng cho độ xác thấp so với phƣơng pháp dựa tập luật Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Hiện nay, Khai phá liệu có nhiều bƣớc phát triển vƣợt bậc có nhiều ứng dụng kỹ thuật thuật toán khác thực tế Khai phá liệu phƣơng pháp tiếp cận việc phát xâm nhập Xây dựng mơ hình hệ thống phát xâm nhập dựa khai phá liệu hƣớng phát triển hiệu xây dựng hệ thống IDS Xuất phát từ yêu cầu lý trên, em lựa chọn đề tài luận văn là: "Tìm hiểu, nghiên cứu hệ thống phát xâm nhập dựa khai phá liệu" Luận văn nghiên cứu khai phá liệu nghiên cứu ứng dụng mơ hình hệ thống phát xâm nhập trái phép dựa khai phá liệu; Từ đánh giá hiệu hệ thống phát xâm nhập thuật toán phân lớp khác thực tế Mục tiêu nghiên cứu: - Nghiên cứu tổng quan hệ thống phát xâm nhập - Nghiên cứu số thuật toán khai phá liệu - Ứng dụng số thuật toán khai phá liệu phát xâm nhập, so sánh hiệu thuật tốn - Đánh giá hiệu cho mơ hình thuật tốn phân lớp khác nhƣ: Nạve Bayes, Decision Tree Đối tƣợng phạm vi nghiên cứu: - Nghiên cứu mơ hình hệ thống IDS đánh giá ƣu, nhƣợc điểm IDS - Nghiên cứu toán, kỹ thuật khai phá liệu - Ứng dụng khai phá liệu hệ thống phát xâm nhập - Một số thuật toán phân lớp liệu - Đánh giá hiệu kỹ thuật phân lớp cho hệ thống phát xâm nhập dựa khai phá liệu Ý nghĩa thực tiễn luận văn: - Nghiên cứu ứng dụng mơ hình hệ thống phát xâm nhập dựa khai phá liệu giải vấn đề tồn hệ thống IDS - Đánh giá hiệu phân lớp cho mơ hình Đồng thời đề xuất lựa chọn kỹ thuật phân lớp phù hợp với loại công cụ thể cho hệ thống phát xâm nhập dựa khai phá liệu đề xuất Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Phƣơng pháp nghiên cứu: Việc giám sát hành động mạng thu thập phân tích để phát cơng mạng Các hành động tìm thấy tệp log ứng dụng nhƣ tạo, xóa file, truy cập vào tệp có mật khẩu, gọi lệnh hệ thống Việc phân tích phát công dựa tập liệu hành động thực thơng qua thuật toán phân lớp liệu, để phân lớp thành lớp công biết trƣớc lớp truy cập bình thƣờng Nghiên cứu tài liệu liên quan lĩnh vực khai phá liệu phát xâm nhập Tìm hiểu, nghiên cứu kỹ thuật phát xâm nhập dựa phƣơng pháp thống kê khai phá liệu Trên sở nghiên cứu phân tích tập liệu DARPA [15] Phân tích lý thuyết thực nghiệm để xác định thuộc tính quan trọng tập liệu có ảnh hƣởng đến hành động công cụ thể, từ trích rút chuyển đổi thành định dạng phù hợp cho thuật toán học phân lớp Nghiên cứu xây dựng thực nghiệm sử dụng phần mềm Weka [14], đánh giá hiệu thuật toán học phân lớp tập liệu DARPA Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 49 3.2.1.1 Thu thập liệu Hình 3.3 - Quá trình khai phá tri thức Để thực đánh giá thuật toán phân lớp việc xây dựng mơ hình phát xâm nhập trái phép, phần thực nghiệm em sử dụng tập liệu KDD Cup 1999[11] đƣợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc phịng Mỹ quản lý Trung tâm thí nghiệm MIT Lincoln) Đây tập liệu đƣợc trích rút từ gói tin có định dạng giao thức TCP đƣợc thu thập thông qua thời gian tuần Để thu thập đƣợc liệu công, công đƣợc giả lập theo hành động mục tiêu cụ thể kẻ công Tập liệu bao gồm kiểu liệu bình thƣờng (normal) 22 kiểu công khác đƣợc phân loại thành lớp: Từ chối dịch vụ (DoS), trinh sát hệ thống (Probe), chiếm quyền hệ thống (U2L) khai thác điểm yếu (R2L)  Lớp từ chối dịch vụ (DoS - Denial of Service Attack): Cho dù đa dạng kích cỡ hình dạng, từ subtle malformed packet đến fullblown packet storm, Denial of Service (DoS) attack có mục đích chung đóng băng hay chặn đứng tài nguyên hệ thống đích Cuối cùng, mục tiêu trở nên tiếp cận trả lời DoS công vào mục tiêu bao gồm ba dạng mạng, hệ thống ứng dụng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 Hình 3.4 - Mơ hình DoS attack - Network flooding bao gồm SYN flood, Ping flood hay multi echo request… - Phá hoại hệ thống, thiết bị bao gồm Ping of Death, Teardrop, Bonk, LAND, kiểu công nhằm lợi dụng lỗ hổng hệ điều hành nhằm phá hoại, gây tải hệ thống Sự kiện xảy cách gửi gói tin có định dạng khác thƣờng tới hệ thống thiết bị, chúng đƣợc tạo cơng cụ cơng đƣợc lập trình trƣớc - Phá hoại, gây tải ứng dụng bao gồm kỹ thuật phá hoại gây tải hệ thống cách lợi cụng điểm yếu ứng dụng, sở liệu, email, trang web… Một số kiểu công DoS phổ biến liệt kê bảng sau: Bảng 3.2 - Mô tả lớp công từ chối dịch vụ (DoS) TT Tên công Mô tả Pod Smurfe Gửi gói tin có kích thƣớc lớn thơng qua lệnh Ping đến máy đích Lợi dụng Router mạng để gửi Broadcast Neptune Đột nhập vào hệ thống Teardrop Gửi chồng chéo gói tin Back Tấn cơng đến đƣờng định tuyến Land Làm chậm, bị treo hệ thống ứng dụng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51  Trinh sát hệ thống (Probe): Là loại cơng có mục đích thu thập thông tin liên quan đến cấu hình hệ thống máy tính hệ thống mạng nhằm mục đích phá hoại Phƣơng thức chung sử dụng cơng cụ dị qt, để tìm kiếm cổng mở hay địa IP Bảng 3.3 - Bảng mô tả lớp công trinh sát hệ thống Probe TT Tên công Mô tả Santan Công cụ quét cổng thăm dò Portsweep Sử dụng gói tin kết nối để xác định cổng mở Nmap Công cụ quét cổng Ipsweep Sử dụng gói ping để xác định IP  Lớp công chiếm quyền hệ thống ( U2R - User-to-root): Đây loại công nhằm chiếm đoạt quyền cao chiếm dụng, kiểm sốt máy tính kẻ cơng có tài khoản đăng nhập bình thƣờng (Với quyền hạn chế) Phƣơng thức kiểu công truy cập vào hệ thống nhƣ ngƣời dùng bình thƣờng sau sử dụng phƣơng pháp leo thang đặc quyền để lấy quyền quản trị hệ thống Bảng 3.4 - Bảng mô tả lớp công chiếm quyền hệ thống U2R TT Tên công Buffer_overflow Loadmodule Perl Rootkit Mô tả Làm tràn đệm Lợi dụng điểm yếu, để thực thi module quản trị hệ thống Công cụ để tăng quyền user Công cụ điều hành cao hệ tthống  Lớp công khai thác điểm yếu từ xa ( R2L - Remote-to-Local): Đây kiểu cơng kẻ cơng gửi gói tin đoạn mã đến máy tính qua Internet lợi dụng điểm yếu máy tính đó, từ khai thác đặc quyền ngƣời dùng cục (local) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 Bảng 3.5 - Bảng mô tả lớp công khai thác điểm yếu từ xa R2L TT Tên cơng Mơ tả Guess_password Đốn password Ftpwirte Thay đổi quyền để truy cập vào FTP Imap Tấn công vào dịch vụ mail Phf Tấn công vào sở liệu Web Spy Tấn công vào trình duyệt Web Warezclient Tấn cơng theo kiểu bom Warezmaster Tấn công làm thay đổi Multihop Tấn công nhiều dạng lúc 3.2.1.2 Trích rút lựa chọn thuộc tính Dựa vào tập liệu KDD Cup 1999 với đặc trƣng trích chọn nhƣ: kết nối TCP cá nhân, kết nối đến máy chủ vùng kết nối đến máy chủ nhƣ kết nối hành hai giây liên tục Luận văn lựa chọn thuộc tính từ gói tin kết nối đến giao thức TCP, chẳng hạn nhƣ khoảng thời gian kết nối, kiểu giao thức, số lƣợng byte liệu, cờ để tình trạng lỗi kết nối bình thƣờng Các thuộc tính kết nối đơn đƣợc thơng qua lĩnh vực tri thức, kể hoạt động tạo tập tin số hoạt động cố gắng truy cập vào hệ thống Trích chọn thuộc tính (feature selection, feature extraction) nhiệm vụ quan trọng giai đoạn tiền xử lý liệu triển khai mơ hình khai phá liệu Một vấn đề gặp phải tập liệu dùng để xây dựng mơ hình khai phá liệu thƣờng chứa nhiều thông tin không cần thiết cho việc xây dựng mô hình Chẳng hạn, tập liệu gồm hàng trăm thuộc tính dùng để mơ tả khách hàng doanh nghiệp đƣợc thu thập, nhiên xây dựng mơ hình khai phá liệu cần khoảng 50 thuộc tính từ hàng trăm thuộc tính Nếu ta dử dụng tất thuộc tính ( hàng trăm, hàng ngàn) khách hàng để xây dựng mơ hình cần phải có xử lý trung tâm CPU phải đủ lớn, nhiều nhớ q trình học mơ hình, trí thuộc tính khơng cần thiết làm giảm độ xác mơ hình gây khó khăn việc phát tri thức Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 53 Trong tập liệu này, dựa vào đặc trƣng trích chọn ta thu đƣợc 41 thuộc tính với đa số thuộc tính liên tục Bảng thuộc tính đƣợc mơ tả nhƣ sau: Bảng 3.6- Mơ tả 41 thuộc tính tập liệu KDD Cup 1999 TT Tên thuộc tính Kiểu thuộc tính Mơ tả Duration Khoảng thời gian (s) kết nối Liên tục Protocol_Type Kiểu giao thức (TCP,UDPP, ICMP) Rời rạc Service Các dịch vụ mạng Rời rạc Flag Tình trạng bình thƣờng hay lỗi kết nối Rời rạc src_bytes Số lƣợng byte liệu từ nguồn đến đích Liên tục dst_bytes Số lƣợng byte liệu từ đích đến nguồn Liên tục Land kết nối đến máy chủ; ngƣợc lại wrong_fragment Số sai phân mảnh Rời rạc Liên tục Urgent Số lƣợng gói tin khẩn cấp Liên tục 10 Hot Số lƣợng "nóng" số Liên tục 11 num_failed_logins Số lần đăng nhập thất bại Liên tục 12 logged_in thành công; thất bại Rời rạc 13 num_compromised Số điều kiện thoả hiệp Liên tục 14 root_shell gốc đạt đƣợc; ngƣợc lại Rời rạc 15 su_attempted quyền root; ngƣợc lại Rời rạc 16 num_root Số root truy cập Liên tục 17 num_file_creations Số lƣợng tạo tệp tin Liên tục 18 num_shells Số lƣợng cảnh báo Liên tục 19 num_access_files Số hoạt động tập tin kiểm soát truy cập Liên tục 20 num_outbound_cmd Số lệnh gửi phiên ftp 21 Is_host_login 22 Is_guest_login đăng nhập vào thuộc danh sách nóng; ngƣợc lại Liên tục Rời rạc đăng nhập khách; ngƣợc lại 23 Count Rời rạc Số lƣợng kết nối máy chủ giây Liên tục 24 srv_count Số lƣợng kết nối dịch vụ giây Liên tục Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 25 serror_rate % kết nối "SYN" lỗi Liên tục 26 srv_serror_rate % kết nối "SYN" lỗi Liên tục 27 rerror_rate % kết nối "REJ" lỗi Liên tục 28 srv_serror_rate % kết nối "REJ" lỗi Liên tục 29 same_srv_rate 30 diff_srv_rate % kết nối dịch vụ tƣơng tự % kết nối đến dịch vụ khác Liên tục Liên tục 31 srv_diff_host_rate % kết nối đến máy chủ khác Liên tục 32 dst_host_count Số lƣợng kết nối đến máy chủ nguồn Liên tục 33 dst_host_rsv_count Số lƣợng kết nối từ nguồn đến đích Liên tục 34 dst_host_same_srv_rate % kết nối máy chủ đích đến nguồn dịch vụ Liên tục tƣơng tự 35 dst_host_diff_srv_rate % máy chủ kết nối từ đích đến nguồn qua Liên tục dịch vụ khác 36 dst_host_same_srv_por % kết nối máy chủ đích đến nguồn dịch vụ Liên tục t_rate tƣơng tự qua cổng 37 dst_host_srv_diff_host % máy chủ kết nối từ đích đến nguồn qua Liên tục _rate dịch vụ khác 38 dst_host_serror_rate % kết nối máy chủ đích "SYN" lỗi 39 dst_host_srv_serror % kết nối máy chủ đích đến nguồn Liên tục "SYN" lỗi 40 dst_host_rerror_rate % kết nối máy chủ đích "REJ" lỗi Liên tục Liên tục 41 dst_host_srv_rerror_rate % kết nối máy chủ đích đến nguồn "REJ" lỗi Liên tục Do tập liệu KDD Cup 1999 lớn, em trích chọn 10% số liệu để làm thực nghiệm Bao gồm: 19.899 ghi có 41 thuộc tính Phân phối ghi nhƣ sau: Bảng 3.7 – Phân phối số lượng ghi Lớp Normal DoS Probe U2R R2L Số l-ợng ghi 8783 7934 1225 958 999 Số hóa Trung tâm Học liệu – ĐHTN TØ lÖ % 44,1 39,9 6,2 4,8 http://www.lrc.tnu.edu.vn 55 Tæng céng 19899 3.2.1.3 Xây dựng phân lớp 100 Luận văn thực thực nghiệm để xây dựng mơ hình phát xâm nhập trái phép dựa thuật toán phân lớp Decision Tree, Naïve Bayes Đánh giá hiệu thuật tốn lên khía cạnh độ xác thuật tốn việc phân lớp Mục đích mơ hình phát xâm nhập trái phép để phân lớp tập liệu vào bốn kiểu công kiểu normal Tập liệu thực nghiệm bao gồm 19.899 ghi, 41 thuộc tính 22 kiểu công chia làm lớp khác mô tả Trong phần thực nghiệm này, em sử dụng phần mềm WEKA (Waikato Enviroment for Krowledge Analysis) đƣợc cài đặt máy tính với cấu hình hệ điều hành Windows 32 bit, vi xử lý Intel® Core™ i3-2330 CPU @ 2.20 Ghz, nhớ RAM 4Gb Các thực nghiệm đƣợc xây dựng với thuật tốn phân lớp Decision Tree, Nạve Bayes 3.2.2 Tiến hành thực nghiệm 3.2.2.1 Phân lớp đa lớp Kết thực nghiệm sử dụng phƣơng pháp đánh giá chéo 10 lần phân thành lớp có kết độ xác nhƣ sau: Sử dụng định: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 56 Sử dụng Nạve Bayes: Bảng 3.8- Độ xác phân lớp đa lớp Normal DoS Probe U2R R2L Cây định 99,8% 99,9% 99,0% 97,7% 98,2% Naïve Bayes 97,3% 87,3% 68,3% 86,8% 87,1% 3.2.2.2 Bộ phân lớp nhị phân Bài thực nghiệm tiến hành xây dựng thực nghiệm tập liệu đƣợc cấu trúc lại từ tập liệu gốc, thực nghiệm xây dựng phân lớp để dự đoán lớp cơng cụ thể Trong tập đƣợc cấu trúc lại cách giữ lại giá trị thuộc tính kiểu công gộp tất kiểu cơng cịn lại thành giá trị Ví dụ: lớp normal, tập liệu cấu trúc lại thành hai lớp: lớp normal (bình thƣờng) lớp lại bao gồm lớp khác (Probe, DoS, U2R, R2L) Kết thực nghiệm thống kê thời gian độ xác phƣơng pháp đánh giá chéo 10 lần dựa định Naïve Bayes với phân lớp hai lớp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 57 Lớp DoS sử dụng thuật toán định: Lớp normal sử dụng thuật tốn Nạve Bayes: Dựa vào kết thực nghiệm, ta có bảng thống kê nhƣ sau: Bảng 3.9- Thống kê kết phân lớp nhị phân sử dụng định Normal DoS Probe U2R R2L Thời gian xây dựng mơ hình (giây) 1,49 1,16 1,69 1,62 2,09 Mức độ (%) 99,4 100 99 97,6 93,8 Bảng 3.10 - Thống kê kết phân lớp nhị phân sử dụng Naïve Bayes Thời gian xây dựng mơ hình (giây) Normal 0,23 0,19 DoS 0,21 Probe 0,19 U2R 0,22 R2L Số hóa Trung tâm Học liệu – ĐHTN Mức độ (%) 98,1 86,5 93,6 91,9 95,7 http://www.lrc.tnu.edu.vn 58 3.3 Phân tích đánh giá kết So sánh mức độ xác phân lớp đa lớp thấy lớp Probe, R2L U2R chiếm tỉ lệ thấp sở liệu định cho kết tốt nhiều so với Naïve bayes, điều chứng tỏ định phù hợp Naïve bayes tập liệu nhỏ Đối với phân lớp hai lớp sử dụng định nhƣ sử dụng Naïve Bayes, nhận thấy phân lớp hai lớp cho kết tốt phân lớp đa lớp Vì đoạn so sánh phân lớp hai lớp với hai tiêu chí độ xác nhƣ thời gian xây dựng mơ hình Kết so sánh độ xác đƣợc thể thơng qua Biểu đồ 3.1, kết so sánh thời gian xây dựng mơ hình đƣợc thể thông qua biểu đồ 3.2 105 100 95 90 85 80 75 Normal DoS Probe U2R R2L DT 99,4 100 99 97,6 93,8 NB 98,1 86,5 93,6 91,9 95,7 Biểu đồ 3.1 - Biểu đồ so sánh độ xác (%) hai thuật tốn Biểu đồ 3.1 cho thấy định cho độ xác tốt cho lớp Normal, Probe, DoS U2R so với Nạve Bayes, có độ xác thấp cho lớp R2L so với thuật tốn Nạve Bayes Qua mức độ thay đổi độ xác hai thuật tốn thấy định có độ xác ổn định với tập liệu lớn tập liệu nhỏ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 59 2,5 1,5 0,5 Normal DoS Probe U2R R2L DT 1,49 1,16 1,69 1,62 2,09 NB 0,23 0,19 0,21 0,19 0,22 Biểu đồ 3.2 - Biểu đồ so sánh thời gian xây dựng mơ hình (giây) hai thuật toán Trên Biểu đồ 3.2, thấy thời gian xây dựng mơ hình Nạve bayes tốt nhiều so với thời gian xây dựng mơ hình sử dụng định Vì việc sử dụng phân lớp Naive bayes cho hệ thống phát xâm nhập trái phép làm tăng hiệu hệ thống lên đáng kể Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 60 KẾT LUẬN Qua thời gian nghiên cứu, luận văn thu đƣợc số kết nhƣ sau: - Về mặt lý luận: Luận văn trình bày cách tổng quan vấn đề lý thuyết hệ thống phát xâm nhập IDS; bao gồm: Khái niệm, mơ hình kiến trúc hệ thống phát xâm nhập; Về kỹ thuật phát xâm nhập hệ thống IDS luận văn nêu đƣợc kỹ thuật nhƣ: phát dựa vào dấu hiệu, phát dựa kiện bất thƣờng, phát dựa vào phân tích trạng thái giao thức phát dựa mô hình Đồng thời luận văn đƣa đánh giá ƣu điểm, hạn chế hệ thống phát xâm nhập IDS Bên cạnh em nghiên cứu trình bày kỹ thuật khai phá liệu, ứng dụng mơ hình, qua đánh giá hiệu hệ thống IDS dựa khai phá liệu sử dụng kỹ thuật phân lớp; Các tốn khai phá liệu nhƣ: phân lớp, phân cụm, hồi quy dự báo…; Ứng dụng phân loại khai phá liệu; Những thách thức khó khăn khai phá liệu - Về mặt thực nghiệm: Luận văn định nghĩa đƣợc toán phát xâm nhập trái phép dựa khai phá liệu sử dụng kỹ thuật phân lớp sử dụng tập liệu mô công KDD Cup 1999 đƣa đƣợc mơ hình tốn Luận văn trình bày thực nghiệm để đánh giá độ xác sử dụng hai kỹ thuật phân lớp Nạve Bayes Decision Tree Qua phân tích đánh giá kết thực nghiệm, luận văn khẳng định đƣợc kỹ thuật phân lớp định đạt đƣợc độ xác tốt so với thuật tốn Nạve Bayes nhƣng thời gian xây dựng mơ hình thuật tốn Nạve Bayes tốt nhiều so với định Thực nghiệm thể đƣợc yêu cầu luận văn đánh giá đƣợc hiệu phân lớp cho mơ hình tốn - Hướng phát triển Luận văn: Từ kết thực nghiệm, em đƣa mơ hình tích hợp để lựa chọn thuật tốn hiệu cho loại công cụ thể Quan sát biểu đồ bảng thấy loại công định, số mơ hình phân lớp cho kết tốt mơ hình cịn lại, thuật tốn lựa chọn ứng viên tốt cho loại cơng Do Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 61 đó, giả thiết hệ thống IDS đƣợc tích hợp nhiều phân lớp khác có khả thực song song lúc phân lớp Em bƣớc đầu nghiên cứu mơ hình phát xâm nhập để ứng dụng hiệu thuật tốn phân lớp: Nạve Bayes Decision Tree Hƣớng phát triển tƣơng lai, em nghiên cứu mơ hình phát cơng dựa việc kết hợp nhiều phân lớp khác nhằm tận dụng đƣợc ƣu phân lớp cho loại cơng cụ thể Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 62 TÀI LIỆU THAM KHẢO [1] E Eskin, A Arnold, M Prerau, and L Portnoy A geometric framework for unsupervised anomaly detection Application of Data, 2002 [2] Y Liao and V.R Vemuri Use of k-nearest neighbor classifier for intrusion detection Computer Security, 21(5):439- 448, 2002 [3] Nguyen Quang Trung Master Thesis: Intrusion Detection System for Classifying Process Behavior Technical Unversity of Denmark, Kongens Luyngby, 2010 [4] Ian H Witten, Eibe Frank, Mark A Hall Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, Morgan Kaufmann, 2011 [5] Zonghua Zhang, Hong Shen, Application of online-training SVMs for real-time intrusion detection with different considerations Computer Communications, 28(12):1428-1442, 2005 [6] Haiyan Qiao, Jianfeng Peng, Chuan Feng, and Jerzy W Rozenblit Behavior Analysis-Based Learning Framework for Host Level Intrusion Detection In Proceedings of the 14th Annual IEEE International Conference and Workshops on the Engineering of Computer-Based Systems(ECBS '07) IEEE Computer Society, Washington, DC, USA, 441-447, 2007 [7] Ling Ma and Nazli Goharian Query length impact on misuse detection in information retrieval systems In Proceedings of the 2005 ACM symposium on Applied computing(SAC '05), Lorie M Liebrock (Ed.) ACM, New York, NY, USA, 1070-1075, 2005 [8] W.Lee and S.Stolfo Data mining Approaches for Instruction Detection Inproceeding of the 7th USENIX Security Sysposimun 1998 [9] W lee A data mining Framework for Constructing Features and Mo dels for Instruction Detection Systems PhD Thesis, Computer Science, Columbia University, June 1999 [10] William Cohen Learning Tree and Rule with Set-Valued Features American Assocition for Artificial Intelligence (AAAI), 1996 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 63 [11] KDD cup 99 Intrusion detection data set: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html [12] R Grossman, S Kasif, R Moore, D Rocke, and J Ullman Data Mining Research: Opportunities and Challenges, A report of three NSF workshops on Mining Large, Massive, and Distributed Data, January 1998 [13] S.Peddabachigari, A Abraham and J.Thomas, Intrusion Detection Systems Using Decision Trees and Support Vector Machines, Vector machines, International Journal of Applied Science, 188-134, 2004 [14] WEKA: http://sourceforge.net/projects/weka/ [15] M Mahoney and P Chan, “An Analysis of the 1999 DARPA/LincolnLaboratory Evaluation Data for Network Anomaly Detection,” LEC-TURE NOTES IN COMPUTER SCIENCE, pp 220–238, 2003 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... nghiên cứu hệ thống phát xâm nhập dựa khai phá liệu" Luận văn nghiên cứu khai phá liệu nghiên cứu ứng dụng mơ hình hệ thống phát xâm nhập trái phép dựa khai phá liệu; Từ đánh giá hiệu hệ thống phát. .. thƣờng Nghiên cứu tài liệu liên quan lĩnh vực khai phá liệu phát xâm nhập Tìm hiểu, nghiên cứu kỹ thuật phát xâm nhập dựa phƣơng pháp thống kê khai phá liệu Trên sở nghiên cứu phân tích tập liệu. .. IDS; Mơ hình kiến trúc hệ thống phát xâm nhập; Phân loại hệ thống IDS; Các kỹ thuật phát xâm nhập hệ thống IDS; Hệ thống phát xâm nhập dựa khai phá liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ngày đăng: 25/02/2021, 09:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan