(Luận văn) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

70 0 0
(Luận văn) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG Trần Huy Phong lu an va n TÌM HIỂU, NGHIÊN CỨU HỆ THỐNG to p ie gh tn PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU oa nl w d LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ll u nf va an lu oi m z at nh z m co l gm @ an Lu Thái Nguyên - 2015 n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si ii LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực chƣa đƣợc sử dụng để bảo vệ học hàm, học vị Tôi xin cam đoan: Mọi giúp đỡ cho việc thực luận văn đƣợc cám ơn, thơng tin trích dẫn luận văn đƣợc rõ nguồn gốc Thái nguyên, ngày tháng năm TÁC GIẢ LUẬN VĂN lu an Trần Huy Phong n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si iii LỜI CẢM ƠN Trong thời gian nghiên cứu thực luận văn này, em may mắn đƣợc thầy cô bảo, dìu dắt đƣợc gia đình, bạn bè quan tâm, động viên Em xin bày tỏ lời cảm ơn sâu sắc tới tất tập thể, cá nhân tạo điều kiện giúp đỡ em suốt trình thực nghiên cứu luận văn Trƣớc hết em xin trân trọng cảm ơn Ban giám hiệu trƣờng Đại học Công nghệ thông tin truyền thông, Phòng Đào tạo Khoa Sau đại học nhà trƣờng thầy cô giáo, ngƣời trang bị kiến thức cho em lu suốt trình học tập an Với lòng biết ơn chân thành sâu sắc nhất, em xin trân trọng cảm ơn thầy va giáo- TS Trần Đức Sự, ngƣời thầy trực tiếp bảo, hƣớng dẫn khoa học n gh tn to giúp đỡ em suốt trình nghiên cứu, hoàn thành luận văn Xin chân thành cảm ơn tất bạn bè, đồng nghiệp động viên, giúp đỡ p ie nhiệt tình đóng góp nhiều ý kiến quý báu để em hoàn thành luận văn w Do thời gian nghiên cứu có hạn, luận văn em hẳn tránh oa nl khỏi sơ suất, thiếu sót, em mong nhận đƣợc đóng góp thầy d giáo toàn thể bạn đọc an lu Xin trân trọng cảm ơn! u nf va Thái nguyên, ngày……tháng….năm…… TÁC GIẢ LUẬN VĂN ll oi m z at nh z Trần Huy Phong m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si iv MỤC LỤC lu an n va p ie gh tn to MỞ ĐẦU 1 Lý chọn đề tài: Mục tiêu nghiên cứu: Đối tƣợng phạm vi nghiên cứu: Ý nghĩa thực tiễn luận văn: Phƣơng pháp nghiên cứu: CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG PHÁT HIỆN XÂM NHẬP 1.1 Khái niệm hệ thống phát xâm nhập 1.2 Chức vai trò hệ thống phát xâm nhập .5 1.2.1 Chức nhiệm vụ IDS 1.2.2 Vai trò hệ thống phát xâm nhập 1.3 Mơ hình kiến trúc hệ thống phát xâm nhập 1.3.1 Các thành phần bản: 1.3.2 Kiến trúc hệ thống IDS: 11 1.4 Phân loại hệ thống phát xâm nhập 13 1.4.1 Hệ thống phát xâm nhập máy chủ (HIDS) 14 1.4.2 Hệ thống phát xâm nhập mạng (NIDS) 16 1.5 Các kỹ thuật phát xâm nhập hệ thống IDS 18 1.5.1 Phát dựa vào dấu hiệu ( Signature-base detection) 18 1.5.2 Phát dựa bất thƣờng (Abnormaly - base detection) 19 1.5.3 Kỹ thuật phát dựa vào phân tích trạng thái giao thức 19 1.5.4 Phát dựa mơ hình 20 1.6 Hệ thống phát xâm nhập dựa khai phá liệu 20 CHƢƠNG II: KHAI PHÁ DỮ LIỆU 23 2.1 Khái niệm khai phá liệu 23 2.2 Các tốn khai phá liệu 25 2.2.1 Phân lớp (Classification) 25 2.2.1.1 Quá trình phân lớp 25 2.2.1.2 Dự đoán 27 2.2.2 Phân cụm (Clustering) 27 2.2.3 Hồi quy dự báo ( Regression and Prediction) 27 2.2.3.1 Hồi quy 27 2.2.3.2 Dự báo 28 2.2.4 Tổng hợp (summarization) 28 2.2.5 Mơ hình hoá phụ thuộc (dependency modeling) 28 2.2.6 Phát biến đổi độ lệch (change and deviation dectection) 29 2.3 Ứng dụng phân loại khai phá liệu 29 2.3.1 Ứng dụng 29 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si v lu an n va p ie gh tn to 2.3.2 Phân loại 30 2.4 Những thách thức khó khăn khai phá liệu 31 2.4.1 Những thách thức khai phá liệu 31 2.4.2 Những khó khăn khai phá liệu 31 2.4.2.1 Các vấn đề sở liệu 31 2.4.2.2 Một số vấn đề khác 34 CHƢƠNG III: MƠ HÌNH HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT PHÂN LỚP 36 3.1 Đánh giá kỹ thuật phân lớp 36 3.1.1 Khái niệm phân lớp 36 3.1.1.1 Khái niệm 36 3.1.1.2 Mục đích phân lớp 37 3.1.1.3 Các tiêu chí để đánh giá thuật tốn phân lớp 38 3.1.1.4 Các phƣơng pháp đánh giá độ xác mơ hình phân lớp 39 3.1.2 Phân lớp dựa phƣơng pháp học Naïve bayes 39 3.1.2.1 Giới thiệu 39 3.1.2.2 Bộ phân lớp Naïve bayes 40 3.1.3 Phân lớp dựa định (Decision Tree) 41 3.1.3.1 Khái niệm định 41 3.1.3.2 Giải thuật qui nạp định (ID3) 42 3.1.3.3 Độ lợi thông tin (Information Gain) định 43 3.1.3.4 Nội dung giải thuật học định ID3 43 3.1.3.5 Những thiếu sót giải thuật ID3 46 3.1.3.6 Các vấn đề cần xem xét phân lớp dựa định 46 3.2 Xây dựng mơ hình phát xâm nhập trái phép sử dụng kỹ thuật phân lớp 48 3.2.1 Mơ hình tốn 48 3.2.1.1 Thu thập liệu 49 3.2.1.2 Trích rút lựa chọn thuộc tính 52 3.2.1.3 Xây dựng phân lớp 55 3.2.2 Tiến hành thực nghiệm 55 3.2.2.1 Phân lớp đa lớp 55 3.2.2.2 Bộ phân lớp nhị phân 56 3.3 Phân tích đánh giá kết 58 KẾT LUẬN 60 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si vi DANH MỤC VIẾT TẮT Ký Hiệu Ý Nghĩa Tiếng Anh IDS Intrusion Detection System Hệ thống phát xâm nhập NIDS Network-base IDS HIDS Host-based IDS KDD Knowledge Discovery and Phát tri thức Data Mining AAFID Autonomous Agents for Tác nhân tự trị cho việc phát xâm phạm Intrusion Detection lu Cơ sở liệu an CSDL On Line Analytical Processing Cơng cụ phân tích trực tuyến DARPA Defense Advanced Cơ quan dự án phòng thủ tiên tiến n va OLAP tn to gh Research Projects Agency Central Processing Unit Đơn vị xử lý trung tâm Denial-of-Service Tấn công từ chối dịch vụ p ie CPU w DoS oa nl MADAMID Mining Audit Data for d Automated Models for lu Thuật toán phân lớp dựa vào luật u nf Waikato Enviroment for ll WEKA va RIPPER mơ hình tự động để phát xâm nhập an Instruction Detection Khai phá liệu đƣợc sử dụng m oi krowledge Analysis z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si vii DANH MỤC HÌNH VẼ lu an n va p ie gh tn to Hình 1.1- IDS-giải pháp bảo mật bổ sung cho Firewall Hình 1.2 - Quá trình thực IDS Hình 1.3 - Mơ tả sách bảo mật Hình 1.4 - Các thành phần IDS 10 Hình 1.5- Một ví dụ IDS 11 Hình 1.6 - Giải pháp kiến trúc đa tác nhân 12 Hình 1.7 - Phân loại hệ thống phát xâm nhập 13 Hình 1.8 - Mơ hình HIDS 14 Hình 1.9 - Mơ hình Network IDS 17 Hình 1.10 - Mô tả dấu hiệu xâm nhập 18 Hình 1.11 - Q trình khai phá liệu nhằm xây dựng mơ hình phát xâm nhập trái phép [9] 21 Hình 2.1 - Các bƣớc xây dựng hệ thống khai phá liệu 24 Hình 2.2 - Quá trình học 26 Hình 2.3 - Quá trình phân lớp 26 Hình 3.1 Ƣớc lƣợng độ xác mơ hình phân lớp với phƣơng pháp holduot 39 Hình 3.2 - Các bƣớc xây dựng mơ hình xâm nhập trái phép 48 Hình 3.3 - Quá trình khai phá tri thức 49 Hình 3.4 - Mơ hình DoS attack 50 w oa nl DANH MỤC BẢNG d Bảng 3.1 - Dữ liệu chơi tenis 45 Bảng 3.2 - Mô tả lớp công từ chối dịch vụ (DoS) 50 Bảng 3.3 - Bảng mô tả lớp công trinh sát hệ thống Probe 51 Bảng 3.4 - Bảng mô tả lớp công chiếm quyền hệ thống U2R 51 Bảng 3.5 - Bảng mô tả lớp công khai thác điểm yếu từ xa R2L 52 Bảng 3.6- Mơ tả 41 thuộc tính tập liệu KDD Cup 1999 53 Bảng 3.7 – Phân phối số lƣợng ghi 54 Bảng 3.8- Độ xác phân lớp đa lớp 56 Bảng 3.9- Thống kê kết phân lớp nhị phân sử dụng định 57 Bảng 3.10 - Thống kê kết phân lớp nhị phân sử dụng Naïve Bayes 57 ll u nf va an lu oi m z at nh z @ l gm DANH MỤC BIỂU ĐỒ m co Biểu đồ 3.1 - Biểu đồ so sánh độ xác (%) hai thuật tốn 58 Biểu đồ 3.2 - Biểu đồ so sánh thời gian xây dựng mơ hình (giây) hai thuật toán 59 an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si MỞ ĐẦU Lý chọn đề tài: Kể từ mạng Internet đời đến nay, giới chứng kiến thay đổi vô to lớn kì diệu nhiều mặt đời sống ngƣời Nền kinh tế giới đời sống xã hội có nhiều biến đổi ngày phụ thuộc vào cơng nghệ thơng tin nói chung nhƣ cơng nghệ Internet nói riêng Điều dẫn đến mặt trái, ngày nhiều thông tin quan trọng quan, tổ chức hay cá nhân lƣu trữ mạng máy tính, mà đa số mạng máy tính lại khơng đảm bảo độ an tồn, bảo mật thơng tin tuyệt đối lu Đi với phát triển nguy cơng xâm nhập mạng an va không ngừng gia tăng Các đối tƣợng cơng hình thức cơng mạng ngày n đa dạng, tinh vi phức tạp to tn Vấn đề bảo mật, an toàn cho hệ thống thơng tin nói chung hệ thống p ie gh mạng nói riêng vấn đề cấp bách đáng đƣợc quan tâm Bởi vậy, để bảo vệ hệ thống thông tin ngƣời ta sử dụng nhiều giải pháp kỹ thuật khác nhƣ hệ thống tƣờng lửa, mã hố, mạng riêng ảo (VPN), phịng chống virus…Trong w oa nl phát xâm nhập trái phép (IDS) công nghệ quan trọng d nhằm giúp tổ chức phát ngăn chặn kịp thời công thời gian thực, nhƣ dự đoán đƣợc nguy cơng tƣơng lai [3], [5] Chính vậy, nghiên cứu hệ thống IDS giúp nâng cao khả xây dựng hệ thống phòng thủ cho việc giám sát an ninh mạng Hai phƣơng pháp để phát xâm nhập trái phép dựa tập luật ll u nf va an lu m oi dựa dấu hiệu bất thƣờng [1], [2], [6], [7] Phƣơng pháp dựa tập luật z at nh phát công dựa sở liệu dấu hiệu đƣợc định nghĩa trƣớc Phƣơng pháp thƣờng có độ xác cao nhƣ đƣa z cảnh báo nhầm Tuy nhiên, vấn đề phƣơng pháp phát @ gm đƣợc công chƣa đƣợc định nghĩa cập nhật sở liệu m co l Phƣơng pháp dựa dấu hiệu bất thƣờng giúp xác định cơng nhƣng thƣờng cho độ xác thấp so với phƣơng pháp dựa tập luật an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Hiện nay, Khai phá liệu có nhiều bƣớc phát triển vƣợt bậc có nhiều ứng dụng kỹ thuật thuật toán khác thực tế Khai phá liệu phƣơng pháp tiếp cận việc phát xâm nhập Xây dựng mơ hình hệ thống phát xâm nhập dựa khai phá liệu hƣớng phát triển hiệu xây dựng hệ thống IDS Xuất phát từ yêu cầu lý trên, em lựa chọn đề tài luận văn là: "Tìm hiểu, nghiên cứu hệ thống phát xâm nhập dựa khai phá liệu" Luận văn nghiên cứu khai phá liệu nghiên cứu ứng dụng mơ hình hệ thống phát xâm nhập trái phép dựa khai phá liệu; Từ đánh giá hiệu lu hệ thống phát xâm nhập thuật toán phân lớp khác thực tế an va Mục tiêu nghiên cứu: n - Nghiên cứu tổng quan hệ thống phát xâm nhập - Nghiên cứu số thuật toán khai phá liệu tn to p ie gh - Ứng dụng số thuật toán khai phá liệu phát xâm nhập, so sánh hiệu thuật tốn - Đánh giá hiệu cho mơ hình thuật toán phân lớp khác w oa nl nhƣ: Naïve Bayes, Decision Tree d Đối tƣợng phạm vi nghiên cứu: an lu - Nghiên cứu mơ hình hệ thống IDS đánh giá ƣu, nhƣợc điểm IDS u nf va - Nghiên cứu toán, kỹ thuật khai phá liệu - Ứng dụng khai phá liệu hệ thống phát xâm nhập ll oi m - Một số thuật toán phân lớp liệu - Đánh giá hiệu kỹ thuật phân lớp cho hệ thống phát xâm nhập z at nh dựa khai phá liệu z Ý nghĩa thực tiễn luận văn: @ gm - Nghiên cứu ứng dụng mơ hình hệ thống phát xâm nhập dựa khai l phá liệu giải vấn đề tồn hệ thống IDS m co - Đánh giá hiệu phân lớp cho mô hình Đồng thời đề xuất lựa chọn kỹ thuật phân lớp phù hợp với loại công cụ thể cho hệ thống phát xâm an Lu nhập dựa khai phá liệu đề xuất n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Phƣơng pháp nghiên cứu: Việc giám sát hành động mạng thu thập phân tích để phát cơng mạng Các hành động tìm thấy tệp log ứng dụng nhƣ tạo, xóa file, truy cập vào tệp có mật khẩu, gọi lệnh hệ thống Việc phân tích phát công dựa tập liệu hành động thực thơng qua thuật toán phân lớp liệu, để phân lớp thành lớp công biết trƣớc lớp truy cập bình thƣờng Nghiên cứu tài liệu liên quan lĩnh vực khai phá liệu phát xâm nhập Tìm hiểu, nghiên cứu kỹ thuật phát xâm nhập dựa phƣơng lu pháp thống kê khai phá liệu Trên sở nghiên cứu phân tích tập liệu DARPA [15] Phân tích lý thuyết thực nghiệm để xác định thuộc tính quan trọng tập liệu có an n va p ie gh tn to ảnh hƣởng đến hành động cơng cụ thể, từ trích rút chuyển đổi thành định dạng phù hợp cho thuật toán học phân lớp Nghiên cứu xây dựng thực nghiệm sử dụng phần mềm Weka [14], đánh giá hiệu thuật toán học phân lớp tập liệu DARPA d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 49 3.2.1.1 Thu thập liệu lu an n va to Để thực đánh giá thuật toán phân lớp việc xây dựng mơ ie gh tn Hình 3.3 - Q trình khai phá tri thức p hình phát xâm nhập trái phép, phần thực nghiệm em sử dụng tập nl w liệu KDD Cup 1999[11] đƣợc xây dựng từ năm 1998 tổ chức DARPA (cục oa quốc phòng Mỹ quản lý Trung tâm thí nghiệm MIT Lincoln) d Đây tập liệu đƣợc trích rút từ gói tin có định dạng giao thức TCP lu va an đƣợc thu thập thông qua thời gian tuần Để thu thập đƣợc liệu công, u nf công đƣợc giả lập theo hành động mục tiêu cụ thể kẻ ll công Tập liệu bao gồm kiểu liệu bình thƣờng (normal) 22 kiểu m oi công khác đƣợc phân loại thành lớp: Từ chối dịch vụ (DoS), trinh sát hệ z at nh thống (Probe), chiếm quyền hệ thống (U2L) khai thác điểm yếu (R2L)  Lớp từ chối dịch vụ (DoS - Denial of Service Attack): z Cho dù đa dạng kích cỡ hình dạng, từ subtle malformed packet đến full- @ gm blown packet storm, Denial of Service (DoS) attack có mục đích chung đóng m co l băng hay chặn đứng tài nguyên hệ thống đích Cuối cùng, mục tiêu trở nên tiếp cận trả lời DoS công vào mục tiêu bao gồm ba an Lu dạng mạng, hệ thống ứng dụng n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 50 lu an Hình 3.4 - Mơ hình DoS attack n va - Network flooding bao gồm SYN flood, Ping flood hay multi echo request… tn to - Phá hoại hệ thống, thiết bị bao gồm Ping of Death, Teardrop, Bonk, LAND, gh kiểu công nhằm lợi dụng lỗ hổng hệ điều hành nhằm phá hoại, gây p ie tải hệ thống Sự kiện xảy cách gửi gói tin có định dạng khác w thƣờng tới hệ thống thiết bị, chúng đƣợc tạo cơng cụ cơng oa nl đƣợc lập trình trƣớc d - Phá hoại, gây tải ứng dụng bao gồm kỹ thuật phá hoại gây tải hệ an lu thống cách lợi cụng điểm yếu ứng dụng, sở liệu, email, trang web… u nf va Một số kiểu công DoS phổ biến liệt kê bảng sau: ll Bảng 3.2 - Mô tả lớp công từ chối dịch vụ (DoS) Mô tả oi Tên công m TT Pod Smurfe Gửi gói tin có kích thƣớc lớn thơng qua lệnh Ping đến máy đích Lợi dụng Router mạng để gửi Broadcast Neptune Đột nhập vào hệ thống Teardrop Gửi chồng chéo gói tin Back Tấn cơng đến đƣờng định tuyến Land Làm chậm, bị treo hệ thống ứng dụng z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 51  Trinh sát hệ thống (Probe): Là loại cơng có mục đích thu thập thơng tin liên quan đến cấu hình hệ thống máy tính hệ thống mạng nhằm mục đích phá hoại Phƣơng thức chung sử dụng cơng cụ dị qt, để tìm kiếm cổng mở hay địa IP Bảng 3.3 - Bảng mô tả lớp công trinh sát hệ thống Probe TT Tên công Mô tả lu an Santan Công cụ quét cổng thăm dò Portsweep Sử dụng gói tin kết nối để xác định cổng mở Nmap Công cụ quét cổng Ipsweep Sử dụng gói ping để xác định IP n va tn to  Lớp công chiếm quyền hệ thống ( U2R - User-to-root): Đây loại gh công nhằm chiếm đoạt quyền cao chiếm dụng, kiểm soát máy tính p ie kẻ cơng có tài khoản đăng nhập bình thƣờng (Với quyền hạn chế) w Phƣơng thức kiểu công truy cập vào hệ thống nhƣ ngƣời dùng oa nl bình thƣờng sau sử dụng phƣơng pháp leo thang đặc quyền để lấy quyền d quản trị hệ thống TT Tên công Perl Rootkit z at nh oi Loadmodule m Làm tràn đệm Lợi dụng điểm yếu, để thực thi module quản trị hệ thống Công cụ để tăng quyền user Công cụ điều hành cao hệ tthống ll Buffer_overflow Mô tả u nf va an lu Bảng 3.4 - Bảng mô tả lớp công chiếm quyền hệ thống U2R z gm @  Lớp công khai thác điểm yếu từ xa ( R2L - Remote-to-Local): Đây kiểu công kẻ cơng gửi gói tin đoạn mã đến máy tính qua l ngƣời dùng cục (local) m co Internet lợi dụng điểm yếu máy tính đó, từ khai thác đặc quyền an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 52 Bảng 3.5 - Bảng mô tả lớp công khai thác điểm yếu từ xa R2L TT Tên công Mô tả Guess_password Đoán password Ftpwirte Thay đổi quyền để truy cập vào FTP Imap Tấn công vào dịch vụ mail Phf Tấn công vào sở liệu Web Spy Tấn cơng vào trình duyệt Web Warezclient Tấn công theo kiểu bom Warezmaster Tấn công làm thay đổi Multihop Tấn công nhiều dạng lúc lu an va 3.2.1.2 Trích rút lựa chọn thuộc tính n Dựa vào tập liệu KDD Cup 1999 với đặc trƣng trích chọn nhƣ: kết tn to nối TCP cá nhân, kết nối đến máy chủ vùng kết nối đến máy chủ nhƣ kết ie gh nối hành hai giây liên tục Luận văn lựa chọn thuộc tính từ p gói tin kết nối đến giao thức TCP, chẳng hạn nhƣ khoảng thời gian kết nl w nối, kiểu giao thức, số lƣợng byte liệu, cờ để tình trạng lỗi kết nối oa bình thƣờng Các thuộc tính kết nối đơn đƣợc thơng qua lĩnh vực tri thức, d kể hoạt động tạo tập tin số hoạt động cố gắng truy cập vào hệ thống lu va an Trích chọn thuộc tính (feature selection, feature extraction) nhiệm vụ quan u nf trọng giai đoạn tiền xử lý liệu triển khai mơ hình khai phá liệu ll Một vấn đề gặp phải tập liệu dùng để xây dựng mơ hình khai phá m oi liệu thƣờng chứa nhiều thông tin khơng cần thiết cho việc xây dựng mơ hình z at nh Chẳng hạn, tập liệu gồm hàng trăm thuộc tính dùng để mơ tả khách hàng doanh nghiệp đƣợc thu thập, nhiên xây dựng mơ hình khai phá z @ liệu cần khoảng 50 thuộc tính từ hàng trăm thuộc tính l gm Nếu ta dử dụng tất thuộc tính ( hàng trăm, hàng ngàn) khách hàng để xây dựng mô hình cần phải có xử lý trung tâm CPU phải đủ lớn, nhiều m co nhớ q trình học mơ hình, trí thuộc tính khơng cần thiết làm an Lu giảm độ xác mơ hình gây khó khăn việc phát tri thức n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 53 Trong tập liệu này, dựa vào đặc trƣng trích chọn ta thu đƣợc 41 thuộc tính với đa số thuộc tính liên tục Bảng thuộc tính đƣợc mô tả nhƣ sau: Bảng 3.6- Mô tả 41 thuộc tính tập liệu KDD Cup 1999 TT Tên thuộc tính Kiểu thuộc tính Mơ tả an n va Liên tục Protocol_Type Kiểu giao thức (TCP,UDPP, ICMP) Rời rạc Service Các dịch vụ mạng Rời rạc Flag Tình trạng bình thƣờng hay lỗi kết nối Rời rạc src_bytes Số lƣợng byte liệu từ nguồn đến đích Liên tục dst_bytes Số lƣợng byte liệu từ đích đến nguồn Liên tục Land kết nối đến máy chủ; ngƣợc lại wrong_fragment Số sai phân mảnh Rời rạc Liên tục Urgent Số lƣợng gói tin khẩn cấp Liên tục 10 Hot Số lƣợng "nóng" số Liên tục 11 num_failed_logins Số lần đăng nhập thất bại Liên tục thành công; thất bại Rời rạc 13 num_compromised Số điều kiện thoả hiệp Liên tục 14 root_shell gốc đạt đƣợc; ngƣợc lại Rời rạc quyền root; ngƣợc lại Rời rạc Số root truy cập Liên tục 17 num_file_creations Số lƣợng tạo tệp tin Liên tục 18 num_shells Số lƣợng cảnh báo Liên tục 19 num_access_files Số hoạt động tập tin kiểm soát truy cập Liên tục 20 num_outbound_cmd Số lệnh gửi phiên ftp Liên tục p ie gh tn to Khoảng thời gian (s) kết nối z at nh lu Duration w d oa nl 12 logged_in ll u nf 16 num_root va an lu 15 su_attempted oi m z ngƣợc lại Rời rạc l gm 22 Is_guest_login đăng nhập vào thuộc danh sách nóng; @ 21 Is_host_login đăng nhập khách; ngƣợc lại 24 srv_count Số lƣợng kết nối dịch vụ giây Liên tục m co 23 Count Rời rạc Số lƣợng kết nối máy chủ giây Liên tục an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 54 lu % kết nối "SYN" lỗi Liên tục 26 srv_serror_rate % kết nối "SYN" lỗi Liên tục 27 rerror_rate % kết nối "REJ" lỗi Liên tục 28 srv_serror_rate % kết nối "REJ" lỗi Liên tục 29 same_srv_rate 30 diff_srv_rate % kết nối dịch vụ tƣơng tự % kết nối đến dịch vụ khác Liên tục Liên tục 31 srv_diff_host_rate % kết nối đến máy chủ khác Liên tục 32 dst_host_count Số lƣợng kết nối đến máy chủ nguồn Liên tục 33 dst_host_rsv_count Số lƣợng kết nối từ nguồn đến đích Liên tục 34 dst_host_same_srv_rate % kết nối máy chủ đích đến nguồn dịch vụ Liên tục tƣơng tự 35 dst_host_diff_srv_rate % máy chủ kết nối từ đích đến nguồn qua Liên tục dịch vụ khác an 25 serror_rate n va tn to dst_host_same_srv_por % kết nối máy chủ đích đến nguồn dịch vụ Liên tục t_rate tƣơng tự qua cổng 37 dst_host_srv_diff_host % máy chủ kết nối từ đích đến nguồn qua Liên tục _rate dịch vụ khác 36 p ie gh % kết nối máy chủ đích "SYN" lỗi nl w 38 dst_host_serror_rate Liên tục oa % kết nối máy chủ đích đến nguồn Liên tục "SYN" lỗi d 39 dst_host_srv_serror lu an 40 dst_host_rerror_rate % kết nối máy chủ đích "REJ" lỗi Liên tục ll u nf va 41 dst_host_srv_rerror_rate % kết nối máy chủ đích đến nguồn "REJ" lỗi Liên tục oi m Do tập liệu KDD Cup 1999 lớn, em trích chọn 10% số liệu z at nh để làm thực nghiệm Bao gồm: 19.899 ghi có 41 thuộc tính Phân phối ghi nhƣ sau: z Bảng 3.7 – Phân phối số lượng ghi TØ lÖ % l 44,1 39,9 6,2 4,8 m co an Lu Số l-ợng ghi 8783 7934 1225 958 999 gm Normal DoS Probe U2R R2L @ Líp n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 55 Tæng céng 19899 3.2.1.3 Xây dựng phân lớp 100 Luận văn thực thực nghiệm để xây dựng mô hình phát xâm nhập trái phép dựa thuật tốn phân lớp Decision Tree, Nạve Bayes Đánh giá hiệu thuật tốn lên khía cạnh độ xác thuật tốn việc phân lớp Mục đích mơ hình phát xâm nhập trái phép để phân lớp tập liệu vào bốn kiểu công kiểu normal Tập liệu thực nghiệm bao gồm 19.899 ghi, 41 thuộc tính 22 kiểu cơng chia làm lớp khác mô tả lu Trong phần thực nghiệm này, em sử dụng phần mềm WEKA (Waikato an Enviroment for Krowledge Analysis) đƣợc cài đặt máy tính với cấu hình hệ va n điều hành Windows 32 bit, vi xử lý Intel® Core™ i3-2330 CPU @ 2.20 Ghz, tn to nhớ RAM 4Gb Các thực nghiệm đƣợc xây dựng với thuật tốn phân lớp ie gh Decision Tree, Nạve Bayes p 3.2.2 Tiến hành thực nghiệm 3.2.2.1 Phân lớp đa lớp w oa nl Kết thực nghiệm sử dụng phƣơng pháp đánh giá chéo 10 lần phân d thành lớp có kết độ xác nhƣ sau: lu ll u nf va an Sử dụng định: oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 56 Sử dụng Naïve Bayes: lu an n va tn to Bảng 3.8- Độ xác phân lớp đa lớp ie gh Normal p Cây định Naïve Bayes DoS Probe U2R R2L 99,8% 99,9% 99,0% 97,7% 98,2% 97,3% 87,3% 68,3% 86,8% 87,1% nl w oa 3.2.2.2 Bộ phân lớp nhị phân d Bài thực nghiệm tiến hành xây dựng thực nghiệm tập liệu đƣợc lu va an cấu trúc lại từ tập liệu gốc, thực nghiệm xây dựng phân lớp để u nf dự đoán lớp cơng cụ thể Trong tập đƣợc cấu trúc lại cách ll giữ lại giá trị thuộc tính kiểu cơng gộp tất kiểu cơng cịn m oi lại thành giá trị Ví dụ: lớp normal, tập liệu cấu trúc lại thành hai z at nh lớp: lớp normal (bình thƣờng) lớp cịn lại bao gồm lớp khác (Probe, DoS, U2R, R2L) Kết thực nghiệm thống kê thời gian độ xác z với phân lớp hai lớp m co l gm @ phƣơng pháp đánh giá chéo 10 lần dựa định Naïve Bayes an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 57 Lớp DoS sử dụng thuật toán định: Lớp normal sử dụng thuật tốn Nạve Bayes: lu an n va p ie gh tn to w oa nl Dựa vào kết thực nghiệm, ta có bảng thống kê nhƣ sau: d Bảng 3.9- Thống kê kết phân lớp nhị phân sử dụng định lu ll u nf oi m z at nh Normal DoS Probe U2R R2L va an Thời gian xây dựng mơ hình (giây) 1,49 1,16 1,69 1,62 2,09 Mức độ (%) 99,4 100 99 97,6 93,8 Bảng 3.10 - Thống kê kết phân lớp nhị phân sử dụng Naïve Bayes z Mức độ (%) 98,1 86,5 93,6 91,9 95,7 m co l gm @ Thời gian xây dựng mơ hình (giây) Normal 0,23 0,19 DoS 0,21 Probe 0,19 U2R 0,22 R2L an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 58 3.3 Phân tích đánh giá kết So sánh mức độ xác phân lớp đa lớp thấy lớp Probe, R2L U2R chiếm tỉ lệ thấp sở liệu định cho kết tốt nhiều so với Naïve bayes, điều chứng tỏ định phù hợp Naïve bayes tập liệu nhỏ Đối với phân lớp hai lớp sử dụng định nhƣ sử dụng Nạve Bayes, nhận thấy phân lớp hai lớp cho kết tốt phân lớp đa lớp Vì đoạn so sánh phân lớp hai lớp với hai tiêu chí độ xác nhƣ thời gian xây dựng mơ hình Kết so sánh độ lu xác đƣợc thể thơng qua Biểu đồ 3.1, kết so sánh thời gian xây dựng mơ an n va hình đƣợc thể thơng qua biểu đồ 3.2 to 105 tn 100 gh 95 p ie 90 85 80 w nl 75 Probe U2R R2L 99,4 100 99 97,6 93,8 86,5 93,6 91,9 95,7 d lu 98,1 an NB DoS oa DT Normal u nf va Biểu đồ 3.1 - Biểu đồ so sánh độ xác (%) hai thuật tốn ll Biểu đồ 3.1 cho thấy định cho độ xác tốt cho lớp oi m Normal, Probe, DoS U2R so với Nạve Bayes, có độ xác thấp z at nh cho lớp R2L so với thuật tốn Nạve Bayes Qua mức độ thay đổi độ xác hai thuật tốn thấy định có độ xác ổn định với tập z m co l gm @ liệu lớn tập liệu nhỏ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 59 2,5 1,5 0,5 Normal DoS Probe U2R R2L DT 1,49 1,16 1,69 1,62 2,09 NB 0,23 0,19 0,21 0,19 0,22 Biểu đồ 3.2 - Biểu đồ so sánh thời gian xây dựng mơ hình (giây) hai thuật toán lu Trên Biểu đồ 3.2, thấy thời gian xây dựng mơ hình Nạve bayes an tốt nhiều so với thời gian xây dựng mơ hình sử dụng định Vì va n việc sử dụng phân lớp Naive bayes cho hệ thống phát xâm nhập trái p ie gh tn to phép làm tăng hiệu hệ thống lên đáng kể d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 60 KẾT LUẬN Qua thời gian nghiên cứu, luận văn thu đƣợc số kết nhƣ sau: - Về mặt lý luận: Luận văn trình bày cách tổng quan vấn đề lý thuyết hệ thống phát xâm nhập IDS; bao gồm: Khái niệm, mơ hình kiến trúc hệ thống phát xâm nhập; Về kỹ thuật phát xâm nhập hệ thống IDS luận văn nêu đƣợc kỹ thuật nhƣ: phát dựa vào dấu hiệu, phát dựa kiện bất thƣờng, phát dựa vào phân tích trạng thái giao thức phát dựa mơ hình Đồng thời luận văn đƣa đánh giá ƣu lu điểm, hạn chế hệ thống phát xâm nhập IDS an Bên cạnh em nghiên cứu trình bày kỹ thuật khai phá liệu, ứng va n dụng mô hình, qua đánh giá hiệu hệ thống IDS dựa khai phá liệu sử tn to dụng kỹ thuật phân lớp; Các tốn khai phá liệu nhƣ: phân lớp, ie gh phân cụm, hồi quy dự báo…; Ứng dụng phân loại khai phá liệu; Những p thách thức khó khăn khai phá liệu nl w - Về mặt thực nghiệm: Luận văn định nghĩa đƣợc toán phát xâm d oa nhập trái phép dựa khai phá liệu sử dụng kỹ thuật phân lớp sử dụng tập an lu liệu mô công KDD Cup 1999 đƣa đƣợc mơ hình tốn Luận văn trình bày thực nghiệm để đánh giá độ xác sử dụng hai kỹ thuật phân lớp va u nf Naïve Bayes Decision Tree Qua phân tích đánh giá kết thực nghiệm, luận ll văn khẳng định đƣợc kỹ thuật phân lớp định đạt đƣợc độ xác tốt m oi so với thuật tốn Nạve Bayes nhƣng thời gian xây dựng mơ hình thuật z at nh tốn Nạve Bayes tốt nhiều so với định Thực nghiệm thể đƣợc yêu cầu luận văn đánh giá đƣợc hiệu phân lớp cho mơ hình toán z @ gm - Hướng phát triển Luận văn: Từ kết thực nghiệm, em l đƣa mơ hình tích hợp để lựa chọn thuật toán hiệu cho loại m co công cụ thể Quan sát biểu đồ bảng thấy loại công định, số mơ hình phân lớp cho kết tốt mơ hình cịn an Lu lại, thuật tốn lựa chọn ứng viên tốt cho loại công Do n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 61 đó, giả thiết hệ thống IDS đƣợc tích hợp nhiều phân lớp khác có khả thực song song lúc phân lớp Em bƣớc đầu nghiên cứu mơ hình phát xâm nhập để ứng dụng hiệu thuật tốn phân lớp: Nạve Bayes Decision Tree Hƣớng phát triển tƣơng lai, em nghiên cứu mơ hình phát cơng dựa việc kết hợp nhiều phân lớp khác nhằm tận dụng đƣợc ƣu phân lớp cho loại công cụ thể lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 62 TÀI LIỆU THAM KHẢO [1] E Eskin, A Arnold, M Prerau, and L Portnoy A geometric framework for unsupervised anomaly detection Application of Data, 2002 [2] Y Liao and V.R Vemuri Use of k-nearest neighbor classifier for intrusion detection Computer Security, 21(5):439- 448, 2002 [3] Nguyen Quang Trung Master Thesis: Intrusion Detection System for Classifying Process Behavior Technical Unversity of Denmark, Kongens Luyngby, 2010 [4] Ian H Witten, Eibe Frank, Mark A Hall Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, Morgan Kaufmann, 2011 lu [5] Zonghua Zhang, Hong Shen, Application of online-training SVMs for real-time an va intrusion detection with different considerations Computer Communications, n 28(12):1428-1442, 2005 gh tn to [6] Haiyan Qiao, Jianfeng Peng, Chuan Feng, and Jerzy W Rozenblit Behavior Analysis-Based Learning Framework for Host Level Intrusion Detection In ie p Proceedings of the 14th Annual IEEE International Conference and Workshops on nl w the Engineering of Computer-Based Systems(ECBS '07) IEEE Computer Society, d oa Washington, DC, USA, 441-447, 2007 an lu [7] Ling Ma and Nazli Goharian Query length impact on misuse detection in information retrieval systems In Proceedings of the 2005 ACM symposium on va ll USA, 1070-1075, 2005 u nf Applied computing(SAC '05), Lorie M Liebrock (Ed.) ACM, New York, NY, m oi [8] W.Lee and S.Stolfo Data mining Approaches for Instruction Detection z at nh Inproceeding of the 7th USENIX Security Sysposimun 1998 [9] W lee A data mining Framework for Constructing Features and Mo dels for z University, June 1999 l gm @ Instruction Detection Systems PhD Thesis, Computer Science, Columbia Assocition for Artificial Intelligence (AAAI), 1996 m co [10] William Cohen Learning Tree and Rule with Set-Valued Features American an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 63 [11] KDD cup 99 Intrusion detection data set: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html [12] R Grossman, S Kasif, R Moore, D Rocke, and J Ullman Data Mining Research: Opportunities and Challenges, A report of three NSF workshops on Mining Large, Massive, and Distributed Data, January 1998 [13] S.Peddabachigari, A Abraham and J.Thomas, Intrusion Detection Systems Using Decision Trees and Support Vector Machines, Vector machines, International Journal of Applied Science, 188-134, 2004 [14] WEKA: http://sourceforge.net/projects/weka/ lu [15] an M Mahoney and P Chan, “An Analysis of the 1999 n va DARPA/LincolnLaboratory Evaluation Data for Network Anomaly Detection,” p ie gh tn to LEC-TURE NOTES IN COMPUTER SCIENCE, pp 220–238, 2003 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si

Ngày đăng: 24/07/2023, 09:44

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan