Phương pháp tối ưu đàn kiến để giải bài toán phát hiện xâm nhập

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐÀO VĂN HẢI PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN ĐỂ GIẢI BÀI TỐN PHÁT HIỆN XÂM NHẬP Ngành: Cơng nghệ thơng tin Chun ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hoàng Xuân Huấn Hà Nội, 2020 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới PGS.TS Hoàng Xuân Huấn, người thầy đáng kính tận tình bảo, hướng dẫn tơi suốt q trình tìm hiểu, nghiên cứu hoàn thiện luận văn Thầy với nhiều năm nghiên cứu lĩnh vực tối ưu hóa, với nhiều đề xuất, cơng trình cơng nhận Nghiên cứu chun sâu tối ưu hóa đàn kiến thầy giúp tơi hiểu rõ khó khăn trong q trình nghiên cứu tìm hướng giải tốn Thầy đưa góp ý bổ ích, q báu giúp cho tơi hồn thành luận văn Tôi xin gửi lời cảm ơn sâu sắc đến TS.Trần Ngọc Hà người giúp đỡ tơi q trình viết luận văn thực nghiệm chương trình Cuối tơi xin bày tỏ lịng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm q báu cho tơi suốt q trình học Tôi xin cảm ơn tới thầy anh chị thường xuyên giúp đỡ, trao đổi, góp ý vấn đề khoa học liên quan tới luận văn Hà Nội, tháng năm 2020 HỌC VIÊN ĐÀO VĂN HẢI LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu cá nhân hướng dẫn giúp đỡ PGS.TS Hoàng Xuân Huấn TS Trần Ngọc Hà Các kết viết chung với tác giả khác đồng ý tác giả trước đưa vào luận văn Trong toàn nội dung nghiên cứu luận văn, vấn đề trình bày tìm hiểu nghiên cứu cá nhân tơi trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Trong luận văn, tơi có tham khảo đến số tài liệu số tác giả liệt kê mục tài liệu tham khảo Hà Nội, tháng năm 2020 HỌC VIÊN ĐÀO VĂN HẢI MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG DANH SÁCH HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU VỀ PHÁT HIỆN XÂM NHẬP MẠNG 11 1.1 Giới thiệu 11 1.2 Xâm nhập 11 1.2.1 Khái niệm 11 1.2.2 Các kiểu xâm nhập phổ biến 11 1.2.3 Các cách ngăn chặn xâm nhập truyền thống 12 1.3 Hệ thống phát xâm nhập mạng 13 1.3.1 Phân loại hệ thống phát xâm nhập mạng 13 1.4 Các cách tiếp cận toán phát xâm nhập 15 1.4.1 Cách tiếp cận dựa vào luật 15 1.4.2 Cách tiếp cận dựa vào thống kê 16 1.5 Bài toán phát xâm nhập hệ thống mạng nội 16 1.5.1 Mơ tả tốn 16 1.5.2 Đề xuất hướng giải 16 CHƯƠNG 2: GIỚI THIỆU BÀI TOÁN TỐI ƯU HÓA TỔ HỢP VÀ PHƯƠNG PHÁP TỐI ƯU HÓA ĐÀN KIẾN 18 2.1 Giới thiệu toán tối ưu tổ hợp 18 2.2 Bài toán người chào hàng 19 2.3 Các cách tiếp cận giải toán tối ưu tổ hợp 19 2.3.1 Tiếp cận truyền thống 19 2.3.2 Tiếp cận dựa thực nghiệm 20 2.4 Phương pháp tối ưu đàn kiến 20 2.4.1 Kiến tự nhiên 20 2.4.2 Kiến nhân tạo (Artificial Ant) 22 2.4.3 Phương pháp tối ưu đàn kiến 23 2.4.4 Mơ tả thuật tốn ACO tổng qt 23 2.4.5 Các hệ kiến 26 2.4.5.1 Hệ kiến AS 26 2.4.5.2 Hệ kiến ACS 26 2.4.5.3 Hệ kiến Max-Min 29 2.4.5.4 Hệ kiến Max-Min trơn 29 CHƯƠNG 3: SỬ DỤNG PHƯƠNG PHÁP TỐI ƯU HĨA ĐÀN KIẾN TRONG BÀI TỐN PHÁT HIỆN XÂM NHẬP 31 3.1 Thuật toán DACS3-FS 31 3.1.1 Đồ thị cấu trúc 32 3.1.2 Xác suất chuyển tiếp 32 3.1.3 Vết mùi thông tin heuristic 33 3.1.4 Quy tắc cập nhật vết mùi 33 3.1.5 Lược đồ chung 35 3.2 Thuật toán SMMAS-FS 37 3.2.1 Quy tắc cập nhật vết mùi 37 3.2.2 Lược đồ thuật toán 38 3.2.3 Lựa chọn lời giải tốt 39 3.3 Áp dụng toán phát xâm nhập 39 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH, ĐÁNH GIÁ 40 4.1 Tiến hành thực nghiệm 40 4.1.1 Dữ liệu đầu vào 40 4.1.2 Cấu hình sử dụng thực nghiệm 42 4.1.3 Các tham số đầu vào 42 4.2 Kết chạy thực nghiệm 42 4.2.1 So so sánh với thuật toán DACS3-FS 42 4.2.2 Thử với thực nghiệm khác 44 4.3 Nhận xét 45 4.4 Hướng nghiên cứu 45 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT Từ viết tắt Từ cụm từ ACO Ant Colony Optimization (Tối ưu hóa đàn kiến) AS Ant System (Hệ kiến AS) ACS Ant Colony System (Hệ kiến ACS) MMAS Max-Min Ant System (Hệ kiến MMAS) SMMAS Smooth-Max Min Ant System (Hệ kiến MMAS trơn) TSP Travelling Salesman Problem (Bài toán người chào hàng) TƯTH Tối ưu tổ hợp IDS Intrusion Detection System DoS Denial of Service (Tấn công từ chối dịch vụ) 10 U2R User to Root (Tấn công chiếm quyền điều khiển) 11 U2L Remote to Local (Tấn công điều khiển từ xa) 12 IDS Intrusion Detection Systems (Hệ thống phát xâm nhập) 13 SVM Support Vector Machine (Phân lớp SVM) 14 𝜏𝑚𝑎𝑥 Cận vết mùi 15 𝜏𝑚𝑖𝑛 Cận vết mùi 16 𝜏0 Vết mùi khởi tạo ban đầu 17 𝜏𝑖𝑗 Vết mùi cạnh (i,j) 18 3-LAS Hệ kiến mức DANH SÁCH CÁC BẢNG Hình 2.1: Hành vi kiến tự nhiên 21 Hình 2.2: Thực nghiệm cầu đôi 21 Hình 2.3: Thí nghiệm bổ sung 22 Hình 2.4: Lựa chọn đỉnh 24 Hình 3.1: Đồ thị cấu trúc lựa chọn đặc trưng 32 Hình 3.2: Lược đồ chung thuật toán DACS3-FS 35 Bảng 4.1: Các kiểu công liệu Kdd99 (10%) 40 Bảng 4.2: Thuộc tính liệu Kdd99 41 Bảng 4.3: Tham số đầu vào thuật toán SMMAS-FS 42 Bảng 4.4: Các đặc trưng chọn phương pháp lựa chọn đặc trưng khác 43 Bảng 4.5: Bảng so sánh tỷ lệ xác phân lớp 43 Bảng 4.6: Bảng so sánh phương pháp phân lớp 45 DANH SÁCH HÌNH VẼ Hình 2.1: Hành vi kiến tự nhiên 21 Hình 2.2: Thực nghiệm cầu đôi 21 Hình 2.3: Thí nghiệm bổ sung 22 Hình 2.4: Lựa chọn đỉnh 24 Hình 3.1: Đồ thị cấu trúc lựa chọn đặc trưng 32 Hình 3.2: Lược đồ chung thuật toán DACS3-FS 35 Hình 4.1: Biểu đồ so sánh tỷ lệ xác phương pháp………………44 Hình 4.2: Biểu đồ so sánh tỷ lệ xác số đặc trưng lựa chọn…… 44 MỞ ĐẦU Ngày với phát triển Internet ngày mở rộng, vấn đề tin tặc đánh cắp thông tin ngày phổ biến Đặc biệt với thông tin quan trọng nhạy cảm việc phân loại phát loại xâm nhập nhiệm vụ cần thiết Hệ thống phát xâm nhập mạng (IDS) hệ thống giám sát, theo dõi, thu thập thông tin nhằm đưa cảnh báo, biện pháp phát xâm nhập mạng IDS có nhiều cách tiếp cận đơn giản phổ biến dựa vào thống kê Bài toán phát xâm nhập tập thơng tin thực chất tốn phân lớp đưa dự đoán xâm nhập gặp thông tin Một vấn đề thuật tốn phân lớp việc xử lý liệu đầu vào, thông tin dư thừa dẫn đến việc tỷ lệ phát bất thường không xác, kết phân lớp thấp Có thể cải thiện vấn đề liệu đầu vào thuật toán lựa chọn đặc trưng Thuật toán ACO thuật toán tốt sử dụng toán tối ưu hóa tổ hợp Mơ cách tìm đường kiến, thuật toán ACO sử dụng kết hợp thông tin heuristic học tăng cường thông qua vết mùi tạo nên nhờ kiến di chuyển để giải tốn tìm đường đồ thị cấu trúc Việc sử dụng thuật toán ACO để phát xâm nhập nhiều tác giả đề xuất có nhóm tác giả Mehdi Hosseinzadeh Aghdam Peyman Kabiri với đề xuất sử dụng ACO-based Method năm 2016 [18] Tiếp theo nhóm tác giả Helmi Md Rais Tahir Mehmood với đề xuất thuật toán DACS3-FS năm 2018 đề xuất việc cập nhật vết mùi với ba cấp độ Trên sở thuật tốn có tơi xin đề xuất cải tiến cho thuật toán ACO dùng cho phát xâm nhập dùng quy tắc cập nhật vết mùi mà sử dụng phương pháp SMMAS Phương pháp giảm nhược điểm phương pháp MMAS để vết mùi tiến dần 𝜏min sau số bước giảm tính khám phá Cũng nhược điểm đề xuất thuật tốn phải tính tốn, cập nhật vết mùi nhiều lần làm tăng thời gian chạy thuật toán Trong luận văn tơi trình bày lại phương pháp lựa chọn đặc tính phương pháp ACO Khảo cứu phương pháp DACS3-FS Helmi Md Rais cộng đề xuất năm 2018 coi tối ưu cho tốn Sử dụng ý tưởng nhóm tác giả [8] đề xuất phương pháp cập nhật vết mùi cho toán Và chứng minh quy tắc cập nhật vết mùi nhóm tác giả [17] đề xuất năm 2012 có hiệu so với phương pháp 𝑛ế𝑢 𝜏(𝑖, 𝑗) ∈ 𝑡ậ𝑝 𝑘ế𝑡 𝑞𝑢ả 𝑐ụ𝑐 𝑏ộ 𝑡ố𝑡 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 ∆𝜏0 = − 𝑛ế𝑢 𝜏(𝑖, 𝑗) ∈ 𝑡ậ𝑝 𝑘ế𝑡 𝑞𝑢ả 𝑐ụ𝑐 𝑏ộ 𝑘ℎô𝑛𝑔 𝑡ố𝑡 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 { 𝑐ò𝑛 𝑙ạ𝑖  Cập nhật vết mùi toàn cục Việc cập nhật lại vết mùi sau kiến thăm đỉnh bước trung gian không đủ giải pháp tốt, chưa đủ để thể mối tương quan đặc trưng lớp Do cần bước để cập nhật lại tối ưu hóa tốn cho giải pháp vết mùi tốt cập nhật lại vết mùi bước toàn cục Việc giúp việc khởi tạo lại vết mùi ta có đặc trưng tốt Cơng thức cập nhật vết mùi tồn cục là: 𝜏(𝑖, 𝑗) ← ((1 − 𝜌 𝜏(𝑖, 𝑗) 𝜏(𝑖, 𝑗)) + 𝜌 ∆𝜏0 (3.4) Khi: 𝑛ế𝑢 𝜏(𝑖, 𝑗) ∈ 𝑡ậ𝑝 𝑘ế𝑡 𝑞𝑢ả 𝑡𝑜à𝑛 𝑐ụ𝑐 𝑡ố𝑡 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 ∆𝜏0 = − 𝑛ế𝑢 𝜏(𝑖, 𝑗) ∈ 𝑡ậ𝑝 𝑘ế𝑡 𝑞𝑢ả 𝑡𝑜à𝑛 𝑐ụ𝑐 𝑘ℎơ𝑛𝑔 𝑡ố𝑡 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 { 𝑐ị𝑛 𝑙ạ𝑖 34 3.1.5 Lược đồ chung Thuật tốn DACS3-FS trình bày sơ đồ sau: Hình 3.2: Lược đồ chung thuật tốn DACS3-FS Thuật tốn DACS3-FS có đầu vào tập liệu thông tin tham số Bài toán thực xây dựng đây: Bước 1: Khởi tạo tham số: m số lượng kiến N: số lần lặp p: hệ số bay hơi… Khởi tạo ma trận vết mùi, ma trận thông tin heuristic Bước 2: Thực lặp chưa thỏa mãn điều kiện dừng Với kiến ta tiến hành bước sau: 35 2.1 Khởi tạo kiến nhân tạo đỉnh ngẫu nhiên 2.2 Tìm đỉnh theo công thức (3.1) 2.3 Cập nhật lại vết mùi cục theo công thức (3.2) 2.4 Cập nhật vết mùi theo công thức (3.3) 2.5 Cập nhật vết mùi theo công thức (3.4) 2.6 Cập nhật lời giải tốt Bước 3: Lưu lại lời giải tốt Mơ tả thuật tốn DACS3-FS Thuật tốn 3.1: Thuật tốn DACS3-FS Input: Ma trận tham số heuristic Các tham số: m kiến, N lần lặp, ρ hệ số bay hơi… Output: Đường tốt K Begin Khởi tạo ma trận thông tin heuristic; Khởi tạo ma trận vết mùi m kiến (A); while (Chưa thỏa mãn điều kiện dừng) for each kiến a A chọn đỉnh theo công thức (3.1); cập nhật vết mùi cục (3.2); end for; Lưu lại thông tin lời giải; Cập vết mùi trung gian (3.3); Cập nhật vết mùi toàn cục (3.4); end while; Ghi lại lời giải tốt nhất; End; 36 3.2 Thuật toán SMMAS-FS Trên sở thuật tốn DACS3-FS trình bày nhận thấy việc tính tốn cập nhập lại vết mùi nhiều lần nhiều thời gian thực thuật toán việc thay đổi chưa thực tối ưu, tơi đề xuất cập quy tắc cập nhật vết mùi dựa lượng vết mùi giới hạn khoảng [𝜏𝑚𝑖𝑛 , 𝜏𝑚𝑎𝑥 ] Trong quy tắc cập nhật mùi ta khơng cần tìm xác giá trị 𝜏𝑚𝑖𝑛 , 𝜏𝑚𝑎𝑥 mà cần xác đỉnh tỷ lệ chúng Trong thuật toán đề xuất SMMAS-FS, chọn tỉ lệ 𝜏𝑚𝑎𝑥 𝜏𝑚𝑖𝑛 đặt 𝑁 𝑘, 𝑁+50 với 𝑘 = { 100 𝑛ế𝑢 𝑁 ≥ 50 , 𝑁 số đỉnh 𝑛ế𝑢 𝑁 < 50 3.2.1 Quy tắc cập nhật vết mùi Sau lần lặp cập nhật lại vết mùi lần theo quy tắc cải tiến Maxmin trơn.[2.4.5.4] sau: (3.5) Cũng thuật toán ta sử dụng hàm classifier performance để làm thơng tin heuristic cho ACO Nói cách khác độ xác tệp đặc trưng tệp huấn luyện coi thông tin heuristic cho đặc trưng 37 3.2.2 Lược đồ thuật toán (1) Bắt đầu (2) Khởi tạo tham số: số kiến, số lần lặp, hệ số bay hơi, cận vết mùi, cận vết mùi (3) Khởi tạo kiến đỉnh (4) Kiến xây dựng đường cách chọn đỉnh theo công thức 3.1 (5) Đánh giá lại kết giải pháp cách thử độ xác thuật toán phân lớp với đặc trưng giải pháp vừa đạt sau trình kiến chọn đỉnh Lưu lại kết tốt (6) Kiểm tra số đỉnh kiến thăm, đỉnh chưa thăm tiếp tục lại bước (4) Nếu khơng chuyển sang bước (7) (7) Cập nhật vết mùi theo công thức 3.5 38 (8) Kiểm tra điều kiện dừng số lần lặp thuật toán: Nếu thỏa mãn đưa kết tốt Nếu không lặp lại bước (3) (9) Kết thúc: đưa kết tốt Sơ đồ thuật toán viết lại: Thuật toán 3.1: Thuật toán SMMAS-FS Input: Ma trận tham số heuristic Các tham số: m kiến, N lần lặp, ρ hệ số bay hơi, τmin, τmax Output: Đường tốt K Begin Khởi tạo ma trận thông tin heuristic; Khởi tạo ma trận vết mùi m kiến (A); while (Chưa thỏa mãn điều kiện dừng) for each kiến a A chọn đỉnh theo công thức (3.1); end for; Lưu lại thông tin lời giải; Cập nhật vết mùi toàn cục (3.5); end while; Ghi lại lời giải tốt nhất; End; 3.2.3 Lựa chọn lời giải tốt Việc lựa chọn lời giải tốt xác định việc so sánh tỷ lệ xác lời giải tìm kiến di chuyển thị Việc tính tốn so sánh tỷ lệ xác thực thuật tốn phân lớp như: Nạve Bayes, Decision Tree, SVM… 3.3 Áp dụng toán phát xâm nhập Như trình bày toán phát xâm nhập dựa vào tiếp cận thống kê toán phân lớp Thuật toán DACS3-FS SMMAS-FS sử dụng để trích chọn đặc trưng tốt tập liệu huấn luyện từ nâng cao hiệu phân lớp toán phát xâm nhập 39 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH, ĐÁNH GIÁ 4.1 Tiến hành thực nghiệm 4.1.1 Dữ liệu đầu vào - Bộ liệu KDD cup 1999 sử dụng Cuộc thi công cụ khai thác liệu khám phá tri thức quốc tế lần thứ để xây dựng chương trình phát xâm nhập mạng, mơ hình dự đốn có khả phân biệt xâm nhập kết nối thông thường Được công bố địa chỉ: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html - trích dẫn ngày 10/08/2020) - Mặc dù tập liệu cũ có nhiều kết đo hiệu thích hợp để so sánh mơ hình - Tập liệu có 4.898.431 traffic mạng Mỗi traffic có 42 chiều chiều bao gồm giao thức dịch vụ cờ, gồm kiểu công phổ biến: Main Attack Classes 22 Attacks Classes Samples Normal 97277 Denial of Service(DoS) back, land, Neptune , pod, smurt , teardrop 391458 Remote to User(R2L) ftp _write, guess _passwd , imap ,multihop, phf, spy, warezclient, warezmaster 1126 User to Root(U2R) buffer_overflow,perl,load module, rootkit 52 Probing ipsweep, nmap, portsweep, satan 4107 Bảng 4.1: Các kiểu công liệu Kdd99 (10%) TT Attributes name Type 21 Is_host_login Dis Duration Con 22 Is_guest_login Dis Protocol_type Dis 23 Coun Con 40 Service Dis 24 Srv_count Con Flag Dis 25 Serror_rate Con Src_bytes Con 26 Srv_serror_rate Con Dst_bytes Con 27 Rerror_rate Con Land Dis 28 Srv_rerror_rate Con Wrong_fragment Con 29 Same_srv_rate Con Urgent Con 30 Diff_srv_rate Con 10 Hot Con 31 Srv_diff_host_rate Con 11 Num_failed_logins Con 32 Dst_host_count Con 12 Logged_in Con 33 Dst_host_srv_count Con 13 Num_compromised Con 34 Dst_host_same_srv_rate Con 14 Root_shell Con 35 Dst_host_diff_srv_rate Con 15 Su_attempted Con 36 Dst_host_same_src_port_rate Con 16 Num_root Con 37 Dst_host_srv_diff_host_rate Con 17 Num_file_creation Con 38 Dst_host_serror_rate Con 18 Num_shells Con 39 Dst_host_srv_serror_rate Con 19 Num_access_files Con 40 Dst_host_rerror_rate Con 20 Num_outbound_cmds Con 41 Dst_host_srv_rerror_rate Con Bảng 4.2: Thuộc tính liệu Kdd99 Để dễ dàng cho việc so sánh phân lớp ta chia tệp liệu thành loại: Normal (bình thường) Attack (tấn cơng)  Tiền xử lý liệu Bộ liệu KDD99 tiền xử lý sau: - Tiến hành chuẩn hóa liệu phi cấu trúc như: Protocol_type, Flag, Service… - Đưa liệu khoản [0;1] cách sử dụng phương pháp Rescaling 41 4.1.2 Cấu hình sử dụng thực nghiệm Các thuật toán thực nghiệm thực ngôn ngữ python version 3.7 chạy máy tính cài đặt hệ điều hành window 10, xử lý CORE I5, 16GB RAM Các thuật toán so sánh chạy máy tính, liệu với điều kiện thực nghiệm 4.1.3 Các tham số đầu vào Chương trình thực nghiệm sử dụng tham số đầu vào sau: STT Tham số Giải thích Giá trị N Số đỉnh = số thuộc tính 41 m Số kiến = round(N/2) 21 α Hệ số α β Hệ số β ρ Tham số bay 0.05 So_lan_lap_toi_da Số lần di chuyển kiến So_lan_chay Số lần lặp tối đa hệ kiến τmax/τmin Tỷ lệ vết mùi max N*k 10 Bảng 4.3: Tham số đầu vào thuật toán SMMAS-FS Trong thuật toán đề xuất SMMAS-FS, chọn tỉ lệ 𝑁+50 { 100 𝜏𝑚𝑎𝑥 𝜏𝑚𝑖𝑛 đặt 𝑁 𝑘, với 𝑘 = 𝑛ế𝑢 𝑁 ≥ 50 , 𝑁 số đỉnh 𝑛ế𝑢 𝑁 < 50 4.2 Kết chạy thực nghiệm 4.2.1 So so sánh với thuật toán DACS3-FS  Trong báo [8] thông số thực nghiệm cài đặt sau: - Sử dụng liệu KDD99 (10%) với 494020 ghi cho tập training, tập liệu test gồm 311029 ghi - Sử dụng SVM để xác định độ xác tập chọn - Thơng số cấu hình i7, window 10, 16GB RAM 42 Tiến hành cài đặt với thông số tương tự với thuật toán SMMAS-FS ta cho kết sau: Thuật toán Đặc trưng IC Rough Set 2, 5, 8, 10, 14, 15, 19, 26, 27, 30, 31, 32, 33, 34, 35, 36, 37, 38, 40 5, 6, 23, 24, 32, 33, 36 MC 2, 3, 8, 13, 20, 24, 32, 37, 37, 39, 40 GA 2, 3, 4, 5, 6, 10, 12, 23, 25, 29, 30, 35, 36, 37, 38, 40 KDD99 41 DACS3-FS 2, 3, 5, 6, 23, 33 SMMAS-FS 1, 6, 8, 40, 38, 10, 7, 39, 37, 13, 36, 35, 31, 32, 30, 33, 18, 17, 34, 27, 29, 26 Bảng 4.4: Các đặc trưng chọn phương pháp lựa chọn đặc trưng khác Thuật tốn Số đặc trưng Tỷ lệ xác% IC 19 97.6348 (*) Rough Set 98.0191 (*) MC 10 95.9747 (*) GA 17 98.3645 (*) KDD99 41 98.5172 (*) DACS3-FS 98.7087 (*) SMMAS-FS 22 98.9440 Bảng 4.5: Bảng so sánh tỷ lệ xác phân lớp (*) Các thông số kết lấy từ báo [8] dùng để so sánh 43 Biểu đồ so sánh tỷ lệ xác phương pháp 99.5000 99.0000 98.5000 98.0000 97.5000 97.0000 96.5000 96.0000 95.5000 95.0000 94.5000 94.0000 IC Rough Set MC GA KDD99 DACS3-FS SMMAS-FS Hình 4.1: Biểu đồ so sánh tỷ lệ xác phương pháp 45 99.5000 40 99.0000 98.5000 35 98.0000 30 97.5000 25 97.0000 20 96.5000 96.0000 15 95.5000 10 95.0000 94.5000 94.0000 IC Rough Set MC GA Số đặc trưng KDD99 DACS3-FS SMMAS-FS Tỷ lệ xác% Hình 4.2: Biểu đồ so sánh tỷ lệ xác số đặc trưng lựa chọn 4.2.2 Thử với thực nghiệm khác Thử nghiệm với phương pháp phân lớp khác Phương pháp Naïve Bayes Decision Tree SVM Lần 98.4351 98.7682 98.9958 Lần 98.4291 98.7367 98.9650 Số lần 44 Lần 98.7201 98.8597 98.8916 Lần 98.6571 98.8687 98.9236 Trung bình 98.5603 98.8687 98.9440 Bảng 4.6: Bảng so sánh phương pháp phân lớp 4.3 Nhận xét Dựa kết thực nghiệm bảng 4.5 ta thấy phương pháp đề xuất thuật toán SMMAS-FS cho tỷ lệ xác phân lớp tốt Căn vào độ khó thực thuật tốn tơi đưa đánh giá thuật toán SMMAS-FS cho thời gian thực nhanh có tính tốn đơn giản cập nhật vết mùi Từ biểu đồ 4.1 4.2 ta có nhận xét: - Số lượng đặc trưng tìm phương pháp DACS3-FS - Phương pháp MC cho độ xác thấp - Phương pháp SMMAS-FS cho kết độ xác cao Thực nghiệm thêm với phương pháp phân lớp khác bảng 4.6 đưa nhận xét: - Thuật toán SVM cho kết tốt thời gian chạy lâu - Thuật toán Nạve Bayes cho kết khơng tốt có thời gian chạy ngắn - Thuật toán định cho kết tốt thời gian chạy độ xác 4.4 Hướng nghiên cứu Nghiên cứu tích hợp phương pháp vào hệ thống phát xâm nhập sử dụng doanh nghiệp nơi làm việc Thuật tốn SMMAS-FS tiếp tục cải tiến kỹ thuật như: đặt lại vết mùi, tìm kiếm địa phương… 45 KẾT LUẬN Trong thời đại internet việc lấy trộm, phá hoại thông tin ngày diễn phổ biến với nhiều hình thức tinh vi hình thức phát xâm nhập phải ngày cải tiến để xử lý tốt vấn đề Phương pháp tối ưu hóa đàn kiến toán quan trọng thực tiễn việc kết hợp thuật tốn ACO với việc trích chọn tiền xử lý liệu cho thấy ưu điểm trội sau đây: - Việc tìm kiếm ngẫu nhiên dựa thông tin heuristic cho phương án tối ưu nhờ linh hoạt mềm dẻo, tìm kiếm miền rộng - Sử dụng thuật tốn đàn kiến cho việc trích chọn đặc trưng toán phát xâm nhập cho hiệu tốt giúp tìm kiếm đặc tính tốt, giảm thời gian phân lớp liệu sử dụng liệu gốc, loại bỏ đặc trưng gây nhiễm liệu Qua thực nghiệm thấy rõ thuật toán SMMAS-FS luận văn đề xuất sử dụng phương pháp cập nhật vết mùi SMMAS cho kết độ xác phân lớp tốt thời gian thực ngắn so với nghiên cứu Helmi Md Rais cộng Tùy vào nhu cầu cụ thể sử dụng thuật toán phân lớp khác việc đánh giá tập kết như: SVM, Naïve Bayes, Decision Tree… Tuy nhiên cịn số khó khăn việc xây dựng triển khai thuật toán như: - Đầu vào liệu lớn chiếm nhiều tài nguyên hệ thống, cần máy tính có cấu hình cao cần thời gian nhiều để thực 46 TÀI LIỆU THAM KHẢO H Hoang Xuan, D Do Duc, N Manh Ha: An Efficient Two-Phase Ant Colony Optimization Algorithm for the Closest String Problem.SEAL 2012: 188197 [2] H Hoang Xuan, T Nguyen Linh, D Do Duc, H Huu Tue, Solving the Traveling Salesman Problem with Ant Colony Optimization: A Revisit and New Efficient Algorithms, REV Journal on Electronics and Communications, Vol 2, No 3–4, July – December, 2012, 121-129 [3] Jimmy Ming-Tai Wu, Justin Zhan, Jerry Chun-Wei Lin An ACO-based approach to mine high-utility itemsets Knowledge-Based Systems Volume 116, 15 January 2017, Pages 102–113 [4] Y Liu , W.k Liao , A Choudhary , A two-phase algorithm for fast discovery of high utility itemsets, in: Advances in Knowledge Discovery and Data Mining, 2005, pp 689–695 [5] R.C Chan, Q Yang, Y.D Shen, Mining high utility itemsets, in: IEEE Interna- tional Conference on Data Mining, 2003, pp 19–26 [6] S Kannimuthu, K Premalatha, Discovery of high utility itemsets using genetic algorithm with ranked mutation, Appl Artif Intell 28 (4) (2014) 337– 359 [7] Marco Dorigo, Thomas Stützle: Ant Colony Optimization 2004, pp.121151 [8] Helmi Md Rais, Tahir Mehmood: Dynamic Ant Colony System with Three Level Update Feature Selection for Intrusion Detection, International Journal of Network Security, Vol.20, No.1, PP.184-192, Jan 2018 [9] Daniel Angus, Tim Hendtlass: Dynamic Ant Colony Optimisation 2005 [10] S Krishnamoorthy, Pruning strategies for mining high utility itemsets, Expert Syst Appl 42 (5) (2015) 2371–2381 [11] M Dorigo, V Maniezzo, A Colorni, Ant system: optimization by a colony of cooperating agents, IEEE Trans Syst Man Cybern Part B 26 (1) (1996) 29– 41 [12] J.C.W Lin, W Gan, P Fournier-Viger, T.P Hong, Mining high-utility itemsets with multiple minimum utility thresholds, in: International C∗ Conference on Computer Science & Software Engineering, 2015, pp 9–17 [13] A Colorni, M Dorigo, V Maniezzo, Distributed optimization by ant colonies, in: The first European conference on artificial life, 142, 1991, pp 134– 142 [1] 47 R Cattral, F Oppacher, K Graham, Techniques for evolutionary rule discovery in data mining, in: IEEE Congress on Evolutionary Computation, 2009, pp 1737–1744 [15] Jimmy Ming-Tai Wu, Justin Zhan, Jerry Chun-Wei Lin, An ACO-based approach to mine high-utility itemsets, Knowledge-Based Systems, Volume 116, 15 January 2017, Pages 102–113 [16] Y Li and S Gong, “Dynamic ant colony optimisation for tsp,” The International Journal of Advanced Manufacturing Technology, vol 22, no 7-8, pp 528– 533, 2003 [17] Hoang Xuan Huan, Nguyen Linh-Trung, Do Duc Dong, Huu-Tue Huynh, Solving the Traveling Salesman Problem with Ant Colony Optimization: A Revisit and New Efficient Algorithms, Journal on Electronics and Communications, Vol 2, No 3–4, July – December, 2012 [18] Mehdi Hosseinzadeh Aghdam, Peyman Kabiri: Feature Selection for Intrusion Detection System Using Ant Colony Optimization, International Journal of Network Security, Vol.18, No.3, PP.420-432, May 2016 [19] M Dorigo, V Maniezzo, A Colorni, Ant system: optimization by a colony of cooperating agents, IEEE Trans Syst Man Cybern Part B 26 (1) (1996) 29– 41 [14] 48 ... DỤNG PHƯƠNG PHÁP TỐI ƯU HĨA ĐÀN KIẾN TRONG BÀI TỐN PHÁT HIỆN XÂM NHẬP Hệ thống phát xâm nhập (IDS) chứng minh có hiệu chống lại công mạng Phương pháp tốt để chống lại công phương pháp phát xâm nhập. .. sâu vào phương pháp tối ưu hóa đàn kiến (ACO) đề xuất để giải toán phát xâm nhập 2.4 Phương pháp tối ưu đàn kiến 2.4.1 Kiến tự nhiên Khi tìm đường từ tổ tới nguồn thức ăn ngược lại kiến để lại... 1: Giới thiệu phát xâm nhập khái niệm hướng tiếp cận toán phát xâm nhập Chương 2: Giới thiệu tối ưu hóa tổ hợp tốn tối ưu hóa đàn kiến, cách tiếp cận, phương pháp tối ưu hóa đàn kiến Chương 3:

Định dạng
Số trang	49
Dung lượng	1,4 MB