1. Trang chủ
  2. » Công Nghệ Thông Tin

Phát hiện xâm nhập, các dang tấn công, mã độc, sử dụng kỹ thuật khai phá dữ liệu

95 392 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 3,15 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - HÀ MINH ĐỨC PHÁT HIỆN XÂM NHẬP, CÁC DẠNG TẤN CÔNG, MÃ ĐỘC, SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ KỸ THUẬT NGƢỜI HƢỚNG DẪN LUẬN VĂN: PGS.TS Nguyễn Linh Giang Hà Nội – Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - HÀ MINH ĐỨC PHÁT HIỆN XÂM NHẬP, CÁC DẠNG TẤN CÔNG, MÃ ĐỘC, SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU Chuyên ngành: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Linh Giang Hà Nội – Năm 2016 LỜI CAM ĐOAN Luận văn thạc sĩ nghiên cứu thực dƣới hƣớng dẫn Thầy giáo PGS.TS Nguyễn Linh Giang Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên làm luận văn cách nghiêm túc hoàn toàn trung thực Để hoàn thành luận văn này, tài liệu tham khảo liệt kê, cam đoan không chép toàn văn công trình thiết kế tốt nghiệp ngƣời khác Hà Nội, tháng 10 năm 2016 Học viên HÀ MINH ĐỨC Học viên: Hà Minh Đức i Luận văn thạc sĩ LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn xâu sắc Thầy giáo PGS TS Nguyễn Linh Giang viện công nghệ thông tin Truyền Thông, trực tiếp hƣớng dẫn , định hƣớng phân tích cụ thể gắn gọn cho nghiên cứu hoàn thành luận văn cao học Tôi xin gửi lời cảm ơn chân thành tới Phòng đào tạo sau đại học Thầy cô giáo viện công nghệ thông tin truyền thông - Trƣờng Đại Học Bách Khoa Hà Nội giảng dạy, truyền đạt tạo điều kiện học hỏi, học tập tốt cho suốt trình học cao học nhƣ thời gian thực luận văn cao học Luận văn xin đƣợc cảm ơn với ngƣời thân gia đình tôi, mẹ tôi, vợ tôi, anh trai tôi, bạn bè bạn đồng môn lớp cao học 13BCNTT1 Học viên: Hà Minh Đức ii Luận văn thạc sĩ MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii BẢNG CÁC TỪ VIẾT TẮT, KÝ HIỆU v THÔNG TIN HÌNH VẼ / BẢNG vi MỞ ĐẦU CHƢƠNG TÌM HIỂU HỆ THỐNG PHÁT HIỆN XÂM NHẬP IDS, CÁC DẠNG TẤN CÔNG MÃ ĐỘC 1.1 LỊCH SỬ RA ĐỜI IDS 1.2 GIỚI THIỆU HỆ THỐNG IDS 1.2.1 Một hệ thống IDS bao gồm thành phần .4 1.2.2 Phân loại hệ thống IDS 1.3 CHỨC NĂNG CỦA IDS 1.4 KIẾN TRÚC CỦA IDS 1.4.1 Nguyên lý hoạt động nhiệm vụ thực .8 1.4.2 Kiến trúc thành phần hệ thống phát xâm nhập IDS 1.5 PHÂN BIỆT NHỮNG HỆ THỐNG KHÔNG PHẢI LÀ IDS 10 1.6 LỢI ÍCH CỦA IDS: 10 1.7 CÁC DẠNG TẤN CÔNG XÂM NHẬP MẠNG 11 1.7.1 Phƣơng thức ăn cắp thống tin Packet Sniffers .11 1.7.2 Phƣơng thức công mật Password attack 11 1.7.3 Phƣơng thức công Mail Relay 12 1.7.4 Phƣơng thức công hệ thống DNS .12 1.7.5 Phƣơng thức công Man-in-the-middle attack 12 1.7.6 Phƣơng thức công để thăm dò mạng 12 1.7.7 Phƣơng thức công Trust exploitation .13 1.7.8 Phƣơng thức công Port redirection 13 1.7.9 Phƣơng thức công lớp ứng dụng 13 1.7.10 Phƣơng thức Virus Trojan Horse 13 Học viên: Hà Minh Đức iii Luận văn thạc sĩ 1.8 MÃ ĐỘC 14 1.8.1 Mã độc gì? 14 1.8.2 Phân loại 14 1.8.3 Phòng tránh mã độc 14 1.9 KẾT CHƢƠNG 16 CHƢƠNG KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN CỤM 17 2.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 17 2.2 CÁC MÔ HÌNH KHAI PHÁ DỮ LIỆU .22 2.3 BÀI TOÁN PHÂN CỤM DỮ LIỆU 23 2.3.1 Tổng quan kỹ thuật phân cụm .23 2.3.2 Các kỹ thuật phân cụm liệu 23 2.4 KẾT CHƢƠNG 26 CHƢƠNG PHƢƠNG PHÁP PHÁP HIỆN XÂM NHẬP, SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU .27 3.1 PHÁT HIỆN XÂM NHẬP DỰA TRÊN THUẬT TOÁN K-MEANS 27 3.1.1 Thuật toán K-means 27 3.1.2 Thuật toán K-means với phát xâm nhập .35 3.1.3 Xây dựng thử nghiệm việc pháp xâm nhập mạng dựa thuật toán K-Means 45 3.1.4 Kết thực nghiệm đánh giá .58 3.2 PHÁP HIỆN XÂM NHẬP MẠNG VỚI THUẬT TOÁN PHÂN CỤM KMEDOIDS .63 3.2.1 Thuật toán phân cụm K-Medoids .63 3.2.2 Thuật toán K-Medoids với phát xâm nhập 69 3.2.3 Kết thực nghiệm đánh giá .71 3.3 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU 79 3.3.1 Kết luận .80 3.3.2 Hƣớng nghiên cứu 80 TÀI LIỆU THAM KHẢO 81 PHỤ LỤC……………………………………………………………………………… 93 Học viên: Hà Minh Đức iv Luận văn thạc sĩ BẢNG CÁC TỪ VIẾT TẮT, KÝ HIỆU Từ viết tắt Đầy đủ tiếng Anh Tiếng Việt ACK Acknowledgement Xác nhận ANN Artificial Neural Network Mạng Neuron nhân tạo CSDL Database Cơ sở liệu DoS Denial of Service Tấn công từ chối dịch vụ FSM Finite states machine Máy trạng thái hữu hạn Host-based Intrusion Hệ thống phát truy cập cho máy Detection System trạm Internet Control Message Giao thức thông báo điều khiển Protocol innernet Instrusion Detection System Hệ thống phát truy cập trái phép IP Internet Protocol Giao thức Internet IPS Intrusion Prevension System Hệ thống ngăn chặn truy cập trái phép HIDS ICMP IDS KDD Knowledge Discovery in Khám phá tri thức CSDL Database KPDL data mining Khai phá liệu LAN Local area network Mạng cục NIDS Network-based Intrusion PCDL Data Clustering R2L Remote to Local SNMP TCP Hệ thống phát truy cập cho mạng Detection System Phân cụm liệu Dạng công điều khiển từ xa vào máy tính cục Simple Network Giao thức quản lý mạng đơn giản Management Protocol Transmission Control Giao thức truyền liệu TCP Protocol TTL Time to Live Thiết lập thời gian tồn datagram U2R User to Root Dạng công vào thƣ mục gốc UDP User Datagram Protocol Giao thức gói ngƣời dùng Học viên: Hà Minh Đức v Luận văn thạc sĩ THÔNG TIN HÌNH VẼ HÌNH 1.1: HỆ THỐNG NETWORK-BASED INTRUSION DETECTION HÌNH 1.2: HỆ THỐNG HOST-BASED INTRUSION DETECTION .5 HÌNH 1.3: KẾT HỢP NIDS VÀ HIDS HÌNH 1.4: HOẠT ĐỘNG CỦA IDS HÌNH 1.5: MÔ HÌNH KIẾN TRÚC HỆ THỐNG PHÁT HIỆN XÂM NHẬP (IDS) .9 HÌNH 2.1: CÁC CHIẾN LƢỢC PHÂN CỤM PHÂN CẤP 25 HÌNH 3.1: VÍ DỤ VỀ PHÂN NHÓM ĐỐI TƢỢNG 27 HÌNH 3.2: CÁCH THIẾT LẬP ĐỂ XÁC ĐỊNH RANH GIỚI CÁC CỤM BAN ĐẦU 28 HÌNH 3.3: MÔ TẢ ĐỘ KHOẢNG CÁCH GIỮA CÁC ĐỐI TƢỢNG 29 HÌNH 3.4: SƠ ĐỒ THUẬT TOÁN PHÂN NHÓM K-MEANS .31 HÌNH 3.5: MÔ HÌNH HỆ THỐNG PHÁP HIỆN BẤT THƢỜNG 39 HÌNH 3.6: BỐN QUAN HỆ CỦA MỘT CUỘC TẤN CÔNG .42 HÌNH 3.7: MÔ TẢ HOẠT ĐỘNG CỦA MÔ ĐUN TỔNG HỢP 43 HÌNH 3.8: GIẢM SỐ BẢN GHI CHO FILE ĐẦU VÀO CỦA CHƢƠNG TRÌNH 49 HÌNH 3.9: XEM VÀ CHỈNH SỬA CHO FILE ĐẦU VÀO CỦA CHƢƠNG TRÌNH NẾU CẦN 50 HÌNH 3.10: DỮ LIỆU CỦA CHƢƠNG TRÌNH MỞ BẰNG NOTEPAD .50 HÌNH 3.11: GIAO DIỆN CHỌN BỘ DỮ LIỆU .52 HÌNH 3.12: HIỂN THỊ CHI TIẾT DỮ LIỆU ĐẦU VÀO 53 HÌNH 3.13: THỰC HIỆN THUẬTT TOÁN K-MEANS 53 HÌNH 3.14: HIỆU CHỈNH THAM SỐ PHÂN CỤM 54 HÌNH 3.15: DỮ LIỆU ĐẦU VÀO WEKA 3.8 CỦA 10% KDD CUP99 VỚI 42 THUỘC TÍNH 55 HÌNH 3.16: DỮ LIỆU ĐẦU VÀO WEKA-3-8-0JRE CỦA 10% KDD CUP99 VỚI 38 THUỘC TÍNH .57 Học viên: Hà Minh Đức vi Luận văn thạc sĩ HÌNH 3.17: KẾT QUẢ ĐÁNH GIÁ PHÂN CỤM THUẬT TOÁN K-MEANS TRÊN WAKA 3.8 .58 HÌNH 3.18: MÃ GIẢ ĐỂ MÔ TẢ THUẬT TOÁN 70 HÌNH 3.19: CÀI ĐẶT MỘT SỐ THUẬT TOÁN XỬ LÝ CHÍNH BẰNG NGÔN NGỮ C# 71 Học viên: Hà Minh Đức vii Luận văn thạc sĩ THÔNG TIN BẢNG BẢNG 3.1: DANH SÁCH CÁC CẢNH BÁO CHƢA RÚT GỌN 44 BẢNG 3.2: DANH SÁCH CÁC CẢNH BÁO SAU KHI ĐÃ RÚT GỌN 45 BẢNG 3.3: CÁC THUỘC TÍNH CƠ BẢN (NHÓM NÀY CHỨA TẤT CẢ CÁC THUỘC TÍNH CÓ ĐƢỢC TỪ MỘT KẾT NỐI TCP / IP) CONTINUOUS: LIÊN TỤC, DISCRETE: RỜI RẠC .47 BẢNG 3.4: CÁC THUỘC TÍNH LƢU THÔNG (NHÓM NÀY BAO GỒM CÁC THUỘC TÍNH MÀ NÓ ĐƢỢC TÍNH TOÁN VỚI KHOẢNG THỜI GIAN MỘT CỬA SỔ) 47 BẢNG 3.5: CÁC THUỘC TÍNH NỘI DUNG 48 BẢNG 3.6: CÁC DẠNG TẤN CÔNG THỰC TẾ CỦA DỮ LIỆU ĐẦY ĐỦ KDD CUP99 59 BẢNG 3.7: DỮ LIỆU THỰC NGHIỆM BAN ĐẦU 10% KDD CUP99 60 BẢNG 3.8: THỐNG KÊ KẾT QUẢ PHÂN CỤM K-MEANS .61 BẢNG 3.9: KẾT QUẢ PHÂN CỤM 62 BẢNG 3.10: BẢNG ĐÁNH GIÁ KHẢ NĂNG PHÁT HIỆN XÂM NHẬP KMEANS 62 BẢNG 3.11: CÁC DẠNG TẤN CÔNG THỰC TẾ CỦA DỮ LIỆU ĐẦY ĐỦ KDD CUP99 72 BẢNG 3.12: DỮ LIỆU THỰC NGHIỆM BAN ĐẦU 10% KDD CUP99 73 BẢNG 3.12: BẢNG DỮ LIỆU KẾT QUẢ K-MEDOIDS .77 BẢNG 3.13: KẾT QUẢ ĐÁNH GIÁ TỔNG HỢP 78 BẢNG 3.14: ĐÁNH GIÁ KHẢ NĂNG PHÁT HIỆN XÂM NHẬP K-MEDOIDS…… 78 Học viên: Hà Minh Đức viii Luận văn thạc sĩ if (isChanged == false) //Nếu duyệt qua tất cụm mà thay đổi phần tử trọng tâm break; //thì kết thúc (end while) } while (true); SaveClusters(); //Lưu cụm liệu kết } Hình 3.19: Cài đặt số thuật toán xử lý ngôn ngữ C# 3.2.3 Kết thực nghiệm đánh giá  Kết thực nghiệm Để kiểm tra thực tế, tác giả cài đặt thuật toán ngôn ngữ lập trình C# với tập liệu đƣợc lƣu trữ Hệ quản trị CSDL SQL Server Mỗi kết nối (38 thuộc tính), tác giả bổ sung thuộc tính Cluster để xác định kết nối thuộc nhóm 23 nhóm cần phân cụm, thuộc tính ID để xác định xác kết nối thứ 494.021 kết nối, thuận lợi cho việc cập nhật điều chỉnh số hiệu cụm Tập liệu kdd cup 99 đầy đủ nhƣ sau: Dạng công STT Số lƣợng kết nối normal - kết nối bình thƣờng back buffer_overflow ftp_write guess_passwd 53 imap 12 ipsweep land loadmodule 10 multihop 11 neptune 12 nmap Học viên: Hà Minh Đức 972,781 2,203 30 12,481 21 1,072,017 2,316 71 Luận văn thạc sĩ 13 perl 14 phf 15 pod 264 16 portsweep 17 rootkit 18 satan 15,892 19 smurf 2,807,886 20 spy 21 teardrop 22 warezclient 23 warezmaster 10,413 10 979 1,020 20 Tổng số kết nối 4,898,431 Bảng 3.11: Các dạng công thực tế liệu đầy đủ KDD cup99 Tập liệu thực nghiệm ban đầu nhƣ sau (10% Kdd Cup 99): Dạng công STT Số lƣợng kết nối normal back buffer_overflow ftp_write guess_passwd 53 imap 12 ipsweep land loadmodule 10 multihop 11 neptune 12 nmap Học viên: Hà Minh Đức 97278 2203 30 1247 21 107201 231 72 Luận văn thạc sĩ 13 perl 14 phf 15 pod 264 16 portsweep 17 rootkit 18 satan 1589 19 smurf 280790 20 spy 21 teardrop 22 warezclient 23 warezmaster 1040 10 979 1020 20 Tổng số kết nối 494021 Bảng 3.12: Dữ liệu thực nghiệm ban đầu 10% KDD cup99 Bảng liệu kết K-Medoids chạy đến hội tụ: Cluster A42 buffer_overflow back 14 14 ftp_write back 2189 multihop buffer_overflow normal 1750 buffer_overflow 12 1 portsweep buffer_overflow 16 1 warezclient 60 buffer_overflow normal 172 buffer_overflow 8 back 2189 buffer_overflow 16 warezmaster ftp_write buffer_overflow 16 ftp_write normal 114 ftp_write warezclient 275 ftp_write 10 satan ftp_write 20 normal 2881 ftp_write 21 Học viên: Hà Minh Đức SL A42 73 Cluster Luận văn thạc sĩ SL spy ftp_write 16 guess_passwd guess_passwd 4 buffer_overflow guess_passwd 52 loadmodule imap 13 normal 12936 imap 19 normal imap 21 warezmaster 15 imap ftp_write ipsweep 10 292 rootkit ipsweep 318 imap ipsweep 637 satan 14 land 21 land 21 loadmodule 19 portsweep 24 loadmodule nmap 47 loadmodule 16 guess_passwd 52 loadmodule 4 teardrop 72 multihop 13 neptune 89 multihop 16 ipsweep 318 multihop 19 warezclient 550 multihop 21 normal 3248 multihop 22 nmap 24 multihop ipsweep 637 neptune 10 13 normal 4444 neptune 89 rootkit neptune 17 48739 warezmaster neptune 15 58360 loadmodule nmap 22 buffer_overflow nmap 20 11 normal 5711 nmap 24 ftp_write nmap 47 Học viên: Hà Minh Đức 74 Luận văn thạc sĩ rootkit nmap 10 59 perl nmap 17 86 normal 9399 normal 10 warezclient normal 18 21 10 ftp_write normal 13 34 10 portsweep normal 114 10 neptune 13 normal 15 124 10 nmap 59 normal 17 162 10 ipsweep 292 normal 172 10 normal 1190 normal 14 1172 11 warezclient 32 normal 10 1190 11 portsweep 77 normal 1750 11 normal 4045 normal 2881 12 buffer_overflow normal 12 3073 12 rootkit normal 3248 12 normal 3073 normal 20 3596 13 multihop normal 11 4045 13 imap normal 4444 13 warezmaster normal 19 4461 13 normal 34 normal 5711 14 back 14 normal 21 7326 14 warezclient 32 normal 9399 14 normal 1172 normal 12936 15 teardrop 16 normal 22 15150 15 portsweep 45 normal 16 16266 15 normal 124 perl 15 satan 1353 phf 19 15 neptune 58360 pod 20 16 warezmaster pod 21 259 Học viên: Hà Minh Đức 75 Luận văn thạc sĩ 16 spy portsweep 1 16 buffer_overflow portsweep 10 16 multihop portsweep 24 16 ftp_write portsweep 15 45 16 loadmodule portsweep 11 77 16 normal 16266 portsweep 17 891 17 nmap 86 rootkit 17 normal 162 rootkit 17 satan 218 rootkit 12 17 teardrop 854 rootkit 19 17 portsweep 891 rootkit 22 17 neptune 48739 rootkit 18 normal 21 rootkit 20 18 smurf 280591 satan 19 rootkit satan 22 19 loadmodule satan 14 19 multihop satan 17 218 19 imap satan 15 1353 19 phf smurf 22 29 19 normal 4461 smurf 21 170 20 ftp_write smurf 18 280591 20 warezmaster spy 20 rootkit spy 16 20 pod teardrop 15 16 20 nmap 11 teardrop 20 37 20 teardrop 37 teardrop 72 20 warezclient 39 teardrop 17 854 20 normal 3596 warezclient 10 21 imap warezclient 21 31 Học viên: Hà Minh Đức 76 Luận văn thạc sĩ 21 ftp_write warezclient 11 32 21 multihop warezclient 14 32 21 warezclient 31 warezclient 20 39 21 smurf 170 warezclient 60 21 pod 259 warezclient 275 21 normal 7326 warezclient 550 22 rootkit warezmaster 22 multihop warezmaster 22 satan warezmaster 13 22 nmap warezmaster 16 22 smurf 29 warezmaster 20 22 normal 15150 warezmaster 15 Bảng 3.12: Bảng liệu kết K-Medoids Kết phân cụm Sau chạy xong thuật toán, 23 cụm kết đƣợc thể nhƣ sau: CỤM Loại công Phát Tổng số kết nối / Tỷ lệ phát / cụm cụm / cụm normal 1,750 1,754 99.8% back 2,189 2,422 90.4% warezclient 275 406 67.7% normal 2,881 2,882 100.0% normal 12,936 12,945 99.9% warezmaster 15 18 83.3% normal 3,248 4,447 73.0% normal 4,444 5,105 87.1% normal 5,711 5,723 99.8% normal 9,399 9,404 99.9% 10 normal 1,190 1,558 76.4% Học viên: Hà Minh Đức 77 Luận văn thạc sĩ 11 normal 4,045 4,154 97.4% 12 normal 3,073 3,075 99.9% 13 normal 34 37 91.9% 14 normal 1,172 1,218 96.2% 15 neptune 58,360 59,898 97.4% 16 normal 16,266 16,274 100.0% 17 neptune 48,739 50,950 95.7% 18 smurf 280,591 280,612 100.0% 19 normal 4,461 4,469 99.8% 20 normal 3,596 3,693 97.4% 21 normal 7,326 7,789 94.1% 22 normal 15,150 15,188 99.7% Bảng 3.13: Kết đánh giá tổng hợp  Đánh giá Loại công Phát Tổng kết nối Tỷ lệ phát normal 96,682 97,278 99.4% back 2,189 2,203 99.4% neptune 107,099 107,201 99.9% smurf 280,591 280,790 99.9% 486,561 494,021 98.5% Bảng 3.14: Đánh giá khả phát xâm nhập K-Medoids Nhìn vào bảng kết phân cụm, thuật toán hiệu với việc phát công dạng smurf với xấp xỉ 100% phát Dạng công tiếp theo, hệ thống phát với độ xác cao, dạng công neptune với 100% phát đúng; dạng công back với 99.4% phát dạng công normal với 99,4% Học viên: Hà Minh Đức 78 Luận văn thạc sĩ Theo kết tổng hợp, số kết nối phát 486,062/494,021, tỷ lệ phát lên đến 98.5% Tỷ lệ pháp sai 1,5% Thời gian chạy thuật toán KMedoids đến hội tụ khoảng ngày máy I5 Ram 4G Win Nếu so sánh với thuật toán K-Means sử dụng công cụ test Weka 3.8, tỷ lệ 98,2%, tỷ lệ pháp sai 1,8%, thời gian thực hết khoảng 2h máy tính có cấu hình CPU @ 2,00 GHZ nhớ Ram GB cho liệu có 494.021 ghi kết nối Từ khẳng định khả pháp xâm nhập thuật toán K-Medoids khả pháp xâm nhập thuật toán K-Means hiệu sấp sỉ ngang thuật toán K-Medoids pháp xác thuật toán KMeans nhƣng thời gian chạy thử nghiệm lâu nhiều lý thuật toán Nhƣng thuật toán K-Medoids sau có kết nối tác giả tính toán khoảng cách đến trọng tâm gần cụm kết luận bình thƣờng hay bất thƣờng thuộc loại công Học viên: Hà Minh Đức 79 Luận văn thạc sĩ KẾT LUẬN Kết luận Trong luận văn tìm hiểu, nghiên cứu số vấn đề sau: - Luận văn tìm hiểu hệ thống pháp xâm nhập IDS, trình bày lý thuyết công mạng kiểu công, mã độc, phƣơng pháp pháp xâm nhập mạng; Tìm hiểu tổng quan khai phá liệu kỹ thuật phân cụm K-Means, K-Medoids để ứng dụng vào việc phát phần tự dị biệt kết nối - Luận văn chạy thử nghiệm thuật toán phân cụm K-Means K-Medoids để minh họa cho việc phân loại kết nối thông thƣờng dị biệt - Kết cài đặt phát số dạng công có phân biệt cao so với kết nối bình thƣờng, ví dụ công smurf phát xác gần nhƣ 100%, nhƣ công dạng neptune phát xác gần nhƣ 100% - Ngoài ta đánh giá, so sánh khả pháp xâm nhập mạng thuật toán K-Medoids Thuật toán K-Means Hƣớng nghiên cứu Trong tƣơng lai đề tài phát triển theo hƣớng nghiên cứu phần thu thập đƣợc trực tiếp ghi kết nối từ mạng, thực phân loại có modul phát đƣợc đâu kết nối thông thƣờng, đâu kết nối dị biệt từ cảnh báo kết nối không an toàn lƣợng ghi kết nối thuộc nhóm dị biệt xuất nhiều Đề tài phát triển theo hƣớng kiểm tra khả phát dạng công khác dựa số thuộc tính đặc trƣng kiểm tra tất thuộc tính số (38 thuộc tính) nhƣ kết mà tác giả cài đặt Đề tài cài đặt thuật toán SOM để so sánh đánh giá khả pháp xâm nhập với thuật toán K-Medoids K-Means Ngoài thuật toán tác giả nghiên cứu, thử nghiệm thuật toán K-means cải tiến việc pháp xâm nhập mạng Học viên: Hà Minh Đức 80 Luận văn thạc sĩ TÀI LIỆU THAM KHẢO C.L Bean, C.Kambhampati (2008), Automonous Clustering Using Rough Set Theory, International Journal of Automation and Computing, Vol.5 (No.1) pp 90-102 ISSN 1476-8186 Đinh Mạnh Cƣờng (2015), Phát xâm nhập dựa thuật toán K-Means, Luận văn thạc sĩ khoa học máy tính, Đại học Thái Nguyên Đỗ Phúc (2006), Giáo trình khai thác liệu, NXB Đại học Quốc gia TP Hồ Chí Minh Jiawei Han, Micheline Kamber (2012), Data Mining: Concepts and Techniques, 3rded, Morgan Kaufmann Mohammad Khubeb Siddiqui and Shams Naahid (2013), Analysis of KDD CUP 99 Dataset using Clustering based Data Mining, International Journal of Database Theory and Application, Vol.6, No.5 (2013), pp.23-34 Oren Zamir and Oren Etzioni (1998), Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM Ulrich Guntzer, Jochen Hipp, Gholamreza (2000), Algorithms for Association Rule Mining – A General Survey and Comparison, ACM SIGKDD Explorations Newsletter, Volume Issue 1, pp 58 - 64 Học viên: Hà Minh Đức 81 Luận văn thạc sĩ PHẦN PHỤ LỤC using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Text; using System.Windows.Forms; using System.Diagnostics; namespace app { public partial class KMedoids_frm : Form { HaMinhDuc.KMedoids o; public KMedoids_frm() { InitializeComponent(); } private void Form1_Load(object sender, EventArgs e) { cboLuotDieuChinh.SelectedIndex = 1; } private void btnKMedoids_Click(object sender, EventArgs e) { o = new HaMinhDuc.KMedoids(cboLuotDieuChinh.SelectedIndex + 1, 38, app.Properties.Settings.Default.kdd_cup99ConnectionString); Clustering(); MessageBox.Show("Đã xong"); Process.Start("db10History.txt"); } public int Clustering() { System.IO.StreamWriter rd = System.IO.File.CreateText("db10History.txt"); rd.WriteLine("Bắt đầu chạy lúc: " + DateTime.Now.ToString("HH:mm dd/MM/yyyy")); rd.WriteLine("Tập liệu có " + o.numTuple.ToString("#,#") + " phần tử"); if (o.numAttrib == 37) rd.WriteLine("Mỗi phần tử xét 37 thuộc tính có giá trị số: src_bytes,dst_bytes,land,wrong_fragment,urgent,hot,num_failed_logins,logged_in,n Học viên: Hà Minh Đức 82 Luận văn thạc sĩ um_compromised,root_shell,su_attempted,num_root,num_file_creations,num_shell s,num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count,srv_co unt,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,same_srv_rate,diff_srv_ra te,srv_diff_host_rate,dst_host_count,dst_host_srv_count,dst_host_same_srv_rate,ds t_host_diff_srv_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,dst_ host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,dst_host_srv_rerror_ rate"); else rd.WriteLine("Mỗi phần tử xét 38 thuộc tính có giá trị số: duration, src_bytes,dst_bytes,land,wrong_fragment,urgent,hot,num_failed_logins,logged_in,n um_compromised,root_shell,su_attempted,num_root,num_file_creations,num_shell s,num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count,srv_co unt,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,same_srv_rate,diff_srv_ra te,srv_diff_host_rate,dst_host_count,dst_host_srv_count,dst_host_same_srv_rate,ds t_host_diff_srv_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,dst_ host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,dst_host_srv_rerror_ rate"); rd.WriteLine("Thuật toán KMedoids chạy với 23 cụm, với hy vọng nhóm kết nối vào 23 cụm tƣơng ứng 23 kiểu công khác nhau, từ đánh giá độ xác cụm: tỷ lệ phát so với tổng số phần từ cụm"); rd.Close(); o.InitCluster(); rd = System.IO.File.AppendText("db10History.txt"); rd.WriteLine("Các phần tử đại diện khởi tạo:"); for (int k = 0; k < o.numCluster; k++) { rd.Write("Cụm " + k.ToString() + ", phần tử thứ " + o.medoids[k].ToString() + ": "); for (int j = 0; j < o.numAttrib; j++) rd.Write(o.d[o.medoids[k]][j].ToString() + "; "); rd.WriteLine(); } rd.Close(); int lan = 0; int luot = 0; bool coThayDoi = false; { o.AddObjToCluster(); SaveClusters(); coThayDoi = false; Học viên: Hà Minh Đức 83 Luận văn thạc sĩ for (int j = 0; j < o.numCluster; j++) if (o.medoidReplace(j) == true) { coThayDoi = true; lan++; rd = System.IO.File.AppendText("db10History.txt"); rd.WriteLine("Lần điều chỉnh thứ " + lan.ToString() + "(cụm số " + j.ToString() + ") lúc " + DateTime.Now.ToString("HH:mm dd/MM/yyyy")); rd.Close(); } if (coThayDoi) { luot++; SaveClusters(); for (int i = 0; i < o.numTuple; i++) o.clustering[i] = -1; rd = System.IO.File.AppendText("db10History.txt"); rd.WriteLine("Các phần tử đại diện sau lƣợt điều chỉnh thứ " + luot.ToString() + ":"); for (int k = 0; k < o.numCluster; k++) { o.clustering[o.medoids[k]] = k; rd.Write("Cụm " + k.ToString() + ", phần tử thứ " + o.medoids[k].ToString() + ": "); for (int j = 0; j < o.numAttrib; j++) rd.Write(o.d[o.medoids[k]][j].ToString() + "; "); rd.WriteLine(); } rd.Close(); } else break; //} while (true); } while ((luot

Ngày đăng: 25/07/2017, 21:51

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. C.L Bean, C.Kambhampati (2008), Automonous Clustering Using Rough Set Theory, International Journal of Automation and Computing, Vol.5 (No.1).pp. 90-102. ISSN 1476-8186 Sách, tạp chí
Tiêu đề: Automonous Clustering Using Rough Set Theory
Tác giả: C.L Bean, C.Kambhampati
Năm: 2008
2. Đinh Mạnh Cường (2015), Phát hiện xâm nhập dựa trên thuật toán K-Means, Luận văn thạc sĩ khoa học máy tính, Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Phát hiện xâm nhập dựa trên thuật toán K-Means
Tác giả: Đinh Mạnh Cường
Năm: 2015
3. Đỗ Phúc (2006), Giáo trình khai thác dữ liệu, NXB Đại học Quốc gia TP Hồ Chí Minh Sách, tạp chí
Tiêu đề: Giáo trình khai thác dữ liệu
Tác giả: Đỗ Phúc
Nhà XB: NXB Đại học Quốc gia TP Hồ Chí Minh
Năm: 2006
4. Jiawei Han, Micheline Kamber (2012), Data Mining: Concepts and Techniques, 3 rd ed, Morgan Kaufmann Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
Tác giả: Jiawei Han, Micheline Kamber
Năm: 2012
5. Mohammad Khubeb Siddiqui and Shams Naahid (2013), Analysis of KDD CUP 99 Dataset using Clustering based Data Mining, International Journal of Database Theory and Application, Vol.6, No.5 (2013), pp.23-34 Sách, tạp chí
Tiêu đề: Analysis of KDD CUP 99 Dataset using Clustering based Data Mining
Tác giả: Mohammad Khubeb Siddiqui and Shams Naahid (2013), Analysis of KDD CUP 99 Dataset using Clustering based Data Mining, International Journal of Database Theory and Application, Vol.6, No.5
Năm: 2013
6. Oren Zamir and Oren Etzioni (1998), Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM Sách, tạp chí
Tiêu đề: Web document Clustering: A Feasibility Demonstration
Tác giả: Oren Zamir and Oren Etzioni
Năm: 1998
7. Ulrich Guntzer, Jochen Hipp, Gholamreza (2000), Algorithms for Association Rule Mining – A General Survey and Comparison, ACM SIGKDD Explorations Newsletter, Volume 2 Issue 1, pp 58 - 64 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w