Ứng dụng kỹ thuật khai phá dữ liệu trong IDS

112 1.3K 3
Ứng dụng kỹ thuật khai phá dữ liệu trong IDS

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chương 110TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU101.1 Giới thiệu về khai phá dữ liệu101.2 Các nhiệm vụ của khai phá dữ liệu101.3 Các loại dữ liệu được khai phá111.4 Lịch sử phát triển của Khai phá dữ liệu121.5 Ứng dụng của Khai phá dữ liệu121.6 Phân loại các phương pháp khai phá dữ liệu131.7 Một số thách thức đặt ra cho việc khai phá dữ liệu14Kết chương14Chương 215QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU152.1 Quy trình tổng quát thực hiện Khai phá dữ liệu152.2 Tiến trình khám phá tri thức khi đi vào một bài toán cụ thể162.3 Tiền xử lý dữ liệu172.3.1 Làm sạch dữ liệu172.3.1.1 Các giá trị thiếu172.3.1.2 Dữ liệu nhiễu182.3.2 Tích hợp và chuyển đổi dữ liệu192.3.2.1 Tích hợp dữ liệu192.3.2.2 Biến đổi dữ liệu212.3.3 Rút gọn dữ liệu (Data reduction)222.3.3.1 Rút gọn dữ liệu dùng Histogram232.3.3.2 Lấy mẫu (Sampling)242.3.4 Rời rạc hóa dữ liệu và tạo lược đồ phân cấp khái niệm262.3.4.1 Rời rạc hóa bằng cách phân chia trực quan dùng cho dữ liệu dạng số272.3.4.2 Tạo hệ thống phân cấp khái niệm cho dữ liệu phân loại282.4 Phương pháp khai phá dữ liệu282.5 Một số kỹ thuật dùng trong Data Mining302.5.1 Cây quyết định302.5.1.1 Giới thiệu chung302.5.1.2 Các kiểu cây quyết định312.5.1.3 Ưu điểm của cây quyết định332.5.2 Luật kết hợp332.5.2.1 Phát biểu bài toán khai phá luật kết hợp342.5.2.2 Các hướng tiếp cận khai phá luật kết hợp362.5.3 Mô hình dữ liệu đa chiều372.5.3.1 Định nghĩa:372.4.3.2 Các thao tác trên các chiều của MDDM382.5.4 Khoảng cách ngắn nhất392.5.5 KLáng giềng gần nhất402.5.6 Phân cụm412.5.7 Kỹ thuật hiển thị dữ liệu422.5.8 Mạng Neural432.5.8.1 Tổng quan432.5.8.2 Mô hình mạng Nơron442.5.9Thuật toán di truyền452.5.9.1 Giới thiệu chung452.5.9.2 Các bước cơ bản của giải thuật di truyền46Kết chương48Chương 349ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG IDS493.1 Giới thiệu chung493.2 Hệ thống IDS493.2.2 Hệ thống phát hiện xâm nhập IDS493.1.2.1 Giới thiệu về IDS493.2.2.2 Vai trò, chức năng của IDS503.2.2.3 Mô hình hệ thống IDS mức vật lý513.2.2.4 Cấu trúc và hoạt động bên trong của hệ thống IDS:513.2.2.5 Phân loại553.3 Khai phá dữ liệu trong IDS563.3.1 NIDS dựa trên khai phá dữ liệu563.3.1.1. Nguồn dữ liệu Audit:563.3.1.2 Xử lý dữ liệu kiểm toán thô và xây dựng các thuộc tính583.3.1.3 Các phương thức khai phá dữ liệu trong NIDS593.3.2 Tình hình trong nước633.3.3 Tình hình thế giới633.3.3.1. Phát triển lọc phát hiện xâm nhập tuỳ chỉnh sử dụng khai phá dữ liệu:643.3.3.2. ADAM: Một thử nghiệm về việc thực hiện việc ứng dụng khai phá dữ liệu trong hệ thống phát hiện xâm nhập673.3.3.3. Một Framework về việc xây dựng các thuộc tính và các mô hình cho hệ thống phát hiện xâm nhập (MADAM ID):693.3.3.4. Học luật cho phát hiện bất thường (Learning Rules for Anomaly Detection LERAD):703.3.3.5. Phát hiện xâm nhập dựa trên Entropy:723.3.3.6. MINDS – Minnesota Intrusion Detection System:75Kết chương81Chương 482XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN TẤN CÔNG DoS SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU824.1 Dẫn nhập824.2 Thuật toán phân cụm824.2.1 Các dạng dữ liệu trong phân tích cụm824.2.1.1 Biến trị khoảng834.2.1.2 Các biến nhị phân854.2.1.3 Các biến phân loại (biến định danh), biến thứ tự, và biến tỉ lệ theo khoảng864.2.2 Các phương pháp gom cụm884.2.2.1 Các phương pháp phân hoạch884.2.2.2 Các phương pháp phân cấp894.2.3 Thuật toán gom cụm bằng phương pháp Kmeans894.2.3.1 Thuật toán kmeans904.2.3.2 Kỹ thuật dùng đối tượng đại diện: Phương pháp kmedoids934.3 Sơ đồ phân tích thiết kế chương trình944.3.1 Tập hợp dữ liệu và tiền xử lý954.3.1.1 Tập hợp dữ liệu954.3.1.2 Tiền xử lý964.3.2 Khai phá dữ liệu phát hiện tấn công từ chối dịch vụ974.3.2.1 Các mẫu bất thường của tấn công từ chối dịch vụ974.3.2.2 Khai phá dữ liệu994.3.3 Biểu diễn dữ liệu100Kết chương101Chương 5KẾT QUẢ ĐẠT ĐƯỢC – ĐÁNH GIÁ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN102

Ứng dụng kỹ thuật khai phá liệu hệ thống IDS MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG .5 DANH MỤC HÌNH VẼ LỜI NÓI ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu 1.2 Các nhiệm vụ khai phá liệu .10 1.3 Các loại liệu khai phá 11 1.4 Lịch sử phát triển Khai phá liệu 11 1.5 Ứng dụng Khai phá liệu 12 1.6 Phân loại phương pháp khai phá liệu .13 1.7 Một số thách thức đặt cho việc khai phá liệu .13 Kết chương 14 Chương 14 QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU 14 2.1 Quy trình tổng quát thực Khai phá liệu 14 2.2 Tiến trình khám phá tri thức vào toán cụ thể 15 2.3 Tiền xử lý liệu 16 2.3.1 Làm liệu 17 2.3.1.1 Các giá trị thiếu .17 2.3.1.2 Dữ liệu nhiễu 18 2.3.2 Tích hợp chuyển đổi liệu 19 2.3.2.1 Tích hợp liệu 19 2.3.2.2 Biến đổi liệu .21 2.3.3 Rút gọn liệu (Data reduction) 22 2.3.3.1 Rút gọn liệu dùng Histogram .23 2.3.3.2 Lấy mẫu (Sampling) 24 2.3.4 Rời rạc hóa liệu tạo lược đồ phân cấp khái niệm 26 2.3.4.1 Rời rạc hóa cách phân chia trực quan dùng cho liệu dạng số 27 2.3.4.2 Tạo hệ thống phân cấp khái niệm cho liệu phân loại 28 2.4 Phương pháp khai phá liệu .28 2.5 Một số kỹ thuật dùng Data Mining 30 2.5.1 Cây định .30 2.5.1.1 Giới thiệu chung 30 2.5.1.2 Các kiểu định 31 2.5.1.3 Ưu điểm định 33 2.5.2 Luật kết hợp 33 2.5.2.1 Phát biểu toán khai phá luật kết hợp 34 2.5.2.2 Các hướng tiếp cận khai phá luật kết hợp 36 2.5.3 Mô hình liệu đa chiều 37 2.5.3.1 Định nghĩa: .37 2.4.3.2 Các thao tác chiều MDDM 38 2.5.4 Khoảng cách ngắn 39 2.5.5 K-Láng giềng gần 40 2.5.6 Phân cụm .41 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS 2.5.7 Kỹ thuật hiển thị liệu 42 2.5.8 Mạng Neural 43 2.5.8.1 Tổng quan .43 2.5.8.2 Mô hình mạng Nơron 44 2.5.9Thuật toán di truyền 45 2.5.9.1 Giới thiệu chung 45 2.5.9.2 Các bước giải thuật di truyền 46 Kết chương 48 Chương 49 ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG IDS .49 3.1 Giới thiệu chung .49 3.2 Hệ thống IDS .49 3.2.2 Hệ thống phát xâm nhập - IDS 49 3.1.2.1 Giới thiệu IDS 49 3.2.2.2 Vai trò, chức IDS 50 3.2.2.3 Mô hình hệ thống IDS mức vật lý 51 3.2.2.4 Cấu trúc hoạt động bên hệ thống IDS: .51 3.2.2.5 Phân loại 55 3.3 Khai phá liệu IDS 56 3.3.1 NIDS dựa khai phá liệu 56 3.3.1.1 Nguồn liệu Audit: .56 3.3.1.2 Xử lý liệu kiểm toán thô xây dựng thuộc tính 58 3.3.1.3 Các phương thức khai phá liệu NIDS 59 3.3.2 Tình hình nước .63 3.3.3 Tình hình giới 63 3.3.3.1 Phát triển lọc phát xâm nhập tuỳ chỉnh sử dụng khai phá liệu: 64 3.3.3.2 ADAM: Một thử nghiệm việc thực việc ứng dụng khai phá liệu hệ thống phát xâm nhập 67 3.3.3.3 Một Framework việc xây dựng thuộc tính mô hình cho hệ thống phát xâm nhập (MADAM ID): 69 3.3.3.4 Học luật cho phát bất thường (Learning Rules for Anomaly Detection -LERAD): 70 3.3.3.5 Phát xâm nhập dựa Entropy: 72 3.3.3.6 MINDS – Minnesota Intrusion Detection System: 75 Kết chương 81 Chương 82 XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN TẤN CÔNG DoS SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU .82 4.1 Dẫn nhập 82 4.2 Thuật toán phân cụm 82 4.2.1 Các dạng liệu phân tích cụm 82 4.2.1.1 Biến trị khoảng 83 4.2.1.2 Các biến nhị phân 85 4.2.1.3 Các biến phân loại (biến định danh), biến thứ tự, biến tỉ lệ theo khoảng 86 4.2.2 Các phương pháp gom cụm 88 4.2.2.1 Các phương pháp phân hoạch 88 4.2.2.2 Các phương pháp phân cấp .89 4.2.3 Thuật toán gom cụm phương pháp K-means 89 4.2.3.1 Thuật toán k-means 90 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS 4.2.3.2 Kỹ thuật dùng đối tượng đại diện: Phương pháp k-medoids 93 4.3 Sơ đồ phân tích thiết kế chương trình 94 94 4.3.1 Tập hợp liệu tiền xử lý 95 4.3.1.1 Tập hợp liệu .95 4.3.1.2 Tiền xử lý 96 4.3.2 Khai phá liệu phát công từ chối dịch vụ .97 4.3.2.1 Các mẫu bất thường công từ chối dịch vụ 97 4.3.2.2 Khai phá liệu .99 4.3.3 Biểu diễn liệu 100 Kết chương 101 Chương .102 KẾT QUẢ ĐẠT ĐƯỢC – ĐÁNH GIÁ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 102 5.1 Cài đặt 102 5.2 Kết đạt 103 5.3 Kết luận .109 5.4 Hướng phát triển 110 Kết chương 110 TÀI LIỆU THAM KHẢO .111 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS DANH MỤC CÁC TỪ VIẾT TẮT AS Analysis Services BIDS Intelligence Development Studio BI Dev Studio Business Intelligent Developtment BSM Basic Security Module CSDL Cơ sở liệu DM Data mining: Khai phá liệu DMX Data Mining eXtensions DDoS Distributed Denial of Service DoS Denial of Service DSV Data Source View DTS Data Transformation Services HIDS Host Intrusion Detection System IDS/IPS Intrusion Detection System/ Intrusion Prevention System KDD Knowledge Discovery and Data Mining KTDL Khai thác liệu KDL Kho liệu LERAD Learning Rules for Anomaly Detection MDDM Dimensional Data Model: Mô hình liệu đa chiều MINDS Minnesota Intrusion Detection System MMPB Mining Model Prediction Builder MSE Mining Structure Editor MSS Microsoft SQL Server NIDS Network Intrusion Detection System OLAP Online Analytical Processing SRSWOR Simple random sample without replacement SRSWR Simple random sample with replacement Ứng dụng kỹ thuật khai phá liệu hệ thống IDS DANH MỤC CÁC BẢNG Bảng 2.1: Tần số quan sát .21 Bảng 2.2: Dữ liệu chơi golf .32 Bảng 2.3: Ví dụ CSDL giao dịch – D 34 Bảng 2.4: Tập mục thường xuyên minsup = 50% 35 Bảng 2.5: Luật kết hợp sinh từ tập mục phổ biến ABE 36 Bảng 2.6: Dữ liệu điều tra việc sở hữu tiện nghi 39 Bảng 2.7: Mẫu liệu khách hàng 40 Bảng 2.8: Một số ví dụ dùng kỹ thuật k-láng giềng 41 Bảng 3.1: Các ghi giao thức Telnet Records .59 Bảng 3.2: Ví dụ luật RIPPER từ ghi Telnet 60 Bảng 3.3: Mẫu tập liệu huấn luyện 71 Bảng 3.4: Thuật toán LERAD 71 Bảng 3.5: Các đặc điểm dựa cửa sổ thời gian 77 Bảng 3.6: Đặc điểm dựa Connection-window 77 Bảng 3.7 Tổng kết số nghiên cứu NIDS giới 81 Bảng 4.1: Bảng kiện cho biến nhị phân .85 Bảng 4.2: Một bảng quan hệ bệnh nhân mô tả biến nhị phân 86 Bảng 4.3: Bảng liệu mẫu chứa biến dạng hỗn hợp 86 DANH MỤC HÌNH VẼ Hình 2.1: Data mining – bước trình khám phá tri thức 15 Hình 2.2: Tổng quan tiến trình khai phá liệu .16 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS Hình 2.3: Các hình thức tiền xử lý liệu 17 Hình 2.4: Một histogram cho price sử dụng singleton bucket biểu diễn cặp price value/frequency .24 Hình 2.5: Một histogram có độ rộng cho price 24 Hình 2.6: Phương pháp lấy mẫu 26 Hình 2.7: Một lược đồ phân cấp cho khái niệm price 27 Hình 2.8: Tự động tạo hệ thống phân cấp khái niệm dựa số lượng giá trị phân biệt thuộc tính 28 Hình 2.9: Kết định 32 Hình 2.10: Biểu diễn hình học cho mô hình liệu n-chiều (với n=3) 37 Hình 2.11: Biến đổi bảng chiều sang mô hình liệu n-chiều 38 Hình 2.12: Các mẫu tin biểu diễn thành điểm không gian thuộc tính chúng khoảng cách chúng đo 40 Hình 2.13: Đồ thị dựa vào hai độ đo 43 Hình 2.14: Đồ thị tương tác chiều .43 Hình 2.15: Mô kiến trúc mạng neural 44 Hình 3.1: Mô hình mạng xử dụng IDS 50 Hình 3.2: Các thành phần hệ thống IDS 51 Hình 3.3: Mô hình hoạt động hệ thống IDS .52 Hình 3.4: Mô hình thu thập liệu luồng .52 Hình 3.5: Mô hình thu thập liệu luồng .53 Hình 3.6: Module phân tích, phát công .53 Hình 3.7: HIDS (Host Intrusion Detection System) .55 Hình 3.8: NIDS (Network Intrusion Detection System) 55 Hình 3.9: Định dạng Header TCP liệu nhị phân kiểm toán 58 Hình 3.10: Mẫu liệu TCP DUMP 58 Hình 3.11: Ví dụ chuỗi thường xuyên có hành động xen vào nhiễu 65 Hình 3.12: Phát triển lọc tuỳ chỉnh với khai phá liệu 66 Hình 3.13: Giai đoạn huấn luyện ADAM 67 Hình 3.14: Khai phá xâm nhập với ADAM 68 Hình 3.15: Luồng liệu MADAMID 69 Hình 3.16: Luồng hoạt động phát xâm nhập dựa Entropy 74 Hình 3.17: Hệ thống MINDS 76 Hình 3.18: Module phân tích kết hợp MINDS .78 Hình 3.19: Các phương thức xếp mẫu 79 Hình 4.1: Minh họa thuật toán k-means 90 Hình 4.2: Nguyên lý chung tiến trình phát xâm nhập sử dụng kỹ thuật phân cụm 94 Hình 5.1 Giao diện .103 Hình 5.2 Tiền xử lý liệu 104 Hình 5.3 Giao diện khai phá 105 Hình 5.4 Màn hình khai phá liệu giao thức HTTP 106 Hình 5.5 Màn hình tự động khai phá 107 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS LỜI NÓI ĐẦU Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại họ phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng Ứng dụng kỹ thuật khai phá liệu hệ thống IDS bị bỏ qua sau có lúc cần đến Các phương pháp quản trị khai thác sở liệu truyền thống không đáp ứng kỳ vọng này, nên đời Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Trong phạm vi đề tài nghiên cứu này, xin trình bày kiến thức khai phá liệu việc ứng dụng khai phá liệu hệ thống IDS/IPS Nội dung đồ án gồm chương sau: Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Trong chương giới thiệu khai phá liệu, nhiệm vụ khai phá liệu, loại liệu khai phá, lịch sử phát triển khai phá liệu, ứng dụng, phân loại phương pháp đưa thách thức việc khai phá liệu Chương 2: QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU Chương trình bày quy trình từ tổng quát để thực khai phá liệu đến tiến trình khai phá liệu vào toán cụ thể đó, vào giới thiệu chi tiết bước quan trọng tiến trình Tiền xử lý liệu Ngoài chương cho biết phương pháp khai phá liệu kỹ thuật khai phá liệu thường sử dụng mà cụ thể kỹ thuật: định, luật kết hợp, mô hình liệu đa chiều khoảng cách ngắn nhất, K- láng giềng gần nhất, phân cụm, kỹ thuật hiển thị liệu, mạng neural thuật toán di truyền Chương 3: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG IDS Chương giới thiệu chi tiết hệ thống phá xâm nhập: định nghĩa, mô hình, phân loại, cấu trúc hoạt động bên trong; vào tìm hiểu việc ứng dụng khai phá liệu hệ thống IDS Đồng thời cho biết tình hình nước giới việc ứng dụng khai phá liệu hệ thống IDS vào cụ thể số nghiên cứu giới lĩnh vực Chương 4: XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN TẤN CÔNG DoS SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU Trong chương trình bày việc đưa kỹ thuật khai phá liệu phân cụm vào toán cụ thể - Phát công DoS Mà cụ thể thuật toán sử dụng thuật toán k-mediods Đồng thời đưa sơ đồ phân tích thiết kế chương trình… Chương 5: KẾT QUẢ ĐẠT ĐƯỢC – ĐÁNH GIÁ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Ứng dụng kỹ thuật khai phá liệu hệ thống IDS Chương đưa số yêu cầu việc cài đặt để chạy chương trình Demo đính kèm đồ án, kết đạt đồ án, tổng kết phương hướng phát triển đồ án Sau trình bày chi tiết nội dung đồ án Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu Khai phá liệu định nghĩa trình trích xuất thông tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ sở liệu, kho liệu Cụ thể tiến trình trích lọc, sản sinh tri thức Ứng dụng kỹ thuật khai phá liệu hệ thống IDS mẫu tiềm ẩn, chưa biết hữu ích từ sở liệu lớn Đồng thời tiến trình khái quát kiện rời rạc liệu thành tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực cho tiến trình định Hiện nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL, trích lọc liệu, phân tích liệu/mẫu, khảo cổ liệu (data archaeology), nạo vét liệu (data dredredging) Nhiều người coi khai phá liệu số thuật ngữ thông dụng khác khám phá tri thức CSDL (Knowledge Discovery in Databases-KDD) Tuy nhiên thực tế khai phá liệu bước thiết yếu trình Khám phá tri thức CSDL Để hình dung vấn đề ta sử dụng ví dụ đơn giản sau: Khai phá liệu ví tìm kim đống cỏ khô Trong ví dụ này, kim mảnh nhỏ tri thức thông tin có giá trị đống cỏ khô kho sở liệu rộng lớn Như vậy, thông tin có giá trị tiềm ẩn kho sở liệu chiết xuất sử dụng cách hữu ích nhờ khai phá liệu Chức khai phá liệu gồm có gộp nhóm phân loại, dự báo, dự đoán phân tích liên kết Nguồn liệu phục vụ cho KTDL CSDL lớn hay kho liệu (Datawarehouse) có hay cấu trúc Các tác vụ khai phá liệu phân thành hai loại: miêu tả dự báo - Các tác vụ khai phá miêu tả mô tả đặc tính chung liệu sở liệu Kỹ thuật khai phá liệu mô tả: Có nhiệm vụ mô tả tính chất đặc tính chung liệu CSDL có Các kỹ thuật gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hoá (visualiztion), phân tích phát triển độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)… - Các tác vụ khai phá dự báo thực việc suy luận liệu thời để đưa dự báo Kỹ thuật khai phá liệu dự đoán: Có nhiệm vụ đưa dự đoán dựa vào suy diễn liệu thời Các kỹ thuật gồm có: Phân lớp (classification), hồi quy (regression)… 1.2 Các nhiệm vụ khai phá liệu Cho đến có nhiều công trình nghiên cứu phát triển lĩnh vực khai phá liệu Dựa loại tri thức khám phá, phân loại theo nhiệm cụ sau:  Khai phá luật thuộc tính: tóm tắt thuộc tính chung tập liệu sở liệu Ví dụ triệu chứng bệnh S thường thể qua tâp thuộc tính A  Khai phá luật phân biệt: khai phá đặc trưng, thuộc tính để phân biệt tập liệu với tập liệu khác Ví dụ nhằm phân biệt chứng bệnh luật phân biệt dùng để tóm tắt triệu chứng nhằm phân biệt chứng bệnh xác định với chứng bệnh khác 10 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS ID=MCTN&target=alert(document.cookie), sử dụng script (đoạn mã) dạng tập tin flash hay chèn truy vấn SQL vào URL… Điều làm cho request có kích thước lớn bình thường Vì theo nghiên cứu cho thấy request giao thức có kích thước >=350 byte mẫu bất thường có khả công - Tấn công từ chối dịch vụ có nhiều dạng Ping of Death, Teardrop, Aland Attack, Winnuke, Smurf Attack, UDP/ICMP Flooding, TCP/SYN Flooding, Attack DNS  Ping Of Death Một số máy tính bị ngưng họat động, Reboot bị crash bị nhận gói liệu ping có kích thước lớn • Ví dụ : ping địachỉ -n 1000 : số 1000 số lần gửi gói liệu khoảng thời gian 1s  TCP/SYN Flooding: Bước 1: Khách hàng gửi TCP SYN packet đến cổng dịch vụ máy chủ Khách hàng -> SYN Packet -> Máy chủ Bước : Máy chủ phản hồi lại khách hàng SYN/ACK Packet chờ nhận ACK packet từ khách hàng Máy chủ -> SYN/ACK Packet -> Khách hang Bước 3: Khách hàng phản hồi lại Máy chủ ACK Packet việc kết nối hoàn tất Khách hàng máy chủ thực công việc trao đổi liệu với Khách hàng -> ACK Packet -> Máy chủ • Trong trường hợp Hacker thực việc SYN Flooding cách gửi tới tấp, hàng loạt TCP SYN packet đến cổng dịch vụ máy chủ làm máy chủ bị tải không khả đáp ứng  UDP/ICMP Flooding: Hacker thực cách gửi số lượng lớn gói tin UDP/ICMP có kích thước lớn đến hệ thống mạng, hệ thống mạng chịu phải công bị qua tải chiếm hết băng thông đường truyền bên mạng này, gây ảnh hưởng lớn đến đường truyền tốc độ mạng, gây nên khó khăn cho khách hàng truy cập từ bên vào mạng ⇒ Ta có mẫu bất thường “RemoteHost” khoảng thời gian xét gửi lượng lớn gói tin tới “LocalHost” tức “RemoteHost” gửi nhiều request tới “LocalHost” khoảng cửa sổ thời gian Tuỳ theo điều kiện hệ thống mạng cần bảo vệ mà ngưỡng số request thay đổi, việc lựa chọn cẩn thận ngưỡng cho ta cảnh báo phụ thuộc nhiều vào kinh nghiệm thực tế 98 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS - Nhưng với tiện ích Trinoo, TFN2K, Stacheldraht… người công dùng nơi để công mà sử dụng nhiều mạng lưới khác để thực việc công đồng loạt vào máy nạn nhân Tức có số lượng lớn Request từ địa mạng khác tới khoảng thời gian khoảng thời gian ngắn (DDoS) ⇒ Ta có mẫu bất thường có nhiều request đến máy “LocalHost” khoảng thời gian ngắn Cũng tuỳ thuộc vào điều kiện mạng máy mà ngưỡng số request thay đổi cho phù hợp Ngoài có nhiều mẫu bất thường tấn công từ chối dịch vụ với đặc trưng khác phạm vi đồ án sử dụng số mẫu bất thường công từ chối mà thông qua trình phân tích thực tế thu 4.3.2.2 Khai phá liệu Trong trình khai phá liệu này, liệu sử dụng để huấn luyện mẫu bất thường mô tả công từ chối dịch vụ thu với tham số tuỳ chọn số request khoảng thời gian xem xét để phù hợp với hệ thống khác Kỹ thuật gom cụm sử dụng phần demo kỹ thuật dùng đối tượng đại diện: Phương pháp k-medoids Các mẫu bất thường sử dụng đại diện cho cụm “xâm nhập” phần lại cụm “bình thường” Do ta có hai cụm Dữ liệu sau tiến trình tiền xử lý phân vào nhóm thời gian với độ rộng tuỳ chọn trước Đến tuỳ thuộc vào việc chọn dấu hiệu để phát công từ chối dịch vụ mà ta có cách xử lý phù hợp: - Nếu lựa chọn dấu hiệu công từ chối dịch vụ dấu hiệu sử dụng giao thức HTTP mà sở liệu demo WWW ta sử dụng mẫu bất thường công từ chối dịch vụ giao thức với tham số đầu vào ngưỡng kích thước gói tin request số request thoả mãn ngưỡng kích thước tới máy chủ Web mà máy mạng nội cần bảo vệ “Localhost” để làm tham số đầu vào thuật toán k-medoids Đầu thuật toán hai cụm: cụm chứa mẫu xem bất thường mẫu có số kết nối mà kết nối có kích thước gói request lớn kích thước đưa ra, lớn ngưỡng số request khoảng thời gian cụ thể chọn cụm mẫu bình thường mẫu đặc điểm - Nếu lựa chọn dấu hiệu công từ chối dịch vụ truyền thống DoS đầu vào thuật toán ngưỡng số request thuộc tính xem xét thuộc tính “RemoteHost” Đầu thuật toán hai cụm: cụm bất thường chứa mẫu mà số request từ “RemoteHost” 99 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS khoảng thời gian xác định lớn ngưỡng kết nối cụm bình thường - Nếu lựa chọn dấu hiệu công từ chối dịch vụ theo kiểu nhiều request từ nhiều địa IP khác tới máy cục tương tự dấu hiệu công DoS lúc thuộc tính xem xét thuộc tính “LocalHost” Sau thuật toán kết thúc cho ta hai cụm, cụm mẫu bất thường có số request đến máy nội lớn ngưỡng kết nối chọn Bầy ta thu hai cụm phân tách: cụm bất thường cụm bình thường 4.3.3 Biểu diễn liệu Sau liệu gom vào hai cụm trên, liệu cần biểu diễn để người dùng dễ dàng hiểu Có nhiều cách thức để biểu diễn liệu phần demo biểu diễn liệu dạng ghi bảng mẫu bất thường Ví dụ: Đối với lĩnh vực khai phá liệu hệ thống phát hiên xâm nhập này, việc hiển thị kết kết tiếp tục dùng để xử lý ví dụ đưa cảnh báo, thực số hành động để chống lại mối nguy hạn khai phá này… Nhưng phạm vi đồ án không sâu vào vấn đề 100 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS Kết chương Ở chương đề cấp tới lý thuật toán sử dụng mô hình demo cụ thể thuật toán phân cụm - thuật toán khai phá không giám sát; liệu phân tích cụm như: biến trị khoảng, biến nhị phân, biến phân loại (biến định danh) biến tỷ lệ; phương pháp gom cụm… Đồng thời vào cụ thể hóa toán phát công DoS cách sử dụng thuật toán khai phá liệu Chương tiếp đưa số hướng dẫn, kết đạt được, số kết luận hướng phát triển 101 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS Chương KẾT QUẢ ĐẠT ĐƯỢC – ĐÁNH GIÁ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Cài đặt Hệ thống chương trình cài đặt ngôn ngữ C# môi trường Microsoft Visual Studio NET 2005 hệ điều hành Windows XP Bước đầu chương trình hình thành phần giao diện tương đối thân thiện với người dùng Cấu hình hệ thống: Chương trình nên chạy hệ điều hành WinNT, Windows 2000 Advance Server, Windows 2000 Professional hay Win XP Và đòi hỏi máy có cấu hình sau: - Cấu hình máy tối thiểu: o Tốc độ CPU: 1.5GHz o Dung lượng nhớ: 256 MB o Không gian trống ổ cứng: 500 MB - Cấu hình máy đề nghị: o Tốc độ CPU: 3.2GHz o Dung lượng nhớ: 512 MB (hoặc lớn hơn) o Không gian trống ổ cứng: GB Thông tin chương trình cài đặt: Ngôn ngữ C Sharp (C#) Công cụ phát triển Microsoft Visual Studio 2005 Kiểu ứng dụng Ứng dụng Windows 32 bits Hệ điều hành WinNT, Windows 2000 Advance Server, Windows 2000 Professional hay Win XP Môi trường hoạt động MS NET Framework 1.0 Cơ sở liệu Microsoft SQL Server 7, 2000 Kết nối sở liệu ADO.NET Thuật toán sử dụng Phương pháp gom cụm k-mediods Cơ sở liệu khai phá Sử dụng liệu thô thu nhờ việc ghi dấu vết mạng DMZ Ethernet, dấu vết thu từ ngày 16/9/1993 đến 15/10/1993 bắt 782281 kết nối diện rộng phòng thí nghiệm Berkeley Lawrence với phần lại mạng Dấu vết thô lấy cách sử dụng TCPdump Sun Sparcstation sử dụng lọc gói nhân BPF Trong có 9051 gói tin giao thức HTTP 102 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS 5.2 Kết đạt Phần giới thiệu qua giao diện chương trình số kết thu thông qua thực thi chương trình  Giao diện chương trình: Hình 5.1 Giao diện Trong giao điện này, chức thành phần cụ thể sau: - Button “Chọn file” cho phép ta chọn file dạng txt hay log để khai phá File khai phá theo dấu hiệu số kết nối từ RemoteHost khoảng thời gian (cửa sổ thời gian) - Nút “HTTP” cho phép ta vào giao diện để khai phá theo dấu bất thường giao thức HTTP số lựa chọn khác - “Tự động” đưa ta tới giao diện cho phép thực thi việc khai phá cách tự động sau khoảng thời gian tuỳ chọn - “Gom liệu” thực việc đọc liệu từ file chọn vào bảng liệu TCP đồng thời chuyển đổi số thuộc tính từ dạng văn dạng số như: tem thời gian, thời gian kết nối trì,… thêm liệu thiếu - “Tiền xử lý” mở giao diện thực chức tiền xử lý cho liệu thu - “Làm lại” cho phép chọn lại file để thực lại việc khai phá từ đầu - “Thoát” cho phép thoát khỏi chương trình 103 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS  Giao diện Tiền xử lý: Hình 5.2 Tiền xử lý liệu - “Thời gian xử lý”: cho phép tuỳ chọn khoảng thời gian (cửa sổ thời gian) để xử lý, thời gian tính giây Giá trị mặc định 60 giây - “Tiền xử lý”: đưa liệu kết nối dạng phù hợp với thuật toán chuyển “RemoteHost” dạng số, gom nhóm theo thời gian kết nối - “Kết quả”: hiển thị kết “Tiền xử lý” phần “Kết tiền xử lý” bên - “Khai phá”: mở giao diện để tiến hành khai phá tìm bất thường - “Thoát”: quay hình 104 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS  Màn hình khai phá Hình 5.3 Giao diện khai phá - “Độ phổ biến”: tuỳ chọn độ phổ biến kết nối có dấu hiệu bất thường, ngưỡng số kết nối dùng làm tham số đầu vào thuật toán khai phá, tính theo đơn vị số lần xuất Để tránh kết sai ta phải chọn giá trị cách thích hợp, chủ yếu tuỳ vào thực nghiệm kinh nghiệm người dùng Ở không dùng đơn vị ngưỡng kết nối % có nhiều trường hợp tổng số kết nối vô nhỏ chẳng hạn chắn cho ta dấu hiệu bất thường ta chọn ngưỡng 50% lại cho kết sai lớn mà tổng kết nối cửa sổ thời gian lớn… - “Kết quả”: hiểm thị kết khai phá (cụm bất thường) - “Quay về”: quay cửa sổ “Tiền xử lý” để thực lại trình tiền xử lý - “Thoát”: thoát khỏi chương trình 105 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS  Cửa sổ khai phá dựa giao thức HTTP Hình 5.4 Màn hình khai phá liệu giao thức HTTP - “Chọn file Audit”: có chức tương tự giao diện - “Chọn bảng sở liệu”: cho phép tiến hành khai phá liệu có sẵn sở liệu (TCP) - “Chọn khoảng thời gian”: Chức đề cập hình “Tiền xử lý” - “HTTP”: Nếu lựa chọn thực thi khai phá theo dấu hiệu bất thường giao thức HTTP, chức chọn ta phải nhập ngưỡng kết nối ngưỡng kích thước Request HTTP - “Tất giao thức”: thực thi khai phá dựa dấu hiệu số request tất giao thức - “Khai phá”: nút thực chức khai phá dựa liệu thu với thông số tuỳ chọn 106 Ứng dụng kỹ thuật khai phá liệu hệ thống IDS - “Thực lại”: chọn thực trình khai phá - “Quay về”: trở hình - “Thoát”: thoát khỏi chương trình  Màn hình thực chức khai phá tự động - 107 Hình 5.5 Màn hình tự động khai phá “Chọn file liệu Audit”: tương tự bên “Chọn khoảng thời gian”: tương tự “Ngưỡng”: ngưỡng số kết nối “Mốc thời gian tại”: Do liệu khai phá liệu độc lập nên ta phải chọn mốc thời gian ban đầu để bắt đầu khai phá Khi tích hợp vào hệ thống thực thực bước lấy thời gian hệ thống “Tự động”: thực khai phá tự động với thông số bên Sẽ có kiểm tra tính đắn thông số nhập “Stop”: tạm thời dừng việc thực thi khai phá tự động, trạng thái chương trình trì Khi thực tiếp tiếp tục khai phá từ vị trí đừng lại “Làm lại”: thực lại từ đầu trình tự động “Quay về”: trở hình “Thoát”: thoát khỏi hệ thống Ứng dụng kỹ thuật khai phá liệu hệ thống IDS  Tốc độ thực thi: - Cửa sổ thời gian: 60 giây Tổng số kết nối 18 14 11 11 16 15 24 19 20 0–8 Thời gian xử lý (S) 0.046875 0.03125 0.0625 0.015625 0.03125 0.015625 0.03125 0.03125 0.03125 0.25 ∼0 - Cửa sổ thời gian: 120 giây Tổng số kết nối 28 30 22 28 31 47 25 40 26 [...]... đó, khai phá dữ liệu trên tập dữ liệu thu gọn yêu cầu ít thao tác vào ra và hiệu quả hơn khai phá dữ liệu trên tập dữ liệu lớn hơn, tập dữ liệu chưa khái quát hóa Do các lợi ích này, các kỹ thuật rời rạc hóa dữ liệu và 26 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS các phân cấp khái niệm được áp dụng trước quá trình khai phá dữ liệu như một bước tiền xử lý hơn trong quá trình khai phá dữ liệu. .. thực hiện khai phá dữ liệu cũng như một số kỹ thuật dùng trong khai phá dữ liệu Chương 2 QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU 2.1 Quy trình tổng quát thực hiện Khai phá dữ liệu 14 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS 1) 2) 3) 4) 5) 6) 7) Quá trình này gồm các bước: Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu không thích hợp Tích hợp dữ liệu (data... trình khai phá dữ liệu Sau đây ta sẽ tìm hiểu chi tiết về quá trình tiền xử lý trong tiến trình 2.3 Tiền xử lý dữ liệu 16 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS Dữ liệu trong thực tế thường không sạch, và không nhất quán Các kỹ thuật tiền xử lý dữ liệu có thể cải thiện được chất lượng của dữ liệu, do đó nó giúp các quá trình khai phá dữ liệu chính xác và hiệu quả Tiền xử lý dữ liệu là... khai phá dữ liệu trong hệ thống IDS  Quan hệ giữa các trường phức tạp  Giao tiếp với người sử dụng và kết hợp với các tri thức đã có  Tích hợp với các hệ thống khác… Kết chương Trong chương này, đã giới thiệu về: - Khái niệm khai phá dữ liệu - Nhiệm vụ của khai phá dữ liệu - Phân loại trong khai phá dữ liệu - Các lĩnh vực ứng dụng của khai phá dữ liệu - Một số thách thức trong khai phá dữ liệu Chương... hiện được mô tả trong bảng tóm tắt như sau: 15 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS  Giai đoạn 1: đầu tiên là phát triển một sự hiểu biết về lĩnh vực ứng dụng và những tri thức tương ứng Xác định mục đích của tiến trình khai phá dữ liệu từ quan điểm của người dùng  Giai đoạn 2: chuẩn bị dữ liệu để khai phá, thu thập dữ liệu và dữ liệu mẫu  Giai đoạn 3: tiền xử lý dữ liệu, xóa các... thống khai phá dữ liệu làm việc với cơ sở dữ liệu quan hệ, nhà kho dữ liệu, cơ sở dữ liệu giao tác, cơ sở dữ liệu hướng đối tượng, đa phương tiện và Web… Phân lớp dựa trên kiểu tri thức khai phá: hệ thống khai phá dữ liệu xuất kết quả kiểu tóm tắt, mô tả, luật kết hợp, phân lớp, phân nhóm và dự báo… Phân lớp dựa trên loại kỹ thuật được sử dụng: hệ thống khai phá sử dụng các kỹ thuật OLAP, kỹ thuật. .. 1.5 Ứng dụng của Khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hoá… hơn nưa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt  So với phương pháp học máy, khai. .. là một thuộc tính chứ không phải hai - Siêu dữ liệu dùng để tránh sự phát sinh lỗi trong quá trình tích hợp các lược đồ và chuyển đổi dữ liệu Ví dụ, kiểu dữ liệu, các giá trị null của một thuộc tính, giá trị thuộc tính ở một cơ sở dữ liệu là "H" nhưng ở cơ sở dữ liệu khác nó lại là 1 19 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS - Sự dư thừa dữ liệu: Giá trị một thuộc tính có thể được tính... phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn  Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ. .. của một tập dữ liệu Ví dụ như luật khám phá những yếu tố chính tác động lên sự thay đổi của những giá cổ phiếu nào đó 1.3 Các loại dữ liệu được khai phá Khai phá dữ liệu thường làm việc với nhiều kiểu dữ liệu khác nhau Hầu hết các kiểu dữ liệu được khai phá là những kiểu sau: Cơ sở dữ liệu quan hệ: những cơ sở dữ liệu được tổ chức theo mô hình quan hệ Hầu hết những hệ quản trị cơ sở dữ liệu hiện nay

Ngày đăng: 01/06/2016, 09:39

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC TỪ VIẾT TẮT

    • LERAD Learning Rules for Anomaly Detection

    • DANH MỤC CÁC BẢNG

    • DANH MỤC HÌNH VẼ

    • LỜI NÓI ĐẦU

    • Chương 1

      • TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

      • 1.1 Giới thiệu về khai phá dữ liệu

      • 1.2 Các nhiệm vụ của khai phá dữ liệu

      • 1.3 Các loại dữ liệu được khai phá

      • 1.4 Lịch sử phát triển của Khai phá dữ liệu

      • 1.5 Ứng dụng của Khai phá dữ liệu

      • 1.6 Phân loại các phương pháp khai phá dữ liệu

      • 1.7 Một số thách thức đặt ra cho việc khai phá dữ liệu

      • Kết chương

      • Chương 2

      • QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU

        • 2.1 Quy trình tổng quát thực hiện Khai phá dữ liệu

        • 2.2 Tiến trình khám phá tri thức khi đi vào một bài toán cụ thể

        • 2.3 Tiền xử lý dữ liệu

          • 2.3.1 Làm sạch dữ liệu

            • 2.3.1.1 Các giá trị thiếu

            • 2.3.1.2 Dữ liệu nhiễu

            • 2.3.2 Tích hợp và chuyển đổi dữ liệu

              • 2.3.2.1 Tích hợp dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan