Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
1,78 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THANH BÌNH GIẢM KÍCH CỠ ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB DỰA VÀO BẤT THƯỜNG Ngành: Cơng nghệ thơng tin Chun ngành: An tồn thơng tin Mã Số: 8480102.01 LUẬN VĂN THẠC SĨ AN TỒN THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ ĐÌNH THANH Hà Nội – 2019 i LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, TS Lê Đình Thanh – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo Khoa Công nghệ Thông tin, Trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho suốt trình học tập, nghiên cứu trường Đồng thời, xin cảm ơn tất người thân yêu gia đình tơi tồn thể bạn bè người giúp đỡ, động viên vấp phải khó khăn, bế tắc Mặc dù cố gắng, nỗ lực luận văn chắn khơng tránh khỏi thiếu sót, tơi mong nhận ý kiến đánh giá phê bình từ phía Thầy Cơ để luận văn hồn thiện Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2019 Học viên Lê Thanh Bình ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ cơng nghệ thơng tin “Giảm kích cỡ đặc trưng phát công Web dựa vào bất thường” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 10 tháng 10 năm 2019 Lê Thanh Bình MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH MỤC HÌNH VẼ DANH SÁCH BẢNG BIỂU DANH SÁCH CÁC TỪ VIẾT TẮT MỞ ĐẦU CHƯƠNG GIỚI THIỆU CHƯƠNG PHÁT HIỆN TẤN CÔNG WEB SỬ DỤNG ĐẶC TRƯNG NGRAM VÀ BỘ PHÂN LỚP MỘT LỚP 12 2.1 2.2 Đặc trưng n-gram phiên 2v-gram 12 Sử dụng kết hợp nhiều phân lớp lớp 17 2.2.1 Bộ phân lớp lớp 17 2.2.2 Kết hợp nhiều phân lớp lớp 18 CHƯƠNG WEB 3.1 3.2 3.3 3.4 CHƯƠNG RÚT GỌN ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG 21 Tổng quan 21 Loại bỏ đặc trưng không xuất 22 Rút gọn đặc trưng phương pháp phân cụm 25 Rút gọn đặc trưng sử dụng lý thuyết tập thơ mờ 25 MƠ HÌNH ĐƯỢC ĐỀ XUẤT 33 4.1 Kết hợp nhiều phân lớp lớp với đặc trưng rút gọn tập thô mờ 33 4.1.1 Huấn luyện 34 4.1.2 Tính toán ngưỡng phân lớp 35 4.1.3 Kiểm thử mơ hình 36 4.2 Thực nghiệm 38 4.2.1 Cài đặt thực nghiệm 38 4.2.2 Các tập liệu sử dụng 41 4.2.3 Các bước tiến hành cụ thể 42 4.2.4 Kết so sánh 46 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC HÌNH VẼ Hình 2.1 Payload công tràn đệm 12 Hình 2.2 3-gram sinh từ chuỗi 13 Hình 2.3.Các đặc trưng 21-gram 16 Hình 2.4.Sơ đồ tổng quan McPAD 18 Hình 3.1 Các bước trình lựa chọn đặc trưng 22 Hình 3.2.Lựa chọn đặc trưng theo Hướng tiếp cận lọc đóng gói 22 Hình 3.3: So sánh kết phát OcPAD so với ANAGRAM [5] 24 Hình 4.1 Sơ đồ tiến trình thực giai đoạn huấn luyện đề xuất 35 Hình 4.2 Sơ đồ giai đoạn tính threshold 36 Hình 4.3 Tiến trình thực giai đoạn test 37 Hình 4.4.Chương trình giai đoạn giai đoạn huấn luyện 39 Hình 4.5 Chương trình giai đoạn kiểm thử 39 Hình 4.6.Cấu trúc liệu file ARFF cho Tool Weka 40 Hình 4.7.Chạy rút gọn đặc trưng với công cụ Weka 40 Hình 4.8: Kết chạy chương trình kiểm thử file allGeneric 47 Hình 4.9 Kết chạy chương trình kiểm thử file test_normal 47 DANH SÁCH BẢNG BIỂU Bảng 1.1: Thống kê top 10 quốc gia có số lượng cơng ứng dụng web quý IV năm 2017 [18] Bảng 3.1 Kết phân lớp thuật toán [6] 23 Bảng 3.2: Kết thống kê số lượng n-gram khác tổng số n-gram tương ứng với giá trị N [5] 24 Bảng 3.3: Kích thước tập rút gọn rút gọn thuộc tính thơ mờ khơng giám sát [3] 31 Bảng 3.4:độ xác phân lớp với thuật toán Jrip (%) [3] 31 Bảng 3.5: Độ xác phân lớp với thuật toán J48(%) [3] 32 Bảng 4.1: Thơng tin chương trình thực nghiệm 38 Bảng 4.2: Kết số đặc trưng cịn lại sau loại bỏ đặc trưng khơng xuất 43 Bảng 4.3: Kết rút gọn đặc trưng sử dụng tập thô mờ không giám sát 43 Bảng 4.4.Thời gian chạy để rút gọn đặc trưng với tập thô mờ không giám sát 44 Bảng 4.5: Ma trận nhầm lẫn 46 Bảng 4.6: So sánh độ xác McPAD McPAD-UFRS 48 Bảng 4.7 So sánh thời gian chạy McPAD McPAD-UFRS 48 DANH SÁCH CÁC TỪ VIẾT TẮT Thuật ngữ viết tắt Mô tả Anomaly Bất thường Misuse Lạm dụng McPAD - Multiple Classifier Hệ thống phân lớp đa lớp cho phát System for Accurate Payload- bất thường dựa payload based Anomaly Detection hacker Kẻ công FPR – false positive rate Tỷ lệ dương tính giả Payload Phần nội dung gói tin PAYL- payload-based anomaly Hệ thống phát bất thường dựa detector payload OcPAD - One class Naive Bayes Bộ phân lớp lớp Bayes cho Phát classifier for payload-based bất thường dựa payload anomaly detection RST – Rough set theory Lý thuyết tập thô FS – Feature selection Lựa chọn đặc trưng FRST- Fuzzy rough set theory Lý thuyết tập thô mờ FRST FS – Fuzzy rough set Lựa chọn đặc trưng sử dụng lý thuyết theory feature selection tập thô mờ SVM support vector machine MỞ ĐẦU Phát công việc làm có ý nghĩa lớn việc bảo vệ ứng dụng Web khỏi công có chủ đích Phát cơng dựa vào bất thường có khả phát cơng chưa phát trước (zero-day) mà hệ thống phát thâm nhập dựa vào chữ ký (signature-based), cịn gọi misuse (phát lạm dụng) khơng thể phát Trong phương pháp phát công web dựa vào bất thường, n-gram đặc trưng quan trọng sử dụng để mơ hình hóa HTTP request thơng thường, từ phát request bất thường hay request công Với số lượng đặc trưng n-gram lớn, trích chọn đặc trưng (feature selection) hay giảm kích thước/số chiều vector đặc trưng (dimension reduction) bước quan trọng giai đoạn tiền xử lý liệu Nó giúp loại bỏ đặc trưng dư thừa, giữ lại đặc trưng giàu thông tin (information-rich), giúp tăng hiệu trình phát cơng, đồng thời giảm thời gian tính tốn cần thiết Với nhiệm vụ bảo vệ thời gian thực, số lượng truy cập (HTTP request) cần phải xử lý lớn, việc rút gọn đặc trưng có vai trị quan trọng Do đó, việc nghiên cứu phương pháp giảm kích thước đặc trưng cho tốn phát cơng Web dựa vào bất thường cần thiết Luận văn nghiên cứu phương pháp giảm kích thước đặc trưng phát công Web dựa vào bất thường Phương pháp áp dụng vào mơ hình phát công dựa vào bất thường sử dụng nhiều phân lớp lớp cho kết thực nghiệm tốt so với mơ hình nghiên cứu trước độ xác thời gian thực thi Lý thuyết tập thô mờ cho thấy hiệu xử lý dạng liệu liên tục số thực Các phương pháp rút gọn đặc trưng sử dụng tập thô mờ dựa phụ thuộc tập đặc trưng tập liệu vào tập đặc trưng Nếu đặc trưng sau loại bỏ khỏi tập đặc trưng mà độ phụ thuộc liệu khơng đổi đặc trưng dư thừa loại bỏ Mơ hình luận văn đề xuất sử dụng lý thuyết tập thô mờ để giảm kích vector đặc trưng trích chọn kỹ thuật nv-gram Nó cho thấy hiệu tốt việc giảm kích thước khơng gian đặc trưng mà cho kết phân lớp xác cao CHƯƠNG GIỚI THIỆU Các ứng dụng web ngày đa dạng phổ biến, hầu hết ứng dụng triển khai web, ứng dụng web trở thành mục tiêu công hàng đầu hacker Các công không phát ngăn chặn kịp thời gây tổn thất lớn cho tổ chức, doanh nghiệp Theo báo cáo tình trạng an ninh mạng Quý IV năm 2017 Công ty Akamai Technologies [18] có 300 triệu cơng ứng dụng web xảy Mỹ quốc gia xảy nhiều công ứng dụng web với 200 triệu công Bảng 1.1: Thống kê top 10 quốc gia có số lượng cơng ứng dụng web quý IV năm 2017 [18] Quốc gia Số lượng công United States 238,643,360 Brazil 21,900,411 United Kingdom 19,385,710 Canada 17,459,934 Germany 13,432,389 China 11,906,342 India 11,546,530 Japan 10,510,981 Australia 9,758,428 Hong Kong 5,733,649 An ninh ứng dụng Web chủ đề nhận nhiều quan tâm cộng đồng nghiên cứu Hai cách tiếp cận thường dùng phát cơng web phát cơng lạm dụng (Misuse detection) phát công dựa vào bất thường (Anomaly detection) Phát công misuse dựa mô tả tập công biết từ trước Mô tả request công biết trước thường mơ hình thành chữ ký hay dấu hiệu cơng (attack signatures) Các request có tương đồng lớn với attack signature phân loại hành vi có mục đích độc hại (malicious activities) Ngược lại, phát công dựa bất thường dựa vào mơ tả request bình thường hay vô hại Các request cho độc hại có khoảng cách đánh giá so với request bình thường lớn ngưỡng 37 - Bước 4: So sánh nhãn thu với nhãn biết để xác định độ xác phân lớp Hình 4.3 Tiến trình thực giai đoạn test 38 4.2 Thực nghiệm Trong phần này, luận văn mô tả chi tiết q trình cài đặt thí nghiệm, cụ thể bước tiến hành kết so sánh thực tế so sánh với McPAD [7] 4.2.1 Cài đặt thực nghiệm Mã nguồn luận văn để thực thí nghiệm mã nguồn McPAD chỉnh sửa, bổ sung module, chức tính tốn cho phù hợp với mơ hình chúng tơi đề xuất Mục 4.1 Mã nguồn McPAD công khai địa http://roberto.perdisci.com/projects/mcpad, sử dụng dạng mã nguồn mở cho mục đích nghiên cứu Mơi trường thực nghiệm có thơng tin Bảng 4.1 Bảng 4.1: Thơng tin chương trình thực nghiệm Mơi trường thực nghiệm - Processor: Intel Core i5-6500HQ – cores – 2,3Ghz - Memory: DDRAM – 12 GB - Hard disk: SSD 240 GB - System type: 64-bit Operating system - Windows 10 Pro Ngôn ngữ sử dụng JAVA Công cụ lập trình (IDE) Eclipse 4.7.2 Thư viện LibSVM, Jpcap Cơng cụ khác Weka 3.7.2 có package FRST Mã nguồn viết tồn ngơn ngữ JAVA có sử dụng thư viện LibSVM, Jpcap 39 Hình 4.4.Chương trình giai đoạn giai đoạn huấn luyện Hình 4.5 Chương trình giai đoạn kiểm thử 40 Hình 4.6.Cấu trúc liệu file ARFF cho Tool Weka Hình 4.7.Chạy rút gọn đặc trưng với cơng cụ Weka Q trình thử nghiệm rút gọn kích thước đặc trưng thực công cụ Weka Weka (Waikato Environment for Knowledge Analysis) phần mềm có thuật tốn học máy cho việc khai phá liệu Đại học Waikato, New Zealand phát triển ngôn ngữ Java.Weka phần mềm nguồn mở cấp theo giấy phép GNU 41 Weka sử dụng rộng rãi cộng đồng nghiên cứu khai phá liệu học máy Các phiên weka có nhiều thuật tốn học máy, khai phá liệu cho nhu cầu thí nghiệm khác Weka có nhiều tiện ích hỗ trợ cho việc trình diễn, phân tích kết thực nghiệm Phiên Weka sử dụng thực nghiệm luận văn phiên Weka 3.7.2 bổ sung thư viện thuật toán rút gọn thuộc tính sử dụng lý thuyết tập thơ mờ tác giả Richard Jensen người đề xuất nhiều thuật tốn rút gọn thuộc tính sử dụng lý thuyết tập thơ mờ Phiên Weka có thư viện tập thơ mờ tải từ đường dẫn: http://users.aber.ac.uk/rkj/book/wekafull.jar Hướng dẫn chi tiết trình sử dụng cơng cụ trình bày [12] 4.2.2 Các tập liệu sử dụng 4.2.2.1 Tập liệu bình thường Tập liệu sử dụng để huấn luyện luận văn tập HTTP request xuất từ tập liệu DARPA’99 [11] Tập liệu DARPA bao gồm HTTP request thu thập mô HTTP request bình thường đến khơng qn năm ngày Tập liệu DARPA gộp toàn lại chia lại thành hai phần Phần thứ dùng để kiểm tra kết phân loại thí nghiệm Phần thứ hai chia thành hai phần, phần thứ để sử dụng cho việc huấn luyện mơ hình mẫu cho phân lớp, khoảng 10% cịn lại để đánh giá mơ hình tính tốn threshold 4.2.2.2 Tập liệu cơng Tập liệu chứa HTTP request công sử dụng luận văn HTTP request attack công bố tác giả [14] Chúng gọi “Tấn công thông thường” (Generic Attack) Tập liệu Tấn công thông thường bao gồm tất HTTP attack cung cấp tác giả báo [14] công shell-code khai thác lỗ hổng (MS03-022) địch vụ Windows Media (WMS) Trong tập liệu có tổng số 66 cơng thơng thường (205 gói tin cơng) Trong đó, có 11 cơng shell-code (Tấn cơng có mang câu lệnh thực thi payload) Dữ liệu cơng bố tải từ đường dẫn: http://roberto.perdisci.com/projects/mcpad 42 4.2.3 Các bước tiến hành cụ thể Trong McPAD [7], tác giả thực thử nghiệm với nhiều giá trị tham số khác Kết thử nghiệm kể m = (số lượng phân lớp) cho kết phân loại xác tốt Trong trình thực nghiệm, luận văn thực thử nghiệm với phân lớp, tương ứng với 2v-gram, với v =0,1…, Q trình trích xuất đặc trưng từ tập liệu thực trích xuất 20-gram, 21-gram, 22-gram, 23-gram, 24-gram Các bước tiến hành cụ thể thực nghiệm với giai đoạn huấn luyện, tính tốn ngưỡng kiểm thử trình phần sau 4.2.3.1 Giai đoạn huấn luyện Giai đoạn huấn luyện sử dụng file định dạng PCAP gồm file “training.pcap” chứa gói tin bình thường tập liệu DARPA mô tả phần 4.2.1 tập liệu huấn luyện cho mơ hình phân lớp File “all.pcap” chứa toàn gói tin huấn luyện kiểm thử cơng có để xác định đặc trưng khơng xuất Giai đoạn huấn luyện luận văn thực qua bước sau: - Bước 1: Đối với 2v-gram cần tính tốn, thực đếm số lần xuất đặc trưng 2v-gram toàn payload tập liệu có Kết bước thu vector gồm 65.536 phần tử, phần tử số lần xuất đặc trưng toàn tập liệu - Bước 2: Loại bỏ đặc trưng không xuất không gian đặc trưng tập liệu huấn luyện thu từ bước Hay nói cách khác số lần xuất đặc trưng đếm toàn tập liệu huấn luyện Lưu lại đặc trưng có số lần xuất toàn tập liệu > - Bước 3: Thực tạo file có định dạng ARFF (định dạng file đầu vào cho công cụ Weka), với dòng liệu file ARFF đặc trưng gói tin từ tập liệu huấn luyện tương ứng với đặc trưng > lưu lại bước 2v-gram - Bước 4: Sử dụng cơng cụ Weka có cài đặt sẵn thư viện có thuật tốn lý thuyết tập thô mờ để thực rút gọn đặc trưng Với input thuật toán file ARFF tương ứng với 2v-gram tạo bước 43 Các đặc trưng lại sau rút gọn công cụ weka lưu lại thành file danh sách đặc trưng rút gọn tương ứng với 2v-gram - Bước 5: Dựa kết rút gọn đặc trưng bước 4, sinh file liệu theo định dạng file huấn luyện SVM để training cho máy SVM Không gian số chiều đặc trưng bước bao gồm đặc trưng cịn lại sau rút gọn với lý thuyết tập thơ mờ - Bước 6: Huấn luyện phân lớp SVM với file liệu tạo bước Kết bước tạo model SVM tương ứng với các tập 2vgram ta cần huấn luyện Khi thực bước loại bỏ đặc trưng 2v-gram không xuất lần không gian đặc trưng toàn tập liệu huấn luyện Kết thu bảng 4.2 sau: Bảng 4.2: Kết số đặc trưng lại sau loại bỏ đặc trưng không xuất Tổng số đặc trưng Số đặc trưng Tỷ lệ (sau loại bỏ count = 0) (%) 20-gram 65.536 7079 10.80 21-gram 65.536 7706 11.76 22-gram 65.536 8042 12.27 23-gram 65.536 8287 12.64 24-gram 65.536 8413 12.84 Khi thực rút gọn đặc trưng áp dụng lý thuyết tập thô mờ không giám sát không gian đặc trưng loại bỏ đặc trưng không xuất lần Kết thu thể bảng 4.3 sau: Bảng 4.3: Kết rút gọn đặc trưng sử dụng tập thô mờ không giám sát Tổng số đặc trưng trước rút gọn Số đặc trưng (sau rút gọn đặc trưng) Tỷ lệ (%) 20-gram 7079 3502 49.47 21-gram 7706 3986 51.73 44 22-gram 8042 3479 43.26 23-gram 8287 4032 48.65 24-gram 8413 4110 48.85 Ta thấy số lượng đặc trưng cịn lại sau q trình rút gọn đặc trưng giảm đáng kể so với 2562 đặc trưng ban đầu, kết rút gọn cuối cịn khoảng 6% đặc trưng có giá trị thơng tin cao Thời gian chạy để kết rút gọn đặc trưng công cụ Weka thể bảng 4.4 Để có kết rút gọn đặc trưng cần phải có thời gian chạy tương đối lâu Ở số lượng gói tin dùng để tạo file input cho cơng cụ Weka khoảng 2000 gói tin Vì vậy, thời gian để thực thi rút gọn đặc trưng sử dụng lý thuyết tập thô mờ vấn đề lớn cần phải xử lý khối lượng liệu không gian đặc trưng lớn Bảng 4.4.Thời gian chạy để rút gọn đặc trưng với tập thô mờ không giám sát Số đặc trưng (sau rút gọn đặc trưng) Thời gian chạy (phút) 20-gram 3502 30 21-gram 3986 35 22-gram 3479 31 23-gram 4032 30 24-gram 4110 40 4.2.3.2 Giai đoạn tính tốn ngưỡng Giai đoạn tính tốn threshold luận văn sử dụng file “validationNormal.pcap” sinh từ tập liệu DARPA mô tả phần 4.2.1 để làm tập liệu kiểm tra cho model sinh giai đoạn huấn luyện Giai đoạn tính tốn ngưỡng luận văn gồm có bước sau: - Bước 1: Từ tập liệu để tính tốn threshold tương ứng với tỷ lệ dương tính giả đặt trước (FPR desired) Trích xuất đặc trưng sau rút gọn giai đoạn 45 huấn luyện 2v-gram load model SVM sinh giai đoạn huấn luyện - Bước 2: Test model SVM sinh bước tập liệu dùng để tính tốn threshold Kết nhãn gói tin kiểm thử tổng lại lưu vào vector tổng hợp kết Dựa vào FPR desired xác định trước, ta tính giá trị ngưỡng (threshold) tương ứng Giá trị ngưỡng giá trị tổng cộng nhãn phân lớp lớp SVM - Bước 3: Giá trị ngưỡng tính dùng để sử dụng giai đoạn kiểm thử 4.2.3.3 Giai đoạn kiểm thử Trong bước kiểm tra tính độ xác phân lớp model sinh giai đoạn huấn luyện, luận văn sử dụng tập liệu công để xác định tỷ lệ phát tập liệu liệu bình thường để xác định tỷ lệ dương tính giả Các file liệu để kiểm tra mơ hình: - File liệu “allGeneric.pcap” gồm 205 gói tin cơngđể kiểm tra khả phát - File liệu “1000_test_normal.pcap” gồm 1040 gói tin HTTP bình thường để kiểm tra tỷ lệ phát sai Giai đoạn kiểm thử gồm có bước sau - Bước 1: Thực nội dung • Đối với gói tin cần kiểm tra, thực trích xuất đặc trưng 2v-gram tương ứng với đặc trưng lại sau rút gọn đặc trưng gian đoạn huấn luyện từ payload gói tin • Load model SVM tương ứng với phân lớp ngưỡng đặt trước giai đoạn huấn luyện - Bước 2: Thực test máy SVM ứng với model 2v-gram bước - Bước 3: Tổng hợp kết chạy từ máy SVM bước 3, Căn vào ngưỡng giai đoạn training để kết luận nhãn payload công hay không - Bước 4: So sánh nhãn biết trước với nhãn luận văn kết luận để xác định tỷ lệ phát tỷ lệ dương tính giả 46 4.2.4 Kết so sánh Đánh giá dựa phương pháp ma trận nhầm lẫn Một mơ hình phân lớp đánh giá dựa tỷ lệ phát tỷ lệ dương tính giả Mơ hình phân lớp coi tốt tỷ lệ phát cao (TPR) tỷ lệ dương tính giả (FPR) thấp Bảng 4.5: Ma trận nhầm lẫn Lớp thực (True Lớp dự đoán (Predicted class) class) Dương (Positive) Âm (Negative) Dương (Positive) True Positive - TP False Negative FN Âm (Negative) False Positive - FP True Negative TN TP (True Positive): Mẫu mang nhãn dương phân lớp vào lớp dương FN (False Negative): Mẫu mang nhãn dươngđược phân lớp sai vào lớp âm FP (False Positive): Mẫu mang nhãn âm bị phân lớp sai vào lớp dương TN (true negative): Mẫu mang nhãn âm phân lớp vào lớp âm TPR (True positive rate) hay tỷ lệ phát (detection rate) tính cơng thức sau: 𝑇𝑃𝑅 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 FPR (False positive rate) – Tỷ lệ dương tính giả tính cơng thức sau: 𝐹𝑃𝑅 = 𝐹𝑃 𝐹𝑃 + 𝑇𝑁 47 Hình 4.8: Kết chạy chương trình kiểm thử file allGeneric Hình 4.9 Kết chạy chương trình kiểm thử file test_normal Kết thực nghiệm Luận văn thực chạy phiên McPAD nguyên phiên McPAD-UFRS luận văn đề xuất liệu - Một tập liệu chứa gói tin độc hại để so sánh tỷ lệ phát (file allGeneric.pcap) - Một tập liệu chứa gói tin khơng độc hại biết trước để so sánh tỷ lệ phát sai (file 1000_normal_test.pcap) 48 Kết so sánh độ xác phát sai hai mơ hình trình bày bảng 4.6 Bảng 4.7 thể thời gian thực thi cần thiết hai mơ hình để kiểm tra xong tập liệu sử dụng Bảng 4.6: So sánh độ xác McPAD McPAD-UFRS True Positive False Positive (Generic Attack) (1040 normal HTTP packet) McPAD [7] 86,89% 0,096% McPAD-UFRS 98,06% 0% Bảng 4.7 So sánh thời gian chạy McPAD McPAD-UFRS Khi kiểm thử file “allGeneric” Khi kiểm thử file “1000_test_normal” McPAD [7] 17 s 23 s McPAD-UFRS 7s 10 s Nhận xét: Khi so sánh với phiên McPAD gốc, kết thực nghiệm luận văn cho tỷ lệ phát gói tin độc hại cao hơn, tỷ lệ phát sai (FPR) thấp Thời gian để thực trình kiểm thử tập liệu McPAD-UFRS nhanh nhiều so với McPAD nguyên (khoảng lần) McPADUFRS nhanh McPAD [7] trước phân lớp gói tin, cần phải load tập đặc trưng lại sau rút gọn số chiều tương ứng với phân lớp lớp Đối với McPAD-UFRS, tập đặc trưng sau rút gọn cuối lưu trực tiếp Còn McPAD gốc tập đặc trưng cuối lưu dạng ánh xạ 2562 đặc trưng k phân cụm Vì vậy, thời gian để load mơ hình liệu McPAD gốc lâu so với McPAD-UFRS (thực load m lần ánh xạ 65536 đặc trưng ban đầu k phân cụm Tốc độ để thực phân lớp gói tin sau load tập đặc trưng gần tương đương 49 KẾT LUẬN Lý thuyết tập thô mờ lý thuyết quan tâm cộng đồng nghiên cứu thời gian gần đây, đặc biệt ứng dụng trình rút gọn đặc trưng trình tiền xử lý liệu, giúp giảm thiểu tối đa số lượng đặc trưng dư thừa, tăng tính xác, giảm thời gian thực thi trình phân lớp, phân loại Qua trình nghiên cứu, tìm hiểu, thử nghiệm, luận văn đạt số kết sau: - Tìm hiểu phát công web dựa vào bất thường sử dụng đặc trưng n-gram phân lớp lớp - Tìm hiểu tổng quan rút gọn đặc trưng, vấn đề rút gọn đặc trưng phát cơng Web dựa vào bất thường - Tìm hiểu tổng quan lý thuyết tập thô mờ ứng dụng lý thuyết tập thô mờ rút gọn đặc trưng - Đề xuất mơ hình áp dụng rút gọn đặc trưng sử dụng lý thuyết tập thô mờ cho toán phân lớp sử dụng nhiều phân lớp lớp Kết phân lớp mơ hình đề xuất tốt độ xác thời gian thực thi so với toán phân lớp sử dụng nhiều phân lớp rút gọn đặc trưng phương pháp phân cụm có Một điểm hạn chế việc áp dụng lý thuyết tập thô mờ thời gian tính tốn cho kết rút gọn đặc trưng lâu, tập liệu có kích thước khơng gian đặc trưng lớn Hướng nghiên cứu đề tài thử nghiệm mơ hình đề xuất tập liệu CSIC 2010[17], CICIDS2017[19] Ngoài ra, ta cần nghiên cứu phương pháp áp dụng mô hình tính tốn phân tán tính tốn song song cho q trình rút gọn kích cỡ đặc trưng sử dụng lý thuyết tập thô mờ để tăng tốc thời gian tính tốn 50 TÀI LIỆU THAM KHẢO Tiếng Anh [1] D Dubois, H Prade (1990), “Rough fuzzy sets and fuzzy rough sets,” International Journal of General Systems, vol 17, 91–209, 1990 [2] B Schőlkopf, J Platt, J Shawe-Taylor, A J Smola, and RC Williamson Estimating the support of a high-dimensional distribution Neural Computation, 13:1443–1471, 2001 [3] Mac Parthaláin, Neil & Jensen, Richard (2009) Measures for Unsupervised Fuzzy-Rough Feature Selection Int J Hybrid Intell Syst 560-565 10.1109/ISDA.2009.45 [4] Jensen, Richard & Shen, Qiang (2009) New Approaches to Fuzzy-Rough Feature Selection IEEE Transactions on Fuzzy Systems 17 10.1109/TFUZZ.2008.924209 [5] M Swarnkar and N Hubballi (2016) OCPAD: One class Naive Bayes classifier for payloadbased anomaly detection Expert Systems with Applications 64,pp330-339 [6] Pastrana S., Torrano-Gimenez C., Nguyen H.T., Orfila A (2015) Anomalous Web Payload Detection: Evaluating the Resilience of 1-Grams Based Classifiers In: Camacho D., Braubach L., Venticinque S., Badica C (eds) Intelligent Distributed Computing VIII Studies in Computational Intelligence, vol 570 Springer, Cham [7] R Perdisci, D Ariu, P Fogla, G Giacinto, W Lee (2009) "McPAD: A Multiple Classifier System for Accurate Payload-based Anomaly Detection." Computer Networks, Special Issue on Traffic Classification and Its Applications to Modern Networks, 5(6), pp 864-881 [8] K Wang and S Stolfo Anomalous payload-based network intrusion detection In Recent Advances in Intrusion Detection (RAID), 2004 [9] K Wang and S Stolfo Anomalous payload-based worm detection and signature generation In Recent Advances in Intrusion Detection (RAID),2005 [10] Wang, K., Parekh, J., & Stolfo, S (2006) Anagram: A content anomaly detector resistant to mimicry attack In Raid’06: Proceedings of the 9th international conferenceon recent advances in intrusion detection (pp 226– 248) 51 [11] R Lippmann, J W Haines, D J Fried, J Korba, and K Das (2000) The 1999 darpa off-line intrusion detection evaluation Computer Networks, 34(4):579–595 [12] Richard Jensen (2010) Fuzzy-rough data mining with Weka http://users.aber.ac.uk/rkj/Weka.pdf [13] I S Dhillon, S Mallela, and R Kumar (2003) A divisive informationtheoretic feature clustering algorithm for text classification Journal of Machine Learning Research, 3:1265–1287 [14] K L Ingham and H Inoue (2007) Comparing anomaly detection techniques for HTTP In Recent Advances in Intrusion Detection (RAID) [15] Kruegel, Christopher & Vigna, Giovanni (2003) Anomaly Detection of Web-based Attacks Proceedings of the ACM Conference on Computer and Communications Security 10.1145/948109.948144 [16] Reddy, R & Yellasiri, Ramadevi & Sunitha (2016) Robust Data Model for Enhanced Anomaly Detection 10.1007/978-981-10-0755-2_47 [17] http://www.isi.csic.es/dataset/ [18] https://www.akamai.com/us/en/multimedia/documents/state-of-theinternet/q4-2017-state-of-the-internet-security-report.pdf [19] Sharafaldin, Iman & Habibi Lashkari, Arash & Ghorbani, Ali (2018) Toward Generating a New Intrusion Detection Dataset and Intrusion Traffic Characterization 108-116 10.5220/0006639801080116 ... gọi misuse (phát lạm dụng) phát Trong phương pháp phát công web dựa vào bất thường, n-gram đặc trưng quan trọng sử dụng để mơ hình hóa HTTP request thơng thường, từ phát request bất thường hay... gọn đặc trưng có vai trị quan trọng Do đó, việc nghiên cứu phương pháp giảm kích thước đặc trưng cho tốn phát cơng Web dựa vào bất thường cần thiết Luận văn nghiên cứu phương pháp giảm kích thước. .. Luận văn nghiên cứu phương pháp giảm kích thước đặc trưng phát công Web dựa vào bất thường Phương pháp áp dụng vào mơ hình phát cơng dựa vào bất thường sử dụng nhiều phân lớp lớp cho kết thực