Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,04 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THANH BÌNH GIẢM KÍCH CỠ ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB DỰA VÀO BẤT THƯỜNG LUẬN VĂN THẠC SĨ AN TỒN THƠNG TIN Hà Nội, 11/2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THANH BÌNH GIẢM KÍCH CỠ ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB DỰA VÀO BẤT THƯỜNG Ngành: Cơng nghệ thơng tin Chun ngành: An tồn thơng tin Mã Số: 8480102.01 LUẬN VĂN THẠC SĨ AN TỒN THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ ĐÌNH THANH Hà Nội – 2019 i LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, TS Lê Đình Thanh – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo Khoa Công nghệ Thông tin, Trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho suốt trình học tập, nghiên cứu trường Đồng thời, xin cảm ơn tất người thân yêu gia đình tơi tồn thể bạn bè người giúp đỡ, động viên vấp phải khó khăn, bế tắc Mặc dù cố gắng, nỗ lực luận văn chắn khơng tránh khỏi thiếu sót, tơi mong nhận ý kiến đánh giá phê bình từ phía Thầy Cơ để luận văn hồn thiện Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2019 Học viên Lê Thanh Bình ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ cơng nghệ thơng tin “Giảm kích cỡ đặc trưng phát công Web dựa vào bất thường” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 10 tháng 10 năm 2019 Lê Thanh Bình MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC HÌNH VẼ DANH SÁCH BẢNG BIỂU DANH SÁCH CÁC TỪ VIẾT TẮT MỞ ĐẦU CHƯƠNG CHƯƠNG PHÁT HIỆN TẤN CÔNG WEB SỬ DỤNG ĐẶC TRƯNG NGRAM VÀ BỘ PHÂN LỚP MỘT LỚP 2.1 2.2 CHƯƠNG RÚT GỌN ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB 3.1 3.2 3.3 3.4 CHƯƠNG MƠ HÌNH ĐƯỢC ĐỀ XUẤT 4.1 tập thô mờ 4.2 KẾT LUẬN .49 TÀI LIỆU THAM KHẢO 50 DANH MỤC HÌNH VẼ Hình 2.1 Payload cơng tràn đệm Hình 2.2 3-gram sinh từ chuỗi Hình 2.3.Các đặc trưng 21-gram Hình 2.4.Sơ đồ tổng quan McPAD Hình 3.1 Các bước trình lựa chọn đặc trưng Hình 3.2.Lựa chọn đặc trưng theo Hướng tiếp cận lọc đóng gói Hình 3.3: So sánh kết phát OcPAD so với ANAGRAM [5] Hình 4.1 Sơ đồ tiến trình thực giai đoạn huấn luyện đề xuất Hình 4.2 Sơ đồ giai đoạn tính threshold Hình 4.3 Tiến trình thực giai đoạn test Hình 4.4.Chương trình giai đoạn giai đoạn huấn luyện Hình 4.5 Chương trình giai đoạn kiểm thử Hình 4.6.Cấu trúc liệu file ARFF cho Tool Weka Hình 4.7.Chạy rút gọn đặc trưng với công cụ Weka Hình 4.8: Kết chạy chương trình kiểm thử file allGeneric Hình 4.9 Kết chạy chương trình kiểm thử file test_normal DANH SÁCH BẢNG BIỂU Bảng 1.1: Thống kê top 10 quốc gia có số lượng cơng ứng dụng web quý IV năm 2017 [18] Bảng 3.1 Kết phân lớp Bảng 3.2: Kết thống kê số lượng n-gram khác tổng số n-gram tương ứng với giá trị N [5] Bảng 3.3: Kích thước tập rút gọn rút gọn thuộc tính thô mờ không giám sát [3] Bảng 3.4:độ xác phân lớp với thuật tốn Jrip (%) [3] Bảng 3.5: Độ xác phân lớp với thuật tốn J48(%) [3] Bảng 4.1: Thơng tin chương trình thực nghiệm Bảng 4.2: Kết số đặc trưng lại sau loại bỏ đặc trưng không xuất 43 Bảng 4.3: Kết rút gọn đặc trưng sử dụng tập thô mờ không giám sát Bảng 4.4.Thời gian chạy để rút gọn đặc trưng với tập thô mờ không giám sát Bảng 4.5: Ma trận nhầm lẫn Bảng 4.6: So sánh độ xác McPAD McPAD-UFRS Bảng 4.7 So sánh thời gian chạy McPAD McPAD-UFRS DANH SÁCH CÁC TỪ VIẾT TẮT Thuật ngữ viết tắt Anomaly Misuse McPAD - Multiple Classifier System for Accurate Payloadbased Anomaly Detection hacker FPR – false positive rate Payload PAYL- payload-based anomaly detector OcPAD - One class Naive Bayes classifier for payload-based anomaly detection RST – Rough set theory FS – Feature selection FRST- Fuzzy rough set theory FRST FS – Fuzzy rough set theory feature selection SVM MỞ ĐẦU Phát cơng việc làm có ý nghĩa lớn việc bảo vệ ứng dụng Web khỏi cơng có chủ đích Phát cơng dựa vào bất thường có khả phát công chưa phát trước (zero-day) mà hệ thống phát thâm nhập dựa vào chữ ký (signature-based), gọi misuse (phát lạm dụng) phát Trong phương pháp phát công web dựa vào bất thường, n-gram đặc trưng quan trọng sử dụng để mơ hình hóa HTTP request thơng thường, từ phát request bất thường hay request công Với số lượng đặc trưng n-gram lớn, trích chọn đặc trưng (feature selection) hay giảm kích thước/số chiều vector đặc trưng (dimension reduction) bước quan trọng giai đoạn tiền xử lý liệu Nó giúp loại bỏ đặc trưng dư thừa, giữ lại đặc trưng giàu thơng tin (information-rich), giúp tăng hiệu q trình phát cơng, đồng thời giảm thời gian tính toán cần thiết Với nhiệm vụ bảo vệ thời gian thực, số lượng truy cập (HTTP request) cần phải xử lý lớn, việc rút gọn đặc trưng có vai trị quan trọng Do đó, việc nghiên cứu phương pháp giảm kích thước đặc trưng cho tốn phát công Web dựa vào bất thường cần thiết Luận văn nghiên cứu phương pháp giảm kích thước đặc trưng phát công Web dựa vào bất thường Phương pháp áp dụng vào mô hình phát cơng dựa vào bất thường sử dụng nhiều phân lớp lớp cho kết thực nghiệm tốt so với mơ hình nghiên cứu trước độ xác thời gian thực thi Lý thuyết tập thô mờ cho thấy hiệu xử lý dạng liệu liên tục số thực Các phương pháp rút gọn đặc trưng sử dụng tập thô mờ dựa phụ thuộc tập đặc trưng tập liệu vào tập đặc trưng Nếu đặc trưng sau loại bỏ khỏi tập đặc trưng mà độ phụ thuộc liệu khơng đổi đặc trưng dư thừa loại bỏ Mơ hình luận văn đề xuất sử dụng lý thuyết tập thơ mờ để giảm kích vector đặc trưng trích chọn kỹ thuật nv-gram Nó cho thấy hiệu tốt việc giảm kích thước khơng gian đặc trưng mà cho kết phân lớp xác cao 37 Bước 4: So sánh nhãn thu với nhãn biết để xác định độ xác phân lớp - Hình 4.3 Tiến trình thực giai đoạn test 38 4.2 Thực nghiệm Trong phần này, luận văn mơ tả chi tiết q trình cài đặt thí nghiệm, cụ thể bước tiến hành kết so sánh thực tế so sánh với McPAD [7] 4.2.1 Cài đặt thực nghiệm Mã nguồn luận văn để thực thí nghiệm mã nguồn McPAD chỉnh sửa, bổ sung module, chức tính tốn cho phù hợp với mơ hình đề xuất Mục 4.1 Mã nguồn McPAD cơng khai địa http://roberto.perdisci.com/projects/mcpad, sử dụng dạng mã nguồn mở cho mục đích nghiên cứu Mơi trường thực nghiệm có thơng tin Bảng 4.1 Bảng 4.1: Thơng tin chương trình thực nghiệm Môi trường thực nghiệm Ngôn ngữ sử dụng Cơng cụ lập trình (IDE) Thư viện Cơng cụ khác Mã nguồn viết tồn ngơn ngữ JAVA có sử dụng thư viện LibSVM, Jpcap 39 Hình 4.4.Chương trình giai đoạn giai đoạn huấn luyện Hình 4.5 Chương trình giai đoạn kiểm thử 40 Hình 4.6.Cấu trúc liệu file ARFF cho Tool Weka Hình 4.7.Chạy rút gọn đặc trưng với cơng cụ Weka Q trình thử nghiệm rút gọn kích thước đặc trưng thực công cụ Weka Weka (Waikato Environment for Knowledge Analysis) phần mềm có thuật toán học máy cho việc khai phá liệu Đại học Waikato, New Zealand phát triển ngôn ngữ Java.Weka phần mềm nguồn mở cấp theo giấy phép GNU 41 Weka sử dụng rộng rãi cộng đồng nghiên cứu khai phá liệu học máy Các phiên weka có nhiều thuật toán học máy, khai phá liệu cho nhu cầu thí nghiệm khác Weka có nhiều tiện ích hỗ trợ cho việc trình diễn, phân tích kết thực nghiệm Phiên Weka sử dụng thực nghiệm luận văn phiên Weka 3.7.2 bổ sung thư viện thuật tốn rút gọn thuộc tính sử dụng lý thuyết tập thô mờ tác giả Richard Jensen người đề xuất nhiều thuật tốn rút gọn thuộc tính sử dụng lý thuyết tập thơ mờ Phiên Weka có thư viện tập thơ mờ tải từ đường dẫn: http://users.aber.ac.uk/rkj/book/wekafull.jar Hướng dẫn chi tiết trình sử dụng cơng cụ trình bày [12] 4.2.2 Các tập liệu sử dụng 4.2.2.1 Tập liệu bình thường Tập liệu sử dụng để huấn luyện luận văn tập HTTP request xuất từ tập liệu DARPA’99 [11] Tập liệu DARPA bao gồm HTTP request thu thập mô HTTP request bình thường đến không quân năm ngày Tập liệu DARPA gộp toàn lại chia lại thành hai phần Phần thứ dùng để kiểm tra kết phân loại thí nghiệm Phần thứ hai chia thành hai phần, phần thứ để sử dụng cho việc huấn luyện mơ hình mẫu cho phân lớp, khoảng 10% cịn lại để đánh giá mơ hình tính tốn threshold 4.2.2.2 Tập liệu công Tập liệu chứa HTTP request công sử dụng luận văn HTTP request attack công bố tác giả [14] Chúng gọi “Tấn công thông thường” (Generic Attack) Tập liệu Tấn công thông thường bao gồm tất HTTP attack cung cấp tác giả báo [14] công shell-code khai thác lỗ hổng (MS03-022) địch vụ Windows Media (WMS) Trong tập liệu có tổng số 66 cơng thơng thường (205 gói tin cơng) Trong đó, có 11 cơng shell-code (Tấn cơng có mang câu lệnh thực thi payload) Dữ liệu công bố tải từ đường dẫn: http://roberto.perdisci.com/projects/mcpad 42 4.2.3 Các bước tiến hành cụ thể Trong McPAD [7], tác giả thực thử nghiệm với nhiều giá trị tham số khác Kết thử nghiệm kể m = (số lượng phân lớp) cho kết phân loại xác tốt Trong trình thực nghiệm, luận văn thực thử nghiệm với phân lớp, tương ứng với 2v-gram, với v =0,1…, Q trình trích xuất đặc trưng từ tập liệu thực trích xuất 0-gram, 21-gram, 22-gram, 23-gram, 24-gram Các bước tiến hành cụ thể thực nghiệm với giai đoạn huấn luyện, tính tốn ngưỡng kiểm thử trình phần sau 4.2.3.1 Giai đoạn huấn luyện Giai đoạn huấn luyện sử dụng file định dạng PCAP gồm file “training.pcap” chứa gói tin bình thường tập liệu DARPA mơ tả phần 4.2.1 tập liệu huấn luyện cho mơ hình phân lớp File “all.pcap” chứa tồn gói tin huấn luyện kiểm thử cơng có để xác định đặc trưng không xuất Giai đoạn huấn luyện luận văn thực qua bước sau: - Bước 1: Đối với 2v-gram cần tính tốn, thực đếm số lần xuất đặc trưng 2v-gram toàn payload tập liệu có Kết bước thu vector gồm 65.536 phần tử, phần tử số lần xuất đặc trưng toàn tập liệu Bước 2: Loại bỏ đặc trưng không xuất không gian đặc trưng tập liệu huấn luyện thu từ bước Hay nói cách khác số lần xuất đặc trưng đếm toàn tập liệu huấn luyện Lưu lại đặc trưng có số lần xuất toàn tập liệu > - Bước 3: Thực tạo file có định dạng ARFF (định dạng file đầu vào cho công cụ Weka), với dòng liệu file ARFF đặc trưng gói tin từ tập liệu huấn luyện tương ứng với đặc trưng > lưu lại bước 2v-gram - Bước 4: Sử dụng cơng cụ Weka có cài đặt sẵn thư viện có thuật tốn lý thuyết tập thô mờ để thực rút gọn đặc trưng Với input thuật toán file ARFF tương ứng với 2v-gram tạo bước - 43 Các đặc trưng lại sau rút gọn công cụ weka lưu lại thành file danh sách đặc trưng rút gọn tương ứng với 2v-gram Bước 5: Dựa kết rút gọn đặc trưng bước 4, sinh file liệu theo định dạng file huấn luyện SVM để training cho máy SVM Không gian số chiều đặc trưng bước bao gồm đặc trưng lại sau rút gọn với lý thuyết tập thô mờ - Bước 6: Huấn luyện phân lớp SVM với file liệu tạo bước Kết bước tạo model SVM tương ứng với các tập 2vgram ta cần huấn luyện - Khi thực bước loại bỏ đặc trưng 2v-gram không xuất lần khơng gian đặc trưng tồn tập liệu huấn luyện Kết thu bảng 4.2 sau: Bảng 4.2: Kết số đặc trưng lại sau loại bỏ đặc trưng không xuất 20-gram 21-gram 22-gram 23-gram 24-gram Khi thực rút gọn đặc trưng áp dụng lý thuyết tập thô mờ không giám sát không gian đặc trưng loại bỏ đặc trưng không xuất lần Kết thu thể bảng 4.3 sau: Bảng 4.3: Kết rút gọn đặc trưng sử dụng tập thô mờ không giám sát 20-gram 21-gram 44 22-gram 23-gram 24-gram Ta thấy số lượng đặc trưng cịn lại sau trình rút gọn đặc trưng giảm đáng kể so với 256 đặc trưng ban đầu, kết rút gọn cuối khoảng 6% đặc trưng có giá trị thơng tin cao Thời gian chạy để kết rút gọn đặc trưng công cụ Weka thể bảng 4.4 Để có kết rút gọn đặc trưng cần phải có thời gian chạy tương đối lâu Ở số lượng gói tin dùng để tạo file input cho cơng cụ Weka khoảng 2000 gói tin Vì vậy, thời gian để thực thi rút gọn đặc trưng sử dụng lý thuyết tập thô mờ vấn đề lớn cần phải xử lý khối lượng liệu không gian đặc trưng lớn Bảng 4.4.Thời gian chạy để rút gọn đặc trưng với tập thô mờ không giám sát 20-gram 21-gram 22-gram 23-gram 24-gram 4.2.3.2 Giai đoạn tính tốn ngưỡng Giai đoạn tính tốn threshold luận văn sử dụng file “validationNormal.pcap” sinh từ tập liệu DARPA mô tả phần 4.2.1 để làm tập liệu kiểm tra cho model sinh giai đoạn huấn luyện Giai đoạn tính tốn ngưỡng luận văn gồm có bước sau: Bước 1: Từ tập liệu để tính tốn threshold tương ứng với tỷ lệ dương tính giả đặt trước (FPR desired) Trích xuất đặc trưng sau rút gọn giai đoạn - 45 huấn luyện 2v-gram load model SVM sinh giai đoạn huấn luyện Bước 2: Test model SVM sinh bước tập liệu dùng để tính tốn threshold Kết nhãn gói tin kiểm thử tổng lại lưu vào vector tổng hợp kết - Dựa vào FPR desired xác định trước, ta tính giá trị ngưỡng (threshold) tương ứng Giá trị ngưỡng giá trị tổng cộng nhãn phân lớp lớp SVM Bước 3: Giá trị ngưỡng tính dùng để sử dụng giai đoạn kiểm thử - 4.2.3.3 Giai đoạn kiểm thử Trong bước kiểm tra tính độ xác phân lớp model sinh giai đoạn huấn luyện, luận văn sử dụng tập liệu công để xác định tỷ lệ phát tập liệu liệu bình thường để xác định tỷ lệ dương tính giả Các file liệu để kiểm tra mơ hình: - File liệu “allGeneric.pcap” gồm 205 gói tin côngđể kiểm tra khả phát File liệu “1000_test_normal.pcap” gồm 1040 gói tin HTTP bình thường để kiểm tra tỷ lệ phát sai Giai đoạn kiểm thử gồm có bước sau - - - Bước 1: Thực nội dung • Đối với gói tin cần kiểm tra, thực trích xuất đặc trưng 2v-gram tương ứng với đặc trưng lại sau rút gọn đặc trưng gian đoạn huấn luyện từ payload gói tin • Load model SVM tương ứng với phân lớp ngưỡng đặt trước giai đoạn huấn luyện Bước 2: Thực test máy SVM ứng với model 2v-gram bước Bước 3: Tổng hợp kết chạy từ máy SVM bước 3, Căn vào ngưỡng giai đoạn training để kết luận nhãn payload công hay không Bước 4: So sánh nhãn biết trước với nhãn luận văn kết luận để xác định tỷ lệ phát tỷ lệ dương tính giả 46 4.2.4 Kết so sánh Đánh giá dựa phương pháp ma trận nhầm lẫn Một mơ hình phân lớp đánh giá dựa tỷ lệ phát tỷ lệ dương tính giả Mơ hình phân lớp coi tốt tỷ lệ phát cao (TPR) tỷ lệ dương tính giả (FPR) thấp Bảng 4.5: Ma trận nhầm lẫn Lớp thực (True class) Dương (Positive) Âm (Negative) TP (True Positive): Mẫu mang nhãn dương phân lớp vào lớp dương FN (False Negative): Mẫu mang nhãn dươngđược phân lớp sai vào lớp âm FP (False Positive): Mẫu mang nhãn âm bị phân lớp sai vào lớp dương TN (true negative): Mẫu mang nhãn âm phân lớp vào lớp âm TPR (True positive rate) hay tỷ lệ phát (detection rate) tính cơng thức sau: = + FPR (False positive rate) – Tỷ lệ dương tính giả tính cơng thức sau: = + 47 Hình 4.8: Kết chạy chương trình kiểm thử file allGeneric Hình 4.9 Kết chạy chương trình kiểm thử file test_normal Kết thực nghiệm Luận văn thực chạy phiên McPAD nguyên phiên McPAD-UFRS luận văn đề xuất liệu - Một tập liệu chứa gói tin độc hại để so sánh tỷ lệ phát (file allGeneric.pcap) Một tập liệu chứa gói tin không độc hại biết trước để so sánh tỷ lệ phát sai (file 1000_normal_test.pcap) 48 Kết so sánh độ xác phát sai hai mơ hình trình bày bảng 4.6 Bảng 4.7 thể thời gian thực thi cần thiết hai mơ hình để kiểm tra xong tập liệu sử dụng Bảng 4.6: So sánh độ xác McPAD McPAD-UFRS McPAD [7] McPAD-UFRS Bảng 4.7 So sánh thời gian chạy McPAD McPAD-UFRS McPAD [7] McPAD-UFRS Nhận xét: Khi so sánh với phiên McPAD gốc, kết thực nghiệm luận văn cho tỷ lệ phát gói tin độc hại cao hơn, tỷ lệ phát sai (FPR) thấp Thời gian để thực trình kiểm thử tập liệu McPAD-UFRS nhanh nhiều so với McPAD nguyên (khoảng lần) McPADUFRS nhanh McPAD [7] trước phân lớp gói tin, cần phải load tập đặc trưng lại sau rút gọn số chiều tương ứng với phân lớp lớp Đối với McPAD-UFRS, tập đặc trưng sau rút gọn cuối lưu trực tiếp Còn McPAD gốc tập đặc trưng cuối lưu dạng ánh xạ 2562 đặc trưng k phân cụm Vì vậy, thời gian để load mơ hình liệu McPAD gốc lâu so với McPAD-UFRS (thực load m lần ánh xạ 65536 đặc trưng ban đầu k phân cụm Tốc độ để thực phân lớp gói tin sau load tập đặc trưng gần tương đương 49 KẾT LUẬN Lý thuyết tập thô mờ lý thuyết quan tâm cộng đồng nghiên cứu thời gian gần đây, đặc biệt ứng dụng trình rút gọn đặc trưng trình tiền xử lý liệu, giúp giảm thiểu tối đa số lượng đặc trưng dư thừa, tăng tính xác, giảm thời gian thực thi trình phân lớp, phân loại Qua trình nghiên cứu, tìm hiểu, thử nghiệm, luận văn đạt số kết sau: - Tìm hiểu phát cơng web dựa vào bất thường sử dụng đặc trưng n-gram phân lớp lớp Tìm hiểu tổng quan rút gọn đặc trưng, vấn đề rút gọn đặc trưng phát cơng Web dựa vào bất thường Tìm hiểu tổng quan lý thuyết tập thô mờ ứng dụng lý thuyết tập thô mờ rút gọn đặc trưng Đề xuất mơ hình áp dụng rút gọn đặc trưng sử dụng lý thuyết tập thô mờ cho toán phân lớp sử dụng nhiều phân lớp lớp Kết phân lớp mơ hình đề xuất tốt độ xác thời gian thực thi so với toán phân lớp sử dụng nhiều phân lớp rút gọn đặc trưng phương pháp phân cụm có Một điểm hạn chế việc áp dụng lý thuyết tập thơ mờ thời gian tính tốn cho kết rút gọn đặc trưng lâu, tập liệu có kích thước khơng gian đặc trưng lớn Hướng nghiên cứu đề tài thử nghiệm mơ hình đề xuất tập liệu CSIC 2010[17], CICIDS2017[19] Ngoài ra, ta cần nghiên cứu phương pháp áp dụng mơ hình tính tốn phân tán tính tốn song song cho q trình rút gọn kích cỡ đặc trưng sử dụng lý thuyết tập thô mờ để tăng tốc thời gian tính tốn 50 TÀI LIỆU THAM KHẢO Tiếng Anh D Dubois, H Prade (1990), “Rough fuzzy sets and fuzzy rough sets,” International Journal of General Systems, vol 17, 91–209, 1990 [2] B Schőlkopf, J Platt, J Shawe-Taylor, A J Smola, and RC Williamson Estimating the support of a high-dimensional distribution Neural Computation, 13:1443–1471, 2001 [3] Mac Parthaláin, Neil & Jensen, Richard (2009) Measures for Unsupervised Fuzzy-Rough Feature Selection Int J Hybrid Intell Syst 560-565 10.1109/ISDA.2009.45 [4] Jensen, Richard & Shen, Qiang (2009) New Approaches to Fuzzy-Rough Feature Selection IEEE Transactions on Fuzzy Systems 17 10.1109/TFUZZ.2008.924209 [5] M Swarnkar and N Hubballi (2016) OCPAD: One class Naive Bayes classifier for payloadbased anomaly detection Expert Systems with Applications 64,pp330-339 [6] Pastrana S., Torrano-Gimenez C., Nguyen H.T., Orfila A (2015) Anomalous Web Payload Detection: Evaluating the Resilience of 1-Grams Based Classifiers In: Camacho D., Braubach L., Venticinque S., Badica C (eds) Intelligent Distributed Computing VIII Studies in Computational Intelligence, vol 570 Springer, Cham [7] R Perdisci, D Ariu, P Fogla, G Giacinto, W Lee (2009) "McPAD: A Multiple Classifier System for Accurate Payload-based Anomaly Detection." Computer Networks, Special Issue on Traffic Classification and Its Applications to Modern Networks, 5(6), pp 864-881 [8] K Wang and S Stolfo Anomalous payload-based network intrusion detection In Recent Advances in Intrusion Detection (RAID), 2004 [9] K Wang and S Stolfo Anomalous payload-based worm detection and signature generation In Recent Advances in Intrusion Detection (RAID),2005 [10] Wang, K., Parekh, J., & Stolfo, S (2006) Anagram: A content anomaly detector resistant to mimicry attack In Raid’06: Proceedings of the 9th international conferenceon recent advances in intrusion detection (pp 226– 248) [1] 51 R Lippmann, J W Haines, D J Fried, J Korba, and K Das (2000) The 1999 darpa off-line intrusion detection evaluation Computer Networks, 34(4):579–595 [12] Richard Jensen (2010) Fuzzy-rough data mining with Weka http://users.aber.ac.uk/rkj/Weka.pdf [13] I S Dhillon, S Mallela, and R Kumar (2003) A divisive informationtheoretic feature clustering algorithm for text classification Journal of Machine Learning Research, 3:1265–1287 [14] K L Ingham and H Inoue (2007) Comparing anomaly detection techniques for HTTP In Recent Advances in Intrusion Detection (RAID) [15] Kruegel, Christopher & Vigna, Giovanni (2003) Anomaly Detection of Web-based Attacks Proceedings of the ACM Conference on Computer and Communications Security 10.1145/948109.948144 [16] Reddy, R & Yellasiri, Ramadevi & Sunitha (2016) Robust Data Model for Enhanced Anomaly Detection 10.1007/978-981-10-0755-2_47 [17] http://www.isi.csic.es/dataset/ [18] https://www.akamai.com/us/en/multimedia/documents/state-of-theinternet/q4-2017-state-of-the-internet-security-report.pdf [19] Sharafaldin, Iman & Habibi Lashkari, Arash & Ghorbani, Ali (2018) Toward Generating a New Intrusion Detection Dataset and Intrusion Traffic Characterization 108-116 10.5220/0006639801080116 [11] ... trình bày kết luận hướng phát triển 12 CHƯƠNG PHÁT HIỆN TẤN CÔNG WEB SỬ DỤNG ĐẶC TRƯNG NGRAM VÀ BỘ PHÂN LỚP MỘT LỚP 2.1 Đặc trưng n-gram phiên 2v-gram Phát công web dựa vào bất thường payload phương... MỞ ĐẦU CHƯƠNG CHƯƠNG PHÁT HIỆN TẤN CÔNG WEB SỬ DỤNG ĐẶC TRƯNG NGRAM VÀ BỘ PHÂN LỚP MỘT LỚP 2.1 2.2 CHƯƠNG RÚT GỌN ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB 3.1 3.2 3.3 3.4 CHƯƠNG ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THANH BÌNH GIẢM KÍCH CỠ ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB DỰA VÀO BẤT THƯỜNG Ngành: Cơng nghệ thơng tin Chun ngành: An tồn