1. Trang chủ
  2. » Tất cả

Giảm kích thước đặc trưng trong phát hiện tấn công web dựa vào bất thường

53 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THANH BÌNH GIẢM KÍCH CỠ ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB DỰA VÀO BẤT THƯỜNG Ngành: Cơng nghệ thơng tin Chun ngành: An tồn thơng tin Mã Số: 8480102.01 LUẬN VĂN THẠC SĨ AN TỒN THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ ĐÌNH THANH Hà Nội – 2019 i LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, TS Lê Đình Thanh – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo Khoa Công nghệ Thông tin, Trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho suốt trình học tập, nghiên cứu trường Đồng thời, xin cảm ơn tất người thân yêu gia đình tơi tồn thể bạn bè người giúp đỡ, động viên vấp phải khó khăn, bế tắc Mặc dù cố gắng, nỗ lực luận văn chắn khơng tránh khỏi thiếu sót, tơi mong nhận ý kiến đánh giá phê bình từ phía Thầy Cơ để luận văn hồn thiện Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2019 Học viên Lê Thanh Bình i LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ cơng nghệ thơng tin “Giảm kích cỡ đặc trưng phát công Web dựa vào bất thường” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 10 tháng 10 năm 2019 Lê Thanh Bình MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN .ii DANH MỤC HÌNH VẼ DANH SÁCH BẢNG BIỂU .4 DANH SÁCH CÁC TỪ VIẾT TẮT MỞ ĐẦU CHƯƠNG GIỚI THIỆU CHƯƠNG PHÁT HIỆN TẤN CÔNG WEB SỬ DỤNG ĐẶC TRƯNG NGRAM VÀ BỘ PHÂN LỚP MỘT LỚP 12 2.1 2.2 Đặc trưng n-gram phiên 2v-gram .12 Sử dụng kết hợp nhiều phân lớp lớp .17 2.2.1 Bộ phân lớp lớp 17 2.2.2 Kết hợp nhiều phân lớp lớp 18 CHƯƠNG RÚT GỌN ĐẶC TRƯNG TRONG PHÁT HIỆN TẤN CÔNG WEB .21 3.1 3.2 3.3 3.4 Tổng quan 21 Loại bỏ đặc trưng không xuất .22 Rút gọn đặc trưng phương pháp phân cụm 25 Rút gọn đặc trưng sử dụng lý thuyết tập thô mờ 25 CHƯƠNG MƠ HÌNH ĐƯỢC ĐỀ XUẤT 33 4.1 Kết hợp nhiều phân lớp lớp với đặc trưng rút gọn tập thô mờ 33 4.1.1 Huấn luyện .34 4.1.2 Tính tốn ngưỡng phân lớp 35 4.1.3 Kiểm thử mơ hình 36 4.2 Thực nghiệm .38 4.2.1 Cài đặt thực nghiệm 38 4.2.2 Các tập liệu sử dụng 41 4.2.3 Các bước tiến hành cụ thể 42 4.2.4 Kết so sánh 46 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC HÌNH VẼ Hình 2.1 Payload công tràn đệm 12 Hình 2.2 3-gram sinh từ chuỗi 13 Hình 2.3.Các đặc trưng 21-gram 16 Hình 2.4.Sơ đồ tổng quan McPAD 18 Hình 3.1 Các bước trình lựa chọn đặc trưng .22 Hình 3.2.Lựa chọn đặc trưng theo Hướng tiếp cận lọc đóng gói .22 Hình 3.3: So sánh kết phát OcPAD so với ANAGRAM [5] 24 Hình 4.1 Sơ đồ tiến trình thực giai đoạn huấn luyện đề xuất 35 Hình 4.2 Sơ đồ giai đoạn tính threshold 36 Hình 4.3 Tiến trình thực giai đoạn test 37 Hình 4.4.Chương trình giai đoạn giai đoạn huấn luyện 39 Hình 4.5 Chương trình giai đoạn kiểm thử 39 Hình 4.6.Cấu trúc liệu file ARFF cho Tool Weka .40 Hình 4.7.Chạy rút gọn đặc trưng với công cụ Weka .40 Hình 4.8: Kết chạy chương trình kiểm thử file allGeneric 47 Hình 4.9 Kết chạy chương trình kiểm thử file test_normal .47 DANH SÁCH BẢNG BIỂU Bảng 1.1: Thống kê top 10 quốc gia có số lượng cơng ứng dụng web quý IV năm 2017 [18] .7 Bảng 3.1 Kết phân lớp thuật toán [6] 23 Bảng 3.2: Kết thống kê số lượng n-gram khác tổng số n-gram tương ứng với giá trị N [5] 24 Bảng 3.3: Kích thước tập rút gọn rút gọn thuộc tính thơ mờ không giám sát [3] 31 Bảng 3.4:độ xác phân lớp với thuật tốn Jrip (%) [3] 31 Bảng 3.5: Độ xác phân lớp với thuật toán J48(%) [3] 32 Bảng 4.1: Thơng tin chương trình thực nghiệm 38 Bảng 4.2: Kết số đặc trưng lại sau loại bỏ đặc trưng không xuất 43 Bảng 4.3: Kết rút gọn đặc trưng sử dụng tập thô mờ không giám sát 43 Bảng 4.4.Thời gian chạy để rút gọn đặc trưng với tập thô mờ không giám sát 44 Bảng 4.5: Ma trận nhầm lẫn 46 Bảng 4.6: So sánh độ xác McPAD McPAD-UFRS 48 Bảng 4.7 So sánh thời gian chạy McPAD McPAD-UFRS 48 DANH SÁCH CÁC TỪ VIẾT TẮT Thuật ngữ viết tắt Mô tả Anomaly Bất thường Misuse Lạm dụng McPAD - Multiple Classifier Hệ thống phân lớp đa lớp cho phát System for Accurate Payload- bất thường dựa payload based Anomaly Detection hacker Kẻ công FPR – false positive rate Tỷ lệ dương tính giả Payload Phần nội dung gói tin PAYL- payload-based anomaly detector Hệ thống phát bất thường dựa payload OcPAD - One class Naive Bayes Bộ phân lớp lớp Bayes cho Phát classifier for payload-based bất thường dựa payload anomaly detection RST – Rough set theory Lý thuyết tập thô FS – Feature selection Lựa chọn đặc trưng FRST- Fuzzy rough set theory Lý thuyết tập thô mờ FRST FS – Fuzzy rough set theory feature selection Lựa chọn đặc trưng sử dụng lý thuyết tập thô mờ SVM support vector machine MỞ ĐẦU Phát công việc làm có ý nghĩa lớn việc bảo vệ ứng dụng Web khỏi cơng có chủ đích Phát cơng dựa vào bất thường có khả phát công chưa phát trước (zero-day) mà hệ thống phát thâm nhập dựa vào chữ ký (signature-based), gọi misuse (phát lạm dụng) phát Trong phương pháp phát công web dựa vào bất thường, n-gram đặc trưng quan trọng sử dụng để mơ hình hóa HTTP request thơng thường, từ phát request bất thường hay request công Với số lượng đặc trưng n-gram lớn, trích chọn đặc trưng (feature selection) hay giảm kích thước/số chiều vector đặc trưng (dimension reduction) bước quan trọng giai đoạn tiền xử lý liệu Nó giúp loại bỏ đặc trưng dư thừa, giữ lại đặc trưng giàu thông tin (information-rich), giúp tăng hiệu q trình phát cơng, đồng thời giảm thời gian tính tốn cần thiết Với nhiệm vụ bảo vệ thời gian thực, số lượng truy cập (HTTP request) cần phải xử lý lớn, việc rút gọn đặc trưng có vai trị quan trọng Do đó, việc nghiên cứu phương pháp giảm kích thước đặc trưng cho tốn phát cơng Web dựa vào bất thường cần thiết Luận văn nghiên cứu phương pháp giảm kích thước đặc trưng phát công Web dựa vào bất thường Phương pháp áp dụng vào mơ hình phát công dựa vào bất thường sử dụng nhiều phân lớp lớp cho kết thực nghiệm tốt so với mơ hình nghiên cứu trước độ xác thời gian thực thi Lý thuyết tập thô mờ cho thấy hiệu xử lý dạng liệu liên tục số thực Các phương pháp rút gọn đặc trưng sử dụng tập thô mờ dựa phụ thuộc tập đặc trưng tập liệu vào tập đặc trưng Nếu đặc trưng sau loại bỏ khỏi tập đặc trưng mà độ phụ thuộc liệu khơng đổi đặc trưng dư thừa loại bỏ Mơ hình luận văn đề xuất sử dụng lý thuyết tập thô mờ để giảm kích vector đặc trưng trích chọn kỹ thuật nv-gram Nó cho thấy hiệu tốt việc giảm kích thước khơng gian đặc trưng mà cho kết phân lớp xác cao CHƯƠNG GIỚI THIỆU Các ứng dụng web ngày đa dạng phổ biến, hầu hết ứng dụng triển khai web, ứng dụng web trở thành mục tiêu công hàng đầu hacker Các công không phát ngăn chặn kịp thời gây tổn thất lớn cho tổ chức, doanh nghiệp Theo báo cáo tình trạng an ninh mạng Quý IV năm 2017 Công ty Akamai Technologies [18] có 300 triệu cơng ứng dụng web xảy Mỹ quốc gia xảy nhiều công ứng dụng web với 200 triệu công Bảng 1.1: Thống kê top 10 quốc gia có số lượng cơng ứng dụng web quý IV năm 2017 [18] Quốc gia Số lượng công United States 238,643,360 Brazil 21,900,411 United Kingdom 19,385,710 Canada 17,459,934 Germany 13,432,389 China 11,906,342 India 11,546,530 Japan 10,510,981 Australia 9,758,428 Hong Kong 5,733,649 An ninh ứng dụng Web chủ đề nhận nhiều quan tâm cộng đồng nghiên cứu Hai cách tiếp cận thường dùng phát cơng web phát cơng lạm dụng (Misuse detection) phát công dựa vào bất thường (Anomaly detection) Phát công misuse dựa mô tả tập công biết từ trước Mô tả request công biết trước thường mơ hình thành chữ ký hay dấu hiệu cơng (attack signatures) Các request có tương đồng lớn với attack signature phân loại hành vi có mục đích độc hại (malicious activities) Ngược lại, phát công dựa bất thường dựa vào mơ tả request bình thường hay vơ hại Các request cho độc hại có khoảng cách đánh giá so với request bình thường lớn ngưỡng định trước, cho phép ta xác định cơng hay hành vi độc hại Trong thực tế, hệ thống phát công web thường dạng signaturebased Chúng phát cơng biết cách hiệu với tỉ lệ dương tính giả thấp Tuy nhiên, hệ thống phát công dựa vào bất thường lại có khả phát công chưa phát trước (zero-day) hệ thống signature-based Sự phát triển lĩnh vực khai phá liệu tạo nên tiền đề tốt để phát triển hệ thống phát công dựa vào bất thường Khi mơ hình khai phá liệu huấn luyện với lượng liệu lớn thì, mơ hình tạo xác Tuy vậy, khối lượng liệu lớn trình xử lý liệu khó khăn Khơng gian đặc trưng lớn trở thành vấn đề trình học máy hay khai phá tri thức từ liệu Do đó, phương pháp nhằm trích chọn thơng tin quan trọng, loại bỏ thông tin dư thừa từ liệu vấn đề cộng đồng nghiên cứu quan tâm Trích chọn đặc trưng hay giảm kích cỡ đặc trưng trình nhằm lựa chọn đặc trưng giàu thông tin (information-rich), loại bỏ đặc trưng dư thừa (redundant) Các đặc trưng lại sau q trình trích chọn bảo tồn tối đa ý nghĩa không gian đặc trưng Việc giảm kích cỡ đặc trưng giúp cho tri thức thu từ liệu xác hơn, giảm đáng kể thời gian tính tốn cần thiết loại bỏ đặc trưng dư thừa liệu HTTP request chứa gói TCP gọi tải (payload) gói TCP Có nhiều nghiên cứu gần tập trung vào vấn đề phát công dựa vào bất thường chứa payload sử dụng đặc trưng n-gram (n byte liên tiếp nhau) [5], [6], [7], [8], [9], [10], [15] Q trình trích xuất n-gram từ payload tương tự trình khai phá liệu văn (text-mining) Khi giá trị n-gram lớn ta thu nhiều thơng tin từ liệu, nhiên khơng gian đặc trưng liệu ngày lớn, tăng theo cấp số nhân, gây khó khăn cho trình tính tốn, xử lý liệu Việc tính tốn xử lý liệu trở nên phức tạp nhiều thời gian Trong đặc trưng n-gram trích xuất từ liệu, khơng phải tất đặc trưng quan trọng, chứa nhiều thông tin giúp cho q trình mơ hình hóa, phân lớp, phân loại xác Những đặc trưng gọi đặc trưng dư thừa, không liên quan Chúng khiến cho thơng tin trích xuất từ liệu giảm ý nghĩa, lãng phí thời gian tính tốn khơng cần thiết Bởi vậy, trình rút gọn đặc trưng nhằm loại bỏ n-gram dư thừa, giữ lại ngram có giá ... (phát lạm dụng) phát Trong phương pháp phát công web dựa vào bất thường, n-gram đặc trưng quan trọng sử dụng để mô hình hóa HTTP request thơng thường, từ phát request bất thường hay request công. .. gọn đặc trưng có vai trị quan trọng Do đó, việc nghiên cứu phương pháp giảm kích thước đặc trưng cho tốn phát công Web dựa vào bất thường cần thiết Luận văn nghiên cứu phương pháp giảm kích thước. .. trúc sau: Chương luận văn trình bày phát công web dựa vào đặc trưng n-gram phân lớp lớp Chương trình bày vấn đề rút gọn đặc trưng phát cơng web dựa vào bất thường Chương trình bày mơ hình đề xuất

Ngày đăng: 26/03/2023, 22:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w