(Luận văn) nghiên cứu phát hiện tấn công web cơ bản dựa trên học máy sử dụng web log

69 2 0
(Luận văn) nghiên cứu phát hiện tấn công web cơ bản dựa trên học máy sử dụng  web log

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an n va to p ie gh tn Vũ Thị Quý nl w NGHIÊN CỨU PHÁT HIỆN TẤN CÔNG WEB CƠ BẢN d oa DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG va an lu ll u nf LUẬN VĂN THẠC SĨ KỸ THUẬT m oi (Theo định hướng ứng dụng) z at nh z m co l gm @ HÀ NỘI - 2020 an Lu n va ac th si HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an n va Vũ Thị Quý DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG p ie gh tn to NGHIÊN CỨU PHÁT HIỆN TẤN CÔNG WEB CƠ BẢN nl w CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH 8.48.01.01 d oa MÃ SỐ: an lu u nf va LUẬN VĂN THẠC SĨ KỸ THUẬT ll (Theo định hướng ứng dụng) oi m z at nh NGƯỜI HƯỚNG DẪN KHOA HỌC z TS HOÀNG XUÂN DẬU m co l gm @ an Lu HÀ NỘI - 2020 n va ac th si i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Nội dung luận văn có tham khảo sử dụng tài liệu, thơng tin đăng tải tạp chí trang web theo danh mục tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy lu định cho lời cam đoan an n va tn to Hà nội, ngày tháng năm 2020 p ie gh Người cam đoan oa nl w d Vũ Thị Quý ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Đầu tiên em xin gửi lời biết ơn sâu sắc tới Thầy giáo, Tiến sĩ Hoàng Xuân Dậu, người Thầy tận tình bảo, dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thông tin đồng thời giúp em tiếp cận nhiều phương pháp tư nghiên cứu khoa học để hoàn thành luận văn cao học lu Em xin gửi lời cảm ơn chân thành tới tất thầy, cô giáo khoa Sau đại an học thầy cô giáo trường – Học viện Cơng nghệ Bưu Viễn thơng va n ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập tn to nghiên cứu trường ie gh Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học – p Học viện ln động viên, giúp đỡ nhiệt tình chia sẻ với em kinh nl w nghiệm học tập, cơng tác suốt khố học d oa Học viên xin chân thành cảm ơn vị lãnh đạo bạn đồng an lu nghiệp quan tạo điều kiện tốt để em hồn thành tốt u nf va đẹp khố học Cao học Mặc dù cố gắng hồn thành luận văn này, xong luận văn khó tránh ll Em xin chân thành cảm ơn! z at nh thầy, oi m khỏi thiếu sót Em mong nhận nhận xét, góp ý, tận tình bảo từ z gm @ m co l Hà Nội, tháng năm 2020 an Lu Vũ Thị Quý n va ac th si iii NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của Người hướng dẫn) ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… lu an ……………………………………………………………………………………… n va tn to ……………………………………………………………………………………… ie gh .…………………………………………………………………………………… p ……………………………………………………………………………………… oa nl w ……………………………………………………………………………………… d ……………………………………………………………………………………… lu va an ……………………………………………………………………………………… ll u nf .…………………………………………………………………………………… oi m ……………………………………………………………………………………… z at nh ……………………………………………………………………………………… Điểm: …………………………… (bằng chữ: …………………………………) z @ l gm Đồng ý/Không đồng ý cho học viên bảo vệ trước hội đồng chấm luận văn? Hà Nội, ngày tháng năm 2020 m co CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN an Lu n va ac th si iv NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của Người phản biện) ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… lu an ……………………………………………………………………………………… n va tn to ……………………………………………………………………………………… ie gh ……………………………………………………………………………………… p .…………………………………………………………………………………… oa nl w ……………………………………………………………………………………… d ……………………………………………………………………………………… lu va an ……………………………………………………………………………………… ll u nf ……………………………………………………………………………………… oi m .…………………………………………………………………………………… z at nh Điểm: …………………………… (bằng chữ: …………………………………) z m co l gm @ Đồng ý/Không đồng ý cho học viên bảo vệ trước hội đồng chấm luận văn? Hà Nội, ngày tháng … năm 2020 CÁN BỘ - GIẢNG VIÊN PHẢN BIỆN Trang an Lu MỤC LỤC n va ac th si v PHẦN MỞ ĐẦU 1 Lý chọn đề tài -1 Tổng quan vấn đề nghiên cứu 3 Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu -5 Phương pháp nghiên cứu -5 CHƯƠNG 1: TỔNG QUAN VỀ CÁC DẠNG TẤN CÔNG VÀO WEBSITE, ỨNG DỤNG WEB VÀ CÁC GIẢI PHÁP PHÒNG CHỐNG 1.1 Kiến Trúc Ứng Dụng Web Các Yêu Cầu Bảo Mật lu 1.1.1 Kiến trúc ứng dụng web -6 an va 1.1.2 Các yêu cầu bảo mật ứng dụng web, website -10 n 1.1.2.1 Yêu cầu cài đặt -10 gh tn to 1.1.2.2 Tắt/disable thành phần mặc định -10 ie 1.1.2.3 Thay đổi thành phần mặc định 11 p 1.1.2.4 Giới hạn truy cập 11 nl w 1.2 Các Nguy Cơ Các Dạng Tấn Công Lên Ứng Dụng Web -11 d oa 1.2.1 Các nguy lỗ hổng bảo mật website, ứng dụng web (TOP 10 an lu OWASP 2017) -11 va 1.2.2 Một số dạng công web 16 u nf 1.2.2.1 Tấn công chèn mã SQLi 16 ll 1.2.2.2 Tấn công Cross-Site Scriting (XSS) 18 m oi 1.2.2.3 Duyệt đường dẫn (Directory traversal) -20 z at nh 1.2.2.4 Tấn công CMDi 20 1.2.3 Các biện pháp bảo mật ứng dụng web, website 21 z gm @ 1.2.3.1 Nguyên tắc chung -21 1.2.3.2 Một số biện pháp bảo mật cụ thể 23 l m co 1.2.3.2.1 Kiểm tra liệu đầu vào -23 1.2.3.2.2 Giảm thiểu giao diện bị cơng -23 an Lu 1.2.3.2.3 Phòng vệ theo chiều sâu 24 n va ac th si vi 1.3 Kết luận Chương -24 CHƯƠNG 2: PHÁT HIỆN TẤN CÔNG WEB DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG 25 2.1 Tìm hiểu Web log -25 2.1.1 Khái quát Web log -25 2.1.2 Các dạng web log 27 2.2 Khái quát Học Máy thuật toán Học Máy -30 2.2.1 Khái quát học máy -30 2.2.1.1 Khái niệm -30 lu 2.2.1.2 Phân loại kỹ thuật học máy 31 an va 2.2.2 Một số thuật toán học máy -32 n 2.2.2.1 Naive Bayes 32 gh tn to 2.2.2.2 Cây định -35 ie 2.2.2.3 Rừng ngẫu nhiên -37 p 2.3 Phát công web dựa học máy sử dụng web log -38 nl w 2.3.1 Mơ hình phát -38 d oa 2.3.2 Các giai đoạn huấn luyện phát -39 an lu 2.3.2.1 Giai đoạn huấn luyện -39 va 2.3.2.2 Giai đoạn phát 40 u nf 2.4 Kết luận Chương -40 ll CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 42 m oi 3.1 Giới thiệu tập liệu 42 z at nh 3.1.1 Tập liệu mẫu 42 3.1.2 Dữ liệu web log thực 44 z gm @ 3.2 Tiền xử lý liệu -45 3.3 Huấn luyện kiểm thử mơ hình phát 46 l m co 3.4 Thử nghiệm, kết nhận xét -47 3.4.1 Lựa chọn công cụ thử nghiệm -47 an Lu 3.4.2 Kết thử nghiệm 47 n va ac th si vii 3.4.3 Nhận xét -48 3.5 Kết luận chương 49 KẾT LUẬN -50 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 51 PHẦN MỞ ĐẦU 1 Lý chọn đề tài -1 Tổng quan vấn đề nghiên cứu -3 Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu lu Phương pháp nghiên cứu an n va CHƯƠNG 1: TỔNG QUAN VỀ CÁC DẠNG TẤN CÔNG VÀO WEBSITE, 1.1 Kiến Trúc Ứng Dụng Web Các Yêu Cầu Bảo Mật -6 gh tn to ỨNG DỤNG WEB VÀ CÁC GIẢI PHÁP PHÒNG CHỐNG ie 1.1.1 Kiến trúc ứng dụng web p 1.1.2 Các yêu cầu bảo mật ứng dụng web, website 10 nl w 1.1.2.1 Yêu cầu cài đặt 10 d oa 1.1.2.2 Tắt/disable thành phần mặc định 10 an lu 1.1.2.3 Thay đổi thành phần mặc định -11 va 1.1.2.4 Giới hạn truy cập 11 u nf 1.2 Các Nguy Cơ Các Dạng Tấn Công Lên Ứng Dụng Web 11 ll 1.2.1 Các nguy lỗ hổng bảo mật website, ứng dụng web (TOP 10 m oi OSWAP 2017) 11 z at nh 1.2.2 Một số dạng công web -16 1.2.2.1 Tấn công chèn mã SQLi -16 z gm @ 1.2.2.2 Tấn công Cross-Site Scriting (XSS) -18 1.2.2.3 Duyệt đường dẫn (Directory traversal) 20 l m co 1.2.2.4 Tấn công CMDi -20 1.2.3 Các biện pháp bảo mật ứng dụng web, website -21 an Lu 1.2.3.1 Nguyên tắc chung -21 n va ac th si viii 1.2.3.2 Một số biện pháp bảo mật cụ thể -23 1.2.3.2.1 Kiểm tra liệu đầu vào 23 1.2.3.2.2 Giảm thiểu giao diện bị cơng 23 1.2.3.2.3 Phòng vệ theo chiều sâu -24 1.3 Kết luận Chương -24 CHƯƠNG 2: PHÁT HIỆN TẤN CÔNG WEB DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG 25 2.1 Tìm hiểu Web log -25 2.1.1 Khái quát Web log 25 lu 2.1.2 Các dạng web log -26 an 2.2.1 Khái quát học máy -29 n va 2.2 Khái quát Học Máy thuật toán Học Máy -29 gh tn to 2.2.1.1 Khái niệm -29 ie 2.2.1.2 Phân loại kỹ thuật học máy 31 p 2.2.2 Một số thuật toán học máy -32 nl w 2.2.2.1 Naive Bayes 32 d oa 2.2.2.2 Cây định -35 an lu 2.2.2.3 Rừng ngẫu nhiên -37 va 2.3 Phát công web dựa học máy sử dụng web log -38 u nf 2.3.1 Mơ hình phát -38 ll 2.3.2 Các giai đoạn huấn luyện phát -39 m oi 2.3.2.1 Giai đoạn huấn luyện -39 z at nh 2.3.2.2 Giai đoạn phát 40 2.4 Kết luận Chương -40 z gm @ CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 42 3.1 Giới thiệu tập liệu 42 l m co 3.2 Tiền xử lý liệu -43 3.3 Huấn luyện kiểm thử mơ hình phát 44 an Lu 3.4 Thử nghiệm, kết nhận xét -45 n va ac th si 38 sau: lu an n va p ie gh tn to nl w Hình 2.5: Mơ hình thuật tốn rừng ngẫu nhiên [13] d oa Ưu điểm thuật toán Random Forest sử dụng cho tốn an lu Classification Regression, làm việc với liệu thiếu giá trị Khi rừng có ll u nf định va nhiều mơ hình tránh việc bị overfitting so với mơ hình oi m Nhược điểm giải thuật tốn nhiều thời gian thực phải duyệt z at nh nhiều để tìm kết tốt 2.3 Phát công web dựa học máy sử dụng web log z gm @ 2.3.1 Mơ hình phát l Mơ hình phát cơng web dựa học máy sử dụng web log m co luận văn triển khai theo giai đoạn: (1) giai đoạn huấn luyện an Lu biểu diễn Hình 2.5 (2) giai đoạn phát biểu diễn Hình 2.6 Trong đó, URI (Uniform Resource Indicator) chuỗi truy nhập bóc n va ac th si 39 tách từ web log Các URI bình thường URI cơng dùng cho giai đoạn huấn luyện lấy từ tập liệu mẫu gán nhãn [2] Hình 2.6: Mơ hình phát cơng web bản: Giai đoạn huấn luyện [2] lu an n va p ie gh tn to d oa nl w va an lu ll u nf Hình 2.7: Mơ hình phát công web bản: Giai đoạn phát [2][20] z at nh 2.3.2.1 Giai đoạn huấn luyện oi m 2.3.2 Các giai đoạn huấn luyện phát Giai đoạn thực xây dựng mơ hình phát từ liệu huấn luyện z gm @ gồm bước sau: l - Thu thập tập liệu huấn luyện: Dữ liệu huấn luyện lấy từ tập Http m co Params Dataset [20] Bộ liệu gồm 31.067 URI payload truy vấn web, kèm theo độ dài, loại cơng (norm-bình thường, sqli-tấn công an Lu SQLi, xss-tấn công XSS, cmdi-tấn công chèn mã lệnh hệ điều hành, path- n va ac th si 40 traversal-tấn công duyệt đường dẫn) nhãn (norm - bình thường, anom-bất thường) Tập liệu chia thành phần: phần liệu cho huấn luyện gồm 20.000 URI payload, phần lại để kiểm thử - Tiền xử lý: Khâu thực vector hoá URI payload sử dụng phương pháp 3-gram số hoá sử dụng phương pháp TF-IDF (tần suất từ - tần suất tài liệu nghịch) Tiếp theo sử dụng phương pháp PCA (Phân tích thành phần chính) để giảm số chiều vector xuống 256 (lựa chọn qua thực nghiệm) - Huấn luyện: thực huấn luyện liệu sau tiền xử lý sử dụng thuật toán định CART (hỗ trợ thư viện Python) để sinh mơ hình phát lu Mơ hình phát lưu vào file để sử dụng cho giai đoạn phát an va - Kiểm thử mơ hình phát hiện: Sử dụng tập liệu kiểm thử liệu n Http Params Dataset [20] để kiểm thử độ xác phát tn to Giai đoạn thực phân tích dịng web log nhằm phát dấu p ie gh 2.3.2.2 Giai đoạn phát w hiệu công SQLi, XSS, duyệt đường dẫn chèn dòng lệnh hệ điều hành gồm Tách URI truy nhập: từ dòng web log, tách lấy phần địa trang (URI stem) d lu - oa nl bước sau: va an truy vấn (URI query) phục vụ phát Đây thành phần tin tặc ll web u nf thường sử dụng để nhúng đoạn mã công vào địa URL trang m oi - Tiền xử lý: Khâu thực vector hoá URI truy nhập sử dụng phương z at nh pháp 3-gram, TF-IDF PCA tương tự giai đoạn huấn luyện - Phát hiện: vector URI truy nhập xác định bình thường hay bị l gm @ 2.4 Kết luận Chương z cơng mơ hình phát m co Chương giới thiệu hiểu biết WEB LOG, dạng an Lu WEB LOG, hoạt động định dạng loại WEB LOG Ngoài rta chương giới thiệu khái quát học máy đưa số thuật toán học máy n va ac th si 41 sử dụng để phát công web Naive Bayes, Cây định (Decision Tree), Rừng ngẫu nhiên Tuy nhiên mục đích chương chủ yếu sâu vào việc trình bày mơ hình phát cơng sử dụng, pha xử lý mơ tiền xử lý, huấn luyện phát Trong chương 3, nội dung chủ yếu giới thiệu tập liệu sử dụng để huấn luyện cho học máy, cách xử lý tiền liệu, bước làm pha huấn luyện phân loại liệu đầu vào Trình bày số phương pháp để sử dụng huấn luyện phát hiện, kết dùng để đánh giá mức độ hiệu sử dụng phương pháp học máy khác lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 42 CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM Trong chương luận văn trọng tâm vào phần cài đặt thử nghiệm để đưa kết khả phát công web dựa web log mô hình học máy Chi tiết vào phần giới thiệu tập liệu sử dụng để huấn luyện, kịch huấn luyện đánh giá thuật tốn để đưa kết xác Từ kết thu rút nhược điểm mơ hình học máy sử dụng để cải thiện thêm kết hướng tương lai lu 3.1 Giới thiệu tập liệu an n va 3.1.1 Tập liệu mẫu tn to Tập liệu mẫu dùng cho thử nghiệm đánh giá mô hình phát HttpParamsDataset [20] Tập gồm tham số truy vấn HTTP với 19.304 truy gh p ie vấn bình thường gán nhãn norm 11.763 truy vấn bất thường gán nhãn anom Bảng 3.1 cuũng cấp số ghi mẫu tập liệu Theo đó, nl w liệu lưu trữ file theo định dạng CSV file có cột ứng với d oa thuộc tính: payload (tải hay chuỗi truy vấn), length (độ dài payload), attack type an lu (loại công, gồm norm-bình thường, sqli, xss, cmdi path-traversal) label loại với số lượng sau: ll u nf va (nhãn, gồm norm-bình thường anom-bất thường) Các truy vấn bất thường gồm oi m - 10.852 truy vấn công chèn mã SQL gán nhãn sqli z at nh - 532 truy vấn công XSS gán nhãn xss - 89 truy vấn công chèn mã lệnh hệ điều hành gán nhãn cmdi z - 290 truy vấn công duyệt đường dẫn gán nhãn path-traversal @ luyện kiểm thử: m co l gm Tập liệu HttpParamsDataset chia thành phần sử dụng cho huấn - Tập cho huấn luyện gồm 20.712 truy vấn, có 7.842 truy vấn bất an Lu thường; n va ac th si 43 - Tập cho kiểm thử gồm 10.355 truy vấn, có 3.921 truy vấn bất thường lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 44 Bảng 3.1: Một số ghi tập liệu HttpParamsDataset [20] length attack type label castellanos de zapardiel 24 norm norm -3136%') or 3400=6002 21 sqli anom 1')) as gfzb where 7904=7904;begin dbms_lock.sleep(5); end 60 sqli anom 1")) and 4386=utl_inaddr.get_host_address(chr(113)|| chr(113)||chr(112)||chr(106)||chr(113)||(select (case when (4386=4386) then else end) from dual)||chr(113)|| chr(122)||chr(118)||chr(122)||chr(113)) and (("smnw" like "smnw 227 sqli anom -2604)) as sekb where 6897=6897 or 1000=7683 44 sqli anom 1');begin dbms_lock.sleep(5); end and ('jzlr'='jzlr 51 sqli anom 134 sqli anom 203 sqli anom 104 sqli anom norm norm norm norm payload (tải) lu an n va ie gh tn to p 1%")));create or replace function sleep(int) returns int as '/lib/libc.so.6','sleep' language 'c' strict; select sleep(5) and ((("%"=" oa nl w d -1638' or 2724 in ((char(113)+char(113)+char(112)+char(106)+char(113) +(select (case when (2724=2724) then char(49) else char(48) end)) +char(113)+char(122)+char(118)+char(122)+char(113)) ) and 'xkne'='xkne ll u nf va an lu oi m z at nh 1%";call regexp_substring(repeat(left(crypt_key(char(65)|| char(69)||char(83),null),0),500000000),null) z m co l 3.1.2 Dữ liệu web log thực gm sirevici @ tweddle an Lu n va ac th si 45 Dữ liệu web log thực liệu thu thập thực tế từ máy chủ web Luận văn sử dụng phần liệu web log thu thập đề tài khoa học công nghệ cấp nhà nước, mã số KC.01.05/16-20 [21] thực Học viện Công nghệ Bưu Viễn thơng Web log thu thập chuẩn hóa theo định dạng W3C Extended phục vụ cho phân tích, xử lý Bảng 3.2 mơ tả số trường web log thực [21], luận văn sử dụng thơng tin từ trường URI_QUERY để phân tích phát công web Bảng 3.2: Một số trường web log thực [21] Mô tả lu Tên trường an n va Ngày xử lý yêu cầu theo định dạng yyyy-mm-dd (nămtháng-ngày) tn to DATE gh Giờ xử lý yêu cầu theo định dạng hh:mm:ss (giờ:phút:giây) ie TIME p Địa IP máy khách CLIENT_IP w Phương thức HTTP máy khách gửi yêu cầu oa nl HTTP_METHOD Địa tương đối trang, ví dụ /products/search.aspx d Chuỗi truy vấn trang (HTTP query string) Ví dụ: an category_id=100& category_desc=Science Fiction Books u nf va URI_QUERY lu URI_STEM ll Mã trạng thái xử lý yêu cầu Ví dụ mã 200 xử lý yêu cầu m thành công oi HTTP_STATUS z at nh Số lượng byte yêu cầu (Request) máy chủ nhận từ BYTE_RECEIVED máy khách z BYTE_SENT máy khách l gm @ Số lượng byte trả lời (Response) máy chủ gửi từ an Lu 3.2 Tiền xử lý liệu Thời gian xử lý yêu cầu tính giây m co TIME_TAKEN n va ac th si 46 Khâu tiền xử lý liệu nhằm trích chọn số hóa đặc trưng cho truy vấn HTTP thực theo bước mô tả phần giới thiệu mơ hình phát Chương Do ta sử dụng 3-gram chuẩn xây dựng từ việc lấy tất phần tử 3-gram khác trình phân tách 3-gram ghi tập huấn luyện gồm 20.712 truy vấn, độ dài 3-gram chuẩn lớn lên tới vài chục nghìn phần tử Nếu thực lưu trữ, ánh xạ phần tử tập chuẩn gặp khó khăn q trình lưu trữ tốc độ xử lý tính tốn Vì vậy, để q trình huấn luyện diễn nhanh mà không lu an tính xác mơ hình sử dụng phương pháp để giảm chiều liệu 3- n va gram chuẩn Principal Component Analysis (PCA) tn to Phương pháp PCA dựa quan sát liệu thường không phân bố gh ngẫu nhiên không gian mà thường phân bố gần đường/mặt đặc biệt p ie PCA dựa vào danh sách tập liệu 3-gram phân tách ban đầu, sau dựa w vào cách phân bố liệu tập liệu 3-gram, PCA lựa chọn k phần tử có oa nl tầm quan trọng việc định phân loại, bỏ qua phần tử quan d trọng, khơng ảnh hưởng việc định phân loại kết request Kết lu va an khâu tiền xử lý là vector với 256 chiều đại diện cho truy vấn URI u nf 3.3 Huấn luyện kiểm thử mô hình phát ll Tập liệu huấn luyện sau tiền xử lý sử dụng để huấn luyện sử dụng m oi thuật toán định để sinh mơ hình phân loại (cụ thể thuật tốn z at nh định CART hỗ trợ thư viện sk-learn Python) Mơ hình lưu vào z file cho khâu kiểm thử Trong khâu kiểm thử, tập liệu kiểm thử sau tiền xử lý gm @ sử dụng để đánh giá độ xác phân loại l Độ đo sử dụng độ xác tính số truy vấn phân loại an Lu thường, loại bất thường trung bình m co chia cho tổng số truy vấn thuộc loại Độ đo tính cho truy vấn bình n va ac th si 47 3.4 Thử nghiệm, kết nhận xét 3.4.1 Lựa chọn công cụ thử nghiệm Việc cài đặt phát triển chức mô đun thực sử dụng tảng công cụ sau:  Hệ điều hành Ubuntu 16.04, 64 bít  Ngơn ngữ lập trình Python 3.5 thư viện kèm theo 3.4.2 Kết thử nghiệm Các thử nghiệm thực với mô đun phát công SQLi, lu XSS, duyệt đường dẫn, CMDi bao gồm: an n va  Thử nghiệm độ xác phát với tập liệu kiểm thử, kết cho  Thử nghiệm phát liệu web log thực, kết cho Bảng 3.3 p ie gh tn to Bảng 3.2 Bảng 3.2: Kết kiểm thử mơ hình phát công web sử dụng tập w d oa nl liệu kiểm thử [19] ll u nf va an lu oi m z at nh z m co an Lu Độ xác phát không công = 98.77% l gm @ Độ xác trung bình = 98.51% n va ac th si 48 Độ xác phát cơng SQLi = 98.78% Độ xác phát cơng XSS = 89.27% Độ xác phát cơng duyệt đường dẫn = 97.94% Độ xác phát công CMDi = 66.67% Bảng 3.3: Một số kết chi tiết phát công web sử dụng web log thực Loại công phát Chuỗi công sử dụng lu an fpw=(select%20convert(int%2cCHAR(65))) n va Tấn công SQLi to type=vh01i%27%3e%3cscript%3ealert %281%29%3c%2fscript p ie gh tn Tấn công XSS %3eooq5gaction=inspectMBean&name=jboss.syste type= / / / / / / / / / / /etc/passwd%00 Duyệt đường dẫn fpw=WEB-INF/web.xml%3f oa nl w Tấn công CMDi d 3.4.3 Nhận xét an lu u nf va Từ kết thử nghiệm mơ hình phát hiện, rút số nhận xét sau:  Mơ hình phát cơng web đạt độ xác phát trung ll oi m bình cao, đạt 98.51% Hầu hết dạng cơng trạng thái bình z at nh thường có độ xác phát cao, riêng độ xác phát cơng CMDi đạt 66.67% lượng liệu huấn luyện cho dạng công z Trên thực tế, cơng CMDi gặp dịch vụ web gm @ dạng SQLi, XSS duyệt đường dẫn m co l  Kết phát thử web log thực cho thấy mơ hình phát xác loại cơng Mơ hình có khả phát dạng công an Lu web bao gồm SQLi XSS, công duyệt đường dẫn CMDi n va ac th si 49 3.5 Kết luận chương Trong chương luận văn mô tả chi tiết liệu sử dụng cho mơ hình phát cơng web sử dụng học máy, mô tả chi tiết phương pháp huấn luyện phát hiện, thống kê chi tiết kết đạt nhiều kịch thử nghiệm khác từ rút nhận xét ưu điểm hạn chế phương pháp học máy sử dụng lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 50 KẾT LUẬN Kết đạt được: Từ nội dung chương, luận văn đạt kết sau:  Trình bày khái quát ứng dụng web, yêu cầu bảo mật ứng dụng web, web server, loại công web đặc điểm cách khai thác loại công web phổ biến biện pháp bảo mật, cách phòng chống lu  Trình bày phương pháp phát công web sử dụng học máy, an thuật toán học máy áp dụng cho toán phát cơng web va n Đưa mơ hình phát công web nguyên lý hoạt động mơ tn to hình phát cơng Trình bày trình xử lý liệu, đưa liệu vào ie gh huấn luyện phát kiểm tra p  Thử nghiệm mơ hình phát cơng web dựa học máy với nl w kịch cụ thể đưa kết chi tiết d oa Hướng phát triển tương lai an lu  Do hạn chế thời gian khả năng, luận văn thử nghiệm mơ u nf va hình thuật tốn học máy Cây định Trong tương lai sử dụng thuật tốn khác q trình huấn luyện phát hiện, ll oi m Naive Bayes, Rừng ngẫu nhiên SVM, từ tìm thuật tốn tối ưu z at nh  Cập nhật thêm liệu để phát loại công cập nhật cách thức công lỗ hổng cũ z m co l gm @ an Lu n va ac th si 51 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Xuân Dậu, Bài giảng An toàn ứng dụng web sở liệu, Học viện Công nghệ bưu viễn thơng, 2017 [2] Từ Minh Phương, Giáo trình Nhập mơn Trí Tuệ Nhân Tạo, Học viện Cơng nghệ bưu viễn thơng, 2015 [3] Hồng Xn Dậu, “Nghiên cứu, phát triển hệ thống phân tích vết truy cập dịch vụ cho phép phát hiện, cảnh báo hành vi bất thường nguy an toàn thơng tin Chính phủ điện tử”, Báo cáo đề tài KC.01.05/16-20, 2019 lu an [4] Từ Minh Phương, Giáo trình Nhập mơn Trí Tuệ Nhân Tạo, Học viện Cơng n va nghệ bưu viễn thơng, 2015 tn to Tiếng Anh gh p ie [5] Abhishek Kumar Baranwal (2012), Approaches to detect SQL injection and XSS in web applications, EECE 571B, Term Survey Paper, University of oa nl w British Columbia, Canada, April 2012 [6] Kemalis, K and T Tzouramanis (2008) SQL-IDS: A Specification- d an lu based Approach for SQLinjection Detection SAC’08 Fortaleza, Ceará, va Brazil, ACM (2008), pp 2153-2158 ll u nf [7] P Bisht, and V.N Venkatakrishnan (2008), “XSS-GUARD: Precise dynamic oi m prevention of Cross-Site Scripting Attacks,” In Proceeding of 5th Conference 5137, 2008, pp 23-43 z at nh on Detection of Intrusions and Malware & Vulnerability Assessment, LNCS z [8] Doyen Sahoo, Chenghao Liu, and Steven C.H Hoi (2017), Malicious URL Machine Learning: Survey, [Online] m co l https://arxiv.org/abs/1701.07179, Mar 2017 Trang WEB A gm using @ Detection [9] OWASP, Open Web Application Security Project, http://www.owasp.org, an Lu truy nhập tháng 1.2018 n va ac th si 52 [10] OWASP ModSecurity Core Rule Set, https://www.owasp.org/index.php/Category: OWASP_ModSecurity_Core_Rule_Set_Project, truy nhập tháng 1.2018 [11] https://ereka.vn/post/owasp-cong-bo-top-10-rui-ro-bao-mat-ung-dung- nam-2017 [12] https://m.bkav.com.vn/tin_tuc_noi_bat/-/chi_tiet/669034/tong-ket-an- ninh-mang-nam-2019-va-du-bao[13] https://quantrimang.com/lo-hong-bao-mat-nhung-hieu-biet-can-ban- lu 93098 an n va https://machinelearningcoban.com/2017/08/08/nbc/ [15] https://ereka.vn/post/cach-xay-dung-mot-mo-hinh-hoc-may-machine- tn to [14] ie gh learning-model-5298271823815628220 https://securitydaily.net/tan-cong-directory-traversal-la-gi/ p [16] https://www.owasp.org/index.php/Command_Injection nl https://www.loganalyzer.net/log-analysis-tutorial/what-is-log-file.html d oa [18] w [17] https://quantrimang.com/tan-cong-kieu-sql-injection-va-cac-phong- an lu [19] HTTP Param ll [20] u nf va chong-trong-asp-net-34905 Dataset, m oi https://github.com/Morzeux/HttpParamsDataset, truy nhập 12.2018 Hồng Xn Dậu nhóm thực Lab ATTT – Học viện Công z at nh [21] nghệ BCVT Đề tài “Nghiên cứu, phát triển hệ thống phân tích vết truy cập z dịch vụ cho phép phát hiện, cảnh báo hành vi bất thường nguy an @ m co l gm tồn thơng tin Chính phủ điện tử”, mã số KC.01.05/16-20 2020 an Lu n va ac th si

Ngày đăng: 12/07/2023, 17:27

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan