Phương pháp phát hiện tấn công WEB ứng dụng dựa trên kỹ thuật phân tích hành vi

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Khuất Thị Ngọc Ánh PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG WEB ỨNG DỤNG DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - NĂM 2020 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Khuất Thị Ngọc Ánh PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG WEB ỨNG DỤNG DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI Chun ngành: Hệ thống thơng tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐỖ XUÂN CHỢ HÀ NỘI - NĂM 2020 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng tơi Nội dung luận văn có tham khảo sử dụng tài liệu, thông tin đăng tải tạp chí khoa học trang web liệt kê danh mục tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà nội, ngày … tháng … năm 2020 Tác giả luận văn Khuất Thị Ngọc Ánh ii MỤC LỤC LỜI CAM ĐOAN i DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH vi MỞ ĐẦU CHƯƠNG 1: NGUY CƠ MẤT AN TỒN THƠNG TIN WEB VÀ BIỆN PHÁP PHỊNG CHỐNG 1.1 Top 10 lỗ hổng bảo mật ứng dụng web theo OWASP .4 1.1.1 SQL injection 1.1.2 Broken Authentication And Session Management .5 1.1.3 Cross Site Scripting (XSS) 1.1.4 Insecure Direct Object References .6 1.1.5 Security Misconfiguration 1.1.6 Sensitive Data Exposure .7 1.1.7 Missing Function Level Access Control 1.1.8 Cross-Site Request Forgery (CSRF) 1.1.9 Using Components with Known Vulnerabilities .7 1.1.10 Unvalidated Redirects and Forwards 1.2 Phương pháp phòng chống công web 1.2.1 Các phương pháp phịng chống cơng web phổ biến .8 1.2.2 Một số phương pháp nâng cao bảo mật hệ thống máy chủ website 12 Kết luận chương 14 CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG TRÊN WEB DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI 16 2.1 Giới thiệu phương pháp phát công web 16 2.1.1 Một số phương pháp phát công web 16 2.1.2 Công cụ phát công web .19 2.2 Phương pháp phát hành vi bất thường người dùng web sử dụng học máy 32 2.2.1 Một số thuật tốn phát cơng web 33 2.2.2 Lựa chọn trích xuất hành vi người dùng web .43 Kết luận chương 48 iii CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 50 3.1 Một số yêu cầu cài đặt .50 3.1.1 Yêu cầu chung cho cài đặt thử nghiệm 50 3.1.2 Giới thiệu chung Python 50 3.1.3 Giới thiệu liệu CSIC 52 3.2 Kịch thực nghiệm 53 3.3 Một số kết thực nghiệm .56 KẾT LUẬN 60 Những đóng góp luận văn .60 Hướng phát triển luận văn .60 DANH MỤC CÁC TÀI LIỆU THAM KHẢO .62 iv DANH MỤC CÁC THUẬT NGỮ TẮT Viết tắt Tiếng Anh OWASP Open Web Application Security Project Tiếng Việt Dự án mở bảo mật ứng dụng Web SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc HTTP HyperText Transfer Protocol Giao thức truyền tải siêu văn HTTPS Hyper Text Transfer Protocol Giao thức truyền tải siêu văn Secure bảo mật XSS Cross-Site Scripting Tấn công thực thi mã script HTML Hypertext Markup Language Ngôn ngữ đánh dấu siêu văn CSRF Cross-Site Request Forgery Tấn công giả mạo yêu cầu ATP Advanced Persistent Threat Mối đe dọa nâng cao IPS Intrusion Prevention system Hệ thống ngăn chặn xâm nhập IDS Intrusion detection system Hệ thống phát xâm nhập NIDS Network - Based IDS Hệ thống phát xâm nhập mạng HIDS Host - Based IDS SSL Secure Sockets Layer Lớp socket bảo mật TSL transport layer security Giao thức bảo mật tầng giao vận WAF Web Application Firewall Giải pháp bảo mật hệ thống IP Internet Protocol Giao thức Internet VPN Virtual Private Network Mạng riêng ảo DOS Denial of Service Tấn công từ chối dịch vụ SVM Support vector machine Máy véc tơ hỗ trợ Hệ thống phát xâm nhập dựa máy chủ v DANH MỤC CÁC BẢNG Bảng 2.1: Mô tả trường liệu liệu CSIC .43 Bảng 2.2: Kết trích chọn thuộc tính sử dụng kết hợp N-Gram TF-IDF .47 Bảng 3.1: Kết thực xây dựng phân lớp bình thường/bất thường theo kịch .57 vi DANH MỤC CÁC HÌNH Hình 2.1: Phân loại phương pháp phát công web 16 Hình 2.2: Mơ hình Web application firewal .20 Hình 2.3: Kiến trúc hệ thống IDS 24 Hình 2.4: Mơ hình NIDS 26 Hình 2.5: Mơ hình NIDS 26 Hình 2.6: Mơ hình HIDS 30 Hình 2.7: Mơ tả hai data mặt phẳng .33 Hình 2.8: Mơ tả data phức tạp khơng gian nhiều chiều .34 Hình 2.9: Mô tả cách xác định margin 34 Hình 2.10: Cây định 37 Hình 2.11: Mơ tả K-NN dùng để phân lớp .43 Hình 3.1: Q trình xây dựng mơ hình .54 Hình 3.2: Ma trận độ đo (Conusion matrix) .55 MỞ ĐẦU Tính cấp thiết đề tài Các nguy an tồn thơng tin giới nói chung Việt Nam nói riêng liên tục tăng phát triển số lượng mức độ nguy hiểm công Theo ghi nhận số công ty bảo mật giới, vài năm trở lại Việt Nam coi điểm nóng mã độc công website trái phép Hàng loạt công website diễn với quy mô lớn vào website doanh nghiệp, tổ chức phủ… gây an tồn thơng tin ảnh hưởng nghiêm trọng đến uy tín doanh nghiệp, tổ chức phủ Hiện nay, quan nhà nước, tổ chức phủ có nhiều biện pháp tích cực việc phịng chống phát công website Rất nhiều biện pháp ứng dụng triển khai thực tế Tuy nhiên, kỹ thuật công website ngày biến đổi tinh vi phức tạp, đặc biệt truy cập thể hành vi bất thường người dùng website dễ dàng để vượt qua giám sát sản phẩm an toàn web Website Trường Đại học Công nghệ Giao thông vận tải sử dụng cho phép nhiều user bao gồm sinh viên, giảng viên cán công nhân viên chức sử dụng để làm việc tra cứu thông tin Hàng ngày có hàng trăm nghìn giao dịch, người dùng truy cập vào website trường nhằm khai thác thực mục đích Trong số truy cập có nhiều truy cập bất thường người người dùng web ghi nhận, gây an tồn thơng tin uy tín nhà trường Chính vậy, vấn đề phát ngăn chặn truy nhập bất thường người dùng web lên Website Trường Đại học Công nghệ Giao thông vận tải quan tâm Từ lý trên, học viên với giúp đỡ TS Đỗ Xuân Chợ lựa chọn đề tài: “Phương pháp phát công web ứng dụng kỹ thuật phân tích hành vi” Tổng quan vấn đề cần nghiên cứu Hiện việc tăng trưởng phát triển nhanh chóng Internet dẫn đến nhu cầu bảo mật đảm bảo an tồn thơng tin doanh nghiệp ngày trọng Theo Báo cáo an ninh website Q3/2018 CyStack [15], quý năm 2018 giới có 129.722 website bị tin tặc công chiếm quyền điều khiển Như vậy, phút trơi qua lại có website bị tin tặc kiểm soát Bằng việc chiếm quyền điều khiển website tin tặc gây nhiều vấn đề rắc rối cho chủ website: đánh cắp liệu, cài đặt mã độc, phá hoại website, tạo trang lừa đảo (phishing), tống tiền…Theo thống kê, Việt Nam đứng thứ 19 (chiếm 0.9%) số quốc gia có website bị tin tặc cơng Cụ thể quý năm 2018 có 1.183 website Việt Nam bị tin tặc cơng kiểm sốt Các website giới thiệu sản phẩm dịch vụ Doanh nghiệp đối tượng bị tin tặc công nhiều nhất, chiếm tới 71,51% Vị trí thứ hai website Thương mại điện tử chiếm 13,86% Các website có tên miền gov.vn phủ chiếm 1.9% danh sách với tổng số 23 website bị cơng Ngồi việc sử dụng phương pháp phịng chống cơng truyền thống, xu hướng xử dụng trí tuệ nhân tạo, học máy để áp dụng lĩnh vực an tồn thơng tin để phát nhanh chóng tăng độ xác Có hướng tiếp cận dựa vào dấu hiệu hành vi để phát cơng web nói chung hành vi bất thường người dùng web nói riêng Mỗi phương pháp có ưu điểm nhược điểm định Trong luận văn, tác giả sâu vào việc nghiên cứu phương pháp phát hành vi bất thường người dùng web dựa kỹ thuật phân tích hành vi Để luận văn đạt kết trên, cần nghiên cứu làm rõ nội dung: - Tìm hiểu số lỗ hổng, điểm yếu công lên web ứng dụng; - Nghiên cứu tìm hiểu số phương pháp công nghệ phát công web ứng dụng; - Nghiên cứu phương pháp phát công web kỹ thuật phân tích hành vi sở thuật toán học máy hành vi người dùng Mục đích nghiên cứu • Tìm hiểu thuật tốn phân loại học máy; • Tìm hiểu hành vi bất thường người dùng web; 49 thường người dùng web sử dụng học máy thơng qua thuật tốn: SVM, Random Forest, KNN Luận văn sử dụng kĩ thuật trích chọn thuộc tính văn TF-IDF để lựa chọn trích xuất hành vi người dùng đưa cảnh báo trước công web cho người quản trị Trên sở kết đạt chương 2, chương luận văn tiến hành thực nghiệm phát công web dựa kỹ thuật phân tích hành vi sở thuật toán (SVM, Random Forest, KNN) hành vi trích xuấtlựa chọn 50 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ Tóm tắt chương: Trong chương 3, luận văn thực thực nghiệm phát cơng web dựa kỹ thuật phân tích hành vi sở thuật toán hành vi lựa chọn phân tích chương 3.1 Một số yêu cầu cài đặt 3.1.1 Yêu cầu chung cho cài đặt thử nghiệm - Phần cứng: Bộ xử lý 32bit (x86) 64bit (x64) có tốc độ gigahertz (GHz) nhanh hơn; RAM 4GB trở lên; Đĩa cứng có dung lƣợng trống 10 GB (64 bit) - Phần mềm: Cài đặt hệ thống Windows/Linux (Centos 7.2); Công cụ lập trình: Phần mềm Python 2.7 trở lên phần mềm Pycham Professional 2020.1 - Dữ liệu: Bộ liệu công CSIC 2010 3.1.2 Giới thiệu chung Python Python ngôn ngữ kịch hướng đối tượng (object-oriented scripting language) Khơng vậy, cịn ngơn ngữ cấp cao có khả thơng dịch (interpreted language) có tính tương tác (interactive language) cao Nhờ chức thơng dịch mà trình thơng dịch (Interpreter) Python xử lý lệnh thời điểm chạy chương trình (runtime) Nhờ mà ta khơng cần biên dịch chương trình trước thực (tương tự Perl PHP) Python ngôn ngữ lập trình đa mục đích, sử dụng hàng ngàn người để làm việc từ kiểm thử vi mạch hãng Intel, sử dụng ứng dụng Instagram, xây dựng video game với thư viện PyGame có hàng trăm thư viện bên thứ ba (third-party) Có số đặc điểm sau: - Đơn giản: Python ngôn ngữ đơn giản tối giản Đọc chương trình Python có cảm giác đọc tiếng Anh, dạng rút gọn Tính tự nhiên mã giả Python điểm mạnh ngôn ngữ Điều 51 giúp cho lập trình viên tập trung vào giải pháp giải vấn đề việc tập trung vào ngơn ngữ - Dễ học: Python dễ học có cú pháp đơn giản - Miễn phí mã nguồn mở: Python ví dụ FLOSS (Free/Libré and Open Source Software) Vì vậy, tự phân phối chép phần mềm, mã nguồn, thay đổi hay sử dụng thành phần phần mềm chương trình Một lý Python ngôn ngữ mạnh cộng đồng thường xun phát triển nâng cấp - Ngôn ngữ bậc cao: Khi sử dụng Python, để ý đến chi tiết mức thấp quản lý nhớ cho chương trình,… - Khả bỏ túi: Do tính tự nhiên mã mở Python, Python xây dựng chạy nhiều tảng khác Có thể sử dụng Python GNU/Linux, Windows, FreeBSD, Macintosh, Solaris, OS/2, Amiga, AROS, AS/400, BeOS, OS/390, z/OS, Palm OS, QNX, VMS, Psion, Acorn RISC OS, VxWorks, PlayStation, Sharp Zaurus, Windows CE PocketPC Ngồi cịn dùng tảng Kivy để tạo trò chơi máy tính dành cho iPhone, iPad, Android - Diễn dịch: Khi chương trình viết ngơn ngữ biên dịch (như C C++) chuyển đổi từ mã ngôn ngữ (C/C++) thành ngôn ngữ mà máy tính có hiểu cách dùng trình biên dịch với chức khác Trái lại, Python khơng cần biên dịch nhị phân Chương trình viết Python chạy trực tiếp từ mã nguồn Cụ thể, Python chuyển mã nguồn thành dạng trung gian gọi bytecode, sau dịch dạng trung gian thành ngơn ngữ mà máy tính hiểu - Hướng đối tượng: Python ngôn ngữ hỗ trợ cho lập trình hướng đối tượng lẫn lập trình thủ tục Nếu so sánh với C++ Java, Python mạnh lại đơn giản để thực lập trình hướng đối tượng 52 - Tính mở rộng: Nếu cần đoạn mã chạy nhanh vài thuật tốn đóng, lập trình C/C++ sau sử dụng cho chương trình Python Python cho phép tích hợp chương trình ngơn ngữ khác - Thư viện mở rộng: Thư viện tiêu chuẩn Python lớn Thư viện giúp làm nhiều thứ khác liên quan đến biểu thực quy, gieo tài liệu, tiến trình/tiểu trình, database, trình duyệt web, CGI, FTP, email, XML, XML-RPC, HTML, tập tin WAV, mã hóa, GUI, phần khác Tất thứ sẵn có cài đặt Python Từ khảo sát trên, luận văn lựa chọn Python làm ngôn ngữ để tiến hành cài đặt thử nghiệm 3.1.3 Giới thiệu liệu CSIC Bộ liệu HTTP CSIC 2010 chứa hàng ngàn yêu cầu web tạo tự động Nó sử dụng để thử nghiệm hệ thống bảo vệ công web Bộ liệu HTTP CSIC phát triển "Viện bảo mật thông tin" CSIC (Hội đồng nghiên cứu quốc gia Tây Ban Nha) [14] Bộ liệu tạo tự động chứa 36.000 yêu cầu bình thường 25.000 yêu cầu dị thường Các yêu cầu HTTP gắn nhãn bình thường bất thường liệu bao gồm công SQL, tràn đệm, thu thập thông tin, tiết lộ tệp, tiêm CRLF, XSS, bao gồm phía máy chủ, giả mạo tham số, v.v Dữ liệu tạo theo bước: Đầu tiên, liệu thực thu thập cho tất tham số ứng dụng web Tất liệu (tên, họ, địa chỉ, v.v.) trích xuất từ sở liệu thực Các giá trị lưu trữ hai sở liệu: cho giá trị bình thường cho giá trị dị thường Ngồi ra, tất trang có sẵn công khai ứng dụng web liệt kê Tiếp theo, yêu cầu bình thường bất thường tạo cho trang web Trong trường hợp u cầu bình thường có tham số, giá trị tham số 53 điền đầy đủ với liệu lấy từ sở liệu bình thường Quá trình tương tự cho yêu cầu bất thường, giá trị tham số lấy từ sở liệu bất thường Ba loại hành vi bất thường xem xét: 1) Các công tĩnh cố gắng yêu cầu tài nguyên bị ẩn (hoặc không tồn tại) Các yêu cầu bao gồm tệp lỗi thời, ID phiên ghi lại URL, tệp cấu hình, tệp mặc định, v.v 2) Các công động sửa đổi đối số yêu cầu hợp lệ: SQL SQL, CRLF, kịch chéo trang, tràn đệm, v.v 3) Vơ tình yêu cầu bất hợp pháp Các yêu cầu mục đích xấu, nhiên chúng khơng tn theo hành vi thông thường ứng dụng web cấu trúc giống giá trị tham số bình thường (ví dụ: số điện thoại gồm chữ cái) 3.2 Kịch thực nghiệm Bộ liệu CSIC đầu vào chia thành nhiều tập khác để kiểm nhiệm mơ hình Q trình xây dựng mơ hình bao gồm hai giai đoạn chính: - Giai đoạn 1: Huấn luyện mơ hình (Training phase) - Giai đoạn 2: Kiểm thử mơ hình (Testing phase) 54 Hình 3.1: Q trình xây dựng mơ hình ❖ Giai đoạn huấn luyện mơ hình (bao gồm bước chính): - Bước 1: Bộ liệu request bình thường từ người dùng tập liệu CSIC Tại bước này, thực tính tốn xuất ký tự quan trọng lưu chúng sở liệu - Bước 2: Mô-đun không gian vectơ sử dụng để chuyển đổi liệu chuỗi thành vectơ Sử dụng kĩ thuật trích chọn liệu tác giả giới thiệu mơ tả cách tính chương - Bước 3: Mô-đun xử lý liệu sử dụng thuật toán học máy (lần lượt thay thuật tốn khác để xác định mơ hình tối ưu cho toán: KNN, SVM, Random Forest) ❖ Giai đoạn kiểm thử mơ hình: - Bước 1: Phần liệu thử nghiệm tiến hành loại bỏ nhãn liệu - Bước 2: Thực trình trích xuất đặc trưng liệu tương tự bước giai đoạn 55 - Bước 3: Thử nghiệm mơ hình ứng với thuật tốn học máy xây dựng giai đoạn Tác giả lựa chọn phương pháp đánh giá độ xác cách sử dụng ma trận độ đo (confusion matrix) mô tả sau: Confusion Matrix phương pháp đánh giá kết toán phân loại với việc xem xét số độ xác độ bao quát dự đoán cho lớp Một confusion matrix gồm số sau lớp phân loại: • TP (True Positive): mẫu mang nhãn dương phân lớp vào lớp dương • TN (True Negative): mẫu mang nhãn âm phân lớp vào lớp âm • FP (False Positive - Type Error): mẫu mang nhãn âm bị phân lớp sai vào lớp dương • FN (False Negative - Type Error): mẫu mang nhãn dương bị phân lớp sai vào lớp âm Hình 3.2: Ma trận độ đo (Conusion matrix) Ký hiệu TP True Positive; TN True Negative; FP False Positive FN False Negative Thực phép đo Precision – Recall, đó, Precision tỉ lệ số điểm TP điểm phân loại Positive, Recall tỉ lệ số điểm TP số điểm thực Positive Công thức sau: 56 precision= recall= 𝑇𝑃 𝑇𝑃+𝐹𝑃 𝑇𝑃 𝑇𝑃+𝐹𝑁 Ta thấy rằng, Precision Recall phủ cao tốt Nhưng thực tế, hai giá đạt cực đại lúc thơng thường phải tìm kiếm cân Thước đo F1score trung bình hài hịa Precision Recall Nó có xu hướng khơng hai giá trị có xu hướng khơng F1score = 2* 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 ❖ Kịch thực nghiệm chi tiết: Trong mơ hình sử dụng liệu bao gồm 25065 liên kết bất hợp pháp số loại công (XSS, SQL injection) 36000 liên kết hợp pháp Bộ liệu từ số nguồn liệu công cụ bảo vệ hệ thống tệp nhật ký hệ thống phát ngăn chặn xâm nhập, yêu cầu HTTP (phương thức GET, phương thức POST) tường lửa ứng dụng Web Các liệu ban đầu thực phân chia thành hai phần riêng biệt với 80% liên kết để đào tạo 20% liên kết để thử nghiệm Trong trình thử nghiệm thêm số phương pháp học máy để so sánh phương pháp đề xuất 3.3 Một số kết thực nghiệm Thực thử nghiệm liêu bao gồm: - 36000 request bình thường; - 25065 request bất thường; - Tỉ lệ chia liệu Traning/Testing 8/2; - Số lớp liệu cần phần lớp: Bình thường/Bất thường Từ việc thực phân chia liệu đầu vào tập bình thường thành đoạn với tỉ lệ trên, ta bảng kết quả: 0.978954 0.986447 N=3 N=4 [140 4884] [7133 56] [161 4863] [7047 142] [262 4762] 0.99221 0.980248 0.980751 0.977664 0.994289 0.997219 0.983698 [31 4993] [7138 51] [22 5002] [7171 18] [136 4888] 0.992906 0.997496 0.986229 0.995676 0.996941 0.981179 Recall 0.978658 0.984335 0.985959 F1_Score Confusion [178 4846] [7061 128] [105 4919] [7069 120] [105 4919] [7092 97] 0.963837 Precision [7090 99] 0.971345 Confusion [6983 206] F1_Score Matrix Recall Matrix Precision 0.982083 0.983308 0.986507 Precision Rừng ngẫu nhiên Matrix Confusion SVM Nhận xét: Kết sau chạy với thuật toán học máy ta thu mơ hình tốt với thuật toán SVM Ngram = 0.967577 N=2 F1_Score KNN thường theo kịch Bảng 3.1: Kết thực nghiệm xây dựng phân lớp bình thường/bất 0.975257 0.985364 0.985411 Recall 57 58 Phát bất thường từ hành vi người dùng web vấn đề khó phịng chống cơng ứng dụng web Thuật tốn phân loại đề xuất để phát liên kết bất hợp pháp dựa ứng dụng phương pháp học máy với việc trích chọn đặc trưng thuộc tính liệu người dùng Thuật toán phát liên kết bất hợp pháp phân tích liên kết theo chuỗi bước để xác định xem liên kết hợp pháp hay độc hại Mặc dù thuật toán đề xuất cải thiện độ xác phân loại liên kết bất hợp pháp, với gia tăng số lượng tham số có yêu cầu, độ xác phân loại giảm Do đó, thời gian tới, cần tìm kết hợp phương pháp phát bất thường dựa học sâu nhằm cải thiện độ xác phân loại khơng liên kết đáng ngờ đặc trưng loại công chưa định danh 59 Kết luận chương Trong chương luận văn xây dựng ba kịch thử nghiệm phân loại hành vi người dùng web Với kịch xây dựng mơ hình học máy như: KNN, SVN, Random Forest Các kết thử nghiệm ban đầu cho thấy giải pháp phát công web ứng dụng dựa kỹ thuật phân tích hành vi đề xuất có tính khả thi cao phù hợp với yêu cầu đề 60 KẾT LUẬN Những đóng góp luận văn Với mục tiêu nghiên cứu phương pháp phát công web ứng dụng dựa kỹ thuật phân tích hành vi thử nghiệm, luận văn sâu nghiên cứu vấn đề xung quanh đề tài nghiên cứu, thuật toán học máy phát công web để ứng dụng vào phát hành vi bất thường người dùng Những kết đạt luận văn: - Khảo sát số nguy an tồn thơng tin thông qua kĩ thuật công web, đưa phương pháp phịng chống cơng web phổ biến đưa số phương pháp nhằm nâng cao bảo mật hệ thống - Tìm hiểu phương pháp phát công web dựa kỹ thuật phân tích hành vi Thực trích xuất hành vi bất thường từ liệu công web (bộ liệu CSIC 2010) sử dụng kĩ thuật trích chọn TF-IDF kết hợp N-Gram - Lựa chọn ứng dụng thuật toán học máy nhằm phân loại hành vi cơng hành vi bình thường lên web, sử dụng thuật tốn học máy có giám sát: KNN, SVM, Random forest - Thực nghiệm xây dựng mơ hình phân lớp bình thường/bất thường theo kịch để đưa mơ hình tốt sử dụng N-Gram với n=3 Hướng phát triển luận văn Một số hướng phát triển luận văn: - Mặc dù thuật tốn đề xuất cải thiện độ xác phân loại liên kết bất hợp pháp, với gia tăng số lượng tham số có yêu cầu, độ xác phân loại giảm Do đó, cần tìm kết hợp phương pháp phát bất thường dựa học sâu nhằm cải thiện độ xác phân loại khơng liên kết đáng ngờ đặc trưng loại công chưa định danh 61 - Thực nghiên cứu phương pháp phát công web dựa kỹ thuật phân tích hồ sơ hành vi 62 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] GSTS Nguyễn Thúc Hải – "Mạng máy tính hệ thống mở", NXB Giáo dục, 1989 [2] Vũ Hữu Tiệp (2016-2020) – “Machine Learning bản” Tiếng Anh [3] Trustware SpiderLabs, “ModSecurity: Open Source Web Application Firewall,” https://www.modsecurity.org/ [4] Ying Dong, Yuqing Zhang, Hua Ma et al., “An adaptive system for detecting malicious queries in web attacks,” Science China Information Sciences, vol 61, no 3, Article ID 032114, 2018 [5] C Torrano Gimenez, H T Nguyen, G Alvarez, K Franke, “Combining expert knowledge with automatic feature extraction for reliable web attack detection,” Security and Communication Networks, vol 8, no.16, pp 2750– 2767, 2015 [6] Neline van Ginkel, Willem De Groef, Fabio Massacci, Frank Piessens, “A Server-Side JavaScript Security Architecture for Secure Integration of ThirdParty Libraries,” Security and Communication Networks, vol 2019, no 6, pp 1-21, 2019 [7] Muhammad Hilmi Kamarudin, Carsten Maple, Tim Watson, Nader Sohrabi Safa, “A New Unified Intrusion Anomaly Detection in Identifying Unseen Web Attacks,” Security and Communication Networks, vol 2017, no 1, pp 1- 18, 2017 [8] Hu Y, Li B, Ye W, Yuan G “A Human-Machine Collaborative Detection Model for Identifying Web Attacks,” in Proceedings of the International Conference on Collaborative Computing: Networking, Applications and Worksharing, CollaborateCom 2017, pp.109-119, Shanghai, China, 1-3 December 2017 [9] WenChuan Yang, Wen Zuo, BaoJiang Cui, “Detecting Malicious URLs via a Keyword-based Convolutional Gated-recurrent-unit Neural Network,” IEEE Access, Volume 7, no 2019, pp 29891 – 29900, 2019 [10] R Fielding, J Gettys, J Mogul, H Frystyk, T Berners-Lee, “Hypertext Transfer Protocol -HTTP/1.1”, 1999, https://tools.ietf.org/html/rfc2616#section-5 [11] ModSecurity Core Rule Set Project, “OWASP ModSecurity Core Rule Set,” 2016, https://coreruleset.org/ [12] K K Mookhey, “Evasion and Detection of Web Application Attacks,” Black Hat USA 2004, https://www.blackhat.com/presentations/bh-usa-04/bh-us-04mookhey/bh-us-04-mookhey-up.ppt 63 Trang web: [13] (2016) What are Web Application Vulnerabilities? Available: https://www.rapid7.com/fundamentals/web-application-vulnerabilities/ Truy [14] [15] [16] cập ngày 15/2/2020 (2010) HTTP DATA SET CSIC 2010, External Data Source [Online] Available: https://www.impactcybertrust.org/dataset_view?idDataset=940 Truy cập ngày 15/2/2020 (2018) Hơn 120.000 website bị tin tặc công quý năm 2018 Available: https://cystack.net/vi/resource/website-bi-tin-tac-tan-cong-quy-32018/ Truy cập ngày 18/03/2020 (2020) Quản trị website gì? Người quản trị cần có kỹ nào? Available: https://wtstats.info/quan-tri-website/ Truy cập ngày 19/05/2020 ... CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG TRÊN WEB DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI 16 2.1 Giới thiệu phương pháp phát công web 16 2.1.1 Một số phương pháp phát công web ... theo, luận văn nghiên cứu phương pháp phát công Website dựa kĩ thuật phân tích hành vi 16 CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN TẤN CƠNG TRÊN WEB DỰA TRÊN KỸ THUẬT PHÂN TÍCH HÀNH VI Tóm tắt chương: Trong... phương pháp phát công web bao gồm kỹ thuật phát công cụ mã nguồn mở hỗ trợ phát cơng web Ngồi ra, chương trình bày phương pháp phát công web dựa kỹ thuật phân tích hành vi Theo đó, kỹ thuật phân

Định dạng
Số trang	71
Dung lượng	1,12 MB