Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)Xây Dựng Công Cụ Nhận Dạng Tấn Công Ứng Dụng WordPress Dựa Trên Sự Bất Thường (LV thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN TRỌNG NGHĨA XÂY DỰNG CÔNG CỤ NHẬN DẠNG TẤN CÔNG ỨNG DỤNG WORDPRESS DỰA TRÊN SỰ BẤT THƢỜNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) THÀNH PHỐ HỒ CHÍ MINH – 2017 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN TRỌNG NGHĨA XÂY DỰNG CÔNG CỤ NHẬN DẠNG TẤN CÔNG ỨNG DỤNG WORDPRESS DỰA TRÊN SỰ BẤT THƢỜNG Chuyên ngành : HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĂN HỒI THÀNH PHỐ HỒ CHÍ MINH – 2017 i LỜI CAM ĐOAN Tôi cam đoan luận văn công trình nghiên cứu thân Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố luận văn trƣớc TP HCM, ngày 22 tháng năm 2017 Học viên thực luận văn Nguyễn Trọng Nghĩa ii LỜI CẢM ƠN Trƣớc tiên, xin bày tỏ lòng biết ơn chân thành đến Thầy PGS.TS Trần Văn Hồi tận tình dạy, hƣớng dẫn tạo điều kiện thuận lợi để tơi hồn thành tốt luận văn Đồng thời xin gởi lời cảm ơn đến anh Huỳnh Hồng Tân ln nhiệt tình dẫn, bên cạnh tơi suốt thời gian thực luận văn Tôi xin gửi lời cảm ơn đến Quý Thầy Cô Học Viện Cơng Nghệ Bƣu Chính Viễn Thơng Cơ sở TP Hồ Chí Minh tận tình giảng dạy trang bị cho tơi kiến thức q báu q trình tham gia học tập Trƣờng Tôi chân thành biết ơn sâu sắc đến gia đình bạn bè động viên giúp đỡ tơi hồn thành khóa học TP HCM, ngày 22 tháng năm 2017 Học viên thực luận văn Nguyễn Trọng Nghĩa iii MỤC LỤC Lời cam đoan i Lời cảm ơn ii Mục lục iii Danh mục thuật ngữ, chữ viết tắt v Danh sách bảng vi Danh sách hình vẽ vii Mở đầu CHƢƠNG – TỔNG QUAN VỀ BẢO MẬT VÀ CÁC GIẢI PHÁP NHẬN DẠNG TẤN CÔNG ỨNG DỤNG WEB 1.1 Những vấn đề bảo mật Website CMS 1.1.1 Khái niệm Website CMS .3 1.1.2 Kiến trúc Wordpress 1.1.3 Mơ hình hoạt động ứng dụng web 1.1.4 Vấn đề bảo mật Website CMS 1.2 Phƣơng pháp bảo mật quan trọng 10 1.2.1 Danh sách rủi ro bảo mật cho ứng dụng Wordpress OWASP .14 1.2.2 Các phƣơng pháp nhận dạng công ứng dụng web 21 1.3 Học máy .23 1.3.1 Tổng quan 23 1.3.2 Các ứng dụng học máy 25 CHƢƠNG – CÁC MƠ HÌNH NHẬN DẠNG TẤN CÔNG ỨNG DỤNG WORDPRESS DỰA TRÊN SỰ BẤT THƢỜNG 26 2.1 Định nghĩa tổng quát bất thƣờng .26 2.2 Các mơ hình nhận dạng .29 2.2.1 Cấu trúc yêu cầu (Request structure) .29 2.2.2 Các giá trị yêu cầu (Request values) .30 2.2.3 Phản hồi (Response) 32 2.2.4 Cấu trúc phiên (Session structure) 33 2.2.5 Hồ sơ ngƣời dùng (User profile) 35 2.2.6 Tổng quan hệ thống (System overview) 36 CHƢƠNG – PHƢƠNG PHÁP HỌC MÁY TRONG NHẬN DẠNG TẤN CÔNG ỨNG DỤNG WORDPRESS DỰA TRÊN SỰ BẤT THƢỜNG .38 iv 3.1 Nhận xét đánh giá mơ hình .38 3.2 Đề xuất mơ hình nhận dạng 43 3.3 Phƣơng pháp tạo tập liệu huấn luyện .44 3.4 Mơ hình thuật tốn kết hợp nhận dạng 46 3.5 Mơ hình nhận dạng 51 CHƢƠNG – CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ 55 4.1 Thực nghiệm 57 4.2 Kết thực nghiệm đánh giá 60 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 64 TÀI LIỆU THAM KHẢO 65 PHỤ LỤC I DANH SÁCH MÃ TRẠNG THÁI HTTP 67 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CMS Content Management System Hệ quản trị nội dung CSRF Cross-Site Request Forgery Giả mạo yêu cầu DDoS Distributed Denial of Service Tấn công từ chối dịch vụ phân tán HTML Hyper Text Markup Language Ngôn ngữ đánh dấu siêu văn HTTP Hypertext Transfer Protocol Giao thức truyền tải siêu văn ICD Idealized Character Distribution Sự phân bố ký tự lý tƣởng IDS Intrusion Detection System Hệ thống phát xâm nhập NFA Non-deterministic finite automaton Ơtơmát hữu hạn khơng đơn định NIDS Network-based Intrusion Detection Hệ thống phát xâm nhập System mạng OWASP Open Web Application Security Project Dự án mở bảo mật ứng dụng web PHP Hypertext Preprocessor Ngôn ngữ lập trình PHP RBID Rule-based Intrusion Detection Phát xâm nhập dựa vào luật SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc SSL Secure Sockets Layer Giao thức bảo mật SSL TCP Transmission Control Protocol Giao thức điều khiển truyền vận URL Uniform Resource Locator Định vị Tài nguyên thống URI Uniform Resource Identifier Định dạng tài nguyên thống XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng XSS Cross-Site Scripting Thực thi mã lệnh xấu vi DANH SÁCH BẢNG Bảng 3.1 Đánh giá mơ hình cấu trúc u cầu 38 Bảng 3.2 Đánh giá mơ hình giá trị u cầu 39 Bảng 3.3 Đánh giá mơ hình phản hồi 40 Bảng 3.4 Đánh giá mơ hình cấu trúc phiên 41 Bảng 3.5 Đánh giá mơ hình hồ sơ ngƣời dùng 42 Bảng 3.6 Đánh giá mơ hình tổng quan hệ thống 43 Bảng 4.1 Thống kê mẫu liệu tập liệu kiểm tra 58 Bảng 4.2 Kết dự báo trƣờng hợp 60 Bảng 4.3 Kết dự báo trƣờng hợp 62 vii DANH SÁCH HÌNH VẼ Hình 1.1 Quy trình xử lý liệu Wordpress Hình 1.2 Kiến trúc tổng quan Wordpress Hình 1.3 Chi tiết nạp mơi trƣờng Wordpress Hình 1.4 Các giá trị cần có để kết nối sở liệu Wordpress Hình 1.5 Cấu trúc tổ chức thƣ mục mặc định Wordpress Hình 1.6 Cấu trúc tổ chức thƣ mục đại Wordpress 7 Hình 1.7 Mơ hình hoạt động ứng dụng web Hình 1.8 Các mã salts khóa bảo mật Wordpress Hình 1.9 Phƣơng pháp phát công ứng dụng web 13 22 Hình 2.1 Hình minh họa bất thƣờng liệu Hình 2.2 Hình minh họa kỹ thuật nhận dạng bất thƣờng Hình 2.3 Phân loại bất thƣờng Hình 2.4 Hình mơ tả phân loại bất thƣờng Hình 3.1 Thơng tin chi tiết lỗ hổng My Gaming Ladder Combo 26 28 28 29 System 7.5 ngày 07/4/2017 bị công SQL Injection 44 Hình 3.2 Ví dụ phần tử nhật ký truy cập máy chủ web Hình 3.3 Mơ hình chức nhận dạng bất thƣờng Hình 3.4 Một phần liệu đƣợc trích xuất giai đoạn tiền xử lý Hình 3.5 Một phần liệu mơ tả kết dựng mơ hình Hình 3.6 Mơ hình chi tiết giai đoạn dự báo lớp Hình 4.1 Cách cài plugin từ thƣ viện Dashboard Hình 4.2 Cách cài plugin từ file zip plugin Hình 4.3 Cách kích hoạt plugin copy Hình 4.4 Tiền xử lý liệu huấn luyện 46 51 53 53 54 55 56 57 58 Hình 4.5 Tiền xử lý liệu kiểm tra Hình 4.6 Sử dụng liệu huấn luyện để dựng mơ hình Hình 4.7 Sử dụng mơ hình để dự báo lớp cho liệu kiểm tra Hình 4.8 Biểu đồ tỉ lệ dự báo loại công trƣờng hợp 59 59 60 61 Hình 4.9 Biểu đồ tỉ lệ dự báo loại công trƣờng hợp 63 MỞ ĐẦU CMS (Content Management System) hay gọi hệ thống quản lý nội dung đƣợc sử dụng nhằm mục đích giúp ngƣời quản trị trang web dễ dàng quản lý, chỉnh sửa nội dung Nội dung tin tức điện tử, báo chí hay media hình ảnh, video, Nó giúp tiết kiệm thời gian quản lý, chi phí vận hành bảo trì nên đƣợc sử dụng phổ biến, bên cạnh tiết kiệm đƣợc chi phí xây dựng trang web Trong năm gần đây, trang web đƣợc xây dựng dựa tảng Wordpress ngày chiếm ƣu Hệ thống CMS Wordpress đƣợc sử dụng phổ biến chiếm thị phần cao so với hệ thống khác 59,1%, Joomla chiếm 6,9%, Drupal chiếm 4,7%, Magento chiếm 2,5% Blogrer chiếm 2,2% [15] theo số liệu khảo sát từ đầu tháng năm 2017 w3techs, trang web chuyên cung cấp nguồn thông tin đáng tin cậy phổ biến sử dụng công nghệ web Hằng ngày có 600 site Wordpress đƣợc tạo thực tế có 27% trang web giới sử dụng tảng Wordpress Tuy nhiên, bên cạnh phát triển mạnh mẻ Wordpress ln tìm ẩn lỗ hổng bảo mật bên hệ thống ứng dụng đƣợc cài đặt Những năm gần đây, ứng dụng nói chung ứng dụng web nói riêng mục tiêu công phổ biến [5] bọn tin tặc nhằm khai thác lỗ hổng Qua tìm hiểu nghiên cứu danh sách lỗ hổng ứng dụng bị khai thác trang web tiếng https://www.exploit-db.com/ sở liệu lỗ hổng đƣợc công bố [16] dành riêng cho Wordpress thấy kẻ cơng có xu hƣớng tập trung công vào ứng dụng Wordpress nhƣ nhằm vào plugin đƣợc viết với mã khơng an tồn bảo mật Các hình thức cơng chủ yếu tập trung vào kiểu công phổ biến nằm danh sách OWASP Top 10 [11] nhƣ: chèn mã, thực thi mã lệnh xấu, phá vỡ xác thực quản lý phiên làm việc… Do sớm phát dấu hiệu cơng từ bên ngồi vào hệ thống để đƣa sách cách ly theo dõi tự động nhu cầu cấp thiết Chính vậy, chọn đề tài “Xây dựng công 54 ngƣỡng bất thƣờng (AP_threshold) Tiến hành so sánh AP_request AP_threshold, vƣợt ngƣỡng xác định truy vấn bất thƣờng Ngƣợc lại tính trung bình đầu [1] mơ hình Attribute length, Attribute character distribution, Structural inference ngƣỡng bất thƣờng (Average_AP_threshold) để so sánh với trung bình điểm bất thƣờng yêu cầu (Average _AP_request) Đối với Wordpress, chức đƣợc xử lý độc lập ứng dụng (mục 1.1.2) mơ hình phát đƣợc thực riêng rẽ cho ứng dụng (mục 3.3) có trùng lắp chức phát số mơ hình nhƣ: Path, Parameter, Parameter order Hình 3.6 mơ tả chi tiết giai đoạn với mơ hình đƣợc chọn Dữ liệu kiểm tra Mơ hình kiểm tra Path Parameter order Attribute presence or absence Value type AP_request > AP_threshold AP_request Average_AP_threshold Average_AP_request