Luận văn thạc sĩ nghiên cứu phương pháp phân tích, phát hiện truy cập bất thường dựa trên tập nhật ký web

63 2 0
Luận văn thạc sĩ nghiên cứu phương pháp phân tích, phát hiện truy cập bất thường dựa trên tập nhật ký web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG -*** - NGUYỄN ANH MINH NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH, PHÁT HIỆN TRUY CẬP BẤT THƯỜNG DỰA TRÊN TẬP NHẬT KÝ WEB LUẬN VĂN THẠC SỸ KỸ THUẬT ( Theo định hướng ứng dụng) Hà Nội - 2021 e HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG -*** - NGUYỄN ANH MINH NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH, PHÁT HIỆN TRUY CẬP BẤT THƯỜNG DỰA TRÊN TẬP NHẬT KÝ WEB Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SỸ KỸ THUẬT ( Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TSKH HOÀNG ĐĂNG HẢI Hà Nội - 2021 e i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Người viết luận văn Nguyễn Anh Minh e ii LỜI CẢM ƠN Luận văn khép lại trình học tập, nghiên cứu học viên Học viện Cơng nghệ Bưu Viễn thông Học viên xin bày tỏ biết ơn sâu sắc tới Thầy hướng dẫn, PGS.TSKH.Hoàng Đăng Hải định hướng nghiên cứu tận tình giúp đỡ, trực tiếp bảo suốt trình thực luận văn Đồng thời học viên xin bày tỏ lòng biết ơn Lãnh đạo Học viện, thầy cô Khoa Đào tạo sau đại học, Khoa Công nghệ thông tin Học viện Cơng nghệ Bưu Viễn thông Trân trọng! Hà Nội, tháng năm 2021 Học viên Nguyễn Anh Minh e iii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii THUẬT NGỮ VIẾT TẮT v DANH MỤC BẢNG .vi DANH MỤC HÌNH .vii MỞ ĐẦU CHƯƠNG MÁY CHỦ WEB VÀ CÁC VẤN ĐỀ VỀ AN TOÀN WEB 1.1 Tổng quan lỗ hổng bảo mật Web 1.1.1 Giới thiệu máy chủ web 1.1.2 Các thành phần máy chủ web 1.2 Các lỗ hổng bảo mật Web 1.2.1 Khái niệm lỗ hổng bảo mật 1.2.2 Các loại lỗ hổng phổ biến Web 1.3 Tấn công vào máy chủ Web 1.3.1 Giới thiệu công vào máy chủ Web 1.3.2 Một số loại cơng điển hình vào máy chủ Web 10 1.3.3 Một số biện pháp điển hình chống công vào máy chủ Web 11 1.4 Kết luận chương 12 CHƯƠNG PHÂN TÍCH BẤT THƯỜNG DỰA VÀO NHẬT KÝ MÁY CHỦ WEB 13 2.1 Một số tảng Apache, IIS, Nginx 13 2.2 Phương pháp ghi nhật ký máy chủ Web 15 2.2.1 Nguyên tắc hoạt động máy chủ Web 15 15 2.2.2 Giao thức HTTP 18 2.2.3 Ghi nhật ký (Web log) 21 e iv 2.3 Phương pháp phân tích dựa kiểm thử 24 2.4 Phương pháp phân tích truy cập bất thường dựa vào nhật ký ghi 26 2.5 Kết luận chương 28 CHƯƠNG 3: 29 3.1 Quy trình nguyên tắc phát bất thường truy cập web 29 3.1.1 Phạm vi phân tích, phát truy cập bất thường vào máy chủ Web 29 3.1.2 Quy trình nguyên tắc phát 29 3.1.3 Tham khảo số mơ hình kiến trúc hệ thống 30 3.2 Thu thập thông tin nhật ký web cho phát bất thường 34 3.2.1 Cấu trúc Weblog 34 3.2.2 Thu thập thông tin từ logfile hệ thống 37 3.2.3 Thu thập thông tin từ công cụ 38 3.3 Kết luận chương 41 CHƯƠNG 4: THỬ NGHIỆM 42 4.1 Giới thiệu công cụ Weblog Expert 42 4.2 Mơ hình hệ thống máy chủ Web thử nghiệm 42 4.3 Thử nghiệm phân tích, phát bất thường với công cụ Weblog Expert 45 4.4 Một số kết thử nghiệm với Weblog Expert 48 4.5 Kết luận chương 49 KẾT LUẬN 51 DANH MỤC TÀI LIỆU THAM KHẢO 52 e v THUẬT NGỮ VIẾT TẮT TT Từ viết tắt CLF CSRF DoS HTTP IDS IIS OWASP Nghĩa tiếng anh Common Log File Nghĩa tiếng việt Tệp nhật ký chung Cross-Site Request Forgery Giả mạo yêu cầu liên kết trang Denial of Services HyperText Transfer Protocol Intrusion Detection Systems Internet Information Services Tấn công từ chối dịch vụ giao thức truyền tải siêu văn Hệ thống phát xâm nhập Dịch vụ thông tin Internet Open Web Application Security Project Dự án mở bảo mật ứng dụng web SSL Secure Sockets Layer Lớp socket bảo mật VNCERT Vietnam Computer Emergency Response Team Trung tâm ứng cứu khẩn cấp máy tính Việt Nam e vi DANH MỤC BẢNG Bảng 3.1 Giải thích chi tiết trường Weblog 35 Bảng 3.2 Giải thích chi tiết trường bổ sung 37 Bảng 4.1 Thống kê báo cáo Weblog Expert 46 e vii DANH MỤC HÌNH Hình 1.1 Kiến trúc hệ thống Web Server Hình 1.2 Các lỗ hổng bảo mật phổ biến Hình 1.3 Mơ hình cơng mạng theo phương pháp truy cập trực tiếp Hình 1.4 Các biện pháp bảo vệ theo chiều sâu 12 Hình 2.1 Các bước tiến trình truyền tải web 15 Hình 2.2 Yêu cầu, phản hồi HTTP 16 Hình 2.3 Request 20 Hình 2.4 Response 20 Hình 3.1 Nguyên lý hoạt động IBM QRadar SIEM 31 Hình 3.2 Thống kê Splunk 32 Hình 3.3 Thống kê VNCS Web monitoring 34 Hình 3.4 Kết sau ứng dụng Regex 41 Hình 4.1 Mơ hình thử nghiệm phân tích Weblog máy chủ Web 44 Hình 4.2 Báo cáo truy cập trang hàng ngày Weblog Expert 45 Hình 4.3 Mô tả truy cập Web theo ngày 48 e MỞ ĐẦU Ngày nay, khoa học công nghệ ngày phát triển, việc phịng, chống tội phạm sử dụng cơng nghệ cao, chiến tranh không gian mạng vấn đề tồn cầu nhiều quốc gia có Việt Nam xác định nhiệm vụ trọng tâm việc phát triển bảo vệ đất nước Trung tâm ứng cứu khẩn cấp máy tính Việt Nam (VNCERT) tháng 11 năm 2017, có tới gần 600 vụ cơng, 248 cố Phishing (tấn cơng lừa đảo), 232 cố Deface (tấn công thay đổi giao diện) 117 cố Malware (cài mã độc) Máy chủ Web thành phần quan trọng, mục tiêu nhiều cơng Vì vậy, việc phân tích file log, từ phát truy cập bất thường vào máy chủ Web nhu cầu thực tế đặt ra, giúp phán đoán nguy xảy công vào máy chủ Web Dựa vào yêu cầu thực tiễn đặt ra, chọn đề tài “nghiên cứu phương pháp phân tích, phát truy cập bất thường dựa tập nhật ký web” Đây đề tài có ý nghĩa thực tiễn lĩnh vực an tồn thơng tin nói chung bảo đảm an tồn cho máy chủ Web nói riêng Hiện tại, cơng vào hệ thống mạng hệ thống máy chủ Web diễn hàng ngày tồn giới Vì vậy, vấn đề có tính cấp thiết, cần phải nghiên cứu Phát truy cập bất thường bước quan trọng để phát công vào máy chủ Web Đây bước sở để thực bước việc đảm bảo an toàn dịch vụ Web, phát hành động xâm nhập trái phép, công vào máy chủ Web Nguyên lý chung để phát bất thường xây dựng tập dấu hiệu bình thường hệ thống (trong điều kiện hoạt động bình thường, khơng có cơng), tiếp thu thập hành vi truy cập vào máy chủ, so sánh với tập dấu hiệu bình thường lưu sẵn Nếu có khác biệt nghĩa có hành vi truy cập bất thường e 40 xss_match='(.+(POST\s+|GET\s+|HEAD\s+|PUT\s+|OPTION\s+).+?=.+?((S| s)(C|c)(R|r)(I|i)(P|p)(T|t)|(S| s)(E|e)(L|l)(F|f)|(A|a)(L|l)(E|e)(R|r)(T|t)).+?HTTP/[0-9]\.[0-9].+)' time_regex = re.compile("([0-9]{2}:[0-9]{2}:[0-9]{2}\s+)") date_regex = re.compile("((\d{2}|\d{4})/(\d{2}|\w{3})/(\d{2}|\d{4}))(?: \:|\s+)") ip_regex = "(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})" ip_regsearch = re.compile(ip_regex) xss_payload_regex=re.compile("((POST\s+|GET\s+|HEAD\s+|PUT\s+|OPTIO N\s+).+?=.+?((S|s)(C|c)( R|r)(I|i)(P|p)(T|t)|(S|s)(E|e)(L|l)(F|f)|(A|a)(L|l)(E|e)(R|r)(T|t)|(J|j)(A|a)(V|v)(A|a)( S|s)(C|c)(R|r)(I|i)(P|p)(T|t )\:|(X|x)(S|S)(S|s)).+?HTTP/[0-9]\.[0-9].+)") for line in f.read().split('\n'): if re.match(xss_match, line): dateData = date_regex.search(line) timeData = time_regex.search(line) ipData = ip_regsearch.search(line) if re.match(xss_match, line): payloadType = "XSS" payloadData = xss_payload_regex.search(line) print "["+payloadType+"] "+dateData.group(0)+" | "+timeData.group(0)+"|"+ ipData.group(0)+" | "+payloadData.group(0) e 41 Hình 3.4 Kết sau ứng dụng Regex 3.3 Kết luận chương Trong chương 3, luận văn trình bày quy trình nguyên tắc phát bất thường truy cập Web số mơ hình kiến trúc hệ thống Tiếp đó, trình bày cấu trúc Weblog, thu thập thông tin từ logfile công cụ e 42 CHƯƠNG 4: THỬ NGHIỆM 4.1 Giới thiệu công cụ Weblog Expert Có số cơng cụ thu thập thông tin logflie hệ thống phổ biến mã nguồn mở như: FireStats, Open Web Analytics, Weblog Expert, Go Access, Web Forensik,… Tuy nhiên luận văn này, tác giả lựa chọn phần mềm Weblog Expert WebLog Expert chương trình phân tích nhật ký truy cập nhanh mạnh mẽ Nó cung cấp thơng tin khách truy cập trang web: thống kê hoạt động, đường dẫn truy cập, đường dẫn thông qua trang web, thông tin trang, cơng cụ tìm kiếm, trình duyệt, hệ điều hành, Chương trình giúp tạo báo cáo dễ đọc bao gồm thông tin dạng văn (bảng) biểu đồ 4.2 Mơ hình hệ thống máy chủ Web thử nghiệm Qua khảo sát hệ thống máy chủ Web cài đặt quan, nhận thấy có số đặc điểm chung sau: - Tuy mức độ đầu tư hạ tầng CNTT khác điểm phụ thuộc vào điều kiện, quy mô, phạm vi, song máy chủ Web thường đặt phân vùng mạng có bảo vệ DMZ (Demilitarized Zone) Phân vùng mạng cho phép truy cập từ mạng Internet, nghĩa từ máy tính Đây phân vùng mạng có nhiều nguy công - Các phân vùng mạng khác gồm phân vùng mạng trục tạo kết nối hệ thống lớn, mạng LAN phòng ban trực thuộc, phân vùng mạng quản trị hệ thống, phân vùng mạng riêng, phân vùng mạng lưu trữ nội bộ, v.v - Các máy chủ ứng dụng, máy chủ sở liệu, máy chủ Email, máy chủ dịch vụ công thường đặt miền mạng DMZ có bảo vệ Một số máy chủ sở liệu máy chủ DHCP đặt phân vùng mạng nội Máy chủ quản trị hệ thống thường đặt phân vùng quản trị e 43 - Phân vùng mạng riêng thường dành cho dịch vụ đặc biệt khác Phân vùng thường gồm máy trạm nội bộ, phục vụ hoạt động quản trị hành thông tin nội Luận văn tập trung vào máy chủ Web, nơi tiến hành cài đặt công cụ thu thập phân tích Weblog Do vậy, luận văn tập trung vào phân vùng mạng DMZ, nơi đặt máy chủ Web kết nối phân vùng với Internet Phân vùng có số thiết bị bảo vệ tường lửa, IDS/IPS tùy vào mức độ đầu tư hạ tầng CNTT quan tổ chức Máy chủ Web gồm tường lửa lớp ứng dụng (Web Application Firewal - WAF) DNS server, nơi thu thập liệu giám sát hoạt động máy chủ Web Từ lý trên, luận văn xây dựng mơ hình hệ thống thử nghiệm với máy chủ Web hình 4.1 sau e 44 Internet External Firewall (đường Internet) Cơng cụ phân tích WebLog Router ngồi Miền bảo vệ DMZ Máy chủ Web Router nội ` Miền mạng LAN nội Firewall nội ` App Servers DB Storage Server Farm Hệ thống mạng máy chủ Web nơi thử nghiệm Hình 4.1 Mơ hình thử nghiệm phân tích Weblog máy chủ Web Máy chủ Web có cấu sau: - Phần cứng máy chủ: Dual Intel Xeon, Core, 20 Threads, tốc độ x 2.1 GHz, đĩa cứng 1.2 TB e 45 - Phần mềm: Hệ điều hành máy chủ Microsoft Windows Server 2012 R2 Hệ thống WebServer xây dựng tảng máy chủ Web Microsoft IIS, sử dụng MySQL Cơng cụ thu thập phân tích Weblog chọn thử nghiệm là: - Thử nghiệm phân tích, phát bất thường sử dụng công cụ Weblog Expert 4.3 Thử nghiệm phân tích, phát bất thường với cơng cụ Weblog Expert Báo cáo mẫu Weblog Expert để nhận ý tưởng chung nhiều thông tin khác việc sử dụng trang web mà cung cấp: Hình 4.2 Báo cáo truy cập trang hàng ngày Weblog Expert e 46 Bảng 4.1 Thống kê báo cáo Weblog Expert Summary Hits Total Hits 3250 Visitor Hits 3112 Spider Hits 88 Average Hits per Day 470 Average Hits per Visitor 6.54 Cached Requests Failed Requests 15 Page Views 1022 Total Page Views Average Page Views per Day 145 Average Page Views per Visitor 1.98 Visitors Total Visitors 504 Average Visitors per Day 74 Total Unique Ips 426 Bandwidth Total Bandwidth 964.36 MB Visitor Bandwidth 884.31 MB Spider Bandwidth 18.51 MB Average Bandwidth per Day 144.91 MB Average Bandwidth per Hit 305.63 KB Average Bandwidth per Visitor 2.08 MB Trình phân tích nhật ký tạo báo cáo định dạng HTML, PDF CSV Nó bao gồm máy chủ web hỗ trợ báo cáo HTML động WebLog Expert phân tích nhật ký máy chủ web Apache, IIS Nginx Nó đọc tệp nhật ký nén GZ ZIP, khơng cần giải nén chúng theo cách thủ cơng Trình thủ thuật tích hợp giúp ta nhanh chóng dễ dàng tạo tiểu sử cho trang web phân tích * Tính năng, đặc điểm WebLog Expert - Về báo cáo + Thống kê chung e 47 + Thống kê hoạt động: hàng ngày, theo ngày, theo ngày tuần, theo tuần theo tháng + Truy cập thống kê: thống kê cho trang, tệp, hình ảnh, thư mục, truy vấn, thời gian xem, trang nhập, trang thoát, thư bị trả lại, đường dẫn qua trang web, loại tệp, miền ảo máy chủ cân tải + Thông tin khách truy cập: máy chủ, tên miền cấp cao nhất, quốc gia, tiểu bang, thành phố, người dùng xác thực, độ phân giải hình, độ sâu màu ngôn ngữ + Liên kết giới thiệu: giới thiệu trang web, URL, cơng cụ tìm kiếm (bao gồm thơng tin cụm từ tìm kiếm từ khóa) + Trình duyệt, hệ điều hành, loại thiết bị số liệu thống kê + Thông tin lỗi: loại lỗi, thông tin lỗi chi tiết + Thống kê mục tiêu + Số liệu thống kê tệp theo dõi + Báo cáo lớp phủ nhấp + Hỗ trợ báo cáo tùy chỉnh - Bộ lọc + Bộ lọc (truy cập nhật ký): tệp, truy vấn, máy chủ, liên kết giới thiệu, mã trạng thái, phương thức, cổng, máy chủ, hệ điều hành, trình duyệt, loại thiết bị, spider, tác nhân người dùng, ngày tuần, ngày, quốc gia, tiểu bang, thành phố, tổ chức, người dùng xác thực, miền ảo, thời gian thực + Bộ lọc khách truy cập: khách truy cập truy cập tệp cụ thể, khách truy cập có trang nhập cụ thể, khách truy cập có trang cụ thể, khách truy cập đến từ URL giới thiệu cụ thể, khách truy cập đến từ công cụ / cụm từ tìm kiếm cụ thể e 48 4.4 Một số kết thử nghiệm với Weblog Expert Sau số kết thử nghiệm phát bất thường với cơng cụ Weblog Expert Hình 4.3 mơ tả truy cập vào Web theo ngày, lưu lượng truy cập PhP có độ tăng đột biến thể cơng Web Hình 4.3 Mơ tả truy cập Web theo ngày e 49 Hình 4.4 Các hành vi truy cập thống kê theo ngày Hình 4.5 Các hành vi truy cập theo tháng 4.5 Kết luận chương Trong chương 4, luận văn trình bày số kết thử nghiệm phân tích Weblog phát truy cập bất thường vào máy chủ Web Luận văn trình bày cụ thể e 50 số đặc tả liệu Weblog máy chủ ghi nhận được, trình bày tóm tắt cơng cụ Weblog Expert dùng để thu thập, phân tích dấu hiệu Weblog Tiếp đó, trình bày số kết thử nghiệm e 51 KẾT LUẬN Việc phân tích logfile để phát truy cập bất thường vào máy chủ Web bước quan trọng để dự đốn nguy xảy cơng vào máy chủ Web Hiện có nhiều phương pháp phát truy cập bất thường dựa nguyên tắc xây dựng tập dấu hiệu bình thường hệ thống, sau thu thập hành vi truy cập vào máy chủ so sánh với tập dấu hiệu bình thường có Một hành vi truy cập coi khác thường hành vi khác với tập dấu hiệu bình thường Mục đích luận văn nghiên cứu vấn đề truy cập bất thường vào máy chủ Web, phương pháp thu thập liệu Weblog phát dấu hiệu bất thường Các kết nghiên cứu đạt gồm: - Nghiên cứu tổng quan máy chủ web, lỗ hổng bảo mật - Nghiên cứu phương pháp ghi nhật ký máy chủ web, phân tích truy cập bất thường - Nghiên cứu nguyên tắc phát truy cập bất thường Web - Ứng dụng phần mềm Weblog Expert việc thu thập, phân tích logfile từ máy chủ web e 52 DANH MỤC TÀI LIỆU THAM KHẢO Hongxin Hu, Gail-Joon Ahn and Ketan Kulkarni Anomaly Discovery and Resolution in Web Access Control Policies SACMAT’11 Proceedings of the 16th ACM symposium on Access control models and technologies Pp 165-174 Sipola, Tuomo; Juvonen, Antti; Lehtonen, Joel Anomaly detection from network logs using diffusion maps Engineering Applications of Neural Networks (pp 172181) IFIP Advances in Information and Communication Technology (363) Shilin He, Jieming Zhu, Pinjia He, and Michael R Lyu Experience Report: System Log Analysis for Anomaly Detection IEEE 27th International Symposium on Software Reliability Engineering (ISSRE), 2016 Yi Xie and Shun-Zheng Yu Monitoring the Application-Layer DDoS Attacks for Popular Websites IEEE/ACM TRANSACTIONS ON NETWORKING, VOL 17, NO 1, FEBRUARY 2009 Pp 15-26 Juan M Estévez-Tapiador Pedro García-Teodoro Jesús E Díaz-Verdejo Detection of Web-based Attacks through Markovian Protocol Parsing ISCC 2005 Proceedings 10th IEEE Symposium on Computers and Communications, 2005 Christopher Kruegel, Giovanni Vigna Anomaly Detection of Webbased Attacks CCS '03 Proceedings of the 10th ACM conference on Computer and communications security Pp 251-261 Shaimaa Ezzat Salama Web Server Logs Preprocessing for Web Intrusion Detection Computer and Information Science, Vol 4, No 4; July 2011 Pp 123134 e BẢN CAM ĐOAN Tôi cam đoan thực việc kiểm tra mức độ tương đồng nội dung luận văn qua phần mềm DoIT cách trung thực đạt kết mức độ tương đồng 19% toàn nội dung luận văn Bản luận văn kiểm tra qua phần mềm cứng luận văn nộp bảo vệ trước hội đồng Nếu sai xin chịu hình thức kỷ luật theo quy định hành Học viện Hà Nội, 18 tháng năm 2021 HỌC VIÊN CAO HỌC e HỌC VIÊN NGƯỜI HƯỚNG DẪN KHOA HỌC Nguyễn Anh Minh PGS TSKH Hoàng Đăng Hải e ... pháp phân tích dựa kiểm thử, Phương pháp phân tích truy cập bất thường dựa vào nhật ký ghi e 29 CHƯƠNG 3: PHÁT HIỆN TRUY CẬP BẤT THƯỜNG VÀO MÁY CHỦ WEB 3.1 Quy trình nguyên tắc phát bất thường truy. .. -*** - NGUYỄN ANH MINH NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH, PHÁT HIỆN TRUY CẬP BẤT THƯỜNG DỰA TRÊN TẬP NHẬT KÝ WEB Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SỸ KỸ THUẬT ( Theo... phát truy cập bất thường Bài luận văn gồm chương với nội dung sau: Chương 1: Máy chủ web vấn đề an tồn web Chương 2: Phân tích bất thường dựa vào nhật ký máy chủ web Chương 3: Phát truy cập bất

Ngày đăng: 27/03/2023, 06:44

Tài liệu cùng người dùng

Tài liệu liên quan