Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,94 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG -*** HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG -*** - NGUYỄN ANH MINH NGUYỄN ANH MINH NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH, PHÁT HIỆN TRUY BẤT THƯỜNG DỰATÍCH, TRÊNPHÁT TẬP NGHIÊN CỨUCẬP PHƯƠNG PHÁP PHÂN KÝ WEB DỰA TRÊN TẬP HIỆN TRUY CẬPNHẬT BẤT THƯỜNG NHẬT KÝ WEB Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SỸ KỸ THUẬT ( Theo định hướng ứng dụng) LUẬN VĂN THẠC SỸ KỸ THUẬT ( Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TSKH HOÀNG ĐĂNG HẢI Hà Nội - 2021 Hà Nội - 2021 LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Người viết luận văn Nguyễn Anh Minh LỜI CẢM ƠN Luận văn khép lại trình học tập, nghiên cứu học viên Học viện Công nghệ Bưu Viễn thơng Học viên xin bày tỏ biết ơn sâu sắc tới Thầy hướng dẫn, PGS.TSKH.Hoàng Đăng Hải định hướng nghiên cứu tận tình giúp đỡ, trực tiếp bảo suốt trình thực luận văn Đồng thời học viên xin bày tỏ lòng biết ơn Lãnh đạo Học viện, thầy cô Khoa Đào tạo sau đại học, Khoa Công nghệ thông tin Học viện Công nghệ Bưu Viễn thơng Trân trọng! Hà Nội, tháng năm 2021 Học viên Nguyễn Anh Minh MỤC LỤC THUẬT NGỮ VIẾT TẮT TT Từ viết tắt Nghĩa tiếng anh Common Log File Nghĩa tiếng việt CLF Tệp nhật ký chung CSRF DoS Denial of Services Tấn công từ chối dịch vụ HTTP HyperText Transfer Protocol giao thức truyền tải siêu văn IDS Intrusion Detection Systems IIS Internet Information Services Dịch vụ thông tin Internet OWASP Open Web Application Security Project Dự án mở bảo mật ứng dụng web SSL Secure Sockets Layer Lớp socket bảo mật VNCERT Cross-Site Request Forgery Giả mạo yêu cầu liên kết trang Hệ thống phát xâm nhập Vietnam Computer Trung tâm ứng cứu khẩn cấp máy Emergency Response Team tính Việt Nam DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU Ngày nay, khoa học công nghệ ngày phát triển, việc phịng, chống tội phạm sử dụng cơng nghệ cao, chiến tranh không gian mạng vấn đề tồn cầu nhiều quốc gia có Việt Nam xác định nhiệm vụ trọng tâm việc phát triển bảo vệ đất nước Trung tâm ứng cứu khẩn cấp máy tính Việt Nam (VNCERT) tháng 11 năm 2017, có tới gần 600 vụ cơng, 248 cố Phishing (tấn cơng lừa đảo), 232 cố Deface (tấn công thay đổi giao diện) 117 cố Malware (cài mã độc) Máy chủ Web thành phần quan trọng, mục tiêu nhiều cơng Vì vậy, việc phân tích file log, từ phát truy cập bất thường vào máy chủ Web nhu cầu thực tế đặt ra, giúp phán đốn nguy xảy cơng vào máy chủ Web Dựa vào yêu cầu thực tiễn đặt ra, chọn đề tài “nghiên cứu phương pháp phân tích, phát truy cập bất thường dựa tập nhật ký web” Đây đề tài có ý nghĩa thực tiễn lĩnh vực an tồn thơng tin nói chung bảo đảm an tồn cho máy chủ Web nói riêng Hiện tại, cơng vào hệ thống mạng hệ thống máy chủ Web diễn hàng ngày toàn giới Vì vậy, vấn đề có tính cấp thiết, cần phải nghiên cứu Phát truy cập bất thường bước quan trọng để phát công vào máy chủ Web Đây bước sở để thực bước việc đảm bảo an toàn dịch vụ Web, phát hành động xâm nhập trái phép, công vào máy chủ Web Nguyên lý chung để phát bất thường xây dựng tập dấu hiệu bình thường hệ thống (trong điều kiện hoạt động bình thường, khơng có cơng), tiếp thu thập hành vi truy cập vào máy chủ, so sánh với tập dấu hiệu bình thường lưu sẵn Nếu có khác biệt nghĩa có hành vi truy cập bất thường Đối với máy chủ Web, thiết lập hệ thống tạo tập dấu hiệu bình thường lưu trữ máy (có thể máy tính ngồi máy chủ) Mọi hành vi truy cập vào máy chủ Web ghi vào Logfile ví dụ Weblog Thực thu liệu logfile phân tích thu tách thông tin cần thiết để phát truy cập bất thường Bài luận văn gồm chương với nội dung sau: Chương 1: Máy chủ web vấn đề an toàn web Chương 2: Phân tích bất thường dựa vào nhật ký máy chủ web Chương 3: Phát truy cập bất thường vào máy chủ web Chương 4: Thử nghiệm 10 CHƯƠNG MÁY CHỦ WEB VÀ CÁC VẤN ĐỀ VỀ AN TOÀN WEB 1.1 Tổng quan lỗ hổng bảo mật Web 1.1.1 Giới thiệu máy chủ web Phần mềm máy chủ phần cứng dành riêng để chạy phần mềm máy chủ có khả cung cấp dịch vụ World Wide Web gọi máy chủ Web (Web server) Các yêu cầu (request) từ client (mô hình server - client) Web server xử lý thơng qua giao thức HTTP số giao thức liên quan khác [1] Máy chủ Web thường có dung lượng lớn, tốc độ cao, lưu trữ thông tin ngân hàng chứa liệu, website với thơng tin liên quan khác, ví dụ chương trình dịch vụ file Multimedia, v.v Máy chủ Web có khả gửi đến máy khách trang Web thông qua môi trường Internet (hoặc Intranet) qua giao thức HTTP (Hypertext Transfer Protocol) – giao thức thiết kế để gửi file đến trình duyệt Web (Web Browser), giao thức khác Các máy chủ Web có tên miền (Domain Name) địa IP (IP Address) Ví dụ đưa https://qldt.ptit.edu.vn/ vào dịng địa trình duyệt nghĩa gửi yêu cầu đến máy chủ Web có Domain Name qldt.ptit.edu.vn Bất kỳ máy tính – máy chủ trở thành máy chủ Web cài đặt lên phần mềm Web Server có kết nối vào Internet Khi máy tính người dùng kết nối đến Web Server gửi yêu cầu truy cập vào thông tin trang Web đó, Web Server nhận yêu cầu gửi lại trình duyệt người dùng thơng tin mà người dùng mong muốn 50 xss_match='(.+(POST\s+|GET\s+|HEAD\s+|PUT\s+|OPTION\s+).+?=.+?((S| s)(C|c)(R|r)(I|i)(P|p)(T|t)|(S| s)(E|e)(L|l)(F|f)|(A|a)(L|l)(E|e)(R|r)(T|t)).+?HTTP/ [0-9]\.[0-9].+)' time_regex = re.compile("([0-9]{2}:[0-9]{2}:[0-9]{2}\s+)") date_regex = re.compile("((\d{2}|\d{4})/(\d{2}|\w{3})/ (\d{2}|\d{4}))(?:\:|\s+)") ip_regex = "(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})" ip_regsearch = re.compile(ip_regex) xss_payload_regex=re.compile("((POST\s+|GET\s+|HEAD\s+|PUT\s+| OPTION\s+).+?=.+?((S|s)(C|c)( R|r)(I|i)(P|p)(T|t)|(S|s)(E|e)(L|l)(F|f)|(A|a)(L|l) (E|e)(R|r)(T|t)|(J|j)(A|a)(V|v)(A|a)(S|s)(C|c)(R|r)(I|i)(P|p)(T|t )\:|(X|x)(S|S)(S|s)).+?HTTP/[0-9]\.[0-9].+)") for line in f.read().split('\n'): if re.match(xss_match, line): dateData = date_regex.search(line) timeData = time_regex.search(line) ipData = ip_regsearch.search(line) if re.match(xss_match, line): payloadType = "XSS" payloadData = xss_payload_regex.search(line) print "["+payloadType+"] "+dateData.group(0)+" | "+timeData.group(0)+"|"+ ipData.group(0)+" | "+payloadData.group(0) 51 Hình 3.4 Kết sau ứng dụng Regex 3.3 Kết luận chương Trong chương 3, luận văn trình bày quy trình nguyên tắc phát bất thường truy cập Web số mô hình kiến trúc hệ thống Tiếp đó, trình bày cấu trúc Weblog, thu thập thông tin từ logfile công cụ 52 CHƯƠNG 4: THỬ NGHIỆM 4.1 Giới thiệu cơng cụ Weblog Expert Có số công cụ thu thập thông tin logflie hệ thống phổ biến mã nguồn mở như: FireStats, Open Web Analytics, Weblog Expert, Go Access, Web Forensik,… Tuy nhiên luận văn này, tác giả lựa chọn phần mềm Weblog Expert WebLog Expert chương trình phân tích nhật ký truy cập nhanh mạnh mẽ Nó cung cấp thông tin khách truy cập trang web: thống kê hoạt động, đường dẫn truy cập, đường dẫn thông qua trang web, thơng tin trang, cơng cụ tìm kiếm, trình duyệt, hệ điều hành, Chương trình giúp tạo báo cáo dễ đọc bao gồm thông tin dạng văn (bảng) biểu đồ 4.2 Mô hình hệ thống máy chủ Web thử nghiệm Qua khảo sát hệ thống máy chủ Web cài đặt quan, nhận thấy có số đặc điểm chung sau: - Tuy mức độ đầu tư hạ tầng CNTT khác điểm phụ thuộc vào điều kiện, quy mô, phạm vi, song máy chủ Web thường đặt phân vùng mạng có bảo vệ DMZ (Demilitarized Zone) Phân vùng mạng cho phép truy cập từ mạng Internet, nghĩa từ máy tính Đây phân vùng mạng có nhiều nguy cơng - Các phân vùng mạng khác gồm phân vùng mạng trục tạo kết nối hệ thống lớn, mạng LAN phòng ban trực thuộc, phân vùng mạng quản trị hệ thống, phân vùng mạng riêng, phân vùng mạng lưu trữ nội bộ, v.v - Các máy chủ ứng dụng, máy chủ sở liệu, máy chủ Email, máy chủ dịch vụ công thường đặt miền mạng DMZ có bảo vệ Một số máy chủ sở liệu máy chủ DHCP đặt phân vùng mạng nội Máy chủ quản trị hệ thống thường đặt phân vùng quản trị - Phân vùng mạng riêng thường dành cho dịch vụ đặc biệt khác Phân vùng thường gồm máy trạm nội bộ, phục vụ hoạt động quản trị hành thơng tin nội 53 Luận văn tập trung vào máy chủ Web, nơi tiến hành cài đặt cơng cụ thu thập phân tích Weblog Do vậy, luận văn tập trung vào phân vùng mạng DMZ, nơi đặt máy chủ Web kết nối phân vùng với Internet Phân vùng có số thiết bị bảo vệ tường lửa, IDS/IPS tùy vào mức độ đầu tư hạ tầng CNTT quan tổ chức Máy chủ Web gồm tường lửa lớp ứng dụng (Web Application Firewal - WAF) DNS server, nơi thu thập liệu giám sát hoạt động máy chủ Web Từ lý trên, luận văn xây dựng mơ hình hệ thống thử nghiệm với máy chủ Web hình 4.1 sau 54 Hình 4.1 Mơ hình thử nghiệm phân tích Weblog máy chủ Web Máy chủ Web có cấu sau: 55 - Phần cứng máy chủ: Dual Intel Xeon, Core, 20 Threads, tốc độ x 2.1 GHz, - đĩa cứng 1.2 TB Phần mềm: Hệ điều hành máy chủ Microsoft Windows Server 2012 R2 Hệ thống WebServer xây dựng tảng máy chủ Web Microsoft IIS, sử dụng MySQL Công cụ thu thập phân tích Weblog chọn thử nghiệm là: - Thử nghiệm phân tích, phát bất thường sử dụng cơng cụ Weblog Expert 4.3 Thử nghiệm phân tích, phát bất thường với công cụ Weblog Expert Báo cáo mẫu Weblog Expert để nhận ý tưởng chung nhiều thông tin khác việc sử dụng trang web mà cung cấp: Hình 4.2 Báo cáo truy cập trang hàng ngày Weblog Expert 56 Bảng 4.1 Thống kê báo cáo Weblog Expert Summary Hits Total Hits 3250 Visitor Hits 3112 Spider Hits 88 Average Hits per Day 470 Average Hits per Visitor 6.54 Cached Requests Failed Requests 15 Page Views Total Page Views 1022 Average Page Views per Day 145 Average Page Views per Visitor 1.98 Visitors Total Visitors 504 Average Visitors per Day 74 Total Unique Ips 426 Bandwidth Total Bandwidth 964.36 MB Visitor Bandwidth 884.31 MB Spider Bandwidth 18.51 MB Average Bandwidth per Day 144.91 MB Average Bandwidth per Hit 305.63 KB Average Bandwidth per Visitor 2.08 MB Trình phân tích nhật ký tạo báo cáo định dạng HTML, PDF CSV Nó bao gồm máy chủ web hỗ trợ báo cáo HTML động WebLog Expert phân tích nhật ký máy chủ web Apache, IIS Nginx Nó đọc tệp nhật ký nén GZ ZIP, khơng cần giải nén chúng theo cách thủ cơng Trình thủ thuật tích hợp giúp ta nhanh chóng dễ dàng tạo tiểu sử cho trang web phân tích * Tính năng, đặc điểm WebLog Expert - Về báo cáo + Thống kê chung 57 + Thống kê hoạt động: hàng ngày, theo ngày, theo ngày tuần, theo tuần theo tháng + Truy cập thống kê: thống kê cho trang, tệp, hình ảnh, thư mục, truy vấn, thời gian xem, trang nhập, trang thoát, thư bị trả lại, đường dẫn qua trang web, loại tệp, miền ảo máy chủ cân tải + Thông tin khách truy cập: máy chủ, tên miền cấp cao nhất, quốc gia, tiểu bang, thành phố, người dùng xác thực, độ phân giải hình, độ sâu màu ngơn ngữ + Liên kết giới thiệu: giới thiệu trang web, URL, công cụ tìm kiếm (bao gồm thơng tin cụm từ tìm kiếm từ khóa) + Trình duyệt, hệ điều hành, loại thiết bị số liệu thống kê + Thông tin lỗi: loại lỗi, thông tin lỗi chi tiết + Thống kê mục tiêu + Số liệu thống kê tệp theo dõi + Báo cáo lớp phủ nhấp + Hỗ trợ báo cáo tùy chỉnh - Bộ lọc + Bộ lọc (truy cập nhật ký): tệp, truy vấn, máy chủ, liên kết giới thiệu, mã trạng thái, phương thức, cổng, máy chủ, hệ điều hành, trình duyệt, loại thiết bị, spider, tác nhân người dùng, ngày tuần, ngày, quốc gia, tiểu bang, thành phố, tổ chức, người dùng xác thực, miền ảo, thời gian thực + Bộ lọc khách truy cập: khách truy cập truy cập tệp cụ thể, khách truy cập có trang nhập cụ thể, khách truy cập có trang thoát cụ thể, khách truy cập đến từ URL giới thiệu cụ thể, khách truy cập đến từ công cụ / cụm từ tìm kiếm cụ thể 58 4.4 Một số kết thử nghiệm với Weblog Expert Sau số kết thử nghiệm phát bất thường với cơng cụ Weblog Expert Hình 4.3 mô tả truy cập vào Web theo ngày, lưu lượng truy cập PhP có độ tăng đột biến thể cơng Web Hình 4.3 Mơ tả truy cập Web theo ngày 59 Hình 4.4 Các hành vi truy cập thống kê theo ngày Hình 4.5 Các hành vi truy cập theo tháng 4.5 Kết luận chương Trong chương 4, luận văn trình bày số kết thử nghiệm phân tích Weblog phát truy cập bất thường vào máy chủ Web Luận văn trình bày cụ thể 60 số đặc tả liệu Weblog máy chủ ghi nhận được, trình bày tóm tắt cơng cụ Weblog Expert dùng để thu thập, phân tích dấu hiệu Weblog Tiếp đó, trình bày số kết thử nghiệm 61 KẾT LUẬN Việc phân tích logfile để phát truy cập bất thường vào máy chủ Web bước quan trọng để dự đốn nguy xảy cơng vào máy chủ Web Hiện có nhiều phương pháp phát truy cập bất thường dựa nguyên tắc xây dựng tập dấu hiệu bình thường hệ thống, sau thu thập hành vi truy cập vào máy chủ so sánh với tập dấu hiệu bình thường có Một hành vi truy cập coi khác thường hành vi khác với tập dấu hiệu bình thường Mục đích luận văn nghiên cứu vấn đề truy cập bất thường vào máy chủ Web, phương pháp thu thập liệu Weblog phát dấu hiệu bất thường Các kết nghiên cứu đạt gồm: - Nghiên cứu tổng quan máy chủ web, lỗ hổng bảo mật - Nghiên cứu phương pháp ghi nhật ký máy chủ web, phân tích truy cập bất thường - Nghiên cứu nguyên tắc phát truy cập bất thường Web - Ứng dụng phần mềm Weblog Expert việc thu thập, phân tích logfile từ máy chủ web 62 DANH MỤC TÀI LIỆU THAM KHẢO Hongxin Hu, Gail-Joon Ahn and Ketan Kulkarni Anomaly Discovery and Resolution in Web Access Control Policies SACMAT’11 Proceedings of the 16th ACM symposium on Access control models and technologies Pp 165-174 Sipola, Tuomo; Juvonen, Antti; Lehtonen, Joel Anomaly detection from network logs using diffusion maps Engineering Applications of Neural Networks (pp 172181) IFIP Advances in Information and Communication Technology (363) Shilin He, Jieming Zhu, Pinjia He, and Michael R Lyu Experience Report: System Log Analysis for Anomaly Detection IEEE 27th International Symposium on Software Reliability Engineering (ISSRE), 2016 Yi Xie and Shun-Zheng Yu Monitoring the Application-Layer DDoS Attacks for Popular Websites IEEE/ACM TRANSACTIONS ON NETWORKING, VOL 17, NO 1, FEBRUARY 2009 Pp 15-26 Juan M Estévez-Tapiador Pedro García-Teodoro Jesús E Díaz-Verdejo Detection of Web-based Attacks through Markovian Protocol Parsing ISCC 2005 Proceedings 10th IEEE Symposium on Computers and Communications, 2005 Christopher Kruegel, Giovanni Vigna Anomaly Detection of Webbased Attacks CCS '03 Proceedings of the 10th ACM conference on Computer and communications security Pp 251-261 Shaimaa Ezzat Salama Web Server Logs Preprocessing for Web Intrusion Detection Computer and Information Science, Vol 4, No 4; July 2011 Pp 123- 134 BẢN CAM ĐOAN Tôi cam đoan thực việc kiểm tra mức độ tương đồng nội dung luận văn qua phần mềm DoIT cách trung thực đạt kết mức độ tương đồng 19% toàn nội dung luận văn Bản luận văn kiểm tra qua phần mềm cứng luận văn nộp bảo vệ trước hội đồng Nếu sai xin chịu hình thức kỷ luật theo quy định hành Học viện Hà Nội, 18 tháng năm 2021 HỌC VIÊN CAO HỌC HỌC VIÊN NGƯỜI HƯỚNG DẪN KHOA HỌC Nguyễn Anh Minh PGS TSKH Hoàng Đăng Hải ... pháp phân tích dựa kiểm thử, Phương pháp phân tích truy cập bất thường dựa vào nhật ký ghi 39 CHƯƠNG 3: PHÁT HIỆN TRUY CẬP BẤT THƯỜNG VÀO MÁY CHỦ WEB 3.1 Quy trình nguyên tắc phát bất thường truy. .. để phát truy cập bất thường Bài luận văn gồm chương với nội dung sau: Chương 1: Máy chủ web vấn đề an toàn web Chương 2: Phân tích bất thường dựa vào nhật ký máy chủ web Chương 3: Phát truy cập. .. ghi Các truy cập bất thường vào máy chủ Web có nguy công, việc phát truy cập bất thường vào máy chủ Web có vai trị quan trọng việc phát sớm công vào máy chủ Web [1, 7] Một truy cập bất thường