Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,5 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Luận văn hồn thành tại: HỌC VIỆNHỒNG CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG THỊ HUYỀN TRANG NGHIÊN CỨU CÁC KỸ THUẬT VÀ CÔNG CỤ Người hướng dẫn khoa học: PGS TS HỒNG XN DẬU PHÂN TÍCH WEB LOG (Ghi rõ học hàm, học vị) Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04 Phản biện 1: PGS.TS Đỗ Trung Tuấn TÓM TẮT LUẬN VĂN THẠC SĨ Phản biện 2: PGS.TS Nguyễn Hữu Quỳnh HÀ NỘI - NĂM 2022 Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 30 ngày 02 tháng 07 năm 2022 MỞ ĐẦU Lý chọn đề tài: Với phát triển công nghệ kỹ thuật số, hành trình mua sắm người tiêu dùng ngày phức tạp Và với doanh nghiệp kinh doanh trực tuyến, hiểu hành vi người dùng điều quan trọng Hiểu hành vi người dùng giúp doanh nghiệp xây dựng chiến lược marketing phù hợp, tiếp thị mạng xã hội, kích thích nhu cầu tiêu dùng khách hàng Log(còn gọi nhật ký, dấu vết) mục nhập thông tin tạo ứng dụng hệ điều hành trình hoạt động Hiện ứng dụng, hệ thống lớn nhỏ có thực ghi log Mỗi nhật ký log thường tạo hoạt động kiện, cịn gọi nhật ký kiện Một số trình tạo nhật ký phổ biến hệ điều hành, thiết bị mạng (như định tuyến, tường lửa, v.v.), máy chủ dịch vụ (máy chủ web, máy chủ sở liệu, máy chủ DNS, máy chủ Email, v.v.) chương trình ứng dụng.Những lợi ích mà việc thu thập, xử lý phân tích log mang lại bao gồm: - Kiểm tra tuân thủ sách an ninh; - Hiểu hành vi người dùng trực tuyến, sở tối ưu hóa hệ thống cho phục vụ tốt cho người dùng quảng cáo trực tuyến Như vậy, việc xử lý phân tích log đem lại nhiều lợi ích, đặc biệt việc đảm bảo an tồn thơng tin cải thiện chất lượng hệ thống dịch vụ kèm theo, quảng cáo trực tuyến thơng qua việc phân tích hành vi người dùng sử dụng log Ngoài ra, hệ thống gặp cố, web log nguồn cung cấp liệu quan trọng cho quản trị viên để tìm hiểu nguyên nhân khắc phục cố Hiện có nhiều kỹ thuật cơng cụ khác sử dụng thu thập phân tích web log Đây hướng nghiên cứu luận văn với đề tài " Nghiên cứu kỹ thuật cơng cụ phân tích web log" Tổng quan vấn đề nghiên cứu: Các giải pháp xử lý phân tích log thường tập trung thực phần việc: - Nhận dạng mẫu: nhận dạng mẫu xuất ghi log - Chuẩn hóa: chuyển dạng liệu log dạng chuẩn chung cho khâu xử lý - Phân loại gán nhãn: phân loại ghi log gán nhãn chúng từ khóa - Phân tích tương quan: kỹ thuật thu thập thông điệp từ hệ thống khác tìm tất thơng điệp thuộc kiện - Phát bất thường nhân tạo: kỹ thuật cho phép nhận dạng, phát bất thường mới, gặp Mục đích nghiên cứu: Luận văn nghiên cứu, khảo sát kỹ thuật cơng cụ phân tích web log triển khai thử nghiệm công cụ quản lý phân tích web log Các hệ thống quản lý phân tích web log sử dụng cho phát bất thường hành vi truy cập người dùng quản trị hệ thống đảm bảo an tồn thơng tin Đối tượng phạm vi nghiên cứu: Đối tượng nghiên cứu Đối tượng nghiên cứu luận văn dạng web log kỹ thuật, cơng cụ phân tích web log Phạm vi nghiên cứu Phạm vi nghiên cứu luận văn giới hạn số dạng web log Phương pháp nghiên cứu: Luận văn sử dụng kết hợp phương pháp nghiên cứu sau: Phương pháp nghiên cứu lý thuyết Khảo sát kỹ thuật cơng cụ phân tích web log Phương pháp nghiên cứu thực nghiệm Triển khai thử nghiệm hệ thống quản lý phân tích log mã mở đánh giá kết CHƯƠNG TỔNG QUAN VỀ WEB LOG VÀ XỬ LÝ WEB LOG 1.1 Tổng quan web log 1.1.1 Khái quát web log Nhật ký truy cập hay dấu vết truy cập, hay nhật ký (gọi tắt log) danh sách ghi mà yêu cầu truy cập tài nguyên hệ thống, hệ thống ghi lại Ví dụ: nhật ký truy cập web (gọi tắt nhật ký web log) chứa tất thông tin có yêu cầu truy cập tài nguyên trang web.Tài nguyên trang web bao gồm mẫu định dạng, tệp hình ảnh tệp mã JavaScript Nhật ký web chứa thông tin tên người dùng, dấu thời gian, yêu cầu truy cập, địa IP, số byte chuyển, trạng thái kết quả, URL Các tệp nhật ký trì máy chủ web Nhật ký log đặt ba nơi khác nhau: Máy chủ Web Máy chủ proxy web Trình duyệt máy khách Như vậy, thấy có nhiều nguồn liệu nhật ký truy cập với nhiều hình thức khác Tùy theo mục đích sử dụng mà người quản trị cấu hình hệ thống để lựa chọn thu thập, quản lý lưu trữ thông tin cần thiết cho loại nhật ký 1.1.2 Giới thiệu số dạng web log Nhật ký truy cập tạo hệ điều hành ứng dụng thường có định dạng riêng NCSA Common Log Format Định dạng nhật ký chuẩn NCSA, hay thường gọi , định dạng tệp nhật ký dựa văn ASCII với trường cố định, tùy chỉnh Định dạng nhật ký web chuẩn định cấu hình chuỗi định dạng sau: LogFormat “%h %l %u %t \”%r\” %>s %b” common CustomLog logs/access_log common NCSA Combined Log Format Định dạng nhật ký kết hợp NCSA viết tắt Combined Log Format giống với Định dạng nhật ký chuẩn Common Log Format, ngoại trừ có thêm hai trường thông tin bổ sung cuối Referrer (Liên kết tham chiếu) User Agent( Máy khách người dùng) Với Apache HTTP Server, định dạng cấu hình cách sử dụng chuỗi định dạng sau: LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User- agent}i\"" combined CustomLog log/acces_log combined W3C Extended Log Format Hiện tại, định dạng nhật ký mở rộng W3C Extended Log Format Tổ chức World Wide Web Consortium (W3C) đề xuất định dạng sử dụng rộng rãi hầu hết máy chủ web hỗ trợ Tệp nhật ký định dạng Nhật ký mở rộng W3C Extended Log chứa tập hợp dòng văn túy bao gồm ký tự ASCII (hoặc Unicode) tiêu chuẩn phân tách dấu xuống dòng (LF CRLF) Các Web log tùy chỉnh người quản trị viên, thêm bớt trường tùy thuộc vào thông tin muốn ghi lại Microsoft IIS Log Format Microsoft IIS máy chủ web chạy hệ điều hành Microsoft Windows Server Như đề cập, IIS hỗ trợ nhiều định dạng nhật ký web khác như: Định dạng nhật ký web chuẩn NCSA Common Log Format , Định dạng nhật ký web mở rộng W3C Extended Log Format, định dạng nhật ký Microsoft IIS Log Format 1.2 Tổng quan xử lý web log 1.2.1 Khái quát xử lý web log Hệ thống phân tích nhật ký log bao gồm ba bước bản: thu thập, xử lý phân tích nhật ký log Theo đó, khâu xử lý cụ thể gồm: - Collection of Log Data : Đây bước q trình thu thập, xử lý phân tích nhật ký log Thu thập liệu nhật ký log việc thu thập ghi nhật ký thô từ nguồn tạo nhật ký log chuyển chúng đến trung tâm xử lý - Cleaning of Data: Các ghi log thơ bao gồm số liệu vơ dụng khơng mong muốn, khơng có để làm với thủ tục khai thác Đây khâu để loại bỏ mục không liên quan dư thừa khỏi tệp nhật ký - Convert into Strutured form : Đây bước chuẩn hóa liệu log Nhật ký log tạo từ nhiều nguồn khác với nhiều định dạng khác Do đó, nhật ký log cần chuẩn hóa theo định dạng yêu cầu chuyển đổi sang dạng có cấu trúc thuật toán khai thác liệu - Analysis of Data: Đây bước quan trọng q trình phân tích nhật ký log Phân tích nhật ký log việc trích xuất thơng tin quan trọng đưa kết luận trạng thái bảo mật từ nhật ký thống kê - Obtained Results : Đây khâu kết xuất kết giao diện người dùng 1.2.2 Ứng dụng xử lý web log Phân tích nhật ký truy cập thường thực cho mục đích sau: (1) đảm bảo an tồn thông tin hệ thống, (2) hỗ trợ khắc phục cố hệ thống, (3) hỗ trợ điều tra kỹ thuật số (4) hỗ trợ hiểu hành vi người dùng trực tuyến Có thể thấy, phân tích log truy cập hỗ trợ việc giám sát, kiểm tra việc tuân thủ sách bảo mật, sách kiểm toán quan, tổ chức Hơn phân tích log truy cập hỗ trợ phản ứng lại cố an tồn thơng tin thơng qua việc hỗ trợ xác định nguyên nhân yếu tố gây an toàn Hỗ trợ khắc cố hệ thống ứng dụng quan trọng phân tích log truy cập Phân tích log truy cập giúp loại bỏ bớt liệu nhiễu, tổng hợp thông báo lỗi riêng lẻ, giúp xác định nguyên nhân cố hệ thống rõ ràng xác sở người quản trị đưa biện pháp khắc phục cố phù hợp Phân tích log truy cập hỗ trợ điều tra số thông qua việc lần vết, xâu chuỗi kiện log riêng lẻ sử dụng kỹ thuật khai phá liệu phân tích tương quan Hỗ trợ hiểu hành vi người dùng trực tuyến mục đích phân tích log truy cập, phân tích log truy cập website hay web log Phân tích web log tạo báo cáo sử dụng trang web người dùng, bao gồm lưu lượng truy nhập, trang tham chiếu, phân bố người dùng theo vị trí địa lý lượng liệu tải xuống Đồng thời, phân tích log truy cập giúp trích xuất nhiều thơng tin quan trọng hành vi người dùng trực tuyến sở hỗ trợ việc tối ưu hóa website, nhằm nâng cao chất lượng dịch vụ cung cấp trải nghiệm người dùng 1.3 Kết luận chương Chương giới thiệu tổng quan web log, số định dạng web log, bao gồm dạng Apache web log, Microsoft IIS log Chương giới thiệu vấn đề phân tích web log ứng dụng phân tích web log CHƯƠNG CÁC KỸ THUẬT VÀ CƠNG CỤ PHÂN TÍCH WEB LOG 2.1 Các kỹ thuật phân tích web log 2.1.1 Mơ hình xử lý web log Một hệ thống xử lý web log phải thực bước sau: - Bước tiền xử lý chuẩn hóa liệu log - Bước tìm pattern - Bước phân tích pattern - Bước dự đốn, phân tích hành vi người dùng Bước tiền xử lý chuẩn hóa liệu log Trong bước này, hệ thống nhận liệu nhật ký thô từ nguồn khác nhau, trích xuất thơng tin cần thiết đưa định dạng thống Ngồi ra, giai đoạn cịn có nhiệm vụ tiền xử lý số thông tin như: người dùng, phiên làm việc… Giai đoạn bao gồm bước: Làm gộp liệu; nhận dạng người dùng; nhận dạng phiên; nhận dạng số lần xem trang pageview; hoàn thành đường dẫn Bước tìm pattern Giai đoạn sử dụng phương pháp thuật toán thống kê, học máy, khai thác liệu, nhận dạng mẫu để xác định mẫu người dùng Trong phân tích nhật ký, mẫu pattern cần xác định bao gồm: Các trang web yêu thích, thời gian xem trung bình trang, lĩnh vực quan tâm… Trong giai đoạn này, kỹ thuật phân tích liệu sử dụng liệu như: phân tích thống kê; phân cụm; phân lớp; luật kết hợp; mẫu mơ hình hóa phụ thuộc Bước phân tích pattern Giai đoạn chịu trách nhiệm phân tích mẫu pattern tìm thấy giai đoạn trước, xác định mẫu pattern khơng có nhiều giá trị loại bỏ chúng khỏi trình phân tích nhật ký Giai đoạn thực truy vấn SQL, sử dụng phân tích xử lý trực tuyến kỹ thuật trực quan hóa liệu để lọc phân tích mẫu pattern Bước dự đốn, phân tích hành vi người dùng Sau phân tích lọc mẫu pattern, mẫu pattern lại sử dụng để đưa kết luận hành vi người dùng như: Các trang web thường truy cập, lĩnh vực quan tâm, thời gian trung bình xem trang web Pha đưa báo cáo thống kê, biểu đồ hình vẽ hành vi người dùng cụ thể tổng quan trang web 2.1.2 Thu thập tiền xử lý Thu thập web log Nhật ký web tạo nhiều vị trí khác mạng, có nhiều cách để thu thập nhật ký web Nhật ký web nhận từ nhiều nguồn khác như: từ tệp, từ Internet từ đầu ứng dụng khác Một số nguồn cụ thể kể như: Nhận kiện từ framework Elastic Beats Đọc kết truy vấn từ cụm Elasticsearch Lấy kiện từ file log Nhận đầu công cụ dòng lệnh kiện Tạo kiện dựa tin SNMP Đọc tin syslog Đọc kiện từ TCP socket Đọc kiện thông qua UDP Đọc kiện thông qua UNIX socket Nhật ký lưu hệ thống chuyển sang hệ thống khác Quá trình chuyển ghi tạo tất hệ thống đến môi trường gọi lưu trữ nhật ký Tuy nhiên, kết phân tích, tất cố máy tính ghi lại hình thức số lượng lớn đống làm cho việc điều tra tội phạm có chủ đích sai sót trở nên phức tạp Việc thu thập web log gặp khó khăn lý sau: Nhật ký tạo từ nhiều hệ thống với số lượng kích thước lớn, Tạo loại nhật ký khác từ hệ thống khác nhau, Nội dung nhật ký khác xa Tiền xử lý Thông tin truy cập thông qua web không đồng bán cấu trúc không cấu trúc chất Do không đồng này, tệp nhật ký web bao gồm số mục nhật ký không mong muốn, mà diện chúng không quan 10 trọng để khai thác sử dụng web Điều làm cho xử lý trước tệp nhật ký, điều kiện tiên quan trọng khám phá mô hình hiểu biết Mục đích tiền xử lý chuyển đổi liệu luồng nhấp chuột thô thành hồ sơ người dùng Xử lý trước liệu trình bày số thách thức độc đáo dẫn đến nhiều thuật toán kỹ thuật heuristic để xử lý trước tác vụ hợp làm sạch, nhận dạng người dùng phiên, … Tiền xử lý liệu bao gồm bốn giai đoạn phụ : Làm liệu Nhận dạng người dùng Nhận dạng phiên Hoàn thành đường dẫn Làm liệu Trong trình này, tệp nhật ký web bao gồm số liệu vơ dụng khơng mong muốn định khơng có để làm với thủ tục khai thác.Ví dụ kể đến như: hình ảnh, đồ họa, đa phương tiện… Do đó, bắt buộc phải loại bỏ mục khơng liên quan khỏi tệp nhật ký Khi liệu loại bỏ, kích thước tệp nhật ký giảm thiểu nhiều Có ba loại liệu khơng liên quan dư thừa cần thiết để làm sạch: Tài nguyên phụ trợ nhúng tệp HTML Các yêu cầu rô bốt Các yêu cầu lỗi Nhận dạng người dùng Người dùng xác định, người liên hệ với máy chủ web yêu cầu số tài nguyên web Các phương pháp khác đề xuất để nhận dạng người dùng Điều đơn giản gán id người dùng khác cho địa IP khác Trong trình xác định người dùng, cố nhớ đệm xảy Nhận dạng người dùng có nghĩa xác định cá nhân người dùng cách quan sát địa IP họ Để xác định người dùng, đề xuất số quy tắc: Nếu có địa IP mới, có người dùng mới, địa IP giống hệ điều hành phần mềm duyệt web khác nhau, giả định hợp lý loại tác nhân khác cho địa IP đại diện cho người dùng khác 12 thực cách phân tích URLs trường Refferer phiên người dùng Nếu trang request khơng trực tiếp từ trang cuối cùng, lịch sử phiên tìm kiếm trang có trường referrer URL thêm vào để hoàn thiện log truy cập Xây dựng cấu trúc Transactions Mục tiêu xác định phiên tạo trường tham chiếu có ý nghĩa cho user Để xác định lịch sử duyệt web biết mối quan tâm người dùng, lưu ý tới giao dịch travel path giao dịch nội dung Phiên travel path kết hợp page truy cập thường xun nội dung trang web Q trình tiền xử lý chuẩn hóa làm cơng việc như: làm hợp liệu từ nhiều nguồn khác nhau; nhận dạng người dùng; nhận dạng phiên; xác định số lần xem trang kết hợp liệu dòng nhấp chuột với nội dung trang web liệu cá nhân người dùng Quá trình cung cấp liệu tối ưu quán để phân tích nhật ký web log 2.1.3 Các kỹ thuật phân tích web log Các kỹ thuật nhận dạng mẫu Phân tích thống kê Thống kê kỹ thuật phổ biến phân tích nhật ký log Bằng cách phân tích tệp phiên người dùng, thực phương pháp thống kê khác tính trung bình, tần suất với biến số khác như: số trang xem, số lượt xem, thời gian xem trang Loại phân tích thống kê có nhiều thơng tin hữu ích để cải thiện hiệu suất hệ thống để tiếp thị, marketing Luật kết hợp Phương pháp sử dụng để khám phá luật kết hợp phần tử liệu CSDL Mẫu đầu thuật toán khai phá liệu tập luật kết hợp tìm thấy Phân lớp- Classification Bài toán phân lớp trình phân lớp đối tượng liệu thành nhiều lớp cho trước cách sử dụng mơ hình phân lớp(model) Mơ hình xây 13 dựng dựa tập liệu xây dựng trước với nhãn (hay cịn gọi tập huấn luyện) Phân lớp trình gán nhãn cho đối tượng liệu Phân cụm – Clustering Phân cụm kỹ thuật quan trọng khai phá liệu, thuộc lớp phương pháp Unsupervised Learning Học máy Có nhiều định nghĩa khác kỹ thuật chất hiểu phân cụm q trình tìm kiếm nhóm đối tượng cho thành cụm - cluster, cho đối tượng cụm tương tự , đối tượng cụm khác khơng tương tự Phân tích mẫu Đây bước cuối trình phân tích nhật ký log truy cập Q trình để lọc luật mẫu pattern khơng có nhiều giá trị tạo bước khám phá mẫu (Pattern Discovery) Có nhiều phương pháp để thực việc này, phương pháp phổ biến sử dụng nhiều thông qua truy vấn SQL sử dụng phân tích xử lý trực tuyến - OLAP 2.2 Các công cụ tảng phân tích web log 2.2.1 IBM QRadar SIEM IBM QRadar SIEM (Security Information and Event Management) hệ thống thiết kế để cung cấp cho nhóm bảo mật khả hiển thị tập trung vào doanh nghiệp để bảo vệ liệu Nó quản lý thông tin cố bảo mật an ninh IBM, Hoa Kỳ phát triển cung cấp QRadar SIEM (IBM QRadar, 2017) cho phép phát bất thường mối đe dọa với độ xác cao tỷ lệ cảnh báo sai thấp thông qua xử lý phân tích liệu nhật ký log luồng mạng từ hàng nghìn thiết bị ứng dụng phân tán mạng Tuy nhiên, hạn chế lớn QRadar SIEM chi phí cài đặt ban đầu phí quyền lớn nên chưa thực phù hợp với quan, tổ chức có mạng lưới quy mô vừa nhỏ nguồn lực bị giới hạn 2.2.2 Splunk Splunk (Splunk, 2017) phần mềm giám sát an ninh mạng dựa phân tích nhật ký log Đây cơng cụ phân tích xử lý nhật ký log mạnh mẽ, cung cấp Splunk Inc., Hoa Kỳ Splunk với hàng trăm cơng cụ tích hợp sẵn, cho phép xử lý nhiều loại 14 nhật ký log khác với khối lượng lớn theo thời gian thực Splunk xử lý phân tích nhật ký log để đảm bảo an tồn thơng tin, trích xuất thơng tin để hỗ trợ hoạt động kinh doanh Splunk cung cấp cơng cụ tìm kiếm vẽ đồ thị cho phép biểu diễn đầu nhiều định dạng khác Splunk có ba phiên bản, bao gồm: Splunk Enterprise : Phiên dành cho khách hàng có nhu cầu xử lý nhật ký log chỗ với khối lượng lớn; Splunk Cloud : Phiên dành cho khách hàng tải nhật ký log lên tảng đám mây Splunk để xử lý; Splunk Light: Phiên dành cho khách hàng có nhu cầu xử lý nhật ký log chỗ với khối lượng vừa nhỏ Hạn chế lớn Splunk chi phí lắp đặt cao, mức đầu tư ban đầu cho hệ thống thiết bị chuyên dụng phức tạp Một vấn đề phí quyền hàng năm Splunk đắt 2.2.3 ELK Stack ELK Stack tập hợp phần mềm chung với nhau, phục vụ cho công việc logging Ba phần mềm là: Elasticsearch: Cơ sở liệu để lưu trữ, tìm kiếm query log Logstash: Tiếp nhận log từ nhiều nguồn, sau xử lý log ghi liệu Elasticsearch Kibana: Giao diện để quản lý, thống kê log Đọc thông tin từ Elasticsearch ELK Stack công cụ tiện dùng nhiều công ty sử dụng Và lý là: - Đọc log từ nhiều nguồn: Logstash đọc log từ nhiều nguồn, từ log file log database UDP hay REST request - Dễ tích hợp - Hồn tồn miễn phí - Khả tìm kiếm mạnh mẽ: nhờ có Elasticsearch mà việc tìm kiếm liệu trở lên nhanh chóng hơn, so với nhiều cơng cụ khác Elasticsearch nói nhanh mạnh mẽ dựa Apache Lucene Nó tìm kiếm gần với thời gian thực – Near-Real Time Searching, điều cho thấy tốc độ tìm kiếm nhanh - Khả phân tích liệu 2.2.4 Graylog 15 Graylog tảng mã nguồn mở tích hợp đầy đủ để thu thập, lập mục phân tích liệu có cấu trúc phi cấu trúc từ nguồn Nó phát triển từ năm 2010 Các thành phần ứng dụng Graylog: Máy chủ Graylog Giao diện web Graylog Mango DB (Thống kê đồ thị) ElasticSearch (Tin nhắn tìm kiếm) Việc thu thập liệu nhật ký log thực linh hoạt nhờ hỗ trợ công cụ thu thập nhật ký bên thứ ba, chẳng hạn beats, fluentd nxlog Graylog có khả phân tích hành vi người dùng, ứng dụng cho phép phát cảnh báo lượt truy cập bất thường trích xuất mẫu hành vi truy cập để tối ưu hóa trang web Graylog cho phép ánh xạ từ ID đến tên người dùng ánh xạ từ địa IP đến vị trí địa lý 2.2.5 LOGalyze LOGalyze (LOGalyze, 2017) phần mềm mã nguồn mở cho phép giám sát mạng tập trung quản lý nhật ký log LOGalyze hỗ trợ xử lý nhật ký log từ nhiều tảng, bao gồm nhật ký từ máy chủ Unix / Linux, Windows thiết bị mạng với xử lý, tìm kiếm phát bất thường thời gian thực LOGalyze cho phép người dùng xác định kiện cảnh báo dựa liệu nhật ký log thu thập xử lý Ngoài ra, LOGalyze cịn cơng cụ quản lý giám sát mạng, giúp phát cấp độ truy cập bất thường cố mạng Tuy nhiên, LOGalyze khó có khả phân tích sâu nguy an tồn thơng tin, chẳng hạn dấu hiệu mã độc công vào dịch vụ tài nguyên mạng 2.2.6 So sánh cơng cụ tảng phân tích web log Bảng 2.1: So sánh công cụ tảng phân tích web log Nền tảng IBM QRadar SIEM Ưu điểm - Hỗ trợ thu thập xử lý nhiều loại log khác với khối lượng lớn liệu từ luồng mạng - Hỗ trợ phát bất thường, nguy ATTT Nhược điểm - Chi phí cài đặt ban đầu phí quyền lớn - Địi hỏi thiết bị chun dụng - Khó khăn vận hành bảo trì 16 Nền tảng Splunk ELK Stack Graylog LOGalyze Ưu điểm với độ xác cao tỷ lệ cảnh báo sai thấp Nhược điểm - Hỗ trợ xử lý nhiều dạng nhật ký log khác với khối lượng lớn theo thời gian thực - Hỗ trợ phân tích nhật ký để đảm bảo an tồn thơng tin, trích xuất thông tin hỗ trợ hoạt động kinh doanh - Mã mở, miễn phí - Thu thập log từ nhiều nguồn khác nhau: log hệ thống, log ứng dụng, log thiết bị mạng, log snmp, log từ hệ thống API (Application Programming Interface)… - Chi phí quyền, cài đặt vận hành cao - Đòi hỏi thiết bị chuyên dụng - Khó khăn vận hành bảo trì - Nguồn mở miễn phí - Các luồng cho phép xác định kiện thời gian thực thực hành động - Cài đặt dễ dàng - Chức phía máy chủ mở rộng thơng qua trình cắm thêm - Nhật ký bổ sung phân tích cú pháp cách sử dụng thuật tốn quy trình tồn diện - Bảng điều khiển đặc biệt để xuất nhật ký trực quan liệu truy vấn - Giao diện tìm kiếm trực quan - Mã mở, miễn phí - Cho phép quản lý log giám sát mạng tập trung - Hỗ trợ xử lý log từ nhiều tảng - Hỗ trợ phát bất thường, cố theo thời gian thực - Khơng có khả phân tích chuyên sâu nguy an tồn thơng tin, dấu hiệu xuất dạng mã độc dạng công lên dịch vụ tài nguyên mạng - Hỗ trợ số lượng loại nhật ký -Khơng phù hợp cho trường hợp mà liệu ghi nhiều (create, update, delete) - Khơng hỗ trợ transaction, khơng có ràng buộc quan hệ liệu dẫn tới việc liệu bị sai - Khơng có khả phân tích chuyên sâu nguy an tồn thơng tin, dấu hiệu xuất dạng mã độc dạng công lên dịch vụ tài nguyên mạng 17 Nền tảng Ưu điểm Nhược điểm - Không cập nhật hỗ trợ từ 2013 2.3 Kết luận chương Chương giới thiệu chi tiết kỹ thuật xử lý, phân tích log, bao gồm mơ hình xử lý web log, vấn đề thu thập tiền xử lý web log kỹ thuật phân tích web log Đồng thời, chương khảo sát so sánh ưu nhược điểm số tảng công cụ phân tích log phổ biến nay, bao gồm IBM Qradar SIEM, Splunk, ELK Stack, GrayLog Logalyze CHƯƠNG THỬ NGHIỆM TRIỂN KHAI GIẢI PHÁP PHÂN TÍCH WEB LOG SỬ DỤNG ELK STACK 3.1 Mơ hình thử nghiệm xử lý phân tích web log 3.1.1 Giới thiệu mơ hình hệ thống Hệ thống xử lý phân tích log dựa ELK Stack gồm thành phần sau: - Beats mô đun thu thập liệu log hệ thống cần giám sát vận chuyển liệu log mô đun Logstash ELK Stack hỗ trợ nhiều dạng beat cho thu thập nhiều dạng liệu khác nhau, filebeat cho thu thập dạng log hệ điều hành ứng dụng, dịch vụ, metricbeat cho thu thập liệu hoạt động hệ thống tình hình sử dụng CPU, nhớ RAM, packetbeat cho thu thập liệu lưu lượng mạng ELK Stack hỗ trợ thu thập xử lý liệu từ công cụ thiết bịu bảo mật tường lửa, hệ thống IDS/IPS 18 - Logstash mô đun cho phép tập trung lọc, chuẩn hóa liệu thu thập từ nguồn thông qua beat Logstash hỗ trợ dạng lọc grok, chop phép lọc chuẩn hóa dạng liệu sử dụng biểu thứ qui - Elasticsearch mơ đun cho phép lưu trữ, lập số tìm kiếm dạng liệu log Elasticsearch hỗ trợ tìm kiếm full-text lọc liệu sử dụng lọc tìm kiếm - Kibana mơ đun cho phép phân tích, hiển thị liệu log theo nhiều định dạng khác nhau, hiển thị dạng text, dạng biểu đồ, đồ thị Ngoài Kibana cấp giao diện web thân thiện, dễ sử dụng cho người dùng 3.1.2 Quy trình thu thập, xử lý phân tích web log Dữ liệu web log gồm dạng web log mẫu EKL Stack, IIS log, Apache log thu thập filebeat vận chuyển đến Logstash Logtask tiếp nhận, lọc chuẩn hóa log sử dụng lọc grok Dữ liệu log sau chuẩn hóa đưa sang Elasticsearch để lưu trữ, lập số phục vụ tìm kiếm, phân tích Cuối cũng, liệu log biểu diễn giao diện Kibana theo định dạng khác 3.1.3 Cài đặt ELK Stack công cụ kèm theo Yêu cầu phần cứng phần mềm Hệ thống thử nghiệm triển khai máy ảo chạy hệ điều hành Ubuntu Linux với yêu cầu phần cứng phần mềm sau: - Hệ thống chạy CPU Intel Core i5, 4GB RAM, 100GB HDD - Ubuntu phiên 16.04 - JDK 1.8 trở lên - Bộ ELK Stack, bao gồm filebeat, logstash, elasticsearch kibana tiện ích kèm theo Cài đặt Hệ thống cài đặt theo bước sau: Bước 1: Cài đặt thành phần tảng (nếu chưa có) - Cài đặt JDK 1.8: sudo apt-get install openjdk-8-jre-headless - Cài đặt curl (là cơng cụ dịng lệnh cho phép kết nối tải URL): sudo aptget install curl Bước 2: Cài đặt cấu hình Elasticsearch - Cài đặt thành phần Elasticsearch: sudo apt-get install elasticsearch 19 - Chỉnh sửa cấu hình Elasticsearch (tối thiểu tham số network.host: 192.168.112.150 http.port: 9200): sudo pico /etc/elasticsearch/elasticsearch.yml - Thiết lập cho phép chạy tự động khởi chạy Elasticsearch: sudo systemctl enable elasticsearch - sudo systemctl start elasticsearch - Khi Elasticsearch cài đặt, cấu hình chạy thành công, kiểm tra lệnh “curl https://192.168.112.150:9200 cacert /etc/elasticsearch/certs/http_ca.crt -u elastic” Bước 3: Cài đặt cấu hình Kibana - Cài đặt thành phần Kibana: sudo apt-get install kibana - Chỉnh sửa cấu hình Kibana: sudo pico /etc/kibana/kibana.yml - Thiết lập cho phép chạy tự động khởi chạy Kibana: sudo systemctl enable kibana sudo systemctl start kibana Bước 4: Cài đặt cấu hình Logstash - Cài đặt thành phần Logstash: sudo apt-get install logstash - Chỉnh sửa cấu hình Logstash: sudo pico /etc/logstash/logstash.yml - Bổ sung thêm file cấu hình input, filter output cho Logstash - Thiết lập cho phép chạy tự động khởi chạy Logstash: sudo systemctl enable logstash sudo systemctl start logstash Bước 5: Cài đặt cấu hình Filebeat - Cài đặt thành phần Filebeat: sudo apt-get install filebeat - Chỉnh sửa cấu hình Filebeat: sudo pico /etc/filebeat /filebeat.yml - Thiết lập cho phép chạy tự động khởi chạy Filebeat: sudo systemctl enable filebeat sudo systemctl start filebeat 3.2 Thử nghiệm kết 3.2.1 Giới thiệu tập liệu web log thử nghiệm 20 Luận văn sử dụng liệu web log mẫu cung cấp ELK Stack Microsoft IIS log cho thử nghiệm: - Web log mẫu gồm 2100 ghi thu thập tháng 5.2022 (Hình 3.5) - Microsoft IIS log gồm liệu log vận hành website http://infosecptit.com/ontests/ 30 ngày (Hình 3.6) Hình 3.5 Một số ghi web log mẫu cung cấp ELK Hình 3.6 Một số ghi Microsoft IIS log 3.2.2 Một số kết Dưới giao diện kết thử nghiệm phân tích web log: 21 Hình 3.7 Giao diện trang chủ Kibana 22 Hình 3.8 Trạng thái hoạt động ELK Stack Hình 3.9 Luồng log thu thập 30 ngày gần 23 Hình 3.12 Phân bố loại trình duyệt kèm nơi máy khách truy cập website Hình 3.14 Phân bố truy cập địa URL website Hình 3.15 Phân bố cặp đích - nguồn truy cập theo nước 24 Hình 3.16 Phân bố nguồn (client) truy cập theo nước Hình 3.18 Thống kê lỗi truy cập theo host / URL 3.2.3 Nhận xét, đánh giá Mơ hình hệ thống xử lý phân tích log thử nghiệm sử dụng ELK Stack cài đặt chạy thử thành công Hệ thống cung cấp tính năng: - Thu thập liệu web log từ máy chủ web sử dụng filebeat vận chuyển log máy chủ ELK - Logstash tích hợp lọc grok cho phép tiền xử lý chuẩn hóa loại liệu web log, IIS log, Apache log 25 - Cung cấp chức quản lý, lập số, lưu trữ tìm kiếm liệu web log - Phân tích liệu log biểu diễn kết nhiều dạng biểu đồ, đồ thị khác có tính minh họa cao - Hỗ trợ tính phân lớp phát bất thường liệu log 3.3 Kết luận chương Chương mô tả việc triển khai thử nghiệm hệ thống xử lý phân tích web log, bao gồm giới thiệu mơ hình tổng qt hệ thống, mơ hình triển khai thử nghiệm hệ thống, vấn đề cài đặt hệ thống xử lý log dựa ELK, việc thử nghiệm kết KẾT LUẬN Các kết đạt Luận văn tập trung nghiên cứu, khảo sát kỹ thuật cơng cụ phân tích web log, đồng thời triển khai thử nghiệm hệ thống quản lý phân tích log thương mại mã mở Cụ thể luận văn thực nội dung sau: - Giới thiệu khái quát web log, định dạng web log, vấn đề xử lý phân tích web log ứng dụng phân tích web log - Trình bày mơ hình kỹ thuật xử lý phân tích web log - Khảo sát số cơng cụ xử lý phân tích web log thương mại mã mở tiêu biểu - Xây dựng triển khai thử nghiệm mơ hình hệ thống thu thập, xử lý phân tích log sử dụng ELK Stack đánh giá kết Hướng phát triển luận văn Luận văn phát triển hướng sau: 26 - Tích hợp thêm thành phần thu thập tiền xử lý log, cho phép xử lý phân tích dạng web log khác, dạng log hệ thống dịch vụ, ứng dụng ... quan web log, số định dạng web log, bao gồm dạng Apache web log, Microsoft IIS log Chương giới thiệu vấn đề phân tích web log ứng dụng phân tích web log 8 CHƯƠNG CÁC KỸ THUẬT VÀ CÔNG CỤ PHÂN TÍCH... nghiên cứu Đối tượng nghiên cứu luận văn dạng web log kỹ thuật, cơng cụ phân tích web log Phạm vi nghiên cứu Phạm vi nghiên cứu luận văn giới hạn số dạng web log Phương pháp nghiên cứu: Luận văn sử... trang web liệu cá nhân người dùng Quá trình cung cấp liệu tối ưu quán để phân tích nhật ký web log 2.1.3 Các kỹ thuật phân tích web log Các kỹ thuật nhận dạng mẫu Phân tích thống kê Thống kê kỹ thuật