Báo cáo đồ án tập trung vào khai thác các vấn đề về các hệ thống quản lý dữ liệu sự kiện tập trung và giới thiệu về chương trình quản lý log tập trung Graylog. Các nội dung bao gồm: chương 01 tìm hiểu về các những hệ thống quản lý sủ kiện tập trung, chương 02 tìm hiểu về Graylog và chương 03 triển khai hệ thống quản lý log bằng Graylog
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG THƯƠNG TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN - ĐỒ ÁN CHUYÊN NGÀNH ỨNG DỤNG VÀ TRIỂN KHAI HỆ THỐNG LƯU TRỮ VÀ XỬ LÝ LOG TẬP TRUNG BẰNG GRAYLOG GVHD : ThS TRẦN ĐẮC TỐT TP Hồ Chí Minh, ngày … tháng … năm 2023 BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG THƯƠNG TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN - ĐỒ ÁN CHUYÊN NGÀNH ỨNG DỤNG VÀ TRIỂN KHAI HỆ THỐNG LƯU TRỮ VÀ XỬ LÝ LOG TẬP TRUNG BẰNG GRAYLOG GVHD : ThS TRẦN ĐẮC TỐT TP Hồ Chí Minh, ngày … tháng … năm 2023 i LỜI CAM ĐOAN Chúng em xin cam đoan đây là công trình nghiên cứu của riêng chúng tôi Các số liệu, kết quả nêu trong bài báo cáo Đồ án chuyên ngành là trung thực và chưa từng được ai công bố trong bất kì công trình nào khác Chúng em xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện bài báo cáo Đồ án chuyên ngành đã được cảm ơn và các thông tin trích dẫn trong bài báo cáo Đồ án đã được chỉ rõ nguồn gốc Nhóm sinh viên thực hiện Đồ án (Đại diện ký và ghi rõ họ tên) ii LỜI CẢM ƠN Trong quá trình thực hiện đề tài đồ án chuyên ngành, chúng em đã nhận được rất nhiều sự giúp đỡ, đóng góp ý kiến và sử chỉ bảo tận tình của thầy cô, bạn bè và của gia đình Chúng em muốn bày tỏ lòng cảm ơn sâu sắc và chân thành đến thầy Trần Đắc Tốt, là giảng viên của khoa Công nghệ thông tin và đồng thời cũng là người tận tình hướng dẫn, chỉ bảo nhóm chúng em trong khoảng thời gian thực hiện đề tải Đồ án chuyên ngành Chúng em cũng xin gửi lời cảm ơn đến các thầy, cô của khoa Công nghệ thông tin nói chung, các thầy cô thuộc chuyên ngành bộ môn An toàn thông tin nói riêng đã cung cấp những kiến thức thuộc cơ bản từ những kiến thức đại cương đến những kiến thức chuyên ngành., giúp chúng em có được cơ sở lý thuyết vững chắc để có thể thực hiện được báo cáo Đồ án chuyên ngành Cuối cùng, chúng em cũng xin chân thành gửi lời cảm ơn đến gia đình và bạn bè, đã luôn tạo điều kiện, quan tâm, giúp đỡ và đồng viên trong quá trình học tập và hoàn thành bài báo cáo Đồ án chuyên ngành Nhóm sinh viên thực hiện (Đại diện ký và ghi rõ họ tên) iii TÓM TẮT Theo thống kê đến từ trang panther, khoảng 70% những dữ liệu sử kiện chứa thông tin mang tính rủi ro cao tốn thời gian cả tháng để thu thập Đến 44% khách hàng cho rằng những hệ thống SIEM trở nên phức tạp trong việc tích hợp và triển khai vào hệ thống của mình, quá trình triển khai từ việc thu thập dữ liệu từ nhiều nguồn để phát hiện mối đe dọa và lỗ hổng, việc này dẫn đến tốn thời gian, nhất là các hệ thống chưa được tối ưu để tích hợp vào SIEM Ngoài ra, các con số khác như thị trường dành cho các hệ thống quản lý sự kiện cũng mang tính đặc biệt như lên đến 3.788 tỉ đô la Mỹ trong năm 2023 và dự báo có thể lên đến 7.167 tỉ đô la Mỹ trong năm 2030, tức là tăng khoảng 10.47% từ năm 2023 đến 2030 Đứng trước nhu cầu cần thiết để thiết lập một hệ thống giám sát dành cho vấn đề về bảo, các ứng dụng nổi tiếng đáp ứng được những nhu cầu có thể kể đến như Splunk, Logmatic, Logstash và nhiều ứng dụng khác Trong số những cái tên được kể đến, Graylog là một trong những hệ thống quản lý sự kiện tập trung đáp ứng những tính năng cơ bản cũng như nâng cao của một hệ thống quản lý tập trung về dữ liệu sự kiện, tìm hiểu và triển khai hệ thống lưu trữ và tập trung xử lý dữ liệu sự kiện (log) của Graylog cũng là đề tài thực hiện trong bài báo cáo Đồ án chuyên nghành Graylog là một nền tảng mã nguồn mở cho phép quản lý dễ dàng các dữ liệu các cấu trúc và không cấu trúc dựa trên sự kết hợp giữa các thành phần như Elasticsearch (có thể thay thế bằng Opensearch), MongoDB và Graylog Server Một trong những điểm nổi bật của Graylog là khắc phục được tính rời rạc và bảo mật trong những bộ ứng dụng mang tính kết hợp nhiều ứng dụng khác để phục vụ một mục đích, Graylog đảm nhận việc thu thập và xử lý thông tin, Elasticsearch sẽ thực hiện việc tìm kiếm thông qua các lệnh truy vấn và các thông tin thiết lập được lưu trữ trong MongoDB Ngoài ra, đáp ứng nhu cầu nâng cao của các hệ thống quản lý Log tập trung, Graylog iv cũng có thể triển khai trên nhiều nền tảng, có thể phát triển nâng cao để thành SIEM hay triển khai trên môi trường điện toán đám mây Graylog là một hệ thống quản lý tập trung dự liệu sự kiện đáp ứng được những nhu cầu cần thiết để đảm bảo việc giám sát và nâng cao tính bảo mật của hệ thống Nội dung của bài báo cáo Đồ án chuyên ngành tập trung tập trung khai thác những thông tin tổng quan như : Chương 01 – Tỉm hiểu về những hệ thống quản lý dữ liệu sự kiện tập trung Chương 02 – Tìm hiểu tổng quan về Graylog Chương 03 – Triển khai hệ thống quản lý Log bằng Graylog v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii MỤC LỤC v CHƯƠNG 1 TỔNG QUAN VỀ HỆ THỐNG QUẢN LÝ LOG .2 1.1 Tổng quan về bản ghi sự kiện (log) 2 1.1.1 Khái niệm về log .2 1.1.1.1 Các bản ghi sự kiện bảo mật của thiết bị 2 1.1.1.2 Các bản ghi sự kiện của hệ điều hành .4 1.1.1.3 Các bản ghi sự kiện của ứng dụng 5 1.2 Tổng quan về hệ thống quản lý log 6 1.2.1 Kiến trúc chung của hệ thống quản lý log 6 1.2.2 Giao thức gửi và nhận nhật kí hệ thống Syslog (System Logging Protocol) 7 1.2.3 Hệ thống quản lý dự liệu và sự kiện tập trung SIEM (Security Information and Event Management Software) 8 1.2.4 Các hệ thống quản lý log hiện nay .9 CHƯƠNG 2 TỔNG QUAN VỀ GRAYLOG 10 2.1 Tổng quan về Graylog 10 2.2 Kiến trúc của Graylog 11 2.3 Quá trình hoạt động Graylog 13 2.4 Sử dụng Graylog để phân tích và tìm kiếm 15 vi 2.4.1 Quá trình phân tích log sau khi thu thập từ các nguồn trong Graylog 15 2.4.2 Quá trình tìm kiếm dữ liệu sự kiện trong Graylog 16 2.5 Sử dụng Graylog để giám sát và cảnh báo 17 2.6 Mô hình triển khai Graylog 18 2.6.1 Mô hình dạng cơ bản dành cho quy mô nhỏ 18 2.6.2 Mô hình mở rộng dành cho nhu cầu nâng cao 20 CHƯƠNG 3 TRIỂN KHAI HỆ THỐNG QUẢN LÝ BẰNG GRAYLOG 22 3.1 Giới thiệu vấn đề 22 3.2 Mô hình thực nghiệm 22 3.3 Kịch bản thực nghiệm 23 3.4 Các bước thực hiện .24 3.4.1 Thiết lập tường lửa với pfsense .24 3.4.1.1 Tổng quan các bước thực hiện 24 3.4.1.2 Thiết lập IP cho máy Web Server (192.168.2.15/24) 26 3.4.1.3 Thiết lập IP cho máy Graylog Server (192.168.131.15/24) 28 3.4.1.4 Thiết lập IP trên máy Window Server 2016 (192.168.131.16/24) 29 3.4.2 Thiết lập máy Graylog Server 30 3.4.2.1 Tổng quan nội dung thực hiện 30 3.4.2.2 Cài đặt MongoDB (phiên bản 6.x) 30 3.4.2.3 Cài đặt OpenSearch (phiên bản 6.x, thay thế cho Elasticsearch) 35 3.4.2.4 Cài đặt Graylog Server (phiên bản 5.7) 43 3.4.3 Thiết lập Syslog trên pfsense (gửi log về Graylog Server) 50 vii 3.4.4 Thiết lập Syslog và Beats trên Web Server (gửi log về Graylog Server) 58 3.4.4.1 Thiết lập Input cho Syslog của Web Server (sử dụng rsyslog) 59 3.4.4.2 Thiết lập Input cho Graylog Sidecar của Web Server 62 3.4.5 Triển khai các hình thức tấn công trên Kali vào Web Server 74 KẾT LUẬN 77 TÀI LIỆU THAM KHẢO 78 viii DANH MỤC HÌNH ẢNH Hình 1-1 Ví dụ về một bản ghi sự kiện của tường lửa tích hợp trên hệ điều hành Windows 3 Hình 1-2 Một ví dụ khác về bản ghi sự kiện của ứng dụng phát hiện và phòng chống xâm nhập Snort 3 Hình 1-3 Ví dụ về một bản ghi sự kiện của tường lửa mã nguồn mở pfsense .3 Hình 1-4 Ví dụ minh họa cho bản ghi sự kiện của Windows, được sử dụng thông qua Windows Event Log .4 Hình 1-5 Ví dụ minh cho bản ghi sự kiện access của ứng dụng apache trong access.log, thể hiện thông tin của thiết bị sử dụng trang web truy cập 5 Hình 1-6 Ví dụ minh họa cho các bản ghi sự kiện dành cho ứng dụng, thể hiện thông qua Window Event Log 5 Hình 1-7 Ví dụ minh họa của ứng dụng Kiwi Syslog, máy chủ Syslog tiếp nhận các thông báo sự kiện từ nhiều nguồn 7 Hình 2-1 Mô hình kiến trúc của Graylog, bao gồm 3 thành phần chính : Graylog Server tiếp nhận các Log, thực hiện phân tích; Elasticsearch thực hiện việc tìm kiếm và MongoDB 12 Hình 2-2 Mô hình quá trình hoạt động của Graylog 14 Hình 2-3 Sơ đồ hoạt động việc phân tích dữ liệu sự kiện trong Graylog, các dữ liệu sau khi được thu thập sẽ được chuyển vào các stream, quá trình phân tích dựa vào các rule và extrator để cụ thể hóa dữ liệu trong log và chuyển tiếp qua các hoạt động khác 15 Hình 2-4 Ví dụ một Extractor phân tích các trường dữ liệu để định nghĩa các thành phần của pfsesne log 16