Microsoft Word LV Chính Lam Bao Tuan (2) HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG LÂM BẢO TUẤN PHÁT HIỆN CẢNH BÁO BẤT THƯỜNG TRÊN HỆ THỐNG MẠNG VÀ TRUYỀN THÔNG DỰA TRÊN PHÂN TÍCH DỮ LIỆU LOG LUẬN VĂN T[.]
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÂM BẢO TUẤN PHÁT HIỆN CẢNH BÁO BẤT THƯỜNG TRÊN HỆ THỐNG MẠNG VÀ TRUYỀN THƠNG DỰA TRÊN PHÂN TÍCH DỮ LIỆU LOG LUẬN VĂN THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) TP HCM - 2022 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÂM BẢO TUẤN PHÁT HIỆN CẢNH BÁO BẤT THƯỜNG TRÊN HỆ THỐNG MẠNG VÀ TRUYỀN THÔNG DỰA TRÊN PHÂN TÍCH DỮ LIỆU LOG CHUYÊN NGÀNH:HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN MẠNH HÀ TP HCM – 2022 i LỜI CAM ĐOAN Tôi cam đoan luận văn: “Phát cảnh báo bất thường hệ thống mạng truyền thơng dựa phân tích liệu log” cơng trình nghiên cứu tơi Tơi cam đoan số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Khơng có sản phẩm/nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định TP Hồ Chí Minh, ngày 25 tháng 01 năm 2022 Học viên thực luận văn Lâm Bảo Tuấn ii LỜI CẢM ƠN Trong trình học tập thực luận văn , nhận quan tâm quý báu hướng dẫn nhiệt tình quý Thầy Cô, với động viên ủng hộ gia đình, bạn bè đồng nghiệp Với lịng kính trọng biết ơn, tơi xin gửi lời cảm ơn chân thành tới: Ban Giám Đốc, Phòng đào tạo sau đại học Học viện Công Nghệ Bưu Chính Viễn thơng sở TP Hồ Chí Minh quý Thầy Cô tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Tơi xin bày tỏ lòng biết ơn chân thành sâu sắc tới người thầy kính yêu Thầy PGS.TS Trần Mạnh Hà hết lịng giúp đỡ, trực tiếp hướng dẫn tận tình, động viên khích lệ, tạo điều kiện cho tơi suốt q trình thực luận văn Từ đáy lịng tơi xin bày tỏ biết ơn vơ hạn đến gia đình thân u tơi xin chân thành cảm ơn bạn bè thân thiết, đồng nghiệp quan động viên, hỗ trợ lúc khó khăn để tơi học tập hồn thành luận văn Mặc dù có nhiều cố gắng, nỗ lực tìm tịi nghiên cứu, thời gian có hạn kinh nghiệm nghiên cứu khoa học cịn hạn chế nên khơng thể tránh khỏi thiếu sót Tơi mong nhận góp ý thiết thực quý Thầy Cô bạn bè đồng nghiệp để kiến thức tơi ngày hồn thiện Xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 25 tháng 01 năm 2022 Học viên thực luận văn Lâm Bảo Tuấn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii PHẦN MỞ ĐẦU 1 Tính cấp thiết đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ CÁC GIAO THỨC GIÁM SÁT LỖI MẠNG VÀ TỔNG QUAN VỀ CÁC KỸ THUẬT HỌC MÁY 1.1 Tổng quan giao thức giám sát lỗi mạng 1.1.1 Tổng quan SNMP 1.1.2 Giới thiệu Log 1.1.3 Tổng quan Syslog 1.1.4 Các ứng dung để ghi log 13 1.1.5 Tổng quan IPFIX 17 1.1.6 Tổng quan CLI 18 1.2 Một số thuật toán học máy 20 1.2.1 Mạng Nơ ron nhân tạo 20 1.2.2 Cây định 23 1.2.3 K-means Cluster 25 1.3 Các cơng trình nghiên cứu có liên quan 27 1.4 Kết luận chương 31 CHƯƠNG 2: GIẢI PHÁP PHÂN LOẠI VÀ MÔ HÌNH DỮ LIỆU CẢNH BÁO 32 2.1 Giới thiệu chương 32 2.2 Mơ hình liệu 32 2.2.1 Mô tả đầu vào 32 2.3 Giải pháp phân loại 34 2.4 Kỹ thuật TFx IDF 37 iv 2.5 Kết luận chương 38 CHƯƠNG : ĐỀ XUẤT THUẬT TOÁN PHÂN TÍCH DỮ LIỆU LOG ĐỂ PHÁT HIỆN CẢNH BÁO BẤT THƯỜNG TRONG HỆ THỐNG MẠNG 39 3.1 Giới thiệu chương 39 3.2 Thuật toán đề xuất 39 3.3 Các bước thực 41 3.3.1 Import thư viện cần thiết 41 3.3.2 Import liệu log rút trích thuộc tính quan trọng IF x IDF 42 3.3.3 Áp dụng thuật toán K-means phân cụm dự liệu log 44 3.4 Kết luận chương 47 CHƯƠNG 4: KẾT LUẬN 49 4.1 Giới thiệu chương 49 4.2 Mô tả mơi trường thực nghiệm thuật tốn 49 4.3 Kết thực nghiệm thuật toán 49 4.4 Kết mặt lý thuyết 49 4.5 Kết mặt thực tiễn 50 4.6 Hạn chế 50 4.7 Hướng phát triển 51 DANH MỤC TÀI LIỆU THAM KHẢO 52 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt IP Internet Protocol Giao thức Internet OID Object Identifier Bộ nhận dạng đối tượng MIB Management Information Base Cơ sở thông tin quản lý HTTP Hypertext Transfer Protocol Giao thức truyền siêu văn DHCP Dynamic Host Configuration Giao thức cấp phát địa IP Protocol động CPU Central Processing Unit Bộ xử lý trung tâm UDP User Datagram Protocol Giao thức liệu người dùng WAN Wide Area Network Mạng diện rộng AI Artificial Intelligence Trí tuệ nhân tạo HDFS Hadoop Distributed File System Hệ thống tập tin phân tán ML Machine Learning Học máy SNMP Simple Network Monitoring Giao thức giám sát mạng đơn Protocol giản LAN Local Area Network Mạng máy tính cục HTML HyperText Markup Language Ngôn ngữ Đánh dấu Siêu văn SMTP Simple Mail Transfer Protocol Giao thức truyền tải thư điện tử FTP File Transfer Protocol Giao thức truyền tải tập tin TCP Transmission Control Protocol Giao thức điều khiển truyền nhận CLI Command Line Interface Giao diện dòng lệnh GUI Graphical User Interface Giao diện đồ họa người dùng DOS Disk Operating System Hệ điều hành chạy đĩa vi RFC Request for Comments Tiêu chuẩn viễn thông, công nghệ thông tin WCSS Within-Cluster Sums of Squares Tổng biến thiên bình phương khoảng cách cụm IETF Internet Engineering Task Force Tổ chức đặc trách kỹ thuật Internet OTT Over-The-Top Giải pháp cung cấp nội dung số IP Internet Protocol Giao thức Internet OSI Open Systems Interconnection Mơ hình kết nối hệ thống mở BSD Berkeley Software Distribution Hệ điều hành dẫn xuất từ UNIX NTP Network Time Protocol Giao thức đồng thời gian mạng vii DANH SÁCH BẢNG Bảng 1.1 Các cấp độ cảnh báo xuất log Bảng 1.2 Các nguồn sinh log 12 Bảng 1.3 So sánh phần mềm ghi log 16 Bảng 2.1 Báo cáo thống kê liệu log file 32 Bảng 2.2 Danh sách trích xuất thuộc tính log 36 viii DANH SÁCH HÌNH VẼ Hình 1.1 Mơ hình kiến trúc SNMP Hình 1.2 Mơ hình phân cấp MIB Hình 1.3 Mơ hình Syslog Server 11 Hình 1.4 Phân cụm K-means 25 Hình 2.1 Mơ hình thiết kế phát log bất thường 33 Hình 2.2 Cấu trúc tin log WARN hệ thống HDFS 34 Hình 2.3 Dữ liệu log 35 Hình 3.1 Dữ liệu log Import 42 Hình 3.2 Thống kê thuộc tính Severity 43 Hình 3.3 Giá trị TF x IDF sau tính tốn 44 Hình 3.4 Kết phân cụm thứ 45 Hình 3.5 Kết phân cụm thứ 45 Hình 3.6 Kết phân cụm thứ 45 Hình 3.7 Số lượng log kết phân cụm 46 Hình 3.8 Số lượng log kết phân cụm 46 Hình 3.9 Số lượng log kết phân cụm 47 40 Bước 1: Chọn ngẫu nhiên K điểm làm tâm điểm ban đầu Bước 2: Gán điểm liệu cho cụm có tâm gần Bước 3: Dừng thuật tốn khơng cịn có thay đổi Bước 4: Tính giá trị trung bình tất điểm liệu cụm Bước 5: Cập nhật tâm điểm cho cụm K Bước 6: Lặp lại bước Trả kết quả: Xác định số tâm điểm M điểm liệu Y Thuật tốn trình bày bước để xây dựng cụm cho liệu log Thuật toán bắt đầu với K centroid, centroid vectơ gồm d phần tử giá trị ban đầu ngẫu nhiên (Bước 1) Sử dụng Euclide distance, tin log có d đặc trưng dạng vectơ gán cho cụm có khoảng cách gần với tâm cụm (Bước 2) Thuật toán dừng việc gán tin log thành cụm khơng cịn thay đổi (Bước 3) Nếu khơng, thuật toán tiếp tục cập nhật tâm điểm cho cụm cách tính tốn giá trị trung bình tất các tin log cụm (Bước & Bước 5) sau lặp lại Bước Cuối kết danh sách tâm điểm M tập hợp tin log Y cụm Phương pháp phân cụm K-mean nhằm mục đích phân vùng điểm liệu thành cụm cho điểm liệu cụm chia sẻ đặc trưng giống Phương pháp học khơng giám sát khơng có biết nhãn điểm liệu Giả sử tập liệu X = [x1, , xN] N số lượng log; tin log biểu diễn vectơ xi = [xi1, , xid], d biểu thị số trích xuất tính thơng báo nhật ký; K