Trang 1 TRẦN CẢNH TOÀNB GIÁO DỘỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI H C BÁCH KHOA HÀ N I ỌỘ--- TRẦN CẢNH TOÀN KỸ THUẬT PHẦN MỀMỨNG D NG BIGDATA TRONG VI C GIÁM SÁT VÀ TH NG KÊ ỤỆỐD ỮLIỆU TRUY VẤN HỆ
TRẦN CẢNH TOÀN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN CẢNH TOÀN KỸ THUẬT PHẦN MỀM ỨNG DỤNG BIGDATA TRONG VIỆC GIÁM SÁT VÀ THỐNG KÊ DỮ LIỆU TRUY VẤN HỆ THỐNG DNS QUỐC GIA LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH KỸ THUẬT PHẦN MỀM KHOÁ: 2016A Hà Nội – Năm 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204843711000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRẦN CẢNH TOÀN ỨNG DỤNG BIGDATA TRONG VIỆC GIÁM SÁT VÀ THỐNG KÊ DỮ LIỆU TRUY VẤN HỆ THỐNG DNS QUỐC GIA Chuyên ngành : Kỹ thuật phần mềm LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS TS Cao Tuấn Dũng Hà Nội – Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi Các nội dung kết trình bày luận văn hồn tồn trung thực chưa có tác giả cơng bố cơng trình khác./ Tác giả luận văn Trần Cảnh Toàn MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT, CÁC KÝ HIỆU DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU Chương : GIỚI THIỆU ĐỀ TÀI .8 1.1 Tổng quan hệ thống máy chủ DNS Quốc gia .8 1.1.1 Mô hình chức hệ thống DNS Quốc gia .8 1.1.2 Hoạt động truy vấn tên miền qua hệ thống máy chủ DNS Quốc gia 1.1.3 Dữ liệu log truy vấn DNS hệ thống DNS Quốc gia .11 1.2 Hiện trạng hệ thống phân tích, giám sát thống kê log truy vấn DNS 12 1.2.1 Mơ hình tổng quan chức hệ thống .12 1.2.2 Nguyên tắc hoạt động hệ thống .16 1.2.3 Các hạn chế hệ thống 19 1.3 Mục tiêu định hướng giải pháp 22 Chương : TỔNG QUAN VỀ CƠ SỞ LÝ THUYẾT VÀ CƠNG NGHỆ .25 2.1 Tình hình nghiên cứu lĩnh vực 25 2.1.1 Tình hình nghiên cứu ứng dụng giới 25 2.1.2 Tình hình nghiên cứu ứng dụng nước .30 2.1.3 Một số giải pháp bật 31 2.2 Tổng quan công nghệ Big Data Hadoop .35 2.2.1 Giới thiệu công nghệ Big Data Hadoop 35 2.2.2 Các thành phần hệ thống Big Data Hadoop 36 2.2.3 Hệ sinh thái Hadoop 49 2.2.4 Quản lý cụm máy chủ Big Data Hadoop với giải pháp Cloudera 51 Chương : XÂY DỰNG HỆ THỐNG GIÁM SÁT, THỐNG KÊ DỮ LIỆU LOG TRUY VẤN DNS QUỐC GIA DỰA TRÊN CÔNG NGHỆ BIGDATA 55 3.1 Áp dụng công nghệ Big Data Hadoop vào toán giám sát thống kê liệu log truy vấn DNS 55 3.1.1 Các thành phần Big Data Hadoop áp dụng cho toán giám sát thống kê liệu log 55 3.1.2 Thiết kế mơ hình triển khai hệ thống giám sát, thống kê log truy vấn DNS Quốc gia 56 3.2 Triển khai cụm máy chủ Big Data Hadoop .58 3.2.1 Kích thước quy mơ hệ thống 58 3.2.2 Triển khai cụm máy chủ Big Data Hadoop với giải pháp Cloudera 59 3.3 Xây dựng hệ thống giám sát thống kê liệu log truy vấn DNS sử dụng Big Data Hadoop .61 3.3.1 Thu thập phân tích log truy vấn DNS .61 3.3.2 Tổ chức để lưu trữ log truy vấn DNS 71 3.3.3 Trực quan liệu log truy vấn DNS để phục vụ giám sát, thống kê 75 Chương : PHÂN TÍCH KẾT QUẢ ĐẠT ĐƯỢC 80 4.1 Kết triển khai hệ thống 80 4.1.1 Giao diện tổng thể hệ thống 80 4.1.2 Đồ thị lưu lượng truy vấn DNS .81 4.1.3 Danh sách địa IP truy vấn nhiều 82 4.1.4 Danh sách tên miền GTLD truy vấn nhiều 83 4.1.5 Danh sách tên miền VN truy vấn nhiều 83 4.1.6 Biểu đồ thống kê nguồn truy vấn DNS theo quốc gia 84 4.1.7 Bản đồ nhiệt khu vực giới truy vấn DNS Quốc gia 84 4.1.8 Biểu đồ thống kê loại ghi truy vấn 85 4.1.9 Biểu đồ thống kê tỷ lệ sử dụng IPv4 – IPv6 truy vấn DNS 86 4.1.10 Biểu đồ thống kê tỷ lệ truy vấn DNSSEC 86 4.1.11 Biểu đồ thống kê giao thức truyền vận truy vấn DNS 87 4.1.12 Bảng liệu truy vấn hệ thống 87 4.2 Thực nghiệm hiệu hệ thống 88 KẾT LUẬN 91 TÀI LIỆU THAM KHẢO .93 Phụ lục 1: Cài đặt cấu hình máy chủ hệ thống Big Data Hadoop 94 DANH MỤC CÁC CHỮ VIẾT TẮT, CÁC KÝ HIỆU Chữ viết tắt Tiếng Anh Nghĩa tiếng Việt DNS Domain Name System Hệ thống máy chủ tên miền DNSSEC Domain Name System Tiêu chuẩn an toàn mở rộng cho hệ Security thống máy chủ DNS GTLD Genral Top Level Domain Tên miền cấp cao dùng chung CCTLD Country Code Top Level Tên miền cấp cao mã quốc gia Domain IP Internet Protocol Giao thức Internet IPv4 Internet Protocol version Giao thức Internet phiên IPv6 Internet Protocol version Giao thức Internet phiên HDFS Hadoop Distributed File Hệ thống file phân tán Hadoop System MR MapReduce Mơ hình lập trình để xử lý song song tập liệu lớn Hadoop CSDL Database Cơ sở liệu ISP Internet Service Provider Nhà cung cấp dịch vụ Internet CNTT Information Technology Công nghệ thơng tin DANH MỤC CÁC HÌNH VẼ Hình 1: Hoạt động truy vấn tên miền qua hệ thống máy chủ DNS Quốc gia (nguồn VNNIC) .9 Hình 2: Các bước trình truy vấn tên miền “.vn” (nguồn VNNIC) 10 Hình 3: Mơ hình logic hệ thống giám sát, thống kê Log truy vấn DNS 12 Hình 4: Giao diện giám sát chung liệu truy vấn DNS 14 Hình 5: Giao diện giám sát lưu lượng truy vấn cụm máy chủ DNS 15 Hình 6: Giao diện giám sát lưu lượng truy vấn máy chủ DNS 15 Hình 7: Ngun tắc hoạt động hệ thống phân tích log truy vấn DNS 16 Hình Nguyên tắc hoạt động hệ thống giám sát lưu lượng truy vấn DNS .17 Hình Mơ hình hoạt động hệ thống thống kê tập trung 19 Hình 10: Phân tích nhược điểm cơng nghệ .23 Hình 11: Mơ hình thu thập liệu log để phân tích, đảm bảo an tồn an ninh [4] 26 Hình 12: Mơ hình phân tích liệu log để đảm bảo an tồn an ninh [4] 27 Hình 13: Mơ hình hệ thống phân tích liệu DNS Hà Lan [2] 29 Hình 14: Mơ hình giải pháp Splunk để giám sát hệ thống CNTT [14] 31 Hình 15: Mơ hình chức thành phần công cụ ELK [15] .33 Hình 16: Các thành phần hệ thống Big Data Hadoop [13] .36 Hình 17: Mơ hình triển khai hệ thống tập tin HDFS [13] 37 Hình 18: Mơ hình lưu trữ file hệ thống tập tin HDFS [13] .39 Hình 19: Quá trình đọc file HDFS [13] .40 Hình 20: Quá trình ghi file HDFS [13] 41 Hình 21: Mơ hình kiến trúc YARN [13] 43 Hình 22: Các bước xử lý liệu lớn mơ hình MapReduce [13] .44 Hình 23: Quá trình chạy ứng dụng MR2 YARN [13] 48 Hình 24: Hệ sinh thái Hadoop [7] .50 Hình 25: Giao diện hệ thống Cloudera Manager 53 Hình 26: Kiến trúc hệ thống Cloudera Manager [13] .53 Hình 27: Các thành phần Big Data Hadoop toán giám sát, thống kê log 56 Hình 28: Mơ hình hệ thống giám sát thống kê liệu log truy vấn DNS 57 Hình 29: Mơ hình cụm máy chủ Big Data Hadoop VNNIC 59 Hình 30: Mơ hình thu thập log trực tiếp Flume từ máy chủ DNS .62 Hình 31: Mơ hình thu thập log Flume gián tiếp qua syslog-ng .63 Hình 32: Mơ hình thu thập liệu log DNS sử dụng nhiều trạm Flume Agent .64 Hình 33: Mơ hình phân tích liệu log DNS sử dụng Flume 66 Hình 34: Truy vấn liệu HDFS với HiveQL [13] 72 Hình 35: Giao diện Solr Admin 75 Hình 36: Trực quan liệu Big Data với Cloudera Search [13] 77 Hình 37: Trực quan liệu Big Data với Lucidworks Banana [12] 78 Hình 38: Giao diện hệ thống giám sát thống kê liệu truy vấn DNS quốc gia.81 Hình 39: Đồ thị lưu lượng truy vấn DNS 82 Hình 40: Bảng danh sách địa IP truy vấn nhiều 82 Hình 41: Bảng danh sách tên miền GTLD truy vấn nhiều 83 Hình 42: Bảng danh sách tên miền VN truy vấn nhiều 84 Hình 43: Biểu đồ thống kê quốc gia truy vấn vào hệ thống DNS Quốc gia .84 Hình 44: Bản đồ nhiệt khu vực giới truy vấn DNS Quốc gia 85 Hình 45: Biểu đồ thống kê loại ghi truy vấn .86 Hình 46: Biểu đồ thống kê tỷ lệ sử dụng IPv4 – IPv6 truy vấn DNS 86 Hình 47: Biểu đồ thống kê tỷ lệ truy vấn DNSSEC .87 Hình 48: Biểu đồ thống kê giao thức truyền vận truy vấn DNS .87 Hình 49: Bảng liệu truy vấn hệ thống .88 Hình 50: So sánh hiệu truy vấn liệu Impala, Hive Oracle RAC 90 DANH MỤC CÁC BẢNG Bảng 1: Danh sách cụm máy chủ DNS quốc gia VN (nguồn VNNIC) .8 Bảng 2: So sánh hiệu truy vấn liệu Impala, Hive Oracle RAC .89 Bảng 3: Danh sách phiên HĐH hỗ trợ để cài đặt CDH CM [13] 94 Bảng 4: Các CSDL yêu cầu tạo để cài đặt Cloudera Manager 99 MỞ ĐẦU Hệ thống máy chủ tên miền quốc gia VN chịu trách nhiệm phân giải địa cho toàn tên miền VN, xem “trái tim” mạng Internet Việt Nam Đây hệ thống thông tin trọng yếu hàng đầu quốc gia theo định số 632/QĐTTg ngày 10/5/2017 Thủ tướng phủ Hệ thống DNS Quốc gia thiết lập, quản lý vận hành Trung tâm Internet Việt Nam (VNNIC) - Bộ Thông tin Truyền thông Để đảm bảo cho hệ thống hoạt động an tồn ổn định, tính đến thời điểm có nhiều giải pháp cơng nghệ nghiên cứu áp dụng, kể đến tiêu chuẩn an tồn bảo mật mở rộng hệ thống máy chủ DNS (DNSSEC), công nghệ DNS-Anycast, công nghệ cân tải, IPv6 Bên cạnh công nghệ, giải pháp áp dụng, việc theo dõi tình trạng hoạt động hệ thống phân tích hành vi truy cập người dùng góp phần quan trọng để đảm bảo hoạt động liên tục cho hệ thống DNS Quốc gia giúp phát cảnh báo sớm bất thường để đưa phương án xử lý, đảm bảo an toàn an ninh cho hệ thống Các liệu hành vi truy vấn người dùng đáp ứng máy chủ DNS lưu trữ file log truy vấn VNNIC tiến hành thu thập, phân tích để đưa vào hệ thống giám sát thống kê số liệu Tuy nhiên với công nghệ truyền thống áp dụng, thơng tin thu từ việc thu thập, phân tích liệu log truy vấn hạn chế khả lưu trữ xử lý khả mở rộng hệ thống, tiêu chí thống kê, giám sát Theo thống kê, hàng ngày trung bình có khoảng 300 triệu lượt truy vấn vào hệ thống máy chủ DNS Quốc gia, với kích thước liệu log dạng thơ 60GB Chính vậy, việc nghiên cứu công nghệ, hướng tiếp cận để nâng cao lực xử lý khả lưu trữ khai thác số liệu, áp dụng cho vào tốn phân tích liệu log truy vấn DNS yêu cầu cấp thiết Hiện giới có nhiều nghiên cứu, giải pháp, sản phẩm phần mềm để phục vụ cho việc phân tích, giám sát thống kê liệu log Tiêu biểu giải pháp phần mềm phổ biến, nhiều tổ chức, đơn vị áp dụng để phân tích liệu log kể đến Elastic Stack, Splunk, công nghệ Big Data So với Elastic Stack Splunk, giải pháp công nghệ Big Data ứng dụng cho thu thập, phân tích, giám sát thống kê log có mơ hình phức tạp hơn, khó triển khai quản lý hơn, địi hỏi kinh nghiệm cán kỹ thuật Tuy nhiên giải pháp công nghệ Big Data mang đến khả mở rộng hệ thống tốt lực xử