Ứng dụng bigdata trong việc giám sát và thống kê dữ liệu truy vấn hệ thống DNS quốc gia

104 24 0
Ứng dụng bigdata trong việc giám sát và thống kê dữ liệu truy vấn hệ thống DNS quốc gia

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN CẢNH TOÀN TRẦN CẢNH TOÀN KỸ THUẬT PHẦN MỀM ỨNG DỤNG BIGDATA TRONG VIỆC GIÁM SÁT VÀ THỐNG KÊ DỮ LIỆU TRUY VẤN HỆ THỐNG DNS QUỐC GIA LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH KỸ THUẬT PHẦN MỀM KHOÁ: 2016A Hà Nội – Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRẦN CẢNH TOÀN ỨNG DỤNG BIGDATA TRONG VIỆC GIÁM SÁT VÀ THỐNG KÊ DỮ LIỆU TRUY VẤN HỆ THỐNG DNS QUỐC GIA Chuyên ngành : Kỹ thuật phần mềm LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS TS Cao Tuấn Dũng Hà Nội – Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi Các nội dung kết trình bày luận văn hồn tồn trung thực chưa có tác giả cơng bố cơng trình khác./ Tác giả luận văn Trần Cảnh Toàn MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT, CÁC KÝ HIỆU DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU Chương : GIỚI THIỆU ĐỀ TÀI .8 1.1 Tổng quan hệ thống máy chủ DNS Quốc gia .8 1.1.1 Mô hình chức hệ thống DNS Quốc gia .8 1.1.2 Hoạt động truy vấn tên miền qua hệ thống máy chủ DNS Quốc gia 1.1.3 Dữ liệu log truy vấn DNS hệ thống DNS Quốc gia .11 1.2 Hiện trạng hệ thống phân tích, giám sát thống kê log truy vấn DNS 12 1.2.1 Mơ hình tổng quan chức hệ thống .12 1.2.2 Nguyên tắc hoạt động hệ thống .16 1.2.3 Các hạn chế hệ thống 19 1.3 Mục tiêu định hướng giải pháp 22 Chương : TỔNG QUAN VỀ CƠ SỞ LÝ THUYẾT VÀ CƠNG NGHỆ .25 2.1 Tình hình nghiên cứu lĩnh vực 25 2.1.1 Tình hình nghiên cứu ứng dụng giới 25 2.1.2 Tình hình nghiên cứu ứng dụng nước .30 2.1.3 Một số giải pháp bật 31 2.2 Tổng quan công nghệ Big Data Hadoop .35 2.2.1 Giới thiệu công nghệ Big Data Hadoop 35 2.2.2 Các thành phần hệ thống Big Data Hadoop 36 2.2.3 Hệ sinh thái Hadoop 49 2.2.4 Quản lý cụm máy chủ Big Data Hadoop với giải pháp Cloudera 51 Chương : XÂY DỰNG HỆ THỐNG GIÁM SÁT, THỐNG KÊ DỮ LIỆU LOG TRUY VẤN DNS QUỐC GIA DỰA TRÊN CÔNG NGHỆ BIGDATA 55 3.1 Áp dụng công nghệ Big Data Hadoop vào toán giám sát thống kê liệu log truy vấn DNS 55 3.1.1 Các thành phần Big Data Hadoop áp dụng cho toán giám sát thống kê liệu log 55 3.1.2 Thiết kế mơ hình triển khai hệ thống giám sát, thống kê log truy vấn DNS Quốc gia 56 3.2 Triển khai cụm máy chủ Big Data Hadoop .58 3.2.1 Kích thước quy mơ hệ thống 58 3.2.2 Triển khai cụm máy chủ Big Data Hadoop với giải pháp Cloudera 59 3.3 Xây dựng hệ thống giám sát thống kê liệu log truy vấn DNS sử dụng Big Data Hadoop .61 3.3.1 Thu thập phân tích log truy vấn DNS .61 3.3.2 Tổ chức để lưu trữ log truy vấn DNS 71 3.3.3 Trực quan liệu log truy vấn DNS để phục vụ giám sát, thống kê 75 Chương : PHÂN TÍCH KẾT QUẢ ĐẠT ĐƯỢC 80 4.1 Kết triển khai hệ thống 80 4.1.1 Giao diện tổng thể hệ thống 80 4.1.2 Đồ thị lưu lượng truy vấn DNS .81 4.1.3 Danh sách địa IP truy vấn nhiều 82 4.1.4 Danh sách tên miền GTLD truy vấn nhiều 83 4.1.5 Danh sách tên miền VN truy vấn nhiều 83 4.1.6 Biểu đồ thống kê nguồn truy vấn DNS theo quốc gia 84 4.1.7 Bản đồ nhiệt khu vực giới truy vấn DNS Quốc gia 84 4.1.8 Biểu đồ thống kê loại ghi truy vấn 85 4.1.9 Biểu đồ thống kê tỷ lệ sử dụng IPv4 – IPv6 truy vấn DNS 86 4.1.10 Biểu đồ thống kê tỷ lệ truy vấn DNSSEC 86 4.1.11 Biểu đồ thống kê giao thức truyền vận truy vấn DNS 87 4.1.12 Bảng liệu truy vấn hệ thống 87 4.2 Thực nghiệm hiệu hệ thống 88 KẾT LUẬN 91 TÀI LIỆU THAM KHẢO .93 Phụ lục 1: Cài đặt cấu hình máy chủ hệ thống Big Data Hadoop 94 DANH MỤC CÁC CHỮ VIẾT TẮT, CÁC KÝ HIỆU Chữ viết tắt Nghĩa tiếng Việt Tiếng Anh DNS Domain Name System Hệ thống máy chủ tên miền DNSSEC Domain Name System Tiêu chuẩn an toàn mở rộng cho hệ Security thống máy chủ DNS GTLD Genral Top Level Domain Tên miền cấp cao dùng chung CCTLD Country Code Top Level Tên miền cấp cao mã quốc gia Domain IP Internet Protocol Giao thức Internet IPv4 Internet Protocol version Giao thức Internet phiên IPv6 Internet Protocol version Giao thức Internet phiên HDFS Hadoop Distributed File Hệ thống file phân tán Hadoop System MR Mơ hình lập trình để xử lý song MapReduce song tập liệu lớn Hadoop CSDL Database Cơ sở liệu ISP Internet Service Provider Nhà cung cấp dịch vụ Internet CNTT Information Technology Cơng nghệ thơng tin DANH MỤC CÁC HÌNH VẼ Hình 1: Hoạt động truy vấn tên miền qua hệ thống máy chủ DNS Quốc gia (nguồn VNNIC) .9 Hình 2: Các bước trình truy vấn tên miền “.vn” (nguồn VNNIC) 10 Hình 3: Mơ hình logic hệ thống giám sát, thống kê Log truy vấn DNS 12 Hình 4: Giao diện giám sát chung liệu truy vấn DNS 14 Hình 5: Giao diện giám sát lưu lượng truy vấn cụm máy chủ DNS 15 Hình 6: Giao diện giám sát lưu lượng truy vấn máy chủ DNS 15 Hình 7: Nguyên tắc hoạt động hệ thống phân tích log truy vấn DNS 16 Hình Nguyên tắc hoạt động hệ thống giám sát lưu lượng truy vấn DNS .17 Hình Mơ hình hoạt động hệ thống thống kê tập trung 19 Hình 10: Phân tích nhược điểm công nghệ .23 Hình 11: Mơ hình thu thập liệu log để phân tích, đảm bảo an tồn an ninh [4] 26 Hình 12: Mơ hình phân tích liệu log để đảm bảo an toàn an ninh [4] 27 Hình 13: Mơ hình hệ thống phân tích liệu DNS Hà Lan [2] 29 Hình 14: Mơ hình giải pháp Splunk để giám sát hệ thống CNTT [14] 31 Hình 15: Mơ hình chức thành phần công cụ ELK [15] .33 Hình 16: Các thành phần hệ thống Big Data Hadoop [13] .36 Hình 17: Mơ hình triển khai hệ thống tập tin HDFS [13] 37 Hình 18: Mơ hình lưu trữ file hệ thống tập tin HDFS [13] .39 Hình 19: Quá trình đọc file HDFS [13] .40 Hình 20: Quá trình ghi file HDFS [13] 41 Hình 21: Mơ hình kiến trúc YARN [13] 43 Hình 22: Các bước xử lý liệu lớn mơ hình MapReduce [13] .44 Hình 23: Quá trình chạy ứng dụng MR2 YARN [13] 48 Hình 24: Hệ sinh thái Hadoop [7] .50 Hình 25: Giao diện hệ thống Cloudera Manager 53 Hình 26: Kiến trúc hệ thống Cloudera Manager [13] .53 Hình 27: Các thành phần Big Data Hadoop toán giám sát, thống kê log 56 Hình 28: Mơ hình hệ thống giám sát thống kê liệu log truy vấn DNS 57 Hình 29: Mơ hình cụm máy chủ Big Data Hadoop VNNIC 59 Hình 30: Mơ hình thu thập log trực tiếp Flume từ máy chủ DNS .62 Hình 31: Mơ hình thu thập log Flume gián tiếp qua syslog-ng .63 Hình 32: Mơ hình thu thập liệu log DNS sử dụng nhiều trạm Flume Agent .64 Hình 33: Mơ hình phân tích liệu log DNS sử dụng Flume 66 Hình 34: Truy vấn liệu HDFS với HiveQL [13] 72 Hình 35: Giao diện Solr Admin 75 Hình 36: Trực quan liệu Big Data với Cloudera Search [13] 77 Hình 37: Trực quan liệu Big Data với Lucidworks Banana [12] 78 Hình 38: Giao diện hệ thống giám sát thống kê liệu truy vấn DNS quốc gia 81 Hình 39: Đồ thị lưu lượng truy vấn DNS 82 Hình 40: Bảng danh sách địa IP truy vấn nhiều 82 Hình 41: Bảng danh sách tên miền GTLD truy vấn nhiều 83 Hình 42: Bảng danh sách tên miền VN truy vấn nhiều 84 Hình 43: Biểu đồ thống kê quốc gia truy vấn vào hệ thống DNS Quốc gia .84 Hình 44: Bản đồ nhiệt khu vực giới truy vấn DNS Quốc gia 85 Hình 45: Biểu đồ thống kê loại ghi truy vấn .86 Hình 46: Biểu đồ thống kê tỷ lệ sử dụng IPv4 – IPv6 truy vấn DNS 86 Hình 47: Biểu đồ thống kê tỷ lệ truy vấn DNSSEC .87 Hình 48: Biểu đồ thống kê giao thức truyền vận truy vấn DNS .87 Hình 49: Bảng liệu truy vấn hệ thống .88 Hình 50: So sánh hiệu truy vấn liệu Impala, Hive Oracle RAC 90 DANH MỤC CÁC BẢNG Bảng 1: Danh sách cụm máy chủ DNS quốc gia VN (nguồn VNNIC) .8 Bảng 2: So sánh hiệu truy vấn liệu Impala, Hive Oracle RAC .89 Bảng 3: Danh sách phiên HĐH hỗ trợ để cài đặt CDH CM [13] 94 Bảng 4: Các CSDL yêu cầu tạo để cài đặt Cloudera Manager 99 MỞ ĐẦU Hệ thống máy chủ tên miền quốc gia VN chịu trách nhiệm phân giải địa cho toàn tên miền VN, xem “trái tim” mạng Internet Việt Nam Đây hệ thống thông tin trọng yếu hàng đầu quốc gia theo định số 632/QĐTTg ngày 10/5/2017 Thủ tướng phủ Hệ thống DNS Quốc gia thiết lập, quản lý vận hành Trung tâm Internet Việt Nam (VNNIC) - Bộ Thông tin Truyền thông Để đảm bảo cho hệ thống hoạt động an tồn ổn định, tính đến thời điểm có nhiều giải pháp cơng nghệ nghiên cứu áp dụng, kể đến tiêu chuẩn an tồn bảo mật mở rộng hệ thống máy chủ DNS (DNSSEC), công nghệ DNS-Anycast, công nghệ cân tải, IPv6 Bên cạnh công nghệ, giải pháp áp dụng, việc theo dõi tình trạng hoạt động hệ thống phân tích hành vi truy cập người dùng góp phần quan trọng để đảm bảo hoạt động liên tục cho hệ thống DNS Quốc gia giúp phát cảnh báo sớm bất thường để đưa phương án xử lý, đảm bảo an toàn an ninh cho hệ thống Các liệu hành vi truy vấn người dùng đáp ứng máy chủ DNS lưu trữ file log truy vấn VNNIC tiến hành thu thập, phân tích để đưa vào hệ thống giám sát thống kê số liệu Tuy nhiên với công nghệ truyền thống áp dụng, thông tin thu từ việc thu thập, phân tích liệu log truy vấn hạn chế khả lưu trữ xử lý khả mở rộng hệ thống, tiêu chí thống kê, giám sát Theo thống kê, hàng ngày trung bình có khoảng 300 triệu lượt truy vấn vào hệ thống máy chủ DNS Quốc gia, với kích thước liệu log dạng thơ 60GB Chính vậy, việc nghiên cứu công nghệ, hướng tiếp cận để nâng cao lực xử lý khả lưu trữ khai thác số liệu, áp dụng cho vào tốn phân tích liệu log truy vấn DNS yêu cầu cấp thiết Hiện giới có nhiều nghiên cứu, giải pháp, sản phẩm phần mềm để phục vụ cho việc phân tích, giám sát thống kê liệu log Tiêu biểu giải pháp phần mềm phổ biến, nhiều tổ chức, đơn vị áp dụng để phân tích liệu log kể đến Elastic Stack, Splunk, công nghệ Big Data So với Elastic Stack Splunk, giải pháp công nghệ Big Data ứng dụng cho thu thập, phân tích, giám sát thống kê log có mơ hình phức tạp hơn, khó triển khai quản lý hơn, đòi hỏi kinh nghiệm cán kỹ thuật Tuy nhiên giải pháp công nghệ Big Data mang đến khả mở rộng hệ thống tốt lực xử đồ giới với quốc gia có số lượng truy vấn nhiều đến hệ thống DNS Quốc gia có màu đậm Ngồi di chuyển chuột đến vị trí quốc gia giao diện hiển thị tên quốc gia số lượng truy vấn hệ thống DNS đến từ quốc gia Bản đồ nhiệt cung cấp nhìn tổng quan tình hình truy vấn hệ thống DNS Quốc gia đến từ quốc gia khu vực giới, từ biết thói quen sử dụng máy chủ phân giải quan tâm đến tên miền VN từ quốc gia vùng lãnh thổ Với liệu thấy nước Mỹ có truy vấn DNS nhiều đến hệ thống DNS quốc gia, điều lý giải nhiều người dùng Internet Việt Nam cấu hình sử dụng Google DNS để phân giải tên miền Hình 44: Bản đồ nhiệt khu vực giới truy vấn DNS Quốc gia 4.1.8 Biểu đồ thống kê loại ghi truy vấn Biểu đồ có dạng Term Panel, với kiểu biểu diễn dạng hình quạt số lượng truy vấn tính theo trường thơng tin query_type Biểu đồ cấu hình hiển thị 13 loại ghi truy vấn nhiều số lượng loại ghi lại Trên biểu đồ, người dùng bấm vào góc quạt nhãn loại ghi tương ứng để bổ sung nhanh tiêu chí lọc thơng tin tin theo loại ghi chọn 85 Hình 45: Biểu đồ thống kê loại ghi truy vấn 4.1.9 Biểu đồ thống kê tỷ lệ sử dụng IPv4 – IPv6 truy vấn DNS Tương tự biểu đồ thống kê loại ghi truy vấn nhiều với số lượng truy vấn tính theo trường thơng tin clientip_type Hình 46: Biểu đồ thống kê tỷ lệ sử dụng IPv4 – IPv6 truy vấn DNS 4.1.10.Biểu đồ thống kê tỷ lệ truy vấn DNSSEC Tương tự biểu đồ thống kê loại ghi truy vấn nhiều với số lượng truy vấn tính theo trường thơng tin dnssec 86 Hình 47: Biểu đồ thống kê tỷ lệ truy vấn DNSSEC 4.1.11.Biểu đồ thống kê giao thức truyền vận truy vấn DNS Tương tự biểu đồ thống kê loại ghi truy vấn nhiều với số lượng truy vấn tính theo trường thơng tin transport Hình 48: Biểu đồ thống kê giao thức truyền vận truy vấn DNS 4.1.12.Bảng liệu truy vấn hệ thống Là dạng Table Panel, cấu hình hiển thị 5000 truy vấn DNS hệ thống (theo thứ tự thời gian truy vấn giảm dần) Bảng số liệu hiển thị tối đa 24 trường thơng tin phân tích được, nhiên lựa chọn trường thông tin để việc theo dõi truy vấn tập trung hiệu 87 Hình 49: Bảng liệu truy vấn hệ thống 4.2 Thực nghiệm hiệu hệ thống Có thể thấy mặt chức năng, hệ thống giám sát thống kê liệu log truy vấn DNS sử dụng công nghệ Big Data Hadoop mang đến nhiều điểm vượt trội hẳn nhờ việc thu thập, xử lý, phân tích lưu trữ nhiều thơng tin so với hệ thống Về mặt hiệu năng, chế hoạt động hệ thống khác biệt so với hệ thống sử dụng công nghệ Big Data Hadoop loại bỏ bớt trường thông tin (chỉ lưu trữ theo ba tiêu chí định nghĩa sẵn) thời gian giám sát cố định 24h, sử dụng chế nạp làm tươi liệu nhớ máy chủ Web giám sát Do việc so sánh thực nghiệm hiệu hệ thống cũ hệ thống khơng tương xứng Vì phần này, tác giả lựa chọn tảng tương tự công nghệ để so sánh hiệu xử lý tập liệu đầu vào so với hệ thống Big Data Hadoop triển khai Về tảng lựa chọn: - 02 máy chủ có cấu sau: o CPU: 1.2GHz, socket, 10 core/socket, thread/core o Memory: 192 GB o Storage: TB local + SAN Storage 88 - Hệ quản trị CSDL: Oracle (RAC) - Kết nối mạng: o Ethernet: 1Gbps o SAN: 32GFC "Gen 6" ~ 3,303 MBps - Bảng CSDL QUERYLOG (schema DNSLOG) có trường thơng tin tương tự bảng DNSQueryLog tổ chức lưu trữ Hive, partition theo trường thời gian truy vấn, lưu trữ liệu ORACLE ASM SAN DISK Tập liệu so sánh: - Log truy vấn DNS Quốc gia 01 ngày, 02 ngày tuần So sánh tốc độ thực truy vấn câu lệnh SQL Oracle, HiveQL Impala: SELECT * FROM DNSLOG.QUERYLOG WHERE CLIENTIP = ? AND QUERYTIME > ? AND QUERYTIME < ? Kết thực nghiệm: # Oracle RAC HiveQL Impala ngày ~ 59 GB 87.582s 52.84s 0.864s ngày ~ 117 GB 186.242s 108.35s 1.959s tuần ~ 410 GB 881.451s 252.281s 7.852s Bảng 2: So sánh hiệu truy vấn liệu Impala, Hive Oracle RAC 89 Biểu đồ so sánh hiệu truy vấn liệu 1000 881.451 900 800 700 600 500 400 252.281 300 186.242 200 100 52.84 108.35 87.582 7.852 1.959 0.864 ngày ~ 59 GB ngày ~ 117 GB Impala HiveQL tuần ~ 410 GB Oracle RAC Hình 50: So sánh hiệu truy vấn liệu Impala, Hive Oracle RAC Qua thực nghiệm thấy công nghệ Big Data Haddop đặc biệt Impala cho hiệu truy vấn nhanh nhiều (hơn 100 lần) so với công nghệ truyền thống sử dụng CSDL quan hệ Trong công nghệ Big Data Hadoop, Impala cho thấy lực vượt trội so với cơng cụ tìm kiếm khác Kết xem xét để ứng dụng Impala công cụ kinh doanh thông minh (BI) liệu log truy vấn DNS Quốc gia, giúp tạo báo cáo nhanh 90 KẾT LUẬN Vấn đề khai thác thông tin từ liệu log truy vấn DNS từ phân tích hành vi truy cập người dùng để đảm bảo hoạt động liên tục cho hệ thống DNS Quốc gia phát cảnh báo sớm bất thường đưa phương án xử lý, đảm bảo an toàn an ninh cho hệ thống vấn đề quan tâm để đảm bảo cho ổn định mạng Internet quốc gia Tại Việt Nam, đơn vị thiết lập, quản lý vận hành hệ thống DNS Quốc gia Trung tâm Internet Việt Nam (VNNIC) - Bộ Thông tin Truyền thông áp dụng giải pháp, công nghệ để tiến hành khai thác liệu log truy vấn DNS nói trên, nhiên hạn chế công nghệ xử lý lưu trữ nên thông tin thu thập hạn chế, khó mở rộng tiêu chí thống kê giám sát Với đề tài “Ứng dụng BigData việc giám sát thống kê liệu truy vấn hệ thống DNS Quốc gia”, luận văn tiến hành phân tích chi tiết nguyên nhân điểm hạn chế công nghệ hệ thống tại, từ đưa yêu cầu cho hướng tiếp cận cụ thể lựa chọn giải pháp ứng dụng công nghệ Big Data Hadoop dựa đặc điểm bật giải pháp so với giải pháp tương tự Luận văn tiến hành tìm hiểu thành phần hệ thống quản lý liệu lớn Big Data Hadoop để lựa chọn thành phần phù hợp với toán, đưa vào thiết kế tính tốn chi tiết quy mơ hệ thống theo yêu cầu lưu trữ khai thác số liệu thực triển khai hệ thống theo thiết kế để thực thu thập, phân tích xử lý liệu log truy vấn hệ thống DNS Quốc gia với kích thước liệu lớn Hệ thống giám sát thống kê có lực vượt trội bổ sung nhiều tính tiêu chí giám sát thống kê so với hệ thống Sản phẩm đề tài triển khai thực tế áp dụng thử nghiệm vào công tác khai thác vận hành hệ thống máy chủ DNS Quốc gia Luận văn đạt kết quả, đóng góp sau: Phân tích để làm rõ yêu cầu hướng tiếp cận áp dụng cho việc xây dựng hệ thống giám sát thống kê liệu log truy vấn hệ thống DNS Quốc gia với kích thước lớn Tìm hiểu giải pháp tương tự áp dụng triển khai giới, so sánh lựa chọn giải pháp phù hợp Tìm hiểu lựa chọn thành phần hệ thống quản lý liệu lớn Big Data Hadoop phù hợp với tốn phân tích liệu log Thực thiết kế hệ thống đảm bảo khả chịu lỗi (Failover) tính sẵn sàng cao (High Availability) 91 Tính tốn chi tiết quy mô hệ thống (sizing) thực triển khai hệ thống quản lý liệu lớn Big Data Hadoop sử dụng cơng nghệ Cloudera Manager để tối ưu hóa lực hệ thống tiết kiệm nhân công quản trị vận hành hệ thống Tiến hành tìm hiểu thông tin liệu ghi log truy vấn DNS, từ thực phân tích làm giàu thông tin liệu công nghệ Big Data Tổ chức lưu trữ liệu xây dựng hệ thống giám sát thống kê đảm bảo lực mở rộng chức năng, tiêu chí giám sát thống kê so với hệ thống Kiến nghị hướng phát triển tiếp theo: Hiện hệ thống giám sát thống kê liệu truy vấn hệ thống DNS Quốc gia ứng dụng công nghệ Big Data hỗ trợ tương đối hiệu cho việc giám sát vận hành đảm bảo an toàn an ninh cho hệ thống nhờ vào việc làm giàu liệu mở rộng tiêu chí giám sát, thống kê Tuy nhiên trình vận hành, bất thường liệu hành vi truy vấn người dùng phát nhân cơng q trình điều phối ứng cứu cố an tồn máy tính, mà chưa có cơng cụ giúp hệ thống tự động phát cảnh báo nguy gây an toàn an ninh cho quản trị viên hệ thống DNS Quốc gia Chính vậy, ngồi kết quả, đóng góp bên trên, đề tài cần tiếp tục sâu vào khai thác số liệu ứng dụng học máy, trí truệ nhân tạo tập liệu thu thập phân tích Đây hướng nghiên cứu cần quan tâm thời gian tới 92 TÀI LIỆU THAM KHẢO [1] [2] Christopher Amin, Massimo Candela, Daniel Karrenberg, Robert Kisteleki and Andreas Strikos “Visualization and Monitoring for the Identification and Analysis of DNS Issues” Cristian Hesselman, Jelte Jansen, Maarten Wullink, Karin Vink and Maarten Simon “A privacy framework for ‘DNS Big Data’ applications” [3] Euihyun Jung “A Data-Driven Decision Making with Big Data Analysis on DNS Log” [4] Kyung-Sik Jeon, Se-Jeong Park, Sam-Hyun Chun, and Jong-Bae Kim “A Study on the Big Data Log Analysis for Security” [5] Pedro Casas, Alessandro D’Alconzo, Tanja Zseby and Marco Mellia “BigDAMA: Big Data Analytics for Network Traffic Monitoring and Analysis” Mark Rittman “Creating Real-Time Search Dashboards using Apache Solr, [6] [7] [8] Hue, Flume and Cloudera Morphlines” http://hadoop.apache.org/: Apache Hadoop http://flume.apache.org/FlumeUserGuide.html: Tài liệu hướng dẫn sử dụng Apache Flume để thu thập liệu [9] http://kitesdk.org/docs/1.1.0/morphlines/morphlines-reference-guide.html: Tài liệu hướng dẫn sử dụng Kite Morphlines để tích hợp liệu vào Big Data [10] https://hive.apache.org/: Apache Hive [11] http://lucene.apache.org/solr/: Apache Solr [12] https://doc.lucidworks.com/lucidworks-hdpsearch/2.5/Guide-Banana.html: Tài liệu hướng dẫn sử dụng Lucidworks Banana để hiển thị trực quan liệu Big Data [13] https://www.cloudera.com/documentation.html: Tài liệu quản trị hệ thống CDH (Cloudera Distribution Including Apache Hadoop) [14] https://www.splunk.com/: Splunk [15] https://www.elastic.co/elk-stack/: ELK Stack 93 Phụ lục 1: Cài đặt cấu hình máy chủ hệ thống Big Data Hadoop Để triển khai hệ thống Big Data Hadoop, máy chủ trước tiên phải cài đặt cấu hình theo khuyến nghị sau: Về hệ điều hành: - Lựa chọn phiên bản: hệ thống Big Data Hadoop yêu cầu sử dụng HĐH Linux với phiên hỗ trợ bảng sau Hệ điều hành Phiên (bôi đậm phiên khuyến nghị) Red Hat Enterprise Linux-compatible RHEL / CentOS / Oracle Linux RHCK 7.2, 7.1 6.9, 6.8, 6.7, 6.6, 6.5, 6.4 5.11, 5.10, 5.7 Oracle Linux (OL) 7.2, 7.1 (UEK default) 6.9, 6.8 (UEK R2, R4) 6.7, 6.6, 6.5 (UEK R2, R3) 6.4 (UEK R2) 5.11, 5.10, 5.7 (UEK R2) SUSE Linux Enterprise Server SLES 12 SP1 11 SP4, 11 SP3, 11 SP2 Ubuntu/Debian Ubuntu 14.04 LTS (Trusty) 12.04 LTS (Precise) Debian 8.4, 8.2 (Jessie) 7.8, 7.1, 7.0 (Wheezy) Bảng 3: Danh sách phiên HĐH hỗ trợ để cài đặt CDH CM [13] Với danh sách khuyến nghị trên, tác giả lựa chọn HĐH RHEL 6.8 cho máy chủ hệ thống - Cấu hình đồng thời gian: dịch vụ NTP 94 $ service ntpd start # khởi động dịch vụ ntpd $ chkconfig ntpd on # khởi động ntpd với HĐH - Tắt firewall mềm máy chủ: $ $ $ $ - service iptables stop service ip6tables stop chkconfig iptables off chkconfig ip6tables off Tắt module kernel security (SELinux): sửa file cấu hình selinux, thiết lập chế độ disabled cho SELINUX Sau thiết lập cấu hình cần phải khởi động lại hệ điều hành $ vi /etc/selinux/config # This file controls the state of SELinux on the system # SELINUX= can take one of these three values: # enforcing - SELinux security policy is enforced # permissive - SELinux prints warnings instead of enforcing # disabled - No SELinux policy is loaded SELINUX=disabled # SELINUXTYPE= can take one of these two values: # targeted - Targeted processes are protected, # mls - Multi Level Security protection SELINUXTYPE=targeted Kiểm tra dịch vụ sercure shell daemon hoạt động: - $ service sshd status $ service sshd start Tắt số dịch vụ không cần thiết postfix, cubs: - $ service cups stop && chkconfig cups off $ service postfix stop && chkconfig postfix off Cấu hình tham số user limit HĐH, để đảm bảo tham số nofile nproc cho user mapred (mapreduce), hdfs hbase tăng không 32k; $ $ $ $ $ echo echo echo echo echo hdfs mapred hbase hdfs mapred - nofile nofile nofile nproc nproc 32768 32768 32768 32768 32768 95 >> >> >> >> >> /etc/security/limits.conf /etc/security/limits.conf /etc/security/limits.conf /etc/security/limits.conf /etc/security/limits.conf $ echo - hbase - nproc 32768 >> /etc/security/limits.conf Tắt chế độ Transparent Huge Pages Redhat echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled Về máy ảo Java (JRE) công cụ phát triển phần mềm Java (JDK): - Để đảm bảo tính ổn định lực cho hệ thống, Clodera yêu cầu cài đặt Oracle JDK 64 bit thay sử dụng OpenJDK Do cần phải gỡ bỏ OpenJDK (mặc định cài đặt HĐH RHEL 6.8) cài đặt thay Oracle JDK 64 bit Việc kiểm tra phiên phần mềm Java thực qua lệnh sau: java -version javac -version update-java-alternatives list alternatives display java - Về phiên bản, Clodera khuyên nghị sử dụng JDK với update sau 80 (1.7u80) Về kết nối mạng DNS: - Đảm bảo kết nối mạng cụm máy chủ Big Data Hadoop có băng - - thông tối thiểu 1Gbps, khuyến nghị 10Gbps Các port kết nối sau cần cho phép qua cấu hình tường lửa: o TCP 22 (SSH) từ máy tính quản trị máy chủ Cloudera Manager đến máy chủ cụm máy chủ Big Data Hadoop o HTTP port 7180 (hoặc HTTPS port 7183) từ máy tính quản trị đến máy chủ Cloudera Manager để truy cập giao diện web phần mềm Cloudera Manager o HTTP port 8888 từ máy tính người dùng đến máy chủ Cloudera Manager để truy cập thành phần Hue (là thành phần để trực quan file HDFS, thực truy vấn Hive Impala giao diện Web) Khai báo tên miền dạng đầy đủ (FQDN), dạng chữ viết thường cho máy chủ cụm, ví dụ: master-01.bigdata.vnnic.vn thay master-01 Thiết lập kiểm tra kết thiết lập lệnh sau: $vi /etc/sysconfig/network 96 NETWORKING=yes HOSTNAME=worker-02.bigdata.vnnic.vn NETWORKING_IPV6=no IPV6INIT=no $ grep HOSTNAME /etc/sysconfig/network HOSTNAME=worker-02.bigdata.vnnic.vn - Đảm bảo máy chủ cụm Big Data Hadoop phải có địa tĩnh, khơng sử dụng DHCP Thực khai báo ghi A cho tên miền tương ứng với máy chủ địa IP tương ứng, ghi ngược (PTR) cho địa IP máy chủ cụm Big Data Hadoop tên miền tương ứng với máy chủ $ dig @203.119.8.106 worker-02.bigdata.vnnic.vn A ; DiG 9.8.2rc1-RedHat-9.8.2-0.47.rc1.el6 @203.119.8.106 worker-02.bigdata.vnnic.vn A ; (1 server found) ;; global options: +cmd ;; Got answer: ;; ->>HEADERHEADER

Ngày đăng: 09/03/2021, 20:41

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan