Trang 1 TRẦN CẢNH TOÀNB GIÁO DỘỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI H C BÁCH KHOA HÀ N I ỌỘ--- TRẦN CẢNH TOÀN KỸ THUẬT PHẦN MỀMỨNG D NG BIGDATA TRONG VI C GIÁM SÁT VÀ TH NG KÊ ỤỆỐD ỮLIỆU TRUY VẤN HỆ
Trang 1Ứ NG D NG BIGDATA TRONG VI C GIÁM SÁT VÀ TH NG KÊ Ụ Ệ Ố
D Ữ LIỆ U TRUY V Ấ N HỆ THỐ NG DNS QU C GIA Ố
LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH K ỸTHUẬT PH N M M Ầ Ề
Trang 2B GIÁO D Ộ ỤC VÀ ĐÀO TẠ O TRƯỜNG ĐẠ I H C BÁCH KHOA HÀ N I Ọ Ộ
- TRẦN CẢNH TOÀN
Ứ NG D NG BIGDATA TRONG VI C GIÁM SÁT VÀ TH NG KÊ Ụ Ệ Ố
D Ữ LIỆ U TRUY V Ấ N HỆ THỐ NG DNS QU C GIA Ố
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu c a riêng tôi Các n i dung và k t ủ ộ ế
qu trình bày trong lu n ả ậ văn là hoàn toàn trung thực và chưa có tác giả nào công b ốtrong b t kấ ỳ m t công trình nào khác./ ộ
n Tác giả luậ văn
n C nh Toàn Trầ ả
Trang 4M C L C Ụ Ụ
DANH MỤC CÁC CH ẾT TẮỮVI T, CÁC KÝ HI U 1ỆDANH MỤC CÁC HÌNH V 2ẼDANH MỤC CÁC BẢNG 4
M Ở ĐẦU 5Chương 1 : GI I THI U Đ Ớ Ệ ỀTÀI 81.1 T ng quan v h ng máy ch DNS Qu c gia 8ổ ề ệthố ủ ố1.1.1 Mô hình và chức năng của hệ thố ng DNS Quốc gia 81.1.2 Hoạ ột đ ng truy v n tên mi n qua h ng máy ch DNS Qu c gia 9ấ ề ệthố ủ ố1.1.3 D u log truy v n DNS trên h ng DNS Quữliệ ấ ệthố ốc gia 111.2 Hiệ ạn tr ng h ng phân tích, giám sát và th ng kê log truy v n DNS 12ệthố ố ấ1.2.1 Mô hình tổng quan và các chức năng của hệ thố ng 121.2.2 Nguyên t c hoắ ạ ột đ ng của hệ thống 161.2.3 Các h n ch cạ ế ủa hệ thố ng hi n t i 19ệ ạ1.3 Mục tiêu và định hướng giải pháp 22Chương 2 : T NG QUAN V Ổ Ề CƠ SỞ LÝ THUY T VÀ CÔNG NGH 25Ế Ệ2.1 Tình hình nghiên cứu lĩnh vực 252.1.1 Tình hình nghiên cứu và ng d ng trên th gi i 25ứ ụ ế ớ2.1.2 Tình hình nghiên cứu và ng dứ ụng trong nước 302.1.3 Một số ả gi i pháp nổi bật 312.2 T ng quan v công ngh Big Data Hadoop 35ổ ề ệ2.2.1 Giới thiệ ều v công ngh Big Data Hadoop 35ệ2.2.2 Các thành phần cơ bản của hệ thố ng Big Data Hadoop 362.2.3 H ệsinh thái Hadoop 492.2.4 Quản lý c m máy ch Big Data Hadoop v i giụ ủ ớ ải pháp của Cloudera 51Chương 3 : XÂY D NG H TH NG GIÁM SÁT, TH NG KÊ D LI U LOG Ự Ệ Ố Ố Ữ ỆTRUY VẤN DNS QU C GIA DỰỐ A TRÊN CÔNG NGH BIGDATA 55Ệ3.1 Áp dụng công ngh Big Data Hadoop vào bài toán giám sát và th ng kê d ệ ố ữliệu log truy v n DNS 55ấ3.1.1 Các thành ph n c a Big Data Hadoop áp d ng cho bài toán giám sát và ầ ủ ụ
thống kê d ệu log 55ữli3.1.2 Thiết kế mô hình triển khai h ng giám sát, th ng kê log truy v n ệthố ố ấDNS Quốc gia 56
Trang 53.2.1 Kích thước và quy mô h ng 58ệthố3.2.2 Triển khai c m máy ch Big Data Hadoop v i giụ ủ ớ ải pháp của Cloudera
593.3 Xây d ng h ng giám sát và th ng kê d u log truy v n DNS s d ng ự ệthố ố ữliệ ấ ử ụBig Data Hadoop 613.3.1 Thu thập và phân tích log truy v n DNS 61ấ3.3.2 T ổchứ ểc đ lưu trữ log truy v n DNS 71ấ3.3.3 Trực quan dữ liệ u log truy vấn DNS để phục vụ giám sát, ng kê 75thốChương 4 : PHÂN TÍCH K T QU Ế Ả ĐẠT ĐƯỢC 804.1 Kết quả triể n khai h ng 80ệthố4.1.1 Giao diệ ổn t ng th h ng 80ể ệthố4.1.2 Đồ thị lưu lượng truy v n DNS 81ấ4.1.3 Danh sách các địa chỉ IP truy v n nhi u nh t 82ấ ề ấ4.1.4 Danh sách các tên miền GTLD được truy v n nhi u nh t 83ấ ề ấ4.1.5 Danh sách các tên miền VN được truy v n nhi u nh t 83ấ ề ấ4.1.6 Biểu đồ thố ng kê ngu n truy v n DNS theo quồ ấ ốc gia 844.1.7 Bản đồ nhiệt các khu vực trên thế ới về gi truy v n DNS Quấ ốc gia 844.1.8 Biểu đồ thố ng kê các loại bản ghi được truy v n 85ấ4.1.9 Biểu đồ thố ng kê v t l s d ng IPv4 IPv6 trong truy v n DNS 86ề ỷ ệ ử ụ – ấ4.1.10 Biểu đồ thố ng kê v t l truy v n DNSSEC 86ề ỷ ệ ấ4.1.11 Biểu đồ thố ng kê v giao th c truy n v n trong truy v n DNS 87ề ứ ề ậ ấ4.1.12 B ng d u các truy v n mả ữliệ ấ ới nhất trên hệ thố ng 874.2 Thực nghiệm v hiề ệu năng ệh thống 88
KẾT LUẬN 91TÀI LIỆU THAM KH O 93ẢPhụ ụ l c 1: Cài đặt và c u hình máy ch h ng Big Data Hadoop 94ấ ủ ệthố
Trang 6DANH MỤC CÁC CHỮ VIẾT TẮT, CÁC KÝ HIỆU
Chữ ế vi t tắt Tiếng Anh Nghĩa tiế ng Vi t ệ
DNS Domain Name System H ng máy ch tên mi n ệthố ủ ề
DNSSEC Domain Name System
Tên miề ấn c p cao mã qu c gia ố
IP Internet Protocol Giao thức Internet
IPv4 Internet Protocol version 4 Giao thức Internet phiên b n 4 ảIPv6 Internet Protocol version 6 Giao thức Internet phiên b n 6 ảHDFS Hadoop Distributed File
System
H ng file phân tán cệthố ủa Hadoop
MR MapReduce Mô hình lập trình để ử x lý song
song t p d u l n trên Hadoop ậ ữliệ ớ
ISP Internet Service Provider Nhà cung cấ ịp d ch vụ Internet
CNTT Information Technology Công nghệ thông tin
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 1: Hoạ ột đ ng truy v n tên mi n qua h th ng máy ch DNS Quấ ề ệ ố ủ ốc gia (nguồn VNNIC) 9Hình 2: Các bước trong quá trình truy v n tên miấ ền “.vn” (nguồn VNNIC) 10Hình 3: Mô hình logic ệ thố h ng giám sát, th ng kê Log truy v n DNS hi n t i 12ố ấ ệ ạHình 4: Giao di n giám sát chung d u truy v n DNS 14ệ ữliệ ấHình 5: Giao diện giám sát lưu lượng truy v n trên mấ ột cụm máy ch ủDNS 15Hình 6: Giao diện giám sát lưu lượng truy v n trên m t máy ch ấ ộ ủDNS 15Hình 7: Nguyên t c hoắ ạ ột đ ng h ng phân tích log truy v n DNS 16ệthố ấHình 8 Nguyên t c hoắ ạ ột đ ng h ệthống giám sát lưu lượng truy v n ấ DNS 17Hình 9 Mô hình hoạ ột đ ng c a hệ ốủ th ng th ng kê t p trung 19ố ậHình 10: Phân tích các nhược điểm c a công ngh hi n t i 23ủ ệ ệ ạHình 11: Mô hình thu th p d ậ ữliệu log để phân tích, đảm b o an toàn an ninh [4] 26ảHình 12: Mô hình phân tích d ữliệu log để đả m b o an toàn an ninh [4] 27ảHình 13: Mô hình h ng phân tích d u DNS c a Hà Lan [2] 29ệthố ữliệ ủHình 14: Mô hình giải pháp Splunk để giám sát h th ng CNTT [14] 31ệ ốHình 15: Mô hình chức năng của các thành ph n trong công c ELK [15] 33ầ ụHình 16: Các thành ph n ầ cơ bản của hệ thố ng Big Data Hadoop [13] 36Hình 17: Mô hình triển khai c a hệ ốủ th ng t p tin HDFS [13] 37ậHình 18: Mô hình lưu trữ file trên h th ng t p tin HDFS [13] 39ệ ố ậHình 19: Quá trình đọc file trên HDFS [13] 40Hình 20: Quá trình ghi file trên HDFS [13] 41Hình 21: Mô hình kiến trúc c a YARN [13] 43ủHình 22: Các bước x lý d li u l n b ng mô hình MapReduce [13] 44ử ữ ệ ớ ằHình 23: Quá trình chạy một ứng d ng MR2 trên YARN [13] 48ụHình 24: Hệ sinh thái Hadoop [7] 50Hình 25: Giao di n h ng Cloudera Manager 53ệ ệthốHình 26: Ki n trúc h ng Cloudera Manager [13] 53ế ệthốHình 27: Các thành ph n Big Data Hadoop trong bài toán giám sát, th ng kê log 56ầ ốHình 28: Mô hình h ng giám sát và th ng kê d u log truy v n DNS 57ệthố ố ữliệ ấHình 29: Mô hình c m máy ch Big Data Hadoop c a VNNIC 59ụ ủ ủHình 30: Mô hình thu th p log trậ ực tiế ằp b ng Flume t các máy ch ừ ủDNS 62Hình 31: Mô hình thu th p log b ng Flume gián ti p qua syslog-ng 63ậ ằ ếHình 32: Mô hình thu th p d u log DNS s d ng nhi u tr m Flume Agent 64ậ ữliệ ử ụ ề ạHình 33: Mô hình phân tích d u log DNS s d ng Flume 66ữliệ ử ụHình 34: Truy vấ ữ ện d li u trên HDFS v i HiveQL [13] 72ớHình 35: Giao di n c a Solr Admin 75ệ ủHình 36: Trực quan d ệữli u Big Data v i Cloudera Search [13] 77ớHình 37: Tr quan d u Big Data v i Lucidworks Banana [12] 78ực ữliệ ớHình 38: Giao di n h ng giám sát và th ng kê d u truy v n DNS qu c gia 81ệ ệthố ố ữliệ ấ ố
Trang 8Hình 39: Đồ ị lưu lượ th ng truy v n DNS 82ấ Hình 40: B ng ả danh sách các địa chỉ IP truy v n nhi u nh t 82ấ ề ấ Hình 41: B ng danh sách các tên miả ền GTLD được truy v n nhi u nh t 83ấ ề ấ Hình 42: Bảng danh sách các tên miền VN được truy v n nhi u nh t 84ấ ề ấ Hình 43: Biểu đồ ố th ng kê các qu c gia truy v n vào h th ng DNS Qu c gia 84ố ấ ệ ố ố Hình 44: Bản đồ nhi t các khu v c trên th giệ ự ế ớ ềi v truy v n DNS Qu c gia 85ấ ố Hình 45: Biểu đồ ố th ng kê các lo i bản ghi đượạ c truy v n 86ấ Hình 46: Biểu đồ ố th ng kê v t l s d ng IPv4 IPv6 trong truy v n DNS 86ề ỷ ệ ử ụ – ấ Hình 47: Biểu đồ ố th ng kê v t l truy v n DNSSEC 87ề ỷ ệ ấ Hình 48: Biểu đồ ố th ng kê v giao th c truy n v n trong truy v n DNS 87ề ứ ề ậ ấ Hình 49: Bảng d li u các truy v n m i nh t trên h ữ ệ ấ ớ ấ ệthống 88 Hình 50: So sánh hiệu năng truy vấn d ữ ệli u c a Impala, Hive và Oracle RAC 90ủ
Trang 9DANH MỤC CÁC BẢNG
B ng 1: Danh sách các c m máy ch DNS quả ụ ủ ốc gia VN (nguồn VNNIC) 8
B ng 2: So sánh hiả ệu năng truy vấn d u c a Impala, Hive và Oracle RAC 89ữliệ ủ
B ng 3: Danh sách các phiên bả ản HĐH được h ỗtrợ để cài đặt CDH và CM [13] 94
B ng 4: Các CSDL yêu cả ầu được tạo để cài đặt Cloudera Manager 99
Trang 10MỞ ĐẦU
H ng máy ch tên mi n qu c gia VN u trách nhi m phân giệ thố ủ ề ố chị ệ ải địa ch ỉcho toàn b các tên mi n VNộ ề , được xem là “trái tim” ủ c a m ng Internet ạ Việt Nam Đây là h ệthống thông tin tr ng y u ọ ế hàng đầu của qu c gia theo quyố ết định s ố 632/QĐ-TTg ngày 10/5/2017 c a Th ủ ủ tướng chính phủ H ng DNS Qu c gia hi n tệthố ố ệ ại đang được thi t l p, qu n lý và v n hành b i Trung tâm Internet Vi t Nam (VNNIC - Bế ậ ả ậ ở ệ ) ộThông tin và Truy n thông m b o cho h ng hoề Để đả ả ệthố ạt động an toàn và ổn định, tính đến thời điểm hi n tệ ại đã có nhiều gi i pháp và công ngh ả ệ được nghiên c u và ứ
áp d ng, có th k ụ ể ể đến trong đó như tiêu chu n an toàn b o m t m r ng h ng ẩ ả ậ ở ộ ệthốmáy ch DNS (DNSSEC), công ngh DNS-Anycast, công ngh cân b ng t IPv6 ủ ệ ệ ằ ải, Bên c nh các công ngh , giạ ệ ải pháp đã áp d ng, vi c theo dõi tình tr ng hoụ ệ ạ ạt
động c a h th ng và phân tích hành vi truy c p củ ệ ố ậ ủa người dùng cũng góp phần r t ấquan trọng để đả m b o hoả ạt động liên t c cho h ụ ệthống DNS Qu c gia ố cũng như giúp phát hi n và c nh báo s m các bệ ả ớ ất thường để đưa ra các phương án xử lý, đảm b o ả
an toàn an ninh cho h ng Các d u v hành vi truy v n cệthố ữ liệ ề ấ ủa người dùng cũng như đáp ứng c a các máy ch DNS hi n tủ ủ ệ ại đang được lưu trữ t i các file log truy vạ ấn
và đã được VNNIC ti n hành thu thế ập, phân tích để đưa vào hệ th ng giám sát và ố
thống kê s ệốli u Tuy nhiên v i các công ngh truyềớ ệ n thống đang áp dụng, các thông tin thu đượ ừc t vi c thu th p, phân tích d li u log truy vệ ậ ữ ệ ấn là đang rấ ạt h n ch do ế
kh ả năng lưu trữ và x ử lý cũng như khả năng mở ộ r ng h ng, tiêu chí th ng kê, ệthố ốgiám sát Theo th ng kê, hàng ngày trung bình có kho ng 300 triố ả ệu lượt truy v n vào ấ
h ng máy ch DNS Qu c gia, vệ thố ủ ố ới kích thước d u log d ng thô là 60GB ữ liệ ở ạChính vì v vi c nghiên c u công nghậy, ệ ứ ệ, hướng ti p c n mế ậ ới để nâng cao năng lực
x ử lý cũng như khả năng lưu trữ và khai thác s u, áp d ng cho v bài toán phân ốliệ ụ àotích lid ữ ệu log truy vấn DNS đang là một yêu c u c p thi ầ ấ ết
Hiện nay trên th giế ới đã có nhiều nghiên c u, gi i pháp, ứ ả cũng như sản ph m ẩ
ph n mầ ềm để ph c v cho vi c phân tích, giám sát và th ng kê d u log Tiêu bi u ụ ụ ệ ố ữliệ ểtrong các gi i pháp và ph n mả ầ ềm ổ ế đượph bi n, c nhi u t ề ổchức, đơn vị đã và đang áp
d ng phân tích d u ụ để ữliệ log có th k ể ể đến như Elastic Stack, Splunk, và công ngh ệBig Data So v i Elastic Stack và Splunk, gi i pháp công ngh Big Data ng d ng ớ ả ệ ứ ụcho thu thập, phân tích, giám sát và th ng kê log có mô hình phố ức tạp hơn, khó triển khai và quản lý hơn, đòi hỏi kinh nghi m c a cán b kệ ủ ộ ỹ thu t Tuy nhiên gi i pháp ậ ảcông ngh ệ Big Data mang đến kh ả năng mở ộ r ng h ng tệthố ốt hơn cả ề năng lự v c xử
Trang 11lý cũng như khả năng lưu trữ Hơn thế n a, gi i pháp Big Data có th k t h p v i hữ ả ể ế ợ ớ ọc máy, trí tu nhân tệ ạo để khai thác được nhiều hơn thông tin, từ đó ỗ h trợ đưa ra các quyết định v ề chính sách cũng như ậv n hành h ng Hi n tệthố ệ ại ứng d ng công ngh ụ ệBig Data khai thác ngu n d u log, h khai thác và v n hành h để ồ ữliệ ỗtrợ ậ ệthống, đảm
b o b n an toàn an ninh ả ả đang là xu thế chung của toàn cầu
V i hi n tr ng và yêu c u nêu trên, cùng vớ ệ ạ ầ ới xu hướng nghiên c u và áp d ng ứ ụ
của thế ới, đề gi tài được lựa chọn để ả gi i quy hai vết ấn đề: 1/ Nghiên c u công ngh ứ ệBig Data, áp d ng vào vi c khai thác d u log; 2/ Thi t k mô hình và tri n khai ụ ệ ữliệ ế ế ểcác thành ph n công ngh Big Data n hành thu thầ ệ đểtiế ập, phân tích, lưu trữ và giám sát th ng kê d u log truy v n DNS trên h ng DNS Qu c gia, h m b o ố ữliệ ấ ệthố ố ỗtrợ đả ả
an toàn an ninh cho hệ ố th ng DNS Qu c gia ố
Đố i tư ng, ph m vi, m c tiêu nghiên c u c ợ ạ ụ ứ ủa đềtài:
Trong ph m vi cạ ủa đề tài, không tham v ng s tìm hithể ọ ẽ ểu được toàn b công ộngh Big Data và các thành ph n ệ ầ để khai thác các ngu n d ồ ữliệu cũng như việc nghiên
c u v h c máy và trí tu nhân t o áp d ng ứ ề ọ ệ ạ ụ để phân tích hành vi người dùng thông qua d u truy v n DNS t ữliệ ấ ừ đó đưa ra các hỗ ợ tr quyết định v v n hành ề ậ đảm bảo an toàn an ninh cho h ng DNS Qu c gia ệ thố ố Đối tượng và ph m vi nghiên c u cạ ứ ủa đềtài s t p trung vào tìm hi u các thành phẽ ậ ể ần cơ bản c a h ệthống Big Data để ph c v ủ ụ ụcho bài toán thu th p và phân tích, giám sát và th ng kê d u log truy v n DNS ậ ố ữ liệ ấtrên h thệ ống DNS Qu c gia Mụố c tiêu và đóng góp chính c a đủ ềtài sẽ ậ t p trung vào các nội dung chính sau:
1 Nghiên c u t ng quan v công ngh Big Data và các thành phứ ổ ề ệ ần cơ bản để
thực hiện khai thác ngu n d ệu log ồ ữli
2 Thiế ết k mô hình và tri n khai các thành ph n thu th p, phân tích và ể ầ để ậ lưu trữ d ữliệu log truy vấn DNS dướ ại d ng kho d ữliệu (Data Warehouse) trong h ng ệthốBig Data ấu hình để đả C m b o h ng có tính s n sàng (high availability) cao ả ệthố ẵ
3 Xây d ng các tiêu chí giám sát, th ng kê d u truy v n DNS và t n khai ự ố ữliệ ấ riể
h ng phân tích và giám sát log truy v n DNS vào h ng máy ch DNS Quôc ệthố ấ ệthố ủgia theo các tiêu chí đã xây dựng
Kết quả khoa học và thực tiễn của đề tài :
Đềtài có tính khả thi cao, có th áp dể ụng được vào trong th c tiự ễn để ế ti n hành thu th p, phân tích, giám sát và th ng kê v tình hình truy v n tên mi n thông qua h ậ ố ề ấ ề ệ
thống máy ch DNS Qu c gia Các thông tin thu thủ ố ập được s là ngu n d ệu quý ẽ ồ ữlibáu để ẽ v ra b c tranh toàn c nh v tình hình s d ng Internet cứ ả ề ử ụ ủa người dùng t i ạ
Trang 12Việt Nam và m c đ quan tâm, s d ng tên miứ ộ ử ụ ền “.vn” cũng như các dịch v ụ đi kèm
t ừ người dùng c ở ả trong nước và nước ngoài T ừ đó sẽ giúp cơ quan chức năng quản
lý h thệ ống DNS Qu c gia –ố Trung tâm Internet V t Nam - B Thông tin và Truyền iệ ộthông đưa ra các quyế ịt đ nh v chính sách v n hành và chiề ậ ến lược phát tri n phù hể ợp
để đả m bảo năng lực cũng như an toàn an ninh cho hệ ố th ng
B cố ục của luận văn:
Luậ văn đượ ố ục thành 4 chương:n c b c
.VN và hi n tr ng c a h ng giám sát và th ng kê d u log truy v n DNS hi n ệ ạ ủ ệthố ố ữliệ ấ ệ
t i, ch ạ ỉ ra các điểm còn t n t i và nguyên nhân c h ng hi n tồ ạ ủa ệ thố ệ ại cũng như công ngh truy n thệ ề ống đang áp dụng T ừ đó đưa ra mục tiêu và định hướng cho giải pháp
áp dụng để ở ộ m r ng ch c năng và hiứ ệu năng của hệ ố th ng
d ng ụ ở trong nước và nước ngoài trong lĩnh vực phân tích log, chỉ ra ự s phù h p cợ ủa
vi c áp d ng công ngh Big Data cho h ng giám sát và th ng kê log truy v n ệ ụ ệ ệ thố ố ấDNS Qu c gia, i sâu vào tìm hi u công ngh Big Data Hadoop bao g m các thành ố đ ể ệ ồ
phần cơ bản c a h ng Big Data Hadoop h sinh thái Big Data Hadoop và giủ ệ thố , ệ ải pháp qu n lý c m máy ch Big Data Hadoop ả ụ ủ
v n h ng DNS Qu c gia s d ng công ngh Big Data Hadoop ấ ệ thố ố ử ụ ệ Thực hi n triệ ển khai c m máy ch Big Data Hadoop; n hành thu th p, phân tích d u log truy ụ ủ tiế ậ ữliệ
v n trên các máy ch ấ ủ DNS; ổ chứ lưu trữ ữ liệt c d u; và xây d ng h ng giám sát, ự ệthốthống kê log truy v n DNS d a trên các tiêu chí giám sát, thấ ự ống kê đã xây dựng C u ấhình h ệthống để đả m b o tính s n sàng (high availability) cao ả ẵ
m i, so sánh v ớ ềchức năng và hiệu năng ới hệ thốv ng hi n t ệ ại
Trang 13Chương 1 GIỚI THIỆU ĐỀ TÀI : 1.1 Tổng quan về hệ thống máy chủ DNS Quốc gia
1.1.1 Mô hình và ch ức năng ủ c a h ng DNS Qu ệ thố ố c gia
H ng máy ch tên mi n qu c gia VN là h ng kệthố ủ ề ố ệ thố ỹthuật nhằm đảm bảo
hoạt động cho tên mi n qu c gia VN trên Internet Trung tâm Internet Vi t Nam - ề ố ệ
B Thông tin và Truy n thông thi t l p, qu n lý và v n hành h ng máy ch ộ ề ế ậ ả ậ ệthố ủtên miền qu c gia VN H th ng máy ch tên mi n qu c gia VN th c hi n các nhi m ố ệ ố ủ ề ố ự ệ ệ
Hiệ ạ ệ ốn t i h th ng máy ch DNS Qu c gia g m 7 c m máy chủ ố ồ ụ ủ, trong đó 5 cụm máy ch ủ đặt trong nước (tại Hà ội, TP.HCM, Đà nẵN ng), 2 c m máy ch ụ ủ đặt ở nước ngoài t i nhiạ ều điểm trên th gi i ế ớ
nghệ
1 A.DNS-SERVERS.VN Nước
ngoài
194.0.1.18 2001:678:4::12
Anycast IPv6
2 B.DNS-SERVERS.VN Hà Nội 203.119.73.105
2001:dc8:1:2::105
LB IPv6
Anycast IPv6
Trang 141.1.2 Hoạ ộ t đ ng truy v n tên mi n qua h ng máy ch DNS Qu c gia ấ ề ệ thố ủ ố
Khi người dùng s d ng các d ch v d a trên tên miử ụ ị ụ ự ền như truy cập website hay
g i email, viử ệc đầu tiên các chương trình trên máy tính người dùng th c hi n là ự ệphân gi i tên ả miền ra địa ch ỉ IP để c hi n các k t n i hay còn g i là truy v n tên thự ệ ế ố ọ ấmiền Thông thường, vi c truy v n tên mi n s ệ ấ ề ẽ được th c hi n thông qua h ng ự ệ ệ thốmáy ch DNS c a các nhà cung c p d ch v Internet (ISP) V i các tên mi n VN, h ủ ủ ấ ị ụ ớ ề ệthống máy ch tên mi n c a các ISP s truy v n lên h ng máy ch ROOT server ủ ề ủ ẽ ấ ệthố ủ
ho c h ng máy ch tên miặ ệthố ủ ền đệm (Caching DNS) c a VNNIC và t ủ ừ đó truy vấn
h ng máy ch tên mi n quệthố ủ ề ốc gia để tìm kiếm thông tin và trả ờ l i truy v n ấ
VNNIC)
Quá trình truy v n tên mi n kấ ề hi người dùng Internet Vi t Nam th c hi n truy ệ ự ệ
v n tên mi n vn s diấ ề ẽ ễn ra như sau (ví dụ ớ v i tên mi n ề home.vnn.vn):
1 Chương trình trên máy ngườ ửi s d ng (trình duy t) s truy v n h ụ ệ ẽ ấ ệthống máy chủ tên mi n cề ủa ISP mà người dùng k t n i.ế ố
2 H ng máy ch tên mi n c a ISP s p nh n và g i truy v n này lên h ệthố ủ ề ủ ẽtiế ậ ử ấ ệthống máy ch ủ ROOT để tìm ki m máy ch qu n lý tên mi n home.vnn.vn ế ủ ả ề
Trang 153 H ng máy ch ROOT Server nh ệthố ủ ận được truy v n và ti n hành tìm kiấ ế ếm trong cơ sở ữ ệ d li u tên miền để ả ời Căn cứ tr l theo d liữ ệu đã có, máy chủROOT Server s l i cho máy ch cẽtrả ờ ủ ủa ISP các thông tin (địa ch IP, tên ỉmáy chủ) của máy ch ủthuộc hệ thố ng máy ch tên mi n qu c gia vn ủ ề ố
4 H ng máy ch ISP s truy v n máy ch ệ thố ủ ẽ ấ ủquản lý các tên mi n qu c gia ề ố
để tìm ki m thông tin v tên mi n home.vnn.vn ế ề ề
5 H ng máy ch tên mi n qu c gia s n hành tìm ki m d u và cung ệthố ủ ề ố ẽtiế ế ữliệ
c p thông tin cho máy ch ISP v y ch qu n lý tên mi n vnn.vn ấ ủ ềmá ủ ả ề Ở đây
là máy ch c a VDC ủ ủ
6 H ng máy ch c a ISP s truy v n máy ch c ệ thố ủ ủ ẽ ấ ủ ủa VDC để tìm kiếm địa chỉ trang web home.vnn.vn
7 Máy ch c a VDC qu n lý không gian tên mi n vnn.vn nên nó có thông tin ủ ủ ả ề
v a ch c a tên mi n home.vnn.vn và ti n hành cung cề đị ỉ ủ ề ế ấp địa ch IP này ỉcho hệ ố th ng DNS c a ISP ủ
8 H ệthống DNS c a ISP tr lủ ả ời người s dử ụng địa ch IP c a máy ch có trang ỉ ủ ủweb home.vnn.vn
9 Người sử ụng dùng địa chỉ này để d truy c p vào trang web home.vnn.vn ậ
Trang 161.1.3 D u log truy v n DNS trên h ng DNS Qu c gia ữ liệ ấ ệ thố ố
a Khuôn ạng d và thông tin d ữ liệu log
H ng máy ch DNS Quệthố ủ ốc gia được cấu hình để lưu lại toàn bộ thông tin ề v truy v n tên mi n vào log file ấ ề dưới định d ng là m t file text vạ ộ ới mỗi truy v n là mấ ột dòng trong log file, có cấu trúc như sau:
QUERYTIME (dd-MMM-yyyy HH:mm:ss.SSS) queries: info: client
CLIENTIP CLIENTPORT# (DOMAIN): query : DOMAIN CLASS RECORDTYPE QUERYTYPE SERVERIP). (
Ví dụ ề ộ v m t bản ghi log truy v n DNS: ấ
25-Mar-2018 15:05:04.815 queries: info: client 87.236.20.7#42762 hn01.vnn.vn): query: vdc-hn01.vnn.vn IN A -EDC (204.109.76.88)
(vdc-Như vậy v i m i truy v n tên mi n, d u log truy v n s ớ ỗ ấ ề ữliệ ấ ẽ lưu trữ các thông tin như sau:
Thời gian truy vấn: có độ chính xác đến mức milli giây, dưới d ng dd-ạMMM-yyyy HH:mm:ss.SSS
Địa ch IP c a khách hàng: có th dỉ ủ ể ở ạng địa ch IPv4 ho c IPv6 ỉ ặ
Port truy v n c a khách hàng: là d ng s nguyên ấ ủ ạ ố
Tên miền được truy v n: có th là tên mi n vn ho c tên mi n GTLD ấ ể ề ặ ề
Loạ ản ghi DNS đượi b c truy v n: có th là NS, A, AAAA, CNAME, MX, ấ ể(tham kh o ả https://en.wikipedia.org/wiki/List_of_DNS_record_types)
Các thông tin v ềloại truy v n: ấ
o “-“: không đ quy ệ
o “+”: đệ quy
o S: truy vấn đã được ký (signed)
o E: truy v n s d ng giao th c DNS m r ng (EDNS) ấ ử ụ ứ ở ộ
o T: truy v n s d ng giao th c TCP (mấ ử ụ ứ ặc định là UDP)
o D: truy v n DNSSEC ấ
o CD: truy v n không ki m tra DNSSEC (Checking Disabled) ấ ể
Địa ch IP c a máy ch DNS: có th dỉ ủ ủ ể ở ạng địa ch IPv4 ho c IPv6 ỉ ặ
b Kích thướ ữ ệ c d li u log:
Theo ng kê, trung bình m i giây h ng DNS Qu c gia ti p nh n và x thố ỗ ệthố ố ế ậ ửlý kho ng 3.ả 500 lượt truy vấn, trong đó trung bình tại thờ ểi đi m cao điểm h ng tiệthố ếp
Trang 17nhận hơn 5 000 lượ t truy v n, th m chí có nh ng thấ ậ ữ ời điểm lưu lượng truy vấn vượt con số 10.000 truy v n ấ
Cũng theo dữ liệu th ng kê, s ố ố lượng truy v n ti p nh n hàng ngày trên h ấ ế ậ ệthống DNS Qu c gia khoố ảng 00.000.000 lượ 3 t truy v n vấ ới kích thước d u log kho ng ữliệ ả60GB
V i yêu cớ ầu lưu trữ ữ d u t i thiliệ ố ểu trong vòng 01 năm, dung lượng lưu log truy v n h ng DNS Quấ ệthố ốc gia là hơn 20 TB
1.2 Hiện trạng hệ thống phân tích, giám sát và thống kê log truy vấn DNS
Hi n t i d u log truy vệ ạ ữ liệ ấn DNS đã được thu th p, phân tích ậ để đưa ra màn hình giám sát cũng như vào hệ thống thống kê lưu lượng truy v n DNS trên h ng ấ ệthốDNS qu c gia H ng hi n t i có mô hình, nguyên t c hoố ệthố ệ ạ ắ ạt động và các chức năng như sau:
1.2.1 Mô hình t ng quan và ổ các chức năng củ ệ thống a h
1.2.1.1 Mô hình tổng quan của hệ thống
H ng phân tích, giám sát và th ng kê d u log truy v n DNS hi n t i có ệthố ố ữliệ ấ ệ ạ
mô hình như sau:
Các thành ph n c a h ng: ầ ủ ệthố
Trang 18- H ng thu th p log truy v n DNS: ệ thố ậ ấ được tri n khai t i tể ạ ừng điểm đểthu thập toàn b log truy v n trên các máy ch DNS thuộ ấ ủ ộc điểm đó Việc triển khai h ng log truy vệ thố ấn trên điểm nh m giằ ảm băng thông truyền t i và ả
đảm b o tiêu chí giám sát theo th i gian th c H ả ờ ự ệthống thu th p log truy vậ ấn DNS s d ng công c open-source là syslog-ng D u log trên máy ch ử ụ ụ ữ liệ ủsyslog-ng s ẽ lưu log dướ ại d ng pipe file Pipe file là m t dộ ạng file đặc biệt,
c u hình cho phép m t ti n trình ghi vào file và m t tiấ ộ ế ộ ến trình đọc file theo nguyên tắc vào trước ra trước (FIFO), d ữliệu sau khi được đọ ẽ ịc s b xóa ra
khỏi pipe
- H ệ thố ng phân tích, giám sát log truy v n DNS: ấ có chức năng đọc log truy v n trên h ng syslog-ng, ti n hành phân tích các thông tin cấ ệthố ế ủa từng
b n ghi log (log-record), x ả ử lý các thông tin phân tích được để ph c v ụ ụcho
vi c giám sát, cệ ảnh báo và lưu trữ ữ d u th ng kê t m th i Các h ng liệ ố ạ ờ ệthốnày được tri n khai trên tể ừng điểm theo syslog đầu vào Tuy nhiên h ng ệthốgiám sát trên từng điểm có m d ch v các h ở ị ụ để ệthống tương ứng trên các site còn lại kế ốt n ấy d u giám sát, ph c v cho vi c giám sát t p trung i l ữliệ ụ ụ ệ ậ
và giám sát chéo l n nhau ẫ
H ng ệthố được thiế ết k và xây dựng để đưa ra các chức năng giám sát bao gồm
b ng s u x p h ng truy v n và v biả ốliệ ế ạ ấ ẽ ểu đồ lưu lượng truy v n trên các máy ch ấ ủDNS theo 3 dạng giao diện giám sát như sau:
a Giao diệ n giám sát chung (DashBoard):
- Hiển th biị ểu đồ lưu ợlư ng truy v n c a t t c các máy ch , c m máy ch ấ ủ ấ ả ủ ụ ủDNS trên cả site Hà N i và TP H Chí Minh ộ ồ
Trang 19- M i biỗ ểu đồ cung c p d u truy v n DNS c a tên mi n VN và tên ấ ữ liệ ấ ủ ềmiền Other trong vòng 24 ti ng g n nh t k t ế ầ ấ ể ừthời điểm hi n t i (thệ ạ ời điểm
- D u cữliệ ủa biểu đồ được tự độ ng c p nh t 5 phút mậ ậ ột lần
b Giao diệ n giám sát chi ti t c ế ụ m máy ch ủ :
Giao diện này dùng để giám sát chi tiết lưu lượng log truy v n vào m t cấ ộ ụm máy ch DNS Qu c gia Giao di bao g m 2 ph n: ủ ố ện ồ ầ
- Biểu đồ chung của cụm máy ch ủ ( kích thước lớn hơn và có các số liệ u trên trục thời gian và trục tổng s truy v n) ố ấ
- Các biểu đồ ủ c các máy ch trong ca ủ ụm Ví d : c m máy ch ụ ụ ủDNS - B, s ẽ
có biểu đồ chung c a c m (bi u di n t ng s truy v n trên c c m) và bi u ủ ụ ể ễ ổ ố ấ ả ụ ể
đồ ủ c a máy ch DNS-B1 và DNS-ủ B2
Trang 20Hình 5: Giao di ện giám sát lưu lượ ng truy v n trên m t c m máy ch ấ ộ ụ ủ DNS
c Giao diệ n giám sát chi ti t máy ch DNS: ế ủ
Biểu đồ giám sát chi ti t c a t ng máy ch Biế ủ ừ ủ ểu đồ có kích thước toàn màn hình và có các s u trên trốliệ ục thời gian và trục tổng s truy v n ố ấ
Trang 211.2.2 Nguyên t c ho ắ ạt độ ng c a h ủ ệ thống
1.2.2.1 Hệ thống thu thập và phân tích log truy vấn DNS
Read log line
Ranking
Reporter
Log- Detector
Issue-Syslog collector
write syslog to pipe file
Log Object
Update Object Information
Get Log Object Information Notify Children Thread
Store ranking data Store report data Store issue and event data
Update
Ranking Data Reporter Data Update Detector Data
Update
- H ệthống s d ng m u thi t k ử ụ ẫ ế ếObserver Trong đó 03 ti n trình bao g m x p h ng ế ồ ế ạtruy v n (Log Ranking), th ng kê truy v n (Log Reporter) và phát hi n s c ấ ố ấ ệ ự ố(Issue Detector) sẽ giám sát đố ợng Log Object đượi tư c tạo ra b i ti n trình phân ở ếtích log (Log Analyser)
- Tiến trình ti n x lý (Pre-Processor) s liên tề ử ẽ ục đọc d u t pipe u ra cữ liệ ừ (đầ ủa syslog-ng) theo t ng dòng log truy v n, ti n hành phân tích thông tin trên dòng ừ ấ ếlog đó để gán các thông tin vào một đối tượng Log Object Đối tượng Log Object
s ẽđượ ẩy vào hàng đợc đ i (Log Queue) ch x ờ ử lý
- Tiến trình phân tích log (Log Analyser) s ẽliên tụ ấ ừ g đối tược l y t n ng t ừ hàng đợi
x ử lý (Log Queue) bên trên Đối tượng được l y ra s gán thông tin cho tham biấ ẽ ến dùng chung Log Object, sau khi thông tin đã được c p nh t, ti n trình phân tích ậ ậ ếlog s thông báo cho 3 tiẽ ến trình con để phân tích thông tin t ừ đối tượng Log Object và cập nh t vào d li u th ng kê trên m i tiậ ữ ệ ố ỗ ến trình D ệữli u th ng kê trên ố
Trang 22m i tiỗ ến trình được lưu trữ trong b nh ộ ớ và định kỳ 5 phút d u th ng kê này ữliệ ố
s ẽ được làm m i và ớ đẩy vào CSDL để ph c v cho h ụ ụ ệthống giám sát lưu lượng
Monitoring Data
Refresh Monitoring Data
Display Monitoring Data
Init data
Refresh data Generate chart data
Monitoring Data
Refresh Monitoring Data
Display Monitoring Data
Init data
Refresh data
Generate chart data Generate chart data
Generate chart data
H ệthống giám sát lưu lượng truy vấn DNS được tri n khai tể ại 02 điểm là Hà
Nội và TP ồ H Chí Minh Trong đó hệ ng trên mthố ỗi điểm hoạ ộng như sau:t đ
- D u phữliệ ục vụ giám sát l y t CSDL th ng kê và x p h ng truy v n - ấ ừ ố ế ạ ấ được công c phân tích log truy v n DNS c p nhụ ấ ậ ật thường xuyên theo định k ỳ5 phút /l n ầ
- Khi hệ thống website giám sát lưu ợng đượlư c khở ội đ ng, ti n trình khế ởi tạo
d u giám sát s ữ liệ ẽ chạy để load d u th ng kê m i nh t t CSDL trong ữ liệ ố ớ ấ ừkhoảng 24h tính ngượ ạ ừc l i t thời điểm h ng khệ thố ởi động D ữ liệu được này s ẽ được lưu trữ ạ l i trong h ệthống để ụ ụ ẽ ểu đồ ph c v v bi giám sát
- Định kỳ 5 phút n trình c p nh t d u giám sát s tiế ậ ậ ữ liệ ẽ chạy để load d li u ữ ệ
thống kê và x p h ng truy v n m i nhế ạ ấ ớ ất về và đẩy d ữliệu cũ nhất ra khỏi dữliệu giám sát, đảm b o d ả ữliệu lưu trên hệ thống luôn là d ữliệu phân tích mới
nh t k t ấ ể ừ thời điểm hi n t i tr v ệ ạ ở ề 24h trước đó Cùng với vi c c u hình ệ ấ
Trang 23website giám sát tự độ ng refresh, các biểu đồ lưu lượng và s li u x p h ng ố ệ ế ạtruy v n trên trang giám sát th ấ ểhiện được dữ liệ ần như tức thời u g
- Trên m i site tri n khai, d ỗ ể ữliệu giám sát được lưu trên hệ thố ng ngoài việc
ph c v cho hi n th ụ ụ ể ị trên site đó còn mở ế k t nối để các site khác có th s ể ử
dụng để ẽ ểu đồ lưu lượ v bi ng truy v n, ph c v cho vi c giám sát t p trung ấ ụ ụ ệ ậ
và giám sát chéo gi a các site ữ
1.2.2.3 Hệ thống thống kê tập trung
D ữliệu trên h ệthống giám sát lưu lượng truy v n mấ ặc dù đã tổ chức cơ chế hoạt động để đổ ữ ệu vào CSDL theo đị d li nh k 5 phút / l n và b b t các tiêu chí th ng ỳ ầ ỏ ớ ố
kê d u, tuy nhiên tữliệ ốc độ tăng trưởng v n r t nhanh Chính vì vẫ ấ ậy để đả m b o d ả ữ
liệu th ng kê theo m t thố ộ ời gian dài được tính toán nhanh hơn, hệ ốth ng th ng kê s ố ẽ
tiến hành t ng h p d ệu theo các địổ ợ ữ li nh k ỳ dài hơn từ ữ d ệu giám sát để đưa vào liCSDL thống kê
C , trên h ng th ng kê thiụthể ệthố ố ết lập ch y t ạ ự động theo các định k ỳ:
- Hàng ngày: đầ u gi sáng m i ngày ờ ỗ
- Hàng tuần: đầu gi sáng th 5 hàng tu n ờ ứ ầ
- Hàng tháng: đầu gi sáng ngày 1 hàng tháng ờ
- Hàng năm: đầu gi ờ sáng ngày 1 tháng 1 hàng năm
Chương trình lấy d li u t ữ ệ ự động được thi t l p ch y riêng bi t trên t ng site ế ậ ạ ệ ừ(site Hà N i và site H Chí Minh) Trên m i site thi t lộ ồ ỗ ế ập hai chương trình riêng, bao
gồm chương trình lấy d u th ng kê truy vữliệ ố ấn và chương trình lấy d u x p h ng ữliệ ế ạtruy v n Tấ ất cả ữ liệu đều được lưu trữ d vào CSDL th ng kê t p trung ố ậ
Trang 24DNSStatistic HCM
THKEDB
Crystal Report Server
DNSStatistic HN
HCMStatistic
App
HCMRanking App
HNStatistic App HNRanking
App
Website thống kê
Hình 9 Mô hình ho ạt độ ng c a h ng th ng kê t p trung ủ ệ thố ố ậ
Sau khi đã có dữ ệ li u th ng kê và x p h ng truy v n, h th ng t o báo cáo s ố ế ạ ấ ệ ố ạ ẽ
k t nế ối đến CSDL th ng kê t p trung, l y d u v và t ng t o các báo cáo theo ố ậ ấ ữliệ ề ự độ ạ
định k ỳ đã thiế ật l p s n Trên website th ng kê t p trung: ẵ ố ậ
- Hiển th ị các báo cáo đã tạ ự động theo địo t nh k t ch n (ngày, tu n, tháng, ỳ ự ọ ầnăm): hỗ ợ ể tr hi n th ịcác báo cáo đã tạ ự ếo tr c ti p trên website ho c ki t xu t ặ ế ấthành các file theo m t s ộ ố định d ng thông dạ ụng như pdf, excel, word, xml …
s d ng các công ngh ử ụ ệtích hợ ẵ ủp s n c a crystal report viewer 2011
- Ngoài ra, hi n th các s u thể ị ố liệ ống kê động trên website theo kho ng thả ời gian t ựchọn
1.2.3 Các ạ h n ch c a h ế ủ ệ thống hiệ ạ n t i
Có th y d u log truy v n trên h ng DNS qu c gia có cể thấ ữ liệ ấ ệ thố ố ấu trúc đơn
giản nhưng tốc độ tăng trưởng nhanh và kích thướ ớ Để đảc l n m b o kh ả ả năng lưu trữ, cũng như thời gian x ử lý để đưa ra màn hình giám sát và kết xu t báo cáo th ng ấ ố
kê, h ng hi n t không t ệthố ệ ại thể ổ chức lưu trữ tương ứng m b n ghi log thành mỗi ả ột dòng trong CSDL quan h Tệ hay vì đó hệ ng s ng kê v i t n su t l y m u là thố ẽthố ớ ầ ấ ấ ẫ
05 phút/l n ầ theo 05 tiêu chí là k t h p giế ợ ữa các trường thông tin: máy ch DNS và ủđuôi tên miền, máy ch DNS và lo i b n ghi, máy ch DNS và lo i truy v n, ủ ạ ả ủ ạ ấ đuôi tên
Trang 25miền và lo i b n ghi, ạ ả đuôi tên miền và lo i truy v n ạ ấ Hơn thế ữ n a, các trư ng thông ờtin được th ng kê ố cũng giới h n theo mạ ột số giá tr ị cơ bản và được định nghĩa sẵ đển
h n ch s ng b n ghi phát sinh trong m i 05 phút, c ạ ế ố lượ ả ỗ ụthể:
- Thông tin lo i b n ghi: ạ ả chỉ thống kê các truy v n có ấ loại b n ghi ả là A, AAAA,
MX, SOA, PTR, NS, các i b n ghi còn l i tính là giá tr khác loạ ả ạ ị
- Thông tin đuôi tên miền: ch ỉthống kê theo các đuôi là “ ”.vn và c p 2 vn ấ “ ”dùng chung và m t s ộ ố đuôi tên miền GTLD ph bi n ổ ế như com, net, org, info, edu, biz Các đuôi tên miền còn lại được tính là giá tr khác ị
- Thông tin v i truy v n ch tính theo 04 loề loạ ấ ỉ ại: đệ quy, đệ quy m r ng, ở ộkhông đệ quy và không đệ quy m r ng Các thông tin khác v i truy vở ộ ềloạ ấn như là truy vấn DNSSEC hay không, giao th c s dứ ử ụng để truy v n (TCP ấhay UDP) không được th ng kê ố
- Thông tin về máy ch ủDNS: chỉ ỗ trợ địa chỉ h IPv4 c a các máy ch ủ ủDNS.Như vậy có th th y ể ấ qua cơ chế hoạt động như trên thì hệ ố th ng hi n t i s ệ ạ ẽ có
- Chưa hỗ giám sát d u trong các kho ng th i gian ltrợ ữliệ ả ờ ớn hơn (02 ngày,
1 tuần, 1 tháng) cũng như thống kê các d u trong lữliệ ịch sử ới tầ v n suất lấy
mẫu tương ứ ng với khoảng th i gian lờ ựa chọn
- Thông tin v i gian truy v n s b thay th b ng th i gian l y m u d n tềthờ ấ ẽ ị ế ằ ờ ấ ẫ ẫ ới các vi c giám sát và th ng kê s u ch có tính chính xác ệ ố ốliệ ỉ tương đối Trong
m t s ộ ố trường h p, do quá trình thu th p log trên mợ ậ ột cụm máy ch b gián ủ ịđoạn s làm cho s ẽ ốliệu báo cáo trên máy ch ủ đó sẽ ị b m t trong kho ng thấ ả ời gian gián đoạn và tăng cao đột bi n sau thế ời gian đó và tạo ra 02 điểm b t ấthường trên h th ng Vi c c p nh t s li u là không th c hi n ệ ố ệ ậ ậ ố ệ ự ệ được do đã chốt theo khoảng th gian l y m u ời ấ ẫ
- Lo i b r t nhi u thông tin trích xuạ ỏ ấ ề ất đượ ừ ệc t vi c thu th p và phân tích d ậ ữliệu log truy v n DNS Các tiêu chí th ng kê và giám sát b h n ch ấ ố ị ạ ế cũng như khó mở ộ r ng và không th b sung trên t p d liể ổ ậ ữ ệu đã thu thập được
Trang 26- H n ch giá tr cạ ế ị ủa các thông tin được th ng ố kê và giám sát Cũng giống như
đố ới v i các tiêu chí giám sát, vi c b sung giá tr c a các thông tin trên t p ệ ổ ị ủ ậ
d ữ liệu đã thu thập được là không th c hiể thự ện được, mà ch áp d ng bỉ ụ ắt
qu n lý và v n hành h ng máy ch DNS qu c gia, r t nhi u nhu c u phát sinh ả ậ ệ thố ủ ố ấ ề ầtrong th c t ự ế chưa thể hai thác đượ ừ chức năng củ ệ thố k c t a h ng hi n t iệ ạ , trong đó điển hình là m t s tình huộ ố ống như sau:
- H phát hi n ngu n t n công DNS Flood vào h ỗ trợ ệ ồ ấ ệ thố ng DNS Qu ố c gia: Năm 2011, có một cu c t n công t ộ ấ ừchối d ch v l n nh m vào h ị ụ ớ ằ ệthống DNS Qu c gia (DNS Flood Attack) nhố ằm gây gián đoạn cho h ệ thống Internet tại Vi t Nam Trên h th ng giám sát log truy v n có phát hiệ ệ ố ấ ện lưu lượng truy vấn tăng độ ết bi n, tuy nhiên không th h ể ỗtrợ để tìm ra nguồn địa chỉ IP tấn công để ngăn chặn Nguyên nhân do hình th c t n công DNS ứ ấFlood t các hacker Trung Qu c s d ng m ng máy tính ma (Botnet) v i s ừ ố ử ụ ạ ớ ốlượng l n các máy tính b ịđiềớ u khiển nhưng mỗi máy tính này ch t o ra mỉ ạ ột lượng truy v n v a phấ ừ ải và do đó nằm ngoài danh sách các địa ch IP truy ỉ
v n nhi u nh t c a h ng giám sát hi n t i có th phát hiấ ề ấ ủ ệthố ệ ạ ể ện được Chính
vì v y, các qu n tr h ậ ả ị ệ thống DNS đã mấ ất r t nhi u thề ời gian để c hithự ện phân tích th công file log truy v n b ng các câu l nh Shell Script trên Linux, ủ ấ ằ ệ
k t h p v i tìm ki m thông tin v khu vế ợ ớ ế ề ực địa lý c a a ch ủ đị ỉkhả nghi để xác
định ngu n và cách th c t n công t ồ ứ ấ ừ đó mới đưa ra được các biện pháp đểngăn chặn Điều này d n tẫ ới năng lực đáp ứng c a h th ng DNS Qu c gia ủ ệ ố ố
b suy gi m mà không có hình thị ả ức xử lý k p th ị ời
- H cung c p ngu n t n công DDOS vào các tên mi ỗ trợ ấ ồ ấ ền “.vn”: trong công tác ứng c u s c an toàn an ninh m ng, VNNIC nhi u l n nhứ ự ố ạ ề ầ ận được các yêu c u cung cầ ấp danh sách địa ch IP (ngu n) truy v n nhi u nh t tỉ ồ ấ ề ấ ới
m t s tên miộ ố ền “.vn” đang bị ấ t n công DDOS (ví d ụcuộ ấc t n công DDOS vào trang ch báo VietnamNet ủ – vietnamnet.vn năm 2011) Tuy nhiên hệthống giám sát hi n t i không h ệ ạ ỗtrợ tiêu chí giám sát này nên vi c cung cệ ấp
Trang 27thông tin là không k p thị ời để ỗ h trợ chủ thể tên mi n ti n hành các biề ế ện pháp ngăn chặn phù h p ợ
1.3 Mục tiêu và định hướng giải pháp
Các h n ch c a h ng hi n t i có th ạ ế ủ ệ thố ệ ạ ể được kh c ph c n u t ắ ụ ế ổchức thu thập
và lưu trữ được các thông tin trong t ng bừ ản ghi log cũng như đảm b o ả năng lực của
h ng và thệ thố ời gian để truy v n d u và tính toán, x lý d u ấ ữliệ ử ữliệ để đưa ra màn hình giám sát và ki t xu t các báo cáo th ng kê Tuy nhiên, v i công ngh ế ấ ố ớ ệ đang áp
d ng trên h ng hi n t i, viụ ệthố ệ ạ ệc nâng c p m r ng h ấ ở ộ ệthống để đạt được các m c tiêu ụtrên là hoàn toàn không kh thi do: ả
- D ữliệu log được thu th p và phân tích t p trung trên 01 máy ch syslog vậ ậ ủ ới
cơ chế chưa ỗ ợ h tr thực hi n thu thệ ập và phân tích song song Điều này d n ẫ
t i kh ớ ả năng ở ộm r ng theo chi u ngang ng cách b sung thêm máy ch ề (bằ ổ ủ
để thực hi n các chệ ức năng tương tự) và d phòng l i (failover) cho h ự ỗ ệthống thu th p và x lý log r t khó th c hi n; ậ ử ấ ự ệ Việc m r ng h ng theo chiở ộ ệ thố ều
d c (bọ ằng cách tăng hiệu năng của máy ch phân tích log) s b gi i h n và ủ ẽ ị ớ ạchi phí bỏ ra là r t lớn; ấ
- Giớ ại h n kh ả năng lưu trữ và i gian truy xu t d u do s dthờ ấ ữliệ ử ụng cơ chếlưu trữ ậ t p trung b ng CSDL quan h V i các ngu n d li u ít ràng bu c ằ ệ ớ ồ ữ ệ ộnhưng kích thướ ớc l n và tốc độ tăng trưởng nhanh như dữ ệ li u log, s d ng ử ụ
mô hình lưu trữ ậ t p trung b ng CSDL quan h không nh ng không t n d ng ằ ệ ữ ậ ụđược th m nh c a lo i CSDL này mà còn gây ra th t nút c chai, không ể ạ ủ ạ ắ ổ
đảm bảo được năng lực tính toán cũng như tốc độ truy xu t d li u do: ấ ữ ệ
o Các máy ch ủ CSDL không đủ dung lượng để lưu trữ toàn b d u ộ ữliệ
h ệthống lên đến hàng trăm Terrabyte trên local Điề u này m c dù có ặ
thể kh c ph c bắ ụ ằng cách lưu trữ ữ d ệli u trên h ống lưu trữ ậệ th t p trung, tuy nhiên để ế ti n hành x lý m t câu l nh truy v n thì máy ch ử ộ ệ ấ ủCSDL v n phẫ ải đọc d u t h ữliệ ừ ệ thống lưu trữ ậ t p trung v i k t nớ ế ối
m ng có tạ ốc độ là gi i h n Gi s v i kớ ạ ả ử ớ ích thước d u là 100TB, ữliệvới băng thông của cáp quang k t n i t máy ch ế ố ừ ủ CSDL đến h ệthống lưu trữ ậ t p trung là 25,600 MBps (công ngh kênh cáp quang m i ệ ớ
nh - 128GFC), thất ời gian để đọ c toàn b d u v máy ch CSDL ộ ữliệ ề ủ
s m t: 100 * 10ẽ ấ 6 25,600 ~ 3900s / > 1h (chưa tính thời gian đọc d ữ
liệ ừ ổ ứu t c ng trong h ống SAN, checksum); ệth
Trang 28o Ngoài ra d ữliệu đọc t h ừ ệthống lưu trữ t p trung v c n phậ ề ầ ải lưu vào
b nh c a máy ch ộ ớ ủ ủ CSDL để ử lý, do đó yêu cầ x u b nh c a máy ộ ớ ủchủ CSDL cũng phải rấ ớt l n, yêu c u chi phí c c k ầ ự ỳ cao để ở ộ m r ng năng lực h th ng ệ ố
- Giớ ạ ề ốc độ ửi h n v t x lý d liữ ệu để đưa ra màn hình giám sát cũng như kiết
xuất báo cáo: do hệ thố ng giám sát và th ng kê log truy vố ấn được triển khai trên các máy ch c l p v i máy ch ủ độ ậ ớ ủ CSDL để đảm bảo năng lực cho máy chủ CSDL, nên để ạ t o ra các báo cáo th ng kê hay tính toán s ố ốliệu để ển hithị ra màn hình giám sát thì các máy ch ng d ng ph i th c hi n truy v n ủ ứ ụ ả ự ệ ấ
d u trên máy ch CSDL D u k t qu truy v n tr v ữ liệ ủ ữ liệ ế ả ấ ả ề khi đó sẽ ị b chậm do tốc độ đường truy n mạng Ngoài ra v i k t qu truy v n t CSDL, ề ớ ế ả ấ ừmáy ch ủ ứng d ng phụ ải lưu trữ vào b nh ộ ớ và đọc tu n t tính toán và x ầ ự để ử
lý đưa ra báo cáo, do đó với nh ng k t qu truy vữ ế ả ấn có kích thướ ớc l n còn gây ra kh ả năng tràn bộ nh trên máy ch ng d ng này.ớ ủ ứ ụ
Read & write Return data
Vì vậy để đạt được m c tiêu trên thì nhi m v t ra là ph i nghiên c u và áp ụ ệ ụ đặ ả ứ
d ng gi i pháp mụ ả ới để có thể lưu trữ đượ c toàn b các thông tin trích xuộ ất đượ ừc t ngu n d u log truy v n DNS và truy xu t, x lý các d ồ ữliệ ấ ấ ử ữliệu đã đượ lưu trữ ới c v
hiệu năng cao để đả m b o thả ời gian tính toán đưa ra màn hình giám sát và kiết xuất các báo cáo thống kê C th , gi i pháp m i cầụ ể ả ớ n ph i đáp ng các tiêu chí sau: ả ứ
Trang 29- Thu th p và phân tích d u log có th c hi n trên nhi u máy ch mậ ữliệ ểthự ệ ề ủ ột cách song song v i k t qu ớ ế ả phân tích đượ ổc t chức lưu trữ để có th t ng ể ổ
hợp được và đưa ra báo cáo thống kê, giám sát
- Lưu trữ ữ d u phân tán, có kh liệ ả năng ựd phòng và có th m r ng h ng ể ở ộ ệthốtheo chiều ngang để tăng dung lượng lưu trữ
- Truy c p d ậ ữliệu song song và phân tán để ả gi m th i gian truy xuờ ất dữ liệ u
- X lý d ử ữliệu song song, đặc bi t là h n ch c truy n t i d u qua kệ ạ ếviệ ề ả ữliệ ết
n i m ng t máy ch ố ạ ừ ủ lưu trữ đế n máy ch ng dủ ứ ụng Trong trường h p lý ợtưởng, vi c x lý d li u s ti n hành trên máy ch ệ ử ữ ệ ẽ ế ủ lưu trữ ữ ệ d li u và có th ểthực hiện độ ập và song song c l
V viới ệc đảm bảo các thông tin được lưu trữ và năng lự ửc x lý, tính toán, h ệ
thống giám sát và th ng kê d ệu log truy v n DNS d ki n s ố ữli ấ ự ế ẽcó các chức năng và tính năng như sau:
- Giám s theo th i gian át ờ thực ho c g n th i gian th c (Near Realtime) ặ ầ ờ ự lưu lượng truy v n trên h ấ ệthống DNS qu c gia bao gố ồm: lưu lượng t ng th trên ổ ểtoàn b h ộ ệ thống, lưu lượng trên t ng c m máy ừ ụ chủ DNS và lưu lượng trên các máy ch ủDNS
- Cung c p danh sách các tên mi n ấ ề được truy v n nhi u nh tấ ề ấ , các địa ch IP ỉtruy v n vào h ng nhi u nh t, và không h n ch s ấ ệ thố ề ấ ạ ế ố lượng tên mi n và ề
địa ch IP trong danh sách trên ỉ
- Thống kê theo th i gian truy v n các thông tin v ờ ấ ề:
Trang 30Chương 2 : TỔNG QUAN VỀ CƠ SỞ LÝ THUYẾT VÀ CÔNG
v cho giám sát vụ ận hành và đảm b o an toàn an ninh cho các h ngả ệthố Dưới đây là
một số các nghiên c u nứ ổi bậ ởt trên th i: ếgiớ
2.1.1.1 Phân tích và giám sát lưu lượng mạng dựa trên phân tích dữ liệu lớn
Tình hình m ng Internet ạ đã trở nên càng ngày càng ph c t p trong ứ ạ nhữ năm ng qua d n t i vi c thi t k các công c và ph n m m có kh ẫ ớ ệ ế ế ụ ầ ề ả năng mở ộng để r phân tích
và giám sát lưu lượng m ng (Network Traffic Monitoring and Analysis - NTMA) tr ạ ởnên quan tr ng ọ hơn và khó khăn hơn Các ứng d ng ụ phân tích và giám sát lưu lượng
m ng quan trạ ọng như phát hiện các b t ấ thường, các cuộc t n công m ng và xâm nh p ấ ạ ậ
m ng, yêu cạ ầu cơ chế phân tích tr c tuy n v i hàng nghìn các s ki n mự ế ớ ự ệ ỗi giây, cũng như các kỹ thuậ ệt hi u qu phân tích ngo i tuy n (offline) ngu n d u l ch s ả để ạ ế ồ ữ liệ ị ử
kh ng l C n n t ng phân tích d u l n (Big data Analysis Frameworks - ổ ồ ác ề ả ữ liệ ớBDAFs) phát tri n đã ể tương đối m nh mạ ẽ, nhưng việc áp d ng các n n t ng và k ụ ề ả ỹthuật phân tích d ệ ớữ li u l n cho lĩnh vự phân tích và giám sát lưu lược ng m ng v n ạ ẫchưa đượ địc nh hình ràng và churõ ẩn hóa D án nghiên c u Big-DAMA [5], nh m ự ứ ằ
gi i quy t nhu c u c p thi này b ng cách phát tri n và chu n hóa n n t ng và ả ế ầ ấ ết ằ ể ẩ các ề ả
k thuỹ ật để có kh ảnăng phân tích trực tuy n lu ng d ế ồ ữliệu lưu lượng mạng cũng như
b d ộ ữliệu lưu lượng truy c p l n ngo i tuy n ậ ớ ạ ế
K t qu c a d án Big-ế ả ủ ự DAMA có tác động tr c ti p và ự ế ứng d ng trong ụ lĩnh vực phân tích và giám sát lưu lượng m ng, bao g m l i ích cho các nhà khai thác m ng ạ ồ ợ ạ
và các hãng cung c p công ngh giám sát m ng Ngoài ra các kấ ệ ạ ỹ thuật được phát tri n ểtrong ph m vi d ạ ự án cũng như việc áp d ng n n t ng phân tích d u l n cho các ụ ề ả ữliệ ớ
vấn đề phân tích d u tr c tuyữliệ ự ến cũng sẽ mang l nhi u lại ề ợi ích cho các lĩnh vực khác, nơi phát sinh các vấn đề phân tích d ữliệu tương tự, bao g m vi c giám sát trồ ệ ực tuy n các thi t b giao ti p máy v i máy (M2M), trích ch n tri c c tuy n t d ế ế ị ế ớ ọ thứ trự ế ừ ữliệ ớn liên quan đếu l n thành ph thông minh (smart city), x ố ửlý luồng d u kh ng ữliệ ổ
l ồ đượ ạc t o ra b i Internet c a v n v t (IOT) v i hàng nghìn t ở ủ ạ ậ ớ ỷthiế ị đượ ế ối t b c k t n
v i Internet và nhi u ớ ề lĩnh vự ức ng d ng khác n a Chi tiụ ữ ết v d án Big-DAMA nề ự ằm trên website https://bigdama.ait.ac.at
Trang 312.1.1.2 Phân tích log dữ liệu lớn để đảm bảo an toàn an ninh
Gần đây, các cuộ ấc t n công m ng có ch ạ ủ đích đã ngày càng trở nên nghiêm trọng và đã trở thành mối đe dọa v an ninh qu c gia V i công ngh c a t i ph m ề ố ớ ệ ủ ộ ạ
m ng hi n t i, các cu c t n công không ch ạ ệ ạ ộ ấ ỉ xuất phát t m ng bên ngoài c a các h ừ ạ ủ ệthống CNTT mà còn xu t phát ngay t trong m ng n i b bên trong Tuy nhiên, ấ ừ ạ ộ ộ các
gi i pháp phát hi n và ch ng t n công m ng hi n t i ả ệ ố ấ ạ ệ ạ như Firewall, IDS/IPS, đang
b gi i h n ch phát hiị ớ ạ ỉ ện và ngăn chặn được các cuộc ất n công t bên ngoài do s ừ ử
dụng phương pháp phát hiệ ấn t n công mạng để theo dõi lưu lượng truy c p t bên ậ ừngoài vào bên trong Do đó ệ vi c áp d ng công ngh Big data vào thu th p, phân tích ụ ệ ậcác nh t ký h ng và thi t b CNTT tr ng yậ ệ thố ế ị ọ ếu [4] giúp tăng cường hơn cho việc
đảm b o an toàn an ninh cho h th ng ả ệ ố
D ữliệu đượ ạc t o ra b i các thi t b , h ở ế ị ệ thống CNTT, đặc bi t là các h ng ệ ệthố
đảm b o an toàn an ninh là r t lả ấ ớn và đa dạng, do đó yêu cầu công ngh thu th p và ệ ậ
x lý ph i có hiử ả ệu năng, tính ổn định và sẵn sàng cao cũng như hỗ cho c các d trợ ả ữ
liệu có c u trúc và phi c u trúc Mô hình thu th p d ệu dưới đây được đề ất đểấ ấ ậ ữ li xu
đảm b o các yêu cả ầu đó Mô hình này ỗ ợh tr hai phương pháp, ử ụs d ng agent và không s d ng agent ử ụ đểthu thập thông tin
Để phân tích ngu n d li u kh ng l này theo th i gian thồ ữ ệ ổ ồ ờ ực, Hadoop đượ ực l a
ch n là n n tọ ề ảng để phân tích th ng kê d ố ữliệu do ti t ki m v chi phí, phát tri n nhanh ế ệ ề ể
và linh hoạt, tương thích, độ tin c y và ậ ổn định d a trên cự ộng đồng ngu n m m nh ồ ở ạ
Trang 32m Hadoop ẽ cũng là gi i pháp hi u qu liên k t v i h ng ki m soát an ninh ả ệ ả để ế ớ ệ thố ểtích hợp b ng cách h tr NoSQLđ phân tích d ệằ ỗ ợ ể ữli u và linh hoạt mở ộ r ng các ch c ứnăng thống kê và thu t toán khai phá d li u cho d li u l n ậ ữ ệ ữ ệ ớ
V i các mô hình và n n tớ ề ảng được lựa chọn áp d ng, h ụ ệthống đã cung cấp kh ảnăng phân tích nguồn d u l n sinh ra b i các thi t b và h ng CNTT tr ng yữliệ ớ ở ế ị ệthố ọ ếu
t ừ đó đưa ra các hình thức trực quan và cảnh b o v vả ề ấn đềan toàn an ninh một cách đẩy đủ nh t mà v n không th c hiấ ố ự ện được trước đây do hạn ch b i các công ngh ế ở ệtruy n th ng ề ố
2.1.1.3 Công cụ trực quan và giám sát các vấn đề cho hệ thống DNS của RIPE Atlas
C m nh n c a ả ậ ủ người dùng khi s d ng d ch v ử ụ ị ụInternet phụ thuộc ộm t ph n v ầ ềtính kh d ng và tả ụ ốc độ ủ c a H ệthống tên mi (DNS) Các ền đơn vị ậ v n hành h ệthống DNS liên t c c n phụ ầ ải xác định và gi i quy các vả ết ấn đề có th nể ằm ở phía người dùng cu i, máy ch nh danh hay k t nố ủ đị ế ối ở ữ gi a DNSMON [1] là m d ch v ột ị ụ để
Trang 33đo lường và so sánh tính kh d ng và kh ả ụ ả năng đáp ứng c a các máy ch tên ủ ủ miền quan tr ng, ọ được tr c quan vự ới các phép đo khác nhau trên dữ u liệ được thu th p bậ ởi các điểm đo của RIPE Atlas trên toàn th gi i DNSMON cung c p ch ế ớ ấ ế độ xem tương tác cho cả ị l ch s và g n th i gian th c, ởử ầ ờ ự các c p chi ti t khác nhau ấ ế
DNSMON s d ng ngu n d ử ụ ồ ữ liệu ừ ạng lưới đo lườt m ng c a RIPE Atlas, c ủ ụthể hơn là ế k t qu ả đo từ các điểm đo của RIPE Atlas T p h p các điậ ợ ểm đo được s ử
d ng trong DNSMON ụ được chọn để có thể bao ph tủ ối đa các ạm ng và phạm vi địa
lý Hi n tệ ạ các điểm đo đã có ặi, m ở ầ ết h u h t các vùng lãnh th và các châu l cổ ụ , đặc
bi t là châu Âu và Hoa K Tệ ỳ ại các điểm đo sẽ tiến hành th c hi n các ự ệ phép đo tương
t nhau v cùng m t mự ới ộ ục tiêu và định k báo cáo k t qu l i cho ỳ ế ả ạ Cơ sở ạ ầng ủ h t c a RIPE Atlas Nh ng k t qu ữ ế ả này được chuy n ti p và được lưu trữ trong cơ sởể ế d u ữliệApache HBase đặt trên một cụm Apache Hadoop S k t h p này mang lự ế ợ ại s c mứ ạnh tính toán c n thi t cho vi c x lý, t ng h p và phân tích r t nhi u d ầ ế ệ ử ổ ợ ấ ề ữliệu, cũng như tính kh d ng cao và ả ụ khả năng đáp ứng t t các yêu c u truy c p d u c a khách ố ầ ậ ữ liệ ủhàng
2.1.1.4 N âng cao tính ổn định và mức độ an toàn cho hệ thống DNS
Trong các workshop t i k hạ ỳ ọp thường niên c a T ủ ổ chức Qu n lý tên mi n và ả ề
địa ch Internet qu c t (ICANN), đã có m t s giỉ ố ế ộ ố ải pháp được chia s và gi i thi u ẻ ớ ệ
nh m mằ ục đích để khai thác thông tin, phát hi n tệ ấn công và đảm b o an toàn cho h ả ệthống máy ch tên mi n ủ ề
M t trong s ộ ốgiải pháp đó là hệ thống ENTRADA (vi t t t c a ENhanced op-ế ắ ủ T
Level Domain esillence through dvanced R A Data Analysis) [2] c a t ủ ổchức qu n lý ảtên mi n c p cao mã qu c gia Hà Lan (.nl) H ề ấ ố ệ thống được xây d ng d a trên n n ự ự ềtảng Big Data Hadoop để lưu trữ ử, x lý và phân tích các gói tin trao đổi trên h ng ệthốmáy ch k ủ ỹthuật dịch vụ, trong đó bao gồm c h ng máy ch tên mi n ả ệthố ủ ề
Theo chia s n t chuyên gia c a SIDN, h ẻ đế ừ ủ ệthống ENTRADA đượ ạc t o ra với mục đích để nâng cao tính ổn định và mức độ an toàn cho h ng máy ch tên mi n ệthố ủ ề.nl dựa trên định hướng d ữliệu Ở giai đoạn trước khi xây d ng h ự ệthống ENTRADA, SIDN cũng vấp ph i vả ấn đề khó khăn do hệ ống cũ củ th a h làm vi c không t t v i ọ ệ ố ớ
t p d u l n và gi i h n v kh ậ ữliệ ớ ớ ạ ề ả năng phân tích Trung bình hàng ngày, h ng ệthốmáy ch tên mi n qu c gia nl ti p nh n kho ng 1,3 t truy vủ ề ố ế ậ ả ỷ ấn và dung lượng của
d u truy v n kho ng 300GB V i yêu c u h ng m i có hiữliệ ấ ả ớ ầ ệthố ớ ệu năng cao; có khảnăng co giãn và mở ộng; năng lực lưu trữ ữ ệu DNS đáp ứ r d li ng t i thi u trong m t ố ể ộ
Trang 34năm; hỗ ợ tr truy v n d ấ ữ liệu qua SQL; và đặc bi t lệ à chi phí đầu tư không quá lớn, SIDN đã lựa ch n áp d ng n n t ng Apache Hadoop v i các thành ph n: ọ ụ ề ả ớ ầ
- HDFS: lưu trữ ữ d u; liệ
- Hive: kho dữ liệ u;
- Impala + Parquet: công cụ truy v n d u, h ấ ữliệ ỗ trợ SQL;
C hình t ng quan c h ng ENTRADA ụthể mô ổ ủa ệ thố như sau:
V i s h c a công ngh Big Data Hadoop, h ớ ự ỗtrợ ủ ệ ệthống đã cung cấp được các chức năng để tăng cường mức độ an toàn và ổn định cho máy ch tên miủ ền nl như:
trực quan dữ ệli u truy v n DNS, th ng kê s ệu truy v n, h v n hành h ng, ấ ố ốli ấ ỗtrợ ậ ệthốphát hi n gi m o (phising) và lây nhi m botnet trong th i gian g n th H ng ệ ả ạ ễ ờ ầ ực ệ thốENTRADA đã chính thức được tri n khai t cuể ừ ối năm 2014, được chia s trên c ng ẻ ộ
đồng mã ngu n m t thánồ ở ừ g 1 năm 2016 và đang được 06 cơ quan quản lý tên mi n ề
áp dụng
2.1.1.5 Một số nghiên cứu khác
Bên cạnh các cơ quan quản lý tài nguyên Internet và tên mi n mã cề ấp cao, lĩnh
v c nghiên c u v d u truy vự ứ ề ữliệ ấn log DNS cũng được các trường đạ ọ ấi h c r t quan tâm Việc giám sát d ữ ệu DNS đượli c ch ra là mỉ ột phương pháp hữu hiệu để phát
Trang 35hi n các bệ ất thường trong lưu lượng Internet Ngoài ra, ngu n d u log DNS nồ ữliệ ếu được khai thác hi u qu còn là nguệ ả ồn thông tin quý giá để xây d ng các chính sách ựquản lý và xác định chiến lược kinh doanh T i Hàn Qu theo nghiên c u cạ ốc, ứ ủa trường
đạ ọi h c Anyang và thông tin t ừ cơ quan quản lý Internet và An toàn m ng Hàn Qu c ạ ố
- KISA (Korea Internet and Security Agency), h ng máy ch tên mi n qu c gia ệthố ủ ề ố.KR theo thống kê năm 2013, trung bình hàng ngày ti p nh n 1,5 tế ậ ỷ truy v n v i kích ấ ớthước d li u log truy v n kho ng 300GB [3] Vữ ệ ấ ả ới kích thước d li u r t l n và b ữ ệ ấ ớ ổsung áp d ng các gi i thu t h c máy kinh doanh thông minh trên ngu n d u thu ụ ả ậ ọ , ồ ữliệ
thập đượ để ỗc h ợtr ra quyết định cho xây d ng chính sách và v n hành h ống, ự ậ ệ thnhóm nghiên cứu đã nhận định Big Data Hadoop là giải pháp hàng đầu
2.1.2 Tình hình nghiên c u và ứ ứ ng dụng trong nướ c
T i Vi t Namạ ệ , lĩnh vực phân tích log h để ỗtrợ giám sát, vận hành và đả ảm o an toàn an ninh cho các h ng CNTT ệthố cũng đang được quan tâm và ti n hành nghiên ế
c uứ , đặc biệt là trong lĩnh vự ảc đ m b o an toàn an ninh m ng ả ạ
T i Trung tâm ng c u kh n c p máy tính Vi t Nam (VnCert) ạ ứ ứ ẩ ấ ệ đã triển khai h ệ
thống giám sát an toàn m ng nh m phát hi n k p th i các t n công mạ ằ ệ ị ờ ấ ạng, các điểm
y u, l h ng b o m t c a các thi t b , ế ỗ ổ ả ậ ủ ế ị ứng d ng và d ch v trong h ng ng thụ ị ụ ệthố Đồ ời phát hi n s bùng n virus trong h ng m ng, các máy tính b nhiệ ự ổ ệthố ạ ị ễm mã độc, các máy tính b nghi ng là thành viên c a m ng máy tính ma (botnet) H ng này ị ờ ủ ạ ệthố tiến hành thu thập, lưu trữ, và phân tích và x các nhửlý ật ký để ể bi u diễn và đưa ra cảnh báo cho người dùng, và được xây d ng d a trên s n ph m NST Network Interface ự ự ả ẩBandwidth Monitor (http://networksecuritytoolkit.org/nst/index.html)
M t s n ph m giám sát và c nh báo an toàn an ninh dộ ả ẩ ả ựa trên phân tích log cũng
r t ph bi n t i Vi t Nam là gi i pháp giám sát Website t p trung cấ ổ ế ạ ệ ả ậ ủa Công ty c ph n ổ ầCông ngh An ninh không gian m ng Vi t Nam (ệ ạ ệ http://www.vncs.vn) Gi i pháp ảVNCS Web monitoring d a trên n n t ng Splunk, cho phép giám sát nhi u website ự ề ả ề
đồng th i VNCS Web monitoring thu th p web logs t các máy ch c n giám sát, ờ ậ ừ ủ ầsau đó chuyển v thi t b x ề ế ị ử lý trung tâm để ử x lý, phân tích Công c này ụ cho phép
qu n lý log t p trung, h phân tích log th ả ậ ỗtrợ ủ công để tìm s c , h phát hi n các ự ố ỗtrợ ệ
d ng tạ ấn công thay đổi giao di n, t n công chèn mã SQL và XSS Hi n t i VNCS ệ ấ ệ ạWeb Monitoring có 3 dòng s n ph m có kh ả ẩ ả năng xử lý:
- 500 Log trong 1 giây (500 Eps)
- 1000 Log trên 1 giây (1000 Eps)
- Hơn 1000 Log trên 1 giây 1000 Eps) (>
Trang 36Đố ới v i các h th ng máy ch DNS, ngoài h ng DNS Quệ ố ủ ệthố ốc gia được ậv n hành b i VNNIC, các nhà cung c p d ch v Internet, d ch v ở ấ ị ụ ị ụ Hosting và Nhà đăng
ký tên miền đã và đang thiế ật l p, duy trì các máy ch ủ DNS Hosting và Caching để
ph c v phân gi i các tên mi n VN và tên mi n qu c t ụ ụ ả ề ề ố ế cho người dùng Các máy chủ DNS này hàng ngày cũng tiếp nh n m t s lư ng truy v n r t l n, tuy nhiên cho ậ ộ ố ợ ấ ấ ớ
đến thời điểm hi n tệ ại chưa có giải pháp nào th c s hi u qu ự ự ệ ả được áp dụng để khai thác các thông tin từ ngu n d ệồ ữli u log truy vấn DNS đến các máy ch này ủ
Splunk [14] là m t ph n m m giám sát h ộ ầ ề ệ thống (đặc bi t cho các h ng ệ ệ thố
m ng) d a trên s c mạ ự ứ ạnh c a vi c phân tích Log Splunk th c hi n các công vi c tìm ủ ệ ự ệ ệ
ki m, phân tích d ế ữliệu logs được sinh ra t các ng d ng, các h ng và các thiừ ứ ụ ệthố ết
b h t ng m ng, hi n th d u qua màn hình ị ạ ầ ạ ể ị ữliệ giám sát được tích hợp
Sau khi xác định các ngu n d liồ ữ ệu được chuyển đến, Splunk Indexer sẽ đánh ỉch
Trang 37Một số tính năng ổi bậ ủ n t c a Splunk:
- Hoạt độ ng t t trên nhi u h đi u hành ố ề ệ ề : Splunk có th ểhoạt động trên h u ầ
h t các h ế ệ điều hành đang sử d ng hi n tụ ệ ại như Windown, *nix, MacOXS…
- Các đị nh d ng log có th h tr ạ ể ỗ ợ: Spunk h hỗtrợ ầu như tấ ảt c các lo i log ạ
c a h ủ ệ thống, thi t b h t ng m ng, ph n m m, Firewall, IDS/IPS, Log ế ị ạ ầ ạ ầ ềEvent, Register của các máy trạm …
- Các hình th c thu th p d u ứ ậ ữ liệ : Splunk có th c hi n vi c thu th p log ểthự ệ ệ ậ
t rừ ất nhiều ngu n khác nhau: ồ
o T m t file hoừ ộ ặc thư mục (kể ả c file nén) trên server, qua các kết nối UDP, TCP
o T các Splunk Server khác trong mô hình Splunk phân tán ừ
o T ừcác Event Logs, Registry của Windows …
- T ng c p nh t d u nhanh và chính xác ự độ ậ ậ ữ liệ : Splunk c p nh t d u ậ ậ ữ liệliên tục khi có thay đổi trong th i gian th c Giúp cho vi c phát hi n và c nh ờ ự ệ ệ ảbáo trong th i gian thờ ực (theo thuật toán CRC)
- Đánh chỉ m c d li u (Index data) ụ ữ ệ : Splunk có th ể đánh chỉ ụ m c d u ữ liệ
v i m t khớ ộ ối lượng d u r t l n trong m t kho ng th i gian ng n Giúp ữliệ ấ ớ ộ ả ờ ắ
vi c tìm kiệ ếm diễn ra nhanh chóng và thu n ti n.s ậ ệ
- Tìm ki m thông tin (Search) ế : Splunk làm vi c r t t t v t p d u l n, ệ ấ ố ới ậ ữ liệ ớđược c p nh t liên t c Cung cậ ậ ụ ấp cơ chế tìm ki m v i ngôn ng ế ớ ữ “Splunk Language” được đánh giá là uyển chuy n, d s d ng bao g m các t khóa, ể ễ ử ụ ồ ừcác hàm và c u trúc tìm kiấ ếm giúp ngườ ử ụi s d ng có th truy xu t m i th , ể ấ ọ ứtheo r t nhiấ ều tiêu chí t t p d ệ ấừ ậ ữli u r ớn t l
- Giám sát và c nh báo ả : Splunk cung c p chấ o người dùng một cơ chế ả c nh báo d a trên vi c tìm kiự ệ ếm các thông tin do chính ngườ ử ụng đặi s d t ra Khi
có vấn đề liên quan t i h th ng phù h p vớ ệ ố ợ ới các tiêu chí mà người dùng đã
đặt ra thì h th ng s c nh báo ngay tệ ố ẽ ả ới người dùng (c nh b o tr c ti p qua ả ả ự ếgiao di n, ệ hoặc email)
- Hiể n th thông tin ị : Splunk cung c p mấ ột cơ chế ể hi n th r t tr c quan giúp ị ấ ựngườ ử ụi s d ng có th d dàng hình dung v tình tr ng c a h thể ễ ề ạ ủ ệ ống, đưa ra các đánh giá về ệ ố h th ng Splunk còn t ng k t xu t ra các báo cáo v i ừ độ ế ấ ớnhi u lo i nh d ng mề ạ đị ạ ột cách rất chuyên nghi p ệ
Trang 38- Phát tri n ể : Cũng cung cấp các API h ỗtrợ vi c t o các ệ ạ ứng d ng trên Splunk ụ
của người dùng M t s b ộ ố ộ API điển hình như Splunk SDK (Cung cấp các SDK trên n n t ng Python, Java, JS, PHP), Shep (Splunk Hadoop ề ảIntergration – Đây là sự k t h p gi a Splunk và Hadoop), Shuttl (Là m t s n ế ợ ữ ộ ả
ph m h viẩ ỗ trợ ệc sao lưu dữ liệ u trong Splunk), Splunkgit (Giúp b n hình ạdung d u tữliệ ốt hơn), Splunk power shell resource Kit (Bộ công c h ụ ỗ trợ
vi c m r ng và qu n lý h ng) ệ ở ộ ả ệthố
2.1.3.2 Elastic Stack
Công c mã ngu n m ELK Stack [15] ụ ồ ở (Elasticsearch – Logstash – Kibana),
hi n tệ ại đã đổi tên thành Elastic Stack, s dử ụng để phân tích th i gian thờ ực đối với các ngu n d u có cồ ữliệ ấu trúc (structured) cho đến không có c u trúc (unstructured) ấNhư tên gọi trước đây, bộ công c ELK bao g m 03 thành ph n: ụ ồ ầ
- Logstash: dùng để thu th p, x lý log và chuyậ ử ển vào lưu trữ trong Elastic Search
- Elasticsearch: thực hiện đánh chỉ ục, lưu trữ m và truy xuất dữ liệ u
- Kibana: là một công c Web, cung c p các giao diụ ấ ện để truy v n d u ấ ữ liệtrong Elasticsearch, t o ra các thành ph n hi n th d ạ ầ ể ị ữliệu (widget) như biểu
đồ ả, b ng, Các thành ph n hi n th d li u này có th ầ ể ị ữ ệ ể được nhóm v i nhau ớ
t o thành các dashboard s dạ ử ụng để giám sát, th ng kê d u ố ữliệ
Một số tính năng của Elastic Stack:
- Có kh ả năng thu thập và phân loại được nhi u lo i log: web log, system log, ề ạapplication log, device log, …
- Có kh ả năng xử lý và phân loại log như: windows event log, networking logs, firewall logs, …
Trang 39- Khả năng nhận log t các client thông qua các shipper là các beat platform ừ
ho c syslogng ặ
- Giám sát th i gian g n th c (RealTime - NRT): Elasticsearch là mờ ầ ự ột platform tìm ki m th i gian g n thế ờ ầ ực Có độ nh vài giây) k t trể ỏ (độ trễ ể ừthờ ểm index data đếi đi n khi nó có th ph c vụể ụ tìm ki m ế
- Có kh ả năng mở r ng t t: h ộ ố ỗtrợ triển khai theo mô hình Cluster Người dùng
có th ể triển khai h ệ thống ban đầu nh gỏ ọn, sau đó mở ộng năng lự r c h ệthống b ng viằ ệc tăng số lư ng node trong cluster Vi c thêm các node vào ợ ệElasticsearch cluster là tương đố ễi d dàng
- H ỗtrợ k t n i vế ố ới Bigdata (Hadoop): để lưu trữ và truy c p nhanh chóng các ậ
d ữliệu đã được index của ELK trong thời gian dài
- H tìm kiỗ trợ ếm toàn văn (Full-Text search): Do Elasticsearch được xây
d ng trên Apache Lucene là m t công ngh phân tích và tìm ki m Full-ự ộ ệ ế Text
r t m nh ấ ạ
2.1.3.3 Big Data Hadoop
Apache Hadoop [7] là m t framework cho phép x lý phân tán m t t p d u ộ ử ộ ậ ữliệ
l n qua c m (ớ ụ cluster) các máy tính b ng vi c s d ng mô hình lằ ệ ử ụ ập trình đơn giản
Nó được thi t k có th co giãn ế ế để ể thực hi n trên một đến hàng nghìn máy tính là nơi ệtính toán và lưu trữ c c b Mụ ộ ột điểm m i c a Apache Hadoop là thay vì thiớ ủ ết đặt HA
b ng ph n c ng thì bằ ầ ứ ản thân Hadoop được thi t k ế ế để phát hi n và qu n lý l i t i t ng ệ ả ỗ ạ ầ
ứng dụng, do đó nó sẽ đưa ra dịch v HA t i cụ ạ ụm các máy tính nơi có thể ả x y ra l ỗi.Apache Hadoop đượ ạc t o b i 2 thành ph n bao g m m t h th ng file phân tán ở ầ ồ ộ ệ ốHadoop Distributed Filesystem (HDFS) và một layer để tính toán theo mô hình x ửlý Map Reduce Hadoop là m t open source cho phép x lý d u theo lô và có kh ộ ử ữ liệ ảnăng xử lý kh i lư ng d li u c c l n ố ợ ữ ệ ự ớ
Hadoop s d ng m t cử ụ ộ ụm các server thông thường để lưu trữ, tính toán Việc tính toán trên Hadoop Distributed Filesystem (HDFS) được th c hiự ện m t cách song ộsong và trừu tượng v i các developer giúp h ớ ọ tránh được vi c l p trình m ng và x ệ ậ ạ ử
lý bài toán đồng b ộphức t p Không giạ ống như nhiều h ệthống phân tán khác, Hadoop cung c p vi c x ấ ệ ử lý logic trên nơi lưu dữ u mà không ph i l y d u t các máy liệ ả ấ ữliệ ừkhác giúp tăng hiệu năng một cách m nh m ạ ẽ
Bên c nh các thành phạ ần cơ bản trên, h ệ sinh thái Big Data Hadoop còn được tích h p thêm r t nhi u các thành phợ ấ ề ần khác để ỗ h tích h p, khai phá, t trợ ợ ổchức lưu
Trang 40trữ và tr c quan d ệự ữli u Các thành phần này đều đã được áp d ng rụ ộng rãi và đang được phát tri n, b ể ổ sung thêm tính năng bở ộng đồi c ng ngu n m m nh m ồ ở ạ ẽ
2.1.3.4 Lựa chọn giải pháp
Elastic Stack và Splunk hiệ ạn t i là hai n n t ng x ề ả ử lý và phân tích logs tương
đối m nh và ph bi n nh t trên th giạ ổ ế ấ ế ới, được áp d ng t i nhi u t ụ ạ ề ổchức, doanh nghi p ệCác n n t ng này cho phép x lý nhi u lo i log khác nhau, tích h p s n các công c ề ả ử ề ạ ợ ẵ ụ
trực quan d ệu, tương đố ễ cài đặt cũng như sử ụữli i d d ng, phù h p cho các h ống ợ ệth
với phân tích dữ liệ u log v i quy mô d u c nh và trung bình ớ ữliệ ỡ ỏ
So v i Elastic Stack và Splunk, gi i pháp công ngh Big Data Hadoop ớ ả ệ ứng d ng ụcho thu thập, phân tích, giám sát và th ng kê log có mô hình phố ức tạp h n, khó tri n ơ ểkhai và qu n lý h n, i h i ki n th c và kinh nghi m cao t cán b kả ơ đò ỏ ế ứ ệ ừ ộ ỹthuật Tuy nhiên gi i pháp công ngh Big Data mang n kh n ng m r ng h ng t t h n c ả ệ đế ả ă ở ộ ệthố ố ơ ả
v n ng l c x ề ă ự ử lý cũng như kh n ng l u tr và tả ă ư ữ ốc độ truy xu t d ấ ữliệu H n th nơ ế ữa,
gi i pháp Big Data chiả ếm ưu thế vượt tr i trong vi c k t h p v i h c máy và trí tu ộ ệ ế ợ ớ ọ ệnhân t o v i cạ ớ ộng đồng phát tri n m nh m , giúp khai thác ể ạ ẽ được nhiề ơu h n thông tin hơn từ các d liữ ệu log, cũng như hỗ ợ đư tr a ra các quy t nh v chính sách và v n ế đị ề ậhành h ng tệ thố ốt hơn Chính vì v y vi c áp d ng gi i pháp Big Datậ ệ ụ ả a Hadoop được
l a ch n cho các bài toán khai phá d ự ọ ữliệu log truy vấn DNS trong tương lai bên cạnh đưa ra hệ ố th ng giám sát và th ng kê s li u.ố ố ệ
2.2 Tổng quan về công nghệ Big Data Hadoop
2.2.1 Giới thiệ ề u v công ngh Big Data Hadoop ệ
Theo wikipedia, dữ liệu lớn (Big d ) ata là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và phức tạp mà những công cụ, ứng dụng xử lý dữ liệu truyền thống không
xử lý được Big data bao g m các thách thồ ức như phân tích, thu th p, giám sát d ậ ữliệu, tìm ki m, chia sế ẻ, lưu trữ, truy n nh n, tr c quan, truy về ậ ự ấn và tính riêng tư Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường
Nhắc tới Big Data ta không thể nhắc tới , Apache Hadoop [7] – một framework cho phép phát triển các ứng dụng phân tán Hadoop là 1 n n t ng ph n m m mã ngu n ề ả ầ ề ồ
m , mi n phí, d a trên Java Hadoop ở ễ ự cung cấ ề ảp n n t ng phân tán mạnh để lưu trữ và
qu n lý các d ả ữliệu lớn Nó chạy ứng d ng trên các c m phụ ụ ần cứng l n và ớ có thể ử x