Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
503,81 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĂN CƯỜNG GIẢI PHÁP NỀN TẢNG CHO HỆ THỐNG TÍCH HỢP DỮ LIỆU LỚN VÀ KHÔNG ĐỒNG NHẤT LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĂN CƯỜNG GIẢI PHÁP NỀN TẢNG CHO HỆ THỐNG TÍCH HỢP DỮ LIỆU LỚN VÀ KHÔNG ĐỒNG NHẤT Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60 48 01 03 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC TS NGUYỄN VĂN NAM Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan luận văn đƣợc hoàn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu giải pháp tốt quy trình xử lý tích hợp liệu có Luận văn mới, đề xuất luận văn thực hiện, qua trình nghiên cứu đƣa không chép nguyên từ nguồn tài liệu khác Hà Nội, ngày tháng 2015 Học viên Trần Văn Cường năm LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới TS Nguyễn Văn Nam, ngƣời thầy bảo hƣớng dẫn tận tình cho suốt trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn giúp đỡ góp ý nhiệt tình Anh/Chị/Em trung tâm phần mềm FIS-Bank thuộc công ty Hệ thống thông tin FPT tạo điều kiện thuận lợi cho thời gian hoàn thành môn học nhƣ suốt trình làm luận văn tốt nghiệp Và cuối cùng, xin gửi lời cảm ơn tới gia đình, ngƣời thân bạn bè – Những ngƣời bên lúc khó khăn nhất, động viên khuyến khích sống công việc MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƢƠNG 1: SỰ CẦN THIẾT PHẢI XỬ LÝ TÍCH HỢP DỮ LIỆU TẬP TRUNG Error! Bookmark not defined 1.1 Tổng quan liệu lớn không đồng nhấtError! Bookmark not defined 1.1.1 Log - liệu không đồng Error! Bookmark not defined 1.1.2 Các cấp độ log [2][3] Error! Bookmark not defined 1.1.3 Chi tiết Log File [1][4][5] Error! Bookmark not defined 1.1.4 Tại phân tích liệu log Error! Bookmark not defined 1.2 Khó khăn việc thực hệ thống tích hợp liệu không đồng nhấtError! Book 1.3 Khó khăn thực xử lý tích hợp liệu thời gian thựcError! Bookmark not 1.4 Kết luận Error! Bookmark not defined CHƢƠNG 2: HỆ THỐNG TÍCH HỢP DỮ LIỆU LỚN VÀ KHÔNG ĐỒNG NHẤT LÀ GÌ? Error! Bookmark not defined 2.1 User Case Error! Bookmark not defined 2.2 Thực quản lý tích hợp liệu tập trung Error! Bookmark not defined 2.2.1 Vòng đời xử lý hệ thống tích hợp không đồng [1][11]Error! Bookmar 2.2.2 Chi tiết thu thập liệu Shipper Error! Bookmark not defined 2.2.3 Chi tiết hàng đợi Error! Bookmark not defined 2.2.4 Chi tiết phân giải liệu Parser Error! Bookmark not defined 2.2.5 Chi tiết Database Error! Bookmark not defined 2.2.6 Chi tiết Client Error! Bookmark not defined 2.3 Nền tảng từ hệ thống có Error! Bookmark not defined 2.3.1 Hệ thống Hadoop [12] Error! Bookmark not defined 2.3.2 Hệ thống Splunk [13] Error! Bookmark not defined 2.3.3 Hệ thống ELK [14] Error! Bookmark not defined 2.4 Các vấn đề tiếp cận Error! Bookmark not defined 2.4.1 Đọc liệu log sinh Error! Bookmark not defined 2.4.2 Đọc liệu từ file lớn Error! Bookmark not defined 2.4.3 Các mô hình nghiên cứu Error! Bookmark not defined 2.4.4 Lƣu trữ liệu số index [14] Error! Bookmark not defined 2.4.5 Filter – Format – Tag [18] Error! Bookmark not defined 2.4.6 Vấn đề xếp hàng đợi Queue [14][16] Error! Bookmark not defined 2.4.7 Vận chuyển liệu tới server tập trung[20]Error! Bookmark not defined 2.5 Kết luận Error! Bookmark not defined CHƢƠNG 3: ĐỀ XUẤT eLMS – HỆ THỐNG TÍCH HỢP GỌN NHẸ, THỜI GIAN THỰC Error! Bookmark not defined 3.1 Xây dựng giải pháp Error! Bookmark not defined 3.1.1 eLMS đa luồng Error! Bookmark not defined 3.1.2 eLMS đơn luồng Error! Bookmark not defined 3.2 Triển khai mô hình sở eLMS Error! Bookmark not defined 3.3 Thực nghiệm Error! Bookmark not defined 3.4 Kết luận Error! Bookmark not defined 3.5 Các công việc Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tên viết tắt Diễn giải DB Cơ sở liệu ELK Hệ thống Elasticsearch – Logstash - Kibana eLMS Hệ thống xây dựng (Efficient Log Management System) Tag Gán nhãn liệu ES Elasticsearch DANH MỤC CÁC HÌNH VẼ HÌNH 1.1 GHI DỮ LIỆU LOG MỚI SINH RA HÌNH 1.2 KIẾN TRÚC XỬ LÝ DỮ LIỆU THỜI GIAN THỰC HÌNH 2.1 VÒNG ĐỜI XỬ LÝ CỦA HỆ THỐNG TÍCH HỢP VÀ KHÔNG ĐỒNG NHẤT HÌNH 2.2 KIẾN TRÚC HADOOP HÌNH 2.3 KIẾN TRÚC SPLUNK HÌNH 2.4 SƠ ĐỒ LƢU TRỮ VÀ ĐÁNH CHỈ MỤC INDEX CỦA SPLUNK HÌNH 2.5 KIẾN TRÚC ELK HÌNH 2.6 GIẢI PHÁP ELMS HÌNH 2.7 MÔ HÌNH XỬ LÝ DỮ LIỆU CƠ BẢN NHẤT HÌNH 2.8 KIẾN TRÚC TRIỂN KHAI SERVER VỚI ELK HÌNH 2.9 KIẾN TRÚC LOẠI BỎ HÀNG ĐỢI REDIS HÌNH 2.11 MÔ HÌNH XỬ LÝ DỮ LIỆU LỊCH SỬ HÌNH 2.12 MÔ HÌNH TIẾP CẬN HÌNH 2.13 GÁN CHỈ SỐ INDEX THEO NGÀY HÌNH 2.14 GÁN CHỈ SỐ INDEX THEO PHÂN LOẠI CATEGORY HÌNH 2.15 MÔ HÌNH XỬ LÝ PARSER CỦA ELK HÌNH 2.16 THƢ VIỆN REGEX SỬ DỤNG TRONG LOGSTASH (GROK) HÌNH 2.17 KIẾN TRÚC ELK HÌNH 2.18 KIẾN TRÚC ELK VỚI HÀNG ĐỢI HÌNH 2.19 KIẾN TRÚC CỦA SEMATEXT HÌNH 2.20 HIỆU NĂNG SỬ DỤNG HÀNG ĐỢI HÌNH 2.21 VẬN CHUYỂN DỮ LIỆU TỚI PARSER HÌNH 2.22 CƠ CHẾ HOẠT ĐỘNG CỦA BATCH JOB HÌNH 2.23 SƠ ĐỒ MICRO BATCH JOB THỰC HIỆN TẠO DÒNG DỮ LIỆU HÌNH 2.24 VÍ DỤ VỀ MỘT DÒNG DỮ LIỆU ĐƢỢC TẠO RA HÌNH 2.25 SƠ ĐỒ HOẠT ĐỘNG CỦA STREAM HÌNH 3.1 MÔ HÌNH ELMS ĐA LUỒNG HÌNH 3.2 XỬ LÝ VÒNG TRÒN HÌNH 3.3 LƢU TRỮ CỦA MỘT MESSAGE CYCLE HÌNH 3.4 QUAY VÒNG CÁC PHÂN VÙNG LƢU TRỮ DỮ LIỆU HÌNH 3.5 HÀNG ĐỢI QUEUE 12 15 26 27 28 29 30 35 36 37 38 39 39 41 43 44 46 48 49 49 50 53 53 53 54 55 57 57 58 58 HÌNH 3.6 MESSAGE CYCLE HÌNH 3.7 MÔ HÌNH ELMS ĐƠN LUỒNG HÌNH 3.8 ELMS VỚI CÁC THÀNH PHẦN PLUG-IN HÌNH 3.9 SƠ ĐỒ THỰC NGHIỆM HÌNH 3.10 THÔNG SỐ KẾT QUẢ HÌNH 3.11 BIỂU ĐỒ THỜI GIAN SO SÁNH 58 63 64 66 67 67 MỞ ĐẦU Đặt vấn đề Ngày nay, việc thực giám sát máy chủ server hành động thực cần thiết quan trọng, giúp cho quản trị hệ thống theo dõi hoạt động ngƣời sử dụng nhằm cải thiện khả quản lý hệ thống, quản lý ngƣời dùng, quản lý vấn đề cân tải nhƣ để phát công DDoS Thông thƣờng, việc giám sát, theo dõi máy chủ server dựa vào nhật ký file liệu ghi lại Tuy nhiên, hệ thống quản lý liệu đƣợc coi đắt đỏ cho việc thu thập, tích hợp, lƣu trữ, tìm kiếm phân tích liệu Trong luận văn trình bày phƣơng pháp xây dựng hệ thống quản lý tích hợp liệu tập trung với hiệu suất tối ƣu, viết tắt eLMS (Efficient Log Management System) – Một hệ thống có kiến trúc đƣợc thiết kế nhẹ nhàng, mềm dẻo có khả mở rộng Trong eLMS, file liệu đƣợc thu thập từ nhiều nguồn từ nhiều server khác Lƣu trữ mô hình có khả kết hợp thêm nhiều Plug-in, tích hợp việc lập mục index phân tích liệu nhanh chóng Hệ thống eLMS hoạt động chế độ online offline, cung cấp giao diện hiển thị thông số giám sát, thống kê dựa liệu thời gian thực Hiệu suất eLMS đƣợc đánh giá tổng thể vài trƣờng hợp nghiên cứu Cơ sở khoa học thực tiễn luận văn dựa vấn đề tích hợp xử lý liệu không đồng – Log, xml, meta-data liệu tƣơng tự Để tổng quát kiểu liệu nhƣ luận văn đề cập tới vấn đề xử lý tích hợp liệu log tập trung Log đƣợc coi nhƣ liệu lớn kích thƣớc thƣờng xuyên tăng trƣởng theo thời gian Việc quản lý log ứng dụng xử lý liệu lớn mà thƣờng hay biết đến với tảng Hadoop Tuy nhiên, Hadoop chủ yếu hỗ trợ hệ thống có quy mô lớn nhƣ Google, Yahoo, Đối với hệ thống cỡ vừa nhỏ, Hadoop trở nên cồng kềnh, đắt đỏ, không thực tế để thực Hơn nữa, Nó không đủ nhanh cho việc lý liệu online Luận văn hƣớng đến xây dựng hệ thống quản lý tích hợp nhẹ xử lý thời gian thực để việc sử dụng có ích cho cho tổ chức, công ty vừa nhỏ nhƣng TÀI LIỆU THAM KHẢO [1] The Logstash Book Version v1.4.3 Publisher by You Lulu Inc James Turnbull 2014 [2] A Gentle Introduction to ROS, chapter 4: Log messages Publisher by CreateSpace Independent Publishing Platform Jason M O’Kane 2013 [3] Oracle JDBC Logging using java.util.logging, An Oracle White Paper 2009 [4] I Heart Logs Publisher [5] System Logging and Log Analysis (AKA: Everything we know and hate about system logging Marcus J Ranum 2014 [6] Patricio Córdova Analysis of Real Time Stream Processing Systems Considering Latency University of Toronto patricio@cs.toronto.edu 2015 [7] Centralised logging with rsyslog Peter Matulis 2009 [8] Radomır Sohlich, Jakub Janostık, Frantisek Spacek Centralized logging system based on WebSockets protocol 13th International Conference on telecommunications and informatics, Istanbul,Turkey 2014 [9] Jay Kreps , Neha Narkhede , Jun Rao Kafka: a Distributed Messaging System for Log Processing LinkedIn Corp 2015 [10] Arhs Cerebro Real-Time Engine, Business Analytics For All, http://www.ba4all.be [11] Centralized logging architecture series, http://logs101.com [12] Tom White 2009 Hadoop: The Definitive Guide (1st ed.) O'Reilly Media, Inc [13] Splunk system, Splunk® Inc Headquarters, http://www.splunk.com [14] Alberto Paro 2013 Elasticsearch Cookbook Packt Publishing [15] MIT College of Engineering University of Pune Real Time Generalized Log File Management and Analysis using Pattern Matching and Dynamic Clustering International Journal of Computer Applications (0975 8887) Volume 91 - No 16, April 2014 [16] Monitor everything part 3, Logstash Improvements https://ianunruh.com [17] Johnvey Hwang 2009 Splunk, innovation behind In Proceedings of the Symposium on Computer Human Interaction for the Management of Information Technology (CHiMiT '09) ACM, New York, NY, USA, , pages DOI=http://dx.doi.org/10.1145/1641587.1814304 [18] Alien Vault, Life Cycle of a Log, 2014, https://www.alienvault.com/doc-repo/usm/securityintelligence/AlienVault_Life_cycle_of_a_log.pdf Large Scale Log Analytics With Solr, Sematext group, http://blog.sematext.com In-stream big data processing, Ilya Katsov, Highly Scalable Blog, https://highlyscalable.wordpress.com [19] [20] by O'Reilly Media; edition Jay Kreps 2014 [...]...9 TÀI LIỆU THAM KHẢO [1] The Logstash Book Version v1.4.3 Publisher by You Lulu Inc James Turnbull 2014 [2] A Gentle Introduction to ROS, chapter 4: Log messages Publisher by CreateSpace Independent Publishing