2.3.1 Hệ thống Hadoop [12]
Chúng ta đều biết đến Hadoop là nền tảng mã nguồn mở đang phát triển và trưởng thành trong vài năm gần đây với nền tảng xử lý dữ liệu offline tuyệt vời cho BigData. Hadoop là một hệ thống thông lượng cao mà có thể xử lý một khối lượng lớn các dữ liệu bằng cách sử dụng mô hình phân tán và xử lý song song, được gọi là map-reduce.
Đối với các hệ thống tích hợp và phân tích cỡ lớn như: Google, Yahoo.. thì Hadoop thực sự là một nền tảng tuyệt vời. Tuy nhiên, các hệ thống cỡ lớn lại thuộc thành phần số ít và đa số chúng ta bắt gặp đều là những hệ thống nhỏ và cỡ tầm trung.
Ở các lĩnh vực khác nhau đều cần thiết phải có một hệ thống giám sát, tích hợp và phân tích dữ liệu mà yêu cầu phải đáp trả dữ liệu thời gian thực hoặc cho phép ở một độ trễ rất thấp gần với thời gian thực nhất. Mục đích cơ bản là phục vụ cho việc đưa ra quyết định và dự báo nhanh hơn. Ví dụ với các trường hợp như: Phân tích lừa đảo thẻ tín dụng, dự đoán lỗi mạng từ dữ liệu cảm biến, dự báo mối an ninh mạng... Rất cần thiết phải xử lý thời gian thực để đưa ra cảnh báo hoặc một vài quyết định ngăn chặn, giảm thiểu rủi ro thiệt hại... Hadoop với kiến trúc như trên thì lại không thích hợp cho các tình huống như vậy, nó trở nên cồng kềnh, tốn chi phí và không thực tế. Hơn nữa cũng không đủ nhanh để xử lý dữ liệu online.
2.3.2 Hệ thống Splunk [13]
Splunk là một phần mềm thương mại tốt nhất hiện nay. Nó cho phép thu thập, đánh chỉ mục index bất kỳ loại dữ liệu nào, từ bất kỳ nguồn máy tính nào. Bao gồm cấu trúc, không có cấu trúc, các dữ liệu phức tạp đa dòng, lưu trữ đánh chỉ mục, liên kết, phân tích, báo cáo và xem chi tiết về một vấn đề. Nó tập trung đầy đủ giải pháp tích hợp cho quản lý dữ liệu, và mở rộng ra nhiều loại dữ liệu khác, lưu trữ và phân tích trực quan.
Ưu điểm lớn nhất mà hệ thống Splunk có được là phương thức lưu trữ và đánh chỉ mục index.
Hình 2.4: Sơ đồ lưu trữ và đánh chỉ mục index của Splunk
Đôi nét về kiểu lưu trữ này như sau:
Splunk lưu trữ tất cả dữ liệu trong các thư mục trên server được gọi là Buckets. Một Buckets sẽ thực hiện di chuyển qua vài giai đoạn sau theo kiểu trạng thái thời tiết sử dụng là Hot, Warm, Cold, và Frozen.
Hot – Đây là thư mục chứa tất cả các dữ liệu gần đây nhất được lưu trữ, thư
mục này có quyền đọc/ghi và không backup.
Warm – Là giai đoạn tiếp theo, chỉ có quyền đọc, tìm kiếm và có backup.
Cold – Là thư mục chứa dữ liệu đã cũ, hiếm khi thực hiện tìm kiếm hoặc có thể đã được nén lại và vẫn cung cấp khả năng tìm kiếm, có backup và được coi là tầng lưu trữ.
Frozen – Thư mục chứa dữ liệu gần như được coi là xóa và đóng băng trên hệ thống. Tuy nhiên có thể khôi phục và cho phép đẩy dữ liệu trở lại về tầng Hot.
Nhược điểm của Splunk là chỉ thiết kế để xử lý dữ liệu online và chỉ sử dụng nó như một dịch vụ. Hơn nữa đây là một giải pháp đắt tiền, bản quyền và tất nhiên là mã nguồn đóng. Dịch vụ này chỉ hợp cho những doanh nghiệp giàu có. Trong môi trường ở Việt Nam, bỏ qua vấn đề ngôn ngữ tiếng anh thì Splunk cũng vẫn là cái tên dịch vụ quá xa vời.
2.3.3 Hệ thống ELK [14]
Là một hệ thống mã nguồn mở tốt nhất hiện nay tập trung vào các vấn đề tích hợp, vận chuyển, và lưu trữ, tích hợp được rất nhiều loại dữ liệu tập trung. Sử dụng đa dạng các plug-in hỗ trợ cho việc theo dõi và vận chuyển message tới server tập trung. ElasticSearch cho phép tìm kiếm full-text search, kibana cung cấp giao diện trực quan cho người dùng theo dõi.
Hình 2.5: Kiến trúc ELK
Nhược điểm là một hệ thống mã nguồn mở thay đổi theo từng ngày, mã nguồn không ổn định. Tiềm ần nhiều lỗi mà khi phát sinh, chúng ta cũng phải trả phí dịch vụ hỗ trợ, sửa lỗi. Đa số các plug-in đi theo, hoạt động không được trơn tru. Cần phải có hành động kiểm tra mã nguồn và kiểm thử kỹ lưỡng trước khi sử dụng tránh các đoạn mã độc. Lựa chọn ELK miễn phí để triển khai một dịch vụ thử nghiệm và học hỏi từ mô hình không phải là một sự lựa chọn tệ hại. Nhưng khi chúng ta cần một dịch vụ thực tế trong môi trường production thì ELK có lẽ chưa sẵn sàng để thực thi.
Đôi khi chúng ta bỏ tiền và tìm kiếm một giải pháp khác rẻ hơn và cũng có thể sử dụng miễn phí. Hệ thống eLMS tiếp cận các giải pháp mã nguồn mở liên quan từ hệ thống ELK tối ưu và xây dựng mô hình ổn định