Trong quá trình tiếp cận với Big Data, các công ty không chỉ đối mặt với hàng loạt các xử lý về kho dữ liệu khổng lồ mà họ còn phải giải quyết bài toán xử lý dữ liệu trong thời gian thực để đáp ứng nhu cầu thực tế. Để giải quyết việc xử lý dữ liệu trong thời gian thực này, thì câu trả lời tốt nhất là xử lý dữ liệu động (giá trị thay đổi theo thời gian) dưới dạng dữ liệu dòng (streaming data). Streaming data là nền tảng tính toán phân tích tập trung vào tốc độ. Bởi vì các yêu cầu của ứng dụng đòi hỏi một dòng dữ liệu liên tục và dữ liệu này thường ở dạng phi cấu trúc. Để đáp
ứng được việc xử lý hàng loạt dữ liệu lớn và đảm bảo thời gian thực thì công việc xử lý tính toán được thực hiện trên bộ nhớ trong của máy chủ (in - memory) trước khi được lưu trữ trên các ổ đĩa.
Dưới đây là một số trường hợp phổ biến cần xử lý streaming data:
- Xác định thời điểm bán hàng tốt nhất cho khách hàng thông qua xử lý luồng dữ liệu của khách hàng theo thời gian thực từ mạng xã hội, internet, thậm chí là các tin nhắn của khách hàng.
- Thu thập các thông tin về chuyển động trong xu hướng phát triển thiết bị IoT (Internet of Things).
- Yêu cầu phải đưa ra kết quả với một sự kiện ngay lập tức, như phân tích dữ liệu chẩn đoán bệnh nhân trong thời gian thực.
Tính đến cuối năm 2014, rất ít nền tảng cung cấp streaming data trên thị trường. Dưới đây là các nền tảng phổ biến:
- Apache Storm: Apache Strom là một nền tảng mở, được tạo bởi Twitter và bao gồm các thành phần mã nguồn mở khác, đặc biệt là Zookeeper cho quản lý nhóm, ZeroMQ để nhắn tin multicast và Kafka để nhắn tin xếp hàng đợi.
- Apache Spark: Apache Spark là một nền tảng phổi biến đối với việc xử lý dữ liệu lớn. Nó hỗ trợ nhiều ngôn ngữ lập trình như MapReduce, xử lý trong bộ nhớ trong in-memory, xử lý dòng, xử lý đồ họa, máy học (machine learning). Đặc biệt nó cũng chạy trên nền tảng Hadoop. Yahoo sử dụng Spark cho cá nhân hoá các trang tin tức cho khách truy cập web và chạy phân tích cho quảng cáo.
- IBM InfoSphere Streams: Đây là một trong những sản phẩm hàng đầu về xử lý stream. Nó cung cấp máy chủ có khả năng mở rộng, tích hợp và các tính năng cần thiết khi thực thi các xử lý stream khác nhau.
Với việc định hướng các công nghệ và hạ tầng được triển khai cho hệ thống Big Data hiện nay và trong thời gian tới của MobiFone, cùng với kế hoạch phát
hình bán chéo, bán sản phẩm mới, ngăn chặn thuê bao rời mạng, tối ưu dữ liệu mạng lưới…) các giải pháp về hệ thống kỹ thuật trên là cần thiết để MobiFone có thể khai thác đầy đủ các ứng dụng của Big Data, tối ưu khả năng phục vụ và chăm sóc khách hàng.