Để phân tích và tổng hợp dữ liệu lớn, hiện có rất nhiều công nghệ đang được áp dụng để triển khai phân tích Big Data. Trong đó có một số công nghệ nổi bật:
Big Table: là một hệ thống cơ sở dữ liệu phân tán được sử dụng để quản lý dữ
liệu có cấu trúc, dễ co giãn trong phạm vi lớn. Big Table đã được Google sử dụng trong nhiều dự án lớn.
Business Intelligence (BI): là một loại phần mềm ứng dụng được thiết kế để
phân tích báo cáo và hiển thị dữ liệu. Các công cụ BI thường được sử dụng để đọc các dữ liệu đã được lưu trữ trước đó trong một kho dữ liệu hoặc một siêu dữ liệu, tạo các báo cáo trên cơ sở định kỳ hoặc theo thời gian thực.
Cassandra: là một hệ thống quản lý cơ sở dữ liệu mã nguồn mở được thiết kế
để xử lý số lượng lớn dữ liệu trên một hệ thống phân tán. Hệ thống này ban đầu được phát triển bởi Facebook và hiện đang được quản lý như là một dự án của nền tảng Apache Software.
MapReduce: là một quy trình giúp xử lý tập hợp dữ liệu siêu lớn đặt tại các hệ
thống máy tính phân tán, có thể xử lý được dữ liệu phi cấu trúc và dữ liệu cấu trúc. Trong MapReduce, các máy tính chứa dữ liệu đơn lẻ được gọi là các nút (node). Quy trình này định nghĩa dữ liệu dưới dạng cặp khóa/giá trị (key/value) và xử lý hai luồng dữ liệu song song.
Hadoop: là một tập hợp phần mềm mã nguồn mở để xử lý các tập dữ liệu
khổng lồ trên một số loại vấn đề trên hệ thống phân tán. Hadoop ban đầu được phát triển tại Yahoo! và hiện đang được quản lý như là một dự án của Tổ chức Phần mềm Apache.
R: là một ngôn ngữ lập trình mã nguồn mở và môi trường phần mềm cho máy
tính và đồ họa thống kê. Ngôn ngữ R đã trở thành tiêu chuẩn thực tế và được sử dụng rộng rãi để phát triển phần mềm thống kê và phân tích dữ liệu.
Stream Processing: là công nghệ dùng để xử lý dữ liệu lớn trong thời gian
thực. Dữ liệu sẽ được lưu trữ và xử lý theo thời gian thực, thích hợp với việc xử lý dữ liệu online và triển khai các hoạt động tương tác với khách hàng một cách linh động và hiệu quả.