Khả năng xử lý dữ liệu Batch

3 Khảo sát và lựa chọn framework xử lý dữ liệu

3.2.2 Khả năng xử lý dữ liệu Batch

Xử lý dữ liệu Batch có lịch sử lâu đời trong thế giới dữ liệu lớn. Xử lý Batch là việc vận hành trên một tập dữ liệu tĩnh, lớn và trả lại kết quả sau đó khi quá trình tính toán hoàn tất. Dữ liệu mới được sinh ra sẽ được gom nhóm thành các Batch và sau đó sẽ được xử lý. Hai cách phổ biến để xác định khi nào các Batch này sẽ được xử lý là:

• Dựa trên một khoảng thời gian nhất định. Ví dụ: cứ 60 phút xử lý một lần

• Dựa trên một số điều kiện nhất định. Ví dụ: cứ thu thập đủ 50 files dữ liệu sẽ xử lý một lần, hay cứ thu thập đủ 100G dữ liệu sẽ xử lý một lần, v.v

HÌNH3.1: Xử lý Batch

Xét về khả năng tính toán dữ liệu Batch: MapReduce và Spark là hai framework lâu đời và được sử dụng nhiều nhất. Hai framework còn lại vẫn hỗ trợ tính toán Batch nhưng còn hạn chế về tính năng và mục đích chính của chúng là xử lý Stream. Điểm khác biệt lớn nhất giữa MapReduce và Spark là ở tốc độ tính toán. Đối với MapReduce/Hadoop, cơ chế tính toán chính là đọc và ghi dữ liệu vào và từ đĩa. Đối

Chương 3. Khảo sát và lựa chọn framework xử lý dữ liệu 18 với mọi giai đoạn trong quá trình xử lý, dữ liệu được đọc từ đĩa và ghi vào đĩa. Việc lưu trữ và tìm kiếm trên đĩa mất thời gian, do đó làm cho toàn bộ quá trình diễn ra rất chậm. Nếu MapReduce xử lý dữ liệu với khối lượng nhỏ, thì tương đối chậm. MapReduce lý tưởng cho các tập dữ liệu lớn. Chính vì thế, Hadoop chậm so với các công nghệ mới hơn như Spark và Flink. Trong khi đó, Spark cho kết quả tính toán ấn tượng hơn rất nhiều lần so với MapReduce. Các nhà phát triển Spark đã chứng minh rằng Spark nhanh hơn tới 20 lần so với Hadoop cho các ứng dụng lặp đi lặp lại, tăng tốc phân tích dữ liệu trong các ứng dụng thực tế lên 40 lần và có thể được sử dụng để đọc tập dữ liệu 1 TB với độ trễ 5–7 giây (Zaharia et al.,2012)

Thống kê số lần sử dụng giải thuật

Khả năng xử lý dữ liệu Stream