Trong phần tiếp theo chúng ta sẽ đi sâu vào tìm hiểu kiến trúc các thành phần của Platform Cloudera. Như đã trình bày ở trên, Cloudera bao gồm nhiều mã nguồn mở Apache framework độc lập kết hợp lại với nhau, mỗi Apache phục vụ một vai trò trong hệ thống Big Data
Hình 1.4: Tổng quan các thành phần trong cloudera
(Nguồn: https://www.cloudera.com/documentation/enterprise/5-6- x/topics/cdh_intro.html#xd_583c10bfdbd326ba--5a52cca-1476e7473cd--7f59)
Sơ đồ trên mô tả các kiến trúc các thành phần của ClouderaDistribution for Hadoop (CDH) trong phiên bản mới nhất. CDH là một bản mã nguồn mở đầy đủ nhất, được kiểm tra trước và rất phổ biến của dự án Apache Hadoop cùng các thành phần dự án khác liên quan đến Big Data. CDH cốt lõi là Hadoop nhằm có khả năng lưu trữ mở rộng và tính toán phân tán, cùng với một giao diện người dùng dựa trên web với việc tích hợp mở rộng với các doanh nghiệp. Một số đặc điểm chính của Cloudera như sau:
Tính linh hoạt - Lưu trữ bất kỳ loại dữ liệu và thao tác với hàng loạt
các frameworks tính toán khác nhau bao gồm cả xử lý theo lô, tương tác qua SQL, tìm kiếm văn bản miễn phí, Học máy và tính toán thống kê.
Hội nhập - Dễ dàng tích hợp đầy đủ trên nền tảng Hadoop, hỗ trợ rất
An ninh - Xử lý và kiểm soát dữ liệu nhạy cảm.
Khả năng mở rộng - Hỗ trợ rất nhiều ứng dụng và dễ dàng tích hợp
nhiều ứng dụng khác cho phù hợp với yêu cầu của bạn.
Tính sẵn sàng cao
Khả năng tương thích - Đáp ứng cho cơ sở hạ tầng CNTT hiện tại và
đầu tư sau này của bạn
Sau đây chúng ta sẽ đi vào chi tiết một số thành phần chính trong cloudera như: Hadoop (HDFS, Mapreduce, YAN), Impala, Hive, Hbase, Spark, Mahout….