Mô hình triển khai

2.3.2.1. Giải pháp thực hiện

Như đã trình bày ở trên, Cloudera bao gồm nhiều mã nguồn mở Apache framework độc lập kết hợp lại với nhau, mỗi Apache phục vụ một vai trò trong hệ thống Big Data. Trong quá trình thực hiện, hệ thống đã sử dụng các thành phần của Cloudera Distribution for Hadoop (CDH) trong phiên bản mới nhất 5.8.2 bao gồm :

 Sử dụng Apache Hadoop để lưu trữ dữ liệu

 Sử dụng Apache Spark để phân tích dữ liệu, dữ liệu được xử lý in- memory giúp tăng tốc độ phân tích.

 Sử dụng Spark MLLib để giúp cho việc sử dụng các thuật toán

Machine Learning dễ dàng hơn, thay vì phải tự cài đặt và giải quyết từng thuật toán.

Để phân khúc tập khách hàng thành 6 nhóm như yêu cầu bài toán, hệ thống sử dụng phương pháp khai thác số liệu bằng phân cụm dữ liệu (clustering). Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định. Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm dữ liệu với trong đó các đối tượng tương tự như nhau. Trong mỗi nhóm, một số chi tiết có thể không quan tâm đến để đổi lấy dữ liệu đơn giản hóa. Hay ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự nhau theo một tính chất nào đó, những đối tượng không tương tự tính chất sẽ ở nhóm khác”.

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán. Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các phương pháp tiếp cận chính như sau : phân cụm phân họach (Partitioning

Methods); phân cụm phân cấp (Hierarchical Methods); phân cụm dựa trên mật độ (Density-Based Methods); phân cụm dựa trên lưới (Grid-Based Methods); phân cụm dựa trên mô hình phân cụm (Model-Based Clustering Methods) và phân cụm có dữ liệu rang buộc (Binding data Clustering Methods). Trong phạm vi bài toán, hệ thống sử dụng thuật toán K-means của kỹ thuật phân cụm phân hoạch để phân khúc khách hàng.

2.3.2.2. Mô hình triển khai

Cloudera Manager Agents HDFS

DATA INTEGRATION (Squoop)

WORKLOAD MANAGER (YARN) Cloudera Manager Server

BATCH PROCESSCING (Hive) MACHINE LEARNING (Spark) STREAM PROCESSING (Spark)

Các thành phần trong mô hình :

Tên Node Thành phần được

cài đặt Nhiệm vụ

Cloudera Manager Server

Cloudera Manager

Server Quản lý và giám sát toàn bộ các node trong cụm. Hadoop namenode Quản lý hệ thống file metadata

Apache Spark Truy vấn và thực hiện phân tích dữ liệu in-memory YARN Framework hỗ trợ phát triển ứng dụng phân tán

Apache Hive

Cung cấp sự tổng hợp dữ liệu, truy vấn và phân tích. Nó hỗ trợ phân tích các tập dữ liệu lớn được lưu trong HDFS của Hadoop

Apache Squoop

là công cụ dùng trích xuất (extract) dữ liệu từ non- Hadoop và chuyển đổi (transform) chúng vào định dạng mà Hadoop có thể dùng và sau đó nạp (load) chúng vào HDFS Cloudera Manager Agent Cloudera Manager Agent

Tương tác với Cloudera Manager Server để giám sát tình trạng của các node, quản lý các process thực thi trên node đó

Hadoop datanode Lưu trữ các block dữ liệu

Các giải pháp khắc phục