Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
885,71 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM XUÂN LỘC NGHIÊN CỨU XÂY DỰNG MƠ HÌNH GIẢI PHÁP MÃ NGUỒN MỞ CLOUDERA PHỤC VỤ TRIỂN KHAI ỨNG DỤNG BIG DATA TẠI MOBIFONE CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2019 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS HÀ HẢI NAM Phản biện 1: ………………………………………………………………… Phản biện 2: ………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết đề tài Thị trường viễn thông di động Việt Nam dần trở nên bão hòa, doanh thu từ thoại SMS bước giảm, bùng nổ sản phẩm OTT, mạng xã hội,… với hạ tầng Internet phát triển, xu hướng công nghệ IoT, Big Data bùng nổ, mạng WIFI phổ biến cung cấp miễn phí nhiều nơi Việt Nam thực thách thức không nhỏ nhà mạng viễn thông.Việc kinh doanh dịch vụ truyền thống thoại, sms, data… mà khơng có tác động phân tích, tìm hiểu hành vi khách hàng, hiểu rõ nhu cầu thực khách hàng ngày trở nên khó khăn Đứng trước thách thức nguy trên, MobiFone cần phải có tầm nhìn, tư chiến thuật để sẵn sàng thích ứng với thay đổi, thích ứng với cạnh tranh ngày liệt từ đối thủ Đề tài nghiên cứu hy vọng với giải pháp mã nguồn mở Cloudera nghiên cứu triển khai rộng rãi, góp phần vào việc bổ sung hạ tầng lưu trữ liệu an tồn, lâu dài, tiết kiệm chi phí cho hệ thống Big Data, nắm bắt thêm kỹ thuật, công cụ mã nguồn mở để áp dụng, kế thừa sản phẩm từ cộng đồng giới vào hệ thống Big Data tại…góp phần phát triển cộng nghệ Big Data MobiFone Tổng quan vấn đề nghiên cứu Khảo sát đánh giá nhu cầu triển khai Big Data ứng dụng công nghệ mã nguồn mở Nghiên cứu triển khai Big Data MobiFone ứng dụng Cloudera Xây dựng triển khai tốn phân tích liệu dựa tảng hạ tầng Big Data ứng dụng Cloudera Đánh giá kết đạt hướng phát triển Mục đích nghiên cứu Nghiên cứu tìm hiểu cơng nghệ mã nguồn mở Cloudera phục vụ triển khai Big Data Xây dựng hệ thống Big Data dựa tảng Cloudera MobiFone Cài đặt, phân tích triển khai chương trình khuyến mại sản xuât kinh doanh MobiFone Đối tượng phạm vi nghiên cứu Các sản phẩm mã nguồn mở có thị trường Big Data 2 Nghiên cứu chuyên sâu giải pháp Cloudera áp dụng xây dựng Big Data MobiFone Phương pháp nghiên cứu Phương pháp nghiên cứu nghiên cứu lý thuyết kết hợp với thực nghiệm phân tích, đánh giá kết 3 CHƯƠNG 1: GIỚI THIỆU VỀ BIG DATA VÀ GIẢI PHÁP CLOUDERA ÁP DỤNG XÂY DỰNG BIG DATA Tóm tắt chương Nội dung chương giới thiệu định nghĩa Big Data, xu hướng phát triển nhu cầu sử dụng công nghệ Big Data, đồng thời giới thiệu tảng Cloudera việc triển khai Big Data phổ biến giới Tóm tắt lịch sử hình thành sản phẩm Cloudera sâu vào tìm hiểu kiến trúc Cloudeara chi tiết thành phần Cuối cùng, giới thiệu case study cụ thể triển khai áp dụng cloudera việc triển khai Big Data thành công Việt Nam giới 1.1 Định nghĩa “Hệ thống Big Data” Về khái niệm Big Data định nghĩa phổ biến sau: Big Data hiểu “Dữ liệu lớn” – tập hợp liệu có dung lượng tất lĩnh vực đời sống xã hội; chúng vượt mức đảm đương ứng dụng công cụ truyền thống việc thu thập, hiển thị, phân phối, quản lý xử lý Tương lai xa liệu Big Data đếm Big Data tạo từ nhiều nguồn liệu mạng xã hội; dịch vụ ngân hàng, tài chính, viễn thơng; dịch vụ thương mại điện tử; internet … Big Data đời dựa yêu cầu tất yếu trình phát triển liệu số phạm vi toàn cầu; hầu hết doanh nghiệp đầu tầu lĩnh vực công nghệ như: Microsoft, SAP, EMC, HP, Software AG, Oracle, IBM, Ebay, Amazon.com, Facebook… phải quản lý Big Data sở hữu 1.2 Xu hướng phát triển công nghệ Big Data 1.2.1 Tình hình phát triển nhu cầu sử dụng công nghệ Big Data tương lai Trong tương lai, tiếp tục chứng kiến tăng trưởng Big Data Hiện bạn nghe đến khái niệm Internet of Things, tức mang Internet đến với thứ đời sống ngày Dữ liệu từ Internet of Things thực chất thu thập từ mạng lưới nhiều cảm biến thiết bị điện tử, nguồn Big Data Lượng liệu khổng lồ cho nhà nghiên cứu biết hành vi tiêu dùng khách hàng, từ tinh chỉnh thiết bị Internet of Things cho phù hợp hơn, bắt chúng phục vụ đời sống ngày cách hiệu Nó dùng cho việc sản xuất, từ giảm liên quan người Như lời Daniel Kaufman dự đoán “con người làm hơn” nhờ Big Data 1.2.2 So sánh, đánh giá giải pháp mã nguồn mở áp dụng cho Big Data Trên giới có có số sản phẩm khác cạnh tranh việc lưu trữ, xử lý liệu lớn IBM InfoSphere BigInsights, Hortonworks MapR Cloudera sản phẩm có kể từ xuất giải pháp lưu trữ liệu Hadoop Hortonworks đến sau Trong Cloudera Hortonworks 100% mã nguồn mở, hầu hết phiên MapR kèm với module độc quyền Đối ngược với sản phẩm mã nguồn mở IBM InfoSphere BigInsights tảng phần mềm dịch vụ thiết kế để giúp doanh nghiệp phát phân tích hiểu biết kinh doanh ẩn khối lượng lớn liệu Sản phẩm IBM InfoSphere BigInsights kết hợp số dự án mã nguồn mở (bao gồm Apache Hadoop) số công nghệ IBM phát triển Mỗi nhà cung cấp, phân phối có sức mạnh độc đáo điểm yếu riêng sản phẩm Cloudera Hortonworks xây dựng lõi Apache Hadoop Như vậy, họ có điểm tương đồng nhiều khác biệt Cả hai cung cấp phân phối sản phẩm Hadoop cấp độ doanh nghiệp (enterprise-ready Hadoop) Các phân phối trải nghiệm qua thời gian người tiêu dùng, bảo đảm tính an ninh ổn định Bên cạnh đó, họ cung cấp hình thức đào tạocó trả tiền dịch vụ cho người bước theo đường Big Data Analytics Cả hai hãng thành lập xây dựng cộng đồng để giúp đỡ vấn đề gặp phải ví dụ hoạ xây dựng Big Data với sản phẩm mã nguồn mở hãng Cả hai hãng sử dụng kiến trúc master-slave tính tốn hạ tầng máy tính khơng chia sẻ Quan trọng hai hỗ trợ phương thức MapReduce YARN cách lưu trữ liệu Về ưu điểm khác biệt Cloudera có ưu so với sản phẩm khác lý sau: Cloudera sản phẩm xây dựng dựa tảng Apache Hadoop có số lượng người dùng lớn với hầu hết khách hàng Cloudera có phần mềm quản lý độc quyền Cloudera Manager, hỗ trợ truy vấn dạng SQL xử lý truy vấn giao diện Impala, Cloudera Search dễ dàng truy cập liệu Cloudera có tên tuổi thị trường, với 350 khách hàng có số phần mềm doanh nghiệp phủ lên phân phối mã nguồn mở để hỗ trợ người tiêu dùng Có nhiều cơng cụ mạnh mẽ việc lưu trữ loại liệu xử lý batch job, ngơn ngữ phân tích truy vấn liệu SQL, kỹ tìm kiếm NoSQL, xử lý stream…Giải pháp tảng mã nguồn mở CDH đánh giá cao việc lưu trữ, xử lý liệu lớn điển hình có sản phẩm Oracle Big Data Appliance (BDA) sử dụng toàn giải pháp tảng CDH tích hợp trọn gói việc lưu trữ xử lý liệu 1.3 Giới thiệu Cloudera Cloudera Platform mã nguồn mở nhằm giúp cho công ty xây dựng hệ thống Big Data cách linh hoạt, dễ dàng tích hợp thành phần mã nguồn mở, quản lý khối lượng đa dạng liệu nhanh chóng gia tăng doanh nghiệp Các sản phẩm giải pháp Cloudera cho phép triển khai, quản lý Apache Hadoop Apaches mã nguồn mở khác nhằm giúp thao tác truy vấn, phân tích liệu, giữ cho liệu ln ln an tồn bảo vệ 1.4 Kiến trúc thành phần mã nguồn mở tảng Cloudera 1.4.1 Hadoop Apache Hadoop tảng mã nguồn mở, miễn phí, viết java, cung cấp tảng phân tán mạnh để lưu trữ quản lý big data Apache Hadoop chạy ứng dụng cụm máy tính xử lý hàng ngàn terabytes liệu hàng ngàn nodes Hadoop lấy cảm hứng từ Google MapReduce Google File System (GFS) Điểm mạnh tảng Hadoop cung cấp độ tin cậy tính sẵn sàng cao 1.4.2 Hệ quản trị CSDL: HBase Apache Hbase hệ quản trị sở liệu dựa Hadoop, mã nguồn mở nằm dự án Apache, phát triển mở rộng từ dự án lưu trữ Big Data google 6 HBase lưu trữ kiểu key-value mở rộng quy mơ lớn Nó hoạt động giống hash-map để lưu trữ lâu dài Tính Apache Hbase: Thời gian lọc liệu nhanh Lưu trữ liệu Big Data, lưu trữ hàng tỷ row columns Có độ ổn định giảm thiểu rủi ro (failover) lưu lượng lớn liệu Truy vấn liệu theo thời gian thực Cung cấp giao thức REST, giúp trả liệu theo định dạng khác plain text, json, xml Nhờ khai thác liệu không cần qua API từ phần mềm thứ Nhất quán chế đọc ghi liệu dựa Hadoop Nhiều extension hỗ trợ Hbase cho nhiều ngôn ngữ java, php, python Lưu trữ liệu đáng tin cậy, hãng lớn sử dụng quy mô lớn 1.4.3 Học máy Apache Mahout Apache Mahout dự án mã nguồn mở Apache Software Foundation (ASF-Quỹ phần mềm Apache) với mục tiêu tạo thuật tốn học máy có khả mở rộng, thuật tốn sau cài đặt sử dụng miễn phí sử dụng theo giấy phép Apache Mahout bao gồm thuật tốn để thực để phân cụm, phân nhóm, lập trình học máy tiến hóa Hơn nữa, việc khơn khéo sử dụng thư viện Apache Hadoop phép Mahout mở rộng hiệu tính tốn đám mây Một số thuật toán Mahout thường hay sử dụng như: Thuật toán phân cụm: k-Means, fuzzy k-Means, Canopy, Dirichlet MeanShift Phân loại Naive Bacó phân tán Naive Bacó phụ Các thư viện ma trận vectơ Lập trình tiến hóa 1.4.4 Tính tốn nhớ, streaming: Apache Spark Apache Spark open source cluster computing framework phát triển sơ khởi vào năm 2009 AMPLab đại học California, Berkeley Sau này, Spark trao cho Apache Software Foundation vào năm 2013 phát triển Spark cho phép xây dựng phân tích nhanh mơ hình dự đốn Hơn nữa, cung cấp khả truy xuất toàn liệu lúc, nhờ ta không cần phải lấy mẫu liệu – đòi hỏi ngơn ngữ lập trình Thêm vào đó, Spark cung cấp tính streaming, dùng để xây dựng mơ hình real-time cách nạp toàn liệu vào nhớ Hiện Spark chủ để quan tâm cộng đồng Big Data hãng công nghệ lớn IBM, Oracle Thành phần trung tâm Spark Spark Core: cung cấp chức Spark lập lịch cho tác vụ, quản lý nhớ, khôi phục lỗi, tương tác với hệ thống lưu trữ.Đặc biệt, Spark Core cung cấp API để định nghĩa RDD (Resilient Distributed DataSet) tập hợp item phân tán node cluster xử lý song song Spark chạy nhiều loại Cluster Managers Hadoop YARN, Apache Mesos cluster manager cung cấp Spark gọi Standalone Scheduler Spark SQL cho phép truy vấn liệu cấu trúc qua câu lệnh SQL Spark SQL thao tác với nhiều nguồn liệu Hive tables, Parquet, JSON Spark Streaming cung cấp API để dễ dàng xử lý liệu stream, MLlib Cung cấp nhiều thuật toán học máy như: classification, regression, clustering, collaborative filtering GraphX thư viện để xử lý đồ thị 1.4.5 Truy vấn song song như: Apache Impala Impala công nghệ sở liệu song song khả mở rộng với Hadoop, cho phép người dùng truy vấn SQL có độ trễ thấp cho liệu lưu trữ HDFS Apache HBase mà không cần di chuyển, chuyển đổi liệu Impala tích hợp với Hadoop để sử dụng tập tin liệu có định dạng, siêu liệu, mang tính bảo mật quản lý tài nguyên sử dụng MapReduce, Apache Hive, Apache Pig phần mềm Hadoop khác Impala dùng làm sản phẩm Platform Cloudera, MapR, Oracle, Amazon Tổng quan tính Impala bao gồm: Hỗ trợ lưu trữ HDFS Apache HBase Đọc định dạng tập tin Hadoop, bao gồm văn bản, LZO, SequenceFile, Avro, RCFile, Parquet Hỗ trợ Hadoop bảo mật (xác thực Kerberos) 8 Sử dụng metadata, driver ODBC, cú pháp SQL từ Apache Hive 1.4.6 Một số Apache dùng để tổ chức lưu trữ, truy vấn liệu Hadoop Hive Hue: Hive Apache hỗ trợ người dùng viết câu truy vấn SQL chuyển đổi thành tác vụ MapReduce Hue cung cấp cho bạn giao diện đồ họa web dựa trình duyệt để làm cơng việc Hive Pig: Một mơi trường lập trình mức cao để giúp người dùng viết mã MapReduce dễ dàng Sqoop: Cung cấp việc truyền liệu hai chiều Hadoop sở liệu quan hệ RDBMS truyền thống, Sqoop làm việc thông qua JDBC drivers, công cụ để ETL liệu từ file, từ CSDL quan hệ vào hệ thống Hadoop Oozie: Quản lý luồng công việc Hadoop Oozie khơng thay trình lập lịch biểu hay cơng cụ BPM, cung cấp cấu trúc phân nhánh if-then-else điều khiển phạm vi tác vụ Hadoop Fuse: Làm cho hệ thống tập tin HDFS trông hệ thống tệp tin thơng thường, sử dụng lệnh ls, cd, rm lệnh khác với liệu HDFS lệnh command hệ điều hành Zookeeper: Được sử dụng để quản lý, theo dõi chương trình phần mềm hệ thống Hadoop 1.5 Một số case study điển hình triển khai thành cơng Cloudera Nhờ khả dễ dành sử dụng, tích hợp nhiều mã nguồn mở Big Data, không ngừng bổ sung thêm mã nguồn mở khác, nên Cloudera cộng đồng đón nhận sử dụng rộng lớn Nổi bật số công ty công nghệ hàng đầu áp dụng cloudera thành công trình kinh doanh họ như: Cisco, Samsung, ngân hàng Barclay 9 CHƯƠNG 2: TRIỂN KHAI XÂY DỰNG HỆ THỐNG CLOUDERA PHỤC VỤ XÂY DỰNG BIG DATA TẠI MOBIFONE Tóm tắt chương Nội dung chương trình bày khái quát trạng nhu cầu lưu trữ liệu lâu dài nhằm phục vụ toán Big Data MobiFone Từ đó, phân tích u cầu, thiết kế hệ thống, chọn lựa mơ hình triển khai đến bước cài đặt, cấu hình module để hệ thống Cloudera hoạt động ổn định 2.1 Hiện trạng triển khai áp dụng công nghệ Big Data MobiFone 2.1.1 Hiện trạng tài nguyên máy chủ lưu trữ liệu Big Data Trung tâm CNTT đơn vị quản lý, vận hành kho liệu tập trung Big Data Tổng Công ty đầu tư xây dựng vào năm 2015 Để đáp ứng mục đích phục vụ phân tích hành vi khách hàng, đánh giá hiệu chương trình khuyến mại, hiệu sản xuất kinh doanh nhu cầu lưu trữ liệu cần phải thời gian lâu dài, cần nhiều nguồn liệu khác Hiện MobiFone trang bị cho hệ thống Big Data máy chủ lưu trữ Netezza vơ mạnh mẽ, cấu hình khoảng 45TB, nhiên với tốc độ tăng trưởng liệu lớn, trung bình nguồn liệu phục vụ tốn phân tích kinh doanh hàng ngày Trung tâm CNTT tiến hành đẩy vào kho liệu Big Data khoảng 1,8 tỷ ghi- tương đương tháng khoảng 2,5TB liệu, thêm nguồn liệu để đánh giá chất lượng mạng lưới kỹ thuật, nguồn số liệu xu công nghệ IoT bùng nổ số gấp rất nhiều lần Với tốc độ tăng trưởng liệu nay, việc lưu trữ liệu lịch sử để phân tích liệu lâu dài bổ sung thêm nguồn liệu tương lai cần bổ sung nhiều nguồn tài nguyên máy chủ liệu 2.1.2 Hiện trạng cơng nghệ phân tích liệu cho Big Data MobiFone 2.1.2.1 Kiến trúc triển khai tổng thể Giải pháp tổng thể triển khai MobiFone có kiến trúc logic chức thành phần sau: - Khối chức xử lý realtime luồng liệu: Thành phần cung cấp khả xử lý liệu lớn đa dạng cấu trúc liệu từ nhiều nguồn khác Hỗ trợ người định, thu thập thơng tin liệu có tính realtime 10 - Khối chức xử lý ETL, làm sạch, đảm bảo chất lượng liệu: Đây thành phần với lực tích hợp chuyển đổi liệu sang khn dạng có ý nghĩa, làm liệu, đảm bảo chất lượng liệu cho lưu trữ Big Data - Khối chức lưu trữ liệu: Đây nơi lưu trữ liệu qua xử lý phục vụ phân tích, xây dựng mơ hình data mart theo chủ đề quan tâm - Khối chức phân tích chuyên sâu: Bao gồm cơng cụ, thuật tốn phân tích liệu Hỗ trợ xử lý phân tích loại liệu khác liệu hoạt động, files, liệu phi cấu trúc Nguồn liệu phân tích lấy từ kho liệu, sau xử lý ghi ngược lại vào kho liệu - Các công cụ báo cáo - Khối chức phục vụ quản lý, phát triển chương trình khuyến mại Hình 2.1 : Kiến trúc triển khai tổng thể 11 2.1.2.2 Thành phần hệ thống Hệ thống kho liệu tập trung Big Data xây dựng khai thác, bao gồm thành phần sau: FTP: Máy chủ FTP thực thu thập lưu trữ liệu file đầu vào phục vụ tiến trình xử lý tổng hợp thông tin nguồn liệu từ hệ thống tác nghiệp Data Analytics: Triển khai IBM SPSS Modeler phần mềm phân tích data mining áp dụng kỹ thuật thuật toán để phân tích nguồn liệu lớn Report: Triển khai IBM Cognos BI phần mềm hỗ trợ xây dựng (kéo, thả) báo cáo kết triển khai campaign Big Data ETL: Triển khai IBM DataStage máy chủ xử lý, thu thập liệu, thực thi extract liệu chuẩn hóa liệu tổng hợp từ định dạng file thành liệu chuẩn để import vào kho liệu tập trung Big Data VDI Desktop: Cài đặt công cụ để khai thác, phân tích liệu (SPSS Modeler client, Aginity…), người dùng đơn vị Công ty kinh doanh MobiFone khu vực, Trung tâm trực thuộc trực tiếp vào sử dụng 2.2 Nhu cầu áp dụng công nghệ mã nguồn mở cho Big Data MobiFone Hiện Mobifone triển khai Big Data bao gồm hệ thống sở liệu Netezza, công cụ phân tích số liệu SPSS modeler cơng cụ đánh giá, triển khai campaign Unica Việc trang bị hệ thống giải pháp Big Data phục vụ sản xuất kinh doanh cần thiết để am hiểu khách hàng nhằm giới thiệu triển khai dịch vụ phù hợp, nhanh chóng tức thì, bối cảnh cho khách hàng đảm bảo lợi cạnh tranh mạng MobiFone trước mạng lớn thị trường viễn thông Việt Nam Giải pháp sử dụng tảng mã nguồn mở hỗ trợ nhiều cơng nghệ khác để xây dựng hệ thống Big Data nhiều doanh nghiệp lựa chọn triển khai Một số giải pháp Cloudera để phục vụ xây dựng Big Data Cloudera đặc biệt phiên CDH Express (Cloudera Distributed Hadoop) 100% miễn phí, cung cấp nhiều apache mã nguồn mở, liên tục cập nhật mã nguồn mới, phiên từ cộng đồng Khi đơn vị bước đầu xây dựng hệ thống Big Data sử dụng tảng Cloudera để tiếp cận nhanh, áp dụng vào toán phân tích phục vụ sản xuất kinh doanh 12 2.3 Thiết kế hệ thống Cloudera phục vụ xây dựng BIG DATA MobiFone 2.3.1 Bài toán triển khai Trong giai đoạn tiếp cận hệ thống Cloudera, hệ thống thực toán phân khúc khách hàng trả trước để đánh giá hiệu việc triển khai Đối tượng áp dụng : Tập mẫu thuê bao trả trước Mobifone (1 triệu thuê bao) Nguyên tắc chia nhóm : thực phân chia thành phân khúc theo thói quen sử dụng khách hàng : Nhóm khách hàng thực dụng Nhóm lực tiêu dùng thấp Người dùng truyền thống Người chuộng công nghệ giá rẻ Nhóm khơng thường xun sử dụng liệu Khách hàng cao cấp Đặc điểm nhóm khách hàng mơ tả sau : Hình 2.2: Mơ hình phân khúc khách hàng trả trước PWC Các tiêu chí sử dụng để phân khúc khách hàng : Dựa hành vi sử dụng thoại, data, sms Doanh thu tiêu dung 13 Doanh thu VAS Loại thiết bị Tỉ lệ dùng data ngồi gói Tập mẫu sử dụng để phân tích liệu trung bình th bao trả trước tháng tháng năm 2016, lấy mẫu 1.000.000 ghi Các tiêu chí phân khúc khách hàng thực dựa tư vấn PWC (PricewaterhouseCoopers- bốn cơng ty kiểm tốn hàng đầu giới nay) phân khúc khách hàng 2.3.2 Mơ hình triển khai 2.3.2.1 Giải pháp thực Như trình bày trên, Cloudera bao gồm nhiều mã nguồn mở Apache framework độc lập kết hợp lại với nhau, Apache phục vụ vai trò hệ thống Big Data Trong trình thực hiện, hệ thống sử dụng thành phần Cloudera Distribution for Hadoop (CDH) phiên 5.8.2 bao gồm : Sử dụng Apache Hadoop để lưu trữ liệu Sử dụng Apache Spark để phân tích liệu, liệu xử lý in-memory giúp tăng tốc độ phân tích Sử dụng Spark MLLib để giúp cho việc sử dụng thuật toán Machine Learning dễ dàng hơn, thay phải tự cài đặt giải thuật toán Để phân khúc tập khách hàng thành nhóm u cầu tốn, hệ thống sử dụng phương pháp khai thác số liệu phân cụm liệu (clustering) Phân cụm liệu kỹ thuật Data mining nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thơng tin, tri thức cho việc định Phân cụm liệu phân chia sở liệu lớn thành nhóm liệu với đối tượng tương tự Trong nhóm, số chi tiết không quan tâm đến để đổi lấy liệu đơn giản hóa Hay ta hiểu “Phân cụm liệu trình tổ chức đối tượng thành nhóm mà đối tượng nhóm tương tự theo tính chất đó, đối tượng khơng tương tự tính chất nhóm khác” Phân cụm liệu q trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Các kỹ thuật phân cụm có nhiều 14 cách tiếp cận ứng dụng thực tế, hướng tới hai mục tiêu chung chất lượng cụm khám phá tốc độ thực thuật toán Hiện nay, kỹ thuật phân cụm phân loại theo phương pháp tiếp cận sau : phân cụm phân họach (Partitioning Methods); phân cụm phân cấp (Hierarchical Methods); phân cụm dựa mật độ (Density-Based Methods); phân cụm dựa lưới (Grid-Based Methods); phân cụm dựa mơ hình phân cụm (Model-Based Clustering Methods) phân cụm có liệu rang buộc (Binding data Clustering Methods) Trong phạm vi toán, hệ thống sử dụng thuật toán K-means kỹ thuật phân cụm phân hoạch để phân khúc khách hàng 2.3.2.2 Mơ hình triển khai Cloudera Manager Server BATCH PROCESSCING (Hive) MACHINE LEARNING (Spark) STREAM PROCESSING (Spark) WORKLOAD MANAGER (YARN) Cloudera Manager Agents HDFS DATA INTEGRATION (Squoop) Hình 2.3: Mơ hình logic triển khai Cloudera 15 Các thành phần mô hình : Tên Node Cloudera Manager Server Cloudera Manager Agent 2.4 Thành phần cài đặt Cloudera Manager Server Hadoop namenode Apache Spark YARN Nhiệm vụ Quản lý giám sát toàn node cụm Quản lý hệ thống file metadata Truy vấn thực phân tích liệu in-memory Framework hỗ trợ phát triển ứng dụng phân tán Cung cấp tổng hợp liệu, truy vấn phân tích Nó hỗ Apache Hive trợ phân tích tập liệu lớn lưu HDFS Hadoop cơng cụ dùng trích xuất (extract) liệu từ non-Hadoop Apache Squoop chuyển đổi (transform) chúng vào định dạng mà Hadoop dùng sau nạp (load) chúng vào HDFS Tương tác với Cloudera Manager Server để giám sát tình Cloudera Manager trạng node, quản lý process thực thi node Agent Hadoop datanode Lưu trữ block liệu Triển khai cài đặt, cấu hình hệ thống Cài đặt hệ thống Cloudera cần thành phần sau : Cài đặt JDK Cài đặt Database Cài đặt Cloudera Manager Server Cài đặt Cloudera Manager Agent Cài đặt CDH Manager Service Software Khởi tạo, cấu hình khởi động CDH Managed Services 2.4.1 Cài đặt JDK 2.4.2 Cài đặt Database 2.4.3 Cài đặt Cloudera Manager Server 2.4.4 Cài đặt Cloudera Manager Agent 2.4.5 Cài đặt CDH Manager Service Software 2.4.6 Khởi tạo, cấu hình khởi động CDH Managed Services 16 CHƯƠNG 3: KẾT QUẢ ĐẠT ĐƯỢC KHI XÂY DỰNG HỆ THỐNG CLOUDERA TẠI MOBIFONE Tóm tắt chương Trong chương 3, mô tả chi tiết kết công việc thực để xây dựng hoàn chỉnh hệ thống Cloudera Trung tâm CNTT MobiFone, từ rút kinh nghiệm việc cài đặt triển khai hệ thống cloudera điểm tồn tại, khó khăn hay giải pháp khắc phục trình triển khai 3.1 Kết xây dựng hệ thống Cloudera MobiFone 3.1.1 Quản lý thành phần hệ thống giao diện Cloudera Hệ thống Cloudera cho phép giám sát toàn hệ thống giao diện trực quan, giúp người dùng kiểm tra trạng thái toàn node cụm, trạng thái thành phần, start, stop thành phần hệ thống 3.1.2 Áp dụng Spark để giải toán phân khúc thuê bao Để giải toán đưa ra, liệu toán lưu trữ vào Hadoop, sử dụng Spark MLLib để phân tích liệu Hình 3.1: Quy trình xử lý liệu tốn phân khúc th bao 17 Quy trình xử lý liệu : Loại bỏ thuê bao có số tin nhắn