Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
2,49 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM XUÂN LỘC NGHIÊN CỨU XÂY DỰNG MƠ HÌNH GIẢI PHÁP MÃ NGUỒN MỞ CLOUDERA PHỤC VỤ TRIỂN KHAI ỨNG DỤNG BIG DATA TẠI MOBIFONE LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 e HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM XUÂN LỘC NGHIÊN CỨU XÂY DỰNG MƠ HÌNH GIẢI PHÁP MÃ NGUỒN MỞ CLOUDERA PHỤC VỤ TRIỂN KHAI ỨNG DỤNG BIG DATA TẠI MOBIFONE CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ HẢI NAM HÀ NỘI - 2019 e i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn ký ghi rõ họ tên Phạm Xuân Lộc e ii LỜI CẢM ƠN Tôi xin trân trọng cảm ơn tồn thể thầy Khoa Quốc tế Đào tạo Sau Đại học – Khoa Công nghệ thơng tin – Học viện Cơng nghệ Bưu Viễn thơng tạo điều kiện cho tơi có môi trường học tập tốt đồng thời truyền đạt cho vốn kiến thức quý báu tư khoa học để phục vụ cho trình học tập công tác Tôi xin gửi lời cảm ơn đến bạn lớp Cao học Hệ thống thơng tin M17CQIS01-B khóa 2017- 2019 giúp đỡ tơi suốt thời gian học tập vừa qua Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc đến PGS.TS HÀ HẢI NAM tận tình bảo cho tơi suốt q trình học tập nghiên cứu, giúp tơi có nhận thức đắn kiến thức khoa học, tác phong học tập làm việc Tôi xin gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân động viên, giúp đỡ tơi q trình hồn thành luận văn Cuối tơi xin kính chúc thầy tồn thể bạn học viên trường Học viện Công nghệ Bưu Viễn thơng sức khỏe dồi dào, đạt thành công đường học tập nghiên cứu khoa học Chúc trường ta sớm trở thành cờ đầu giáo dục nước nhà Quốc tế Xin trân trọng cảm ơn! Hà Nội, ngày tháng năm 2018 Tác giả luận văn Phạm Xuân Lộc e iii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU VỀ BIG DATA VÀ GIẢI PHÁP CLOUDERA ÁP DỤNG XÂY DỰNG BIG DATA Tóm tắt chương 1.1 Định nghĩa “Hệ thống Big Data” .3 1.2 Xu hướng phát triển công nghệ Big Data 1.2.1 Tình hình phát triển nhu cầu sử dụng công nghệ Big Data tương lai 1.2.2 So sánh, đánh giá giải pháp mã nguồn mở áp dụng cho Big Data 1.3 Giới thiệu Cloudera 11 1.4 Kiến trúc thành phần mã nguồn mở tảng Cloudera 16 1.4.1 Hadoop .18 1.4.2 Hệ quản trị CSDL: HBase .27 1.4.3 Học máy Apache Mahout 28 1.4.4 Tính tốn nhớ, streaming: Apache Spark 29 1.4.5 Truy vấn song song như: Apache Impala 30 1.4.6 Một số Apache dùng để tổ chức lưu trữ, truy vấn liệu Hadoop 31 1.5 Một số case study điển hình triển khai thành cơng Cloudera 32 CHƯƠNG 2: TRIỂN KHAI XÂY DỰNG HỆ THỐNG CLOUDERA PHỤC VỤ XÂY DỰNG BIG DATA TẠI MOBIFONE 34 Tóm tắt chương 34 2.1 Hiện trạng triển khai áp dụng công nghệ Big Data MobiFone 34 e iv 2.1.1 Hiện trạng tài nguyên máy chủ lưu trữ liệu Big Data 34 2.1.2 Hiện trạng cơng nghệ phân tích liệu cho Big Data MobiFone 35 2.2 Nhu cầu áp dụng công nghệ mã nguồn mở cho Big Data MobiFone .37 2.3 Thiết kế hệ thống Cloudera phục vụ xây dựng BIG DATA MobiFone 38 2.3.1 Bài toán triển khai 38 2.3.2 Mơ hình triển khai 40 2.4 Triển khai cài đặt, cấu hình hệ thống 42 2.4.1 Cài đặt JDK 43 2.4.2 Cài đặt Database 43 2.4.3 Cài đặt Cloudera Manager Server 44 2.4.4 Cài đặt Cloudera Manager Agent 44 2.4.5 Cài đặt CDH Manager Service Software 46 2.4.6 Khởi tạo, cấu hình khởi động CDH Managed Services 48 CHƯƠNG 3: KẾT QUẢ ĐẠT ĐƯỢC KHI XÂY DỰNG HỆ THỐNG CLOUDERA TẠI MOBIFONE 49 Tóm tắt chương 49 3.1 Kết xây dựng hệ thống Cloudera MobiFone .49 3.1.1 Quản lý thành phần hệ thống giao diện Cloudera .49 3.1.2 Áp dụng Spark để giải toán phân khúc thuê bao 52 3.2 Kinh nghiệm cài đặt, triển khai hệ thống Cloudera 57 3.2.1 Một số tồn tại, khó khăn triển khai 57 3.2.2 Các giải pháp khắc phục 58 KẾT LUẬN 59 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 60 e v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Chữ viết tắt API Tiếng Anh Application Programming Interface Tiếng Việt Giao diện lập trình ứng dụng Cloudera Distributed Sản phẩm Cloudera phân phối Hadoop theo phiên hadoop CNTT - Công nghệ thông tin CSDL - Cơ sở liệu FIFO first-in, first-out vào trước-ra trước CDH HDFS Hadoop Distributed File System IoT Internet of Things LZO Lempel–Ziv–Oberhumer NFC ODBC OS Near-Field Hệ thống lưu trữ file Hadoop Mạng lưới vạn vật kết nối Internet Thuật toán nén liệu Công nghệ giao tiếp tầm ngắn Communications Open Database phương pháp truy xuất sở Connectivity liệu chuẩn Operating system Hệ điều hành Giải pháp cung cấp nội dung cho OTT người sử dụng dựa tảng Over The Top Internet REST RFID SMS Representational State Một quy tắc để tạo ứng Transfer dụng Web Service Radio Frequency Nhận dạng tần số sóng Identification vơ tuyến Short Message Services Dịch vụ tin nhắn ngắn e vi SPSS SQL Statistical Package for the Một phần mềm máy tính phục vụ Social Sciences cơng tác phân tích thống kê Structured Query Language VAS Value Added Services WIFI Wireless Fidelity Ngôn ngữ truy vấn có cấu trúc Dịch vụ Giá trị gia tăng Mạng khơng dây sử dụng sóng vơ tuyến e vii DANH SÁCH BẢNG Bảng 1.1: So sánh cloudera Xpress Enterprise 16 Bảng 3.1: Bảng so sánh thành phần giải pháp Cloudera giải pháp IBM 57 e viii DANH SÁCH HÌNH VẼ Hình 1.1: Các loại liệu phổ biến người dùng Hình 1.2: Luồng xử lý liệu lớn Hình 1.3: Mơ hình đốn áp dụng Big Data google dịch cúm 2009 Hình 1.4: Tổng quan thành phần cloudera 17 Hình 1.5: Kiến trúc HDFS 19 Hình 1.6: Luồng đọc liệu HDFS .20 Hình 1.7: Luồng ghi liệu HDFS 21 Hình 1.8: Kiến trúc MapReduce .23 Hình 1.9: Cơ chế hoạt động MapReduce 24 Hình 1.10: Giao tiếp JobTracker TaskTracker 25 Hình 1.11: Quá trình thực maptask 26 Hình 1.12: Quá trình reduce task 27 Hình 1.13: Cách đọc ghi map-reduce 30 Hình 1.14: Cách đọc ghi spark 30 Hình 1.15: Mơ hình kiến trúc tính tốn song song impala 31 Hình 2.1 : Kiến trúc triển khai tổng thể 36 Hình 2.2: Mơ hình phân khúc khách hàng trả trước PWC 39 Hình 2.3: Mơ hình logic triển khai Cloudera 41 Hình 2.4: Cài đặt cloudera Manager agent 45 Hình 2.5: Cài đặt cloudera theo cụm host từ giao diện .45 Hình 2.6: Cài đặt gói apache từ giao diện cloudera 46 Hình 2.7: Kết cài đặt apache cloudera home 47 Hình 2.8: Khởi tạo cấu hình khởi động CDH 48 Hình 3.1: Giám sát trạng thái server cụm từ cloudera manager .50 Hình 3.2: Giám sát tổng quan toàn cụm server từ cloudera manager 51 Hình 3.3: Các tham số cấu hình từ giao diện cloudera manager 51 Hình 3.4: Kiểm tra log hệ thống cloudera 52 Hình 3.5: Quy trình xử lý liệu toán phân khúc thuê bao 52 e 46 2.4.5 Cài đặt CDH Manager Service Software Thực cài đặt gói mong muốn trên web : Hình 2.6: Cài đặt gói apache từ giao diện cloudera e 47 Việc chọn gói muốn cài đặt thực hồn tồn web : Lựa chọn gói muốn cài đặt, sau cài đặt thành công hiển thị giao diện sau: Hình 2.7: Kết cài đặt apache cloudera home e 48 2.4.6 Khởi tạo, cấu hình khởi động CDH Managed Services Thực start thành phần sau cài đặt: Hình 2.8: Khởi tạo cấu hình khởi động CDH e 49 CHƯƠNG 3: KẾT QUẢ ĐẠT ĐƯỢC KHI XÂY DỰNG HỆ THỐNG CLOUDERA TẠI MOBIFONE Tóm tắt chương Trong chương 3, mơ tả chi tiết kết công việc thực để xây dựng hoàn chỉnh hệ thống Cloudera Trung tâm CNTT MobiFone, từ rút kinh nghiệm việc cài đặt triển khai hệ thống cloudera điểm tồn tại, khó khăn hay giải pháp khắc phục trình triển khai 3.1 Kết xây dựng hệ thống Cloudera MobiFone 3.1.1 Quản lý thành phần hệ thống giao diện Cloudera Hệ thống Cloudera cho phép giám sát toàn hệ thống giao diện trực quan, giúp người dùng kiểm tra trạng thái toàn node cụm, trạng thái thành phần, start, stop thành phần hệ thống Giám sát tải CPU, RAM, ổ cứng, trạng thái server cụm : e 50 Đồ thị tải server : Hình 3.1: Giám sát trạng thái server cụm từ cloudera manager e 51 Cũng trạng thái tồn cụm : Hình 3.2: Giám sát tổng quan toàn cụm server từ cloudera manager Giao diện cấu hình tham số : Hình 3.3: Các tham số cấu hình từ giao diện cloudera manager e 52 Quan sát log chạy hệ thống : Hình 3.4: Kiểm tra log hệ thống cloudera 3.1.2 Áp dụng Spark để giải toán phân khúc thuê bao Để giải toán đưa ra, liệu toán lưu trữ vào Hadoop, sử dụng Spark MLLib để phân tích liệu Hình 3.5: Quy trình xử lý liệu tốn phân khúc thuê bao e 53 Quy trình xử lý liệu : Loại bỏ thuê bao có số tin nhắn