Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (LV thạc sĩ)
HỌC ỌC VIỆN CÔNG NGHỆ B BƯU CHÍNH VIỄN ỄN THÔNG - NGUYỄN ĐÌNH QUÝ XÂY DỰNG D KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI LU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2017 HỌC ỌC VIỆN CÔNG NGHỆ B BƯU CHÍNH VIỄN ỄN THÔNG - NGUYỄN ĐÌNH QUÝ XÂY DỰNG D KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI CHUYÊN NGÀNH : MÃ SỐ: S HỆ Ệ THỐNG THÔNG TIN 60.48.01.04 LU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG ỚNG DẪN KHOA HỌC: PGS.TS HÀ HẢI ẢI NAM HÀ NỘI – 2017 LỜI CAM ĐOAN Luận văn thành trình học tập nghiên cứu giúp đỡ, khuyến khích quý thầy cô sau năm theo học chương trình đào tạo Thạc sỹ, chuyên ngành Hệ thống thông tin trường Học viện Công nghệ Bưu Viễn thông Tôi cam đoan công trình nghiên cứu riêng Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo trích dẫn hợp pháp Nguyễn Đình Quý LỜI CÁM ƠN Tôi xin trân trọng cảm ơn thầy cô Khoa công nghệ thông tin tạo điều kiện cho môi trường học tập tốt đồng thời truyền đạt cho vốn kiến thức quý báu, tư khoa học để phục vụ cho trình học tập công tác Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS HÀ HẢI NAM tận tình bảo cho suốt trình học tập nghiên cứu, giúp có nhận thức đắn kiến thức khoa học, tác phong học tập làm việc Tôi xin gửi lời cảm ơn đến bạn lớp Cao học Hệ thống thông tin M15CQIS02-B khóa 2015- 2017 giúp đỡ suốt thời gian học tập vừa qua Cuối cùng, xin gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân động viên, giúp đỡ trình hoàn thành luận văn Do vốn kiến thức lý luận kinh nghiệm thực tiễn nên luận văn không tránh khỏi thiếu sót định Tôi xin trân trọng tiếp thu ý kiến thầy, cô, bàn bè để luận văn hoàn thiện Trân trọng cám ơn Tác giả Nguyễn Đình Quý MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC TỪ VIẾT TẮT Danh sách bảng .6 MỞ ĐẦU Tính cấp thiết đề tài: Tổng quan vấn đề nghiên cứu: Mục đích nghiên cứu: Đối tượng phạm vi nghiên cứu: .7 Phương pháp nghiên cứu: CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA 1.1 Định nghĩa, lịch sử hình thành đặc trưng .9 1.1.1 Định nghĩa Big Data 1.1.2 Đặc trưng Big Data 11 1.2 Cơ kiến trúc Big Data 12 1.2.1 Các thành phần kiến trúc Big Data 12 1.2.2 Kiến trúc Big Data 14 1.2.3 NoSQL quản lý liệu 14 1.3 Tình hình nghiên cứu Big Data giới nước .16 1.4 Kết chương .18 CHƯƠNG 2: THIẾT KẾ KHO DỮ LIỆU BIG DATA 19 CHO VNPT HÀ NỘI 19 2.1 Các mô hình liệu lớn 19 2.1.1 Hadoop Apache .19 2.1.2 Hadoop Distributed File System (HDFS) 24 2.1.3 Map reduce 38 2.2 Kiến trúc MapReduce Engine 42 2.2.1 Kiến trúc thành phần (JobTracker, TaskTracker) 42 2.2.2 Cơ chế hoạt động 42 2.2.3 MapReduce HDFS .47 2.2.4 Phát triển ứng dụng theo mô hình MapReduce với Hadoop MapReduce .48 2.3 Giới thiệu số giải pháp xử lý Big Data khác 51 2.4 Xây dựng mô hình liệu lớn cho VNPT Hà Nội 53 2.3.1 Xác định BigData giải pháp phù hợp cho doanh nghiệp .53 2.3.3 Xác định liệu nguồn 55 2.3.4 Chỉ định sở hạ tầng .56 2.5 Kết chương .58 CHƯƠNG 3: CÀI ĐẶT VÀ THỰC NGHIỆM 59 3.1 Tổng quan Microsoft Azure HDInsight .59 3.1.1 Giới thiệu Microsoft Azure .59 3.1.2 Giới thiệu HDInsight service 60 3.2 Thiết kế big data HDInsight 60 3.2.1 Kịch 1: Iterative exploration (thăm dò lặp) 61 3.2.2 Kịch 2: Kho liệu theo yêu cầu (Data warehouse on demand) .63 3.2.3 Kịch 3: Tự động hóa ETL (ETL automation) 66 3.2.4 Kịch 4: Tích hợp BI (BI integration ) .69 3.3 Thực nghiệm HDInsight 71 3.3.1 Kịch 1: Thăm dò lặp 71 3.3.2 Kịch 2: Kho liệu theo yêu cầu .72 3.3.3 Kịch 3: Tích hợp BI 73 3.4 Cài đặt thực nghiệm 74 3.5 Kết chương .79 KẾT LUẬN .80 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 81 DANH MỤC CÁC HÌNH VẼ STT Chú thích Hình Hình Hình Kiến trúc Big Data Hình Kiến trúc Big Data Hình SocialMe Mobifone Hình Cấu trúc thành phần Hadoop Hình Tổng quan Hadoop Cluster Kiến trúc HDFS Hình Hình Hình Cấu trúc topology mạng 10 Hình 10 Mô hình MapReduce Oracle 11 Hình 11 Hàm Map 12 Hình 12 Hàm Reduce 13 Hình 13 Kiến trúc thành phần Hadoop MapReduce 14 Hình 14 Cơ chế hoạt động Hadoop MapReduce 15 Hình 15 Liên lạc TaskTracker thực thi Maptask JobTracker 16 Hình 16 Cơ chế hoạt động Map task 17 Hình 17 TaskTracker hoàn thành Map task 18 Hình 18 Cơ chế hoạt động Reduce task 19 Hình 19 TaskTracker hoàn thành Reduce task 20 Hình 20 Data locality 21 Hình 21 Phát triển ứng dụng MapReduce Hadoop 22 Hình 22 Spark Cassandra 23 Hình 23 Các hệ thống thông tin VNPT Hà Nội 24 Hình 24 Mô hình 3V Quá trình tạo ghi liệu lên file HDFS Các lựa chọn cho giải pháp liệu lớn dựa tảng Hadoop Microsoft 25 Hình 25 Các tùy chọn lưu trữ liệu cho giải pháp Azure HDInsight 26 Hình 26 Nền tảng tổng quát Microsoft Azure 27 Hình 27 Thiết kế big data HD Insight 28 Hình 28 Iterative exploration (thăm dò lặp) 29 Hình 29 Kho liệu theo mô hình nhu cầu (Data warehouse on demand) 30 Hình 30 Tự động hóa ETL 31 Hình 31 Tổng quan kho liệu doanh nghiệp điển hình triển khai BI 32 Hình 32 Ba cấp độ tích hợp cho liệu lớn với hệ thống BI doanh nghiệp 33 Hình 33 Chu trình tìm kiếm lặp lặp lại để tìm thông tin chi tiết liệu 34 Hình 34 35 Hình 35 Ba cấp độ tích hợp cho liệu lớn với hệ thống BI doanh nghiệp 36 Hình 36 Hiện trạng lưu trữ liệu VNPT Hà Nội 37 Hình 37 Mô hình tổng thể lưu trữ liệu Big Data 38 Hình 38 39 Hình 39 Giao diện hình Hadoop 40 Hình 40 Giao diện hình HBase 41 Hình 41 Giao diện hình quản trị Jobtracker 42 Hình 42 Bảng lịch sử job 43 Hình 43 Thống kê job thực thi việc đồng liệu Thuê bao trả trước 44 Hình 44 Thống kê job thực thi việc đồng liệu Thuê bao trả sau 45 Hình 45 Thống kê job thực thi việc đồng liệu CDR Dùng HDInsight kho liệu để phân tích, báo cáo nguồn liệu kinh doanh Giao diện kho liệu DANH MỤC CÁC TỪ VIẾT TẮT STT Tên viết tắt HDFS GFS NDFS VNPTHN SaaS ETL Chú thích Hadoop Distributed File System Google File System Nutch Distributed File System Viễn thông Hà Nội Software as a Service - phần mềm dịch vụ Extract - tranform load (Trích xuất, chuyển đổi nạp) NDFS RPC Nutch Distributed File System Remote Procedure Calls (tạm dịch lời gọi thủ tục từ xa) Danh sách bảng STT Bảng Bảng Bảng Chú thích Kiểu có cấu trúc Thông tin lưu trữ file XML MỞ ĐẦU Tính cấp thiết đề tài: Trước đây, biết đến liệu có cấu trúc (structure data), ngày nay, với kết hợp liệu internet, xuất dạng khác liệu Big data (dịch “dữ liệu lớn”) Dữ liệu từ nguồn như: hồ sơ hành chính, giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin chúng ta, nói cách khác chúng liệu sản sinh qua trình chia sẻ thông tin trực tuyến liên tục người sử dụng Với mục đích đưa tiến công nghệ vào phục vụ cho sản xuất kinh doanh quan Viễn Thông Hà Nội, xin chọn đề tài nghiên cứu: “XÂY DỰNG KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI” Tổng quan vấn đề nghiên cứu: Tìm hiểu BIG DATA: Tìm hiểu công nghệ liệu lớn (Big data) có Xây dựng kho liệu BIG DATA cho VNPT Hà Nội Mục đích nghiên cứu: Tìm hiểu BIG DATA xây dựng ứng dụng vào thực tiễn phục vụ công việc Đối tượng phạm vi nghiên cứu: 4.1 Đối tượng nghiên cứu: - Big Data (khái niệm, cách hoạt động công nghệ hỗ trợ) - Ứng dụng BIG DATA vào thực tiễn VNPT Hà nội 4.2 Phạm vi nghiên cứu: - Các khái niệm BIG DATA - Một giải pháp mã nguồn mở cho Big Data - Xây dựng liệu Big Data cho VNPT Hà Nội Phương pháp nghiên cứu: 5.1 Phương pháp nghiên cứu tài liệu: - Nghiên cứu lý thuyết BIG DATA hệ thống Công nghệ thông tin với mục tiêu hiểu tảng - Nghiên cứu công nghệ cho hệ thống liệu lớn với mục tiêu hiểu triển khai công nghệ - Tìm hiểu hệ thống liệu phục vụ sản xuất kinh doanh VNPT Hà Nội phục vụ cho sản xuất kinh doanh doanh nghiệp với mục tiêu nắm vững kho liệu có triển khai việc xây dựng Big Data 5.2 Phương pháp thực nghiệm Xây dựng kho liệu Big Data cho VNPT Hà Nội với mục tiêu đưa liệu lớn có cấu trúc có doanh nghiệp vào kho liệu theo định dạng Big Data sử dụng công nghệ mã nguồn mở Dự kiến luận văn cấu trúc với chương sau: Chương 1: Tổng quan BIG DATA Nội dung chương trình bày kiến thức BIG DATA bao gồm giới thiệu lịch sử hình thành, phát triển, tính chất, đặc trưng ứng dụng Big Data nêu tổng quan tình hình nghiên cứu Big Data giới nước, lợi ích triển khai sử dụng Big Data Chương 2: Thiết kế kho liệu Big Data cho VNPT Hà Nội Nội dung chương mô tả toán, nêu lý cần dùng Big Data, mô tả hệ thống sử dụng VNPT Hà Nội mà sở liệu Big Data, đề xuất mô hình Big Data cho doanh nghiệp nêu chi tiết giải pháp đề xuất (mô hình, giải pháp công nghệ chọn) Chương 3: Cài đặt thực nghiệm Nội dung chương mô tả phần cài đặt thực nghiệm với Microsoft Azure HD Insight để tạo tảng tổ chức lưu trữ liệu Big Data 67 Hình cho thấy tổng quan trường hợp sử dụng mô hình cho tự động hoá ETL Nhập liệu chuyển đổi để tạo định dạng đầu phù hợp nội dung liệu, sau nhập vào sở liệu lưu trữ, ứng dụng giải pháp báo cáo Sau đó, ta phân tích, tạo báo cáo kho liệu, thường cách kết hợp liệu nhập với liệu có kho liệu Các ứng dụng công cụ báo cáo dịch vụ sau tiêu thụ liệu định dạng thích hợp sử dụng cho nhiều mục đích khác Hình 30: Tự động hóa ETL [8] Quá trình chuyển đổi bao gồm truy vấn đơn lẻ, có khả yêu cầu trình nhiều bước Ví dụ: sử dụng thành phần Map/ Reduce Pig scripts, sau truy vấn Hive để tạo kết dạng bảng dạng khác Ví dụ: tệp phân cách tab, nhiều dấu cách số định dạng khác thích hợp để nhập vào ứng dụng đích Khi chọn mô hình này: Mô hình tự động hóa ETL thường phù hợp với kịch sau: +Trích xuất chuyển đổi liệu trước tải vào sở liệu có công cụ phân tích +Thực phân loại cấu lại liệu, trích kết tóm tắt để loại bỏ trùng lắp thừa +Chuẩn bị liệu để định dạng có nội dung thích hợp để cung cấp cho ứng dụng dịch vụ khác Nguồn liệu: ví dụ như: +Dữ liệu từ mạng truyền thông xã hội, tệp nhật ký, cảm biến ứng dụng tạo tệp liệu 68 +Bộ liệu thu từ Azure Marketplace nhà cung cấp liệu thương mại khác +Thu thập liệu thu thập, lọc xử lý thông qua công cụ phù hợp Mục tiêu đầu ra: Mô hình thiết kế để tạo đầu định dạng thích hợp cho kho liệu đích Các loại lưu trữ liệu phổ biến là: +Một sở liệu SQL Server Azure SQL Database +Một tài liệu chế chia sẻ tập tin máy chủ SharePoint hệ thống quản lý thông tin khác +Kho liệu cục từ xa định dạng tùy chỉnh, chẳng hạn đối tượng JSON +Cửa hàng liệu đám mây bảng Azure nhớ blob +Các ứng dụng dịch vụ yêu cầu liệu phải xử lý theo định dạng cụ thể tệp chứa loại cấu trúc thông tin cụ thể Có số điểm quan trọng cần xem xét lựa chọn mô hình tự động hóa ETL: Mô hình thường sử dụng khi: +Tải liệu luồng khối lượng lớn liệu bán cấu trúc cấu trúc từ nguồn bên vào sở liệu có hệ thống thông tin + Làm sạch, chuyển đổi, xác nhận liệu trước nạp + Tạo báo cáo hình ảnh hóa cập nhật thường xuyên + Cấp quyền cho ứng dụng khác yêu cầu loại liệu cụ thể Khi đầu dạng bảng, chẳng hạn tạo Hive, trình nhập liệu sử dụng trình điều khiển Hive ODBC Connector, Linq To Hive sử dụng Sqoop (có phân phối Hadoop cài đặt HDInsight) để kết nối sở liệu quan hệ SQL Server Azure SQL Database vào kho liệu HDInsight xuất kết truy vấn vào sở liệu riêng Nếu ta sử dụng hệ thống phân tích APS (Microsoft Analytical Platform System), ta truy cập liệu HDInsight PolyBase, đóng vai trò cầu nối APS HDInsight để trở thành nguồn liệu khác có sẵn để sử dụng truy vấn quy trình APS Nếu đích đến cho liệu Database, ta tạo tệp định dạng thích hợp cho truy vấn Đây định dạng phân cách tab, cột chiều 69 rộng cố định, số định dạng khác để tải vào Excel ứng dụng bên thứ ba để tải lên lưu trữ Azure thông qua lớp truy cập liệu có Lưu trữ bảng Azure sử dụng để lưu liệu định dạng bảng sử dụng khóa Lưu trữ Azure blob phù hợp để lưu trữ liệu nén nhị phân tạo từ truy vấn HDInsight cần lưu để sử dụng lại Nếu thường xuyên cập nhật bảng đích kho liệu có thay đổi liệu nguồn phải chọn sử dụng chế tự động để thực truy vấn trình nhập liệu Nếu dùng lần, ta đặt thực cần thiết 3.2.4 Kịch 4: Tích hợp BI (BI integration ) Các trường hợp sử dụng mô hình tổng quan Business Intelligence-BI, (Kinh doanh thông minh hay trí tuệ doanh nghiệp) Hình 31: Tổng quan kho liệu doanh nghiệp điển hình triển khai BI[8] Dòng liệu từ ứng dụng kinh doanh nguồn bên khác vào kho liệu thông qua quy trình ETL Các mô hình cung cấp cấu trúc phân tích mô hình xử lý phân tích trực tuyến (OLAP) mô hình khai phá liệu Có ba cấp độ tích hợp thể hình sau 70 Hình 32: Ba cấp độ tích hợp cho liệu lớn với hệ thống BI doanh nghiệp[8] Các mức độ tích hợp thể hình là: - Tích hợp mức báo cáo: Các báo cáo phân tích tạo với liệu từ nguồn BI HDInsight, cho phép người dùng kết hợp liệu từ hai giải pháp vào phân tích hợp Cấp độ tích hợp thường sử dụng để tạo kịch khám phá liệu, chạy truy vấn tìm thông tin ẩn để tạo báo cáo, hình ảnh hóa Sử dụng giải pháp liệu lớn theo cách lặp thử nghiệm độc lập, mô tả trường hợp 1: Thăm dò lặp, mở khóa thông tin từ nguồn liệu chưa phân tích Ta sử dụng kỹ thuật sau để tích hợp HDInsight với liệu BI doanh nghiệp cấp báo cáo: + Sử dụng tiện ích Power Query để tải tập tin đầu tạo cluster mở chúng Excel, nhập chúng vào sở liệu để báo cáo + Tạo bảng Hive cluster mở chúng trực tiếp từ Excel (sử dụng Power Query, Power Pivot, Power View Power Map) từ SQL Server Reporting Services (SSRS) cách sử dụng trình điều khiển Hive ODBC + Tải liệu cần thiết dạng tệp từ nhớ chứa Azure blob PowerShell mở Excel công cụ phân tích liệu khác + Tích hợp mức tổ chức liệu HDInsight sử dụng để xử lý liệu kho liệu công ty, kết xử lý sau thêm vào mô hình liệu công ty nơi chúng kết hợp với liệu từ kho liệu sử dụng báo cáo công ty công cụ phân tích Cấp độ tích hợp 71 thường dùng để hiển thị liệu theo định dạng cụ thể cho hệ thống thông tin công cụ báo cáo +Tích hợp mức độ kho liệu HDInsight sử dụng để chuẩn bị liệu để đưa vào kho liệu công ty Dữ liệu tải sau có sẵn toàn giải pháp BI doanh nghiệp Mức độ tích hợp thường sử dụng để tạo bảng độc lập phần cứng sở liệu với kho liệu doanh nghiệp, cung cấp nguồn liệu doanh nghiệp để phân tích để kết hợp liệu vào lược đồ chứa đầy đủ bảng tích hợp vào giải pháp BI 3.3 Thực nghiệm HDInsight 3.3.1 Kịch 1: Thăm dò lặp Kịch chọn để thử nghiệm với nguồn liệu để khám phá thông tin có ích xử lý liệu theo cách mà hệ thống có VNPT Hà Nội không đáp ứng Ví dụ, để thu thập thông tin phản hồi từ khách hàng thông qua email, trang web, diễn đàn nguồn khác trang mạng xã hội Sau tiến hành phân tích để có tranh tổng thể thái độ khách hàng sản phẩm dịch vụ cung cấp VNPT Hà Nội Các thông tin kết hợp với liệu khác liệu địa lý vùng miền nơi sản phẩm dịch vụ VNPT cung cấp Kịch chia làm nhiều giai đoạn Hình 33 - Chu trình tìm kiếm lặp lặp lại để tìm thông tin chi tiết liệu[8] Giai đoạn 1: Khảo sát liệu ban đầu - Dùng Hive để khám phá khối lượng ý kiến phản hồi từ khách hàng VNPT Hà Nội - Dùng Map/Reduce để xác định thuật ngữ thông dụng - Dùng Pig để nhóm tóm tắt số lượng từ Giai đoạn 2: Tinh chỉnh giải pháp 72 - Thêm mã Pig Latin để loại trừ từ nhiễu - Dùng user function xác định để tìm từ tương tự - Dùng tập tin tra cứu để kết hợp từ phù hợp - Chuyển từ danh sách chủ đề sang phân tích tâm lý Giai đoạn 3: Ổn định giải pháp - Dùng HCatalog để tạo bảng Hive - Dùng HCatalog tập lệnh Pig Latin - Hoàn tất trình nhập liệu Tổng hợp kết 3.3.2 Kịch 2: Kho liệu theo yêu cầu Hệ thống liệu lớn dựa Hadoop HDInsight cho phép lưu trữ liệu nguồn kết truy vấn thực liệu Ta lưu trữ lược đồ (hoặc xác, siêu liệu metadata) cho bảng câu truy vấn Các bảng lập index, chế thức để quản lý mối quan hệ dựa khóa chúng Ta tạo kho liệu phức tạp có phí tạo bảo trì hợp lý, đặc biệt hữu ích cần lưu trữ quản lý lượng liệu khổng lồ Các tệp liệu nguồn lấy từ nguồn bên ngoài, liệu nội tạo quy trình ứng dụng kinh doanh VNPT Hà Nội Ta sử dụng mô hình thay cho việc sử dụng kho liệu có dựa mô hình sở liệu quan hệ truyền thống Hình 34: Dùng HDInsight kho liệu để phân tích, báo cáo nguồn liệu kinh doanh[8] 73 Các bước: • Tạo Data Warehouse • Tải liệu cước vào Data Warehouse • Phân tích liệu từ Data Warehouse 3.3.3 Kịch 3: Tích hợp BI Kho liệu có đặc tính khác với sở liệu xử lý giao dịch trực tuyến cần xem xét tích hợp với hệ thống xử lý liệu lớn theo mẻ liệu cước Việc tích hợp thể thực nhiều mức tùy thuộc vào mục tiêu phân tích hướng tới sử dụng giải pháp liệu lớn Việc tích hợp BI (Business Intelligence) vào hệ thống thông tin nhằm hỗ trợ trình định hiệu Hình 35: Ba cấp độ tích hợp cho liệu lớn với hệ thống BI doanh nghiệp[8] • Mục tiêu phân tích Mục tiêu phân tích: Giải pháp BI có cung cấp báo cáo phân tích liệu quan trọng Máy chủ chạy IIS chứa trang web thương mại điện tử tạo tệp nhật ký lưu giữ sử dụng cho mục đích khắc phục cố, tệp nhật ký chưa xem nguồn thông tin kinh doanh hữu hiệu Các máy chủ web tạo tệp nhật ký ngày nhật ký chứa chi tiết yêu cầu nhận xử lý từ trang web, khối lượng liệu lớn cung cấp thông tin chi tiết có ích hoạt động khách hàng trang web Khả phân tích liệu nhật ký tóm tắt hoạt động trang web theo thời gian giúp doanh 74 nghiệp đo lượng liệu chuyển tải yêu cầu web liên quan đến hoạt động trang web với giao dịch bán hàng để hiểu rõ xu hướng mô hình thương mại điện tử Lượng liệu nhật ký phải xử lý để trích xuất thông tin chi tiết lớn nên thường không đưa vào lưu liệu doanh nghiệp Gần đây, công ty định sử dụng HDInsight để xử lý tóm tắt liệu nhật ký để giảm xuống mức quản lý dễ dàng tích hợp vào hệ thống thông tin doanh nghiệp Các nhà phát triển tích hợp kết xử lý ba cấp độ hệ thống BI tại, thể hình dưới, cho phép BI tự phục vụ thông qua Power BI cho Office 365 3.4 Cài đặt thực nghiệm Hệ thống sở liệu lớn (BigData thử nghiệm) VNPT HN lấy liệu từ nguồn sở liệu truyền thống thông qua Oracle DBLink, FTP server đồng vào sở liệu chung hàng ngày, với lượng liệu sau: Hình 36 Hiện trạng lưu trữ liệu VNPT Hà Nội Mục tiêu đề xây dựng kho liệu lớn tích hợp từ nhiều nguồn bao gồm từ mạng xã hội theo định dạng Big Data 75 Hình 37: Mô hình tổng thể lưu trữ liệu Big Data Kịch cụ thể: - Xây dựng môi trường thử nghiệm: cài đặt kho liệu HBASE - Thiết đặt tiến trình (job) đổ liệu vào kho chung - Nghiên cứu kịch để lọc phân tích liệu phần 3.2 Để theo dõi thông số CSDL HBase, vào địa chỉ:localhost:60010/master-status Hình 38: Giao diện kho liệu Để theo dõi thông số tài nguyên Hadoop sử dụng, vào địa chỉ: localhost:50070/dfshealth.html#-datanode 76 Hình ình 39: Giao diện hình Hadoop Để theo dõi thông số s CSDL HBase, vào địa chỉ:localhost:60010/master localhost:60010/master-status Hình 40: Giao diện hình HBase Để theo dõi job thực th thi hàng ngày, NSD vào địa chỉ: localhost:60030/jobtracker.jsp Hình 41: Giao diện hình quản trị Jobtracker 77 Hình 42: Bảng lịch sử job Để theo dõi job thực ực thi việc đồng liệu Thuê Thu bao trả trước (hàng àng ngày), vào địa đ chỉ: localhost:60030/jobdetails.jsp?jobid=… Hình 43: Thống ống kê k job thực thi việc đồng liệu Thuê bao trảả tr trước Để theo dõi job thực ực thi việc đồng liệu Thuê Thu bao trả sau (hàng àng ngày), vào đ địa chỉ: localhost:60030/jobdetails.jsp?jobid=… 78 Hình 44: Thống ống kê k job thực thi việc đồng liệu Thuêê bao trả tr sau Để theo dõi job thực ực thi việc đồng liệu VLR (hàng (h ngày), vào địa ịa chỉ: localhost:60030/jobdetails.jsp?jobid=… Hình 45: 5: Thống Th kê job thực thi việc đồng liệu CDR R 79 3.5 Kết chương Chương nêu kiến thức tổng quan Microsoft Azure HDInsight, cách thiết kế big data HDInsight (bao gồm kịch bản), Thực nghiệm việc chuyển liệu thực tế VNPT Hà Nội vào môi trường có định dạng Big Data, nghiên cứu phương pháp khai thác liệu theo kịch tìm hiểu lý thuyết 80 KẾT LUẬN Những đóng góp luận văn Với mục tiêu XÂY DỰNG KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI Luận văn nghiên cứu tổng quan Big Data, định nghĩa, đặc trưng kiến trúc BigData, nghiên cứu mô hình liệu lớn thực nghiệm việc tạo kho liệu Big Data từ liệu VNPT Hà Nội Những kết đạt luận văn: - Khái quát số vấn đề kiến trúc BigData, mô hình liệu lớn - Nêu phương pháp, cách triển khai BigData xây dựng kịch thực nghiệm với liệu VNPT Hà Nội Hướng phát triển luận văn - Hoàn thiện giải pháp triển khai thực tế kho liệu Big Data cho doanh nghiệp VNPT Hà Nội - Xây dựng ứng dụng khai thác kho liệu Big Data cho doanh nghiệp 81 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Bài giảng môn học Các hệ thống phân tán, PGS.TS Hà Hải Nam – Học Viện Bưu Chính Viễn Thông năm 2016 [2] Bài giảng môn học Hệ điều hành mạng, TS Hoàng Xuân Dậu – Học Viện Bưu Chính Viễn Thông năm 2016 [3] Bài giảng môn học Phương pháp nghiên cứu khoa học, PGS.TS Bùi Trung Hiếu – Học Viện Bưu Chính Viễn Thông năm 2016 [4] Bài giảng môn học Điện toán đám mấy, PGS.TS Hoàng Đăng Hải – Học Viện Bưu Chính Viễn Thông năm 2016 [5] Bài viết học thuật Big Data–What is Big Data–3Vs of Big Data–Volume, Velocity and Variety–Day2 of 21 Xuất bản: 10/2016, https://blog.sqlauthority.com [6] Tài liệu mô tả hệ thống nghiệp vụ VNPT Hà Nội năm 2015 [7] 20533C- Implementing Microsoft Infrastructure Solutions – Microsoft Leaning: xuất năm 2017 [8] Introducing Microsoft Azure HDInsight Microsoft năm 2016 [9] Bài viết học thuật Planning a big data solution https://msdn.microsoft.com/en-us/library/dn749858.aspx Microsoft - Năm 2017 [10 ] Khoa Học Khám Phá - Dữ Liệu Lớn, Tác giả: Viktor Mayer - SchÖnberger & Kenneth Cukier, Nhà Xuất Trẻ dịch xuất 03/2014 [11] Hadoop World 2011: Big Data Analytics – Data Professionals: The New Enterprise Rock Stars - Martin Hall, Karmasphere [12] Các viết trang http://hadoop.apache.org/ [13] https://vi.wikipedia.org/wiki/Apache_Hadoop ... nghiên cứu: “XÂY DỰNG KHO DỮ LIỆU BIG DATA CHO VNPT HÀ NỘI” Tổng quan vấn đề nghiên cứu: Tìm hiểu BIG DATA: Tìm hiểu công nghệ liệu lớn (Big data) có Xây dựng kho liệu BIG DATA cho VNPT Hà Nội Mục... dụng Big Data Chương 2: Thiết kế kho liệu Big Data cho VNPT Hà Nội Nội dung chương mô tả toán, nêu lý cần dùng Big Data, mô tả hệ thống sử dụng VNPT Hà Nội mà sở liệu Big Data, đề xuất mô hình Big. .. dụng BIG DATA vào thực tiễn VNPT Hà nội 4.2 Phạm vi nghiên cứu: - Các khái niệm BIG DATA - Một giải pháp mã nguồn mở cho Big Data - Xây dựng liệu Big Data cho VNPT Hà Nội Phương pháp nghiên cứu: