Công nghệ Big Data và ứng dụng phân tích số liệu kinh doanh của Tập đoàn ViettelCông nghệ Big Data và ứng dụng phân tích số liệu kinh doanh của Tập đoàn ViettelCông nghệ Big Data và ứng dụng phân tích số liệu kinh doanh của Tập đoàn ViettelCông nghệ Big Data và ứng dụng phân tích số liệu kinh doanh của Tập đoàn ViettelCông nghệ Big Data và ứng dụng phân tích số liệu kinh doanh của Tập đoàn ViettelCông nghệ Big Data và ứng dụng phân tích số liệu kinh doanh của Tập đoàn Viettel
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN HỮU THẢO THUẬN CÔNG NGHỆ BIG DATA VÀ ỨNG DỤNG PHÂN TÍCH SỐ LIỆU KINH DOANH CỦA TẬP ĐỒN VIETTEL LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2016 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN HỮU THẢO THUẬN CÔNG NGHỆ BIG DATA VÀ ỨNG DỤNG PHÂN TÍCH SỐ LIỆU KINH DOANH CỦA TẬP ĐỒN VIETTEL CHUN NGÀNH : HỆ THỐNG THƠNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN ĐÌNH HĨA HÀ NỘI - 2016 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình TÁC GIẢ Nguyễn Hữu Thảo Thuận ii LỜI CẢM ƠN Qua luận văn Tôi xin chân thành cảm ơn TS.Nguyễn Đình Hóa - Khoa Cơng nghệ thơng tin - Học viện Cơng nghệ Bưu Viễn thơng tận tình giúp đỡ, động viên, định hướng, hướng dẫn Tôi nghiên cứu hồn thành luận văn Tơi xin cảm ơn thầy cô giáo Học viện Công nghệ Bưu Viễn thơng, thầy giáo khoa Cơng nghệ thơng tin Học viện Cơng nghệ Bưu Viễn thông, giảng dạy giúp đỡ Tôi hai năm học qua, cảm ơn giúp đỡ nhiệt tình bạn đồng nghiệp Trong trình nghiên cứu mình, hướng dẫn nhiệt tình, đầy trách nhiệm TS Nguyễn Đình Hóa thầy cô giáo Học viện Công nghệ Bưu Chính Viễn thơng với nỗ lực cá nhân khơng thể tránh thiếu sót Tác giả chân thành mong nhận ý kiến đóng góp từ q Thầy, Cơ bạn bè đồng nghiệp Trân trọng cám ơn Tác giả iii MỤC LỤC LỜI CAM ĐOAN……… i LỜI CẢM ƠN……… ii DANH MỤC VIẾT TẮT……… v DANH MỤC BẢNG BIỂU……… … vi DANH MỤC HÌNH VẼ……… vii TỔNG QUAN VỀ BIG DATA Khái niệm Big data Các đặc tính việc xử lý Big Data .4 Ứng dụng Big Data tài ngân hàng, bảo hiểm .6 Thương mại .8 Hiện trạng khai thác Big Data giới Việt Nam Tổng quan giải pháp Big Data 11 Google Cloud Platform 11 Amazon EMR 16 Apache Hadoop .26 Kết luận chương 27 CÔNG NGHỆ APACHE HADOOP 28 Giới thiệu Hadoop 28 Các trình Hadoop 32 NameNode .32 DataNode .33 Secondary NameNode 33 JobTracker .34 TaskTracker 34 Kiến trúc tổng thể Hadoop 35 Hệ thống tập tin phân tán Hadoop (HDFS) 38 Hadoop MapReduce 42 Hệ sinh thái sản phẩm kèm Hadoop 47 Kết luận chương 50 ỨNG DỤNG 52 Đặt vấn đề toán ứng dụng 52 Xây dựng hệ thống .55 iv Mơ hình kiến trúc tổng thể 55 Mô tả liệu đầu vào 59 Kết chương trình 60 Trung tâm GPCNTT Viettel 60 Đánh giá chương trình 69 Kết luận chương 71 KẾT LUẬN…… .72 TÀI LIỆU THAM KHẢO 73 v DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt BI minh hóa doanh nghiệp) Big Data Dữ liệu lớn CDR Call Detail Record (Bản ghi chi tiết gọi) CRM Data mining Khai phá liệu Data set Tập liệu ERP Enterprise Resource Planning (Lập kế hoạch nguồn lực doanh nghiệp) IoT Internet Of Things (Internet vạn vật) MIS Management Inventory System (Hệ thống 10 báo cáo điều hành) MultiMedia Đa phương tiện OLTP Online transaction processing (Xử lý giao dịch trực tuyến) 11 OSS 12 Operating support system (Hệ thống hỗ trợ vận hành) PAY-AS-YOU13 Customer Relationship Management (Hệ thống quản lý quan hệ khách hàng) Ý nghĩa Business Intelligence (Hệ thống thống Dùng đến đâu trả đến GO 14 PB Petabytes 15 TB Terabyte vRTAP 16 17 (1 terabyte = ngàn tỷ byte) Viettel Realtime Analytic Processing (Xử lý phân tích thời gian thực) ZB Zetabyte (1 zetabyte = ngàn tỷ tỷ byte ) vi DANH MỤC CÁC BẢNG BIỂU Bảng 3.1Bảng đánh giá hệ thống 69 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Thống kê nguồn liệu Hình 1.2 Biểu đồ google trends quan tâm tới sản phẩm phân tích liệu giới Hình 1.3 Nhà cung cấp dịch vụ lập kế hoạch đầu tư vào Big Data phân tích sâu 10 Hình 1.4 Mơ hình kiến trúc mẫu hệ thống Big Data google 12 Hình 1.5 Mơ hình kiến trúc tích hợp Amazon webservice điển hình 18 Hình 2.1 Mơ hình Hadoop lưu trữ liệu phân tán hệ thống Hadoop Distributed File System (HDFS) .30 Hình 2.2 Mơ hình Hadoop xử lý liệu song song phân tán nút 30 Hình 2.3 Tương tác JobTracker TaskTracker .34 Hình 2.4 Cấu trúc liên kết nhóm Hadoop điển hình 35 Hình 2.5 Mơ hình kiến trúc tổng quát Hadoop 36 Hình 2.6 Sơ đồ kiến trúc hệ thống HDFS 39 Hình 2.7 Sơ đồ trình client đọc file HDFS 40 Hình 2.8 Sơ đồ trình ghi file HDFS 41 Hình 2.9 Sơ đồ thành phần Map Reduce 42 Hình 2.10 Sơ đồ luồng hoạt động Map Reduce 44 Hình 2.11 Sơ đồ luồng hoạt động Map 45 Hình 2.12 Sơ đồ luồng hoạt động Reduce 46 Hình 2.13 Sơ đồ luồng thơng báo TaskTracker hồn thành Reduce Task 47 Hình 2.14 Hình vẽ hệ sinh thái sản phẩm Hadoop .48 Hình 3.1 Mơ hình kiến trúc tổng thể hệ thống xử lý số liệu kinh doanh 55 Hình 3.2 Hình vẽ vào chức xem biểu đồ 60 Hình 3.3 Hình vẽ hình tìm kiếm 61 Hình 3.4 Hình vẽ vào chức xem biểu đồ 61 Hình 3.5 Hình vẽ kết xem biểu đồ 62 Hình 3.6 Hình vẽ vào chức xem biểu đồ 63 viii Hình 3.7 Hình vẽ vào chức xem biểu đồ 63 Hình 3.8 Hình vẽ vào chức xem biểu đồ 64 Hình 3.9 Hình vẽ kết chức xem biểu đồ 64 Hình 3.10 Hình vẽ vào chức xem biểu đồ 65 Hình 3.11 Hình vẽ vào chức xem biểu đồ 65 Hình 3.12 Hình vẽ vào chức xem biểu đồ 66 Hình 3.13 Hình vẽ kết chức xem biểu đồ 66 Hình 3.14 Hình vẽ vào chức xem biểu đồ 67 Hình 3.15 Hình vẽ vào chức xem biểu đồ 67 Hình 3.16 Hình vẽ vào chức xem biểu đồ 68 Hình 3.17 Hình vẽ kết xem biểu đồ 68 59 Hệ thống phát triển tảng ứng dụng web theo mơ hình MVC Là giao diện kết nối với người sử dụng cuối Hỗ trợ tạo báo cáo đa chiều, xem trực tiếp giao diện web xuất liệu định dạng khác nhau: pdf, xls, … Mô tả liệu đầu vào Ví dụ mẫu file liệu: SERVICE_PK|F_VALUE|F_VALUE_MONTH|PRD_ID|DEP_ID|UNIT_ID 240|17|109|20140504|VTC|10 149|682897|2713950|20140504|VTC|12 150|4379|18038|20140504|VTC|12 242|7160|-1468|20140504|VTC|10 210|22842|98336|20140504|VTC|10 323|1199724|4472485|20140504|VTC|12 215|22116|-60112|20140504|VTC|10 230|23|156|20140504|VTC|10 28|674853|2686636|20140504|VTC|12 211|1817203|1817203|20140504|VTC|10 212|501242|-79130|20140504|VTC|10 231|4681|4681|20140504|VTC|10 232|1438|-403|20140504|VTC|10 241|104790|104790|20140504|VTC|10 319|3872008|3872008|20140504|VTC|12 214|257204|257204|20140504|VTC|10 151|14365|57541|20140504|VTC|12 320|9848748|9848748|20140504|VTC|12 Mỗi file CDR chứa nhiều ghi liệu giao dịch Mỗi ghi gồm thông tin sau: SERVICE_PK: Mã tiêu F_VALUE: giá trị 60 F_VALUE_MONTH: giá trị lũy kế PRD_ID: ngày định dạng(yyyyMMdd) DEP_ID: mã thị trường UNIT_ID: đơn vị tính Kết chương trình Trung tâm GPCNTT Viettel 3.4.1.1 Biểu đồ lợi nhuận tháng theo doanh thu tài Biểu đồ lợi nhuận tháng theo doanh thu tài thể số liệu kế hoạch năm n, thực năm n thực năm n-1 theo tháng năm Dạng biểu đồ biểu đồ đường 3.4.1.1.1 Hướng dẫn xem biểu đồ + Bước 1: Sau nhập liệu lên hệ thống, theo thời gian quy định hệ thống tổng hợp liệu lên biểu đồ Để xem liệu biểu đồ, người dùng đăng nhập vào hệ thống xem biểu đồ chọn tên biểu đồ cần xem Biểu đồ lợi nhuận tháng theo doanh thu tài Hình 3.2 Hình vẽ vào chức xem biểu đồ 61 Khi hiển thị hình biểu đồ sau với năm mặc định năm tại, Đơn vị mặc định tên group VTICT: Hình 3.3 Hình vẽ hình tìm kiếm Biểu đồ lợi nhuận tháng theo doanh thu tài thể liệu 12 tháng thuộc năm chọn Ví dụ: Muốn nhập xem liệu lợi nhuận tháng theo doanh thu tài 12 tháng năm 2015 theo số liệu nhập file mẫu người dùng thực nhập theo bước Khi xem liệu người dùng chọn năm 2015 chọn Đơn vị Trung tâm Giải pháp CNTT Viễn thơng hình dưới, sau ấn nút Hình 3.4 Hình vẽ vào chức xem biểu đồ : 62 Khi hiển thị Biểu đồ lợi nhuận tháng theo doanh thu tài năm 2015 theo số liệu nhập sau: Hình 3.5 Hình vẽ kết xem biểu đồ Chú ý: + Dữ liệu năm hiển thị tới tháng n-1 Trong đó: N tháng + Người dùng xem biểu đồ dạng excel pdf cách ấn nút 63 3.4.1.2 Biểu đồ lợi nhuận tháng theo tổng doanh thu Biểu đồ lợi nhuận tháng theo tổng doanh thu thể số liệu kế hoạch năm n, thực năm n thực năm n-1 theo tháng năm.Dạng biểu đồ biểu đồ đường 3.4.1.2.1 Hướng dẫn xem biểu đồ + Bước 1: Sau nhập liệu lên hệ thống, theo thời gian quy định hệ thống tổng hợp liệu lên biểu đồ Để xem liệu biểu đồ, người dùng đăng nhập vào hệ thống xem biểu đồ chọn tên biểu đồ cần xem Biểu đồ lợi nhuận tháng theo tổng doanh thu Hình 3.6 Hình vẽ vào chức xem biểu đồ Khi hiển thị hình biểu đồ sau với năm mặc định năm tại, Đơn vị mặc định tên group VTICT: Hình 3.7 Hình vẽ vào chức xem biểu đồ 64 Biểu đồ lợi nhuận tháng theo tổng doanh thu thể liệu 12 tháng thuộc năm chọn Ví dụ: Muốn nhập xem liệu lợi nhuận tháng theo tổng doanh thu 12 tháng năm 2015 theo số liệu nhập file mẫu người dùng thực nhập theo bước Khi xem liệu người dùng chọn năm 2015 chọn Đơn vị Trung tâm Giải pháp CNTT Viễn thơng hình dưới, sau ấn nút : Hình 3.8 Hình vẽ vào chức xem biểu đồ Khi hiển thị Biểu đồ lợi nhuận tháng theo tổng doanh thu năm 2015 theo số liệu nhập sau: Hình 3.9 Hình vẽ kết chức xem biểu đồ Chú ý: + Dữ liệu năm hiển thị tới tháng n-1 Trong đó: N tháng + Người dùng xem biểu đồ dạng excel pdf cách ấn nút 65 3.4.1.3 Biểu đồ tiến độ launching sản phẩm đại trà/lõi Biểu đồ tiến độ launching sản phẩm đại trà/lõi thể số liệu kế hoạch năm n, thực năm n theo tháng năm.Dạng biểu đồ biểu đồ đường 3.4.1.3.1 Hướng dẫn xem biểu đồ + Bước 1: Sau nhập liệu lên hệ thống, theo thời gian quy định hệ thống tổng hợp liệu lên biểu đồ Để xem liệu biểu đồ, người dùng đăng nhập vào hệ thống xem biểu đồ chọn tên biểu đồ cần xem Biểu đồ tiến độ lauching sản phẩm đại trà/lõi Hình 3.10 Hình vẽ vào chức xem biểu đồ Khi hiển thị hình biểu đồ sau với năm mặc định năm tại, Đơn vị mặc định tên group VTICT: Hình 3.11 Hình vẽ vào chức xem biểu đồ 66 Biểu đồ tiến độ lauching sản phẩm đại trà/lõi thể liệu 12 tháng thuộc năm chọn Ví dụ: Muốn nhập xem liệu tiến độ lauching sản phẩm đại trà/lõi 12 tháng năm 2015 theo số liệu nhập file mẫu người dùng thực nhập theo bước Khi xem liệu người dùng chọn năm 2015 chọn Đơn vị Trung tâm Giải pháp CNTT Viễn thơng hình dưới, sau ấn nút : Hình 3.12 Hình vẽ vào chức xem biểu đồ Khi hiển thị Biểu đồ tiến độ lauching sản phẩm đại trà/lõi năm 2015 theo số liệu nhập sau: Hình 3.13 Hình vẽ kết chức xem biểu đồ Chú ý: + Dữ liệu năm hiển thị tới tháng n-1 Trong đó: N tháng + Người dùng xem biểu đồ dạng excel pdf cách ấn nút 67 3.4.1.4 Biểu đồ tiến độ lauching tổng thể Biểu đồ tiến độ launching tổng thể thể số liệu kế hoạch năm n, thực năm n theo tháng năm.Dạng biểu đồ biểu đồ đường 3.4.1.4.1 Hướng dẫn xem biểu đồ + Bước 1: Sau nhập liệu lên hệ thống, theo thời gian quy định hệ thống tổng hợp liệu lên biểu đồ Để xem liệu biểu đồ, người dùng đăng nhập vào hệ thống xem biểu đồ chọn tên biểu đồ cần xem Biểu đồ tiến độ lauching tổng thể Hình 3.14 Hình vẽ vào chức xem biểu đồ Khi hiển thị hình biểu đồ sau với năm mặc định năm tại, Đơn vị mặc định tên group VTICT: Hình 3.15 Hình vẽ vào chức xem biểu đồ 68 Biểu đồ lợi nhuận tháng theo tiến độ lauching tổng thể thể liệu 12 tháng thuộc năm chọn Ví dụ: Muốn nhập xem liệu lợi nhuận tháng theo tiến độ lauching tổng thể 12 tháng năm 2015 theo số liệu nhập file mẫu người dùng thực nhập theo bước Khi xem liệu người dùng chọn năm 2015 chọn Đơn vị Trung tâm Giải pháp CNTT Viễn thông hình dưới, sau ấn nút : Hình 3.16 Hình vẽ vào chức xem biểu đồ Khi hiển thị Biểu đồ tiến độ lauching tổng thể (Sản phẩm Đại trà, Lõi, Dự án, Đề tài nghiên cứu) năm 2015 theo số liệu nhập sau: Hình 3.17 Hình vẽ kết xem biểu đồ Chú ý: + Dữ liệu năm hiển thị tới tháng n-1 Trong đó: N tháng + Người dùng xem biểu đồ dạng excel pdf cách ấn nút 69 Đánh giá chương trình So sánh vRTAP với sản phẩm khác: So sánh với sản phẩm ZTE BI Viettel BI: - Bảng 3.1 Bảng đánh giá hệ thống Tiêu chí vRTAP Nghiệp vụ Phân tích Viettel BI ZTE BI Có Khơng Khơng Có Khơng Khơng Có Có Có File System RDBMS RDBMS RDBMS RDBMS Cluster Cluster Mainframe computing computing - Máy chủ liệu thời gian thực RTAP Chiến dịch thời gian thực Campaign Online Tổng hợp báo cáo điều hành MIS Giải pháp Lớp tổ sở: HDFS (Big Foundation Data, NoSQL) chức Kho layer liệu Lớp phân tích: Analysis layer Giải pháp xử xử lý lý liệu Mơ hình - Tính tốn - Tính tốn cấu hình cụm máy chủ cụm máy khủng cấu hình bình chủ cấu hình - Hướng mở thường bình thường rộng nâng 70 - Hướng mở rộng - Hướng mở cấp cấu hình tăng rộng tăng máy chủ thêm số lượng thêm số lượng Hạt nhân xử lý máy chủ máy chủ Apache Pentaho Spark/Shark Job Giải thuật xử lý Oracle Kettle Job Procedure In-memory Local Massively Map-Reduce Machine Parallel Workflow Processing Engine Cách thức xây dựng Cấu hình trực Cấu hình trực Lập quan UI quan UI PL/SQL Lập trình Scala ETL job Giải pháp Cho tồn Chỉ cho phần Chỉ đảm bảo tính sẵn phân hệ: sàng (HA) Apache Spark Job: procedure: Giải pháp tự Oracle RAC Apache xây ZooKeeper pháp Báo truyền cáo liệu Eclipse BIRT, Eclipse BIRT, Eclipse thống, nâng cấp: trình diễn báo cáo biểu đồ nâng cấp: kết nối kết nối DataSource - Hỗ DataSource trợ - unicode - Hỗ trợ ATTT Báo phân tích cáo BIRT - Tuning hiệu - Tuning hiệu dashboard Pentaho đa Mondrian cho thực thi ETL phần LineAge Giải trình Hỗ trợ unicode - Hỗ trợ ATTT Pentaho IBM Mondrian Cognos 71 chiều OLAP (ROLAP) - Truy (ROLAP) vấn - chậm - Lưu Tích hợp tiêu vấn - Truy vấn chậm trữ - không giới hạn Các Truy (MOLAP) Lưu nhanh trữ - Lưu trữ không giới hạn hạn chế Có Có Khơng Có Có Khơng chí VSA/Passport Hỗ trợ đa khác ngôn ngữ Hỗ trợ đa tảng Hỗ trợ Hỗ trợ Chỉ hỗ trợ web phiên phổ phiên phổ IE browser Khả dụng dụng FireFox, FireFox, Chrome, IE Chrome, IE Rất cao Cao Thấp kinh doanh Kết luận chương Trong chương trình, tác giả giới thiệu toán số liệu mẫu kinh doanh Tập đồn Viettel, trình bày kiến trúc ngun lý hoạt động hệ thống cần xây dựng, tác giả mô tả rõ kết chạy chương trình ứng dụng sau xây dựng xong, thực so sánh với hệ thống Qua nghiên cứu kết chạy ứng dụng, qua so sánh tính vượt trội so với sản phẩm sử dụng Tập đoàn Viettel sản phẩm thương mại giới, nhận xét luận văn đạt mục tiêu đề phân tích số liệu kinh doanh Tập đồn Viettel, từ cung cấp tranh tổng quan, đa chiều tình hình kinh doanh Tập đoàn hỗ trợ nhà quản lý điều hành đưa định nhanh chóng, kịp thời 72 KẾT LUẬN Trong thời đại nay, với bùng nổ liệu, khối lượng liệu doanh nghiệp vô lớn Việc phân tích, xử lý, khai thác liệu Big data thời gian thực để đưa kết nhanh chóng, xác hỗ trợ nhà quản lý đưa định kinh doanh kịp thời quan trọng, tạo sức mạnh cạnh tranh lớn cho doanh nghiệp, đặc biệt doanh nghiệp viễn thông Xuất phát từ thân tác giả kỹ sư giải pháp phần mềm Tập đoàn Viettel, tác giả lựa chọn nghiên cứu công nghệ Big data ứng dụng để xây dựng hệ thống xử lý số liệu kinh doanh tập đoàn Viettel để thực luận văn Với tác giả công nghệ Big data công nghệ mới, việc nghiên cứu thời gian ngắn nên chưa khám phá lĩnh hội hết công nghệ Tuy nhiên qua trình nghiên cứu luận văn, tác giả thu số kết nhận thấy số hạn chế sau: Kết đạt Về mặt lý thuyết, tác giả có nghiên cứu Big data, công nghệ Big data giới, hiểu sâu công nghệ Apache Hadoop Về mặt thực nghiệm, tác giả xây dựng hệ thống xử lý số liệu kinh doanh Tập đồn Viettel dựa cơng nghệ Apache Hadoop Tác giả có phân tích, đánh giá kết thực nghiệm Hạn chế Kết thực liệu chưa đủ lớn (chỉ với liệu thử nghiệm 22 tháng từ năm 2014 đến năm 2016), mơ hình phân tích đơn giản, tập trung vào liệu có cấu trúc Ngồi ra, thời gian thực luận văn có hạn nên tác giả chưa nghiên cứu để sử dụng thuật toán học máy để đánh giá xu dự báo kết kinh doanh tương lai Hướng phát triển Trong thời gian tới, tác giả tiếp tục ứng dụng rộng rãi hệ thống cho liệu thật, khơng có cấu trúc, tiếp tục nghiên cứu thuật toán học để đánh giá xu cho việc phân tích dự báo kết tương lai 73 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Tập san tin học quản lý Tập 03, số 1&2, 2014, 53-73 (2014) Bigdata tranh tồn cảnh, Khoa Hệ Thống Thơng Tin Kinh Doanh – ĐH Kinh Tế HCM Tài liệu Tiếng Anh [2] O'Reilly Media Team (2012), Big Data Now (2012 Edition), O'Reilly Media [3] Mike Barlow (2013), Real-Time Big Data Analytics (2013 Edition), O'Reilly Media [4] Tom White (2012), Hadoop: The Definitive Guide, 3rd Edition (2012 Edition), O'Reilly Media [5] Alex Holmes (2012), Hadoop in Practice (2012 Edition), Manning