Untitled ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CƠNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CƠNG TÁC DỰ BÁO TRONG VIỄN THƠNG Chun ngành: Hệ thống thơng tin Mã số: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán hướng dẫn: PGS TS Phan Xuân Hiếu Hà Nội - 2019 LỜI CẢM ƠN Tôi xin trân trọng cảm ơn thầy cô Khoa Công nghệ Thông tin tạo điều kiện cho học viên lớp cao học K24CNTT môi trường học tập thuận lợi, đồng thời truyền đạt cho vốn kiến thức quý báu, tư khoa học để phục vụ cho q trình học tập cơng tác tơi Đặc biệt, tơi xin được bày tỏ lịng biết ơn sâu sắc đến PGS.TS PHAN XUÂN HIẾU tận tình bảo cho tơi suốt q trình học tập nghiên cứu, giúp tơi có nhận thức đắn kiến thức khoa học, tác phong học tập làm việc Tôi xin gửi lời cảm ơn đến bạn lớp Cao học Hệ thống Thông tin K24CNTT khóa 2016- 2018 giúp đỡ tơi suốt thời gian học tập Cuối cùng, xin được gửi lời cảm ơn tới gia đình, đờng nghiệp, người thân động viên, giúp đỡ tơi q trình hồn thành luận văn Do vốn kiến thức lý luận kinh nghiệm thực tiễn cịn nên luận văn khơng tránh khỏi thiếu sót Tơi xin trân trọng tiếp thu ý kiến thầy, cô, bạn bè để luận văn được hoàn thiện Trân trọng cám ơn LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm được trình bày luận văn thực dưới hướng dẫn PGS.TS Phan Xuân Hiếu được thực trình hợp tác nghiên cứu Tập đồn Cơng nghiệp - Công nghệ Cao Viettel đối tácra Tất tham khảo từ nghiên cứu liên quan được nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà nội, ngày 12 tháng 11 năm 2019 Học viên Nguyễn Chung Thành Hưng MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN i MỤC LỤC i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC CÁC BẢNG i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .iii MỞ ĐẦU CHƯƠNG TỔNG QUAN 1.1 CÁC KHÁI NIỆM CƠ BẢN 1.1.1 Khái niệm chung liệu lớn 1.1.2 Các khái niệm lưu trữ liệu lớn 1.1.3 Các khái niệm xử lý liệu lớn 10 1.1.4 Cái khái niệm phân tích liệu loại hình phân tích liệu 13 1.2 Hệ thống phân tích liệu lớn 17 1.2.1 Công nghệ lưu trữ liệu BigData .17 1.2.1.1 Công nghệ lưu trữ đĩa cứng 17 1.2.1.2 Công nghệ lưu trữ nhớ (In-Memory Databases) 19 1.2.2 Xử lý liệu BigData 22 1.2.2.1 Xử lý liệu với mơ hình Map-Reduce 22 1.2.2.2 Các tác vụ Map Reduce .23 1.2.3 Kỹ thuật phân tích bigdata 25 1.3 Các BÀI TOÁN PHÂN TÍCH DỰ BÁO 28 1.3.1 Bài toán phân tích dự báo .28 1.3.2 Các mơ hình dự báo .28 1.3.2.1 Mơ hình dự báo dựa thuật toán định: .28 1.3.2.2 Mơ hình dự báo Gradient Boosting 30 1.3.3 Các kỹ thuật phân tích dự báo 31 1.3.3.1 Tạo biến đặc trưng 31 1.3.3.2 Kỹ thuật lựa chọn đặc trưng 32 1.3.3.3 Huấn luyện xác thực mơ hình dự báo 34 1.3.3.4 Đánh giá mơ hình dự báo .35 1.3.4 Giới thiệu cơng cụ phân tích Rapidminer .42 CHƯƠNG 44 PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN 44 2.1 CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG 44 2.1.1 Một số ứng dụng hệ thống phân tích liệu lớn phổ biến 44 2.1.1.1 Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) 45 2.1.1.2 Giám sát, quản lý tối ưu mạng lưới (Network OAM) .47 2.1.1.3 Phân tích hoạt động (Operation Analytics) 48 2.1.1.4 Kiếm tiền từ liệu (Data Monetization) 50 2.1.2 Hiện trạng Viettel 50 2.1.2.1 Các nguồn liệu lớn Viettel 50 2.1.2.2 Các hệ thống phân tích liệu lớn Viettel 51 2.2.1.1 Tầng Data Ingestion .53 2.2.1.2 Tầng Data Processing .53 2.2.1.3 Tầng Data Analysis Layer 54 2.2.1.4 Tầng Data Visualization 54 2.2.1.5 Tầng Data Repository 54 2.2.1.6 Tầng Data Govenance 55 2.2.2 Mơ hình tở chức thực tế hệ thống BigData Viettel 55 2.2.2.1 Tầng lưu trữ xử lý liệu 56 2.2.2.2 Tầng truy xuất liệu 57 2.2.3 Các công nghệ tảng hệ thống liệu lớn .57 2.2.4 Các phân hệ cài đặt Cloudera BigData Enterprise flatform: 60 CHƯƠNG 62 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG 62 DỰ BÁO THUÊ BAO RỜI MẠNG 62 3.1 NỘI DUNG THỰC NGHIỆM 62 3.1.1 Định nghĩa thuê bao rời mạng 62 3.1.2 Bài toán yêu cầu 62 3.1.3 Các bước thực nghiệm .63 3.2 TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM 63 3.2.1 Xây dựng hệ thống phân tích BigData thực nghiệm .63 3.2.1.1 Mơ hình triển khai Logic 63 3.2.1.2 Mơ hình triển khai vật lý thơng số hệ thống 64 3.2.1.3 Cài đặt, cấu hình thành phần hệ thống thực nghiệm 65 3.2.1.4 Nguồn liệu 67 3.2.1.5 Luồng xử lý khai phá liệu 68 3.2.2 Xây dựng mơ hình dự báo TBRM 69 3.3 CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO .70 3.3.1 Khám phá liệu tạo biến đặc trưng 70 3.3.1.1 Bảng liệu gọi thuê bao (VOICE_OG) 70 3.3.1.2 Dữ liệu gọi đến thuê bao (VOICE_IC) .71 3.3.1.3 Dữ liệu nhắn tin thuê bao (SMS_OG) 71 3.3.1.4 Dữ liệu nhắn tin đến thuê bao (SMS_IC) 72 3.3.1.5 Dữ liệu sử dụng Data thuê bao (GPRS) 72 3.3.1.6 Dữ liệu tiêu dùng hàng ngày thuê bao (TOT_CHARGE_DAILY).73 3.3.1.7 Dữ liệu thông tin nạp tiền (TOPUP) 73 3.3.1.8 Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .74 3.3.1.9 Dữ liệu trừ cước phí gói sử dụng theo chu kỳ (DAILYFEE) 74 3.3.1.10 Dữ liệu tổng hợp charge cước sử dụng dịch vụ VAS (VAS_CDR_DAY) .75 3.3.1.11 Dữ liệu home (HOME_ACC) 75 3.3.1.12 Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) 75 3.3.2 Lựa chọn đặc trưng mơ hình hóa .76 3.3.2.1 Lựa chọn thuộc tính quan trọng bằng thuật toán Decision Tree 76 3.3.2.2 Huấn luyện xác nhận mô hình rời mạng 79 3.3.3 Tối ưu mơ hình dự báo 80 3.3.3.1 Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng 81 3.3.3.2 Tìm tỷ lệ tối ưu xác nhận phân tách 81 3.3.3.3 Tìm cỡ mẫu tối ưu cho huấn luyện 82 3.3.3.4 Tối ưu mơ hình bằng cách lựa chọn lại đặc trưng 82 3.3.3.5 Xác định lại tham số mơ hình tối ưu 82 3.3.3.6 Lựa chọn mơ hình dự đốn tốt nhất .83 3.3.3.7 Chạy lại mơ hình dự báo với thuật tốn Gradien Booting 83 3.4 ĐÁNH GIÁ THU HOẠCH 84 3.4.1 Kết đầu hệ thống phân tích, dự báo thuê bao rời mạng 84 3.4.2 Tri thức thu được sau thực nghiệm 84 KẾT LUẬN 86 TÀI LIỆU THAM KHẢO 87 PHỤ LỤC 1.1 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC PHÂN THEO NHÓM HÀNH VI 90 PHỤ LỤC 1.2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO NHÓM HÀNH VI 93 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu/chữ viết tắt ACID AUC AUROC BASE BLOB CAP CEM 10 11 12 13 14 15 16 17 18 19 20 21 CEP CNN DBM DBN DT ETL FN FP FPR GBM GBRT ID3 IG IMDB 22 IMDG 23 24 25 26 IOB IoT LS M2M 27 MDA Ý nghĩa Atomicity, Consistency, Isolation, Durability (Nguyên tắc thiết kế ACID) Area Under the Curve Area Under the Receiver Operating Characteristics Basically Available, Soft state, Eventual consistency (Nguyên tắc thiết kế BASE) Binary Large Object Consistency, Availability and Partition Tolerance (Nguyên lý CAP) Customer Experience Management (Quản lý trải nghiệm khách hàng) Complex Event Processing Convolutional Neural Network Deep Boltzmann Machine Deep Belief Networks Daytype Extract Transform Load (Trích xuất liệu) False Negative False Positive False Positive Rate/Fall-out Gradient Boosting Machines Gradient Boosting Regression Trees Interactive Dichotomizer Information Gain (Độ tăng thông tin) In-Memory Databases (Cơ sở liệu nhớ) In-Memory Data Grids (Công nghệ lưu trữ liệu nhớ) In-of-bag Internet Of Things Learning Set (Tập huấn luyện) Machine to Manchine Mean Decrease Accuracy (Độ xác giảm bình quân cho biến) STT Ký hiệu/chữ viết tắt 28 MDG 29 30 31 OOB POD QC 32 RDBMS 33 34 35 36 37 38 39 40 41 42 RF ROC S/N SVM TB TBRM TN TP TPR WFLD Ý nghĩa Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với biến) Out-of-bag Period of Day Quality Call Relation DB Management Systems (Hệ thống lưu trữ sở liệu quan hệ) Random Forest Receiver Operating Characteristics Signal/Noise (Tỷ lệ tín hiệu nhiễu) Support Vector Machines Thuê bao Thuê bao rời mạng True Negative True Positive True Positive Rate/Sentivity/Recall Weeks Before Last Date DANH MỤC CÁC BẢNG STT Chương Mục Bảng 1 1.3.3.1 Bảng 1.1 1.3.3.2 Bảng 1.2 3 3.2.1.2 Bảng 3.1 3.2.1.4 Bảng 3.2 3.3.1.1 Bảng 3.3 3.3.1.2 Bảng 3.4 3.3.1.3 Bảng 3.5 3.3.1.4 Bảng 3.6 3.3.1.5 Bảng 3.7 10 3.3.1.6 Bảng 3.8 11 3.3.1.7 Bảng 3.9 12 3.3.1.8 Bảng 3.10 13 3.3.1.9 Bảng 3.11 14 3.3.1.10 Bảng 3.12 15 3.3.1.11 Bảng 3.13 16 3.3.1.12 Bảng 3.14 17 3.3.2.1 Bảng 3.15 18 3.3.2.2 Bảng 3.16 19 3.3.2.2 Bảng 3.17 Tên bảng Các thuộc tính ví dụ Ngày Khách truy cập thuộc tính được trích xuất IsWeekendDayfDayg Các phương pháp trích chọn thuộc tính Cấu hình hệ thống phân tích BigData thực nghiệm Ng̀n liệu hệ thống phân tích BigData thực nghiệm Các biến đặc trưng cho liệu gọi thuê bao Các biến đặc trưng cho liệu gọi đến thuê bao Các biến đặc trưng cho liệu nhắn tin thuê bao Các biến đặc trưng cho liệu nhắn tin thuê bao Các biến đặc trưng cho liệu sử dụng Data thuê bao Các biến đặc trưng cho liệu tiêu dùng hàng ngày thuê bao Các biến đặc trưng cho liệu nạp tiền thuê bao Các biến đặc trưng cho liệu số dư tài khoản thuê bao Các biến đặc trưng cho liệu cước phí gói sử dụng theo chu kỳ thuê bao Các biến đặc trưng cho liệu tổng hợp charge cước sử dụng dịch vụ VAS thuê bao Các biến đặc trưng cho liệu home thuê bao Các biến đặc trưng cho liệu thông tin thuê bao, khách hàng Lựa chọn thuộc tính quan trọng bằng thuật toán Decision Tree Validation of the Training Data Set (80% of Total) Validation of the Testing Data Set (20% of Total) KẾT LUẬN Những đóng góp luận văn: Với mục tiêu "TỞ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CƠNG TÁC DỰ BÁO TRONG VIỄN THÔNG" Luận văn nghiên cứu tổng quan liệu lớn, định nghĩa, đặc trưng kiến trúc BigData, nghiên cứu mô hình liệu lớn thực nghiệm cho việc xây dựng công cụ phân tích dự báo TBRM Những kết quả đã đạt luận văn: - Khái quát được số vấn đề kiến trúc BigData, mơ hình liệu lớn, mơ hình phân tích dự báo - Nêu được phương pháp tổ chức, cách triển khai hệ thống BigData xây dựng kịch thực nghiệm phân tích dự báo TBRM với liệu Viettel Hướng phát triển luận văn: - Hồn thiện cơng cụ triển khai thực tế hệ thống phân tích dự báo TBRM, sử dụng có hiệu việc chăm sóc giữ gìn thuê bao Viettel - Tích hợp công cụ vào hệ sinh thái BigData tổng thể Viettel, xem công cụ chính hệ thống chăm sóc khách hàng chủ động (CEM) Ngoài ra, thường xuyên tối ưu mơ hình dự báo để cơng cụ dự báo hoạt động với tỷ lệ ngày chính xác 86 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lò Thị Phương Nhung & Nguyễn Mai Phương, BigData: Tác động và xu hướng phát triển, Tạp chí Khoa học công nghệ Việt Nam, số năm 2017 [2] Vũ Đức Thi, Công nghệ tri thức, Nhà xuất khoa học tự nhiên công nghệ, Hà Nội, tr 17-20 [3] Nguyễn Thanh Thủy, Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Trí Thành - Trí tuệ nhân tạo thời đại số: Bối cảnh giới và liên hệ với Việt Nam – Báo Công thương, (2018) Tiếng Anh [4] Marek Obitko, Industry 4.0 and BigData, http://www stech.cz/ Portals/0/ Konference/ 2015/ 03%20Industry-/ PDF/03_ obitko.pdf [5] Thomas Erl, Wajid Khattak, and Paul Buhler, BigData Fundamentals, Concepts, Drivers & Techniques (2016) [6] E Zeydan, E Bastug, M Bennis, BigData caching for networking: Moving from cloud to edge, (2016) [7] E Baştuğ, M Bennis, E Zeydan - Big Data meets telcos: A proactive caching perspective, (2015) [8] DZ Yazti, S Krishnaswamy, Mobile big data analytics: research, practice, and opportunities, (2014) 87 [9] Y Huang, F Zhu, M Yuan, K Deng, Y Li, B Ni, Telco churn prediction with big data, (2015) [10] I Malaka, I Brown, Challenges to the organisational adoption of big data analytics: a case study in the South African telecommunications industry, (2015) [11] M Matti, T Kvernvik - Ericsson Review [PDF], Applying big-data technologies to network architecture, (2012) [12] Y Chen, C Xu, W Rao, H Min - Octopus: Hybrid big data integration engine, (2015) [13] A Idris, M Rizwan, A Khan - Computers & Electrical Engineering, Churn prediction in telecom using Random Forest and PSO based data balancing in combination with various feature selection strategies, (2012) [14] A Idris, A Khan, YS Lee - Applied intelligence, Intelligent churn prediction in telecom: employing mRMR feature selection and RotBoost based ensemble classification, (2013) [15] D Zhang, M Chen, M Guizani, H Xiong, Mobility prediction in telecom cloud using mobile calls, (2014) [16] A Idris, A Khan, YS Lee, Genetic programming and adaboosting based churn prediction for telecom, (2012) [17] V Mahajan, R Misra, R Mahajan, Review of data mining techniques for churn prediction in telecom, (2015) 88 [18] N Lu, H Lin, J Lu, G Zhang, A customer churn prediction model in telecom industry using boosting (2012) [19] PK Dalvi, SK Khandge, A Deomore, Analysis of customer churn prediction in telecom industry using decision trees and logistic regression, (2016) 89 PHỤ LỤC 1.1 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC - PHÂN THEO NHÓM HÀNH VI Nhóm 1: Thoại là chủ yếu Số gọi tuần cuối trước rời mạng (tức tuần từ 24/61/7/2016):