Luận văn thạc sĩ tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

109 8 0
Luận văn thạc sĩ tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CƠNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CƠNG TÁC DỰ BÁO TRONG VIỄN THƠNG Chun ngành: Hệ thống thơng tin Mã số: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN C ộ : PGS TS Phan Xuân Hiếu Hà Nội - 2019 LỜI CẢM ƠN Tôi xin trân trọng cảm ơn thầy cô Khoa Công nghệ Thông tin tạo điều kiện cho học vi n lớp c o học 24 TT môi trường học tập thuận l i đồng thời truyền đạt cho vốn kiến thức quý báu, tư kho học để phục vụ cho trình học tập công tác Đặc biệt xin đư c bày tỏ lòng biết ơn sâu sắc đến T tận tình bảo cho tơi suốt q trình học tập nghiên cứu, giúp tơi có nhận thức đắn kiến thức khoa học, tác phong học tập làm việc Tôi xin gửi lời cảm ơn đến bạn lớp o học ệ thống Thông tin K24CNTT khóa 2016- 2018 giúp đỡ tơi suốt thời gi n học tập uối xin đư c gửi lời cảm ơn tới gi đình đồng nghiệp người thân động vi n giúp đỡ q trình hồn thành luận văn Do vốn kiến thức lý luận kinh nghiệm thực tiễn cịn nên luận văn khơng tránh khỏi thiếu sót Tơi xin trân trọng tiếp thu ý kiến thầy cơ, bạn bè để luận văn đư c hồn thiện Trân trọng cám ơn i LỜI CAM ĐOAN Tôi xin c m đo n kết nghi n cứu thực nghiệm đư c trình bày luận văn thực hướng d n củ T h n uân đư c thực trình h p tác nghi n cứu giữ Tập đồn nghiệp - ơng nghệ iếu ơng o iettel đối tác T t th m khảo t nghi n cứu li n qu n đư c n u nguồn gốc cách r ràng t d nh mục tài liệu th m khảo củ luận văn Trong luận văn không c việc s o ch p tài liệu cơng trình nghi n cứu củ người khác mà không r tài liệu th m khảo n n y t n n m H Ngu ii C T H MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii MỞ ĐẦU CHƯƠNG 11 TỔNG QUAN Ệ Ả 1 hái niệm chung liệu lớn 1 ác khái niệm lưu trữ liệu lớn 1 ác khái niệm xử l liệu lớn 1 khái niệm phân t ch liệu loại hình phân t ch liệu 13 1.2 Hệ thống phân tích liệu lớn .16 ông nghệ lưu trữ liệu BigData 16 2 l liệu BigData 21 1.2.3 Kỹ thuật phân t ch bigd t n y 25 ác T T Ự 28 ài toán phân t ch dự báo 28 ác mơ hình dự báo 28 3 ác kỹ thuật phân t ch dự báo .30 1.3.4 Giới thiệu cơng cụ phân tích Rapidminer 41 CHƯƠNG PHƯƠNG PH P TỔ CHỨC VÀ T CH HỢP Ữ IỆU ỚN 44 21 ỆT Ố T Ữ Ệ Ớ T Ễ T 44 1 ột số ứng dụng hệ thống phân t ch liệu lớn phổ biến n y 44 2 iện trạng củ iettel 50 2 hình tổ chức thực tế hệ thống ig t iettel 56 2.2.3 Các công nghệ tảng hệ thống liệu lớn 58 2 ác phân hệ cài đặt củ louder ig t nterprise fl tform: 60 CHƯƠNG THỰC NGHIỆM TÍCH HỢP HỆ THỐNG Ự O T RM 62 31 Ộ T Ự Ệ .62 1 Định ngh thu b o rời mạng 62 ài toán y u cầu 62 3.1.3 ác bước thực nghiệm 63 32 T Ể ỆT Ố T Ự Ệ 63 iii 321 ây dựng hệ thống phân t ch ig t thực nghiệm 63 322 33 ây dựng mơ hình dự báo TBRM 68 T ẢT Ự Ệ Ự 69 3 hám phá liệu tạo biến đặc trưng 69 3 ự chọn đặc trưng mơ hình h 75 3 Tối ưu mơ hình dự báo 79 34 Đ T Ạ 82 ết đầu r củ hệ thống phân t ch dự báo thu b o rời mạng 82 Tri thức thu đư c s u thực nghiệm .82 KẾT LUẬN 84 TÀI LIỆU THAM KHẢO 85 PHỤ ỤC ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC - PHÂN THEO NHÓM HÀNH VI 87 PHỤ ỤC ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO NHÓM HÀNH VI 90 iv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký ệ / ữ ết tắt ACID AUC AUROC BASE BLOB CAP CEM 10 11 12 13 14 15 16 17 18 19 20 21 CEP CNN DBM DBN DT ETL FN FP FPR GBM GBRT ID3 IG IMDB 22 IMDG 23 24 25 26 IOB IoT LS M2M 27 MDA 28 MDG 29 30 OOB POD Ý ĩa Atomicity, Consistency, Isolation, Durability (Nguyên tắc thiết kế ACID) Area Under the Curve Area Under the Receiver Operating Characteristics Basically Available, Soft state, Eventual consistency (Nguyên tắc thiết kế BASE) Binary Large Object Consistency, Availability and Partition Tolerance (Nguyên lý CAP) Customer Experience Management (Quản lý trải nghiệm khách hàng) Complex Event Processing Convolutional Neural Network Deep Boltzmann Machine Deep Belief Networks Daytype Extract Transform Load (Trích xu t liệu) False Negative False Positive False Positive Rate/Fall-out Gradient Boosting Machines Gradient Boosting Regression Trees Interactive Dichotomizer nform tion in (Độ tăng thông tin) In- emory t b ses ( sở liệu nhớ) In-Memory Data Grids (Công nghệ lưu trữ liệu nhớ) In-of-bag Internet Of Things Learning Set (Tập hu n luyện) Machine to Manchine e n ecre se ccur cy (Độ xác giảm bình quân cho biến) Mean Decrease Gini (Sự giảm bình quân hệ số ini biến) Out-of-bag Period of Day v STT 31 Ký ệ / ữ ết tắt QC 32 RDBMS 33 34 35 36 37 38 39 40 41 42 RF ROC S/N SVM TB TBRM TN TP TPR WFLD Ý ĩa Quality Call Relation DB Management Systems (Hệ thống lưu trữ sở liệu quan hệ) Random Forest Receiver Operating Characteristics Signal/Noise (Tỷ lệ tín hiệu nhiễu) Support Vector Machines Thuê bao Thuê bao rời mạng True Negative True Positive True Positive Rate/Sentivity/Recall Weeks Before Last Date vi DANH MỤC CÁC BẢNG Bảng 1 ác thuộc t nh v dụ Ngày Khách truy cập thuộc t nh đư c trích xu t IsWeek-endDayfDayg 31 Bảng ác phương pháp tr ch chọn thuộc t nh 33 Bảng 3.1 C u hình hệ thống phân tích BigData thực nghiệm 65 Bảng 3.2 Nguồn liệu hệ thống phân tích BigData thực nghiệm 67 Bảng 3.3 Các biến đặc trưng cho liệu gọi thuê bao 69 Bảng 3.4 Các biến đặc trưng cho liệu gọi đến thuê bao 70 Bảng 3.5 Các biến đặc trưng cho liệu nhắn tin thuê bao 71 Bảng 3.6 Các biến đặc trưng cho liệu nhắn tin thuê bao 71 Bảng 3.7 Các biến đặc trưng cho liệu sử dụng Data thuê bao 72 Bảng 3.8 Các biến đặc trưng cho liệu tiêu dùng hàng ngày thuê bao 72 Bảng 3.9 Các biến đặc trưng cho liệu nạp tiền thuê bao 73 Bảng 3.10 Các biến đặc trưng cho liệu số dư tài khoản thuê bao 74 Bảng 3.11 Các biến đặc trưng cho liệu cước phí gói sử dụng 74 theo chu kỳ thuê bao 74 Bảng 3.12 Các biến đặc trưng cho liệu tổng h p ch rge cước sử dụng dịch vụ VAS thuê bao 74 Bảng 3.13 Các biến đặc trưng cho liệu home thuê bao 75 Bảng 3.14 Các biến đặc trưng cho liệu thông tin thuê bao, khách hàng 75 Bảng 15 ự chọn thuộc t nh qu n trọng b ng thuật toán ecision Tree 75 Bảng 3.16 Validation of the Training Data Set (80% of Total) 78 Bảng 3.17 Validation of the Testing Data Set (20% of Total) 78 Bảng 3.18 Sử dụng Logistic Regression 78 Bảng 3.19 Sử dụng Naïve Bayes 78 Bảng 3.20 So sánh kết 79 ảng 21 ết phân cụm b ng thuật toán -mean 79 ảng 22 ết chi tiết phân cụm b ng thuật toán -mean 79 ảng 23 Tối ưu mơ hình b ng cách lựa chọn lại đặc trưng 81 Bảng 3.24 Lựa chọn mơ hình dự đoán tốt nh t 82 Bảng 3.25 Mơ hình dự báo với thuật toán Gradien Booting 82 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Một ví dụ lưu trữ dạng ey-value Hình 1.2 Một ví dụ lưu trữ dạng ocument Hình 1.4 Một ví dụ lưu trữ dạng r ph ình đồ Venn - định lý CAP Hình 1.6 Một quy trình ETL trích xu t liệu t nhiều nguồn chuyển đổi để tải vào hệ thống đ ch nh t 10 Hình 1.8 Một ví dụ xử lý liệu phân tán 11 lưu trữ 12 Hình 1.10.Giá trị độ phức tạp tăng t phân tích mơ tả đến đề xu t 13 Hình 1.11 Thiết bị lưu trữ nhớ có tốc độ truyền liệu nh nh 80 lần so với thiết bị lưu trữ tr n đ 19 Hình 1.12 Một ví dụ mơ tả việc truy xu t liệu t IMDG 20 Hình 1.13 Một ví dụ mơ tả việc truy xu t liệu t IMDB 21 Hình 1.14 Một minh họa công việc MapReduce 23 Hình 1.15 Một ví dụ p educe đ ng hoạt động 25 Hình 1.16 Biểu diễn định 28 Hình 1.17 Cây định cho việc chơi Tennis 29 Hình 1.18 Vai trị mơ hình t ng tập liệu 34 Hình 1.19 Overfitting, Underfitting 35 Hình 1.20 Confusion Matrix 36 ình 21 hương pháp i s & ri nce 37 ình 22 hương pháp đường cong -ROC 39 ình 23 ình 24 Hình 25 ình 26 ình ình 2 ình ình Trường h p tốt nh t đường cong không chồng lên 40 Trường h p đường cong có chồng lên 41 Trường h p tệ nh t đường cong hoàn toàn chồng lên 41 Trường h p AUC x p xỉ 41 ác l nh vực phân t ch liệu lớn viễn thông 44 ức độ ứng dụng phân t ch liệu lớn viễn thông 45 hương pháp tổ chức hệ thống liệu lớn 53 hình tổ chức thực tế hệ thống BigData Viettel .56 ình ình ình ình 3 ình o sánh 59 hình triển kh i hệ thống ig t thực nghiệm 64 ô hình đ u nối hệ thống .64 i o diện module Cloudera Manager 66 i o diện công cụ phân t ch pidminer 66 viii KẾT LUẬN h ng đ ng g p uận v n: Với mục tiêu "TỔ CHỨC VÀ TÍCH H P HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PH C V CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG" Luận văn nghi n cứu tổng quan liệu lớn định ngh đặc trưng kiến trúc BigData, nghiên cứu mơ hình liệu lớn thực nghiệm cho việc xây dựng công cụ phân t ch dự báo TBRM Nh ng k t qu đ đạt luận v n: - hái quát đư c số v n đề kiến trúc BigData, mô hình liệu lớn mơ hình phân t ch dự báo - u đư c phương pháp tổ chức cách triển kh i hệ thống ig dựng kịch thực nghiệm phân t ch dự báo TBRM với liệu củ t xây iettel ướng phát triển uận v n: - Hồn thiện cơng cụ triển khai thực tế hệ thống phân t ch dự báo TBRM sử dụng c hiệu việc chăm s c giữ gìn thu b o củ - T ch h p công cụ vào hệ sinh thái ig t tổng thể củ iettel iettel xem công cụ ch nh hệ thống chăm s c khách hàng chủ động ( ) goài r thường xuy n tối ưu mơ hình dự báo để công cụ dự báo hoạt động với tỷ lệ ngày ch nh xác 84 TÀI LIỆU THAM KHẢO T ế V ệt [1] Thị hương & guyễn i hương ig t : T đ n v xu ướn p t tr ển Tạp ch ho học công nghệ iệt m số năm 2017 [2] nghệ Đức Thi Công n ệ tr t ứ ội tr 17-20 [3] guyễn Th nh Thủy Thành - Trí tuệ n n tạo tron t Nam – Báo ông thương (2018) hà xu t kho học tự nhi n công u ng Thụy h n uân iếu guyễn Tr đạ số: Bố ản t ế v l ên ệ vớ V ệt Tế A [4] Marek Obitko, Industry 4.0 and BigData, http://www stech.cz/ Portals/0/ Konference/ 2015/ 03%20Industry-/ PDF/03_ obitko.pdf [5] Thomas Erl, Wajid Khattak, and Paul Buhler, BigData Fundamentals, Concepts, Drivers & Techniques (2016) [6] E Zeydan, E Bastug, M Bennis, BigData caching for networking: Moving from cloud to edge, (2016) [7] ştuğ ennis caching perspective, (2015) Zeyd n - Big Data meets telcos: A proactive [8] DZ Yazti, S Krishnaswamy, Mobile big data analytics: research, practice, and opportunities, (2014) [9] Y Huang, F Zhu, M Yuan, K Deng, Y Li, B Ni, Telco churn prediction with big data, (2015) [10] I Malaka, I Brown, Challenges to the organisational adoption of big data analytics: a case study in the South African telecommunications industry, (2015) 85 [11] M Matti, T Kvernvik - Ericsson Review [PDF], Applying big-data technologies to network architecture, (2012) [12] Y Chen, C Xu, W Rao, H Min - Octopus: Hybrid big data integration engine, (2015) [13] A Idris, M Rizwan, A Khan - Computers & Electrical Engineering, Churn prediction in telecom using Random Forest and PSO based data balancing in combination with various feature selection strategies, (2012) [14] A Idris, A Khan, YS Lee - Applied intelligence, Intelligent churn prediction in telecom: employing mRMR feature selection and RotBoost based ensemble classification, (2013) [15] D Zhang, M Chen, M Guizani, H Xiong, Mobility prediction in telecom cloud using mobile calls, (2014) [16] A Idris, A Khan, YS Lee, Genetic programming and adaboosting based churn prediction for telecom, (2012) [17] V Mahajan, R Misra, R Mahajan, Review of data mining techniques for churn prediction in telecom, (2015) [18] N Lu, H Lin, J Lu, G Zhang, A customer churn prediction model in telecom industry using boosting (2012) [19] PK Dalvi, SK Khandge, A Deomore, Analysis of customer churn prediction in telecom industry using decision trees and logistic regression, (2016) 86 PHỤ ỤC ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC - PHÂN THEO NHÓM HÀNH VI N           N     T ủ ế Số gọi tuần cuối trước rời mạng (tức tuần t 24/61/7/2016):

Ngày đăng: 06/06/2021, 16:41

Tài liệu cùng người dùng

Tài liệu liên quan