1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) một số thuật toán học máy trong phân loại hành vi sử dụng gói cước data viễn thông

80 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG  lu an n va NGUYỄN QUANG TUẤN tn to p ie gh MỘT SỐ THUẬT TOÁN HỌC MÁY w TRONG PHÂN LOẠI HÀNH VI d oa nl SỬ DỤNG GÓI CƯỚC DATA VIỄN THÔNG va an lu LUẬN VĂN THẠC SĨ KỸ THUẬT ll u nf (Theo định hướng ứng dụng) oi m z at nh z m co l gm @ Hà Nội - năm 2020 an Lu n va ac th si HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG  lu NGUYỄN QUANG TUẤN an n va tn to MỘT SỐ THUẬT TOÁN HỌC MÁY p ie gh TRONG PHÂN LOẠI HÀNH VI d oa nl w SỬ DỤNG GĨI CƯỚC DATA VIỄN THƠNG an lu CHUYÊN NGÀNH: MÃ SỐ: KHOA HỌC MÁY TÍNH 8.48.01.01 va ll u nf LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) oi m z at nh z NGƯỜI HƯỚNG DẪN KHOA HỌC an Lu Hà Nội - năm 2020 m co l gm @ PGS.TS TRẦN ĐÌNH QUẾ n va ac th si lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si LỜI CAM ĐOAN Tơi xin cam đoan: Khố luận tốt nghiệp với đề tài “MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG PHÂN LOẠI HÀNH VI SỬ DỤNG GĨI CƯỚC DATA VIỄN THƠNG” cơng trình nghiên cứu cá nhân tơi, số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác, khơng chép Tơi xin chịu trách nhiệm cơng trình nghiên cứu riêng mình! lu an Hà Nội, ngày ………… va n Người cam đoan ie gh tn to p Nguyễn Quang Tuấn d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si i MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH vi MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG 1.1 Giới thiệu toán lu an 1.2 Tổng quan quy trình phân tích liệu n va 1.2.1 Tổng quan 1.2.3 Lưu đồ quy trình thực dự án ứng dụng phân tích liệu .6 ie gh tn to 1.2.2 Quy trình triển khai tốn phân tích liệu p 1.3 Xử lý liệu phân tán với Spark nl w 1.3.1 Giới thiệu d oa 1.3.2 Cơ chế hoạt động an lu 1.3.3 Spark application u nf va 1.4 Các số đánh giá hiệu mơ hình 1.4.1 Ma trận nhầm lẫn (Confusion matrix) ll oi m 1.4.2 Các số Accuracy, Precision, Recall F1 score .10 z at nh 1.4.3 Đường cong ROC 11 1.4.4 Biểu đồ Lift .13 z gm @ 1.4.5 Biểu đồ Gain 14 1.5 Các phương pháp xây dựng đặc trưng liệu 15 l m co 1.5.1 Các phương pháp thống kê lựa chọn đặc trưng liệu với phương pháp lọc 16 an Lu n va ac th si ii 1.5.2 Các phương pháp thống kê lựa chọn đặc trưng liệu với phương pháp đóng gói 20 1.5.3 Các phương pháp thống kê lựa chọn đặc trưng liệu với phương pháp nhúng 21 1.6 Kỹ thuật tiền xử lý liệu 22 1.6.1 Xử lý thiếu giá trị 23 1.6.2 Xử lý giá trị ngoại lai 25 1.7 Thuật toán giảm chiều liệu (PCA) 25 lu CHƯƠNG - MƠ HÌNH HÀNH VI VÀ MỘT SỐ THUẬT TOÁN HỌC an va MÁY 28 n 2.1 Thuật toán rừng ngẫu nhiên (Random Forest) 28 to 2.1.2 Thuật toán rừng ngẫu nhiên (Random Forest) 29 p ie gh tn 2.1.1 Cây định 28 w 2.2 Thuật toán Naïve Bayes 32 oa nl 2.2.1 Suy diễn Bayes 32 d 2.2.2 Cơ sở lý thuyết 33 lu va an 2.2.3 Ứng dụng Bayes phân tích liệu .35 u nf 2.3 Thuật toán Logistic Regression 36 ll 2.3.1 Khái niệm 36 oi m 2.3.2 Cơ sở lý thuyết 36 z at nh CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ 38 z 3.1 Đặt vấn đề 38 @ l gm 3.2 Xác định toán 38 3.3 Quy trình xây dựng mơ hình học máy 39 m co 3.4 Thực nghiệm 40 an Lu 3.4.1 Nhập vào thư viện 40 n va ac th si iii 3.4.2 Khai báo biến ngày tháng 41 3.4.3 Import sở liệu .43 3.4.4 Tiền xử lý liệu 44 3.5 Kết thực nghiệm 48 3.6 Xây dựng hệ thống 54 3.6.1 Giới thiệu hệ thống 54 3.6.2 Biểu đồ ca sử dụng hành vi người dùng .55 3.6.3 Biểu đồ ca sử dụng giám sát dự án .56 lu an 3.6.4 Biểu đồ ca sử dụng giám sát mơ hình 57 n va 3.6.5 Giao diện Home 58 3.6.7 Giao diện thông tin chung .59 ie gh tn to 3.6.6 Giao diện điều hướng 58 p 3.6.8 Giao diện nguồn liệu .60 nl w 3.6.9 Giao diện thông tin mô hình 61 d oa 3.7 Kết triển khai thực tế 62 an lu 3.7.1 Các số tính hiệu triển khai .62 u nf va 3.7.2 Kết triển khai thực tế .63 DANH MỤC TÀI LIỆU THAM KHẢO 67 ll oi m z at nh z m co l gm @ an Lu n va ac th si iv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt EDA Exploratory Data Analysis Phân tích, khai phá liệu ETL Extract Transform Load Q trình trích xuất, biến đổi tải KPI Key Performance Indicator Chỉ số đo lường hiệu công việc PTDL Phân tích liệu PYC Phiếu yêu cầu lu an n va Random Forest Thuật toán rừng ngẫu nhiên ROC Receiver operating characteristic Biểu đồ hiệu phân loại TNR True Negative Rate Tỉ lệ dự đoán nhãn âm tính TPR True Positive Rate Tỉ lệ dự đốn nhãn dương tính TUR Take up rate Tỉ lệ phản hồi khách hàng p ie gh tn to RF d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si v DANH MỤC CÁC BẢNG Bảng 1.1: Quy trình triển khai tốn phân tích liệu Bảng 1.2: Tương quan hai trường dân số thu nhập 18 Bảng 1.3: Bảng tính giá trị chi bình phương 19 Bảng 1.4: Bảng tính xác suất cho kiện 19 Bảng 1.5: Bảng tính giá trị kỳ vọng 20 Bảng 1.6: Các phương pháp thay 24 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC HÌNH Hình 1.1: Lưu đồ quy trình thực dự án ứng dụng phân tích liệu Hình 1.2: Các thành phần Spark Hình 1.3: Cơ chế hoạt động ứng dụng Spark Hình 1.4: Luồng hoạt động ứng dụng Spark lu an n va 10 Hình 1.6: Đường cong ROC 12 Hình 1.7: Diện tích bên đường cong ROC 13 Hình 1.8: Xác suất phần loại nhãn 13 Hình 1.9: Biểu đồ lift 14 Hình 1.10: Biểu đồ Gain 15 Hình 1.11: Đồ thị biểu diễn độ khiết GINI 21 tn to Hình 1.5: Ma trận nhầm lẫn 26 Hình 1.13: Mơ cách tính khoảng cách nhỏ thuật toán PCA 27 p ie gh Hình 1.12: Mơ thuật tốn PCA Hình 2.1: Đồ thị hàm Entropy w 29 Hình 2.2: Ý tưởng thuật toán Rừng ngẫu nhiên oa nl 31 34 d Hình 2.3: Mơ tả suy diễn Bayes lu 35 Hình 2.5: Đồ thị hàm sigmoid 37 u nf va an Hình 2.4: Phân bố Bayes Hình 3.1: Các bước xây dựng mơ hình học máy 40 ll 48 oi m Hình 3.2: ROC thuật tốn Nạve Bayes 49 Hình 3.4: ROC thuật tốn rừng ngẫu nhiên 49 Hình 3.5: Cumulative gain thuật tốn Nạve Bayes 49 z at nh Hình 3.3: ROC thuật tốn hồi quy Logistic z @ 50 gm Hình 3.6: Cumulative gain hồi quy Logistic Hình 3.10: Precision-Recall thuật tốn rừng ngẫu nhiên 51 an Lu Hình 3.9: Precision-Recall thuật tốn hồi quy Logistic 51 m co Hình 3.8: Precision-Recall thuật tốn Nạve Bayes 50 l Hình 3.7: Cumulative gain thuật tốn rừng ngẫu nhiên 52 n va ac th si 55  Sử dụng mơ hình: - Chọn mơ hình danh sách mơ hình huấn luyện - Khi chọn mơ hình xong chọn đồng thời tùy chọn để huấn luyện, thử nghiệm, dự đoán - Chọn tập huấn luyện tương ứng với tùy chọn - Chọn địa HDFS để lưu trữ báo cáo đầu  Quản lý mơ hình: - Hệ thống lưu lại quản lý mơ hình huấn luyện - Hệ thống hiển thị danh sách mơ hình người dùng lu - Hệ thống hiển thị chi tiết mơ hình (tham số, điểm huấn luyện, điểm xác an n va nhận, )  Quản lý dự án: gh tn to - Hệ thống lưu lại logs, báo cáo cho lần chạy p ie - Các mơ hình thuộc dự án với mục tiêu gom nhóm quản lý dễ dàng w 3.6.2 Biểu đồ ca sử dụng hành vi người dùng oa nl Giúp giảm thiểu trình thao tác với mã nguồn, tránh sai sót q trình d triển khai chiến dịch Mơ hình hành vi người dùng biểu diễn ba chức an lu đăng nhập, đăng xuất sử dụng giao diện phần mềm để xây dựng mơ u nf va hình dự đốn Hệ thống sinh không để dành cho kỹ sư phân tích liệu sử dụng để xác định mơ hình ban đầu mà cịn sở để đơn vị phân tích ll z at nh mơ hình oi m nghiệp vụ kinh doanh đưa định kinh doanh dựa kết dự đoán từ z m co l gm @ an Lu n va ac th si 56 Hình 3.14: Biểu đồ ca sử dụng hành vi người dùng 3.6.3 Biểu đồ ca sử dụng giám sát dự án Ở ca sử dụng chức giám sát dự án người dùng xem tồn danh sách dự án tại, xem chi tiết thông tin dự án, khởi tạo dự án mới, chỉnh sửa dự án xóa dự án khơng cịn sử dụng Tuy nhiên vị trí, chức nhiệm vụ cá nhân dự án cấp quyền khác Ví dụ vị trí quản lý dự án phân quyền đầy đủ cịn với thành viên dự án cấp quyền tác động tới dự án Tránh trường hợp cố đáng tiết lỗi cá nhân lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh Hình 3.15: Biểu đồ ca sử dụng chức giám sát dự án z m co l gm @ an Lu n va ac th si 57 3.6.4 Biểu đồ ca sử dụng giám sát mơ hình Ca sử dụng chức giám mơ hình bao gồm mơ-đun hiển thị phiên mơ hình, hiển thị thơng tin trạng thái mơ hình, xem thơng tin liên quan tới mơ hình gốc, theo dõi tiến trình hiệu chỉnh mơ hình, xem tham số mơ hình, xem thơng tin tập liệu huấn luyện, kiểm tra thông số hiệu dự đốn mơ hình dự đốn Từ mơ- đun kể người sử dụng dễ dàng xem lại lịch sử huấn luyện mơ hình, kết huấn luyện mơ hình thay đổi tham số, tỉ lệ train test để tìm mơ hình đáp ứng tốt yêu cầu toán lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z gm @ m co l Hình 3.16: Biểu đồ ca sử dụng giám sát mơ hình an Lu n va ac th si 58 3.6.5 Giao diện Home lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m 3.6.6 Giao diện điều hướng z at nh z m co l gm @ an Lu n va ac th si 59 3.6.7 Giao diện thông tin chung lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 60 3.6.8 Giao diện nguồn liệu lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 61 3.6.9 Giao diện thơng tin mơ hình lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 62 3.7 Kết triển khai thực tế 3.7.1 Các số tính hiệu triển khai  ARPU UPLIFT ARPU uplift = ARPU after/ARPU before - *ARPU before: ARPU trước triển khai tổng tiêu dùng gốc trung bình/khách hàng vòng 30 ngày trước ngày triển khai *ARPU after: ARPU sau triển khai tính giá gói khách hàng đăng ký(riêng gói ST30K giá gói quy đổi tháng 90k) lu  REVENUE UPLIFT an REVENUE uplift = (ARPU after - ARPU before) * Number of Take-up Customer va n *ARPU before: ARPU trước triển khai tổng tiêu dùng gốc trung bình/khách hàng tn to vòng 30 ngày trước ngày triển khai ie gh *ARPU after: ARPU sau triển khai tính giá gói khách hàng đăng ký(riêng p gói ST30K giá gói quy đổi tháng 90k) nl w *Number of Take-up Customer: Số lượng khách hàng mua gói d oa  TAKE-UP RATE (TUR) an lu TAKE-UP rate = Number of Take-up Customer/Number of Receivers*100 va *Number of Take-up Customer: Số lượng khách hàng mua gói ll u nf *Number of Receivers: Số lượng khách hàng nhận tin truyền thơng gói oi m z at nh z m co l gm @ an Lu n va ac th si 63 3.7.2 Kết triển khai thực tế Sản phẩm MIMAX90 SO SÁNH TAKE UP RATE (TUR) VÀ CHỈ SỐ ARPU UPLIFT RATIO 1.797 2.000 1.500 0.828 1.000 0.672 0.416 0.500 lu an - n va TUR ARPU UPLIFT BAU gh tn to MODEL p ie Sản phẩm ST70 oa nl w SO SÁNH TAKE UP RATE (TUR) VÀ CHỈ SỐ ARPU UPLIFT RATIO va 0.87 u nf an 1.5 lu 2.31 d 2.5 0.748 ll 0.43 oi m 0.5 TUR z at nh BAU z MODEL ARPU UPLIFT m co l gm @ an Lu n va ac th si 64 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 65 KẾT CHƯƠNG    - lu Mục đích thử nghiệm đánh giá Phát biểu ý nghĩa số độ đo Thử nghiệm Xây dựng mơ hình dự đốn khả gia tăng nhu cầu sử dụng dịch vụ với thuật tốn Rừng ngẫu nhiên - Xây dựng mơ hình dự đốn khả gia tăng nhu cầu sử dụng dịch vụ với thuật toán Naive Bayes - Xây dựng mơ hình dự đốn khả gia tăng nhu cầu sử dụng dịch vụ với thuật toán Hồi quy Logistic  Xây dựng ứng dụng  Kết triển khai thực tế an n va tn to KẾT LUẬN CHUNG gh Các kết thu luận văn p ie Sau thử nghiệm thuật tốn phân loại Nạve Bayes, hồi quy Logistic, w rừng ngẫu nhiên đối tập liệu thuật tốn rừng ngẫu nhiên cho kết oa nl dự đốn xác sau tới thuật tốn hồi quy Logistic thuật tốn Nạve d Bayes cho kết dự đốn xác lu va an Hiện tốn mơ hình upgrade tương đối tốt đạt tới ngưỡng gần u nf improve kĩ thuật thơng thường mà improve dựa ll việc xây dựng features có giá trị phân loại tốt hơn; thêm vào cách xây m oi dựng mơ hình upgrade tương đối đơn giản nên trước mắt chưa có phương pháp để z at nh improve mơ hình Thêm vào đó, việc cân đối số lượng sản phẩm mơ hình ảnh hưởng lớn đến performance chung mơ hình đưa l gm @ Định hướng nghiên cứu z dự đoán cho sản phẩm thiểu số Dựa vấn đề định hướng thử nghiệm phương pháp m co sau: an Lu n va ac th si 66 Từ p1 thu tương ứng với sản phẩm, giả định với score - p1 cao tương ứng với thuê bao có khả mua sản phẩm cao Chọn sản phẩm có p1 cao để tiến hành back test Kết hợp kết back test với phân tích cluster Từ kết thu trial 1st từ performance model riêng - biệt Đánh giá mơ hình thu hoạt động tốt khả dự đoán xu hướng sử dụng gói thuê bao, nhiên để đưa đến xếp hạng score cuối sản phẩm mua cần phương pháp rõ ràng xác Vì vậy, thử áp dụng mơ hình phân lớp cho score lu p1 thu từ model với mục tiêu xây dựng an va “MODEL MASTER” có khả tổng hợp kết từ mơ hình nhỏ n Từ kết quan sát thử nghiệm trước trình xây dựng mơ gh tn to hình riêng biệt, nhận thấy: Tuy model bị ảnh hưởng tượng imblance ie sử dụng phương pháp Downsampling để cải thiện performance Nhưng p yếu tố ảnh hưởng đến ranking scores mơ hình khơng tỉ lệ nhãn nl w (0:1) mà yếu tố chưa đề cập tới số lượng tuyệt d oa đối nhãn mô hình Bởi số lượng th bao có mua gói ngày/n-ngày an lu so với số lượng thuê bao mua gói tháng có số lượng chênh lệch đáng kể u nf va Vì vậy, để calibrate thành cơng kết mơ hình cần hàm có khả cover tất yếu tố Từ đó, tiến hành nghiên cứu tìm hiểu phương ll oi m pháp calibrate khác thường áp dụng Kết số phương pháp phổ biến calibration khác z at nh Platt’s Scaling Isotonic Regression đề cập đến tài liệu z m co l gm @ an Lu n va ac th si 67 DANH MỤC TÀI LIỆU THAM KHẢO Abdelrahim Kasem Ahmad, Assef Jafar and Kadan Aljoumaa, “Customer [1] churn prediction in telecom using machine learning in big data platform”, Journal of Big data, 2019, pg.1-24 Available at: https://journalofbigdata.springeropen.com/track/pdf/10.1186/s40537-019-0191-6 Gerard Biau, “Analysis of a Random Forests Model”, Journal of Machine [2] Learning Research 13 (2012) pg 1063-1095 Available at: http://www.jmlr.org/papers/volume13/biau12a/biau12a.pdf lu [3] Gil Press, Predictions About Data In 2020 And The Coming Decade, Forbes, an Jan 6, 2020 Available at: va n https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in- tn to 2020-and-the-coming-decade/#5dbe212d4fc3 gh R Masoud et al., “Using data mining in telecommunication industry: [4] ie p Customer’s churn prediction model”, Journal of Theoretical and applied information Vol.1, No.2, 2016.pp.322-328 Available at: nl w Technology, Saad Ahmed Qureshi, Ammar Saleem Rehman, Ali Mustafa Qamar, Aatif d [5] oa http://www.jatit.org/volumes/Vol91No2/12Vol91No2.pdf lu va an Kamal, Ahsan Rehman, Telecommunication subscribers' churn prediction model u nf using machine learning, September 2013, pg 1-6 Available at: ll https://www.researchgate.net/publication/257201765_Telecommunication_Subscrib m oi ers'_Churn_Prediction_Model_Using_Machine_Learning z at nh [6] Osisanwo F.Y, Akinsola J.E.T, Awodele O, Hinmikaiye J O, Olakanmi O, Akinjobi J, “Supervised Machine Learning Algorithms: Classification and z gm @ Comparison”, International Journal of Computer Trends and Technology (IJCTT), Volume 48 Number June 2017, pg 128-138 Available at: l https://www.researchgate.net/publication/318338750_Supervised_Machine_Learnin m co g_Algorithms_Classification_and_Comparison an Lu n va ac th si 68 [7] Lian Yan, R.H Wolniewicz, R Dodier, Predicting customer behavior in telecommunications, April 2004 Intelligent Systems, IEEE 19(2), pg.50 - 58 Available at: https://www.researchgate.net/publication/3454180_Predicting_Customer_Behavior _in_Telecommunications lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 69 BẢN CAM ĐOAN Tôi cam đoan thực việc kiểm tra mức độ tương đồng nội dung luận văn/luận án qua phần mềm DoIT cách trung thực đạt kết mức độ tương đồng 10% toàn nội dung luận văn/luận án Bản luận văn/ luận án kiểm tra qua phần mềm cứng luận văn/ luận án nộp để bảo vệ trước hội đồng Nếu sai xin chịu hình thức kỷ luật theo quy định hành học viện Hà Nội, ngày tháng năm 2020 HỌC VIÊN CAO HỌC/NCS lu (Ký ghi rõ họ tên) an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si

Ngày đăng: 12/07/2023, 17:27

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN