Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
2,25 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN QUANG TUẤN MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG PHÂN LOẠI HÀNH VI SỬ DỤNG GĨI CƯỚC DATA VIỄN THƠNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) Hà Nội - năm 2020 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN QUANG TUẤN MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG PHÂN LOẠI HÀNH VI SỬ DỤNG GĨI CƯỚC DATA VIỄN THƠNG CHUN NGÀNH: MÃ SỐ: KHOA HỌC MÁY TÍNH 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TRẦN ĐÌNH QUẾ Hà Nội - năm 2020 LỜI CAM ĐOAN Tơi xin cam đoan: Khố luận tốt nghiệp với đề tài “MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG PHÂN LOẠI HÀNH VI SỬ DỤNG GÓI CƯỚC DATA VIỄN THƠNG” cơng trình nghiên cứu cá nhân tôi, số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác, khơng chép Tôi xin chịu trách nhiệm cơng trình nghiên cứu riêng mình! Hà Nội, ngày ………… Người cam đoan Nguyễn Quang Tuấn MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt EDA ETL KPI PTDL PYC RF ROC TNR TPR TUR Tiếng Anh Exploratory Data Analysis Extract Transform Load Key Performance Indicator Random Forest Receiver operating characteristic True Negative Rate True Positive Rate Take up rate Tiếng Việt Phân tích, khai phá liệu Q trình trích xuất, biến đổi tải Chỉ số đo lường hiệu cơng việc Phân tích liệu Phiếu u cầu Thuật toán rừng ngẫu nhiên Biểu đồ hiệu phân loại Tỉ lệ dự đốn nhãn âm tính Tỉ lệ dự đốn nhãn dương tính Tỉ lệ phản hồi khách hàng DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU Ngày nay, kỷ nguyên kỹ thuật số, với bùng nổ thông tin, số lượng liệu người tạo ngày khổng lồ Số lượng điện thoại smartphone thiết bị kết nối tăng nhanh chóng, ngành cơng nghiệp viễn thông tràn ngập với số lượng liệu khổng lồ Nguồn gốc số lượng liệu khổng lồ bao gồm liệu lưu lượng truy cập mạng, mơ hình sử dụng liệu khách hàng, liệu vị trí, ứng dụng tải về,… Ngành cơng nghiệp viễn thông ngày thay đổi phát triển không ngừng Điện thoại thông minh trở thành nhu cầu người sống ngày Mọi người kết nối với nơi giới, xóa bỏ rào cản khoảng cách Mọi thơng tin thu thập xử lý nhanh hết Và phân tích liệu lớn tạo điều kiện cho ngành công nghiệp viễn thông phát triển mạnh mẽ giới kỹ thuật số Các ứng dụng phân tích số liệu lĩnh vực viễn thông, liệu lớn hội chuyển đổi ngành viễn thông sang hướng hoạt động hiệu nhờ gia tăng mức độ hài lòng khách hàng, tăng doanh thu nhờ tăng sản lượng loại hình dịch vụ cung cấp, cắt giảm chi phí vận hành, giảm thiểu thiệt hại Trong khuôn khổ luận văn tập trung vào kỹ thuật xử lý liệu lớn thuật toán phân lớp liệu bao gồm: Phân loại tuyến tính, Hồi quy logistic, Phân loại Nạve Bayes, Rừng ngẫu nhiên (RF) Ứng dụng thuật tốn học máy lĩnh vực kinh doanh viễn thông sử dụng liệu lịch sử tập khách hàng để xây dựng mơ hình có khả phân loại, dự đoán nhu cầu sử dụng khách hàng Tập kết dùng để hỗ trợ đơn vị kinh doanh truyền thống đưa định chiến dịch kinh doanh doanh nghiệp Cấu trúc luận văn gồm chương: Chương 1: Tổng quan toán phân loại hành vi sử dụng dịch vụ viễn thơng: Trong chương trình bày tổng quan quy trình phân tích liệu, hệ thống xử lý liệu phân tán phương pháp xử lý liệu 10 Chương 2: Mơ hình hành vi số thuật toán học máy: Chương sâu vào tìm hiểu thuật tốn rừng ngẫu nhiên, phân loại Naïve Bayes, hồi quy Logistic Chương 3: Thử nghiệm đánh giá: Chương nêu mục tiêu thử nghiệm toán, ý nghĩa số đo thử nghiệm xây dựng mô hình dự đốn với thuật tốn nêu đánh giá kết 61 Hình 3.31: Biểu đồ Lift thuật toán Rừng ngẫu nhiên 3.6 Xây dựng hệ thống 3.6.1 Giới thiệu hệ thống Mục đích: Xây dựng hệ thống quản lý luồng công việc ứng dụng học máy, bao gồm toàn trình huấn luyện, thử nghiệm, dự đốn mà nhà khoa học liệu thường phải thực Một số mục tiêu cụ thể: - Cung cấp giao diện quản lý tiến trình huấn luyện, thử nghiệm, dự đốn Cung cấp giao diện quản lý mơ hình học máy Cơ chế sử dụng AutoML để tự động chọn mơ hình tham số tối ưu - Cơ chế khai báo thủ công tham số huấn luyện nhiều mơ hình đồng thời Các chức chính: Tạo mơ hình: - Tạo mơ hình với chế độ: người dùng tự khai báo tham số, sử dụng AutoML tự động chọn lựa tham số - Khi tạo mơ hình xong chọn đồng thời tùy chọn để huấn luyện, thử nghiệm dự đoán - Chọn tập liệu tương ứng với tùy chọn - Chọn địa lưu trữ HDFS để lưu trữ báo cáo đầu 62 Sử dụng mơ hình: - Chọn mơ hình danh sách mơ hình huấn luyện - Khi chọn mơ hình xong chọn đồng thời tùy chọn để huấn luyện, thử nghiệm, dự đoán - Chọn tập huấn luyện tương ứng với tùy chọn - Chọn địa HDFS để lưu trữ báo cáo đầu Quản lý mơ hình: - Hệ thống lưu lại quản lý mơ hình huấn luyện - Hệ thống hiển thị danh sách mơ hình người dùng - Hệ thống hiển thị chi tiết mơ hình (tham số, điểm huấn luyện, điểm xác nhận, ) - Hệ thống lưu lại logs, báo cáo cho lần chạy Quản lý dự án: - Các mơ hình thuộc dự án với mục tiêu gom nhóm quản lý dễ dàng 3.6.2 Biểu đồ ca sử dụng hành vi người dùng Giúp giảm thiểu trình thao tác với mã nguồn, tránh sai sót q trình triển khai chiến dịch Mơ hình hành vi người dùng biểu diễn ba chức đăng nhập, đăng xuất sử dụng giao diện phần mềm để xây dựng mơ hình dự đốn Hệ thống sinh không để dành cho kỹ sư phân tích liệu sử dụng để xác định mơ hình ban đầu mà sở để đơn vị phân tích nghiệp vụ kinh doanh đưa định kinh doanh dựa kết dự đoán từ mơ hình 63 Hình 3.32: Biểu đồ ca sử dụng hành vi người dùng 3.6.3 Biểu đồ ca sử dụng giám sát dự án Ở ca sử dụng chức giám sát dự án người dùng xem toàn danh sách dự án tại, xem chi tiết thông tin dự án, khởi tạo dự án mới, chỉnh sửa dự án xóa dự án khơng cịn sử dụng Tuy nhiên vị trí, chức nhiệm vụ cá nhân dự án cấp quyền khác Ví dụ vị trí quản lý dự án phân quyền đầy đủ với thành viên dự án cấp quyền tác động tới dự án Tránh trường hợp cố đáng tiết lỗi cá nhân Hình 3.33: Biểu đồ ca sử dụng chức giám sát dự án 64 3.6.4 Biểu đồ ca sử dụng giám sát mơ hình Ca sử dụng chức giám mơ hình bao gồm mơ-đun hiển thị phiên mơ hình, hiển thị thơng tin trạng thái mơ hình, xem thơng tin liên quan tới mơ hình gốc, theo dõi tiến trình hiệu chỉnh mơ hình, xem tham số mơ hình, xem thơng tin tập liệu huấn luyện, kiểm tra thông số hiệu dự đốn mơ hình dự đốn Từ mơ- đun kể người sử dụng dễ dàng xem lại lịch sử huấn luyện mơ hình, kết huấn luyện mơ hình thay đổi tham số, tỉ lệ train test để tìm mơ hình đáp ứng tốt u cầu tốn Hình 3.34: Biểu đồ ca sử dụng giám sát mơ hình 65 3.6.5 Giao diện Home 3.6.6 Giao diện điều hướng 66 3.6.7 Giao diện thông tin chung 67 3.6.8 Giao diện nguồn liệu 68 3.6.9 Giao diện thông tin mô hình 69 3.7 Kết triển khai thực tế 3.7.1 Các số tính hiệu triển khai ARPU UPLIFT ARPU uplift = ARPU after/ARPU before - *ARPU before: ARPU trước triển khai tổng tiêu dùng gốc trung bình/khách hàng vịng 30 ngày trước ngày triển khai *ARPU after: ARPU sau triển khai tính giá gói khách hàng đăng ký(riêng gói ST30K giá gói quy đổi tháng 90k) REVENUE UPLIFT REVENUE uplift = (ARPU after - ARPU before) * Number of Take-up Customer *ARPU before: ARPU trước triển khai tổng tiêu dùng gốc trung bình/khách hàng vịng 30 ngày trước ngày triển khai *ARPU after: ARPU sau triển khai tính giá gói khách hàng đăng ký(riêng gói ST30K giá gói quy đổi tháng 90k) *Number of Take-up Customer: Số lượng khách hàng mua gói TAKE-UP RATE (TUR) TAKE-UP rate = Number of Take-up Customer/Number of Receivers*100 *Number of Take-up Customer: Số lượng khách hàng mua gói *Number of Receivers: Số lượng khách hàng nhận tin truyền thơng gói 70 3.7.2 Kết triển khai thực tế Sản phẩm MIMAX90 Sản phẩm ST70 KẾT CHƯƠNG • • • - Mục đích thử nghiệm đánh giá Phát biểu ý nghĩa số độ đo Thử nghiệm Xây dựng mơ hình dự đoán khả gia tăng nhu cầu sử dụng dịch vụ với thuật toán Rừng ngẫu nhiên 71 - Xây dựng mơ hình dự đốn khả gia tăng nhu cầu sử dụng dịch vụ với thuật toán Naive Bayes - Xây dựng mơ hình dự đốn khả gia tăng nhu cầu sử dụng dịch vụ với thuật toán Hồi quy Logistic • Xây dựng ứng dụng • Kết triển khai thực tế KẾT LUẬN CHUNG Các kết thu luận văn Sau thử nghiệm thuật tốn phân loại Nạve Bayes, hồi quy Logistic, rừng ngẫu nhiên đối tập liệu thuật tốn rừng ngẫu nhiên cho kết dự đốn xác sau tới thuật tốn hồi quy Logistic thuật tốn Nạve Bayes cho kết dự đốn xác Hiện tốn mơ hình upgrade tương đối tốt đạt tới ngưỡng gần improve kĩ thuật thơng thường mà improve dựa việc xây dựng features có giá trị phân loại tốt hơn; thêm vào cách xây dựng mơ hình upgrade tương đối đơn giản nên trước mắt chưa có phương pháp để improve mơ hình Thêm vào đó, việc cân đối số lượng sản phẩm mơ hình ảnh hưởng lớn đến performance chung mơ hình đưa dự đoán cho sản phẩm thiểu số Định hướng nghiên cứu Dựa vấn đề định hướng thử nghiệm phương pháp sau: - Từ p1 thu tương ứng với sản phẩm, giả định với score p1 cao tương ứng với thuê bao có khả mua sản phẩm cao Chọn sản phẩm có p1 cao để tiến hành back test Kết hợp kết - back test với phân tích cluster Từ kết thu trial 1st từ performance model riêng biệt Đánh giá mơ hình thu hoạt động tốt khả dự đốn xu hướng sử dụng gói th bao, nhiên để đưa đến xếp 72 hạng score cuối sản phẩm mua cần phương pháp rõ ràng xác Vì vậy, thử áp dụng mơ hình phân lớp cho score p1 thu từ model với mục tiêu xây dựng “MODEL MASTER” có khả tổng hợp kết từ mơ hình nhỏ Từ kết quan sát thử nghiệm trước trình xây dựng mơ hình riêng biệt, nhận thấy: Tuy model bị ảnh hưởng tượng imblance sử dụng phương pháp Downsampling để cải thiện performance Nhưng yếu tố ảnh hưởng đến ranking scores mơ hình khơng tỉ lệ nhãn (0:1) mà yếu tố chưa đề cập tới số lượng tuyệt đối nhãn mô hình Bởi số lượng th bao có mua gói ngày/n-ngày so với số lượng thuê bao mua gói tháng có số lượng chênh lệch đáng kể Vì vậy, để calibrate thành cơng kết mơ hình cần hàm có khả cover tất yếu tố Từ đó, tiến hành nghiên cứu tìm hiểu phương pháp calibrate khác thường áp dụng Kết số phương pháp phổ biến Platt’s Scaling Isotonic Regression đề cập đến tài liệu calibration khác DANH MỤC TÀI LIỆU THAM KHẢO [1] Abdelrahim Kasem Ahmad, Assef Jafar and Kadan Aljoumaa, “Customer churn prediction in telecom using machine learning in big data platform”, Journal of Big 73 data, 2019, pg.1-24 Available at: https://journalofbigdata.springeropen.com/track/pdf/10.1186/s40537-019-0191-6 [2] Gerard Biau, “Analysis of a Random Forests Model”, Journal of Machine Learning Research 13 (2012) pg 1063-1095 Available at: http://www.jmlr.org/papers/volume13/biau12a/biau12a.pdf [3] Gil Press, Predictions About Data In 2020 And The Coming Decade, Forbes, Jan 6, 2020 Available at: https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020and-the-coming-decade/#5dbe212d4fc3 [4] R Masoud et al., “Using data mining in telecommunication industry: Customer’s churn prediction model”, Journal of Technology, Vol.1, No.2, Theoretical and applied information 2016.pp.322-328 Available at: http://www.jatit.org/volumes/Vol91No2/12Vol91No2.pdf [5] Saad Ahmed Qureshi, Ammar Saleem Rehman, Ali Mustafa Qamar, Aatif Kamal, Ahsan Rehman, Telecommunication subscribers' churn prediction model using machine learning, September 2013, pg 1-6 Available at: https://www.researchgate.net/publication/257201765_Telecommunication_Subscrib ers'_Churn_Prediction_Model_Using_Machine_Learning [6] Osisanwo F.Y, Akinsola J.E.T, Awodele O, Hinmikaiye J O, Olakanmi O, Akinjobi J, “Supervised Machine Learning Algorithms: Classification and Comparison”, International Journal of Computer Trends and Technology (IJCTT), Volume 48 Number June 2017, pg 128-138 Available at: https://www.researchgate.net/publication/318338750_Supervised_Machine_Learnin g_Algorithms_Classification_and_Comparison [7] Lian Yan, R.H Wolniewicz, R Dodier, Predicting customer behavior in telecommunications, April 2004 Intelligent Systems, IEEE 19(2), pg.50 - 58 Available at: https://www.researchgate.net/publication/3454180_Predicting_Customer_Behavior _in_Telecommunications 74 BẢN CAM ĐOAN Tôi cam đoan thực việc kiểm tra mức độ tương đồng nội dung luận văn/luận án qua phần mềm DoIT cách trung thực đạt kết mức độ tương đồng 10% toàn nội dung luận văn/luận án Bản luận văn/ luận án kiểm tra qua phần mềm cứng luận văn/ luận án nộp để bảo vệ trước hội đồng Nếu sai tơi xin chịu hình thức kỷ luật theo quy định hành học viện Hà Nội, ngày tháng năm 2020 HỌC VIÊN CAO HỌC/NCS 75 (Ký ghi rõ họ tên) ...HỌC VI? ?̣N CÔNG NGHỆ BƯU CHÍNH VI? ?̃N THÔNG NGUYỄN QUANG TUẤN MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG PHÂN LOẠI HÀNH VI SỬ DỤNG GĨI CƯỚC DATA VI? ?̃N THƠNG CHUYÊN NGÀNH: MÃ SỐ: KHOA HỌC MÁY TÍNH... đốn với thuật toán nêu đánh giá kết 11 CHƯƠNG - TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI HÀNH VI SỬ DỤNG DỊCH VỤ VI? ?̃N THÔNG 1.1 Giới thiệu tốn Các ứng dụng phân tích số liệu lĩnh vực vi? ??n thông, liệu... logistic, Phân loại Naïve Bayes, Rừng ngẫu nhiên (RF) Ứng dụng thuật toán học máy lĩnh vực kinh doanh vi? ??n thông sử dụng liệu lịch sử tập khách hàng để xây dựng mơ hình có khả phân loại, dự đoán