MỤC LỤC
Để có thể dự báo được chính xác hoặc tỷ lệ chính xác trong tập khách hàng rời mạng là có thể chấp nhận được thì ta phải xác định được các thuộc tính, hành vi của khách hàng có thể tác động đến khả năng rời mạng ví dụ như số lần báo hỏng với tổng đài nhiều, thanh toán cước chậm, liên tục thay đổi gói cước, …Từ đó, ta có thể phân tập được những khách hàng có khả năng rời mạng để có những chính sách áp dụng phù hợp. Từ những định hướng cụ thể như thế, tiến hành phân tích dữ liệu khách hàng thu thập được từ chương trình quản lý hoạt động kinh doanh của tập đoàn trang bị (chương trình Điều hành sản xuất kinh doanh), tuy nhiên việc phụ thuộc chủ yếu vào dữ liệu thu thập sẽ xảy ra các trường hợp dữ liệu thu thập về sai (thông tin sở thích khách hàng, nhầm lẫn đối tượng khách hàng giữa khách hàng cá nhân và khách hàng doanh nghiệp, tình trạng nợ cước của khách hàng, tốc độ và giá cước sử dụng của khách hàng không đúng với hợp đồng…) dẫn đến dự báo sai cũng như áp dụng sai chiến lược đã định hướng cho khách hàng.
- Áp dụng các phương pháp dự báo đã nghiên cứu với tập khách hàng thu thập được để đánh giá thuật toán, từ đó lựa chọn thuật toán phù hợp để huấn luyện. - Cung cấp danh sách khách hàng có nguy cơ rời mạng được dự báo cho bộ phận kinh doanh để có chiến lược chăm sóc thích hợp nhằm giữ chân khách hàng.
- Chuyển đổi dữ liệu: là quá trình biến đổi các đặc trưng hoặc dữ liệu ban đầu thành dạng mới hoặc đặc trưng mới để phân tích và khám phá thông tin hữu ích, Quá trình chuyển đổi dữ liệu phụ thuộc vào mục tiêu khai phá và loại dữ liệu ban đầu. Điều quan trọng là chọn và áp dụng các phương pháp chuyển đổi dữ liệu phù hợp để tạo ra dữ liệu có tính thông tin cao và đáp ứng yêu cầu của quá trình khai phá dữ liệu. Nó bao gồm việc áp dụng các phương pháp, kỹ thuật và công cụ để khám phá cấu trúc, mẫu, quy luật hoặc thông tin tiềm ẩn trong dữ liệu, quá trình khai phá dữ liệu là một quá trình linh hoạt và phụ thuộc vào mục tiêu, dữ liệu và công cụ sử dụng, có thể được điều chỉnh và tùy chỉnh cho từng trường hợp cụ thể.
Mục đích là xác định mức độ đại diện và khả năng tổng quát hóa của mẫu đối với toàn bộ dữ liệu, đây một phần quan trọng trong quá trình khai phá dữ liệu, giúp đảm bảo tính chính xác và đáng tin cậy của kết quả khai phá và đưa ra các kết luận đúng đắn từ dữ liệu mẫu. - Học máy bán giám sát (unsupervised learning) là một phương pháp trong lĩnh vực học máy mà không có dữ liệu huấn luyện được gắn kết với các nhãn hoặc đầu ra mong muốn.
Azure Machine Learning là một giải pháp mạnh mẽ và linh hoạt để triển khai các dự án học máy trong môi trường đám mây và hỗ trợ tích hợp tốt với các dịch vụ và công cụ khác trong hệ sinh thái của Microsoft Azure. Mục tiêu của thuật toán Logistic Regression là dự đoán xác suất của một điểm dữ liệu rơi vào một trong hai lớp dữ liệu trong khi thuật toán Two-Class Logistic Regression là tìm ra phương trình đường cong giúp phân loại hai lớp dữ liệu. Thuật toán Logistic Regression có thể sử dụng dữ liệu đầu vào có cả thuộc tính rời rạc và liên tục trong khi thuật toán Two-Class Logistic Regression chỉ có thể sử dụng dữ liệu đầu vào là các thuộc tính liên tục.
Mục tiêu: Mục tiêu của Decision Forest là xây dựng một tập hợp các cây quyết định để phân loại hoặc dự đoán đầu ra cho các điểm dữ liệu mới, Mục tiêu của Two-Class Decision Forest là xây dựng một tập hợp các cây quyết định để phân loại các điểm dữ liệu vào hai lớp. Trong khi đó, Two-Class Boosted Decision Tree là một phương pháp tương tự như Decision Tree, nhưng tập hợp các cây quyết định được xây dựng một cách tuần tự và được tối ưu hóa thông qua việc điều chỉnh các trọng số của các cây đã có và thêm các cây mới.
Các thuật toán như Two-Class Support Vector Machine, Two-Class Neural Network, Two-Class Logistic Regression, Two-Class Decision Forest, Two-Class Boosted Decision Tree được Azure Machine Learning thiết kế để áp dụng tốt cho các bài toán phân loại nhị phân. Nên việc lựa chọn một trong các thuật toán này vào mô hình dự báo sẽ khả thi hơn các mô hình cùng loại trước nó, chi tiết so sánh các thuật toán này đã đề cập chi tiết ở chương 2.
Kiểm tra và đánh giá mô hình với tập dữ liệu kiểm thử (20%): Các phép đo thông thường để đánh giá mô hình phân loại bao gồm độ chính xác (accuracy), độ nhạy (recall), độ chính xác (precision) và F1- score, nếu giá trị các chỉ số đo lường trên chưa đáp ứng được yêu cầu bài toán, ta phải thực hiện lại từ B1. Tập dữ liệu mẫu dùng để huấn luyện là tập khách hàng sử dụng dịch vụ viễn thông FiberVNN của nhà cung cấp dịch vụ VNPT tại địa bàn Tây Ninh bao gồm 18 cột, trong đó 17 cột đầu là các thuộc tính được lựa chọn để huấn luyện, cột 18 là cột Churn (thanhly), cột này là cột gắn nhãn của tập dữ liệu, cột để nhận biết là thuê bao có rời mạng hay không?. Các thuộc tính đề cập ở trên được lựa chọn bằng kiến thức về nghiệp vụ khách hàng cũng như kinh nghiệm xử lý dữ liệu của các chuyên viên quản lý dịch vụ viễn thông tại VNPT Tây Ninh, qua nhiều lần đưa dữ liệu vào huấn luyện, tinh chỉnh, kiểm tra kết quả của mô hình dự báo để có thể cô đọng lại danh sách thuộc tính trên.
42 Trưởng, Phó các đơn vị của Tổng công ty VNPT- Vinaphone: Ban NCTT&PTDV, Ban Kỹ thuật nghiệp vụ, Ban Chất lượng, Ban khách hàng cá nhân, Ban khách hàng tổ chức - doanh nghiệp, Trung tâm hỗ trợ bán hàng miền Trung/Nam, Bán hàng online, Công ty dữ liệu VNPT, Trung. Việc xác định thuộc tính nào làm nút gốc tùy thuộc vào độ quan trọng của thuộc tính, phương pháp đo độ quan trọng có thể được ứng dụng tùy theo thuật toán cây quyết định cụ thể và có thể có sự khác biệt trong việc tính toán và đánh giá độ quan trọng của thuộc tính, một số chỉ số đo như Gini Importance, Information Gain,… có thể áp dụng để xác định độ quan trọng của từng thuộc tính.
Nhà mạng ghi nhận khách hàng không phát sinh lưu lượng sử dụng 5 ngày liên tiếp (do hư modem, đi vắng, cắt điện, …) để thực hiện kiểm tra chất lượng dịch vụ. Phương pháp thực hiện: Huấn luyện mô hình trên tập dữ liệu đã thực hiện tiền xử lý sử dụng thuật toán Two-Class Boosted Decision Tree và kiểm tra tính chính xác kết quả dự báo của mô hình.
Các thuộc tính có kiểu dữ liệu là dạng số liên tục sẽ được chuyển đổi thành các vùng giá trị (thực hiện ở bước sau), việc này đồng thời cũng xử lý luôn các giá trị ngoại lai bằng cách đưa vào các vùng giá trị riêng biệt. - Recall: chỉ số Recall là một độ đo đánh giá khả năng của mô hình phát hiện và phân loại đúng các trường hợp Positive (tức là trường hợp mà chúng ta quan tâm và muốn phát hiện) trong tất cả các trường hợp Positive có thực trong tập dữ liệu. Chúng ta có thể thấy kết quả dự báo của thuật toán Two-Class Boosted Decision Tree tốt hơn các thuật toán còn lại nên trong khuôn khổ đề án này sẽ lựa chọn thuật toán Two-Class Boosted Decision Tree để xây dựng mô hình dự báo.
Tính năng này cung cấp các chỉ số đánh giá mô hình như độ chính xác (accuracy), độ phân loại chính xác (precision), độ phủ (recall), F1-score, AUC-ROC, AUC-PR, và các chỉ số khác tùy thuộc vào loại mô hình và mục tiêu dự báo. Nguyên tắc xác định tập dữ liệu khách hàng đưa vào dự báo: danh sách khách hàng được đưa vào mô hình dự báo có nguy cơ rời mạng tại tháng n là danh sách khách hàng đang sử dụng chốt tại thời điểm cuối thỏng n-1 và theo dừi đến thỏng n+1. Theo cỏc bảng theo dừi kết quả như trờn, ta cú thể thấy tỷ lệ dự bỏo đỳng thấp hơn nhiều so với kết quả dự báo kiểm thử với tập dữ liệu huấn luyện đã qua tiền xử lý khi xây dựng mô hình (Mục 4.3 – Chương 4).
Với quy trình thu thập dữ liệu như hiện tại, cần xây dựng một bộ dữ liệu chuẩn theo thông tin khách hàng, ví dụ định nghĩa một khung giá cước cho đối tượng khách hàng cá nhân, doanh nghiệp, loại khách hàng chi tiết kèm theo từng đối tượng khách hàng, để khi có các giá trị bất thường của thông tin khách hàng thì có thể cảnh báo và điều chỉnh cho đúng với thực tế.