Tiểu luận khoa học dữ liệu Đề tài Ứng dụng khoa học dữ liệu Để phân tích và dự báo tỷ lệ khách hàng rời bỏ

Nhờ sự phát triển của các mô hình phân tích dữ liệu, các phương pháp phân cụm và phân lớp đã trở thành những công cụ hữu hiệu để dự đoán Customer Churn.. Nếu các điểm dữ liệu ở từng cụm

Tổng quan về đề tài

Lý do chọn đề tài

Trong bối cảnh thị trường cạnh tranh khốc liệt, việc giữ chân khách hàng trở thành yếu tố sống còn cho doanh nghiệp Churn, hay rời bỏ dịch vụ, là vấn đề phổ biến mà nhiều ngành như viễn thông, tài chính và dịch vụ tiêu dùng phải đối mặt Dự báo và phát hiện khách hàng có nguy cơ rời bỏ giúp doanh nghiệp triển khai biện pháp giữ chân kịp thời, tiết kiệm chi phí và nâng cao hiệu quả kinh doanh.

Sự phát triển của các mô hình phân tích dữ liệu đã làm cho phương pháp phân cụm và phân lớp trở thành công cụ hiệu quả trong việc dự đoán Customer Churn Những mô hình này không chỉ phân tích hành vi của khách hàng mà còn dự báo khả năng rời bỏ doanh nghiệp trong tương lai Do đó, nghiên cứu này tập trung vào việc ứng dụng các phương pháp khoa học dữ liệu để phân tích và dự báo Customer Churn, nhằm hỗ trợ doanh nghiệp trong việc quản lý và duy trì mối quan hệ với khách hàng.

Mục tiêu nghiên cứu

Phân tích và xây dựng mô hình dự báo tỷ lệ khách hàng rời bỏ (Customer Churn) thông qua các phương pháp phân cụm và phân lớp Đánh giá hiệu quả của các mô hình phân tích khác nhau trong việc dự đoán Customer Churn Đề xuất các giải pháp và gợi ý giúp doanh nghiệp giảm thiểu tỷ lệ khách hàng rời bỏ, từ đó nâng cao hiệu quả hoạt động kinh doanh.

Đối tượng nghiên cứu

Đề tài này tập trung vào việc nghiên cứu dữ liệu khách hàng của một công ty viễn thông, với mục tiêu phân tích hành vi sử dụng dịch vụ, mức độ tương tác và các yếu tố tác động đến quyết định rời bỏ dịch vụ Bộ dữ liệu này có thể được truy cập tại địa chỉ: https://archive.ics.uci.edu/dataset/563/iranian+churn+dataset.

Cơ sở lý thuyết

Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước quan trọng trong việc loại bỏ nhiễu và đảm bảo tính nhất quán của dữ liệu Quá trình này giúp nâng cao chất lượng dữ liệu đầu vào, từ đó đảm bảo độ tin cậy của kết quả phân tích.

Dữ liệu thô/gốc dữ liệu đã được định dạng hoặc không được định dạng và nằm ở nhiều định dạng khác nhau (tập tin hoặc CSDL).

Chất lượng dữ liệu được thể hiện ở tính chính xác, tính hiện hành, tính toàn vẹn và tính nhất quán.

2.1.2 Các bước tiền xử lý dữ liệu

Bước đầu tiên trong quy trình xử lý dữ liệu là làm sạch dữ liệu, nhằm loại bỏ các thông tin không hợp lệ, không liên quan hoặc có lỗi Quá trình này đảm bảo tính nhất quán và chính xác của bộ dữ liệu, từ đó nâng cao khả năng khai thác và phân tích dữ liệu hiệu quả.

Xác định các thuộc tính tiêu biểu của dữ liệu về xu hướng và sự phân tán của dữ liệu.

Các độ đo về xu hướng chính: mean, median, mode, midrange…

Measures of dispersion, such as quartiles, interquartile range (IQR), and variance, are essential for understanding data distribution Identifying prominent or rare data points, including noise and outliers, provides a comprehensive overview of the dataset.

Dữ liệu không đầy đủ có thể xuất phát từ nguyên nhân khách quan như sự cố trong quá trình nhập liệu hoặc không tồn tại dữ liệu lúc cần thiết, cũng như nguyên nhân chủ quan do tác động của con người Để khắc phục tình trạng này, có thể áp dụng các giải pháp như xử lý dữ liệu thủ công hoặc bán tự động, sử dụng giá trị thay thế như hằng số toàn cục, trị phổ biến nhất, trung bình toàn cục, trung bình cục bộ, hoặc trị dự đoán Hơn nữa, việc thiết kế cơ sở dữ liệu và quy trình nhập liệu tốt với các ràng buộc dữ liệu có thể giúp ngăn chặn tình trạng thiếu dữ liệu.

Nguyên nhân khách quan: công cụ thu thập dữ liệu, lỗi trên đường truyền, giới hạn công nghệ Nguyên nhân chủ quan: tác nhân con người.

Vấn đề và giải pháp

Nhận diện phần tử biên - những dữ liệu (đối tượng) không tuân theo đặc tính/hành vi chung của tập dữ liệu (đối tượng).

Giải pháp nhận diện phần tử biên dựa trên các tiêu chí thống kê như phân bố, khoảng cách, mật độ và độ lệch so với giá trị trung bình Để giảm thiểu ảnh hưởng của nhiễu, các phần tử biên thường được coi là ngoại lệ và có thể được loại bỏ khỏi tập dữ liệu.

Giải pháp giảm thiểu nhiễu: Hồi quy, phân giỏ, phân tích cụm.

Dữ liệu không nhất quán

Dữ liệu không nhất quán xảy ra khi các giá trị liên quan đến cùng một đối tượng không tương thích hoặc mâu thuẫn với nhau.

Nguyên nhân chính dẫn đến sự thiếu nhất quán trong quá trình đặt tên, định dạng và thu thập dữ liệu là do việc ghi nhận dữ liệu được thực hiện trên nhiều thiết bị khác nhau.

Các giải pháp xử lý:

Siêu dữ liệu, ràng buộc dữ liệu và sự kiểm tra của chuyên gia là những công cụ quan trọng để đảm bảo tính nhất quán và độ tin cậy của dữ liệu Việc điều chỉnh, kiểm soát và kiểm tra dữ liệu không nhất quán thường được thực hiện theo phương pháp thủ công.

Sử dụng giải pháp biến đổi hay chuẩn hoá các dữ liệu tự động.

Bước 2: Tích hợp dữ liệu

Quá trình trộn dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu bao gồm việc nhận dạng thực thể, xử lý vấn đề dư thừa và phát hiện mâu thuẫn trong giá trị dữ liệu.

Các thực thể có thể xuất phát từ nhiều nguồn dữ liệu khác nhau.

Hai hoặc nhiều thực thể khác nhau có thể đại diện cho cùng một thực thể thực tế.

Là hiện tượng giá trị của một thuộc tính có thể được dẫn ra/tính từ một/nhiều thuộc tính khác.

Nguyên nhân: tổ chức dữ liệu kém, không hiệu quả và không nhất quán với nhau trong việc đặt tên chiều hoặc thuộc tính.

Giải pháp cho thuộc tính số bao gồm việc phân tích tương quan thông qua hệ số Pearson và hệ số Spearman Đối với thuộc tính rời rạc, phép kiểm định Chi bình phương (Chi-square Testing) được sử dụng để đánh giá mối quan hệ giữa các biến.

Mâu thuẫn giá trị dữ liệu

Các giá trị thuộc tính của cùng một thực thể có thể khác nhau về biểu diễn, đo lường và mã hóa do chúng đến từ các nguồn dữ liệu khác nhau.

Mâu thuẫn do định dạng: dd/mm/yyyy với mm/dd/yyyy.

Mâu thuẫn do đơn vị: gram với kg.

Mâu thuẫn do mã hóa: “yes” và “no” với “1” và “0”.

Bước 3: Chuyển đổi dữ liệu

Chuyển đổi dữ liệu giúp dữ liệu giúp dữ liệu thống nhất hơn, dễ dàng xử lý và phân tích. Làm trơn

Là quá trình loại bỏ nhiễu hoặc các biến động bất thường trong dữ liệu để làm rõ xu hướng chung.

Các phương pháp làm trơn:

Binning: Chia dữ liệu thành các khoảng (bin) và tính toán các thống kê như giá trị trung bình, trung vị hoặc biên của mỗi khoảng.

Các kỹ thuật gom cụm (phân tích phần tử biên).

Rời rạc hóa dữ liệu.

Kết hợp là quá trình thực hiện các tác vụ tóm tắt dữ liệu nhằm chuyển đổi thông tin từ mức chi tiết cao sang mức chi tiết thấp hơn Điều này hỗ trợ việc phân tích dữ liệu ở nhiều mức độ thời gian khác nhau, giúp người dùng dễ dàng nắm bắt và hiểu rõ hơn về xu hướng và biến động trong dữ liệu.

Tổng quát hóa: Chuyển đổi dữ liệu cấp thấp (dữ liệu nguyên tố, dữ liệu thô) sang các khái niệm ở mức cao hơn thông qua các phân cấp ý niệm.

Là quá trình điều chỉnh các giá trị trong tập dữ liệu về cùng một phạm vi để đảm bảo rằng dữ liệu không bị thiên lệch.

Các phương pháp chuẩn hóa: min-max, z-score, chuẩn hóa bằng chia thang thập phân. Xây dựng thuộc tính

Xây dựng và thêm các thuộc tính mới từ tập các thuộc tính sẵn có.

Cung cấp cái nhìn sâu sắc về cấu trúc đa chiều của dữ liệu.

Phát hiện các thiếu sót giữa các thuộc tính của dữ liệu.

Bước 4: Rút gọn dữ liệu

Là làm giảm kích thước dữ liệu bằng cách loại bỏ các thuộc tính dư thừa, kết hợp dữ liệu và gom cụm dữ liệu.

Kết hợp dữ liệu: Quá trình kết hợp hai hoặc nhiều tập dữ liệu lại với nhau dựa trên một hoặc nhiều thuộc tính chung.

Chọn tập con các thuộc tính giúp giảm kích thước tập dữ liệu bằng cách loại bỏ những thuộc tính dư thừa hoặc không phù hợp Mục tiêu là duy trì số lượng thuộc tính tối thiểu trong khi vẫn đảm bảo phân bố xác suất của các lớp dữ liệu gần giống với phân bố xác suất ban đầu với tất cả các thuộc tính.

Giảm chiều là quá trình giảm số lượng thuộc tính trong dữ liệu mà vẫn giữ lại thông tin quan trọng, giúp dữ liệu dễ xử lý hơn và giảm tải cho mô hình học máy Các kỹ thuật phổ biến để thực hiện điều này bao gồm phân tích nhân tố chính (PCA) và biến đổi wavelet.

Giảm lượng dữ liệu là quá trình làm nhỏ kích thước của tập dữ liệu bằng cách tổng hợp, nén hoặc loại bỏ thông tin dư thừa Các phương pháp phổ biến để thực hiện điều này bao gồm sử dụng các dạng biểu hiện thay thế, mô hình ước lượng dữ liệu như hồi quy, và lưu trữ các biểu diễn thu giảm thông qua sampling, histogram và clustering.

Tạo phân cấp ý niệm là phương pháp tổ chức dữ liệu theo cấu trúc phân cấp, giúp khai phá dữ liệu ở nhiều mức độ trừu tượng Phương pháp này hỗ trợ phân tích dữ liệu với các mức độ khái quát hóa khác nhau, từ đó nâng cao khả năng hiểu biết và ứng dụng thông tin.

Phân cụm dữ liệu

2.2.1 Tổng quát về phân cụm dữ liệu

Quá trình phân cụm dữ liệu là việc chia tách các đối tượng thành những nhóm đồng nhất, trong đó các đối tượng trong cùng một nhóm có nhiều điểm tương đồng hơn so với các đối tượng thuộc nhóm khác Những đặc điểm này giúp cải thiện khả năng phân tích và nhận diện mẫu trong dữ liệu.

Phát hiện và phân loại sự tương đồng và khác biệt giữa các đối tượng.

Phân cụm là một phương pháp học không giám sát vì không biết trước được số nhóm (khác với bài toán phân lớp).

Một thuật toán phân cụm hiệu quả sẽ tạo ra các nhóm với độ đồng nhất cao và sự phân biệt rõ ràng, đóng vai trò quan trọng trong việc đánh giá hiệu quả kinh doanh.

Xây dựng hồ sơ khách hàng chi tiết.

Cá nhân hóa trải nghiệm mua sắm của khách hàng.

Dự báo các xu hướng mới. Đưa ra các phương tối ưu hóa chiến dịch marketing.

Phân tích thị phần và lợi thế cạnh tranh.

2.2.2 Độ đo phân cụm Được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm.

Một số độ đo phân cụm: Euclid, Cosin, Minkowski,…

Xây dựng cây phân cấp cho dữ liệu dựa trên ma trận khoảng cách giữa các phần tử và độ đo khoảng cách giữa các cụm là một phương pháp hiệu quả Phương pháp này, được gọi là Diana, có khả năng tự động xác định số lượng cụm dựa trên tiêu chí dừng đã được thiết lập trước.

Bước 1: Khởi tạo 1 cluster chứa tất cả n phần tử.

Bước 2: Mỗi cluster có hơn 1 phần tử được tách thành 2 clusters (top-down, ngược với Agnes).

Bước 3: Lặp lại bước 2 cho đến khi có n clusters.

Bước 1: Khởi tạo n clusters, mỗi cluster chứa 1 phần tử.

Bước 2: Dựa trên single-link, gộp chung 2 clusters gần nhau nhất thành 1 cluster. Bước 3: Lặp lại Bước 2 cho đến khi gộp n phần từ vào 1 cluster.

Một số phương pháp tính khoảng cách

Single-link: khoảng cách nhỏ nhất giữa 1 phần tử trong một cụm với một phần tử ở cụm khác.

Complete-link: khoảng cách lớn nhất giữa 1 phần tử trong một cụm với một phần tử ở cụm khác.

Average-link: khoảng cách trung bình giữa 1 phần tử trong một cụm với một phần tử ở cụm khác.

Mean: khoảng cách giữa các điểm trung bình của 2 cụm.

Centroid: khoảng cách giữa các trọng tâm của 2 cụm.

Medoid: khoảng cách giữa các trung tâm cụm của 2 cụm.

Không yêu cầu tham số đầu vào.

Không thể quay lại hoặc sửa đổi.

Hiệu suất thấp, không phù hợp với các dữ liệu lớn.

Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu.

Chỉ phù hợp với cụm có hình dạng đơn giản.

Phân chia dữ liệu thành k tập con (k ≤ n) giúp hình thành các cụm, trong đó mỗi cụm tối ưu hóa giá trị hàm đo độ tương tự Mỗi đối tượng chỉ thuộc về một cụm duy nhất, các phần tử trong cùng một cụm có sự tương đồng cao và mỗi cụm đều phải có ít nhất một phần tử.

Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.

Bước 2 trong quy trình phân cụm là phân loại từng điểm dữ liệu vào cụm có trung tâm gần nhất Thuật toán sẽ dừng lại khi không có sự thay đổi nào trong việc phân chia các điểm dữ liệu giữa các cụm so với lần phân chia trước đó.

Sau khi hoàn thành bước 2, bước tiếp theo là cập nhật lại trung tâm của từng cụm Điều này được thực hiện bằng cách tính trung bình cộng của tất cả các điểm dữ liệu đã được gán vào cụm đó.

Cần biết trước số lượng cụm k.

Nhạy cảm với nhiễu và ngoại biên (outliers).

Không phù hợp với phân bố dữ liệu dạng không lồi (non-convex).

Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu.

2.2.4 Phương pháp đánh giá phân cụm dữ liệu Đánh giá ngoài: Đánh giá kết quả dựa vào cấu trúc hoặc xu hướng phân cụm đã được chỉ định trước đó cho tập dữ liệu. Đánh giá nội bộ: Đánh giá kết quả dựa trên các vector chính của dữ liệu thông qua ma trận xấp xỉ, không sử dụng thông tin từ bên ngoài.

Silhouette index: nằm trong khoảng [-1,1] Trong đó

0.25 ≤ Si < 0.5: cần đánh giá lại (Theo kinh nghiệm của chuyên gia).

Khi giá trị Si nhỏ hơn 0.25, không nên tin tưởng vào kết quả của cụm dữ liệu và cần tìm kiếm các phương pháp đánh giá khác Đánh giá tương đối có thể được thực hiện bằng cách so sánh kết quả với các phương pháp gom cụm khác nhau và đối chiếu với các kết quả từ các bộ trị thông số khác nhau.

Phân lớp dữ liệu

2.3.1 Tổng quát về phân lớp dữ liệu

Phân lớp dữ liệu là quá trình phân loại một đối tượng dữ liệu vào một hay nhiều lớp đã định trước thông qua một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước, xác định lớp mà đối tượng thuộc về Quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.

Xây dựng mô hình phân lớp (giai đoạn học/huấn luyện)

Dữ liệu đầu vào: là dữ liệu đã được gán nhãn và tiền xử lý.

Các thuật toán phân lớp: cây quyết định, tập luật và hàm số toán học…

Kết quả của bước này là mô hình phân lớp đã được huấn luyện.

Sử dụng mô hình chia thành 2 bước nhỏ Đánh giá mô hình

Dữ liệu đầu vào là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, nhưng thuộc tính đã gán nhãn sẽ không được đưa vào mô hình phân lớp Độ chính xác của mô hình được đánh giá bằng cách so sánh nhãn dự đoán mà mô hình tạo ra với nhãn thực tế của dữ liệu.

Phân lớp dữ liệu mới

Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn).

Mô hình sẽ tự động gán nhãn cho các đối tượng dữ liệu dựa trên các quy tắc đã được thiết lập trong quá trình huấn luyện, mang lại ứng dụng quan trọng trong lĩnh vực kinh tế.

Dự báo xu hướng thị trường.

Xếp hạng tín dụng. Đánh giá rủi ro tín dụng.

Dự đoán khách hàng tiềm năng.

Dự báo chu kỳ kinh tế.

Phân tích và dự báo thị trường.

2.3.2 Một số phương pháp phân lớp

Phương pháp hồi quy Logistic

Hồi quy Logistic là một mô hình dự đoán xác suất xảy ra của sự kiện dựa trên một hoặc nhiều biến độc lập Mô hình này sử dụng hàm logistic để chuyển đổi giá trị của biến phụ thuộc nhị phân thành giá trị liên tục trong khoảng từ 0 đến 1 Giá trị này cho phép dự đoán lớp mà một đối tượng thuộc về trong một tập hợp các lớp đã được xác định trước.

Phương pháp cây quyết định

Trong lý thuyết quản trị, cây quyết định là một công cụ đồ họa thể hiện các quyết định và những kết quả khả dĩ liên quan, giúp tối ưu hóa quá trình ra quyết định.

Trong khai thác dữ liệu, cây quyết định là một phương pháp hiệu quả để mô tả, phân loại và tổng quát hóa tập dữ liệu Mô hình này không chỉ tổng quát hóa tốt mà còn có khả năng thực hiện cả nhiệm vụ phân loại và hồi quy thông qua chuỗi quy tắc rút ra từ dữ liệu và các thuộc tính liên quan.

Không đòi hỏi việc chuẩn hóa dữ liệu.

Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.

Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.

Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian.

Chi phí xây dựng mô hình cao.

SVM, hay Support Vector Machine, là một thuật toán học máy có giám sát, sử dụng để phân loại dữ liệu Thuật toán này tiếp nhận dữ liệu và coi chúng như các vector trong không gian, từ đó phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều Để đạt được kết quả phân loại tối ưu, SVM cần xác định siêu phẳng sao cho khoảng cách đến các điểm dữ liệu của tất cả các lớp là xa nhất có thể.

SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.

Hard Margin SVM: Hai lớp cần phân lớp là có thể phân chia tuyến tính.

Soft Margin SVM: Phân lớp hai lớp gần như tuyến tính.

Multi-class SVM: Phân loại nhiều lớp với ranh giới tuyến tính giữa các lớp.

Kernel SVM: Áp dụng với dữ liệu phi tuyến.

2.3.3 Các phương pháp đánh giá mô hình phân lớp

Nhằm kiểm tra độ hiệu quả của mô hình phân lớp từ đó đưa ra quyết định có sử dụng mô hình đó hay không.

Mô hình lý tưởng cần có độ phức tạp vừa phải, đảm bảo khả năng tổng quát hóa tốt, đồng thời tránh tình trạng quá khớp hay quá đơn giản hóa dữ liệu.

Ma trận nhầm lẫn là công cụ quan trọng trong phân tích dữ liệu, cho phép xác định số lượng điểm dữ liệu thực sự thuộc về một lớp cụ thể và lớp mà chúng được dự đoán rơi vào Việc sử dụng ma trận nhầm lẫn giúp đánh giá hiệu suất của các mô hình phân loại, từ đó cải thiện độ chính xác trong dự đoán.

Ma trận nhầm lẫn là có kích thước k x k với k là số lượng lớp của dữ liệu.

Một số chỉ số liên quan

Tính chính xác (Accuracy) là tỷ lệ mẫu được phân loại đúng so với tổng số mẫu trong tập dữ liệu, tuy nhiên không cung cấp thông tin chi tiết về từng loại và các lỗi phân loại Độ chính xác (Precision) đề cập đến tỷ lệ mẫu đúng trong số m mẫu được phân vào lớp i Độ phủ (Recall), còn được gọi là độ nhạy, phản ánh khả năng phát hiện các mẫu thuộc lớp mục tiêu.

F1-score là chỉ số trung bình điều hòa giữa độ chính xác và độ phủ trong các mô hình phân loại Chỉ số này đạt giá trị cao khi cả độ chính xác và độ phủ đều lớn, cho thấy hiệu suất của mô hình tốt trong việc nhận diện đúng các lớp dữ liệu.

The Receiver Operating Characteristic (ROC) curve illustrates the relationship between the true positive rate (TPR) and the false positive rate (FPR) across various thresholds It is commonly used to evaluate the performance of binary classification models.

AUC (Diện tích dưới đường cong) là một chỉ số quan trọng dùng để đánh giá khả năng phân biệt các lớp trong mô hình phân loại AUC thể hiện diện tích dưới đường cong ROC, với giá trị dao động từ 0 đến 1, cho thấy hiệu quả của mô hình trong việc phân loại.

1 Giá trị này càng lớn thì mô hình càng tốt.

Kết quả thực hiện

Tiền xử lý dữ liệu

Hình 1.1: Type & Role ban đầu của các thuộc tính.

Hình 1.2: Type & Role ban đầu của các thuộc tính.

Hình 1.3: Điều chỉnh Churn thành biến mục tiêu (Role: Target).

3.1.2 Mô tả bộ dữ liệu

Hình 1.4: Thống kê mô tả bộ dữ liệu.

Hình 1.5: Thống kê mô tả bộ dữ liệu.

Bộ dữ liệu gồm 3150 quan sát, 14 thuộc tính và có biến mục tiêu là Churn

Tên và giải thích thuộc tính:

Số lần cuộc gọi thất bại (Định lượng) phản ánh tổng số cuộc gọi mà khách hàng không thành công Bên cạnh đó, việc ghi nhận khiếu nại của khách hàng (Định tính nhị phân) cho biết liệu khách hàng có phản ánh vấn đề nào hay không, với 0 biểu thị không có khiếu nại và 1 biểu thị có khiếu nại.

Subscription Length (Định lượng): Tổng số tháng khách hàng đã đăng ký dịch vụ. Charge Amount (Định lượng): Số tiền tính phí.

Seconds of Use (Định lượng): Tổng số giây khách hàng đã sử dụng cuộc gọi.

Frequency of Use (Định lượng): Tổng số cuộc gọi mà khách hàng đã thực hiện.

Frequency of SMS (Định lượng): Tổng số tin nhắn mà khách hàng đã gửi.

Distinct Called Numbers (Định lượng): Tổng số số điện thoại khác biệt mà khách hàng đã gọi đến.

Age Group (Định lượng): Nhóm tuổi của khách hàng

Tariff Plan (Định tính nhị phân): Loại gói cước mà khách hàng sử dụng (1: Trả theo mức sử dụng, 2: Hợp đồng).

Status (Định tính nhị phân): Trạng thái tài khoản của khách hàng (1: Hoạt động, 2: Không hoạt động).

Age (Định lượng): Độ tuổi của khách hàng.

Customer Value (Định lượng): Giá trị tổng hợp đại diện cho giá trị của khách hàng đối với công ty.

Churn (Định tính nhị phân): Khách hàng có rời bỏ dịch vụ hay không (1: Rời bỏ, 0: Không rời bỏ) - Đây là biến mục tiêu.

Kết quả từ Feature Statistics cho thấy các số liệu thống kê cơ bản của từng biến trong bộ dữ liệu, bao gồm các giá trị như Mean, Mode, Median, Min, và Max Đặc biệt, Feature Statistics cũng chỉ ra rằng bộ dữ liệu này không có giá trị bị thiếu, với tỷ lệ missing values là 0%.

3.1.3 Loại bỏ thuộc tính không phù hợp

Nhóm tiến hành sử dụng widget Rank để xếp hạng các thuộc tính và nhận được kết quả như sau:

Hình 1.6: Kết quả xếp hạng các thuộc tính thông qua widget Rank.

Thuộc tính Age và Age Group có tỷ lệ chỉ số rất thấp (0.000), cho thấy chúng không đóng góp nhiều vào việc dự đoán biến mục tiêu Churn Do Age Group có thể được tính toán từ Age và không ảnh hưởng đáng kể đến kết quả, nhóm đã quyết định loại bỏ thuộc tính này bằng cách sử dụng Select Columns.

Hình 1.7: Loại bỏ thuộc tính Age Group bằng công cụ Select Columns.

3.1.4 Phân bổ của các thuộc tính

Hình 1.8: Phân bổ thuộc tính Complains.

Trong tổng số 2709 khách hàng, có đến 92,35% không có khiếu nại về dịch vụ của công ty Đặc biệt, 2614 khách hàng, chiếm 89,86%, không chỉ không khiếu nại mà còn tiếp tục sử dụng dịch vụ.

295 khách hàng không khiếu nại nhưng đã ngưng sử dụng dịch vụ (10,14%).

Có 241 khách hàng có khiếu nại về dịch vụ của công ty, chiếm khoảng 7,65% Trong đó, có

41 khách hàng có khiếu nại và vẫn tiếp tục sử dụng dịch vụ (17,01%) và 200 khách hàng khiếu nại và đã ngưng sử dụng dịch vụ (82,99%).

Như vậy, ở khoản mục Complains, đa số khách hàng không khiếu nại về dịch vụ của công ty và vẫn tiếp tục sử dụng dịch vụ.

Hình 1.9: Phân bổ thuộc tính Age. Độ tuổi được phân bổ chủ yếu ở nhóm 30 tuổi, gồm 1425 khách hàng (chiếm khoảng

45,24%) Trong độ tuổi này, có 1195 khách hàng vẫn tiếp tục sử dụng dịch vụ và 230 khách hàng lựa chọn rời bỏ.

Nhóm khách hàng phổ biến thứ hai là từ 25 tuổi, với 1.037 khách hàng, chiếm khoảng 32,92% Trong số này, 853 khách hàng vẫn tiếp tục sử dụng dịch vụ, trong khi 184 khách hàng đã quyết định rời bỏ Các nhóm tuổi khác có số lượng ít hơn, cụ thể nhóm 45 tuổi có 395 khách hàng, nhóm 55 tuổi có 170 khách hàng, và nhóm 15 tuổi chỉ có 123 khách hàng.

Hình 1.10: Phân bổ thuộc tính Tariff Plan.

Trong số 2905 khách hàng sử dụng gói cước trả theo mức sử dụng, có 92,22% khách hàng tham gia Trong đó, 83,17% (2416 khách hàng) hài lòng và tiếp tục sử dụng dịch vụ, trong khi 16,83% (489 khách hàng) đã ngưng sử dụng dịch vụ.

Có 245 khách hàng sử dụng gói cước trả theo hợp đồng, chiếm khoảng 7,78% Trong đó, có

239 khách hàng hài lòng, tiếp tục sử dụng dịch vụ (97,55%) và 6 khách hàng ngưng sử dụng dịch vụ (2,45%).

Đa số khách hàng hiện nay lựa chọn gói cước trả theo mức sử dụng và vẫn duy trì việc sử dụng dịch vụ.

Hình 1.18: Phân bổ thuộc tính Status.

Trong tổng số 2368 khách hàng có tài khoản hoạt động, tỷ lệ khách hàng hài lòng và tiếp tục sử dụng dịch vụ đạt 94,72%, tương đương 2243 khách hàng Ngược lại, chỉ có 125 khách hàng, chiếm 5,28%, đã quyết định rời bỏ và ngưng sử dụng dịch vụ.

Trong tổng số 782 khách hàng, có 24,83% tài khoản đang ở trạng thái không hoạt động Trong số đó, 52,69% khách hàng vẫn tiếp tục sử dụng dịch vụ, trong khi 47,31% đã ngừng sử dụng dịch vụ.

Hình 1.20: Phân bổ thuộc tính Churn. Đa số khách hàng chọn tiếp tục sử dụng dịch vụ (2655 khách hàng, chiếm 84,29%).

Có 495 khách hàng đã rời bỏ, ngưng sử dụng dịch vụ (chiếm 15,71%).

Hình 2.1: Workflow tiền xử lý dữ liệu trên Orange.

Phân cụm dữ liệu

Bộ dữ liệu này được thiết kế để phân tích và dự đoán khả năng khách hàng ngừng sử dụng dịch vụ của công ty điện thoại, vì vậy nó đã được gán nhãn (phân lớp) Khi thực hiện phân cụm, chúng ta sẽ coi bộ dữ liệu này chưa có lớp bằng cách thay đổi vai trò của thuộc tính Churn thành meta.

Hình 2.2: Thay đổi role của thuộc tính Churn thành meta.

Khi tiến hành phân cụm, nhóm đã thực hiện bằng phương pháp phân cụm phân cấp

(Hierarchical Clustering) và phân cụm phân hoạch (K-Means).

3.2.1 Kết quả của Hierarchical Clustering

Phân thành 3 cụm

Nhận xét: Vì số dòng ở C1 quá nhỏ so với tổng số dòng (1/3086) => Single chưa phù hợp.

Hình 2.3: Kết quả Single 3 cụm.

Hình 2.4: Kết quả Average 3 cụm. Đánh giá nội bộ

Giữa các cụm có sự chênh lệch về số dòng Nhất là ở C1, khi chỉ có 62 dòng và quá ít so với C2 (378 dòng) và C3 (2710 dòng).

C1 có chỉ số Silhouette Plot khả quan (0.888 > 0.5 => sát thực tế).

C2 có chỉ số Silhouette Plot khá thấp (0.064 < 0.25 => cần tìm phương pháp đánh giá khác).

Khi phân chia thành 3 cụm dựa trên giá trị trung bình, mặc dù số dòng giữa các cụm có sự chênh lệch, kết quả cho thấy C1 và C3 phản ánh thực tế gần đúng Tuy nhiên, C2 cần được đánh giá bằng phương pháp khác.

Hình 2.5: Kết quả Weighted 3 cụm. Đánh giá nội bộ

Giữa các cụm có sự chênh lệch về số dòng C1 có số dòng ít nhất trong 3 cụm (243 dòng).

Khi phân thành ba cụm bằng phương pháp Weighted, mặc dù số dòng giữa các cụm có sự chênh lệch, kết quả cho thấy C1 và C3 phản ánh sát thực tế Tuy nhiên, C2 cần được đánh giá bằng một phương pháp khác.

Hình 2.6: Kết quả Complete 3 cụm. Đánh giá nội bộ

Cụm C1 có số dòng ít nhất với chỉ 182 dòng, trong khi C2 và C3 lại có số dòng tương đối đồng đều, lần lượt là 1644 dòng và 1324 dòng.

C2 có chỉ số Silhouette Plot tương đối (0.25 ≤ 0.469 < 0.5 => cần chuyên gia).

C3 có chỉ số Silhouette Plot khá thấp (-0.324 < 0.25 => cần tìm phương pháp đánh giá khác).

Khi phân chia thành ba cụm bằng phương pháp Complete, chúng ta nhận thấy sự chênh lệch về số dòng giữa các cụm Kết quả thu được không đảm bảo, vì cụm C2 cần thêm ý kiến từ chuyên gia, trong khi cụm C3 cần tìm kiếm phương pháp đánh giá khác Chỉ có cụm C1 là phù hợp với thực tế.

Hình 2.7: Kết quả Ward 3 cụm. Đánh giá nội bộ

Số dòng phân bố giữa các cột tương đối đồng đều, tuy nhiên vẫn có sự chênh lệch rõ rệt Cột C1 có số dòng nhiều nhất với 1950 dòng, trong khi đó, số dòng ở C2 và C3 không chênh lệch quá nhiều, lần lượt là 630 dòng và 570 dòng.

Khi áp dụng phương pháp phân cụm Ward, kết quả cho thấy không khả quan, vì cụm C1 yêu cầu sự tham gia của chuyên gia, trong khi cụm C2 và C3 cần tìm kiếm các phương pháp đánh giá khác.

=> Kết luận: Khi phân thành 3 cụm, cả 5 phương pháp cho kết quả không khả quan khi dựa trên đánh giá nội bộ và chỉ số Silhouette Plot.

Phân thành 2 cụm

Nhận xét: Vì số dòng ở C1 quá nhỏ so với tổng số dòng (1/3150) => Single chưa phù hợp.

Hình 2.8: Kết quả Single 2 cụm.

Hình 2.9: Kết quả Average 2 cụm. Đánh giá nội bộ

C1 có số dòng ít, chỉ số Silhouette Plot cao (0.935 > 0.5 => Sát với thực tế).

C2 có số dòng nhiều hơn hẳn C1, chỉ số Silhouette Plot lại tương đối (0.25 ≤ 0.294 < 0.5 => cần chuyên gia).

Khi phân chia thành hai cụm bằng phương pháp Average, kết quả không được đảm bảo do chỉ số Silhouette Plot chỉ ra rằng cụm C2 cần tham khảo thêm ý kiến từ các chuyên gia.

Hình 2.10: Kết quả Weighted 2 cụm. Đánh giá nội bộ

Giữa C1 và C2 có sự chênh lệch nhất định về số dòng (C1 có 243, trong khi C2 có đến

C2 có chỉ số Silhouette Plot khá thấp (-0.142 < 0.25 => cần tìm phương pháp đánh giá khác)

Khi phân chia thành hai cụm bằng phương pháp Weighted, sự chênh lệch về số dòng giữa hai cụm có thể dẫn đến kết quả không chắc chắn Chỉ số Silhouette Plot cho thấy rằng cụm C1 cần tham khảo thêm ý kiến từ các chuyên gia, trong khi cụm C2 cần tìm kiếm phương pháp đánh giá khác để cải thiện độ chính xác.

Hình 2.11: Kết quả Complete 2 cụm

Giữa C1 và C2 có sự chênh lệch lớn về số dòng (C1 chỉ có 182 dòng, trong khi C2 có đến 2968 dòng).

C1 có chỉ số Silhouette Plot khả quan (0.687 > 0.5 => sát với thực tế).

C2 có chỉ số Silhouette Plot khả quan (0.546 > 0.5 => sát với thực tế).

Do vậy, khi phân thành 2 cụm bằng Complete, tuy có sự chênh lệch giữa số dòng giữa

2 cụm nhưng kết quả vẫn được đảm bảo vì chỉ số Silhouette Plot cho thấy cả 2 cụm đều là sát với thực tế.

Hình 2.12: Kết quả Ward 2 cụm. Đánh giá nội bộ

C2 có chỉ số Silhouette Plot khá thấp (-0.142 < 0.25 => cần tìm phương pháp đánh giá khác)

Khi áp dụng phương pháp phân cụm Ward, việc chia thành hai cụm với số dòng tương đối đồng đều cho thấy rằng cụm C1 phản ánh chính xác thực tế, trong khi cụm C2 cần được đánh giá bằng phương pháp khác.

=> Kết luận: Khi phân thành 2 cụm, Complete cho kết quả tốt nhất dựa trên đánh giá nội bộ và chỉ số Silhouette Plot => Chọn complete 2 cụm.

Tiêu đề	Ứng Dụng Khoa Học Dữ Liệu Để Phân Tích Và Dự Báo Tỷ Lệ Khách Hàng Rời Bỏ
Tác giả	Huỳnh Thụy Bảo Châu, Trần Quốc Danh, Tống Khánh Đoan, Đặng Nguyễn Minh Thông
Người hướng dẫn	Trương Việt Phương
Trường học	Đại Học Kinh Tế Tp. Hồ Chí Minh
Thể loại	tiểu luận
Năm xuất bản	2024
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	40
Dung lượng	2,53 MB