Nghiên cứu của Guangli Nie, Wei Rowe, Lingling Zhang, Yingjie Tian, Yong Shi. “Credit card churn forecasting by logistic regression and decision tree”.
Nhóm tác giá đã thực hiện một phép đo chỉ phí phân loại sai số và ý nghĩ kinh tế các tài khoản tín dụng đề xây dựng mô hình dự đoán. Mục đích chính của bài nghiên cứu này là dự đoán tình trạng ngừng thẻ tín dụng của khách hàng bằng cách sử dụng mô hình hồi quy Logisfic (Logistic Regression) và cây quyết định (Decision Tree). Hai mô hình này được đánh giá có khả năng phân loại hoàn thiện và mạnh mẽ
các biến só.
Với tập dữ liệu được thu thập tại một ngân hàng thương mại Trung Quốc bao
gồm các dữ liệu liên quan đến thông tin cá nhân khách hàng, thông tin thẻ tín dụng, thông tin rủi ro và thông tin hoạt động giao dịch của khoảng 60 triệu khách hàng. Sau khi sàng lọc thì tập dữ liệu có cầu trúc gồm 5456 mẫu trong đó 440 mẫu rời bỏ dịch vụ (91,1%) và 5416 mẫu chưa rời bỏ dịch vụ (8,1%). Và bài viết này cho thấy các két quả kiểm định của mô hình hồi quy Logistic hoạt động tốt hơn mô hình cây quyết định vì có độ chính xác cũng như chí phí phân loại sai ôn định hơn. Lỗi tỷ lệ của mô hình cây quyết định là 16,93% cao hơn nhiều so với hồi quy Logistic. Cụ thẻ kết quả mô hình hồi quy Logistic có 4997 khách hàng trong tập thử nghiệm trong đó 225 khách hàng là đang ngừng thẻ tín dụng và 4772 khách hàng còn lại là bình thường (tỷ lệ dự đoán chính xác cao hơn).
Tuy nhiên sử dụng mô hình hài quy Logistic cũng có những hạn ché trong việc dự đoán. Nhóm tác giả đã thực hiện 6 mô hình và mức độ phù hợp và hiệu suất dự đoán của 6 mô hình là khác nhau. Mỗi mô hình là các biến số khác nhau đề dự đoán.
Mô hình 6 với các biến liên quan đến thông tin khách hàng, thông thẻ cơ bản, rủi ro và thông tin giao dịch là mô hình tốt nhát trong các mô hình. Các dữ liệu có thẻ bị sai lệch chăng hạn như các thông tin khách hàng có thể không đầy đủ hoặc không chính
xác, làm hiệu suất của mô hình. Việc xây dựng nhiều mô hình két hợp với các biến số khác nhau sẽ dẫn đến dự báo két quả không hoàn toàn chính xác và không có tính thống nhát cao. Ngoài ra, chỉ phí sẽ khá cao và tốn nhiều thời gian đề tính toán tất ca các biến.
Vì vậy bài nghiên cứu có thẻ xem xét thêm các biến có liên quan như hành vi (tần suất giao dịch, thời gian giao dịch, loại giao dịch), chỉ só tín dụng, tài chính (thu nhập, công việc, tài sản),...để cải thiện độ chính xác và khả năng dự đoán. Từ đó, nâng cáp và cải thiện các sản phâm cũng như dịch vụ đề tăng sự hài lòng của khách hàng nhằm giảm thiêu tình trạng khách hàng ngừng thẻ tín dụng.
Nghiên cứu của Manjit Kaur, Kawaljeet Singh, Neeraj Sharma. “Data Mining as a tool to Predict the Churn Behaviour among Indian bank customers.”
Nhóm tác giả tập trung vào việc dự đoán hành vi rời bỏ của khách hàng trong ngành ngân hàng bảng cách sử dụng các kỹ thuật khai thác dữ liệu. Mục tiêu là giảm thiêu việc khách hàng rời bỏ sử dụng dịch vụ để tôi đa hóa lợi nhuận. Phương pháp nghiên cứu bao gồm các giai đoạn lây mẫu dữ liệu, tiền xử lý dữ liệu, xây dựng mô
hình và đánh giá mô hình.
Nghiên cứu đã thử nghiệm với các kỹ thuật phân loại xác suát, cụ thẻ là Nạve Bayes, cây quyét định (J48), và máy vector hỗ trợ (SMO). Tập dữ liệu đã được chia thành 70% tập huấn luyện và 30% tập kiêm tra.
Kết quả của phan tich cho thay các kết quả sau:
Với kỹ thuật Naive Bayes, dự đoán Khách hàng rời là 58 trên tống só 58 mẫu (ty lệ thành công 100%), dự đoán Khách hàng trung thành là 473 trên tông số 506 mau (ty lệ thành công 93.05%).
Bằng kỹ thuật Decision Trees (J48) nhóm tác giả đã dự đoán Khách hàng rời là 54 trên tống số 54 mẫu (tý lệ thành công 100%), dự đoán Khách hàng trung thành là 504 trên tông số 510 mẫu (tý lệ thành công 98.82%).
Voi Support Vector Machine (SMO), du đoán Khách hàng rời là 58 trên tông số 58 mẫu (tỷ lệ thành công 100%), dự đoán Khách hàng trung thành là 481 trên tông số 506 mẫu (tỷ lệ thành công 95.05%).
Nghiên cứu cũng đề cập đến một số hạn ché. Thứ nhát, việc tập trung duy nhất vào các kỹ thuật phân loại xác suất như Nạve Bayes, cây quyết định (J48) và máy vector hỗ trợ (SMO) có thê đưa ra hạn ché về việc lựa chọn mô hình. Khám phá một loạt rộng hơn các phương pháp mô hình hóa tiên tiến có thẻ cung cáp cái nhìn giá trị và góc nhìn so sánh. Thứ hai, trong khi nghiên cứu sử dụng các chỉ số như ma trận nhằm lẫn đề đánh giá hiệu suất mô hình, việc đánh giá có thê không hoàn toàn nắm bắt được sự phức tạp của dự đoán rời bỏ và phân tích hành vi của khách hàng. Các chỉ số hoặc phương pháp đánh giá bô sung có thê cung cáp cái nhìn toàn diện hơn về
hiệu quả của các mô hình. Ngoài ra, sự phụ thuộc vào một tập dữ liệu bao gồm 2000
bản ghi của khách hàng đã rời bỏ và hoạt động đặt ra lo ngại về độ lớn và tính đại diện của mẫu. Khả năng tổng quát hóa của các két quả có thẻ bị hạn ché bởi phạm vi hẹp của mẫu. Nghiên cứu có thê bỏ qua các yếu tô bên ngoài như biến động kinh té, động thái quy định hoặc thay đổi trong cạnh tranh có thê ảnh hưởng đáng kê đến hành vi rời bỏ của khách hàng. Két hợp các biến số bên ngoài này vào phân tích có thẻ cải
thiện độ chính xác dự đoán và tính liên quan của các mô hình.
Bang cách nhận biết và giải quyết những hạn ché này trong các nghiên cứu tương lai, các nhà nghiên cứu có thê nâng cao tính hiệu quả và tính ứng dụng của các mô hình dự đoán rời bỏ dịch vụ trong ngành ngân hàng, góp phản vào việc hiểu biết sâu sắc hơn về các chiến lược giữ chân khách hàng và phân tích dự đoán trong dịch
vụ tài chính.
2.2 _ Nguồn dữ liệu nghiên cứu Loại dữ liệu mà chúng tôi thu thập được là dữ liệu thứ cấp và được cung cấp công khai trên trang web Kaggle của tác giả Sakshi Goyal thu thập từ LEAPS by Analyttica. Đề tìm được bộ dữ liệu “Credit Card Customers” trên trang web Kaggle
chúng tôi đã dùng cách tìm kiếm trên trang web bằng các từ khóa liên quan như
“predict customer churning”,”customers churning credit card” và chọn tập dữ liệu,
kiếm tra mô tả để đảm bảo tệp dữ liệu đáp ứng đủ yêu cầu nghiên cứu của bài. Tổng quan tệp dữ liệu gồm 23 biến, 10,127 bản ghi khách hàng đề cập tới độ tuổi, giới tính, trình độ học vần, tình trạng hôn nhân...