Hiện tại, các nhà nghiên cứu và quản lý ngân hàng nghiên cứu các mẫu và xu hướng trong dữ liệu để phát triển các mô hình có thể dự đoán liệu một khách hàng có kế hoạch rời bỏ hay không [
GIỚI THIỆU
Tổng quan
Thị trường hiện nay đang đối mặt với sự cạnh tranh gay gắt từ nhiều nhà cung cấp dịch vụ, đặc biệt là ngân hàng toàn cầu Thách thức lớn nhất là sự thay đổi trong hành vi của khách hàng, yếu tố cốt lõi của mọi ngành, đặc biệt là trong lĩnh vực ngân hàng, nơi mà việc nhận tiền gửi, đầu tư và cho vay phụ thuộc vào sự hài lòng của khách hàng Khách hàng lâu dài có vai trò quan trọng trong việc tạo ra lợi nhuận, vì vậy các ngân hàng cần chú trọng giữ chân khách hàng để đảm bảo sự phát triển bền vững.
Theo nghiên cứu của Harvard Business Review, việc thu hút khách hàng mới tốn kém từ 5 đến 25 lần so với việc giữ chân khách hàng hiện tại Tăng tỷ lệ giữ chân khách hàng chỉ 5% có thể mang lại lợi nhuận cho các công ty từ 25% đến 95% Do đó, khách hàng được xem là tài sản quan trọng nhất, ảnh hưởng mạnh mẽ đến lợi nhuận của ngân hàng Năm trụ cột thiết yếu cho hoạt động kinh doanh ngân hàng hiện đại bao gồm vốn, thanh khoản, rủi ro, tài sản và quản lý khách hàng Tập trung hiệu quả vào những trụ cột này sẽ giúp ban quản lý tối đa hóa lợi nhuận của ngân hàng.
Do đó, sự rời bỏ của khách hàng là một thách thức cơ bản đối với các ngân hàng
Sự rời bỏ của khách hàng, hay còn gọi là việc mất khách hàng vào tay đối thủ cạnh tranh, gây ra tổn thất về lợi nhuận cho doanh nghiệp Để quản lý tình trạng này, việc xác định những khách hàng có khả năng chuyển sang ngân hàng khác là rất quan trọng Risselada et al (2010) đã nhấn mạnh rằng quản lý việc rời bỏ khách hàng không chỉ giúp duy trì mối quan hệ lâu dài giữa công ty và khách hàng mà còn tối đa hóa giá trị của cơ sở khách hàng.
Lưu Thị Yến Nhi – 19522491 2 phân loại sự rời bỏ khách hàng thành hai nhóm chính: rời bỏ tự nguyện và không tự nguyện Sự rời bỏ không tự nguyện xảy ra khi ngân hàng ngừng cung cấp dịch vụ cho khách hàng, dễ dàng nhận biết Ngược lại, sự rời bỏ tự nguyện khó xác định hơn, vì đây là quyết định có ý thức của khách hàng khi chấm dứt mối quan hệ với ngân hàng Sự rời bỏ tự nguyện còn được chia thành hai loại: rời bỏ ngẫu nhiên, xảy ra do thay đổi hoàn cảnh của khách hàng như điều kiện tài chính, và rời bỏ có chủ ý, do các yếu tố như dịch vụ công nghệ mới, giá cả cạnh tranh và chất lượng dịch vụ.
1.1.2 Lý do chọn đề tài
Hầu hết các ngân hàng trên thế giới đều cung cấp dịch vụ thẻ tín dụng, một phương thức thanh toán tiện lợi cho hóa đơn, hàng tạp hóa, tiền thuê nhà và nhiều chi phí khác Thẻ tín dụng hoạt động như một khoản vay ngắn hạn, yêu cầu người dùng thanh toán hóa đơn trước ngày đáo hạn vào cuối chu kỳ thanh toán.
Khách hàng luôn là yếu tố quan trọng nhất của mỗi doanh nghiệp Việc phân tích tỉ lệ rời bỏ (churn rate) một cách chính xác giúp công ty có cái nhìn tổng quan về tình hình kinh doanh Thực tế từ quá trình thực tập tại doanh nghiệp cho thấy rằng tỉ lệ rời bỏ dịch vụ cung cấp phản ánh rõ ràng tình hình kinh doanh cũng như các biến đổi bất thường, cả tích cực lẫn tiêu cực.
Churn Rate giúp doanh nghiệp hiểu rõ hơn về hành vi của khách hàng, đồng thời phân tích lý do tại sao họ hủy bỏ hoặc ngừng sử dụng dịch vụ Việc nắm bắt thông tin này là rất quan trọng để cải thiện trải nghiệm khách hàng và giảm thiểu tỷ lệ rời bỏ.
Rate hỗ trợ doanh nghiệp xác định khách hàng quan trọng và những đối tượng cần được chú trọng Đồng thời, nó cũng cung cấp phương pháp tính giá trị vòng đời khách hàng (Customer Lifetime Value - CLV).
Tỉ lệ rời bỏ (Churn Rate) là một chỉ số quan trọng trong phát triển doanh nghiệp, đặc biệt đối với các công ty có mô hình kinh doanh dựa trên hợp đồng hoặc thu phí hàng tháng Phân tích tỉ lệ rời bỏ không chỉ dựa trên số lượng khách hàng rời bỏ mà còn giúp đánh giá sự thay đổi trong lượng khách hàng, bao gồm cả việc nâng cấp và hạ cấp dịch vụ Ngay cả các công ty bán lẻ cũng có thể áp dụng chỉ số này nếu đáp ứng được các điều kiện nhất định Bài viết này sẽ đi sâu vào việc phân tích tỉ lệ rời bỏ, đặc biệt là trong bối cảnh ngừng sử dụng thẻ tín dụng của khách hàng.
Mục tiêu nghiên cứu
- Tìm hiểu về các yếu tố ảnh hưởng tới việc khách hàng không tiếp tục sử dụng thẻ tín dụng của ngân hàng
- Phân tích và nghiên cứu sự ảnh hưởng của các yếu tố nêu trên
- Lựa chọn các mô hình máy học phù hợp với các tính năng hàng đầu để dự đoán khách hàng rời bỏ
- Tìm cách tối ưu hoá các siêu tham số để mô hình đưa kết quả tốt nhất
- Từ đó đưa ra kết luận và cái nhìn tổng quát về doanh nghiệp, tỉ lệ rời bỏ của khách hàng với sản phẩm thẻ tín dụng
Phạm vi nghiên cứu
Churn Rate là một khái niệm quen thuộc nhưng chứa đựng nhiều khía cạnh để nghiên cứu, bao gồm tỷ lệ gỡ ứng dụng, hủy giao dịch và rời bỏ dịch vụ Mỗi doanh nghiệp có dữ liệu riêng biệt và thường không công bố công khai, gây khó khăn trong việc phân tích và nghiên cứu Tôi đã gặp thách thức trong việc tìm kiếm bộ dữ liệu phù hợp để thực hiện nghiên cứu của mình.
Lưu Thị Yến Nhi – 19522491 4 một bộ dữ liệu về Credit Card Customer Churn Prediction trong một cuộc thi cộng đồng được tổ chức vào khoảng năm 2019
Tập dữ liệu gồm hơn 10.000 khách hàng với thông tin sinh trắc học và hạn mức thẻ tín dụng, cùng với gần 18 tính năng Khoảng 16% khách hàng đã rời bỏ dịch vụ, gây khó khăn trong việc đào tạo mô hình do tính cân bằng dữ liệu chưa được đảm bảo.
Ý nghĩa khoa học và thực tiễn
Với việc nghiên cứu và phân tích Churn Rate , doanh nghiệp có thể:
- Đánh giá “sức khỏe doanh nghiệp: và đưa ra các dự báo về tình hình kinh doanh trong tương lai
Xem xét giá trị thực mà sản phẩm và dịch vụ mang lại cho người dùng là rất quan trọng, đồng thời cần điều chỉnh chiến lược kinh doanh dựa trên sự biến động của tỷ lệ rời bỏ khách hàng (Churn Rate) Việc này không chỉ giúp cải thiện trải nghiệm người dùng mà còn tăng cường sự trung thành và giữ chân khách hàng hiệu quả hơn.
- Tính toán CLV (giá trị vòng đời khách hàng)
- Xác định tập khách hàng tiềm năng nhất công ty từ Churn Rate theo phân khúc khách hàng
Ngoài ra, Churn Rate còn ảnh hưởng đến những chỉ số khác như:
Doanh thu định kỳ hàng tháng (Monthly Recurring Revenue) bị ảnh hưởng nghiêm trọng khi khách hàng rời bỏ nhiều, với tỷ lệ Churn cao đồng nghĩa với việc doanh nghiệp mất đi nguồn thu nhập ổn định Điều này dẫn đến sự sụt giảm trong doanh thu định kỳ hàng tháng, ảnh hưởng đến sự phát triển bền vững của doanh nghiệp.
Giá trị vòng đời khách hàng (Customer Lifetime Value) là một chỉ số quan trọng, tương tự như doanh thu định kỳ hàng tháng (Monthly Recurring Revenue) Khi khách hàng rời bỏ, doanh thu trên mỗi vòng đời người dùng của công ty cũng sẽ giảm, ảnh hưởng trực tiếp đến hiệu quả kinh doanh.
CƠ SỞ LÝ THUYẾT
Khái niệm
Credit Card Churn là hiện tượng mất khách hàng sử dụng thẻ tín dụng, diễn ra khi họ hủy bỏ hoặc không gia hạn tài khoản Ví dụ, khi thẻ tín dụng hết hạn mà không được gia hạn, khách hàng sẽ bị coi là đã rời bỏ Sự gián đoạn cũng có thể xảy ra nếu thẻ không được sử dụng trong một thời gian dài hoặc nếu khách hàng chuyển sang công ty phát hành thẻ khác Cuối cùng, việc chủ động hủy tài khoản cũng dẫn đến tình trạng khách hàng rời bỏ.
Hiểu nguyên nhân khiến khách hàng rời bỏ là yếu tố quan trọng để dự đoán và ngăn chặn tình trạng này Khi khách hàng hủy tài khoản, lý do có thể bao gồm dịch vụ khách hàng không đạt yêu cầu, thiếu các chương trình thưởng hấp dẫn, lãi suất cao hoặc nhiều yếu tố khác.
Nếu khách hàng không sử dụng thẻ mới phát hành sau một thời gian nhất định, có thể là do họ chưa hiểu rõ về sản phẩm hoặc chưa nhận được ưu đãi hấp dẫn Việc các ngân hàng không nắm bắt được nguyên nhân khách hàng rời bỏ có thể dẫn đến nguy cơ mất khách hàng và khó khăn trong việc thu hút khách hàng mới.
Các ngân hàng cần theo dõi thường xuyên hành vi của khách hàng để phát hiện các dấu hiệu cảnh báo có thể dẫn đến sự rời bỏ Hiện nay, các nhà nghiên cứu và quản lý ngân hàng đang phân tích mẫu và xu hướng trong dữ liệu nhằm phát triển các mô hình dự đoán khả năng khách hàng có ý định rời bỏ Ngoài ra, dữ liệu cũng cung cấp những công cụ quan trọng cho các ngân hàng trong việc khám phá các mẫu ẩn trong cơ sở dữ liệu lớn, từ đó áp dụng các quy trình phù hợp.
Lưu Thị Yến Nhi – 19522491 6 trình phân cụm sử dụng phân loại mạng thần kinh dựa trên các đặc điểm của khách hàng, giúp xây dựng các mô hình dự đoán rời bỏ hiệu quả.
Dự đoán khách hàng rời bỏ bằng dữ liệu lớn là một lĩnh vực nghiên cứu quan trọng trong công nghệ máy học, nhằm phân loại khách hàng thành hai nhóm: rời bỏ và không rời bỏ Nhiều nghiên cứu đã phát triển các mô hình dự đoán sử dụng kỹ thuật thống kê và khai thác dữ liệu, bao gồm hồi quy tuyến tính, cây quyết định, rừng ngẫu nhiên, hồi quy logistic, mạng nơ-ron, máy vectơ hỗ trợ và mạng nơ-ron sâu.
Các yếu tố ảnh hưởng đến chu kỳ thẻ tín dụng
Nhiều công ty thẻ tín dụng đang đối mặt với tình trạng khách hàng hủy thẻ với tỷ lệ đáng báo động, do mức phí cao, chính sách phức tạp và dịch vụ khách hàng không hiệu quả Một khảo sát của Bankrate với 2.582 người trưởng thành cho thấy 61% chủ thẻ tín dụng Mỹ đã hủy ít nhất một thẻ, trong đó 37% đã hủy nhiều hơn một thẻ Điều này cho thấy sự giảm sút đáng kể trong việc giữ thẻ tín dụng, bất chấp những lợi ích về tiện lợi và sức mua mà chúng mang lại.
Nhiều người cho rằng chi phí cao là lý do chính khiến họ từ bỏ thẻ tín dụng Các khoản phí như phí trễ hạn, phí hàng năm, phí giao dịch nước ngoài và các chi phí ẩn khác làm cho việc sử dụng thẻ tín dụng trở nên khó khăn và không xứng đáng với chi phí bỏ ra.
Dịch vụ khách hàng là một vấn đề lớn đối với thẻ tín dụng, khi nhiều khách hàng thường phải chờ đợi lâu hoặc không nhận được câu trả lời rõ ràng cho thắc mắc của mình Tình trạng dịch vụ khách hàng kém không chỉ gây ra cảm giác bất lực và thất vọng mà còn khiến khách hàng có xu hướng tìm kiếm trải nghiệm tốt hơn ở nơi khác.
Hoàn cảnh cá nhân ảnh hưởng đến cảm giác an toàn của mọi người, đặc biệt là trong bối cảnh trộm cắp danh tính ngày càng gia tăng, khiến họ cảm thấy dễ bị tổn thương Nhiều người cũng cảm thấy cần tách mình khỏi nợ nần do đã có quá nhiều thẻ tín dụng.
Các nghiên cứu đã có
Dự đoán sự rời bỏ của khách hàng thẻ tín dụng đã được nghiên cứu từ lâu, với nhiều mô hình khác nhau được phát triển Kaya và cộng sự (2018) đã xây dựng một mô hình dự đoán dựa trên hồ sơ giao dịch cá nhân của khách hàng, sử dụng thông tin về các yếu tố không gian, lựa chọn và đặc điểm hành vi Kết quả cho thấy mô hình này có độ chính xác cao hơn so với các mô hình truyền thống chỉ dựa vào đặc điểm nhân khẩu học.
Các nhà nghiên cứu đã phát triển mô hình dự đoán sự rời bỏ của khách hàng thông qua thẻ tín dụng, sử dụng ba phương pháp học máy: rừng ngẫu nhiên, hồi quy tuyến tính và KNN, như đã nêu trong Miao và Wang (2022) Tập dữ liệu gồm 10.000 mẫu với 21 đặc trưng, và mô hình được đánh giá bằng các chỉ số ROC, AUC và ma trận nhầm lẫn Kết quả cho thấy phương pháp Random Forest đạt hiệu quả cao nhất trong việc dự đoán sự rời bỏ của khách hàng.
Lưu Thị Yến Nhi – 19522491 đã đạt được độ chính xác 96,3% với mô hình học máy, cho thấy ba biến quan trọng hàng đầu là tổng số tiền giao dịch, số lượng giao dịch trong 12 tháng qua và tổng số dư quay vòng Nghiên cứu của de Lima Lemos et al (2022) tại Brazil đã điều tra nguyên nhân khiến khách hàng rời bỏ ngân hàng, nhằm dự đoán các yếu tố ảnh hưởng đến việc đóng hoặc dừng tài khoản trong sáu tháng qua Kết quả cho thấy mô hình rừng ngẫu nhiên vượt trội hơn các mô hình khác về hiệu suất, đồng thời chỉ ra rằng khách hàng có mối quan hệ bền chặt với ngân hàng và có nhiều khoản vay ít có khả năng đóng tài khoản hơn.
PHƯƠNG PHÁP NGHIÊN CỨU
Tổng quan
Nhiều nghiên cứu đã phát triển các mô hình dự đoán tỷ lệ rời bỏ của khách hàng mà không xem xét các biến số quan trọng Để giải quyết vấn đề này, cần hợp nhất các biến phân loại thành một biến duy nhất Do đó, việc tìm ra một mô hình phù hợp để dự đoán sự rời bỏ của khách hàng là rất cần thiết.
Để phát triển mô hình dự đoán rời bỏ khách hàng, bước đầu tiên là thu thập, phân tích và làm sạch dữ liệu Dữ liệu không được làm sạch sẽ không thể thiết lập mối quan hệ giữa các biến đầu vào và đầu ra, ảnh hưởng đến hiệu suất của mô hình dự đoán Vì vậy, việc sử dụng bộ dữ liệu đã được làm sạch là rất quan trọng để xây dựng các mô hình dự đoán hiệu quả Các phương pháp chọn biến đầu vào có thể dựa trên các biến độc lập khác nhau, bao gồm việc cung cấp tất cả các biến độc lập trong tập dữ liệu, áp dụng phân cụm hai bước và hồi quy logistic, cũng như phương pháp lựa chọn tính năng Kết quả từ ba mô hình này sẽ được áp dụng trong các mô hình học máy khác nhau.
Thu thập dữ liệu
Bài báo này dựa trên dữ liệu về sự rời bỏ của khách hàng thẻ tín dụng từ các ngân hàng, được thu thập từ https://leaps.analytictica.com Khách hàng có thể chọn giữa bốn loại thẻ tín dụng: xanh, bạc, vàng hoặc bạch kim Khi khách hàng quyết định chuyển đổi ngân hàng, họ được ghi nhận là khách hàng rời bỏ, dẫn đến việc giảm lợi nhuận cho hệ thống ngân hàng Các chuyên gia ngân hàng đang ngày càng chú trọng đến việc thiết kế hệ thống cảnh báo sớm nhằm phân loại khách hàng thành hai nhóm: khách hàng có khả năng rời bỏ và khách hàng không rời bỏ, giúp các nhà quản lý đưa ra các biện pháp kịp thời.
Lưu Thị Yến Nhi - 19522491 10, quản lý ngân hàng cần liên lạc với khách hàng có khả năng rời bỏ để cải thiện dịch vụ và giữ chân khách hàng Dữ liệu nghiên cứu bao gồm 20 biến, trong đó có 1 biến phụ thuộc và 19 biến độc lập Tổng số khách hàng là 10.127, trong đó có 1.627 khách hàng đã rời bỏ.
Bộ dữ liệu bao gồm các thông tin như giá trị rời bỏ, tuổi, giới tính, số lượng người phụ thuộc, trình độ học vấn, tình trạng hôn nhân, loại thu nhập, loại thẻ tín dụng, thời gian sử dụng mối quan hệ với ngân hàng, tổng số sản phẩm khách hàng nắm giữ, và nhiều biến số khác liên quan đến hành vi sử dụng thẻ tín dụng Dữ liệu được phân loại thành các biến độc lập và một biến phụ thuộc là khách hàng rời bỏ Qua việc phân tích thống kê, bao gồm các chỉ số như min, max, phương sai, và phân tích tương quan, ban đầu không phát hiện mối quan hệ tuyến tính giữa các biến Do đó, một mô hình phi tuyến tính đã được áp dụng để dự đoán khả năng rời bỏ của khách hàng.
Machine Learning Models
Hồi quy logistic là một mô hình thống kê hữu ích để dự đoán xác suất xảy ra kết quả nhị phân, chẳng hạn như việc khách hàng có rời bỏ thẻ tín dụng hay không Mô hình này giúp xác định các yếu tố chính liên quan đến sự rời bỏ, bao gồm nhân khẩu học, mô hình sử dụng thẻ và lịch sử giao dịch của khách hàng Sau khi xác định các yếu tố này, mô hình hồi quy logistic có thể được huấn luyện trên dữ liệu tương tác của khách hàng trong quá khứ để dự đoán khả năng chuyển đổi của khách hàng mới Để đánh giá hiệu suất của mô hình, các chỉ số như accuracy, precision, recall và F1 score được sử dụng Nếu hiệu suất không đạt yêu cầu, có thể cải thiện mô hình thông qua việc điều chỉnh siêu tham số hoặc lựa chọn tính năng Mục tiêu cuối cùng là triển khai mô hình để đưa ra dự đoán chính xác về dữ liệu mới và giảm thiểu tình trạng rời bỏ của khách hàng.
• x là dữ liệu đầu vào
Trong hồi quy logistic, các tham số của thuật toán xác định đầu ra dự đoán là xác suất mà biến mục tiêu thuộc về lớp positive, tức là lớp dữ liệu quan trọng cần được nhận diện chính xác trong bài toán Các thuộc tính dữ liệu đầu vào đóng vai trò quan trọng trong việc này.
Công thức cho hàm mất mát của thuật toán hồi quy logistic:
• 𝜃: Các tham s cố ủa mô hình
• 𝑚: Số lượng mẫu dữ liệu
• 𝑦 (𝑖) : Giá tr u ra thị đầ ực tế ủa mẫ c u d li u ữ ệ 𝑥 (𝑖)
• ℎ 𝜃 (𝑥 (𝑖) ): Giá tr u ra d ị đầ ự đoán của mẫu d li u ữ ệ 𝑥 (𝑖) Ưu điểm của mô hình:
Hồi quy logistic là một thuật toán đơn giản và dễ hiểu, cung cấp các hệ số rõ ràng cho từng tính năng đầu vào Điều này giúp dễ dàng giải thích tác động của từng tính năng đối với dự đoán rời bỏ, từ đó hỗ trợ việc hiểu rõ các yếu tố thúc đẩy sự rời bỏ của khách hàng.
Hồi quy logistic giả định mối quan hệ tuyến tính giữa các tính năng đầu vào và tỷ lệ cược log của việc rời bỏ Mặc dù giả định này có thể không luôn chính xác trong các tình huống phức tạp, nhưng nó vẫn có thể mang lại kết quả hợp lý khi các mối quan hệ tương đối tuyến tính hoặc khi các tính năng được chuyển đổi phù hợp.
Hồi quy logistic cung cấp đầu ra xác suất, cho phép xác định khả năng khách hàng rời bỏ Thông tin này có thể được sử dụng để xếp hạng khách hàng theo nguy cơ rời bỏ, từ đó giúp ưu tiên các nỗ lực duy trì một cách hiệu quả.
Hồi quy logistic là một phương pháp hiệu quả về mặt tính toán, có khả năng xử lý các bộ dữ liệu lớn với nhiều đặc trưng Nó tiêu tốn ít tài nguyên hơn so với một số thuật toán phức tạp khác, do đó rất phù hợp cho các tình huống có hạn chế về tài nguyên tính toán.
Xử lý dữ liệu không cân bằng là một thách thức trong việc dự đoán rời bỏ thẻ tín dụng, khi mà số lượng khách hàng bị hủy bỏ thường ít hơn nhiều so với khách hàng không bị hủy Hồi quy logistic có thể giải quyết vấn đề này bằng cách điều chỉnh trọng số của các lớp hoặc áp dụng các kỹ thuật như lấy mẫu quá mức hoặc lấy mẫu dưới mức để cân bằng các lớp dữ liệu.
Hồi quy logistic giúp xác định các tính năng quan trọng nhất trong việc dự đoán tỷ lệ rời bỏ bằng cách phân tích mức độ và ý nghĩa của các ước tính hệ số Quá trình này không chỉ giảm kích thước của tập dữ liệu mà còn tập trung vào các yếu tố phù hợp nhất, từ đó nâng cao hiệu quả phân tích.
Logistic Regression có khả năng mở rộng tốt cho các tập dữ liệu lớn, cho phép xử lý hiệu quả cả vấn đề phân loại nhị phân và đa lớp Phương pháp này có thể được áp dụng cho các dự án dự đoán sự rời bỏ thẻ tín dụng, không phụ thuộc vào quy mô của cơ sở khách hàng.
Random Forest là một thuật toán học máy hiệu quả cho các nhiệm vụ phân loại, như dự đoán khả năng rời bỏ của khách hàng sử dụng thẻ tín dụng Thuật toán này hoạt động bằng cách xây dựng nhiều cây quyết định trong quá trình đào tạo, sau đó đưa ra kết quả dựa trên chế độ của các lớp (phân loại) hoặc giá trị trung bình (hồi quy) từ từng cây Ngoài ra, Random Forest còn hỗ trợ kỹ thuật tính năng và lựa chọn, giúp cải thiện độ chính xác của mô hình.
Lưu Thị Yến Nhi – 19522491 14 đã xác định các tính năng quan trọng nhất để dự đoán sự rời bỏ của khách hàng thẻ tín dụng thông qua các kỹ thuật như phân tích thành phần chính (PCA) và phân tích tương quan Thuật toán Random Forest được xem là một công cụ mạnh mẽ trong việc dự đoán khả năng rời bỏ của khách hàng Việc thử nghiệm nhiều mô hình và phương pháp khác nhau là cần thiết để tìm ra giải pháp tối ưu nhất.
Các bước tạo mô hình từ thuật toán Random forest:
1 Lấy m u ng u nhiên v𝐍 ẫ ẫ ới t t p d li u g c ừ ậ ữ ệ ố để t o m u bootstrap ạ ẫ
2 Huấn luy n mô hình decision trees trên m u bootstrap b ng cách s d ng ệ ẫ ằ ử ụ ngẫu nhiên thu𝐝 ộc tính
3 Lặp lại bước 1 và bước 2 để xây d ng mô hình decision trees ự 𝐌
4 Khi đã xây dựng đủ số lượng mô hình decision trees đã đặt ra Tiến hành dự đoán giá trị ế bi n mục tiêu b ng cách t ng hằ ổ ợp các dự đoán của tất c mô hình decision trees vả𝐌 ới phương pháp lấy giá trị trung bình của các dự đoán (đối v i mô hình d báo) hoớ ự ặc bằng cách s d ng bi u ử ụ ể quyết đa số (đố ới mô hình phân lo i) i v ạ
Hình 2: Mô hình Random Forest Ưu điểm của mô hình :
Random Forest là một thuật toán học tập theo nhóm kết hợp nhiều cây quyết định để đưa ra dự đoán, giúp giảm tình trạng thừa và cải thiện hiệu suất tổng quát hóa của mô hình Thuật toán này có khả năng xử lý các bộ dữ liệu nhiều chiều với các tương tác phức tạp giữa các tính năng, làm cho nó trở thành lựa chọn lý tưởng để dự đoán thời hạn sử dụng thẻ tín dụng, nơi mà nhiều yếu tố có thể ảnh hưởng đến hành vi của khách hàng.
Tính năng Random Forest đóng vai trò quan trọng trong việc xác định các yếu tố ảnh hưởng đến dự đoán rời bỏ khách hàng Nó cung cấp thước đo tầm quan trọng của từng tính năng, giúp xác định những động lực chính dẫn đến việc khách hàng rời bỏ Thông tin này không chỉ cung cấp cái nhìn sâu sắc về nguyên nhân rời bỏ mà còn hỗ trợ trong việc đưa ra quyết định và phát triển các biện pháp can thiệp hiệu quả.
Mối quan hệ phi tuyến tính trong mô hình Random Forest cho phép nắm bắt các tương tác phức tạp giữa các tính năng và biến mục tiêu, điều mà các mô hình tuyến tính đơn giản thường không làm được Đặc biệt trong dự đoán sự rời bỏ thẻ tín dụng, có nhiều mối quan hệ phi tuyến tính giữa các thuộc tính, hành vi sử dụng và hành vi rời bỏ của khách hàng.
Performance Metrics
Để thiết kế công cụ dự đoán, dữ liệu được chia thành hai tập: tập đào tạo chiếm 80% và tập xác thực chiếm 20% Hiệu suất của các mô hình dự đoán khách hàng rời bỏ được đánh giá thông qua các chỉ số phân loại như recall, precision, accuracy, false omission rate và F1 score.
Một trong những phương pháp đơn giản và phổ biến nhất để đánh giá mô hình là độ chính xác (accuracy) Phương pháp này tính toán tỷ lệ giữa số điểm dự đoán đúng và tổng số điểm trong tập dữ liệu kiểm thử.
Ma trận nhầm lẫn (confusion matrix) là công cụ hữu ích để đánh giá hiệu quả phân loại của mô hình học máy Trong khi độ chính xác (accuracy) chỉ cho biết tỷ lệ phần trăm dữ liệu được phân loại đúng, ma trận nhầm lẫn cung cấp cái nhìn chi tiết hơn về cách mỗi lớp được phân loại Nó cho phép chúng ta xác định lớp nào được phân loại chính xác nhất và lớp nào thường bị nhầm lẫn với lớp khác, từ đó giúp cải thiện mô hình và tối ưu hóa quy trình phân loại.
Trong phân tích dữ liệu, lớp Positive (P dương tính) được xác định là lớp quan trọng hơn, trong khi lớp còn lại được gọi là Negative (N âm tính) Các thuật ngữ True Positive (TP), False Positive (FP), True Negative (TN) và False Negative (FN) được định nghĩa dựa trên ma trận nhầm lẫn (confusion matrix) chưa chuẩn hóa.
Hình 6: Confusion Matrix Để tính toán số liệu hiệu suất, các phương trình sau được sử dụng:
Cross-entropy là hàm mất mát tiêu chuẩn cho bài toán phân loại nhị phân, được tối ưu hóa cho các giá trị mục tiêu chỉ có thể nhận một trong hai giá trị {0, 1}.
Về mặt toán học, MSE đo lường khoảng cách giữa hai giá trị số, trong khi cross-entropy được hiểu là phương pháp tính khoảng cách giữa hai phân bố xác suất.
Trong đó C là số lượng các class cần phân lớp, trong bài toán binary classification thì C = 2
ROC là một đường cong thể hiện hiệu suất phân loại của mô hình tại các ngưỡng khác nhau Đường cong này được xây dựng dựa trên hai chỉ số quan trọng: TPR (tỷ lệ dương thật) và FPR (tỷ lệ dương giả).
THỰC NGHIỆM VÀ KẾT QUẢ
Dữ liệu
Bộ dữ liệu từ Kaggle bao gồm 23 tính năng liên quan đến hồ sơ khách hàng và việc sử dụng thẻ tín dụng Tổng số khách hàng trong bộ dữ liệu là 10.127, trong đó có 1.627 khách hàng đã rời bỏ, chiếm hơn 16%.
- Duplicates: Trước tiên hãy kiểm tra xem tập dữ liệu của có trùng lặp hay không và may mắn dữ liệu không có bất kỳ sự trùng lặp nào
Trong phân tích dữ liệu, không phải tất cả các tính năng đều mang lại giá trị, vì vậy việc loại bỏ các tính năng không cần thiết là rất quan trọng để đơn giản hóa quy trình tiếp theo Có ba tính năng thừa cần được xem xét để loại bỏ.
• Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_1
2_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1 : Kết quả của một phân tích khác sử dụng Naive Bayes
• Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_1
2_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2 :
Giống như tính năng trước
4.1.2 Phân tích dữ liệu (EDA)
Trước khi tiến vào học máy, tôi sẽ thực hiện phân tích dữ liệu khám phá (EDA) để khám phá các mẫu, kiểm tra giả định và phát hiện các giá trị ngoại lai EDA là bước khởi đầu quan trọng trong phân tích dữ liệu, giúp làm sáng tỏ những thông tin cần thiết Tôi sẽ chỉ tập trung vào một số tính năng thú vị và hữu ích cho các đề xuất kinh doanh, thay vì trình bày tất cả biểu đồ và số liệu thống kê.
Hình 7: Tổng quan về nhân khẩu học của dữ liệu
Tỷ lệ sử dụng thẻ tín dụng cao nhất đến từ những người có thu nhập dưới 40.000 USD, cho thấy đây là nhóm khách hàng tiềm năng quan trọng Do đó, tôi sẽ tập trung vào việc tiếp thị thẻ tín dụng cho đối tượng này thay vì những người có thu nhập cao, nhằm tối ưu hóa cơ hội thu hút khách hàng hiệu quả hơn.
Những người tốt nghiệp Đại học là thị trường tiềm năng lớn nhất cho chiến lược quảng cáo của chúng ta Để tối ưu hóa tỷ lệ chuyển đổi, chúng ta nên tập trung vào việc quảng bá sản phẩm và dịch vụ đến phân khúc này, tương tự như cách chúng ta phân tích thông tin về danh mục thu nhập.
Để duy trì nhóm khách hàng tiềm năng từ 41-56 tuổi, chiếm 66% tổng số khách hàng, doanh nghiệp cần tập trung vào việc phát triển các ưu đãi hấp dẫn và xây dựng chiến lược tiếp thị phù hợp với nhóm khách hàng Gen X.
Hình 8: Khám phá các thuộc tính theo giới tính
- Ta có thể tóm tắt lại các thông tin về nhân khẩu học thu được như sau:
• Đối với nam giới dữ liệu phổ biến có độ tuổi trung bình là 46 tuổi, đã tốt nghiệp, kết hôn và thu nhập trong khoảng từ $80k-$120k
• Đối với nữ giới dữ liệu phổ biến có độ tuổi trung bình là 46 tuổi, đã tốt nghiệp kết hôn và thu nhập nhỏ hơn $40k
Hình 9: Phân tích tỷ lệ khách hàng rời bỏ thẻ tín dụng
Hơn 93% khách hàng hiện đang sử dụng thẻ xanh cơ bản, cho thấy sự chênh lệch rõ rệt giữa các loại thẻ Cần triển khai các chiến dịch nhằm khuyến khích nhóm khách hàng này chuyển sang sử dụng các loại thẻ khác với mức ưu đãi và phân khúc phù hợp hơn.
- Credit Limit: Giới hạn tín dụng thường nằm trong khoảng từ $2.5k đến $10.8k, với mức trung bình là $4.3k
- Relationship Months and Count: Hầu hết khách hàng đã gắn bó với ngân hàng được 36 tháng và có 3 thẻ của các ngân hàng khác nhau
- Transaction Amount and Count: Quan sát thấy mối quan hệ tuyến tính, số lượng giao dịch tăng dẫn đến số tiền giao dịch tăng
Hình 10: Phân tích cụm và phân khúc khách hàng
Phân tích cụm dựa trên giá trị và số lượng giao dịch cho phép chúng ta phân chia khách hàng thành ba phân khúc cụ thể: (1) Khách hàng tiềm năng, (2) Khách hàng thường xuyên, và (3) Khách hàng có giá trị cao đã được xác định.
4.1.2.2 Chi tiết về dữ liệu khách hàng
- Nhìn chung, ở hình 11 ta thấy dữ liệu về khách hàng rời bỏ rất ít chỉ chiếm gần 16% trên tập dữ liệu
Ngân hàng sẽ ngừng sử dụng thẻ tín dụng phổ biến khi khách hàng không thực hiện giao dịch trong 3 tháng và đã gắn bó với ngân hàng từ 15 đến 52 tháng, với tỷ lệ tiêu hao đạt trên 20%.
Nhiều khách hàng đã gắn bó với chúng ta lâu dài, nhưng có thể họ ngừng sử dụng thẻ vì các lý do như ưu đãi không phù hợp, hạn mức tín dụng không thay đổi theo uy tín, hoặc vì các ngân hàng khác có ưu đãi tốt hơn Việc giữ chân khách hàng lâu năm là rất khó khăn, vì vậy thay vì tìm kiếm khách hàng mới, chúng ta nên tập trung vào việc cung cấp nhiều dịch vụ hơn cho những khách hàng hiện tại để giữ họ quay lại.
Hình 11: Thuộc tính của khách hàng đã và đang sử dụng
Thẻ Platinum hiện đang đối mặt với tỷ lệ rời bỏ lên đến 25%, cho thấy rằng sản phẩm này chưa đáp ứng đủ nhu cầu của khách hàng, mặc dù số lượng khách hàng trong phân khúc này không lớn Để giảm tỷ lệ tiêu hao, việc nâng cao các lợi ích đi kèm với thẻ Platinum là điều cần thiết.
Số lượng khách hàng rời bỏ thẻ Blue rất lớn, lên tới hơn 1.5K, chiếm 16% tổng số khách hàng sử dụng loại thẻ này Sự tập trung cao vào thẻ Blue nhưng cùng với tỷ lệ rời bỏ lớn đã dẫn đến sự giảm sút đáng kể trong số lượng khách hàng sử dụng thẻ tín dụng, ảnh hưởng trực tiếp đến số lượng giao dịch và doanh thu của ngân hàng Để giữ chân khách hàng hiện tại, phần lớn trong số họ đủ điều kiện mở thẻ Blue, việc triển khai nhiều chương trình khuyến mãi là rất cần thiết để khuyến khích họ sử dụng, trải nghiệm và gắn bó lâu dài với ngân hàng.
Hình 12: Phân phối loại thẻ của khách hàng
81% khách hàng được nhắm mục tiêu thuộc phân khúc tiềm năng, trong khi chỉ 19% là khách hàng thường xuyên May mắn thay, tỷ lệ tiêu hao đối với nhóm khách hàng có giá trị cao là rất thấp.
Hình 13: Phân phối trên các cụm dựa vào tập khách hàng
Hình 14 cho thấy có ba cụm dựa trên số lượng giao dịch và số tiền giao dịch, cho phép phân tích sâu hơn bằng phương pháp học không giám sát Từ biểu đồ, ta nhận thấy rằng những người có số lượng giao dịch cao có cơ hội tiêu hao thấp, không có ai bị loại khỏi nhóm trên cùng bên phải Trong khi đó, các cụm giữa và cuối có một số người bị tiêu hao, cho thấy cần khảo sát thêm để giảm tỷ lệ tiêu hao trong những nhóm này.
Tập khách hàng có giá trị cao vẫn tiếp tục sử dụng thẻ ngân hàng, nhưng nhiều khách hàng thường xuyên sử dụng lại chọn rời bỏ thẻ tín dụng Việc phân tích nguyên nhân và đưa ra giải pháp hợp lý là cần thiết để giữ chân nhóm khách hàng này, vì họ mang lại giá trị giao dịch cao và ổn định.
Hình 14: Phân cụm xu hướng khách hàng dựa trên giao dịch và giá trị giao dịch
Hình 15: Tổng quát và kết luận về dữ liệu