báo cáo môn học ứng dụng phân tích dữ liệu lớn trong quản lý đề tài dự báo khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng trong lĩnh vực ngân hàng bằng phương pháp machine learning

Trong nghiên cứu này, nhóm nghiên cứu tập trung vào việc phát triển một mô hình dự đoán khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng bằng phương pháp Machine Learning.. Đề hỗ t

Bang 2.1 Ma tran nhằm lẫn (Confusion Matrix) 5 2S t2 212111 re 24

Kết quả dự đoán các mô hình thống kê trong các nghiên cứu trước đó và kết quả xây dựng các mô hình của nhóm nghiên cứu thực hiện được trình bày ở Bảng 4.1 và 4.2 Chỉ số thuộc tính tác động lên biến "Attrition_Flag" được liệt kê trong Bảng 5.1.

Đầu tiên, nhóm Delta xin chân thành cảm ơn các thầy cô và cán bộ của Khoa Quản trị kinh doanh nói riêng và trường Đại học Tôn Đức Thắng nói chung đã tạo điều kiện thuận lợi cho nhóm nghiên cứu trong suốt quá trình học, đặc biệt là sự hướng dẫn tận tình của thầy cố vấn.

Phạm Ngọc Bảo Duy - Giảng viên hướng dẫn trực tiếp bộ môn Ứng dụng phân tích di liệu lớn trong quản lý

Trong quá trình biên soạn bài báo cáo cuối kỳ, nhóm nhận thấy khả năng và trình độ còn nhiều hạn chế, dẫn đến một số thiếu sót không thể tránh khỏi Vì vậy, nhóm rất mong nhận được những lời góp ý quý báu từ thầy Phạm Ngọc Bảo Duy cùng các thầy cô phòng Khoa Quản trị kinh doanh để bài báo cáo của nhóm ngày càng hoàn thiện hơn, đáp ứng tốt hơn yêu cầu của đề bài.

Nhóm nghiên cứu xin chân thành cảm ơn!

1.1 Tính cấp thiết của đề tai

Trong bối cảnh cạnh tranh gay gắt, hiện tượng khách hàng rời bỏ trở thành bài toán nan giải của các ngân hàng Nghiên cứu cho thấy giữ chân khách hàng cũ tiết kiệm hơn đáng kể so với việc tìm kiếm khách hàng mới, với chi phí duy trì thấp hơn đáng kể Theo nghiên cứu của Ennew và cộng sự (2015), giữ chân khách hàng hiện tại mang lại lợi nhuận cao hơn so với thu hút khách hàng mới trong ngành ngân hàng Tương tự, nghiên cứu của Tatikonda (2013) chỉ ra rằng chi phí thu hút một khách hàng mới thậm chí có thể gấp 10 lần chi phí duy trì một khách hàng hiện tại.

Duy trì khách hàng là một vấn đề cấp bách trong ngành ngân hàng, với việc tăng tỷ lệ duy trì khách hàng 5% có thể làm giảm 18% chi phí vận hành (Karakostas và cộng sự, 2005), đồng thời tăng lợi nhuận lên đến 85% (Reichheld và Sasser, 1990) Dự đoán quyết định của khách hàng cho phép các tổ chức can thiệp kịp thời, từ đó ngăn chặn tình trạng mất khách hàng bằng những biện pháp thích hợp.

Các phương pháp truyền thông hiện không còn hữu hiệu để dự đoán hành vi hủy bỏ dịch vụ của khách hàng Do đó, Trí tuệ Nhân tạo (AI) và Học máy (ML) được áp dụng để giải quyết vấn đề này, tận dụng lợi thế của chúng trong xử lý dữ liệu phức tạp và mô hình hóa mối quan hệ giữa các biến độc lập Điều này giúp cải thiện khả năng dự đoán và tăng độ chính xác trong dự đoán hành vi hủy bỏ dịch vụ của khách hàng.

Trong bối cảnh hiện đại, sự ứng dụng của Trí tuệ nhân tạo (AI) và Máy học (ML) mở ra hướng đi mới đầy triển vọng trong việc nâng cao hiệu quả dự báo khả năng khách hàng ngừng giao dịch Điều này dẫn đến nhu cầu cấp thiết nghiên cứu ứng dụng AI và ML, qua đó mang đến những giải pháp đột phá trong lĩnh vực này.

1.2 Mục đích bài nghiên cứu Mục tiêu chính của bài nghiên cứu là cung cấp cho ngành ngân hàng một công cụ dự đoán để nhận biết và xác định khách hàng có nguy cơ rời bỏ Việc dự đoán khách hàng ngừng giúp ngân hàng thực hiện các biện pháp kịp thời để tăng cường tương tác với khách hàng, cải thiện chất lượng dịch vụ vả triển khai các chiến lược giữ chân khách hàng Cùng với đó, việc nghiên cứu cũng giúp cho ngân hàng giảm thiểu rủi ro tài chính bằng cách ngăn chặn tốn thất do việc mất khách hàng và tối ưu hóa chỉ phí chiến lược giữ chân thông qua các biện pháp hiệu quả Kết quả từ bài nghiên cứu sẽ cung cấp thông tin chỉ tiết về phương pháp tiếp cận, hiệu suất dự đoán và các hướng phát triển tiềm năng trong tương lai để ngành ngân hàng có thê áp dụng những điều này nhằm nâng cao quản lý và tăng cường tương tác với khách hàng

1.3 Cau hỏi nghiên cứu Đề hỗ trợ việc nghiên cứu, cần khai thác các câu hỏi nhằm mục đích giải quyết cac van dé đang gặp phải cũng như để hiểu rõ hơn vẻ vấn đề nghiên cứu: e Các yếu tố ảnh hưởng đến việc ngừng sử dụng dịch vụ thẻ tín dụng của khách hàng? Yếu tô nào là quan trọng nhát? e Mô hình nào phù hợp nhất để dự đoán khả năng chấm dứt việc sử dụng dịch vụ thẻ tín dụng của khách hàng? e Giải pháp để nhà lãnh đạo có thê hạn ché khách hàng rời bỏ sử dụng dịch vụ?

1.4 Ý nghĩa của nghiên cứu 1.4.1 Ý nghĩa thực tiễn Ngày nay việc cạnh tranh giữa các ngành tải chính và ngân hảng là vô cùng gay gat, vi thế việc dự đoán tỷ lệ khách hàng ngừng sử dụng thẻ tín dụng là một trong những yếu tổ quan trọng quyết định sự thành công của tổ chức Thông qua việc phân tích đữ liệu ngân hàng có thê dự đoán được tỷ lệ rời bỏ sử dụng dịch vụ từ đó đưa ra các biện pháp giữ chân khách hàng hiệu quả cũng như tăng cường chăm sóc khách hàng như có lãi suất ưu đãi cho khoản vay, phí thấp hoặc miễn phí cho các dịch vụ và điểm thưởng cho việc sử dụng thẻ tín đụng Việc này mang lại lợi ích lớn cho ngân hàng cả về doanh thu lẫn giảm chi phí kinh doanh Một số nghiên cứu đã chỉ ra rằng việc khách hàng ngừng sử dụng thẻ tín dụng gây thiệt hại đáng kề cho ngân hàng Cụ thê ngân hàng phải nghiên cứu và thực hiện các chiến dịch thu hút khách hàng mới, chỉ phí này được ước tính cao gấp 6 lần chi phí giữ chân khách hàng cũ Athanassopoulos, 2000; Bhattacharya, 1998; Colgate va Danaher, 2000; Rasmusson,

Việc giảm tỷ lệ khách hàng rời bỏ không chỉ giúp ngân hàng duy trì doanh thu mà còn tạo ra một lượng lớn khách hàng trung thành và ổn định Ngân hàng có thể tập trung giới thiệu các sản phẩm dịch vụ mới cho những khách hàng này, bởi họ đã từng sử dụng dịch vụ của ngân hàng và sẽ có xu hướng dễ dàng chấp nhận những ưu đãi mới Việc dự đoán tỷ lệ khách hàng rời bỏ giúp ngân hàng hiểu rõ nhu cầu và mong muốn của khách hàng, từ đó cải thiện chất lượng và cung cấp các sản phẩm dịch vụ phù hợp hơn, mang đến cho khách hàng những tiện ích và trải nghiệm tốt nhất.

1.4.2 Ý nghĩa khoa học Bằng nghiên cứu với trình độ của sinh viên và nghiên cứu mang tính chất khoa học, nhóm chúng tôi đã thống kê các bài nghiên cứu khoa học đã từng được xuất bản trước đây dự đoán tỷ lệ khách hàng có thanh toán bằng hình thức thẻ tín dụng, thẻ ghi nợ, ngân hàng di động, ngân hàng trực tuyến bằng phương pháp máy học Từ đó cho thấy tông quan về lĩnh vực thanh toán ngân hàng nói chung và phương pháp thanh toán nói riêng Đề kiểm tra một cách chính xác nhất về dự án tỷ lệ khách hàng ngừng sử dụng dịch vụ khi thanh toán bằng thẻ tín dụng tại các ngân hàng Bải nghiên cứu gốc đã sử dụng kỹ thuật máy học với các mô hình Random Forest, AdaBoost và Support Vector Machine thông qua kỹ thuật SMOTE Đồng thời so sánh kết quả với các nghiên cứu trước đây Kết quả nghiên cứu chỉ ra rằng Random Forest có hiệu suất tốt nhất và được đề xuất có thể được sử dụng để tính toán tỷ lệ rời bỏ sử dụng dịch vụ của khách hàng theo định kỳ từ nhiều góc độ khác nhau

Nhóm nghiên cứu tiến hành xây dựng mô hình dự đoán dựa trên kết quả nghiên cứu, áp dụng các thuật toán được đề xuất trong bài nghiên cứu mẫu Mô hình này sẽ giúp dự đoán các chỉ số trong tương lai dựa trên dữ liệu lịch sử và các yếu tố khác có liên quan.

SVM (Support Vector Machine), RF (Random Forest), AdaBoost (Adaptive

Nhóm nghiên cứu đã tiến hành xây dựng thêm mô hình Decision Forest, Decision Jungle, Locally-Deep Support Vector Machine để kiểm tra lại hiệu suất dự đoán khách hàng ngừng sử dụng dịch vụ thẻ tín dụng của mô hình Random Forest Các mô hình này là những phương pháp học máy khác cũng có khả năng dự đoán hành vi của khách hàng Bằng cách so sánh kết quả của các mô hình khác nhau, nhóm nghiên cứu có thể đánh giá chính xác hơn xem Random Forest có thực sự cho ra kết quả tốt nhất hay không.

1.5 _ Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: Quyết định ngừng sử dụng dịch vụ thẻ tín dụng của khách hàng

Phạm vi nghiên cứu: dữ liệu về khách hàng sử dụng dịch vụ thẻ tín dụng được cung cap tir LEAPS by Analyttica

1.6 Bố cục bài nghiên cứu

Bài nghiên cứu được trình bày qua 05 chương như sau: x _ Chương l : Tống quan nghiên cứu

" Chương 2: Cơ sở lý thuyết

" Chương 3: Phương pháp nghiên cứu

_ Chương 4: Kết quả nghiên cứu x Chương 5: Kết luận và hàm ý quản trị

2.1 Kết quả và hạn chế của những nghiên cứu trước đây

Nghiên cứu của Guangli Nie, Wei Rowe, Lingling Zhang, Yingjie Tian, Yong Shi “Credit card churn forecasting by logistic regression and decision tree”

Để dự đoán tình trạng ngừng thẻ tín dụng của khách hàng, nhóm tác giả đã xây dựng mô hình dự đoán dựa trên phép đo chi phí phân loại sai số và ý nghĩa kinh tế của các tài khoản tín dụng Hai mô hình chính được sử dụng là hồi quy Logistic (Logistic Regression) và cây quyết định (Decision Tree) Cả hai mô hình này đều thể hiện khả năng phân loại tốt với độ hoàn thiện và sức mạnh của các biến số cao.

Tập dữ liệu từ một ngân hàng tại Trung Quốc cho thấy mô hình hồi quy Logistic dự đoán khả năng khách hàng rời khỏi dịch vụ tốt hơn so với mô hình cây quyết định Mô hình hồi quy Logistic có độ chính xác cao hơn và chi phí phân loại sai thấp hơn, với lỗi tỷ lệ là 16,93% so với mô hình cây quyết định Trong tập thử nghiệm, mô hình hồi quy Logistic dự đoán chính xác hơn, xác định 225 trường hợp khách hàng ngừng sử dụng thẻ tín dụng trong số 4997 khách hàng.

Sử dụng mô hình hồi quy Logistic trong dự đoán có những hạn chế nhất định Các nghiên cứu đã thực hiện 6 mô hình dự đoán với các biến đầu vào khác nhau, và hiệu suất dự đoán của mỗi mô hình có sự chênh lệch Các biến này phản ánh những yếu tố khác nhau có thể ảnh hưởng đến kết quả dự đoán.

Mô hình 6 với biến liên quan thông tin khách hàng, thông tin thẻ cơ bản, rủi ro và giao dịch là mô hình tối ưu nhất Tuy nhiên, dữ liệu đầu vào có thể bị sai lệch như thiếu hoặc không chính xác, ảnh hưởng hiệu suất mô hình Xây dựng nhiều mô hình khác nhau có thể dẫn đến dự báo thiếu chính xác và không thống nhất Ngoài ra, chi phí và thời gian tính toán tất cả các biến cũng cao.

Để nâng cao độ chính xác và khả năng dự đoán của mô hình dự đoán chấm dứt thẻ tín dụng, nghiên cứu nên xem xét thêm các biến liên quan như hành vi sử dụng thẻ (tần suất, thời gian và loại giao dịch), chỉ số tín dụng, tình hình tài chính (thu nhập, công việc, tài sản) Bằng cách bổ sung các biến này, mô hình có thể phản ánh toàn diện hơn các yếu tố ảnh hưởng đến việc chấm dứt thẻ tín dụng, giúp cải thiện độ chính xác và hiệu quả trong việc phát triển các sản phẩm và dịch vụ để tăng sự hài lòng của khách hàng và giảm tỷ lệ chấm dứt thẻ.

Nghiên cứu của Manjit Kaur, Kawaljeet Singh, Neeraj Sharma “Data Mining as a tool to Predict the Churn Behaviour among Indian bank customers.”

Nhóm nghiên cứu đã áp dụng kỹ thuật khai thác dữ liệu để xây dựng mô hình dự đoán hành vi rời bỏ của khách hàng trong ngành ngân hàng, nhằm giảm thiểu tỉ lệ rời bỏ và tối đa hóa lợi nhuận Quá trình nghiên cứu gồm các giai đoạn lấy mẫu dữ liệu, tiền xử lý dữ liệu, xây dựng mô hình và đánh giá mô hình.

Nghiên cứu tiến hành thử nghiệm phân loại xác suất bằng các kỹ thuật bao gồm Naive Bayes, cây quyết định (J48) và máy vector hỗ trợ (SMO) Để đảm bảo tính khách quan, tập dữ liệu được phân chia thành tập huấn luyện (70%) và tập kiểm tra (30%).

Kết quả của phan tich cho thay các kết quả sau:

Áp dụng phương pháp Naive Bayes, mô hình dự đoán phân loại khách hàng rời đạt tỷ lệ thành công 100% khi dự đoán 58/58 mẫu chính xác Tương tự, mô hình đạt tỷ lệ thành công 93,05% khi dự đoán 473/506 mẫu khách hàng trung thành một cách chính xác.

Sử dụng kỹ thuật Decision Trees (J48), nhóm tác giả đã đạt tỷ lệ thành công cao trong việc dự đoán hành vi của khách hàng Cụ thể, thuật toán dự đoán chính xác toàn bộ 54 mẫu khách hàng rời bỏ (100%) và 504 mẫu khách hàng trung thành trong tổng số 510 mẫu (98,82%).

Thuật toán Máy vector hỗ trợ (SVM) dự đoán chính xác 58 trường hợp rời đi trong tổng số 58 mẫu (tỷ lệ thành công 100%), và 481 trường hợp trung thành trong số 506 mẫu (tỷ lệ thành công 95,05%).

Nghiên cứu thừa nhận một số hạn chế Thứ nhất, tập trung hẹp vào các kỹ thuật phân loại xác suất như Naive Bayes, Cây quyết định (J48) và Máy vector hỗ trợ (SMO) có thể hạn chế việc lựa chọn mô hình Thứ hai, mặc dù nghiên cứu sử dụng các chỉ số như ma trận nhầm lẫn để đánh giá hiệu suất của mô hình, nhưng đánh giá này có thể không nắm bắt được đầy đủ tính phức tạp của hành vi rời bỏ và phân tích hành vi của khách hàng Ngoài ra, phụ thuộc vào một tập dữ liệu bao gồm 2.000 bản ghi của khách hàng rời bỏ và hoạt động đặt ra những lo ngại về độ lớn và tính đại diện của mẫu.

Nhận diện và giải quyết những giới hạn trong nghiên cứu hiện tại sẽ giúp các nhà nghiên cứu nâng cao hiệu quả và khả năng ứng dụng của các mô hình dự đoán bỏ dịch vụ trong ngành ngân hàng, góp phần hiểu sâu hơn về chiến lược giữ chân khách hàng và phân tích dự đoán trong lĩnh vực dịch vụ tài chính.

Nguồn dữ liệu nghiên cứu chúng tôi sử dụng là dữ liệu thứ cấp, được tác giả Sakshi Goyal thu thập công khai trên trang web Kaggle từ LEAPS by Analyttica Để tìm bộ dữ liệu "Credit Card Customers" trên Kaggle, chúng tôi đã sử dụng các từ khóa liên quan trong thanh tìm kiếm của trang web.

"Dự đoán tỷ lệ khách hàng ngừng giao dịch", "Khách hàng ngừng sử dụng thẻ tín dụng", và lựa chọn tập dữ liệu, kiểm tra mô tả để đảm bảo dữ liệu đáp ứng đủ yêu cầu nghiên cứu của bài Tập dữ liệu có 23 biến, 10.127 bản ghi, bao gồm các đặc điểm của khách hàng như tuổi tác, giới tính, trình độ học vấn, tình trạng hôn nhân.

2.3 Mô tả các biến nghiên cứu

Dữ liệu "Credit Card Customer" bao gồm 10.000 mẫu quan sát, mỗi mẫu quan sát có 20 biến Các biến này được định nghĩa cụ thể để phân tích đề tài nghiên cứu.

3.1 Xứ lý dữ liệu Nhóm nghiên cứu đã xử lý dữ liệu trước khi đưa vào mô hình để xuất Trong bước đâu tiên, nhóm nghiên cứu đã thay đổi các giá trị của biến lớp (Attrition_Flag)

Bước tiền xử lý dữ liệu bao gồm chuẩn hóa các giá trị cột Cột "Attrited Customer" được nhị phân hóa thành "1" (khách hàng từ bỏ) và "0" (khách hàng hiện tại) Cột "Giới tính" được nhị phân hóa thành "1" (nữ) và "0" (nam) Các giá trị chưa xác định trong các cột "Mức độ học vấn", "Loại thu nhập" và "Tình trạng hôn nhân" đã bị xóa khỏi tập dữ liệu, giúp đảm bảo sự thống nhất và tính chính xác của dữ liệu.

Với 23 biến ban đầu, tác giả loại bỏ 2 biến không liên quan ở 2 cột cuối cùng vì chúng không đóng góp vào quá trình phân loại Cuối cùng, bộ dữ liệu được sử dụng gồm 21 biến, trong đó 20 biến dự đoán và 1 biến lớp phân loại.

3.2 Phương pháp nghiên cứu Lĩnh vực học máy đã xuất hiện khoảng bốn thập kỷ trước với mục tiêu mạnh mẽ là phát triển các phương pháp tính toán có khả năng học các loại hình khác nhau thông qua các cơ chế cụ thê, từ đó tạo ra kiến thức từ các ví dụ hoặc dữ liệu (Kubat, M., Bratko, |., & Michalski, R S, 1998)

Học máy (ML) giải quyết các vấn đề phức tạp bằng cách tạo ra các mô hình dự đoán hoặc phân loại dựa trên dữ liệu Từ khi bắt đầu bằng việc máy tính học theo cách con người học, ML đã hình thành một lĩnh vực học tập đa dạng và thiết thực Sự kết hợp của các thuật toán và kỹ thuật ML đã được tích hợp vào nhiều lĩnh vực ứng dụng Sự phát triển của ML cũng thúc đẩy tiến bộ trong thống kê, tạo ra các lý thuyết và phương pháp tính toán mới để giải quyết các vấn đề trong học tập và dự đoán.

: concept description backor 1 algorithm ] | vackerTounc knowledge

Hinh 3.1 Nhiém va hec máy Hiện nay, với sự tiễn bộ của các công nghệ máy tính mới trong lĩnh vực Big Data, học máy đã trải qua những thay đôi đáng kế so với trước đây Các thuật toán học máy hiện đại đã trải qua quá trình phát triển, cập nhật và cải thiện, đồng thời khả năng tự động hóa trong việc áp dụng các phép tính toán phức tạp vào dữ liệu lớn đã trở thành hiện thực Điều này giúp việc tính toán và xử lý đữ liệu diễn ra nhanh chóng và hiệu quả hơn, đồng thời mở ra nhiều cơ hội mới trong lĩnh vực học máy (Rich Caruana, Alexandru Niculescu-MIzil, 2006)

Machine learning được ứng dụng rộng rãi trong nhiều lĩnh vực, mang lại tiềm năng mạnh mẽ trong việc giải quyết vấn đề Trong y tế, ML dùng để dự đoán bệnh, hỗ trợ chẩn đoán hình ảnh và tìm kiếm phương pháp điều trị Trong tài chính, ML dự đoán thị trường, quản lý rủi ro đầu tư và phát hiện gian lận Trong bán lẻ và thương mại điện tử, ML tối ưu hóa giá cả, dự đoán hành vi mua sắm và cá nhân hóa trải nghiệm Trong quảng cáo và tiếp thị, ML tối ưu hóa chiến lược và tạo nội dung quảng cáo cá nhân hóa Ngoài ra, ML còn được sử dụng trong nhiều lĩnh vực khác để dự đoán kết quả dựa trên dữ liệu lịch sử, phân loại đối tượng, tối ưu hóa quy trình, tự động hóa nhiệm vụ phức tạp.

Máy học mang đến khả năng tự động nhận biết và phản ứng với môi trường cho các hệ thống tự động Nó hỗ trợ ra quyết định bằng cách cung cấp dữ liệu và phân tích để hỗ trợ quá trình này Tóm lại, máy học không chỉ tạo ra cơ hội cho các ứng dụng công nghệ mới, mà còn giúp tối ưu, điều chỉnh và tự động hóa các quy trình, quyết định trong nhiều lĩnh vực.

Trong nghiên cứu này, các tác giả sẽ sử dụng phương pháp học máy (ML) để xây dựng mô hình dự báo khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng Phương pháp ML sẽ giúp phân tích dữ liệu khách hàng và xác định các yếu tố ảnh hưởng đến hành vi ngừng sử dụng dịch vụ Từ đó, mô hình sẽ ước tính khả năng khách hàng ngừng sử dụng dịch vụ dựa trên hồ sơ khách hàng và các yếu tố rủi ro được xác định.

Thực tế, nhiều doanh nghiệp đã áp dụng phương pháp ML để dự đoán tỷ lệ hủy dịch vụ Một số sản phẩm tương tự có thể kể đến bao gồm:

Các ngân hàng thương mại lớn như Citibank, JP Morgan Chase cùng các công ty bảo hiểm hàng đầu như Allstate, Progressive đang tập trung nghiên cứu công nghệ học máy (ML) để dự đoán khả năng khách hàng rời bỏ và phát triển các chiến lược giữ chân hiệu quả Những mô hình ML này dựa trên dữ liệu lịch sử giao dịch, hoạt động tài chính và hành vi khách hàng nhằm dự đoán rủi ro rời bỏ, từ đó đề xuất các biện pháp tối ưu hóa quản lý quan hệ khách hàng.

Trong lĩnh vực dịch vụ Internet và truyền thông, Machine Learning (ML) được ứng dụng để dự đoán khả năng rời bỏ của người dùng đối với các dịch vụ Internet, truyền hình cáp hoặc điện thoại di động Các mô hình ML phân tích dữ liệu về việc sử dụng dịch vụ, các gói cước, và hành vi truy cập trang web để dự đoán khách hàng có khả năng chuyển sang đối thủ cạnh tranh hoặc hủy dịch vụ Nhờ đó, các doanh nghiệp như Comcast, AT&T, Verizon, DirecTV, Dish Network và Netflix có thể chủ động triển khai các chiến lược giữ chân khách hàng, nâng cao chất lượng dịch vụ và tối ưu hóa gói cước phù hợp với nhu cầu của từng người dùng.

Trong lĩnh vực dịch vụ Công nghệ và SaaS, nghiên cứu Học máy (ML) tập trung vào việc dự đoán và giữ chân khách hàng Các mô hình ML sử dụng dữ liệu về tương tác, hành vi và việc sử dụng sản phẩm để dự đoán nguy cơ rời bỏ và đề xuất các chiến lược giữ chân hiệu quả Doanh nghiệp công nghệ lớn như Salesforce, Microsoft và Google với Microsoft 365 và Google Workspace, cũng như các công ty phát triển phần mềm như Adobe đang áp dụng rộng rãi các mô hình ML này vào dịch vụ của họ.

Trong ngành du lịch trực tuyến, Học máy (ML) đóng vai trò quan trọng trong dự đoán và giữ chân khách hàng trên các nền tảng đặt phòng và vé Các mô hình ML phân tích dữ liệu đặt phòng, phản hồi khách hàng và hành vi trực tuyến để xác định khả năng khách hàng rời bỏ Dựa trên những thông tin này, các công ty như Booking.com, Expedia, Airbnb, Delta Airlines, United Airlines và TripAdvisor tối ưu hóa chiến lược giữ chân khách hàng, nhằm tăng doanh thu và duy trì mối quan hệ lâu dài với khách hàng.

Nhóm nghiên cứu đã sử dụng Azure Machine Learning Studio để xây dựng mô hình dự đoán khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng bằng phương pháp học máy Azure Machine Learning (ML) Studio là một nền tảng học máy trên đám mây, được thiết kế với môi trường kéo và thả dễ sử dụng Nền tảng này cung cấp hơn 20 thuật toán học máy xác định trước, cho phép người dùng nhập dữ liệu từ nhiều nguồn khác nhau, thực hiện các thử nghiệm học máy và triển khai dịch vụ web từ các mô hình đã tạo Ngoài ra, Azure ML Studio hỗ trợ chạy mã R hoặc Python, mang lại sự linh hoạt trong quá trình phát triển và triển khai các dự án học máy.

4.1.1 Kết quả mô hình Neural Network Nhóm nghiên cứu đã tiến hành EVALUATE SCORE MODEL của mô hình Neural Network và đạt kết quả như sau : amt x l ih

Hinh 4.1 Score Model c#a m6 hinh Two-Class Neural Network Theo dữ liệu trên, ở cột "Scored Labels" đã chỉ ra lớp dự đoán của mô hình Neural Network Classification, đây là việc dự đoán liệu một khách hàng có ngừng sử dụng dịch vụ thẻ tín dụng hay không Giá trị 0 có nghĩa là mô hình dự đoán khách hàng không ngừng việc sử dụng thẻ tin dung và gia tri 1 là ngược lại, mô hình dự đoán khách hàng có khả năng từ bỏ việc sử dụng thẻ tín dụng

Cột "Scored Probabilities" thể hiện xác suất dự đoán của mô hình Với mỗi dữ liệu, mô hình sẽ đưa ra một giá trị xác suất dự đoán, thường nằm trong khoảng từ 0 đến 1, trong đó giá trị càng gần 1 thì khả năng dự đoán đúng của mô hình càng cao Chẳng hạn, ở hàng đầu tiên, mô hình dự đoán khách hàng sẽ rời khỏi dịch vụ với giá trị xác suất được chấm điểm là 0,65.

Labels = I), và xác suất dự đoán khả năng khách hàng ngừng sử dụng dịch vụ là 88.2%

Tóm lại, cột "Scored Labels" chứa nhãn dự đoán kết quả sử dụng thẻ tín dụng, còn cột "Scored Probabilities" chứa xác suất dự đoán khách hàng sẽ rời bỏ hoặc tiếp tục sử dụng thẻ tín dụng Những dữ liệu này cung cấp thông tin có giá trị để các tổ chức tài chính đánh giá rủi ro và đưa ra chiến lược giữ chân khách hàng phù hợp.

Kết qua Confusion matrix, ACC, Precision, Recall, Fl Score khi nhom tién hanh EVALUATE MODEL nhu sau:

True Positive False Negative Accuracy Precision Threshold C————{) AUC

False Positive True Negative Recall F1 Score

Hinh 4.2 Két qué EVALUATE MODEL cata mé hinh Two-Class Neural

Nhóm nghiên cứu phân tích confusion matrix để đánh giá hiệu suất của mô hình dự đoán Confusion matrix bao gồm 4 phần tử: true positive (TP), false positive (FP), true negative (TN) và false negative (FN), giúp đánh giá khả năng phân loại khách hàng có khả năng ngừng sử dụng dịch vụ thẻ tín dụng của mô hình mạng nơ-ron.

True Positive là số lượng khách hàng được mô hình dự đoán đã ngừng sử dụng dịch vụ thẻ tín dụng của ngân hàng Một True Positive bằng 492 nghĩa là mô hình đã dự đoán chính xác 492 khách hàng sẽ ngưng sử dụng thẻ tín dụng và thực tế họ đã ngừng sử dụng.

Ngược lại là False Positive thể hiện số lượng khách hàng được dự đoán sẽ dừng sử dụng thẻ nhưng vẫn tiếp tục sử dụng Cụ thể False Positive 66 tức mô hình đã dự đoán 66 khách hàng sẽ dừng sử dụng thẻ tín dụng nhưng thực tế họ vẫn đang tiếp tục sử dụng.

False Negative là số lượng khách hàng được dự đoán sẽ tiếp tục sử dụng thẻ tín dụng nhưng thực tế đã ngừng sử dụng dịch vụ False Negative 207 đồng nghĩa với việc mô hình đã dự đoán sai 207 khách hàng sẽ tiếp tục sử dụng thẻ tín dụng nhưng thực tế họ đã ngừng dịch vụ.

True Negative là số lượng khách hàng được dự đoán sẽ tiếp tục sử dụng thẻ và thực tế vẫn tiếp tục sử dụng thẻ True Negative có giá trị là 1692, điều này cho thấy mô hình đã dự đoán chính xác hành vi của khách hàng, giúp doanh nghiệp xác định được những khách hàng trung thành, có khả năng tiếp tục sử dụng dịch vụ của doanh nghiệp trong tương lai.

True Negative là một thành phần trong bảng ma trận nhầm lẫn thể hiện khả năng dự đoán chính xác của mô hình đối với nhóm khách hàng có tỷ lệ rời bỏ thấp Chỉ số này cho biết có 1692 khách hàng được dự đoán sẽ tiếp tục sử dụng thẻ tín dụng và thực tế họ vẫn tiếp tục sử dụng dịch vụ.

Dựa trên các giá trị này, chúng ta có thể tính toán các chỉ số đánh giá hiệu suất như độ chính xác (accuracy), khả năng thu hồi (recall), độ chính xác (precision) và điểm F1 (F1-score) để đánh giá hiệu suất tổng thể của mô hình trong việc dự đoán khả năng ngừng sử dụng dịch vụ thẻ tín dụng của khách hàng.

Độ chính xác là tỷ lệ dự đoán chính xác của mô hình Trong trường hợp này, mô hình dự đoán chính xác 88,5% trường hợp khách hàng có ngừng dịch vụ thẻ tín dụng hay không, bao gồm cả số lượng quan sát được phân loại đúng (True Positive và True Negative) trên tổng số mẫu Điều này cho thấy mô hình có khả năng dự đoán tốt khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng.

Precision là tỷ lệ phần trăm giữa số trường hợp khách hàng thực sự rời bỏ so với tổng số trường hợp mô hình dự đoán sẽ rời bỏ Trong trường hợp này, Precision đạt 83,6%, nghĩa là trong số những khách hàng được dự đoán sẽ rời bỏ, 83,6% thực sự đã ngừng sử dụng dịch vụ Độ chính xác cao này cho thấy mô hình dự đoán khả năng khách hàng ngừng dịch vụ một cách hiệu quả.

Tỷ lệ khách hàng ngừng hoạt động thẻ tín dụng có thể được dự đoán với độ chính xác cao Cụ thể, mô hình hồi quy với độ nhạy là 0,849, cho thấy khả năng phát hiện 84,9% khách hàng tương ứng.

FL Score là thước đo toàn diện về hiệu suất của mô hình phân loại, với giá trị 84,2% Chỉ số này là trung bình điều hòa giữa độ chính xác (precision) và độ thu hồi (recall), cung cấp cái nhìn tổng quát về khả năng của mô hình.

Diện tích dưới đường cong ROC (AUC) của mô hình Two-Class Neural Network là 0,952, cho thấy hiệu suất phân loại tốt Giá trị AUC cao này cho thấy mô hình có khả năng phân biệt giữa khách hàng sẽ ngừng sử dụng dịch vụ thẻ tín dụng và khách hàng sẽ tiếp tục sử dụng Do đó, mô hình có khả năng phân loại tốt giữa hai nhóm khách hàng này, chứng tỏ hiệu suất tổng thể tốt trong việc phân loại khách hàng ngừng dịch vụ và khách hàng tiếp tục sử dụng dịch vụ.

Độ chính xác là thước đo tỷ lệ dự đoán chính xác của mô hình Dựa theo kết quả thu được trong hình, với tỷ lệ khoảng 94,02%, có thể thấy rằng mô hình này dự đoán chính xác trường hợp khách hàng có ngừng sử dụng dịch vụ thẻ tín dụng không.

Precision là thước đo tỷ lệ khách hàng được dự đoán ngưng sử dụng dịch vụ thực sự ngưng sử dụng dịch vụ Kết quả nghiên cứu cho thấy mức Precision đạt 91,29%, có nghĩa là trong số những khách hàng được dự đoán sẽ ngưng sử dụng thẻ tín dụng, chỉ có 8,71% vẫn tiếp tục sử dụng Điều này cho thấy mô hình dự đoán có độ chính xác cao trong việc xác định những khách hàng có khả năng ngưng sử dụng dịch vụ.

Tỷ lệ thu hồi là 86,41%, cho thấy rằng mô hình dự đoán chính xác 86,41% tỷ lệ khách hàng thực sự đã ngừng dịch vụ Tuy nhiên, mô hình vẫn không dự đoán đúng được 13,59% khách hàng đã ngừng dịch vụ.

Chỉ số F1 kết hợp cả Độ chính xác (Precision) và Độ thu hồi (Recall), với điểm F1 đạt khoảng 88,79%, cho thấy hiệu suất chung tốt của mô hình.

4.1.7 Kết quả mô hình Naive Bayes

Trong nghiên cứu này, nhóm nghiên cứu đã áp dụng mô hình Phân loại Naive Bayes để dự đoán hành vi ngừng sử dụng dịch vụ thẻ tín dụng của khách hàng Hiệu suất của mô hình được đánh giá dựa trên các chỉ số như Độ chính xác (Accuracy), Độ chuẩn xác (Precision), Độ thu hồi (Recall), Điểm số F1 (F1 Score) và Diện tích dưới đường cong ROC (AUC).

Hinh 4.13 Két qué dw dodn cia m6 hinh Naive Bayes Accuracy đo lường ty lệ dự đoán chính xác của mô hình Trong trường hợp này, mô hình dự đoán chính xác 82.L17% trường hợp khách hàng có ngừng dịch vụ the tín dụng so với tống số mẫu Điều này cho thấy mô hình có khả năng dự đoán tốt khả năng khách hàng ngừng dịch vụ thẻ tín dụng

Độ chính xác để đo lường tỷ lệ khách hàng được dự đoán sẽ ngừng sử dụng dịch vụ thẻ tín dụng thực sự đã ngừng sử dụng là 0,661702, cho biết rằng trong số những khách hàng được dự đoán sẽ ngừng sử dụng dịch vụ, có 66,17% là dự đoán đúng Tuy nhiên, 33,83% khách hàng được dự đoán sẽ dừng dịch vụ thực tế vẫn tiếp tục sử dụng dịch vụ.

Độ chính xác của mô hình trong việc dự đoán tỷ lệ khách hàng ngừng sử dụng dịch vụ thẻ tín dụng là 70,04% Tuy nhiên, vẫn có 29,98% khách hàng ngừng sử dụng dịch vụ không được dự đoán chính xác.

F1 score của mô hình là 68.05%, là một trung bình điều hòa giữa precision và recall Đây là một chỉ số tông thẻ về hiệu suất của mô hình

20016 e Bayes(2) > Execute on Script > Python device

Hinh 4.14 Dién tich dưới đường cong ROC của mô hình Naive Bayes

Diện tích dưới đường cong ROC (AUC) là 0,856148, cho thấy mô hình thể hiện hiệu suất tốt trong việc phân biệt khách hàng sẽ hủy dịch vụ thẻ tín dụng và khách hàng sẽ tiếp tục sử dụng dịch vụ Điều này cho thấy mô hình có khả năng phân loại tốt giữa hai nhóm khách hàng này.

4.1.8 Kết quả mô hình Locally-Deep Support Vector Machine Trong nghiên cứu này, nhóm nghiên cứu đã thực hiện một phân tích hiệu suất về mô hình phân loại Local-Deep Support Vector Machine khi áp dụng nó vào việc dự đoán khả năng khách hàng chấm dứt việc sử dụng dịch vụ thẻ tín dụng Các chỉ số quan trọng như độ chính xác (Accuracy), độ chính xác đương tính (Precision), độ chính xác phân loại (Recall), F1 Score và diện tích dưới duong cong ROC (AUC) da được Sử dụng để đánh giá hiệu suất của mô hình

True Positive False Negative Accuracy Precision Threshold SGẮ1.-.mmfồ AUC

Hinh 4.15 Két qua EVALUATE MODEL cia mé hinh Locally-Deep Support Vector Machine

Độ chính xác thể hiện tỷ lệ dự đoán đúng của mô hình Trong trường hợp này, mô hình dự đoán đúng 88,8% số khách hàng ngừng dịch vụ thẻ tín dụng so với tổng số mẫu Điều này cho thấy mô hình có khả năng dự đoán tốt khả năng khách hàng ngừng dịch vụ thẻ tín dụng.

Độ chính xác đo lường tỷ lệ khách hàng được dự đoán sẽ ngừng dịch vụ thẻ tín dụng thực sự đã ngừng dịch vụ Với giá trị Độ chính xác là 0,858, điều này cho thấy trong số những khách hàng được dự đoán sẽ ngừng dịch vụ, có 85,8% dự đoán đúng, có nghĩa là 85,8% khách hàng dự đoán sẽ ngừng dịch vụ thực sự đã ngừng Tuy nhiên, cũng có 14,2% khách hàng được dự đoán sẽ ngừng dịch vụ nhưng vẫn tiếp tục sử dụng dịch vụ.

Mức độ nhạy của mô hình là 0,826 cho thấy khả năng dự đoán chính xác tỷ lệ khách hàng ngừng dịch vụ thẻ tín dụng đạt 82,6%, nghĩa là mô hình có thể xác định đúng 82,6% khách hàng sẽ ngừng dịch vụ Tuy nhiên, mô hình không dự đoán chính xác được 17,4% khách hàng đã ngừng dịch vụ.

FI score của mô hình là 84.2%, là một trung bình điều hòa giữa precision và recall Đây là một chỉ sô tông thê về hiệu suat cua mô hình

Hình 4.16 Diệu ch dưới đường cong ROC của mô hình LD-SVM

Diện tích dưới đường cong ROC (AUC) là một thước đo hiệu suất tổng thể của một mô hình phân loại Với AUC là 0,941, mô hình có hiệu suất tốt trong việc phân biệt giữa khách hàng sẽ ngừng sử dụng dịch vụ thẻ tín dụng và khách hàng sẽ tiếp tục sử dụng Điều này cho thấy mô hình có khả năng phân loại tốt giữa hai nhóm khách hàng này.

4.1.9 Kết quả mô hình Support Vector Machine

Khi tiền hành EVALUATE MODEL mô hình SVM, nhóm nghiên cứu thu được kết quả các chỉ số ACC, Recall, Precision, AUC, F1 Score và Confusion Matrix như sau:

True Positive False Negative Accuracy Precision Threshold — AUC

False Positive True Negative Recall F1 Score

Hinh 4.17 Két qua EVALUATE MODEL cua mé hinh Support Vector Machine

Mức độ chính xác của mô hình thể hiện khả năng dự đoán chính xác của mô hình Trong trường hợp này, mô hình dự đoán chính xác 84,3% trường hợp khách hàng ngừng sử dụng dịch vụ thẻ tín dụng Kết quả này cho thấy mô hình có khả năng dự đoán tốt khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng.

5.1 Các yếu tố ảnh hưởng đến khả năng ngừng sử dụng dịch vụ thẻ tín dụng của khách hàng

Trong quá trình xây dựng mô hình dự đoán, có 13 biến số được xác định là có tác động đến "Attrition_Flag" Tương ứng, 13 yếu tố này có khả năng ảnh hưởng đến khả năng nghỉ việc của nhân viên.

Nhóm đã sử dụng Filter Based Feature Selection trên Azure Machine

Learning đề kiêm tra mức độ ảnh tác động của các biến lên Attrition_ Flag thông qua chỉ số Pearson Correlation và thu được kết quả như sau:

Bang 5.1 Chi 86 thuéc tinh tic dong \én bién “Attrition_Flag”

Tén bien Chỉ số ảnh hưởng

Total_ Relationship_ Coun 0.155174 Months_Inactive_12_ moi 0.153927 Contacts_Count_12_mor 0.207983

Phân tích các yếu tố ảnh hưởng đến hành vi huỷ thẻ tín dụng của khách hàng từ kết quả chọn lọc tính năng dựa trên hệ số tương quan Pearson, một số kết luận quan trọng về mối quan hệ giữa các yếu tố sau và khả năng huỷ thẻ của khách hàng đã được rút ra:

Mức độ sử dụng thẻ tỉ lệ thuận với tổng số lượng giao dịch và sự biến động về số tiền giao dịch Khách hàng có tần suất sử dụng thẻ cao và biến động chỉ tiêu lớn có xu hướng duy trì sử dụng dịch vụ thẻ.

Theo dõi số dư thẻ tín dụng (Total Revolving Balance) và tỷ lệ sử dụng hạn mức (Avg Utilization Ratio) đóng vai trò quan trọng Khách hàng có số dư nợ cao hoặc tỷ lệ sử dụng hạn mức thấp có thể gặp rủi ro cao hơn trong trường hợp dịch vụ bị dừng.

Mức độ tương tác: Số lượng liên hệ với ngân hàng (Contacts Count 12 mon:

Tương tác thường xuyên của khách hàng và thời gian không sử dụng thẻ ngắn có thể làm giảm khả năng dừng sử dụng dịch vụ Điều này cho thấy, những khách hàng thường xuyên sử dụng thẻ và không có thời gian không hoạt động lâu dài có thể có khả năng trung thành với dịch vụ cao hơn.

Các yếu tô khác: Tổng số lượng sản phâm/dịch vụ (Total Relationship Count:

Theo nghiên cứu, quyết định ngừng dịch vụ của khách hàng phụ thuộc vào giá trị tài sản ròng (Net Worth Percentile: 0.276078) và số lượng người phụ thuộc tài chính (Dependent_count: 0.082536) Ngược lại, các yếu tố như giới tính (Gender: 0.081725), trình độ học vấn (Education Level: 0), tình trạng hôn nhân (Marital Status: 0), thu nhập (Income_ Category: 0) và loại thẻ (Card_Category: 0) lại không có tác động đáng kể đến hành vi ngừng dịch vụ của khách hàng.

Dựa trên phân tích các yếu tố ảnh hưởng đến tỷ lệ ngừng sử dụng dịch vụ thẻ tín dụng thông qua phương pháp lọc dựa trên hệ số tương quan Pearson, nhóm đề xuất một số hàm ý quản trị để tối ưu hóa hoạt động duy trì khách hàng và giảm tỷ lệ ngừng dịch vụ Trước tiên, cần tăng cường tương tác và quan tâm đến khách hàng bằng cách thúc đẩy các hoạt động tiếp thị cá nhân hóa và chăm sóc khách hàng đích đáng.

57 nảy giúp giảm tý lệ thời gian không sử dung the (Months Inactive 12 mon) va tang khả năng duy trì mối quan hệ với khách hàng

Quản lý mức nợ của khách hàng là yếu tố quan trọng trong việc duy trì tình trạng tài chính lành mạnh Bằng cách giảm số dư thẻ tín dụng (Total Revolving Bal) và tỷ lệ sử dụng hạn mức thẻ (Avg Utilization Ratio), doanh nghiệp có thể giúp khách hàng giảm nguy cơ ngừng dịch vụ và duy trì sự ổn định tài chính.

Tiếp đến, doanh nghiệp nên triển khai xây dựng chương trình khuyến mãi, ưu đãi hấp dẫn để khuyến khích người dùng tích cực chi tiêu bằng thẻ, nhưng cần đảm bảo khả năng thanh toán nợ đúng hạn của khách hàng nhằm tránh tình trạng nợ nần ngoài tầm kiểm soát.

Bên cạnh đó, xây dựng mối quan hệ đa dạng với khách hàng bằng cách khuyến khích sử dụng nhiều sản phẩm của ngân hàng (Total Relationship Count) cũng là giải pháp hiệu quả giúp giảm rủi ro chấm dứt thẻ và tăng cường sự gắn bó.

Cuối cùng, việc quản lý thông tin khách hàng chính xác và hiệu quả đóng vai trò then chốt Việc tận dụng thông tin về số lượng người phụ thuộc tài chính của khách hàng (Dependent count) sẽ giúp doanh nghiệp đưa ra các giải pháp tài chính phù hợp, gia tăng cơ hội duy trì khách hàng và thúc đẩy tăng trưởng bền vững cho doanh nghiệp.

Việc triển khai các hàm ý quản trị nêu trên sẽ giúp doanh nghiệp hiểu rõ hơn về những tác động chính đến tỷ lệ hủy thẻ tín dụng của khách hàng, từ đó có thể áp dụng các biện pháp cải tiến thích hợp nhằm củng cố mối quan hệ với khách hàng và duy trì sự ổn định của dịch vụ.

Kết quả phân tích của Chương 4 cho thấy các mô hình dự đoán đề xuất đều thể hiện hiệu suất cao qua các chỉ số Recall, F1 Score và Accuracy % Trong số các mô hình này, Random Forest (RF) đạt hiệu suất tổng thể tốt nhất nhờ điểm trung bình các chỉ số cao hơn.

Với độ chính xác đạt 96,2%, mô hình Random Forest (RF) vượt trội hơn hẳn các mô hình còn lại Con số này cho thấy RF có khả năng phân loại đúng lên đến 96,2% tổng số dữ liệu trong tập kiểm thử Ngoài ra, RF còn sở hữu F1 Score là 0,929 - một chỉ số kết hợp giữa Chính xác và Thu hồi Điểm F1 cao này chứng tỏ RF có khả năng phân loại tốt cả các mẫu dương tính (Recall) và mẫu âm tính (Precision).

Mô hình đánh giá dữ liệu cả theo hướng tích cực và tiêu cực Nó cân nhắc cả vấn đề phát hiện nhiều dữ liệu tích cực (được thể hiện qua Recall) và đảm bảo tính chính xác của việc phân loại (được thể hiện qua Precision) Đồng thời, mô hình này cũng có khả năng nhận diện khách hàng rời bỏ tương đối cao với điểm Recall là 91,7%.

Do đó, nhóm nghiên cứu đã đánh giá mô hình Random Forest (RF) là mô hình tốt nhất để dự đoán khả năng chấm dứt thẻ tín dụng của khách hàng Mô hình RF đã được thực hiện trước đó trong nghiên cứu mẫu được đánh giá là mô hình được đề xuất và có hiệu suất tốt nhất Sau khi xây dựng các mô hình dự đoán, nhóm chúng tôi đã thu được kết quả tương tự.

[1] Charandabi, S E (2020) Prediction of Customer Churn in Banking Industry Age, vol 18, no 92, pp 38-92

A study by Chidroop and Moharir (2020) investigated the factors contributing to order cancellations in e-commerce Their research, published in the International Journal of Research in Engineering, Science and Management, sought to identify the key indicators that predict the likelihood of an order being canceled.

[3] Criminisi, A., Shotton, J., & Konukoglu, E (2011) Decision forests for classification, regression, density estimation, manifold learning and semi-supervised learning

Microsoft Research Cambridge, Tech Rep

[4] Dalmia, H., Nikil, C V., & Kumar, S (2020) Churning of bank customers using supervised learning Springer Singapore, in Lecture Notes in Networks and Systems, vol 107, 2020, pp 681-691

[5] Freund, Y., & Schapire, R E (1997) A decision-theoretic generalization of on-line learning and an application to boosting Journal of computer and system sciences, 55(1), 119-139

[6] GeeksforGeeks (2023, 08 20) Decision Tree Retrieved from geeksforgeeks.org: https:/www.geeksforgeeks.org/decision-tree/

[7] GeeksforGeeks (2024, 03 01) Naive Bayes Classifiers Retrieved from geeksforgeeks.org: https:/Awww.geeksforgeeks.org/naive-bayes-classifiers/

[8] Guliyev, H., & Yerdelen Tatoglu, F (2021) Customer churn analysis in banking sector: Evidence from explainable machine learning model Journal of Applied Microeconometrics

[9] H Dalmia, C V., & Kumar, S (2020) Churning of bank customers using supervised learning in Lecture Notes in Networks and Systems, vol 107, pp 681-691

In their research, Horvat Vukovic and Kuzelj (2020) examine the impact of anti-pandemic measures on the rule of law in Croatia They argue that the emergency measures implemented during the COVID-19 pandemic have raised concerns about the erosion of constitutional rights and freedoms By analyzing the legal framework and case law, the authors assess the constitutionality of these measures and their implications for the protection of human rights.

[11]Kalcheva, N., Todorova, M., & Marinova, G (2023, 06 10) NAIVE BAYES CLASSIFIER, DECISION TREE AND ADABOOST ENSEMBLE ALGORITHM

— ADVANTAGES AND DISADVANTAGES 6th International Conference —-ERAZ 2020 - KNOWLEDGE BASED SUSTAINABLE DEVELOPMENT Belgrade, Serbia:

Association of Economists and Managers of the Balkans Retrieved from geeksforgeeks.org: https://eraz-conference.com/eraz-2020-153/

[12]Karakostas, Bil, Kardaras, D., & Papathanassiou, E (2005) The state of CRM adoption by the financial services in the UK: an empirical investigation Information

[13]Kulkarni, V Y., & Sinha, P K (2013) Random forest classifiers: a survey and future research directions Int J Adv Comput

Two-Class Decision Forest is a component in Azure Machine Learning used for binary classification tasks It leverages decision trees to create multiple models and combines their predictions using a majority vote or averaging to enhance accuracy This component supports training on various data types, including numerical and categorical features, and provides insights into feature importance and model performance Additionally, it allows for hyperparameter tuning to optimize model parameters and achieve better generalization performance.

(2022) Predicting customers churning in banking industry: A machine learning approach Indonesian Journal of Electrical Engineering and Computer Science, 26(1), 539-549

[16]Nie, G., Rowe, W., L Zhang, Y T., & Shi, a Y (2011) Credit card churn forecasting by logistic regression and decision tree Expert Systems with Applications, vol 38, no

[17]Nielsen, M A (2015) Neural networks and deep learning Determination press., Vol

[18]Reichheld, F F., & Sasser, W E (1990) Zero defections: quality comes to services

[19]Renner, T (2013) Customer Age as a Predictor of Contact Volume Spring

[20]Slaba, M (2019) The impact of customer age on consumer behavior and attitude to price Littera Scripta

[21] Tsai, J K., & Hung, C H (2021) Improving AdaBoost classifier to predict enterprise performance after COVID-19 Mathematics, 9(18), 2215

[22]Xie, Y., Li, X., Ngai, E W., & Ying, W (2009) Customer churn prediction using improved balanced random forests Expert Systems, vol 36, no 3, pp 5445-5449 doi:doi: 10.1016/j.eswa.2008.06.121

[23]Kubat, M., Bratko, |., & Michalski, R S (1998) A review of machine learning methods Machine learning and data mining: methods and applications

[24]Nasteski, V (2017) An overview of the supervised machine learning methods

[25]Etaati, L., & Etaati, L (2019) Azure machine learning studio Machine Learning with Microsoft Technologies: Selecting the Right Architecture and Tools for Your Project

[26]Barga, R., Fontama, V., Tok, W H., Barga, R., Fontama, V., & Tok, W H (2015)

Introducing microsoft azure machine learning Predictive Analytics with Microsoft Azure Machine Learning

[27]Abdulla, A., Baryannis, G., & Badi, | (2023) An integrated machine learning and MARCOS method for supplier evaluation and selection Decision Analytics Journal, 9, 100342

[28]Room, C (2019) Confusion matrix Mach Learn, 6, 27

“ i OE Edit < Metace v ° EB; Sy Eat Metacat v

Eh, Sect Columns in Dataset x/

" ệ Re Based Featue Selecion Ơ lạ an spat v đ create Moa v ® e batuste bode v

Hình : Quy trình xây dựng mô hình Random Forest

Bước 8: Trong mô-đun R Language, chọn Create R Model -> Nhập mã lệnh Trainer R Script và Scorer R Script, sau đó nhấn Train model.

4 # The code below is an example which can be replaced with your own code

# See the help page of “Create R Model” module for the list of predefined functions and constants

1# ti model, dataset 2 Gutput: scores 4 # The code below iz an exemple which cen be repleced with your own code

5 # See the nelp page of “Create R Model” mogule for the list oF predefined functions and constants

Bước 9: Chon Score Model trong muc Machine Learning -> Ndi Train Model va

Split Data voi Score Model Nói Score model với Execute R Script đề tiến hành xây dựng thuật toán EVALUATE MODEL

4 Execute R Script R Script woanauruUune ee i)

# Map 1-based optional input ports to variables dataset1 Nhập mã code cho Trainer R Script và Scorer R Script va néi véi Train model s % v Đầy Set Metscata v

DD Pies Bases Feature Seen V v Execute R Script v v sắc " v €R Grent tMoơe

4-8 The code betow is an example which can be replaced with your ow code

5 See the helo page of “Creete R Model” mogule for the List of prederines functions end constants

7 Lae ery(rendveForest) H fees: < getefeature.coluens{éatacet) os facta (it, bàn) calaaaeaset))

* raincdete ¢ coca freme(fer Tanacnorest(aetrition =”, eave®)

- The "Create & Model" module provides a list of redefined functions and constants.- The library ransorare returns the results as a paragraph in English.

4 proveoliities

Tiêu đề	Predicting Customer Churn of Credit Cards in the Banking Industry using Machine Learning
Tác giả	Delta
Người hướng dẫn	ThS. Pham Ngoc Bao Duy
Trường học	Ton Duc Thang University
Chuyên ngành	Application of Big Data Analytics
Thể loại	Course Report
Năm xuất bản	2024
Thành phố	Ho Chi Minh City

Định dạng
Số trang	91
Dung lượng	8,16 MB

Tài liệu tham khảo	Loại	Chi tiết
[14]Microsoft. (2021, 04 11). Two-Class Decision Forest component. Retrieved from learn.microsoft.com: https://learn.microsoft.com/en-us/azure/machine-learning/component-reference/two-class-decision-forest? view=azureml-api-2 [15]Muneer, A., Ali, R. F., Alghamdi, A., Taib, S. M., Almaghthawi, A., & Ghaleb, E. A	Link
[1] Charandabi, S. E. (2020). Prediction of Customer Churn in Banking Industry. Age, vol. 18, no. 92, pp. 38-92	Khác
[2] Chidroop, \|., & Moharir, M. (2020). Predicting the Propensity of Order Cancellation in the Ecommerce Domain. International Journal of Research in Engineering, Science and Management. Retrieved from Predicting the Propensity of Order Cancellation in the Ecommerce Domain	Khác
[3] Criminisi, A., Shotton, J., & Konukoglu, E. (2011). Decision forests for classification, regression, density estimation, manifold learning and semi-supervised learning.Microsoft Research Cambridge, Tech. Rep	Khác
[4] Dalmia, H., Nikil, C. V., & Kumar, S. (2020). Churning of bank customers using supervised learning. Springer Singapore, in Lecture Notes in Networks and Systems, vol. 107, 2020, pp. 681-691	Khác
[5] Freund, Y., & Schapire, R. E. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences, 55(1), 119-139	Khác
[6] GeeksforGeeks. (2023, 08 20). Decision Tree. Retrieved from geeksforgeeks.org: https:/www.geeksforgeeks.org/decision-tree/	Khác
[7] GeeksforGeeks. (2024, 03 01). Naive Bayes Classifiers. Retrieved from geeksforgeeks.org: https:/Awww.geeksforgeeks.org/naive-bayes-classifiers/	Khác
[8] Guliyev, H., & Yerdelen Tatoglu, F. (2021). Customer churn analysis in banking sector: Evidence from explainable machine learning model. Journal of Applied Microeconometrics	Khác
[9] H. Dalmia, C. V., & Kumar, S. (2020). Churning of bank customers using supervised learning. in Lecture Notes in Networks and Systems, vol. 107, pp. 681-691	Khác
[10]Horvat Vukovic, A., & Kuzelj, V. (2020(pp. 59-65).). Constitutionality during times of crisis: Anti-pandemic measures and their effect on the rule of law in Croatia. In 6th International Scientific Conference Educational Research Association of Zambia (ERAZ 2020)	Khác
[12]Karakostas, Bil, Kardaras, D., & Papathanassiou, E. (2005). The state of CRM adoption by the financial services in the UK: an empirical investigation. Information& Management, 42(6), 853-863	Khác
[13]Kulkarni, V. Y., & Sinha, P. K. (2013). Random forest classifiers: a survey and future research directions. Int. J. Adv. Comput	Khác
[17]Nielsen, M. A. (2015). Neural networks and deep learning. Determination press., Vol. 25, pp. 15-24	Khác
[18]Reichheld, F. F., & Sasser, W. E. (1990). Zero defections: quality comes to services. 68(5),105-11	Khác

báo cáo môn học ứng dụng phân tích dữ liệu lớn trong quản lý đề tài dự báo khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng trong lĩnh vực ngân hàng bằng phương pháp machine learning

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU

Kết quả mô hình Support Vector Machine