Két qua mô hình Logistic Regression Két qua dw doan tir m6 hinh logistic regression cho việc dự báo khách hàng

Một phần của tài liệu báo cáo môn học ứng dụng phân tích dữ liệu lớn trong quản lý đề tài dự báo khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng trong lĩnh vực ngân hàng bằng phương pháp machine learning (Trang 49 - 58)

CHƯƠNG 4: CHƯƠNG 4: KÉT QUÁ NGHIÊN CỨU

4.1 Kết quả nghiên cứu

4.1.2 Két qua mô hình Logistic Regression Két qua dw doan tir m6 hinh logistic regression cho việc dự báo khách hàng

True Positive False Negative Accuracy Precision Threshod —£> AUC

456 195 0.868 0.799 0.5 0.923

False Positive True Negative Recall F1 Score

115 1585 0.700 0.746

@ Label Negative Labe!

1 0

Hinh 4.4. Két qué EVALUATE MODEL cia mé hinh Logistic Regression Trong số các trường hợp khách hàng thực sự rời bỏ (True Positive), mô hình đã dự đoán đúng 456 trường hợp. Tuy nhiên, cũng có 195 trường hợp khách hàng rời bỏ mà mô hình dự đoán sai (False Negative).

Đối với các trường hợp không rời bỏ (True Negative), mô hình dự đoán đúng 1585 trường hợp, nhưng cũng dự đoán sai L 15 trường hợp không rời bỏ thành trường hợp roi bo (False Positive).

Các chỉ số đánh giá hiệu suất của mô hình ciing da duge tinh toan va cho thay.

Độ chính xác (Accuracy) của mô hình đạt giá trị 0.868, thể hiện tỷ lệ dự đoán đúng

trên tong số dự đoán là cao. Precision của mô hình là 0.799, chi ra tỷ lệ các dự đoán

dương tính thực sự là đương tính. Recall của mô hình là 0.700, thê hiện khả năng phát hiện ra một phản của các trường hợp thực sự là đương tính. Điểm F1 (F1 Score) đạt

36

giá trị 0.746, là một phép đo tổng hợp của precision và recall, giúp đánh giá sự cân

băng giữa chính xác và độ phủ của mô hình.

Regression ằ Evaluate Model ằ Evaluation results

Fake Positive Rat

Hình 4.5. Diện ích dưới đường cong ROC cua m6 hinh Logistic Regression.

Kết quả đo lường hiệu suất của mô hình phân loại dựa trên chỉ só AUC (Diện tích dưới đường cong) đạt giá trị 0.923. Điều này cho thấy mô hình có khả năng phân loại một cách xuất sắc giữa hai nhóm khách hàng: những người có khả năng rời bỏ và những người sẽ tiếp tục sử dụng dịch vụ. Giá trị AUC khá cao đồng nghĩa với việc đường cong ROC (Receiver Operating Characteristic) cua m6 hinh gan tiém can dén

góc trên bên trái của biểu đỏ, có điểm (0, 1). Sự tiệm cận này củng có thêm cho kết luận về khả năng phân biệt của mô hình, bỏ sung cho ước lượng ban đầu về khả năng phân loại hiệu quả giữa hai nhóm khách hàng.

37

4.1.3 Két qua mé hinh Boosted Decision Tree Dưới đây là kết quả của mô hình Boosted Decision Tree sau khi nhom nghiên cứu tiền hành EVALUATE MODEL

True Positive False Negative Accuracy Precision Threshold {> AUC

357 91 0.899 0.828 0.5 0.951

False Positive True Negative Recall F1 Score

74 1117 0.797 0.812

Jositive Label Negative Label

1 0

Hinh 4.6. Két qua EVALUATE MODEL cia mé hinh Boosted Decision Tree.

True Positive 1a sé lugng khách hàng được dự đoán chính xác sẽ ngừng sử dụng thẻ tín dụng và thực sự rời bỏ. Mô hình đã dự đoán được 357 trường hợp khách hàng đã thực sự rời bỏ. Tuy nhiên, mô hình vẫn dự đoán sai 74 khách hàng sẽ ngừng sử dụng thẻ tín dụng nhưng vẫn tiếp tục sử dụng dịch vụ (False Positive).

Mô hình đã dự đoán được chính xác 1117 khách hàng sẽ tiếp tục sử dụng thẻ tín dụng và thực sự tiếp tục sử dụng (True Negative). Nhưng cùng với đó, mô hình cũng đã dự đoán sai 91 khách hàng sẽ tiếp tục sử dụng thẻ tín dụng nhưng đã thực sự ngừng sử dụng (False Negative).

Accuracy là chỉ số dùng để đo lường mức độ dự đoán chính xác của mô hình trên toàn bộ tập dữ liệu. Trong trường hợp này, mô hình dự đoán tỷ lệ chính xác lên đến 89.9%, Tỷ lệ này cho thấy mô hình có khả năng dự đoán khả năng ngừng sử dụng dịch vụ của khách hàng rat tot.

Precision là chỉ số đo lường tỷ lệ dy đoán khách hàng thực sự ngừng sử dụng thẻ tín đụng. Mô hình trên đã cho ra kết quả là trong các khách hàng được dự đoán là sẽ rời bỏ dịch vụ, có 82.8% kết quả là được dự đoán đúng là sẽ rời bỏ dịch vụ trên tong True Positive va False Positive va 17.2% là dự đoán sai khách hàng chấm dứt việc sử dụng dịch vụ nhưng trên thực tế vẫn tiếp tục sử dụng dịch vụ. Kết quả precision cho thay kha nang dự đoán của mô hình ở mức khá.

Chỉ số Recall đo tỷ lệ dự đoán chính xác các trường hợp khách hàng thực sự chấm dứt sử dụng thẻ tín dụng. Khi sử dụng mô hình nảy, với độ nhạy là 0.797 thi

38

kết quả cho thấy mô hình có thể phát hiện được 79.7% khách hàng thực sự sẽ rời bỏ sử dung dich vu thẻ tín dụng và 20.3% dự đoán sai là khách hàng rời bỏ sử dụng dịch vụ nhưng trên thực tế vẫn đang là khách hàng sử dụng dịch vụ.

FI Score 1a chỉ số trung bình điều hòa giữa Recall và Precision. F1 Score cho kết quả bằng 0.812 cho thấy mô hình có hiệu quả tông thể tốt trong việc dự đoán

khách hàng ngừng sử dụng dịch vụ thẻ tín dụng của ngân hàng.

r

ROC

Hỡnh 4.7. Diện #ch dưới đường cong ROC cứa mụ hỡnh Boosted Decision Tree.

Diện tích dưới đường cong ROC (AUC) là thước đo hiệu suất tông thể của mô

hình phân loại. Với giá trị AUC là 0.951, mô hình có hiệu suất tốt trong việc phân

biệt khách hàng sẽ ngừng dịch vụ thẻ tín đụng và khách hàng sẽ tiếp tục sử dụng dịch vụ. Điều này ngụ ý rằng mô hình có khả năng phân loại tốt giữa hai nhóm khách hàng này.

39

4.1.4 Két qua m6 hinh Decision Forest Sau qua trinh phan tich hiéu suat trén Azure Machine Learning, nhom da thu

được một số chỉ số đo lường quan trọng đề đánh giá hiệu suất của mô hình, bao gồm Accuracy, Precision, Recall, F1 Score và AUC.

True Positive False Negative Accuracy Precision Threshold —_ AUC

559 92 0.944 0.933 0.5 0.979

False Positive True Negative Recall FL Score

40 1660 0.859 0.894

Positive Labe! Negative Label

1 0

Hinh 4.8. Két qua EVALUATE MODEL cua mé hinh Decision Forest Ma tran nham lan (Confusion Matrix) trong mé hinh Decision Forest dir doan khả năng khách hàng ngừng dịch vụ thẻ tín dụng. True Positive (TP) = 559, đây là số lượng khách hàng thực sự ngừng dịch vụ thẻ tín dụng và được mô hình dự đoán chinh xac. False Negative (FN) = 92, day la số lượng khách hàng thực sự ngừng dịch vụ thẻ tín dụng nhưng được mô hỉnh dự đoán sai là sẽ tiếp tục sử dụng dịch vụ. False Positive (FP) = 40, đây là số lượng khách hàng thực sự sẽ tiếp tục sử dụng dịch vụ thẻ tín dụng nhưng được mô hình dự đoán sai là sẽ ngừng dịch vụ. True Negative (TN) = 1660, đây là số lượng khách hàng thực sự sẽ tiếp tục sử dụng dịch vụ thẻ tín dụng và được mô hình dự đoán chính xác.

Accuracy do luong ty lệ dự đoán chính xác của mô hình. Trong trường hợp nảy, mô hình dự đoán chính xác 94.4% trường hợp khách hàng có ngừng dịch vụ thẻ tín dụng hay không. Điều này cho thấy mô hình có khả năng dự đoán tốt khả năng khách hàng ngừng dịch vụ thẻ tín dụng.

Precision la chỉ số đo lường tỷ lệ giữa số lượng các trường hợp mà mô hình dự đoán là khách hàng sẽ rời bỏ và thực sự là khách hàng rời bo (True Positive), so với tông số lượng các trường hợp mà mô hình dự đoán là khách hàng sẽ rời bỏ (bao gồm cả True Positive và False Positive). Precision = 93.3% có nghĩa là 93.3% trong số những khách hàng được dự đoán là sẽ rời bỏ thực sự đã rời bỏ dịch vụ. Điều này

40

chỉ ra rằng mô hình có khả năng dự đoán một cách chính xác về việc khách hàng sẽ rời bỏ dịch vụ.

Recall đo lường tỷ lệ khách hàng thực sự ngừng dịch vụ thẻ tín dụng được dự đoán chính xác. Đối với mô hình nảy, với độ nhạy là 0.859, mô hình có thể phát hiện 85.9% khách hàng thực sự sẽ ngừng sử dụng dịch vụ thẻ tín dụng.

Thông số F1 score là thước đo tông hợp cho cả Precision và Recall, và điểm FI xấp xi 89.4% cho thay vé mat bang chung mô hình có hiệu suất tốt.

| Decision Forest ằ Evaluate Model > Evaluation results

ROC

BBB scored dataset

True Positive Rate

False Positive Rate

Hình 4.9. Diện ch dưới đường cong ROC cđa mô hình Decision Forest

Diện tích dưới đường cong ROC (AUC) là thước đo hiệu suất tông thể của mô

hình phân loại. Với giá trị AUC là 0.979, mô hình có hiệu suất tốt trong việc phân

biệt khách hàng sẽ ngừng dịch vụ thẻ tín đụng và khách hàng sẽ tiếp tục sử dụng dịch vụ. Điều này ngụ ý rằng mô hình có khả năng phân loại tốt giữa hai nhóm khách hàng này.

41

4.1.5 Kết quả mô hình Random Forest

Nhóm nghiên cứu đã tiền hành xây dựng mô hình RF đề dự đoán va phân loại dữ liệu trong việc đánh giá tỷ lệ khách hàng ngừng thẻ tín dụng của ngân hàng. Dưới đây là các chỉ số đo lường quan trọng được sử dụng để đánh giá hiệu suất của mô hình, bao gồm True Positive, False Negative, Accuracy, Precision, False Positive, True Negative, Recall va F1 Score.

ue Positive False Negative Accuracy Precision Threshold — AUC

408 37 0.962 0.942 0.5 0.992

Positive ue Negative Reca Score

25 1169 0.917 0.929

Labe 3 abel

1 0

Hình 4.10. Kứ quđ EVALUATE MODEL czia mô hình Random Forest True Positive là số lượng khách hàng được dự đoán đã ngừng sử dụng dịch vụ thẻ tín dụng của ngân hàng. True Positive 408 có nghĩa là mô hình đã dự đoán chính xác 408 khách hàng sẽ ngừng thẻ tín dụng và thực tế họ đã rời bỏ. Đây là yếu tố quan trọng để đánh giá hiệu quả của mô hình trong việc xác định chính xác khách hàng có nguy cơ rời bỏ ca0.

False Negative là số lượng khách hàng được dự đoán sẽ tiếp tục sử dụng thẻ tín dụng nhưng thực tế đã ngừng sử dụng thẻ. False Negative 37 đồng nghĩa với việc mô hình đã dự đoán sai 37 khách hàng sẽ tiếp tục sử dụng thẻ tín dụng nhưng thực tế họ đã ngừng sử dụng dịch vụ.

False Positive là số lượng khách hàng được dự đoán sẽ rời bỏ nhưng thực tế vấn tiếp tục sử dụng thẻ. Và False Positive 25 có nghĩa là mô hình đã dự đoán sai 25 khách hàng sẽ ngừng sử dụng thẻ tín dụng nhưng thực tế họ vẫn tiếp tục sử dụng.

True Negative là số lượng khách hàng được dự đoán sẽ tiếp tục sử dụng thẻ và thực tế vẫn tiếp tục sử dụng thẻ. True Negative 1169 cho thay mô hình đã dự đoán chính xác 1169 khách hàng sẽ tiếp tục sử dụng thẻ tín dụng va thực tế họ vẫn tiếp tục

42

sử dụng. True Negative là yếu tô thé hiện khả năng dự đoán khả năng chính xác của mô hình đối với những nhóm khách hàng có tý lệ rời bỏ thấp.

Accuracy thê hiện sự đo lường mức độ chính xác của mô hình. Và trong mô hình nghiên cứu này có độ chính xác cao là 96.2% trong việc dự đoán tỷ lệ khách hàng ngừng sử dụng dịch vụ. Điều này cho thấy mô hình có khả năng dự đoán tốt giữa việc khách hàng "sẽ rời bỏ" và "sẽ tiếp tục sử dụng" thẻ tín dụng.

Precision là một chỉ số đánh giá hiệu suất của mô hình dự đoán, đo lường mức độ chính xác của tỷ lệ dự đoán “khách hàng rời bỏ”. Trong số những khách hàng được dự đoán là sẽ ngừng dịch vụ, có 94.2% là dự đoán đúng khách hàng rời bỏ trên tổng (True Positive va False Positive) va 5.8% là dự đoán sai khách hàng rời bỏ nhưng trên thực tế vẫn tiếp tục sử dụng dịch vụ. Kết quả này cho thấy mô hình có khả năng dự đoán một cách chính xác về việc khách hàng sẽ rời bỏ dịch vụ.

Recall đây là khả năng đo lường tỷ lệ khách hàng ngừng thẻ tín dụng. Mô hình có khả năng nhận diện khách hàng rời bỏ tương đối cao Recall = 91.7% và 8.3%

trường hợp dự đoán sai là khách hàng đang sử dụng dịch vụ nhưng dự đoán là rời bỏ.

Fl Score là thước đo hiệu suất của mô hình trong các bài toán phân loại Classification. Fl Score la su can bang giữa độ chính xác Precision va kha năng nhận

43

diện Recall của mô hình. Cụ thể F1 Score= 92.9% thể hiện rằng mô hình có hiệu quả tốt trong việc dự đoán tỷ lệ khách hàng ngừng thẻ tín dụng.

r

ROC

Hình 4.11. Diệu ích didi dwong cong ROC c#a mô hình Random Forest

Diện tích đưới đường cong ROC (AUC) là thước đo hiệu suất tống thẻ của mô hình phân loại. Với giá trị AUC là 0.989 cho thấy mô hình có khả năng phân biệt tốt giữa khách hàng sẽ rời bỏ và khách hàng sẽ tiếp tục sử dụng thẻ tín dụng. Đặc biệt AUC càng cao, khả năng phân biệt của mô hình càng tốt. Điều này ngụ ý răng mô hình có khả năng phân loại tốt giữa hai nhóm khách hàng này.

44

4.1.6 Kết quả mô hình Adaboost Một mô hình nghiên cứu khác được nhóm nghiên cứu đề áp dụng cho việc dự đoán khách hàng ngừng sử dụng dịch vụ thẻ tín dụng trong ngân hàng là AdaBoost.

Sau quá trình phân tích hiệu suất trén Azure Machine Learning, nhom da thu duge một số chỉ số đo lường quan trọng để xác định mô hình có phù hợp hay không như Sau:

rows columns

1 5

Model Accuracy Precision Recall F1-score

view as

wi Of | |

AdaBoostClassifier 94020744 91.294118 86.414254 88.787185

Một phần của tài liệu báo cáo môn học ứng dụng phân tích dữ liệu lớn trong quản lý đề tài dự báo khả năng khách hàng ngừng sử dụng dịch vụ thẻ tín dụng trong lĩnh vực ngân hàng bằng phương pháp machine learning (Trang 49 - 58)

Tải bản đầy đủ (PDF)

(91 trang)