Chương 3: Ứ NG D ỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰ C T Ế
4.3 Phân cụm theo phương pháp K-mean
− Số liệu tổng thể khi phân cụm bằng phương pháp K-means
59
Hình 44 Kết quả K-Means
Mô hình phân cụm từ 2 đến 8 biến có chỉ số Silhouette đạt từ 0.472-0.566 do đó ta có thể chọn từ 2-5 cụm (4 cụm) có chỉ số Silhouette tốt nhất, để đảm bảo rằng mô hình phân cụm luôn có chỉ số Silhouette >0.5
− Mô hình kết quả phân cụm bằng K-means
Theo kết quả k-Means như hình minh chứng trên, ta thấy theo phương pháp k-Means thì dữ liệu chia thành 2 cụm, 3 cụm là tối ưu nhất (vì có chỉ số Silhouette cao: 0.566 và 0.532=> thỏa mãn điều kiện)
− Phân thành 2 cụm
Ta quan sát biểu diễn phân cụm trong công cụ Silhouette Plot, như sau:
60
61
Hình 45 Silhouette K-Means 2 cụm
Như vậy, có thể thấy cả 2 cụm dữ liệu đều có chỉ số Silhouette lớn hơn 0.3 và không tồn tại giá trị âm => Với phương pháp k-Means, dữ liệu chia thành 2 cụm là hợp lý.
Nhận xét:
62
Bảng 9 Đánh giá kết quả phân cụm K-Means 2 cụm
Từ bảng Pivot Table ta thấy:
0: không vỡ nợ (có khả năng trả nợ) 1: vỡ nợ (không có khả năng trả nợ)
• 16713463= 0.5 => Cụm 1 là 0
• 434689= 0,63 => Cụm 2 là 1
• Độ sai sót: 1792+2554152= 0.5
Nhận xét:
• Mô hình phân cụm không tốt, tỉ lệ sai sót khá cao (gần 50%) vì thế nên cần xem xét lại mô hình.
• 17923463= 0.5 (gần 50%) khách hàng có khả năng trả nợ bị xếp vào nhóm vỡ nợ, dẫn đến làm mất khách hàng của ngân hàng. Nhóm khách hàng bị đánh giá thấp đã làm cho chất lượng đánh giá tín dụng của ngân hàng bị đánh giá thấp tạo ra các tiền lệ về đánh giá tín dụng làm cho số lòng tin của khách hàng vào ngân hàng ngày càng thấp dẫn đến các yếu tố lựa chọn những ngân hàng có mức đánh giá chuẩn xác hơn để vay vốn cũng như tăng điểm tín dụng cá nhân.
• 255689 =0.4 (khoảng 40%) khách hàng không có khả năng trả nợ được xếp vào nhóm không vỡ nợ, dẫn đến các vấn đề về vòng quay vốn của ngân hàng bị đứng lại không đánh giá đúng về tín dụng làm cho ngân hàng không thu hồi được nợ đồng thời làm giảm quy mô tín dụng của ngân hàng.
• Nhận xét chung: mô hình phân cụm chưa đạt được những giá trị cốt lõi của thực tế. Độ sai sót của mô hình khá cao dẫn đến các vấn đề về đánh giá tín dụng không
63 đúng. Gần 50% khách hàng có chỉ số tín dụng tốt nhưng bị đánh giá thấp hơn, 40% những khách hàng có tín dụng xấu được phép vay vốn dẫn đến nguy cơ thoái vốn của ngân hàng.
− Phân thành 3 cụm
Ta quan sát biểu diễn phân cụm trong công cụ Silhouette Plot, như sau:
64
65
Hình 46 Silhouette 3 cụm K-Means
Như vậy, có thể thấy cả 3 cụm dữ liệu đều có chỉ số Silhouette lớn hơn 0.3 và không tồn tại giá trị âm => Với phương pháp k-Means, dữ liệu chia thành 3 cụm là hợp lý
Nhận xét:
66
Bảng 10 Đánh giá mô hình phân cụm K-Means 3 cụm
Từ bảng PivotTable ta thấy:
0: không vỡ nợ (có khả năng trả nợ) 1: bị vỡ nợ (không có khả năng trả nợ)
• 1442+915 3463 = 0.7 => Cụm 1; Cụm 2 là 1
• 274 689= 0.4 => Cụm 3 là 0
• Độ sai sót: 1442+915+274
4152 =0.64
Nhận xét:
• Mô hình phân cụm không tốt, tỉ lệ sai sót trung bình (gần 64%) vì thế nên cần xem xét lại mô hình.
• 1442+9513463 = 0.7 (gần 70%) khách hàng có khả năng trả nợ bị xếp vào nhóm vỡ nợ, dẫn đến làm mất khách hàng của ngân hàng. Nhóm khách hàng bị đánh giá thấp đã làm cho chất lượng đánh giá tín dụng của ngân hàng bị đánh giá thấp tạo ra các tiền lệ về đánh giá tín dụng làm cho số lòng tin của khách hàng vào ngân hàng ngày càng thấp dẫn đến các yếu tố lựa chọn những ngân hàng có mức đánh giá chuẩn xác hơn để vay vốn cũng như tăng điểm tín dụng cá nhân
• 274689 = 0.4 (gần 40%) khách hàng không có khả năng trả nợ được xếp vào nhóm không vỡ nợ, dẫn đến các vấn đề về vòng quay vốn của ngân hàng bị đứng lại không đánh giá đúng về tín dụng làm cho ngân hàng không thu hồi được nợ đồng thời làm giảm quy mô tín dụng của ngân hàng.
• Nhận xét chung: mô hình phân cụm chưa đạt được những giá trị cốt lõi của thực tế. Độ sai sót của mô hình khá cao dẫn đến các vấn đề về đánh giá tín dụng không
67 đúng. Gần 70% khách hàng có chỉ số tín dụng tốt nhưng bị đánh giá thấp hơn, 40% những khách hàng có tín dụng xấu được phép vay vốn dẫn đến nguy cơ thoái vốn của ngân hàng