Phân cụm theo phương pháp Hierchical Clustering

Một phần của tài liệu báo cáo đồ án học phần khoa học dữ liệu đề tài phân loại nhóm khách hàng tín dụng tại các ngân hàng tại đức (Trang 46 - 53)

Chương 3: Ứ NG D ỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰ C T Ế

4.1 Phân cụm theo phương pháp Hierchical Clustering

Lựa chọn phương pháp tính toán phù hợp

Kết quả phân cụm theo phương pháp Hierchical ta thấy mô hình phân cụm theo cách tính khoảng cách Cosine như sau:

• Link Complete

Hình 29 Phân cụm theo Cosine-Complete

• Link single

47

Hình 30 Phân cụm theo Cosine-Single

• Link average

Hình 31 Phân cụm theo Cosine-Average

• Link weighted

48

Hình 32 Phân cụm theo Cosine-Weighted

• Link Ward

Đánh giá sơ bộ: qua các cách phân cụm theo phương pháp khoảng cách khác nhau nhưng đều tạo ra các cụm có số lượng cụm để phân chia sao cho đảm bảo các kết quả khách quan. Mỗi cụm đều có ít nhất 2 phần tử để đảm bảo giá trị của cụm đạt tính khách quan nhất.

Riêng đối với phương pháp tính khoảng cách single thì số cụm bị giới hạn ở nhánh đầu tiên do sự phân cụm chưa có tương đối giữa 2 cụm với nhau, giá trị cụm phải đảm bảo các

Hình 33 Phân cụm theo Cosine-Ward

49 cụm phải có sự tương đối với nhau để mô hình phân cụm đạt giá trị tốt nhất do đó loại phương pháp tình single ra khỏi mô hình phân cụm.

Bốn phương pháp tính khoảng cách đều có cách phân cụm gần giống nhau ở số lượng cụm từ mức 2-5 cụm do đó nhóm tác giả chủ động sử dụng phương pháp tính toán từ 4 phương pháp trên để tiến hành phân cụm chính xác cho mô hình. Nguyên nhân nhóm tác giả chủ động chọn từ 2-4 cụm để tiến hành phân cụm cho mô hình phân cụm vì đây là mô hình đánh giá tín dụng của ngân hàng dẫn đến quyết định chọn lựa cho đối tượng khách hàng vay nợ hay không do đó chủ trương đưa ra là đánh giá khách quan giữa tốt và không tốt, rõ ràng giữa các cụm nhằm đánh giá chất lượng tín dụng cho mô hình nhằm tạo ra giá trị rõ ràng nên số cụm tối ưu nhất là từ 2 đến 4 cụm để đánh giá tín dụng.

Nếu đánh giá tín dụng quá nhiều dạng làm ảnh hưởng đến tín dụng phải phân ra nhiều bậc làm cho khách hàng khó tiếp cận được nguồn vốn vay cho doanh nghiệp, hay khách hàng cá nhân.

Nhóm tiến hành chọn cách tính average để đảm bảo tính mặt bằng của mô hình để tiến hành phân cụm cho các cụm đảm bảo rằng mô hình phân cụm có giá trị tốt nhất.

Lựa chọn số cụm và kết quả phân cụm của từng nhóm

− Mô hình phân thành 2 cụm Màn hình mô hình phân cụm phân thành 2 cụm của mô hình:

Hình 34 Chọn 2 cụm bàng Hierarchical CLustering

* Đánh giá ngoại

50 Nhận xét: mô hình phân thành 2 cụm có sự tương quan tương đối, số lượng biến xác định cụm 1 và cụm 2 tương đối ổn định, đánh giá mô hình phân cụm 2 cụm có khả năng đánh giá cụm thực tế.

Kết quả đánh giá chỉ số Silhouette của mô hình phân cụm 2 cụm

51

Hình 35 Chỉ số Silhouette của 2 cụm Hierarchical Clustering

* Đánh giá theo chỉ số

Nhận xét: Kết quả phân cụm cho thấy mô hình phân cụm đạt chỉ tiêu về các chỉ số Silhouette. Ở cụm 1 chỉ số Silhouette đạt 0.799>0.5 và 80% bộ dữ liệu phân cụm ở cụm 1 có chỉ số Sil>0.3 , ở cụm 2 chỉ số Silhouette đạt -0.490 chỉ số Silhoutte tính toán theo phương pháp Cosine luôn có hai giá trị âm dương giữa các cụm do đó mô hình phân cụm có chỉ số Silhouette của cụm 2 đạt -0.49 nằm trong khoảng [0.25;0.5] do đó mô hình vẫn chấp nhận được với kết quả trên.

Đánh giá nội

Màn hình kết quả phân cụm theo phương pháp Hierarchical tính theo khoảng cách Cosine

52

Hình 36 Kết quả phân thành 2 cụm Hierchical Clustering

Bảng 6 Bảng Pivot kết quả phân cụm Hierarchical Clustering 2 cụm

Nhận xét: Nhóm tác giả nhận thấy mô hình phân cụm có thể thấy Cụm 1 là 0 (Không bị vỡ nợ), cụm 2 là 1 (có khả năng vỡ nợ). Qua kết quả phân cụm ta thấy mô hình phân cụm theo phương pháp cosine 2 cụm có khả năng phân biệt tốt ở nhóm không bị vỡ nợ chỉ số sai lệch ở nhóm không bị vỡ nợ bị đánh giá là vỡ nợ chỉ 5/3463 người do đó phân biệt rất tốt ở nhóm không bị vỡ nợ. Nhưng mô hình phân cụm lại có những giá trị sai sót ở nhóm bị vỡ nợ khá cao. Có 667/689 khách hàng ở nhóm bị vỡ nợ được đánh giá cao vào nhóm không bị vỡ nợ. Nguy cơ đổ vỡ tín dụng do áp dụng mô hình trên rất cao mặc dù phân cụm khá tốt ở nhóm không bị vỡ nợ nhưng chưa đáp ứng được yêu cầu của mô hình:

làm sao lọc ra các khách hàng bị vỡ nợ để đánh giá họ nhằm tạo tín dụng sạch ở ngân hàng.

Tỉ lệ sai sót của mô hình 6724152=16% chỉ số đánh giá sai sót cao nhưng chưa đảm bảo yêu cầu đề ra nên loại mô hình phân cụm 2 cụm của phương pháp tính cosine 2 cụm

Mô hình phân thành 3 cụm

53

Hình 37 Phân thành 3 cụm theo Hierarchical Clustering

Nhận xét: Mô hình phân cụm thành 3 cụm không khả quan do mô hình phân cụm chỉ có 3 phần tử thuộc cụm 2, 22 phần tử thuộc cụm 3. Do đó nhóm tác giả loại mô hình phân cụm 3 cụm ra khỏi mô hình nghiên cứu. Làm giảm sự mất cân đối giữa các cụm. Do đã có sự xử lí dữ liệu về mức 1:5 do đó bộ dữ liệu phải đạt được giá trị cân đối gần 1:5 hoặc 1:3 giữa các cụm để đảm bảo mô hình phân cụm đạt giá trị tốt nhất.

Một phần của tài liệu báo cáo đồ án học phần khoa học dữ liệu đề tài phân loại nhóm khách hàng tín dụng tại các ngân hàng tại đức (Trang 46 - 53)

Tải bản đầy đủ (PDF)

(74 trang)