để tài nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu để phân loại điểm tín dụng của khách hàng

Tổng quan về khoa học dữ liệu.- Khoa học dữ liệu là bộ môn nghiên cứu, phân tích và quản trị những dữ liệu để có thể nhìn thấyđược những dự báo trong tương lai từ đó giúp cho các cá nhân

Trang 1

DỰ ÁN

BỘ MÔN KHOA HỌC DỮ LIỆU

ĐỀ TÀI Nghiên cứu và ứng dụng các phương pháp khai thác

dữ liệu để phân loại điểm tín dụng của khách hàng

ĐẠI HỌC KINH TẾ TP.HCM

KHOA CÔNG NGHỆ THÔNG TIN

Giảng viên hướng dẫn: Hồ Văn Phúng Lớp học phần: 23C1INF50905967

TP Hồ Chí Minh Tháng 10 năm 2023

Trang 2

Họ và tên Nhiệm vụ MSSV Phần trăm

thực hiện

Đỗ Hữu Phong - Tìm kiếm dữ liệu

- Chạy dữ liệu trên Orange

- Đưa ra kết luận và khuyến

Trang 3

MỤC LỤC

I Giới thiệu về khoa học dữ liệu và đề tài 1

1.Tổng quan về khoa học dữ liệu 1

2.Lý do chọn đề tài 1

3.Mục tiêu 1

II.Tổng quan dữ liệu 2

1.Thông tin bộ dữ liệu 2

2.Tiền xử lý dữ liệu 2

III Phương pháp phân cụm dữ liệu: 4

1 Phương pháp phân cụm dữ liệu 4

2 Phân cụm phân cấp 5

3 Phân cụm phân hoạch 9

IV.Tiến hành phân lớp dữ liệu 11

1 Các phương pháp phân lớp dữ liệu 11

2 Các chuỗi thao tác thực hiện 14

3.Chuỗi thao tác thực hiện trên Orange 15

V.Kết quả và bàn luận 15

VI Kến luận - Khuyến nghị 18

Trang 4

I Giới thiệu về khoa học dữ liệu và đề tài.

1 Tổng quan về khoa học dữ liệu.

- Khoa học dữ liệu là bộ môn nghiên cứu, phân tích và quản trị những dữ liệu để có thể nhìn thấyđược những dự báo trong tương lai từ đó giúp cho các cá nhân hay tổ chức có cơ sở đưa ranhững hành động, quyết định tối ưu nhất Trong thời đại công nghệ số hiện nay, việc hòa nhậpvới thế giới và nắm bắt được xu hướng đang đóng vai trò cực kì cấp thiết trong cuộc sống, từ đócho chúng ta thấy tầm quan trọng và sự hữu ích của Khoa học dữ liệu mang lại trong tương lai

- Với sự hướng dẫn nhiệt tình của thầy Hồ Văn Phúng, nhóm sinh viên chúng em đã có cho mìnhnhững kỹ năng cần thiết cùng những kiến thức nền tảng của bộ môn này để áp dụng vào thựctiễn cuộc sống Vì vậy chúng em xin được gửi lời cảm ơn chân thành nhất đến thầy vì đã luôn hỗtrợ chúng em trong suốt môn học này

2 Lý do chọn đề tài.

-Với mục đích vận dụng các kiến thức liên quan đến bộ môn khoa học dữ liệu điển hình là cácthuật toán phân lớp, phân cụm và phần mềm Orange vào các nghiên cứu trong thực tiễn cuộcsống Nhóm đã quyết định lựa chọn đề tài: Credit Score Classification Vận dụng các phươngpháp đã học để phát triển các mô hình phân lớp, phân cụm phù hợp với dữ liệu và nhận xét cáccụm dữ liệu vì những lý do sau:

Credit Score Classification là dữ liệu được thu thập sẵn trên trang web Kaggle Do đó rútngắn được thời gian thu thập dữ liệu, và dữ liệu có độ tin cậy cao

Trong hệ thống tài chính hiện nay, sự quản lý rủi ro tín dụng đang đóng vai trò quan trọng

Too long to read on your phone? Save

to read later on your computer

Save to a Studylist

Trang 5

- Đề xuất về mô hình phù hợp với dữ liệu, đưa ra các nhận xét thông qua thống kê mô tả.

II.Tổng quan dữ liệu.

1 Thông tin bộ dữ liệu.

- Bộ dữ liệu “Credit score classification” là tập hợp dữ liệu đa biến được lấy từ kaggle.com

- Tổng quan bộ dữ liệu có 100.000 mẫu, 28 biến Nhóm đã tiến hành thực hiện tiền xử lý dữ liệunhằm loại bỏ các giá trị dữ liệu thiếu Qua đó, nhóm thu được 4900 mẫu dữ liệu và lọc được 8biến

- Tổng số các biến được xác định: 8 biến, cụ thể:

1 Occupation Định tính Nghề nghiệp Accountant, Architect, Doctor, Developer, …

2 Monthly_Inhand_Salary Định lượng Lương một tháng từ 1000 đến 20000

3 Interest Rate Định lượng Lãi suất từ 1 đến 5747

4 Delay From Due Date Định lượng Chậm trễ so với thời hạn từ -5 đến 67

5 Credit Mix Định tính

Các loại tài khoản tín dụng khác nhau của chủ

sở hữu _ , Bad, Good, Standard

6 Credit_Utilization_Ratio Định lượng Tỷ lệ sử dụng tín dụng từ 26.4482 đến 50

7 Payment_of_Min_Amount Định tính Thanh toán số tiền tối

thiểu NM, No, Yes

8 Total_EMI_per_month Định lượng Tổng EMI mỗi tháng từ 0 đến 475.327

2 Tiền xử lý dữ liệu.

- Trên thực tế, có thể xảy ra trường hợp dữ liệu không được thu thập trực tiếp bởi con người màđược thực hiện qua máy móc và thiết bị Vì vậy có thể dẫn đến việc dữ liệu bị thiếu do lỗi từ máymóc hoặc thậm chí không tồn tại vào một khoảnh khắc cụ thể trong quá trình thu thập Để giảiquyết vấn đề này, chúng ta cần loại bỏ những giá trị bị thiếu (Missing value hay còn được gọi là

Trang 6

giá trị không tồn tại hoặc chưa được cập nhật) dựa trên tần suất xuất hiện của chúng Giúp choviệc phân tích dữ liệu và nhận xét chính xác hơn.

- Các bước thực hiện như sau:

Bước 1: Dọn dẹp dữ liệu bằng cách điều chỉnh Role của các thuộc tính không liên quan, đặt các

dữ liệu không phù hợp vào vai trò "skip", nhằm lọc ra những dữ liệu thích hợp cho phân tích vàgiảm thiểu rủi ro lỗi trong quá trình phân cụm và phân lớp

Bước 2: Chọn Random 5800 dữ liệu trong tổng số dữ liệu thông qua Widget Data Sampler.Chọn Fixed sample size, chỉnh Instances là 5800

Trang 7

Bước 3: Loại bỏ các giá trị bị thiếu bằng Preprocess Chọn mục Impute Missing Values và clickchọn Remove rows with missing values.

Bước 4: Kết quả nhận được sau khi làm sạch dữ liệu

=> Không còn các dữ kiện bị thiếu

III Phương pháp nghiên cứu phân cụm.

1 Phương pháp phân cụm dữ liệu.

- Định nghĩa: “Là quá trình gom cụm/nhóm các dữ liệu hoặc đối tượng có đặc điểm tương đồngvào các cụm/nhóm tương ứng Các đối tượng trong cùng một cụm sẽ có những đặc điểm tương

tự nhau và ngược lại, các đối tượng thuộc cụm/nhóm khác nhau sẽ có các đặc điểm khác nhau”

- Nhiệm vụ chính của phân cụm là tìm và đo đạc sự khác biệt giữa các đối tượng, dữ liệu Vìkhông biết trước được số nhóm nên phân cụm thuộc nhóm phương pháp học không giám sát(Unsupervised learning), khác với bài toán phân lớp

- Một phương pháp phân cụm được đánh giá tốt khi tạo ra các cụm có chất lượng cao, bao gồm:

Độ khác biệt giữa các cụm cao (độ tương tự thấp)

Độ tương đồng bên trong cụm cao

Trang 8

- Phân cụm dữ liệu thường được xem là giai đoạn tiền xử lý cho các thuật toán khác hoặc là công

cụ phân cụm dữ liệu độc lập

- Trong bài toán, ta sử dụng hai phương pháp chính phân cụm dữ liệu là Hierarchical Clustering

và thuật toán K-Means

2 Phân cụm phân cấp (Hierarchical Clustering).

- Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:

Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)

Độ đo khoảng cách giữa các cụm (single link, complete link…)

- Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng

- Silhouette Plot (Biểu đồ hình bóng) là một biểu đồ họa sử dụng để đánh giá chất lượng của cáccụm Ở biểu đồ này, nhóm quyết định thiết lập phương pháp đo lường Euclidean; Grouping theobiến y; độ rộng các biến là 1 để biểu diễn các giá trị và cụm một cách tốt nhất

- Giá trị Silhouette nằm ở trong khoảng từ -1 đến 1, nếu giá trị này dương và càng gần 1 thì kếtquả phân cụm này càng đáng tin cậy

- Ta đưa dữ liệu đã làm sạch qua Distance Ở mục Compare ta chọn Row, ở mục Distance Metric

ta chọn Manhattan (normalized)

Trang 9

- Kết quả từ phương pháp Hierarchical Clustering:

+ Khi sử dụng Phương pháp Hierarchical Clustering với Distance Manhattan, chúng ta đạtđược kết quả cao nhất cho Cụm thứ nhất, với giá trị trung bình Silhouette của các mẫu là0.915 gần với 1 nhất, các dữ liệu gần với 1 nhất sẽ cho kết quả dự báo đạt chính xác caonhất

Trang 10

+ Khi áp dụng Distance Euclidean, ta thu được kết quả cao nhất cho cụm thứ nhất với giátrị trung bình của Silhouette cho các mẫu là 0.914 Đây cũng là một phương pháp cho kếtquả gần với 1 nhất.

Trang 11

+ Khi chọn Distance Cosine, kết quả cho cụm thứ hai đạt giá trị Silhouette trung bình là giátrị âm là - 0.418 Loại phương pháp này vì tồn tại giá trị âm.

Trang 12

=> Qua 3 Distance khác nhau thì kết quả của phương pháp Hierarchical CLustering khi lựa chọnDistance Manhattan đạt kết quả gần với 1 nhất Và dữ liệu từ phương pháp HierarchicalClustering khi chọn Distance Manhattan cho ra bộ dữ liệu tổng quan đồng đều hơn so vớiDistance Euclidean Từ đó, ta có thể đưa ra những phân tích và đánh giá trực quan hơn.

3 Phân cụm phân hoạch (Partitioning Clustering): dựa vào K-mean

- Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một

cụm

- Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho:Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau.Mỗi cụm có ít nhất 1 phần tử

- Trong bài này, thuật toán được sử dụng để phân cụm phân hoạch là k-Means

Hình ảnh dưới đây là kết quả của việc sử dụng thuật toán k-Means để phân cụm dữ liệukhi chọn Distance Euclidean, ta nhận được giá trị Silhouette trung bình cụm thứ nhất(C1) là -0.087 Mang giá trị âm nên không thể dùng để dự báo

Trang 13

Ta áp dụng Distance Cosine,kết quả giá trị Silhouette trung bình nhận được là quá thấp(dưới 0.5) để thực hiện dự báo

Áp dụng Distance Manhattan, chúng ta thu được giá trị Silhouette trung bình dưới 0.4(Quá thấp để thực hiện dự báo)

Trang 14

=> Qua quan sát trên, ta thấy được phương pháp k-Means cho kết quả giá trị Silhouette trungbình thấp hơn 0.5 nên không lựa chọn phương pháp để phân cụm dữ liệu.

- Thông qua 2 phương pháp Hierarchical Clustering và k-Means, Hierarchical ClusteringDistance Manhattan cho kết quả giá trị Silhouette trung bình gần bằng 1 nhất và sát với thực tế

Do đó, ta lựa chọn phương pháp Hierarchical Clustering Distance Manhattan để phân tích và đưa

ra dự báo

IV.Tiến hành phân lớp dữ liệu

1 Các phương pháp phân lớp dữ liệu

- Vận dụng 3 phương pháp sau bao gồm: SVM (Support Vector Machine), Logistic Regression

và Tree để thực hiện phân lớp dữ liệu

- Sau đây là các bước thực hiện:

● Bước 1: Truy cập và sử dụng dữ liệu Train từ trang web Kaggle

● Bước 2: Tiến hành chèn dữ liệu vào file, sau đó điều chỉnh Role như đã áp dụng trongquá trình tiền xử lý dữ liệu, đồng thời chọn Target là Credit Score* bao gồm các giá trịsau: Good, Poor, Standard

(*): là chỉ số đánh giá độ uy tín của khách hàng trong lịch sử vay vốn ở các ngân hàng hay tổchức tài chính Điểm tín dụng càng cao đồng nghĩa với uy tín cao, khả năng được chấp nhậnkhoản vay cao hơn, ưu đãi lãi suất tốt hơn, và ngược lại điểm tín dụng thấp thì khách hàng bịđánh giá nguy cơ cao, khó có thể tiếp cận được khoản vay

Trang 15

● Bước 3: Sử dụng 3 Widget Tree, Logistic Regression và SVM cùng với file dữ liệu vàoTest and Score.

● Bước 4: Thực hiện thao tác đánh giá các phương pháp đã chọn bằng 2 công cụ:Confusion Matrix và ROC Analysis

-Dựa vào các bước thực hiện trên, ta sẽ xuất ra được những bảng kết quả như sau:

Bảng 1: Kết quả ma trận nhầm lẫn của phương pháp Tree.

Bảng 2: Kết quả ma trận nhầm lẫn của phương pháp SVM.

Bảng 3: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression.

Trang 16

-Tỷ lệ dự đoán (%) Good chính xác của 3 phương pháp lần lượt là: 44.9; 40.5; 49.7 (LogisticRegression lớn nhất)

-Tỷ lệ dự đoán (%) Poor sai của 3 phương pháp lần lượt là: 7.4; 3.4; 4.0 (SVM thấp nhất) -Tỷ lệ dự đoán (%) Standard sai của 3 phương pháp lần lượt là: 12,3; 13.7; 11.8 (LogisticRegression thấp nhất)

-Tỷ lệ dự đoán (%) Good sai của 3 phương pháp lần lượt là: 12.3; 15.9; 10.3 (LogisticRegression thấp nhất)

-Tỷ lệ dự đoán (%) Poor chính xác của 3 phương pháp lần lượt là: 54.9; 56.4; 61.9 (LogisticRegression lớn nhất)

-Tỷ lệ dự đoán (%) Standard sai của 3 phương pháp lần lượt là: 19.9; 22.6; 23.8 (Tree thấp nhất).-Tỷ lệ dự đoán (%) Good sai của 3 phương pháp lần lượt là: 42.8; 43.6; 40.0 (LogisticRegression thấp nhất)

-Tỷ lệ dự đoán (%) Poor sai của 3 phương pháp lần lượt là: 37.7; 40.2; 34.1 (Logistic Regressionthấp nhất)

-Tỷ lệ dự đoán (%) Standard chính xác của 3 phương pháp lần lượt là: 67.8; 63.7; 64.4 (Tree lớnnhất)

Biểu đồ ROC:

Trang 17

- Tiến hành quan sát dựa trên biểu đồ ROC, dễ dàng nhận thấy đường cong ROC của phươngpháp Logistic Regression chính là đường tiệm cận với điểm (0;1) nhất => Mô hình sẽ đạt đượchiệu quả và có tính chính xác cao nhất.

=> Do đó quyết định chọn phương pháp Logistic Regression để thực hiện dự báo giá trị lớp

2 Các chuỗi thao tác thực hiện

● Bước 1: Thực hiện chèn dữ liệu Train từ Data table vào Widget Logistic Regression, sau

đó đưa vào mục Widget Predictions

● Bước 2: Đưa dữ liệu Test vào file Widget, sau đó tiến hành đưa vào mục Preprocess đểthực hiện thao tác remove missing value => Prediction widget

● Bước 3: Trích xuất dữ liệu ra bảng bằng Data Table

● Bước 4: Lưu kết quả dự báo thành file Excel bằng Save Data

-Hoàn tất các thao tác trên, ta có được bảng sau:

Trang 18

3.Chuỗi thao tác thực hiện trên Orange

V Kết quả và bàn luận.

Về thuộc tính occupation, nhìn chung phân loại điểm tín dụng giữa các nghề nghiệp ít sự có sựkhác nhau Do đó biến occupation ít có ảnh hưởng đến xếp hạng điểm tín dụng của khách hàng

Trang 19

giá điểm tín dụng loại Poor thường có mức lương thấp, những khách hàng được đánh giá loạiGood thì ngược lại.

Về yếu tố Delay from due date Yếu tố này có sự phân biệt rõ ràng giữa các nhóm khách hàng,

có thể quan sát thấy rằng số ngày chậm thanh toán càng thấp thì điểm tín dụng của những kháchhàng này được đánh giá là Good (từ 0 đến 15 ngày) Trong khoản từ 15 đến 35 ngày thì đượcđánh giá Standard và các khoản > 30 được đánh giá Poor Kết luận rằng, số ngày thanh toánchậm càng thấp thì điểm tín dụng của khách hàng càng cao và ngược lại

Về yếu tố Credit mix – Điểm tín dụng hỗn hợp Tổng quan dữ liệu cho thấy điểm tín dụng hỗnhợp có ảnh hưởng đến điểm xếp hạng tín dụng của khách hàng Cụ thể, khi điểm tín dụng hỗnhợp là Good thì phần lớn khách hàng đó sẽ có điểm xếp hạng tín dụng là Good Trong trườnghợp điểm tín dụng hỗn hợp là Bad thì phần lớn khách hàng có điểm xếp hạng tín dụng là Poor.Tương tự cho trường hợp Standard

Trang 20

Về yếu tố total EMI per month Những khách hàng được đánh giá điểm tín dụng good có giá trịtotal EMI per month thấp vì họ là những người có khả năng về tài chính, họ ít đi vay mượn hơn

so với những nhóm khách hàng khác nên khoản trả này thường thấp Những khách hàng đượcđánh giá điểm tín dụng Poor được hiểu là họ ít vay vì do không có khả năng trả nợ cao nên giá trịtotal EMI cũng thấp Ngược lại, những khách hàng được đánh giá điểm tín dụng là Standard thì

họ là khách hàng cần vay nhất và khả năng trả nợ của họ là ổn định nên giá trị total EMI củanhóm khách hàng này là cao nhất

Trang 21

VI Kết luận và khuyến nghị.

Credit score đóng vai trò như một công cụ, thước đo đánh giá mức độ uy tín của khách hàngtrong lĩnh vực tài chính Điểm tín dụng sẽ quyết định xem liệu khách hàng có được duyệt vayhay không, được vay hạn mức bao nhiêu, áp dụng mức lãi suất nào

Những khách hàng có khung điểm tín dụng là Good thường đi kèm với những yếu tố: tiền lươnghàng tháng cao, số ngày chậm thanh toán thấp, điểm tín dụng hỗn hợp được đánh giá là Good,giá trị EMI mỗi tháng thấp

Ngược lại, những khách hàng có khung điểm tín dụng là Poor thường đi kèm với những yếu tố:tiền lương thấp, số ngày chậm thanh toán cao, điểm tín dụng hỗn hợp được đánh giá là Bad, giátrị EMI mỗi tháng thấp

Từ những kết quả trên, nhóm khuyến nghị ngân hàng nên cho vay và có nhiều ưu đãi về lãi suất,thời hạn, hạn mức vay,… với các trường hợp khách hàng thuộc nhóm điểm tín dụng Good Tráilại, ngân hàng nên hạn chế cho vay đối với các trường hợp khách hàng thuộc nhóm điểm tíndụng là Poor

Tiêu đề	Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu để phân loại điểm tín dụng của khách hàng
Tác giả	Lê Huy Long, Võ Minh Trí, Trần Đình Tuyển, Văn Công Thắng, Đỗ Hữu Phong
Người hướng dẫn	PTS. Hồ Văn Phúng
Trường học	Đại Học Kinh Tế TP.HCM
Chuyên ngành	Khoa học dữ liệu
Thể loại	Dự án
Năm xuất bản	2023
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	21
Dung lượng	2,61 MB