báo cáo đồ án học phần khoa học dữ liệu đề tài phân loại nhóm khách hàng tín dụng tại các ngân hàng tại đức

HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU Đề tài: PHÂN LOẠI NHÓM KHÁCH HÀNG TÍN DỤNG

GIỚ I THI Ệ U V Ề KHOA H Ọ C D Ữ LI Ệ U VÀ GI Ớ I THI ỆU ĐỀ TÀI10 1 Lý do chọn đề tài

Mục tiêu nghiên cứu

Mục đích tổng quát: Đánh giá và đưa ra biện pháp hạn chế việc trả nợ không đúng hạn trong rủi ro tín dụng trên thực tế.

• Phân tích đặc điểm của đối tượng khách hàng để xác định nhóm khách hàng có khả năng cao hoặc thấp trong việc trả nợ

• Phân tích về thời hạn tín dụng, các yếu tố khách quan và chủ quan của mục đích vay vốn cũng như hoạt động của người vay vốn

• Đánh giá, đo lường mức độ hài lòng, sự trung thành và khả năng trả nợ của khách hàng

• Đánh giá và đưa ra biện pháp hạn chế rủi ro tín dụng

Đối tượng nghiên cứu;

• Đối tượng nghiên cứu: Chọn bộ dữ liệu “Home Credit Default Risk Dataset” - bộ dữ liệu liên quan đến vấn đề dự đoán rủi ro vỡ nợ tín dụng Bộ dữ liệu này chứa thông tin giao dịch và viễn thông, được sử dụng rộng rãi trong nghiên cứu để xét xem khách hàng có gặp khó khăn trong việc thanh toán hay không.

• Xác định mô hình mang lại đánh giá có độ chính xác cao nhất trong việc nghiên cứu nguy cơ khách hàng trở nợ vay vốn không đúng hạn

• Dựa trên mô hình đã xác định trên từ đó kết luận được những đặc điểm để dự đoán được hiệu quả về rủi ro tín dụng

TỔ NG QUAN V Ề CHƯƠNG TRÌNH SỬ D ỤNG VÀ CÁC PHƯƠNG PHÁP S Ử D Ụ NG

Giới thiệu về Excel

Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office Phần mềm này giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn

Các phương pháp EXCEL dùng để khai thác dữ liệu

Phương pháp thống kê mô tả

Thống kê bằng công cụ Descripitive Statistics

− Bước 1: Chuẩn bị bảng số liệu cần thống kê

− Bước 2: Chọn lệnh Data — Data Analysis Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics

− Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options tùy chỉnh

Ví dụ về việc lập tín dụng tại 1 ngân hàng ở Đức như sau:

Hình 1 Hộp thoại thống kê mô tả

Trong hộp thoại Descriptive Statistics, nhập vào Input Range là cột chứa dữ liệu về độ tuổi, Output Range là ô xuất dữ liệu Confidence Level for Mean là 95% Sau đó ta sẽ nhận được bảng kết quả sau đây:

Mean: Giá trị trung bình

• Standard Error: Sai số chuẩn

• Standard Deviation: Độ lệch chuẩn

• Sample Variance: Phương sai mẫu

• Skewness: Độ bất đối xứng (Độ nghiêng)

• Range: Khoảng biển thiên (Max – Min)

• Count: Số lượng phần tử

• Confidence Level: Độ tin cậy

Hình 2 Bảng ví dụ thống kê mô tả

14 Báo cáo tổng hợp nhóm với Subtotal

• Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu sốtrong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,

• Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm

Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm

Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu

Bước 3: Chọn Data Outline Subtotal, xuất hiện hộp thoại Subtotal

Số liệu về khách hàng cho vay

Bảng 2 Số liệu cho vay

• At each change in: chọn cột gồm nhóm

• Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu (Sum)

• Add subtotal to: chọn cột thống kê giá trị

• Replace current subtotals: chọn để thay thế kết quả thống kê trước đó

• Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì mỗi nhóm một trag giấy

• Summary below data: chọn để kết quả tổng hợp ở dưới mỗi nhóm

• Remove All: để xóa bỏ các kết quả tổng hợp

Tổng hợp đa chiều với Pivot table

Cách thực hiện trên Excel:

Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu

Bước 2: Chọn lệnh Insert + PivotTable

Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nút OK

Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS, COLUMNS và VALUES

Bảng 3 Tạo bảng với Excel

Table/Range: Là các dữ liệu muốn thống kê

• New Worksheet: Pivot Table sẽ xuất hiện ở trang tính mới

• Existing Worksheet: Sẽ xuất dữ liệu ở 1 trang tính mới

• Location: Chọn vị trí muốn tạo bảng Privot Table

Phương pháp về phân tích dự báo

Phương pháp trung bình trượt (Moving Average)

Chức năng của đường trung bình động là giúp làm giảm độ nhiễu của dữ liệu bằng cách loại bỏ những giá trị nhiễu tạm thời và tạo ra một giá trị trung bình có ý nghĩa hơn Đường trung bình động cũng hữu ích trong việc xác định xu hướng và mức độ biến động của dữ liệu, từ đó hỗ trợ dự đoán và quản lý rủi ro hiệu quả hơn.

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Hình 4 Hình ảnh hộp thoại tạo Pivot Table

17 Bước 2: Chọn lệnh Data — Data Analysis -> • Moving Average, xuất hiện hộp thoại

Bước 3: Khai báo các thông số Input và Output Options

• Input Range: tham chiếu đến vùng dữ liệu thực tế

• Labels in First Row: Khai báo hàng đầu tiên của Input range có chứa tiêu

• Interval (w): Số lượng các kỳ trước đó muốn tỉnh

• Output Range: tham chiếu đến vùng xuất ra kết quả Những ô không đủ số lượng các giá trị các kỷ trước đó để tính toán thì sẽ xuất ra giá trị #N/A

• Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng

• Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn

Dự báo về tỉ lệ nợ:

Hình 5 Hộp thoại Moving Average

Sau khi chọn vùng dữ liệu cần khai báo vào Input Range, chọn các kỳ trước đó muốn ước tính trong Interval, từ đó dự báo được tỉ lệ vỡ nợ Sau đó, chọn vùng muốn hiển thị kết quả ở ô Output Range

Phương pháp san bằng mũ

Chức năng: Dự báo giá trị tương lai của một chuỗi dữ liệu dựa trên xu hướng và mức độ biển động của dữ liệu trong quá khứ Nó cũng giúp loại bỏ các giá trị nhiều, dự báo kết quả kinh doanh và quản lý rủi ro, cải thiện độ chính xác của dự báo và đưa ra quyết định dựa trên dữ liệu chính xác hơn

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chọn lệnh Data — Data Analysis— Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

Bước 3: Khai báo các thông số Input và Output Options

• Input Range: tham chiếu đến vùng dữ liệu thực tế

• Damping factor: giá trị dùng làm hệ số san bằng Đó là ổn của dữ liệu, giá trị mặc định là Damping factor giá trị điều chỉnh sự bất

• Labels: tùy chọn cho biết hàng/cột đầu tiên của Input Range có chứa tiêu đề hay không

Ví dụ: Dự báo về thu nhập hàng tháng của khách hàng

Hình 6 Hộp thoại phương pháp san bằng mũ

Input Range là cột dữ liệu cần được dự báo Hệ số san bằng Damping Factor là 0.7

Ta được hệ số điều chỉnh là 0.3

Chức năng: Ước tính mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập, từ đó có thể dự đoán giá trị của biến phụ thuộc dựa trên các giá trị có sẵn của biển độc lập

* Cách thực hiện bằng đồ thị:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc lập X

Bước 3: Vẽđồ thị dạng Scatter

Bước 4: Click chuột phải vào data series, chọn Add Trendline

Bước 5: Tuỷ chọn hiển thị trong Trendline Options

• Display R-squared value on chart

Ví dụ: Tác động của tổng chi phí lên doanh thu

Hình 7 Vẽ biểu đồ trong Excel

Cách thực hiện công cụ Regeression:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lệnh Duta– Data Analysis – Regression, xuất hiện hộp thoại Regression Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Tác động của chi phi lên doanh thu

Hình 8 Hộp thoại hồi quy o Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y

20 o Input X Range: Vùng địa chỉ chứa các biển độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biến) o Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy o Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0 o Confidentce Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-a, với a là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ HỌ trong khi Họ đúng o Output Range: Vùng hoặc ở phía trên bên trái của vùng chưa kết quả loại một biến o New Worksheet Ply In kết quả ra một sheet khác

• New Workbook In kết quả ra một file Excel mới Residuals Sai số do ngẫu nhiên oStandardardlized Residuals: Chuán hóa sai só o Residuals Plots Đô thị sai số o Line Fit Plots Đồ thị hàm hồi quy tuyến tỉnh o Normal Probability Plot: Đồ thị xác xuất phân phối chuẩn

Input Y Range là cột doanh thu, Input X Range là cột tổng chi phí Độ tin cậy hồi quy Confidence Level là 95%

Hình 9 Kết quả ví dụ hồi quy

Phần mềm Orange

Orange là giải pháp phần mềm Self-Service Business Intelligence Software với chức năng và chi phí phù hợp cho các doanh nghiệp từ nhỏ và vừa (SMEs) tới các doanh nghiệp lớn Phần mềm Orangeđược đánh giá cao bởi cả người dùng lẫn chuyên gia trong lĩnh vực Business Intelligence Software

Các thao tác được thực hiện trên orange

• Làm sạch dữ liệu nghiên cứu

• Dự đoán kết quả nghiên cứu

2.1 Làm sạch dữ liệu nghiên cứu

Các bước làm sạch dữ liệu nghiên cứu bao gồm:

• Xử lí các dữ liệu bị trống

Nguyên nhân: Dữ liệu thu thập bị thiếu do các yếu tố như những người sử dụng dữ liệu không muón tiết lộ dữ liệu về yếu tố đó, các yếu tố khi thu thập chưa được chuẩn hóa khi thay đổi phần mềm do đó có các missing value

Trong quá trình xử lý dữ liệu, phương pháp xóa các dòng dữ liệu bị thiếu đã được áp dụng để loại bỏ những dòng không đầy đủ Đối với dữ liệu còn thiếu, nhóm nghiên cứu đã lựa chọn sử dụng giá trị trung bình trong cột tương ứng để điền vào thay thế, đảm bảo tính toàn vẹn của dữ liệu.

• Xử lí dữ liệu bị nhiễu

Nguyên nhân: Dữ liệu thu thập quá nhỏ chưa có độ phủ nhất định dẫn đến nhiều dữ liệu nghiên cứu chưa được phân bổ đồng đều, làm mô hình đánh gía thiếu các biến quan sát thực tế dẫn đến các dữ liệu nhiễu trong nghiên cứu

Cách xử lí: đối với những dữ liệu nhiễu nhóm quyết định loại các dữ liệu nhiễu ra khỏi mô hình nghiên cứu bằng chức năng Binning của Orange (màn hình thực hiện)

• Xử lí dữ liệu không nhất quán

Nguyên nhân: dữ liệu nghiên cứu được ghi nhận khác nhau của cùng một đối trượng dữ liệu bị lẫn lộn giữa các dòng các cột với nhau dẫn đến biến quyết định có thêm các kết

22 quả của biến khác điều đó làm cho dữ liệu không đáng tin cậy và mất đi tính khách quan của nghiên cứu.

Cách xử lí: xử lí thủ công, tập hợp dữ liêu(metadata) Ở bài nghiên cứu của nhóm, có sự xuất hiện của missing-value đối với các biến nghiên cứu về số lần vay và trả nợ ở các tổ chức tín dụng khác (20%/150000 mẫu thu thập)

Quá trình xử lý dữ liệu của nhóm được thực hiện trên bộ dữ liệu lớn thu thập từ cuộc thi Machine Learning Tuy nhiên, do hạn chế về chức năng của phần mềm nghiên cứu, nhóm tác giả quyết định lấy mẫu nghiên cứu để giảm bớt khối lượng dữ liệu cần xử lý.

1014 dữ liệu được làm sạch từ nguồn dữ liệu gốc Sau khi chọn ngẫu nhiên dữ liệu nghiên cứu, nhóm tiến hành xử lí lại dữ liệu nhằm đảm bảo các dữ liệu lấy ra phù hợp với nghiên cứu của nhóm

Phân tích mối liên hệ giữa các feature và target: qua phân tích ở

2.2 Phân cụm dữ liệu Định nghĩa

Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong đó:

•Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau

•Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau

Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Đây là dữ liệu tự nhiên thường thấy trong thực tế

Hình 10 Mô hình phân cụm dữ liệu Đặc điểm:

Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu

- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được số nhóm (khác với bài toán phân lớp)

- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

•Độ tương đồng bên trong cụm cao

•Độ tương tự giữa các cụm thấp (khác biệt cao)

- Các ứng dụng điển hình:

•Công cụ phân cụm dữ liệu độc lập

•Là giai đoạn tiền xử lý cho các thuật toán

- Một số cách phân cụm dữ liệu

• Phân cụm phân cấp (Hierarchical clustering)

Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:

Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) Độ đo khoảng cách giữa các cụm (single link, complete link…)

Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng

Các phương pháp điển hình: Diana, Agnes…

Phân tập dữ liệu có n phần tử cho trước thành k tập con (k=0.5 thì mô hình phân cụm sát với thực tế, 0.25-0.5: cần phải đánh giá lại mô hình phân cụm, 0.5 và 80% bộ dữ liệu phân cụm ở cụm 1 có chỉ số Sil>0.3 , ở cụm 2 chỉ số Silhouette đạt -0.490 chỉ số Silhoutte tính toán theo phương pháp Cosine luôn có hai giá trị âm dương giữa các cụm do đó mô hình phân cụm có chỉ số Silhouette của cụm 2 đạt -0.49 nằm trong khoảng [0.25;0.5] do đó mô hình vẫn chấp nhận được với kết quả trên

Màn hình kết quả phân cụm theo phương pháp Hierarchical tính theo khoảng cách Cosine

Hình 36 Kết quả phân thành 2 cụm Hierchical Clustering

Bảng 6 Bảng Pivot kết quả phân cụm Hierarchical Clustering 2 cụm

Mô hình phân cụm cho thấy Cụm 1 (không vỡ nợ) và Cụm 2 (có khả năng vỡ nợ) phân biệt tốt ở nhóm không vỡ nợ, với số lỗi chỉ chiếm 5/3463 người Tuy nhiên, mô hình lại có tỷ lệ lỗi cao ở nhóm vỡ nợ, với 667/689 khách hàng được đánh giá nhầm vào nhóm không vỡ nợ Điều này dẫn đến nguy cơ cho vay rủi ro cao, mặc dù mô hình phân cụm hoạt động tốt ở nhóm không vỡ nợ nhưng không đáp ứng được mục đích của mô hình là lọc ra khách hàng vỡ nợ để đánh giá và tạo nguồn tín dụng sạch.

Tỉ lệ sai sót của mô hình 6724152% chỉ số đánh giá sai sót cao nhưng chưa đảm bảo yêu cầu đề ra nên loại mô hình phân cụm 2 cụm của phương pháp tính cosine 2 cụm

− Mô hình phân thành 3 cụm

Hình 37 Phân thành 3 cụm theo Hierarchical Clustering

Nhận xét: Mô hình phân cụm thành 3 cụm không khả quan do mô hình phân cụm chỉ có 3 phần tử thuộc cụm 2, 22 phần tử thuộc cụm 3 Do đó nhóm tác giả loại mô hình phân cụm 3 cụm ra khỏi mô hình nghiên cứu Làm giảm sự mất cân đối giữa các cụm Do đã có sự xử lí dữ liệu về mức 1:5 do đó bộ dữ liệu phải đạt được giá trị cân đối gần 1:5 hoặc 1:3 giữa các cụm để đảm bảo mô hình phân cụm đạt giá trị tốt nhất.

4.2 Phương pháp phân cụm theo trực quan hóa dữ liệu nhiều chiều về 2 chiều: (Phương pháp đánh giá cho những bộ dữ liệu phức tạp, khó đánh giá)

Hình 38 Trực quan hóa dữ liệu trên không gian 2 chiều

54 Qua trực quan hóa về dữ liệu nhóm tác giả nhận thấy mô hình phân cụm thích hợp gồm

5 cụm đánh giá qua các cụm dữ liệu được gom thành từng cụm(mật độ phần tử) qua đó nhóm quyết đinh trích từng cụm ra bảng sau đó gom tất cả các bảng để tiến hành phân cụm, đánh giá phân cụm bằng trực quan hóa

Hình 39 Hình ảnh cụm 1 theo t-SNE

Hình ảnh trực quan về cụm 2

55 Hình ảnh trực quan về cụm 3

Hình ảnh trực quan về cụm 4

56 Hình ảnh trực quan về cụm 5

Qua đó ta thấy số cụm được phân chia thành 5 cụm với:

• Cụm 1: gồm 2824 dữ liệu quan sát

• Cụm 2 gồm 224 dữ liệu quan sát

• Cụm 3: gồm 400 dữ liệu quan sát

• Cụm 4 gồm: 344 dữ liệu quan sát

• Cụm 5 gồm: 363 dữ liệu quan sát

Bảng 7 Đánh giá kết quả phân cụm t-SNE bằng Pivot Table

Kết quả cho thấy việc phân cụm có kết quả khá tốt Dựa vào bộ mẫu gồm 0,1 thì nhóm quyết định mô hình phân cụm gồm:

Phân cụm như trên là do nhóm 0 chiếm tỉ trong khá cao trong mẫu dữ liệu nên nhóm G1 được phân vào cụm 1 là hoàn toàn hợp lí, nhóm G2 do tỉ lệ giữa 0 và 1 là khá chênh lệch do đó chọn G2 vào nhóm có tỉ lệ cao hơn là cụm 1 Về cụm 2, phân theo tỉ trọng của cụm 1, do cụm 1 chỉ có số lượng mẫu là 689 do đó chọn cụm có tỉ lệ cụm 1 cao để tránh các rủi ro từ việc vay vốn ngân hàng, tỉ trọng của G3, G4, G5 ở 1 là khá cao nhưng ở cụm

0 lại khá thấp nên chọn sự sai lệch ít nhất do đó chọn G3, G4, G5 vào cụm 2 là hợp lí nhất. Nhận xét mô hình phân cụm:

• Mô hình phân cụm dựa trên trực quan cũng như cảm tính của người làm dữ liệu nên có nhiều điểm chưa thực sự tốt

Giải quyết được vấn đề đánh giá tín dụng của ngân hàng, chỉ 18% những người không có nguy cơ vỡ nợ được đánh giá là vỡ nợ Việc vay vốn cũng thận trọng hơn, chỉ 30% những người vỡ nợ được đánh giá tín dụng tốt, nên chỉ số tín dụng trễ hạn của ngân hàng sẽ giảm thiểu được rủi ro.

• Tỉ lệ sai lệch tổng thể mô hình: chỉ 20% khách hàng bị đánh giá sai tín dụng do đó mô hình giải quyết được các vấn đề của ngân hàng về tín dụng Song các đánh giá sai lệch những người bị vỡ nợ khá thấp do chiếm tỉ trọng nhỏ do đó việc hoạt động vay

ĐÁNH GIÁ KẾ T QU Ả C Ủ A MÔ HÌNH

Các kết quả đạt được

Bằng cách triển khai mô hình và phân tích, đánh giá dữ liệu, chúng ta có thể thấy được tính hiệu quả của mô hình trong việc dự đoán khả năng thanh toán tín dụng của người đi vay, hỗ trợ dự đoán khả năng thu hồi vốn và lãi suất trong kinh doanh của ngân hàng Từ đó, chúng ta có thể nghiên cứu sâu hơn về việc tiếp cận vốn của cá nhân, đưa ra các chính sách cải thiện mức chi tiêu để thúc đẩy tăng trưởng kinh tế quốc gia Nhờ đặc tính dự đoán, mô hình này có thể được sử dụng để khái quát hóa khả năng tiếp cận vốn của người dân hoặc các thuộc tính khác khi cần thiết trước khi có sẵn dữ liệu khảo sát mức sống cụ thể.

Ngoài ra, mô hình có thể có thể được phát triển để ứng dụng trong việc đánh giá khả năng thanh toán tính dụng của doanh nghiệp ở từng nghành nghề cụ thể khác nhau trong nền kinh tế thị trường phát triển hiện nay

Mặc dù độ chính xác ở mức khá cao nhưng mô hình vẫn còn một số hạn chế nhất định như yêu cầu một lượng lớn dữ liệu với các thuộc tính khác nhau để dự đoán chính xác, hay độ chính xác rất cao nhưng so với thực tế thì thực tế bóp méo và trở thành “dữ liệu ảo” không sử dụng được… Vì vậy, chúng ta cần phát triển và cải tiến nhiều mặt về dữ liệu thu thập được cũng như tính hữu ích thực tế của mô hình.

Nhược điểm về bộ dữ liệu nghiên cứu: bộ dữ liệu được lấy từ cuộc thi học máy lớn của đức về phân lớp dữ liệu do đó các mô hình phân cụm chưa đảm bảo được tính khách quan của việc học máy, cũng như việc bổ sung thêm mô hình về Neural Networking do sự tất yếu của mô hình nghiên cứu cũng như đánh giá sự khác nhau giữa mô hình học máy của cuộc thi lớn so với kết quả phân tích bằng Orange

Công cụ sử dụng cho đề tài còn nhiều yếu tố chưa thực hiện tốt: số lượng mẫu tối ưu chỉ dươi 5000 với phân cụm, không giải quyết được linh hoạt các loại phân cụm, phân lớp.

Kết quả mô hình

2.1 Ưu điểm từng mô hình

Mô hình phân lớp phản ánh đúng các biến đã đề cập, sự nhầm lẫn giữa các lớp là không đáng kể đạt 13,6% Đánh giá mức độ chính xác của mô hình các chỉ số về F1, AUC, ROC, recall đều đáp ứng đủ các tiêu chí đánh giá (các chỉ số đều lớn hơn 0.8)

Hiệu suất đánh giá mô hình đạt giá trị tối ưu nhất cho mô hình phân lớp, đảm bảo các dữ liệu tập huấn có ích cho mô hình nghiên cứu

Mô hình phân cụm t-SNE lựa chọn giải quyết các vấn đề cốt lõi của việc phân cụm dữ liệu trong đánh giá vỡ nợ hay không vỡ nợ của ngân hàng, cụ thể là:

+ Đánh giá chính xác hơn 70% các khách hàng bị vỡ nợ, và hơn 80% các khách hàng không bị vỡ nợ

+ Phân biệt tốt giữa khách hàng vỡ nợ và không vỡ nợ

+ Phân cụm dữ liệu đảm bảo các yếu tố về nhãn của dữ liệu đã có do đó có thể đánh giá tốt các nhãn cũng như yếu tố để phân cụm dữ liệu gần như đầy đủ

Mô hình phân cụm giảm thiểu được rủi ro vay vốn bị vỡ nợ của ngân hàng, đánh giá tín dụng chính xác không làm mất đi nguồn khách hàng tín dụng của ngân hàng.

Mô hình phân cụm t-SNE đánh giá ở mức độ trung bình đạt 59,94% dữ liệu nghiên cứu (F1-Score)

2.2 Nhược điểm của từng mô hình

Mô hình phân lớp được hình thành từ bộ dữ liệu phức tạp có sự liên kết giữa những dòng những phần tử khác nhau do đó để có đượcđộ chính xác nhất định cần bộ dữ liệu lớn để đánh giá

Bộ dữ liệu được tách ngẫu nhiên từ bộ dữ liệu hơn 150000 dữ liệu của cuộc thi về học máy nên chưa có tính thực tế, khách quan cho việc nghiên cứu trong thực tiễn.

Mô hình phân lớp không phổ biến giữa các mô hình phân lớp khác nhau: SVM và mô hình Logistics, Neuraul Networking và cây quyết định nên khó cho việc tạo lập chính xác về mô hình

Mô hình phân cụm được sử dụng là tSNE dựa trên tính chủ quan của người dùng: dựa trên trực quan hóa dữ liệu để phân cụm dữ liệu mà không tự đánh giá qua mô hình, học máy

Khó áp dụng thực tế vì độ sai lệch còn cao ảnh hưởng đến tín dụng ngân hàng

Dữ liệu học máy phức tạp yêu cầu đánh giá thủ công để đảm bảo độ chính xác, vì các phần mềm chỉ có thể đánh giá một phần cấu trúc dữ liệu Do đó, kỹ năng lập trình trở nên tối quan trọng để hỗ trợ các chuyên gia dữ liệu trong việc linh hoạt đánh giá dữ liệu học máy hiệu quả.

Sử dụng mô hình phân cụm theo t-SNE nên không đánh giá được kết quả phân cụm theo Silhouette mà đánh giá bằng kết quả thực tế làm giảm đi sự tin cậy của mô hình nghiên cứu

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Nội dung chương này, nhóm sẽ trình bày một cái nhìn tổng quan nhất Chương này sẽ cung cấp một bản tóm tắt về đồ án bao gồm quy trình nghiên cứu và kết quả mô hình, cùng với đó là hướng phát triển của đồ án và khuyến nghị để có thể hoàn thiện hơn

Trong xu hướng phát triến kinh tế hiện nay, doanh nghiệp sẽ không ít lần gặp những rủi ro, khó khăn trong quá trình kình doanh, thậm chí có thể phá Bởi vì lí do đó, ngân hàng phải có những chiến lược riêng cho từng rủi ro nhất định để đảm bảo khách hàng của họ có khả năng thanh toán tín dụng cao hoặc giảm rủi ro không thể thanh toán thấp xuống có thể Để có thể giảm rủi ro trong việc thanh toán của khách hàng, ngân hàng cần có những biện pháp như sau:

+ Tránh cho vay nhiều đối với khách hàng có tỉ lệ nợ cao, thu nhập hàng tháng thấp và khả năng xảy ra thanh toán quá hạn trong quá khứ nhiều lần

Bảo hiểm tín dụng đóng vai trò thiết yếu trong việc phân chia rủi ro trong hoạt động tín dụng của các ngân hàng Các hình thức bảo hiểm tín dụng bao gồm: bảo hiểm cho hoạt động cho vay, bảo hiểm tài sản, bảo hiểm tiền vay.

Tiêu đề	Phân loại nhóm khách hàng tín dụng tại các ngân hàng tại Đức
Tác giả	Nguyễn Ngô Anh Phương, Nguyễn Minh Sướng, Phạm Nguyễn Quỳnh Như, Nguyễn Thị Thúy An
Người hướng dẫn	Trương Việt Phương
Trường học	ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Báo cáo Đồ án học phần
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	74
Dung lượng	3,65 MB