Ngoài ra, để đánh giá khả năng thu hồi các khoản vay từkhách hàng có thể dự báo bằng cách sử dụng dữ liệu về các khoản vay đã đượcphê duyệt tại Công ty tài chính Dream Housing.Chúng tôi
Mục tiêu nghiên cứu
Bài nghiên cứu này giới thiệu hai phương pháp phân cụm phân cấpHierarchical và k-Means để phân loại khách hàng theo các điều kiện xét duyệt khoản vay Bên cạnh đó, ba phương pháp phân lớp khác nhau: Logistic Regression,
Tree, Neural Network để xem xét khả năng thu hồi nợ cao hay thấp – nhằm dự đoán xem khách hàng có đủ điều kiện để vay hay không; sau đó lựa chọn phương pháp phân lớp thích hợp nhất để xây dựng mô hình dự đoán sao cho sai số là nhỏ nhất đó là phương pháp Tree Xác định mô hình chẩn đoán chính xác nhất về danh sách khách hàng đủ điều kiện vay vốn trong tập dữ liệu này để đưa ra dự báo(Prediction) có độ chính xác cao để xem xét việc thu hồi vốn của Công ty tài chínhDream Housing Cuối cùng là so sánh các điều kiện nhằm xác định được khả năng thu hồi khoản vay từ khách hàng.
Phân lớp dữ liệu (Classification)
Phân lớp dữ liệu là quá trình phân loại tập dữ liệu thành một hay nhiều lớp có sẵn nhờ một mô hình phân lớp Mô hình phân lớp được xây dựng dựa trên một tập dữ liệu huấn luyện trước đó Từ đó, mô hình sẽ áp dụng cho tập dữ liệu kiểm thử và cho ra kết quả được gán nhãn theo lớp.
B.Quá trình phân lớp dữ liệu
Hình 1: Mô hình phân lớp dữ liệu
Bước 1: Xây dựng mô hình (giai đoạn “học”)
- Đầu vào là các dữ liệu đã hoàn tất tiền xử lý và được gán nhãn.
- Sử dụng một số thuật toán phân lớp phổ biến: Decision Tree, SVM, Logistic Regression,…
- Kết quả sẽ cho ra phương án phân lớp của từng phương pháp, tùy vào đặc điểm của tập dữ liệu mà lựa chọn phương pháp phân lớp phù hợp.
Bước 2: Đánh giá mô hình phân lớp (kiểm tra và đo lường độ chính xác)
- Đầu vào là tập dữ liệu mới đã hoàn tất tiền xử lý và gán nhãn.
- So sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả của mô hình phân lớp để kiểm tra tính đúng đắn của mô hình.
C.Các phương pháp phân lớp được áp dụng
Dữ liệu kiểm tra Thuật toán phân lớp
- Hồi quy logistic (Logistic Regression): Là một kĩ thuật phân tích dữ liệu bằng mô hình xác suất nhằm dự đoán giá trị đầu ra rời rạc từ một tập giá trị đầu vào (biểu thị dưới dạng vector).
Hình 2: Ví dụ minh họa Logistic Regression
- Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là một đồ thị các quyết định kèm theo các kết quả/hậu quả có thể xảy ra nhằm hỗ trợ quá trình đưa ra quyết định Ngoài ra, cây quyết định được dùng để mô tả, phân loại và tổng quát hóa tập dữ liệu.
Hình 3: Ví dụ minh họa Decision Tree
- Mạng nơ-ron nhân tạo (Neural Network): Là phương pháp sử dụng các thuật toán phức tạp để xử lý thông tin bằng cách học theo mô hình hoạt động của các tế bào thần kinh trong não người Mạng nơ-ron nhân tạo tìm kiếm các mối quan hệ cơ bản trong tập dữ liệu, kết nối chúng tạo thành một mạng lưới.
Hình 4: Ví dụ minh họa Neural Network
Phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm (nhóm) các đối tượng dữ liệu có đặc điểm tương đồng vào các cụm tương ứng Các đối tượng được gom chung một nhóm sẽ có những đặc điểm, tính chất tương tự nhau và ngược lại Dữ liệu sử dụng trong bài toán phân cụm là dữ liệu chưa được gán nhãn và cũng là loại dữ liệu tự nhiên, phổ biến trong thực tế.
B.Quá trình phân cụm dữ liệu
Hình 5: Mô hình phân cụm dữ liệu
C.Các phương pháp phân cụm được sử dụng
- Phân cụm phân cấp (Hierarchical clustering)
Hierarchical Clustering sẽ xây dựng một cây phân cấp dựa trên:
Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
Độ đo khoảng cách giữa các cụm (single link, complete link…)
Phương pháp này không cần xác định trước số cụm nhưng cần thiết lập điều kiện dừng.
Hình 6: Ví dụ minh họa Hierarchical Clustering
- Thuật toán k-means: là thuật toán thuộc nhóm phân cụm dựa trên sự phân hoạch k-Means xác định mỗi đối tượng trong tập dữ liệu là mỗi điểm trong không gian d chiều (với d là số lượng các thuộc tính của đối tượng)
Bước 1: Chọn k điểm bất kỳ trong không gian làm các điểm trung tâm ban đầu của mỗi cụm.
Bước 2: Nối mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất k-Means sẽ chạy cho đến khi các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước.
Bước 3: Đặt lại điểm trung tâm của từng cụm bằng cách lấy trung bình cộng của tất cả các điểm dữ liệu đã được nhóm vào cụm đó ở bước 2.
Hình 7: Ví dụ minh họa k-Means
Mô tả dữ liệu
Mô tả bộ dữ liệu khai thác:
Bộ dữ liệu được sử dụng là tổng hợp các điều kiện kiểm duyệt khoản vay của các khách hàng được lập ra bởi Công ty tài chính Dream Housing
Thông tin của các thuộc tính được liệt kê sau đây:
Thuộc tính Ý nghĩa Mô tả
Loan_ID Mã định danh của khoản vay 1 chuỗi ký tự số
Gender Giới tính Male/Female
Married Tình trạng hôn nhân Yes/No
Dependents Số người phụ thuộc 0/1/2/3+
Education Trình độ học vấn Graduate/Under
Self_Employed Tự kinh doanh Yes/No
ApplicantIncome Thu nhập người đi vay Số tiền (USD)
CoapplicantIncome Thu nhập phụ của người đi vay
LoanAmount Số tiền vay Số tiền (nghìn USD)
Loan_Amount_Term Thời hạn cho vay Số tự nhiên (tháng) Credit_History Lịch sử tín dụng tốt 1/0 (Tốt/Xấu)
Property_Area Khu vực bất động sản Urban/Semi-Urban/Rural Loan_Status Tình trạng khoản vay 1/0 (Duyệt/Không duyệt)
Nhờ tự động hóa quy trình nhận biết những khách hàng đủ điều kiện cho vay mà Công ty có thể xác định phân khúc khách hàng, chọn lọc những đối tượng mục tiêu để cho vay và dự đoán khả năng những khoản vay đó trong tương lai có tỉ lệ thu hồi cao hay thấp.
QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
Các kiến thức chuyên ngành có liên quan đến bài toán
Kế toán là theo dõi quá trình hình thành, biến động vốn của doanh nghiệp cần phản ánh và được thể hiện dưới hai dạng: tài sản và nguồn vốn trong quá trình hoạt động kinh doanh Kế toán ngân hàng là công việc thu thập, kiểm tra, xử lý các số liệu nhằm cung cấp thông tin về kinh tế, tài chính cho các ngân hàng nhằm quản lý hoạt động tiền
Trong ngành này, việc đảm nhận vai trò như thế nào sẽ phụ thuộc vào cấp bậc, địa điểm khác nhau Nhưng nhìn chung, công việc của một kế toán viên sẽ bao gồm những hoạt động sau:
- Tiếp nhận và xử lý các sự kiện kinh tế của doanh nghiệp.
- Ghi chép, phân loại và tổng hợp các giao dịch.
- Lập báo cáo về tình hình hoạt động tài chính của doanh nghiệp đưa lên cho ban lãnh đạo.
- Phân tích các báo cáo tài chính của doanh nghiệp cho người sử dụng, bên cạnh đó là tham mưu cho ban lãnh đạo. Ở dự án lần này, chúng tôi đã áp dụng các kiến thức chuyên ngành để nghiên cứu và xác định mô hình chẩn đoán chính xác nhất về danh sách khách hàng đủ điều kiện vay vốn của Công ty tài chính Dream Housing, mục đích là để cho các nhà cho vay có thể chú ý vào những khách hàng tiềm năng và tránh những rủi ro khi thu hồi nợ.
Nội dung cần xử lý
- Sử dụng công cụ Preprocess trong phần mềm Orange để thêm các giá trị còn thiếu ở trong bảng dữ liệu bằng cách lấy giá trị trung bình của các thuộc tính Ta có được bảng dữ liệu “LOAN” để phục vụ cho việc phân tích các bài toán.
- Từ bảng dữ liệu “LOAN” ta phân chia dữ liệu làm hai phần gồm “Loan-data” (chiếm 70%) và “Loan-forecast” (chiếm 30%) từ bộ dữ liệu “loan-train”.
- Lưu hai phần dữ liệu đã chia để sử dụng cho bài toán phân lớp.
Mô hình xử lý
Hình 8: Mô hình tiền xử lý dữ liệu
Mô tả bài toán
Dựa vào đặc điểm của dữ liệu tập huấn (dữ liệu đầu vào) tiến hành thiết lập mô hình phân lớp các khách hàng vay vốn bằng các phương pháp phân lớp như: Tree, Neural Network, Logistic Regression,
Thông qua kết quả từ Ma trận nhầm lẫn và Test and Score để đánh giá phương pháp dự đoán có tỷ lệ chính xác nhất đồng thời giảm thiểu tối đa sai lầm loại II.
Dùng phương pháp phân lớp được chọn để dự đoán được loại khách hàng vay vốn từ dữ liệu kiểm thử để đưa ra phương án kịp thời nhằm đảm bảo các khoản nợ cho vay thành công sẽ được thu hồi đúng hạn.
Bài toán phân loại khách hàng được sử dụng cho hai mục đích, đối với bộ phận kinh doanh giúp dự đoán được khả năng khoản vay được duyệt, đồng thời cung cấp cho nhà quản lý một cái nhìn khách quan về khách hàng, và những thông tin giúp cho bộ phận kế toán có thể theo dõi các khoản nợ về sau này Do đó, bài toán 1 này có liên quan gần với chuyên ngành Kế toán.
Chạy mô hình và kết quả
Hình 9: Mô hình bài toán 1
- Bước 1: Chọn dữ liệu từ File “Loan-data” đã lưu ở phần trước và chọn cột
- Bước 2: Dùng ba phương pháp là: Tree, Neural Network và Logistic Regression để tiến hành phân loại các khách hàng và đánh giá hiệu quả của từng phương pháp nhằm tìm ra phương pháp tối ưu.
- Bước 3: Dùng phương pháp tối ưu và hiệu quả nhất để dự đoán cho File dữ liệu
C.Nhận xét Ma trận nhầm lẫn
- Sai lầm loại 2: Dự đoán khách hàng đủ điều kiện vay vốn (1), nhưng thực tế khách hàng không đủ điều kiện để vay vốn (0) Việc đánh giá sai về điều kiện của khách hàng ảnh hưởng đến hoạt động kinh doanh bởi vì nếu cho những khách hàng không đủ điều kiện vay vốn vay thì ta sẽ khó có thể thu hồi lại được khoản vay đã cho vay.
- So sánh sai lầm loại 2 của các phương pháp:
Tree = 54 < Neural Network = 73 < Logistic Regression = 125.
Bảng 2: Kết quả Ma trận nhầm lẫn của phương pháp Cây quyết định (Tree)
Bảng 3: Kết quả Ma trận nhầm lẫn của phương pháp Neural Network
Bảng 4: Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression
D.Nhận xét Test and Score
Bảng 5: Kết quả Test and Score AUC: Tree = 0.701 > NN = 0.692 > LR 0.586.
E.Kết luận phương pháp dự đoán
- Dựa vào kết quả của ma trận nhầm lẫn thì phương pháp Tree có sai lầm loại 2 nhỏ nhất trong 3 phương pháp.
- Dựa vào kết quả của Test and Score thì phương pháp Tree có AUC lớn nhất trong cả 3 phương pháp.
Sử dụng Tree làm phương pháp dự đoán.
Hình 10: Kết quả dự báo của bài toán phân lớp khách hàng
Bài toán số 2: Bài toán phân cụm (Liên quan gần)
1) Mô tả bài toán (Phân cụm khách hàng vay vốn)
Sử dụng tính năng Hierarchical Clustering và k-Means trong Orange để phân cụm các đặc điểm của khách hàng vay vốn Kết hợp với kiến thức chuyên ngành của Kế toán, ta có thể phân tích thông tin của khách hàng trong việc xét duyệt khoản vay Đồng thời sau khi khoản vay được duyệt, chúng ta có thể dự đoán khả năng thu hồi khoản vay trong tương lai Do đó, bài toán 2 này có liên quan gần với chuyên ngành Kế toán.
Phương pháp Hierarchical Clustering
- Bước 1: Chọn dữ liệu File “LOAN.xlsx”, không chọn Target.
- Bước 2: Chuẩn hóa dữ liệu với Distances.
- Bước 3: Chọn phương pháp Hierarchical Clustering để phân cụm dữ liệu, chọn Linkage: Ward.
- Bước 4: Minh họa kết quả với Silhouette Plot, chọn Cluster Label: Cluster.
Hình 11: Mô hình bài toán 2: Hierarchical Clustering
B.Chạy mô hình và đánh giá kết quả
Theo kết quả Hierarchical Clustering và Silhouette Plot:
- Khi thực hiện phân lớp:
Khi phân làm 2 nhóm: điểm số = 0.8, có sự phân cách trong nhóm 1.
Khi phân làm 3 nhóm: điểm số = 0.38, có phân cách trong nhóm 1, 2.
Nên chia làm 2 nhóm vì: điểm số tối đa và khi chia 3 nhóm thì điểm số sẽ giảm.
Phương pháp k-Means
- Bước 1: Chọn dữ liệu File ‘LOAN.xlxs’.xlxs, không chọn Target, chọn Skip CoapplicantIncome, Loan_ID, Dependents.
- Bước 2: Chọn phương pháp k-Means để phân cụm dữ liệu, chọn phân cụm từ 2 đến 10 nhóm.
- Bước 3: Minh họa kết quả với Silhouette Plot, Chọn Cluster Label: Cluster.
Hình 12: Mô hình bài toán 2: k-Means
B.Chạy mô hình và đánh giá kết quả
Theo kết quả k-Means và Silhouette Plot:
- Khi thực hiện phân lớp:
Khi phân làm 2 nhóm: điểm số = 0.534, có sự phân cách trong nhóm 1, 2.
Khi phân làm 3 nhóm: điểm số = 0.410, có phân cách trong nhóm 1, 2, 3.
Nên chia làm 2 nhóm vì: điểm số tối đa và khi chia 3 nhóm thì điểm số sẽ giảm.
Minh hoạ kết quả phân cụm
Biểu đồ 1: Kết quả Hierarchical
Biểu đồ 2: Kết quả k-Means
Đánh giá
Qua hai phương pháp phân cụm của Orange, ta kết luận rằng dữ liệu nên được phân thành hai nhóm là tối ưu nhất.
Bài toán số 3: Bài toán so sánh (Không liên quan)
Dùng các lược đồ để phát hiện các điểm đặc thù của từng điều kiện cho vay qua đó xác định được khả năng thu hồi khoản vay từ khách hàng.
2) Chạy mô hình và kết quả
Hình 13: Mô hình bài toán 3
- Bước 1: Chọn dữ liệu file “LOAN.xlsx” và chọn skip vài điều kiện ít liên quan đến khả năng thu hồi khoản từ khách hàng như Gender, CoapplicantIncome, LoanAmount, và chỉ giữ lại Loan_Status, Married, Credit_History và Education.
- Bước 2: Dùng “Select rows” để phân loại dữ liệu “Khoản vay được phê duyệt” và “Khoản vay không được phê duyệt”.
- Bước 3: Dùng Distributions để vẽ biểu đồ, qua đó có thể xác định được khách hàng có đặc điểm nào thì có khả năng thu hồi khoản vay cao.
Biểu đồ 3: Tỷ lệ tình trạng khoản vay
Ta quy ước 0.0 là khoản vay không được phê duyệt, 1.0 là khoản vay được phê duyệt.
Biểu đồ 4: Tỷ lệ tình trạng hôn nhân của khách hàng
Dựa vào biểu đồ ta có thể thấy được tình trạng hôn nhân của đối tượng trong khoản vay được phê duyệt, tỷ lệ đã kết hôn chiếm 68.25%, chưa kết hôn chiếm 31.75% Còn tỉ lệ đã kết hôn của đối tượng trong khoản vay không được phê duyệt là 58.85%, chưa kết hôn là 41.15%
Có sự chênh lệch số liệu đó một phần là do sự liên kết trong hôn nhân Khi đã kết hôn, khả năng thu hồi nợ của hai người sẽ cao hơn so với những người độc thân do đã có sự liên kết giữa hai người về mặt pháp luật.
Biểu đồ 5: Tỷ lệ trình độ học vấn của khách hàng Ở biểu đồ Education, ta thấy được tỷ trọng đã tốt nghiệp của các đối tượng trong khoản vay được phê duyệt chiếm tới 80.57%, còn trong khoản vay không được phê duyệt thì chỉ chiếm 72.92%
Sở dĩ trong khoản vay được phê duyệt, tỷ trọng đã tốt nghiệp chiếm phần lớn là do học thức cá nhân bên vay khiến cho khả năng thu hồi khoản vay được đảm bảo.
Biểu đồ 6: Tỷ lệ lịch sử tín dụng của khách hàng Đối tượng có lịch sử tín dụng tốt (1) là những người đã hoàn tất các khoản vay theo đúng quy tắc trước đó, nâng cao đáng kể khả năng các khoản vay được phê duyệt ở hiện tại Đối tượng còn lại là những người chưa từng vay vốn hoặc có lịch sử tín dụng không tốt (0) Đối tượng có lịch sử tín dụng tốt trong nhóm đối tượng có khoản vay chưa được duyệt chỉ chiếm 57.29% trong khi trong khoản vay được duyệt chiếm đến98.34% Như vậy ta có thể thấy khoản vay được duyệt các đối tượng có lịch sử tín dụng tốt chiếm hầu hết Ta có thể kết luận rằng đây là một điều kiện quan trọng để quyết định đến khả năng các khoản vay được duyệt cũng như khả năng thu hồi khoản vay cao hay thấp.
Thông qua bài toán 3 ở trên và những số liệu được lược đồ thể hiện, nhóm chúng tôi nhận thấy được rõ hơn đặc thù của từng điều kiện cho vay Người đã kết hôn, đã tốt nghiệp và có lịch sử tín dụng tốt thì khả năng khoản vay được duyệt sẽ cao do khả năng thu hồi khoản vay cao, còn những người chưa kết hôn, chưa tốt nghiệp và có lịch sử tín dụng không tốt thì khả năng khoản vay được duyệt sẽ thấp hơn do khả năng thu hồi khoản vay thấp.