Kết quả phân loại của phương pháp rừng ngẫu nhiên- 123docz.net

Với phương pháp phân loại này, tác giả tiến hành phân tích dựa trên 2560 quan sát. Ket quả

phương pháp rừng ngẫu nhiên thu được cho thấy, mức độ quan trọng của từng biến lên khả năng dự báo vỡ nợ của khách hàng cá nhân. Kết quả mô tả mức độ quan trọng chỉ ra: Giới tính nữ và số tiền vay đóng vai trò quan trọng liên quan tới khả năng dự báo vỡ nợ của khách hàng; tiếp theo là nguồn thu, tổng giá trị tài sản tích luỹ và thu nhập; yếu tố ít quan trọng nhất là tình trạng hôn nhân.

Từ kết quả dự báo trên bộ dữ liệu 2560 quan sát, tác giả tiến hành kiểm tra dự báo của phương pháp rừng ngẫu nhiên thu được kết quả dự báo như sau:

Thực tế Có vỡ nợ Không có vỡ nợ Dự báo Có vỡ nợ 95 68 Không có vỡ nợ 145 486 Accurac y 72.30% 95% CI 69.00%, 75.40%

Estimate Std. Error z value Pr(>∣z∣)

(Intercept) 0.80200 0.35000 2.29 0.02205 * X1 0.01360 0.00729 1.87 0.06191 . X2 nữ -1.97000 0.16700 -11.80 < 2e-16 * ** X3 đã kết hôn 0.74100 0.19600 3.78 0.00016 * **

(Nguồn: Trích từ số liệu phân tích)

Kết quả dự báo cho 2560 quan sát được thu thập cho ra accuracy là 76.60%. Trong đó, số lượng dự báo khách hàng có vỡ nợ đúng là 95 khách hàng và dự báo sai 119 khách hàng, dự báo khách hàng không có vỡ nợ đúng là 493 khách hàng và dự báo sai 61 khách hàng. Với khả năng dự báo cho mẫu là 76.60% cho thấy mô hình dự báo của tác giả có khả năng ứng dụng khá tốt trong việc đánh giá rủi ro vay vốn của khách hàng cá nhân tại VIB Văn Thánh.

4.2.2. Ket quả phân loại của phương pháp cây quyết định Bảng 4.3 Mức độ dự báo của phương pháp cây quyết định

(Nguồn: Trích từ số liệu phân tích)

Kết quả cho thấy accuracy của phương pháp cây quyết định là 72.30%. Trong đó, số lượng dự báo khách hàng có vỡ nợ đúng là 95 khách hàng và dự báo sai 145 khách hàng, dự báo khách

hàng không có vỡ nợ đúng là 486 khách hàng và dự báo sai 68 khách hàng.

4.2.3. Ket quả phân loại của phương pháp hồi quy logistic

Với dữ liệu thu thập được của các khách hàng cá nhân vay vốn tại VIB Văn Thánh. Tác giả

tiến hành phân tích hồi quy logistic với biến được dự báo là khả năng vỡ nợ của khách hàng. Trong đó: biến được mã hoá là [0] có vỡ nợ và [1] không có vỡ nợ.

Kết quả chi tiết được tổng hợp trong bảng dưới đây: Bảng 4.4 Kết quả của phương pháp hồi quy logistic

X3 Goá 1.33000 0.72900 1.82 0.06872 . X4 Kinh doanh -0.98700 0.15700 -6.29 3.10E-10 *

** X4 Cho thuê -1.53000 0.19900 -7.70 1.40E-14 *

** X4 Khác -1.56000 0.31400 -4.97 6.80E-07 * ** X5 0.00640 9.81E-04 6.52 6.90E-11 * ** X6 -0.01300 0.00414 -3.14 0.00172 * * X7 Mua BĐS 0.97100 0.15500 6.27 3.60E-10 * ** X7 Xây nhà 0.91600 0.19900 4.61 4.10E-06 * ** X8 -0.00233 0.00026 -8.90 < 2e-16 * ** X9 0.00118 0.00022 5.30 1.20E-07 * ** X11 3.44E-05 1.17E-05 2.93 0.00335 * *

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Nguồn: Trích từ số liệu phân tích)

Khả năng dự báo chính xác (accuracy) của phương pháp hồi quy logistic đạt 77% cho thấy phương pháp hồi quy logistic có khả năng dự báo tốt cho khả năng vỡ nợ của khách hàng cá nhân tại VIB Văn Thánh.

Thực tế Có vỡ nợ Không có vỡ nợ Dự báo Có vỡ nợ 80 43 Không có vỡ nợ 134 511 Accurac y 77.00% 95% CI 73.80%, 79.90% X12 -1.48E-04 5.50E-05 -2.70 0.00697 **

Phương pháp Accuracy Sensitivity Specificity Fl-score

Rừng ngẫu nhiên 76.66% 44.40% 89.00% 51.40%

Cây quyết định 72.30% 32.34% 87.73% 39.32%

Hồi quy logistic 77.00% 37.40% 92.20% 47.50%

(Nguồn: Trích từ số liệu phân tích)

Kết quả cho thấy số lượng dự báo khách hàng có vỡ nợ đúng là 80 khách hàng và dự báo sai 134 khách hàng, dự báo khách hàng không có vỡ nợ đúng là 511 khách hàng và dự báo sai 43 khách hàng.

4.2.4. So sánh các phương pháp phân loại

Bảng 4.6 dưới đây thể hiện mức độ dự báo độ chính xác (Accuracy) với kết quả ước lượng từ ba phương pháp (rừng ngẫu nhiên, cây quyết định, hồi quy logistic). Kết quả chỉ ra, phương pháp cây quyết định có khả năng dự báo thấp nhất trong ba phương pháp ước lượng với khả năng

dự báo chính xác (Accuracy) 72.30%, hai phương pháp rừng ngẫu nhiên và hồi quy logistic có khả năng dự báo tương đương nhau là 76.60% và 77.00%. Có thể thấy cả ba kỹ thuật phân tích dự báo đều mang tính chất phân loại và đều có khả năng dự báo tương đương nhau.

Đối với sensitivity, tác giả nhận thấy phương pháp rừng ngẫu nhiên có kết quả tốt nhất với 44.40%, tiếp đến là phương pháp hồi quy logistic với 37.40% và thấp nhất là phương pháp cây quyết định với 32.34%. Nhìn chung cả ba phương pháp đều không có khả năng dự báo khả quan,

cả ba đều đưa ra kết quả ước lượng khá thấp.

phương pháp cây quyết định có khả năng dự báo thấp nhất với 87.73%. Còn phương pháp rừng ngẫu nhiên là 89.00%. Tóm lại, cả ba kỹ thuật phân tích dự báo đều mang tính chất phân loại.

Ve so sánh điểm Fl-score, tác giả nhận thấy phương pháp rừng ngẫu nhiên có kết quả cao nhất là 51.40%. Phương pháp hồi quy logistic đứng vị trí thứ hai là 47.50% và thấp nhất là phương pháp cây quyết định với 39.32%.

(Nguồn: Trích từ số liệu phân tích)

Trong Hình 4.4 thể hiện mức độ dự báo dưới đường cong (AUC) của ba phương pháp, tác giả thấy rằng phương pháp rừng ngẫu nhiên có mức độ dự báo chính xác cao nhất với 77.51%, tiếp đến là phương pháp hồi quy logistic với 76.90% và thấp nhất là phương pháp cây quyết định

Tóm lại, qua phân tích dữ liệu tuy phương pháp rừng ngẫu nhiên có độ chính xác (Accuracy)

và specificity có độ chính xác thấp hơn một chút so phương pháp hồi quy logistic nhưng bù lại phương pháp rừng ngẫu nhiên lại có kết quả nhỉnh hơn so với phương pháp hồi quy logistic về sensitivity, Fl-score và AUC. Có thể kết luận rằng phương pháp rừng ngẫu nhiên dự báo khả năng vỡ nợ tốt nhất trong ba phương pháp là rừng ngẫu nhiên, cây quyết định và hồi quy logistic.

Ngoài ra, với kết quả nghiên cứu tác giả thu được cho thấy yếu tố giới tính, số tiền vay, nguồn thu, tổng tài sản tích luỹ và thu nhập có ảnh hưởng nhiều nhất đến khả năng vỡ nỡ của khách hàng cá nhân tại Ngân hàng Quốc Tế Việt Nam - Chi nhánh Sài Gòn - phòng giao dịch Văn Thánh.

Ngoài ra, tác giả còn nhận thấy, qua kết quả nghiên cứu thu được tác giả cũng nhận thấy một số điểm tương đồng với những bài nghiên cứu liên quan đã nêu. Với bài nghiên cứu của Akindaini (2017), cũng cho ra được kết quả của phương pháp rừng ngẫu nhiên chính xác nhất tương tự với bài nghiên cứu của tác giả đã thực hiện. Hay với nghiên cứu của Ojiako và Ogbukwa

(2012), cũng có nét tương đồng trong kết quả nghiên cứu. Nghiên cứu của họ cũng đưa ra được biến số tiền vay có ảnh hưởng tới khả năng vỡ nợ của khách hàng.

4.2.6. Giới hạn và định hướng nghiên cứu

Mặc dù bài nghiên cứu đã xây dựng được phương pháp và tìm ra các yếu tố ảnh hưởng tới khả năng vỡ nợ của khách hàng cá nhân tại Ngân hàng TMCP Quốc Tế Việt Nam bằng các phương pháp rừng ngẫu nhiên, cây quyết định và hồi quy logistic. Tuy nhiên, với số lượng mẫu thu thập trong bài nghiên cứu là 2560 quan sát chưa phải là lớn vì thế mà có thể chưa phân tích một cách tổng thể cho Ngân hàng TMCP Quốc Tế Việt Nam.

Tổng số lượng khách hàng thu thập được là 2560 khách hàng giai đoạn 2019-2020. Với số lượng trên chưa thể phân tích được đặc điểm riêng của từng Chi nhánh ngân hàng, đặc điểm từng

vùng miền như tỉnh thành, địa phương, loại hình kinh doanh của khách hàng cá nhân. Vấn đề tiếp cận dữ liệu của khách hàng cá nhân trong từng ngân hàng là rào cản đối với tác giả. Vì thế, bài nghiên cứu chỉ phân tích được trên các dữ liệu lấy được một cách hạn chế. Từ giới hạn của nghiên cứu đã được nêu, tác giả cũng khuyến nghị cho các nghiên cứu sau có thể có những chính

CHƯƠNG 5. KẾT LUẬN

Khả năng vỡ nợ của khách hàng cá nhân sẽ làm giảm đi các hoạt động của ngân hàng vì vậy các ngân hàng luôn cố gắng nỗ lực để giải quyết cũng như có thể giảm bớt thấp nhất rủi ro này. Các chính sách được các ngân hàng đưa ra liên quan tới hoạt động tín dụng nhằm giảm tỷ lệ vỡ nợ khi cho vay. Các chính sách về phương án cho vay, cơ chế sàng lọc hồ sơ, tài sản thế chấp, bảo lãnh tín dụng của bên thứ ba, xếp hạng tín dụng được ngân hàng sử dụng để kiểm soát rủi ro hoạt động cho vay đối với khách hàng cá nhân.

Nhóm khách hàng cá nhân là đối tượng rất khó quản lý do tính bảo mật thông tin về nhóm khách hàng này là tương đối cao, khó có thể đánh giá được mức độ tin cậy của các nguồn thông tin và thông tin thường xuyên thay đổi. Đặc biệt là, trong điều kiện môi trường kinh doanh còn thiếu thông tin minh bạch về kinh tế - tài chính như tại thị trường Việt Nam. Do đó, điều này ảnh

hưởng rất lớn đến rủi ro của các ngân hàng khi thực hiện nghiệp vụ cho vay khách hàng cá nhân.

Vậy, việc sử dụng ứng dụng học máy trong dự báo rủi ro vỡ nợ của khách hàng cũng là một trong

những cách giúp giảm rủi ro ở khách hàng cá nhân của ngân hàng. Quá trình nghiên cứu đề tài “Ứng dụng học máy trong dự báo vỡ nợ tại Ngân hàng Thương mại Cổ phần Quốc Tế Việt Nam”

đã đạt được những kết quả có giá trị khoa học và thực tiễn như sau:

Thứ nhất, hệ thống được cơ sở lý thuyết cơ bản về ngân hàng, tín dụng ngân hàng, khái quát về học máy. Đồng thời, trình bày các yếu tố tác động đến khả năng vỡ nợ khách hàng cá nhân thông qua các nghiên cứu trước đây cũng như các phương pháp, mô hình xếp hạng tín dụng

khách hàng cá nhân được xây dựng dựa trên các yếu tố đó.

Thứ hai, bài nghiên cứu đã xây dựng được mô hình nghiên cứu đánh giá khả năng vỡ nợ của khách hàng cá nhân thông qua 12 biến độc lập, 1 biến phụ thuộc thể hiện đặc tính của khách hàng cũng như liên quan tới các khoản vay vốn.

Thứ ba, dựa trên các bài nghiên cứu trước về các biến ảnh hưởng tới khả năng vỡ nợ của khách hàng cá nhân và phân tích dữ liệu, tác giả cũng tìm ra được các yếu tố ảnh hưởng tới khả năng vỡ nợ của khách hàng (thông qua phương pháp rừng ngẫu nhiên): Tuổi, giới tính, tình trạng

hôn nhân, nguồn thu, thu nhập, chi phí, loại khoản vay, số tiền vay, giá trị tài sản đảm bảo, thời gian vay, tổng giá trị tài sản tích luỹ, dự nợ tại các tổ chức tín dụng khác.

Thứ tư, với việc so sánh 3 phương pháp ước lượng khả năng vỡ nợ của khách hàng cá nhân

tại Ngân hàng TMCP Quốc Te Việt Nam, bài nghiên cứu cũng chỉ ra phương pháp rừng ngẫu nhiên có khả năng dự báo tốt trên 76%. Phương pháp hồi quy logistic và phương pháp cây quyết

TÀI LIỆU THAM KHẢO Tài liệu tiếng việt

Bình, Đ. T. (2019). Xây dựng mô hình chấm điểm tín dụng khách hàng cá nhân vay tiêu dùng tại

Việt Nam. Tham khảo tại https://hotroontap.com/wp-

content/uploads/2019/07/X%C3%82Y-D%E1%BB%B0NG-M%C3%94-H%C3%8CNH- CH%E1%BA%A4M-%C4%90I%E1%BB%82M-T%C3%8DN-D%E1%BB%A4NG- KH%C3%81CH-H%C3%80NG-C%C3%81-NH%C3%82N-VAY-TI%C3%8AU- D%C3%99NG-T%E1%BA%A0I-VI%E1%BB%86T-NAM.pdf.

Lan, N. T., Nhâm, Đ. T., Châu, N. M., & Hỗ, L. V. (2018). Ứng dụng một số phương pháp xây dựng hàm phân loại trong cânh báo sớm nguy cơ vỡ nợ của các ngân hàng thương mại cổ

phần Việt Nam. Tham khảo tại http://tapchi.vnua.edu.vn/wp-

content/uploads/2019/01/T%E1%BA%A1p-ch%C3%AD-s%E1%BB%91-7.74-82.pdf.

Tài liệu tiếng anh

Abid, L., Masmoudi, A., & Zouari-Ghorbel, S. (2018). The consumer loan’s payment default predictive model: an application of the logistic regression and the discriminant analysis in a Tunisian commercial bank. Journal of the Knowledge Economy, 9(3), 948-962. Available

at https://doi.org/10.1007/s13132-016-0382-8.

Akindaini, B. (2017). Machine learning applications in mortgage default prediction (Master's thesis). Available at http://urn.fl/URN:NBN:fL:uta-201712122923.

Altman, E. I., Hotchkiss, E., & Wang, W. (2019). Corporate financial distress, restructuring, and bankruptcy: analyze leveraged finance, distressed debt, and bankruptcy. John Wiley & Sons.

Awad, M., & Khanna, R. (2015). Machine learning in action: examples. In Efficient Learning Machines (pp. 209-240). Apress, Berkeley, CA. Available at https://doi.org/10.1007/978- 1-4302-5990-9_11.

Bacham, D., & Zhao, J. (2017). Machine learning: challenges, lessons, and opportunities in credit

risk modeling. Moody’s Analytics Risk Perspectives, 9, 30-35.

Basel ii USA - Definition of Default. Wholesale Default, Retail default. (2021). Basel-Ii-

Association.com. Available at https://www.basel-ii-

Berger, A. N., & Humphrey, D. B. (1997). Efficiency of financial institutions: International survey and directions for future research. European journal of operational research, 98(2), 175-212. Available at https://doi.org/10.1016/s0377-2217(96)00342-6.

Bloem, A. M., & Gorter, C. N. (2001). The treatment of nonperforming loans in macroeconomic

statistics. IMF Working Papers, 2001(209). Available at

https://doi.org/10.5089/9781451874754.001.

Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32. Available at https://doi.org/10.1023/a:1010933404324.

Carroll, R. J., & Pederson, S. (1993). On robustness in the logistic regression model. Journal of the Royal Statistical Society: Series B (Methodological), 55(3), 693-706. Available at https://doi.org/10.1111/j.2517-6161.1993.tb01934.x.

Carter, J. R. (2007). An empirical note on economic freedom and income inequality. Public Choice, 130(1-2), 163-177. Available at https://doi.org/10.1007/s11127-006-9078-0.

Cooper, G. F., Aliferis, C. F., Ambrosino, R., Aronis, J., Buchanan, B. G., Caruana, R., ... & Spirtes, P. (1997). An evaluation of machine-learning methods for predicting pneumonia mortality. Artificial intelligence in medicine, 9(2), 107-138. Available at https://doi.org/10.1016/s0933-3657(96)00367-3.

Cox, D. R. (1958). Two further applications of a model for binary regression. Biometrika, 45(3/4), 562-565. Available at https://doi.org/10.2307/2333203.

Cutler, A., Cutler, D. R., & Stevens, J. R. (2012). Random forests. In Ensemble machine learning

(pp. 157-175). Springer, Boston, MA. Available at https://doi.org/10.1007/978-1-4419- 9326-7_5.

Dastile, X., Celik, T., & Potsane, M. (2020). Statistical and machine learning models in credit scoring: A systematic literature survey. Applied Soft Computing, 91, 106263. Available at https://doi.org/10.1016/j.asoc.2020.106263.

De Castro Vieira, J. R., Barboza, F., Sobreiro, V. A., & Kimura, H. (2019). Machine learning models for credit analysis improvements: predicting low-income families’ default. Applied Soft Computing, 83, 105640. Available at https://doi.org/10.1016/j.asoc.2019.105640.

DeMaris, A., & Selman, S. H. (2013). Logistic regression. In Converting Data into Evidence (pp.

115-136). Springer, New York, NY. Available at https://doi.org/10.1007/978-1-4614- 7792-1_7.

Donges, N. (2019). A complete guide to the random forest algorithm. Built In, 16.

Edward, A. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. Journal of Finance, 23(4), 589-607. Available at https://doi.org/10.2307/2978933.

Fawcett, T. (2006). An introduction to ROC analysis. Pattern recognition letters, 27(8), 861-874. Available at https://doi.org/10.1016/j.patrec.2005.10.010.

Fofack, H. (2005). Nonperforming loans in Sub-Saharan Africa.

Galindo, J., & Tamayo, P. (2000). Credit risk assessment using statistical and machine learning: basic methodology and risk modeling applications. Computational Economics, 15(1), 107- 143. Available at https://doi.org/10.1023/A:1008699112516.

Grennepois, N., Alvirescu, M. A., & Bombail, M. (2018). Using Random Forest for credit risk models. Deloitte Risk Advisory.

Jacobson, T., & Roszbach, K. (2003). Bank lending policy, credit scoring and value-at-risk. Journal of banking & finance, 27(4), 615-633. Available at https://doi.org/10.1016/S0378- 4266(01)00254-0.

Jaquette, O., & Hillman, N. W. (2015). Paying for default: Change over time in the share of federal financial aid sent to institutions with high student loan default rates. Journal of

Kết quả phân loại của phương pháp rừng ngẫu nhiên

Phương pháp phân tích dữ liệu

Khu vực dưới đường cong (AUC)