TRUONG ĐẠI HỌC KINH TE QUOC DAN KHOA TOAN KINH TE
CHUYEN NGANH: TOAN KINH TE
DE TAI:
THU NGHIEM PHAN LOAI KHACH HANG BANG
PHUONG PHAP HOC MAY
Sinh viên thực hiện : Nguyễn Quang Huy
Mã sinh viên : 11192392
Lớp : Toán Kinh Tế 61
Giảng viên hướng dẫn : Th§ Trần Chung Thủy
HÀ NOI - 2022
Trang 2TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN KHOA TOÁN KINH TE
KHOA LUẬN TOT NGHIỆP
CHUYEN NGÀNH: TOÁN KINH TE
ĐÈ TÀI:
THU NGHIỆM PHAN LOẠI KHÁCH HANG BANG
PHUONG PHAP HOC MAY
Sinh viên thực hiện : Nguyễn Quang Huy
Mã sinh viên : 11192392
Lớp : Toán Kinh Tế 61
Giảng viên hướng dẫn : ThS Trần Chung Thủy
HÀ NOI - 2022
Trang 3Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp LOI CAM ON
Dé hoàn thành khóa luận tốt nghiệp nay, đầu tiên, em xin chân thành cảm on
ThS Trần Chung Thuỷ đã là người định hướng, giúp đỡ em từ việc lựa chọn đề
tài nghiên cứu, đề xuất phương pháp thực hiện và giúp em chỉnh sửa những sai
sót trong quá trình hoàn thiện bài làm.
Em cũng xin gửi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của trường Đại học Kinh tế Quốc dân, đặc biệt là các thầy cô khoa Toán kinh tế đã giúp đỡ
em trong suốt quá trình học tập để em có đầy đủ nền tảng kiến thức hoàn thành bài chuyên đề của mình.
Trong quá trình thực hiện chuyên đề tốt nghiệp, em nhận thấy mình vẫn còn rất nhiều thiếu sót, rất mong nhận được những ý kiến đóng góp từ phía các thày, cô dé em có thêm nhiều kinh nghiệm cho con đường học tập và sự nghiệp mai
Em xin chân thành cảm ơn!
Nguyễn Quang Huy — Khoá 61 i GVHD: ThS Tran Chung Thuy
Trang 4Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp
MỤC LỤC
MUC LUC iiiiiaiắaắăắăaảäảá il
DANH MỤC TU VIET TAT cessesssssssssssecessseecessnsecssnneeessnesessnecessneeesnneesesnness iv
II 9)58Ẻ0098:79160202000055 V
DANH MỤC HINH ẢNH (6 SE ‡EEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrkerkrrrree vi
GIỚI THIỆU CHƯNGG - 2 St E‡EE£EEÊEE£EE+EEEEEEEEEEEEEEEEEEEEEEEESEEEErrkerkerkeree 1 1 _ Lý do chọn đề tài - 2-52 E2 2 XE EEEEEEE21E21121111 11c |
2 _ Mục tiêu nghiÊn CỨU - s1 E0 E191 ng rưy 2
3 Đối tượng và phương pháp nghiên cứu - 2 s s+s£+xezzzzezced 2 4 Tổng quan về bộ dit liệu - - ¿2 2+ £+EE+EE+EE£EE£EEEEEE2EE2EEEEEEEEerkerkerree 2 CHƯƠNG I: CƠ SỞ LÝ THUYÊT - -:-©252:2225+tt22EEvtttExtertrrrrersrrrerree 3
1.1 RU1 10 tin MUNG “43 5 3
1.1.2 Rủi ro tin Ụng - - - - -c- s 1v ng ng rưy 3
1.1.3 Nguyên nhân dẫn đến rủi ro tin dụng - 2-2 2 s+cs+rxersezez 4
1.1.4 Hậu quả của rủi ro tin Ụng - - - + s+++ xxx +Eekseeeseeserskese 6
1.2 Giảm thiêu rủi ro tín dụng bằng phương pháp phân loại khách hàng 7
1.3 Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient Boosting)
¬ 81.3.1 Mô hình dạng cây (Tree Based ModeÏ) - -««+s«+++++sex++ 9
1.3.2 Thuật toán Gradient Boosting - ¿+ +sss‡+sssevxeeerseessesss 11
1.4 Đánh gia độ chính xác của sự phan loại «++-««++s++sex+ss++ 14
1.4.1 Độ chính xác (ACCUTACY) Ác kg n riệt 141.4.2 Đường cong Receiver Operating Characteristic (R@C) 15
CHUONG II: PHUONG PHAP PHAN LOAI KHACH HANG PHO BIEN TAI
0.\00)9160))00/969))89)0)) 6101 17
2.1 Các phương pháp phân loại khách hàng thường được sử dụng từ trước đến
¡0 Ô 17
2.2 Xây dựng mô hình phân loại khách hàng theo phương pháp thống ké 18 2.3 Mô hình hồi quy Logistic ứng dụng trong phân loại khách hàng 19 CHƯƠNG III: UNG DUNG MÔ HÌNH GRADIENT BOOSTING TRONG
PHAN LOẠI KHACH HÀNG Ác SH nHh HH HH Hư 20
Nguyễn Quang Huy — Khoá 61 ii GVHD: ThS Tran Chung Thuy
Trang 5Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp
3.1 Tổng quan về bộ dit liệu - 2 2 £+EE+EE+EE+EEtEEEEEEEEEEEEEEerkrrkerkee 20 3.1.1 Các biến đầu vào là biến định tính - -c:¿©cc+++ccxvssrxvesre 22
3.1.2 Các biến đầu vào là biến định lượng -2- 2-2 2+secx+zszceez 22
3.2 Trực quan hoá dữ liệu va làm sạch dữ liệu - - «5s «++s«+2 23
3.2.1 Các biến đầu vào là biến định tính - -c:¿+cccc+ccvvssrrvrsre 23
3.2.2 Các biến đầu vào là biến định lượng - 2-2 2+secx+zszceez 27
3.3 Xây dựng mô hình Logistic eee eseeeeseesececeeeeeeseeeeeeeeeeceeeeeeeeeeeeeaes 32
3.3.1 Tính toán Information Value va Weight of Evidence 32
3.3.2 Xây dựng mô hình OBISẨTC - - 5 + +*v+eeeeeerseeeseees 33
3.4 Xây dựng mô hình phân lớp khách hàng bằng Gradient Boosting 35 3.4.1 Xây dựng mô hình phân lớp khách hàng bằng Gradient Boosting 35
3.4.2 Tinh chỉnh mô hình <5 + 2+ 1E E*#EEEeEEseeseerreererereeere 38
3.5 KẾT WAN tt tt 111 1515111115111 11111111 1111111111111 11111111 Al
I.908)20095790.47 0115 44
PHU LUC: CODE R 01117 45
Nguyễn Quang Huy — Khoá 61 iii GVHD: ThS Tran Chung Thuy
Trang 6Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
DANH MỤC TU VIET TAT
KH Khach hang
TCTD Tô chức tín dụng
GBM Gradient Boosting Machine
CBNV Can bộ nhân viên
Nguyễn Quang Huy — Khoá 61 iv GVHD: ThS Tran Chung Thuy
Trang 7Khoa Toỏn Kinh tế - ĐH KTOD Chuyờn đờ tốt nghiệp
DANH MỤC BANG BIEU
Bảng 1: Cỏc biến trong bộ dữ liệu lending_club_ data 22
Bảng 2: Thụng kờ mụ tả cỏc biờn định lượng trong bộ dữ liệuTending club_data 0.0.0.0 aˆoồồễồễđồđờâ"đ^ 23
Bang 3: Bang so sỏnh hiệu qua giữa cỏc mụ hỡnh 42
Nguyễn Quang Huy — Khoỏ 61 M GVHD: ThS Tran Chung Thuy
Trang 8Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp
DANH MỤC HÌNH ANH
Hình 1: Cấu trúc cơ bản của Cây quyết định - 2-2 2+ ecxecxexecxez 9 Hình 2: Đồ thị đường cong Gini và Entropy với bài toán phân lớp nhị phân
¬— 10
Hình 3: Minh hoa các bước tuần tự trong thuật toán Boosting 12 Hình 4: Minh hoạ về Gradient Descent 2 2-©525sccxczxczxeerxee 13
Hình 5: Ví dụ về đường cong ROC -5- 5s tt EEEErkerkerkerkee 15 Hình 6: Biểu đồ kỳ han khoản vay (term) 2 2-52 s+cssrxerscres 24
Hình 7: Biểu đồ cột thống kê kinh nghiệm làm việc (emp_length) 25 Hình 8: Biểu đồ cột thống kê home_ownership - 2-2 2s cxsxcx+z 26
Hình9: Biểu đồ cột thống kê tình trạng khoản vay (loan_ status) 26
Hình10: Biểu đồ nhiệt tương quan giữa CC 27
Hình11: Biểu đồ thống kê biến annual_inc -s- 2 + z+xezxerxerxexee 28
Hình12: Biểu đồ thống kê biến annual_inc sau khi đã loại bỏ outliers 29
Hình13: Biểu đồ cột quan hệ giữa biến loan_status và in(_rate 29
Hình14: Biểu đồ điểm về quan hệ giữa 3 biến loan status và int_rate,
Hình17: Biểu đồ histogram credit_his theo từng trạng thái khoản vay 32
Hình18: Biểu đồ WOE biến tofal_rec_ pFTCD 575 S<c<+<ccesseerees 33
Hình 19: Đường cong ROC của mô hình Logistic - - - - 35
Hình 20: Đường cong ROC của mô hình GBM - 525 <S<<+<++ 38Hình 21: Bang relative influence trong GBM tỉnh chỉnh 39Hình 22: Đường cong ROC của mô hình GBM tỉnh chỉnh 41
Nguyễn Quang Huy — Khoá 61 vi GVHD: ThS Tran Chung Thuy
Trang 9Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp GIỚI THIỆU CHUNG
1 Lý do chọn đề tài
Đi cùng với sự phát triển của nền kinh tế, nhu cầu tin dụng của các cá nhân/
tổ chức quy mô từ nhỏ tới lớn là nhu cầu không thé thiếu Tin dụng giải quyết được một trong những nhu cầu tất yếu của con người hay một hoạt động kinh
doanh hay một dự án, là nhu cầu về vốn Tín dụng là đòn bây thiết yếu cho sự
thành công của một mô hình kinh doanh và cũng là một trong những phương pháp
tốt nhất dé tối ưu hoá lợi ích của tiền Tuy nhiên, việc ra quyết định có nên cho một người vay tiền hay không là một quá trình mang day tính rủi ro mà một người
hay một tô chức tín dụng nói chung phải cân nhắc thực sự kỹ càng trước khi giải
Trong quá trình hoạt động của các tổ chức tín dụng, những rủi ro trong hoạt động cho vay là điều không thé tránh khỏi Việc một khách hàng vay nhưng không trả được nợ
(hoặc trả nợ chậm) sẽ ảnh hưởng rất lớn đến doanh thu và lợi nhuận và uy tín của tô chức tin dụng đó, thậm chí ảnh hưởng tới nền kinh tế của cả một quốc gia Nhưng dé đánh giá được khách hàng có trả được nợ hay không lại phụ thuộc rất nhiều yếu tố Trong quá khứ, cách duy nhất dé tránh rủi ro vỡ nợ bên khách hang là đánh giá chủ quan của chuyên gia về khả năng trả nợ của khách hàng đó Tuy nhiên, với nhu cầu về tín dụng ngày một gia
tăng thì đây không thể là một phương pháp tối ưu cho tất cả các khoản nợ nắm giữ bởi một tổ chức tài chính Cùng với sự phát triển của khoa học dit liệu, các mô hình phân loại khách hàng dựa trên phương pháp định lượng đang dần trở thành những công cụ tối ưu thay thế cho con người trong việc đánh giá không chỉ với từng khách hàng mà là trên một
tập khách hàng rất lớn Các mô hình học máy là một trong các công cụ ấy và đang dần trở thành xu hướng trong tâm, nồi bật, đã và dang được nghiên cứu, ứng dụng rộng rãi
trong ngành tài chính nói chung và lĩnh vực công nghệ tài chính nói riêng, tạo ra những
bứt phá mạnh mẽ về tính hiệu quả, kịp thời, chính xác trong công tác giám sát, dự báo.
Sức mạnh của một mô hình phân loại tín dụng có tác động rất lớn đến kết quả hoạt động kinh doanh của một ngân hàng Một mô hình có mức độ chuẩn xác cao giúp
các tô chức tài chính giảm thiêu tỷ lệ nợ xâu, tránh được các khoản nợ thiêu hiệu
Nguyễn Quang Huy — Khoá 61 1 GVHD: ThS Tran Chung Thuy
Trang 10Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp quả va đưa ra các chính sách sản phẩm tốt hon qua thời gian Một trong những mô hình được sử dụng phổ biến nhất là Gradient Boosting - một ứng dụng của học máy trong phân lớp tín dụng, đang được sử dụng phô biến trên toàn thế giới
với độ chính xác cao và đã giành chiến thắng trong rất nhiều cuộc thi về khoa học
dữ liệu Em đã quyết định lựa chọn đề tài “Thử nghiệm phân loại khách hang
bằng phương pháp học máy” đề nghiên cứu về tính hiệu quả của mô hình này
trong phân loại khách hàng tại các tổ chức tín dụng.
2 Mục tiêu nghiên cứu
- Tìm hiểu về các nhân tô có thé ảnh hưởng đến rủi ro tín dụng của khách hàng
tại các tô chức tín dụng.
- Phương pháp phân lớp khách hàng thực tế dang được sử dụng rộng rãi trên thé
- Tinh ứng dụng của thuật toán Gradient Boosting trong phan lớp khách hang
3 Đối tượng và phương pháp nghiên cứu
- Cac yêu t6 có anh hưởng đến tình trạng thanh toán của khoản nợ.
- _ Các mô hình học máy xếp hang (Classification): Hồi quy Logistic, Gradient
4 Tong quan về bộ dữ liệu
- Bộ dữ liệu khoản vay của trên 50,000 khách hàng tại Lending Club được ghi
nhận trong năm 2018.Trong đó đã bao gồm tình trạng thanh toán chỉ tiết của từng khoản
Nguyễn Quang Huy — Khoá 61 2 GVHD: ThS Tran Chung Thuy
Trang 11Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
CHƯƠNG I: CƠ SỞ LÝ THUYÉT
1.1 Rủi ro tín dụng
1.1.1 Tín dụng
Tin dụng là sự thé hiện cho mối quan hệ vay và cho vay Trong đó, người vay có thé là cá nhân hoặc tô chức, còn người cho vay là ngân hàng hoặc các tô
chức tai chính đủ thâm quyền hoạt động tại một khu vực/ quốc gia Sản phẩm vay có thé là hàng hóa hoặc tiền.
Mỗi khoản vay sẽ có những quy định và ràng buộc cụ thể để tạo sự tín
nhiệm giữa người vay và người cho vay Một khoản vay tín dụng sẽ luôn đi kèm
với lãi suất được quy định trước dé bù đắp thiệt hại cho người cho vay, khi giao
di tài sản cua mình cho người vay trong một khoảng thời gian trong tương lai.
Tín dụng có thể được phân loại theo nhiều cách:
- Theo khoảng thời gian: ngắn hạn, trung hạn, dai han.
- Theo đối tượng tín dụng bao gồm: Đối tượng sử dụng vốn lưu động và đối tượng sử dụng vốn cô định.
- Theo mục đích sử dụng: Tín dụng hàng hóa, tín dụng tiêu dùng, vay
kinh doanh, vay xây dựng cơ sở vật chat, vay đầu tu, - Theo kiểu vay: vay tín chấp, vay thế chấp.
Tín dụng mang lại lợi ích lớn cho cả người vay và người cho vay; giúp thúc
đây đầu tư kinh doanh, sản xuất, Tin dụng góp một phan quan trọng trong
những dự án từ nhỏ đến lớn, từ đó ảnh hưởng và tác động đến nén kinh tế của cả
một quốc gia Với những khoản tín dụng được chấp nhận đã góp phần đáp ứng
nhu cầu về vốn của cá nhân, tô chức từ đó giải quyết khá nhiều khâu quan trọng
như đâu tư, mua sam hoặc phát triên kinh tê từ trong dén ngoai nước.
1.1.2 Rui ro tín dung
Rui ro tín dụng được định nghĩa như sau: “Rui ro tin dung là khoản lỗ tiềm năng khi ngân hàng cấp tín dụng cho một khách hàng (KH), nghĩa là luồng thu nhập dự tính mang lại từ khoản vay của ngân hàng không thể được thực hiện cả về số lượng và thời hạn” (Anthony Sauders, 2007).
Nguyễn Quang Huy — Khoá 61 3 GVHD: ThS Tran Chung Thuy
Trang 12Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Theo khoản 1 điều 3 Thông tư số 02/2013/TT-NHNN: “Rủi ro tín dụng là
ton thất có khả năng xảy ra đối với nợ của tô chức tin dụng, chi nhánh ngân hang nước ngoài do KH không thực hiện hoặc không có khả năng thực hiện một phần hoặc toàn bộ nghĩa vụ của mình theo cam kết.”
Rủi ro tín dụng luôn tiềm tàng trong quá trình cung cấp các sản phẩm tín dụng của ngân hàng cũng như các tổ chức tín dụng (TCTD) nói chung Rủi ro tín
dụng không chỉ sinh ra trong các nghiệp vụ về tín dụng giữa ngân hàng/ TCTD và
KH, mà còn phụ thuộc vào các bên đối tác khác và môi trường hoạt động của các ngành nghề, trách nghiệm và kinh nghiệm của người vay cũng như phương pháp
quản lý của ngân hàng/ TCTD Có thể nói, rủi ro tín dụng là loại rủi ro chiếm tỷ
trọng lớn nhất trong các rủi ro ma TCTD phải đối mặt 1.1.3 Nguyên nhân dẫn đến rủi ro tín dụng
1.1.3.1 Về phía TCTD
Chính sách quản trị chưa chặt chẽ dé khiến cho TCTD gặp phải rủi ro tín dụng, các gói chính sách sản pham tin dụng không được viết day đủ, rõ ràng hoặc không được kiểm thử can thận khiến KH có thé lợi dụng những kẽ hở dé trục lợi bat chính.
Các TCTD vì chạy theo lợi nhuận mà mở rộng tín dụng qua mức có thể dẫn
đến việc sang lọc KH kém kỹ càng, nhất là trong trường hợp thông tin không cân
xứng sẽ dễ dàng tạo ra sự lựa chọn đối nghịch, khả năng giám sát của cán bộ tín
dụng đối với việc sử dụng khoản vay giảm xuống, việc tuân thủ theo quy trình tín dụng bị lơi lỏng, các quy định về an toàn tín dụng sẽ không được thực hiện nghiêm
minh.Cạnh tranh không lành mạnh nhằm thu hút KH giữa các TCTD ngày càng phức tạp khiến cho việc thầm định KH trở nên sơ sài, qua loa hơn hoặc hạ thấp tiêu chuẩn tín dụng, giảm thời gian thâm định những hoạt động này đều có thể
làm tăng thêm rủi ro trong hoạt động tín dụng.
Rui ro có thé xuất hiện do tính toán không chính xác hiệu quả đầu tư dự án,
định giá sai dự án dẫn dé phê duyệt khoản vay quá cao so với chuẩn, hoặc do cán
bộ tín dụng cố ý tài trợ những dự án xin vay không hiệu quả, làm giả hồ sơ, vay
Nguyễn Quang Huy — Khoá 61 4 GVHD: ThS Tran Chung Thuy
Trang 13Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp ké KH sẽ gây ra rủi ro lớn cho TCTD Nhiều TCTD quá chú trọng đến lợi nhuận
bất chấp những khoản vay không lành mạnh, thiếu an toàn hoặc có chất lượng
thông tin, quá trình xử lý thông tin, cơ cau tô chức năng lực công nghệ yếu đều
gia tăng khả năng xảy ra rủ ro tín dụng.
1.1.3.2 Về phía khách hàng
Trình độ yếu kém của người vay trong dự đoán các van đề kinh doanh, yêu
kém trong quan ly, chủ định lừa dao cán bộ của TCTD, là các nguyên nhân
thường gặp nhất gây rủi ro tín dụng.
Khách hàng là khách hàng cá nhân yếu kém trong quản lý tài chính, không
hoặc không có kha năng tính toán kỹ lưỡng, không có khả năng thích ứng và khắc phục khó khăn trong kinh doanh sẽ dẫn tới vốn vay không được sử dụng hiệu quả, hiệu quả kinh doanh từ đó sa sút Khách hàng không có khả năng hoàn trả nợ gốc và lãi đầy đủ, đúng hạn cho TCTD.
Một số ít trường hợp, KH kinh doanh là kẻ xấu muốn lợi dụng khoản vay;
kinh doanh, đầu tư có lãi song vẫn không trả nợ cho TCTD đúng hạn hoặc không
muốn trả nợ TCTD với hy vọng có thê quyt nợ hoặc sử dụng vốn vay càng lâu
càng tốt.
Các nguyên nhân khác: các nguyên nhân khác bao gồm những nguyên nhân khách quan về môi trường có ảnh hưởng lớn tới rủi ro tín dụng như khủng hoảng
kinh tế/ tài chính; thiên tai tự nhiên hay những bất ồn chính trị xã hội trong khu vực sinh sống và làm việc của KH Những tác nhân này có ảnh hưởng tiêu cực tới các khoản tín dụng do làm thay đôi đột ngột các điều kiện tài chính cá nhân của KH, làm mất việc hoặc gây thiệt hại trực tiếp lên cơ sở vật chất, khiến cho KH dễ rơi vào tình trạng quá hạn nợ, nợ xấu do không đủ khả năng chi trả cho các khoản
nợ du đã có kế hoạch rõ ràng nhưng chưa tính toán đến những rủi ro trong vận
Nguyễn Quang Huy — Khoá 61 5 GVHD: ThS Tran Chung Thuy
Trang 14Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
1.1.4 Hậu quả của rủi ro tín dụng
Trong trường hợp rủi ro tín dụng xảy ra, hậu quả của việc rút tiền là rất nghiêm trọng Nó không chỉ ảnh hưởng đến những người đi vay cá nhân mà còn
ảnh hưởng đến các ngân hàng và toàn bộ nền kinh tế.
1.1.4.1 Tác động của rủi ro tín dụng đến hoạt động của Ngân hàng
Nếu ngân hàng gặp rủi ro tín dụng thì sẽ không thé thu được lãi từ khoản
cho vay, điều này có thé làm ngân hang mat đi cân đối thu chi Ngoài ra, còn dẫn
đến lãi ngân hàng và thất thoát vốn Khi mọi thứ trở nên nghiêm trọng, các ngân hàng thất bại và phá sản Ngân hàng vỡ nợ do không có khả năng thu hồi nợ dẫn
đến bị các ngân hàng quốc doanh soi mói, hạ điểm uy tín và ảnh hưởng đến quy
mô hoạt động.
1.1.4.2 Tác động của rủi ro tín dụng doi với nên kinh tế ; ;
Nó cũng được cho là do ty lệ nợ xâu cao của ngân hàng, làm tôn hai đên uy
tín của ngân hàng và làm xói mòn lòng tin của khách hàng Từ đó, khách hàng
đang có tiền gửi tiết kiệm tại ngân hàng đó sẽ rút tiền ra, có thể dẫn đến những
hậu quả nghiêm trọng như sau:
- Các ngân hàng thiếu vốn buộc phải vay ngân hàng khác hoặc ngân hàng quốc
- Mắt cân đối tiền tệ và bất ôn kinh tế.
Ngoài ra, trường hợp ngân hàng phá sản cũng có thể xảy ra Điều này sẽ ảnh hưởng trực tiếp đến các hoạt động kinh doanh của các doanh nghiép, khién cho
đời sống của người lao động Hơn nữa, cuộc khủng hoảng ngân hàng đã tác động
nghiêm trọng đến toàn bộ nền kinh tế Nó gây ra tình trạng suy thoái của nền kinh
tế, làm tăng giá cả, giảm sức mua, tăng tỷ lệ thất nghiệp và gây bat ôn định cho xã hội Hơn nữa, rủi ro tín dụng còn ảnh hưởng đến nên kinh tế toàn cầu vì ngày nay nền kinh tế của mỗi quốc gia phụ thuộc vào nền kinh tế khu vực và toàn cau.
Kinh nghiệm cho thấy cuộc khủng hoảng tài chính châu Á (1997) và cuộc khủng
hoảng tài chính Nam Mỹ (2001-2002) đã làm rung chuyên thế giới Mặt khác, quan hệ ngoại hối và đầu tư giữa các nước phát triên rất nhanh nên rủi ro tín dụng
của một quôc gia ảnh hưởng trực tiêp đên nên kinh tê của họ.
Nguyễn Quang Huy — Khoá 61 6 GVHD: ThS Tran Chung Thuy
Trang 15Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
1.2 Giảm thiểu rủi ro tín dụng bằng phương pháp phân loại khách hàng
Hiện nay, có rất nhiều biện pháp nhăm hạn chế rủi ro tin dụng nói chung vàcác biện pháp hạn chế rủi ro trong cho vay của ngân hang và TCTD nói riêng.
Những van dé cấp thiết nhất trong hạn chế rủi ro tín dụng có thé kẻ tới là:
Hoàn thiện được chính sách quản lý rủi ro tại các ngân hàng/ tô chức tín dụng Chính sách quản lý rủi ro phải bao quát toàn bộ những vấn đề xoay quanh một loại rui ro nhất định:
+ Bước 1: Nhận biết rủi ro: Xác định chính xác loại rủi ro mà ngân
hàng/ TCTD có thê gặp phải hay dang gặp phải.
+ Bước 2: Xác định hạn mức rủi ro: Xác định được rõ hạn mức rủi
ro mà ngân hàng/ TCTD đó có thể chấp nhận Các hạn mức này phải được làm rõ, quản lý và có sự phê duyệt của các cấp lãnh đạo, HĐQT.
Sau đó, hạn mức này phải được thông báo đến toàn thể CBNV các
bộ phận nghiệp vụ.
+ Bước 3: Dinh lượng rủi ro: Là việc dé ra và xem xét lại hạn mức
rủi ro, giúp người điều hành biết được thứ tự ưu tiên theo dõi và kiếm
SOát rui ro.
+ Bước 4: Kiểm soát rủi ro.
Hoàn thiện hệ thông xếp hạng tín dụng nội bộ: là một trong những chính
sách quan trọng bậc nhất của ngân hàng và các TCTD, hệ thong xép
hạng nội bộ phải rõ ràng, phù hop với ngân hang/ TCTD đó va luôn
được kiểm soát, cập nhật liên tục.
Hệ thống xếp hang tín dụng nội bộ tối thiểu phải bao gồm: (i) Cơ sở pháp lý về liên quan đến nghành nghé kinh doanh/ công việc của khách hang; (ii) Các chỉ tiêu tổng hợp tình hình kinh doanh, tài chính, tài sản, khả năng thực hiện nghĩa vụ theo cam kết của khách hang; (iii) Uy tín
với các TCTD khác; (iv) Các tiêu chi đánh giá thông tin cá nhân cua
khách hàng, thường là bộ câu hỏi không mang trọng số Ý tưởng về một
bộ công cụ chấm điểm tín dụng đã có từ những năm 70 của thế kỷ trước,
khi ngân hàng và các tô chức tín dụng lớn nhân ra răng, thị trường có sự
Nguyễn Quang Huy — Khoá 61 7 GVHD: ThS Tran Chung Thuy
Trang 16Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
gia tăng chóng mặt của các khoản vay vừa và nhỏ (vay chi tiêu hoặc
kinh doanh quy mô nhỏ) Nếu tiếp tục sử dụng các phương pháp xếp hạng tín dụng cũ trên các khoản vay này sẽ gây ra tình trạng thất thoát
doanh thu do chi phí vận hành phương pháp cũ lớn, thời gian kiểm tra
thông tin tín dụng mất nhiều thời gian Y tuong về một bộ công cụ dựa
hoàn toàn trên toán thống kê được cho rang sẽ giải quyết được van đề này một cách triệt dé nhất với ba tiêu chí: rẻ hơn, nhanh hon và đáng tin
cậy hơn; giúp các ngân hàng giải ngân khoản vay nhanh hơn, phục vụ
nhu cau lớn của khách hàng, vừa dam bảo được khả năng kiểm soát rủi
ro tốt Các mô hình chấm điểm tín dụng từ đó được xây dựng ngày càng phức tạp, tiên tiến hơn và được sử dụng rộng rãi song song cùng với các
phương pháp xếp hạng tín dụng sẵn có.
Việc hạn chế rủi ro tín dụng trách nghiệm của mỗi ngân hàng, TCTD nhưng cũng là trách nghiệm của nhà nước Chính phủ cũng phải thường xuyên thanh tra,
kiểm tra và đưa ra những chỉ thị, đường lối đúng đắn, sát sao và kịp thời; tránh để
xảy ra những trường hợp thất thoát tài nguyên quốc gia, gây mất tín nhiệm tin
dụng trong mắt bạn bè quốc tế.
1.3 Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient
Trong hoc máy, bài toán phân loại (classification) thường được xử ly bang hồi quy Logistic hoặc mô hình Cây quyết định (Decision Tree) Thuật toán Boosting có thê hiéu là thay vì xây dựng một mô hình (có thé là decision tree) có
độ chính xác tương đối dựa trên tập huấn luyện, ta xây dựng rất nhiều mô hình có
độ chính xác kém hơn khi đi riêng lẻ nhưng lại cao hơn khi kết hợp với nhau.
Gradient Boosting hiện đang được xem là một trong những thuật toán học tối ưu nhất đề giải quyết các bài toán học máy có giám sát bên cạnh những mô hình học sâu thường được sử dụng cho các bài toán hồi quy với dit liệu đầu vào dạng định
Nguyễn Quang Huy — Khoá 61 8 GVHD: ThS Tran Chung Thuy
Trang 17Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
1.3.1 Mô hình dạng cây (Tree Based Model)
Mô hình dang cây là một cây phân cấp có cấu trúc được dùng dé phân lớp
các đối tượng dựa vào các quy luật Các thuộc tinh (features) của đối tượng có thé
thuộc nhiều kiểu khác nhau như nhị phân, định danh, thứ bac, định lượng và thuộc tính phân lớp phải là kiểu nhị phân hoặc thứ bậc Xét tập đữ liệu bao gồm các
thuộc tính của từng điểm đữ liệu và phân lớp nó thuộc về, mô hình cây sẽ sinh ra các quy luật để dự đoán phân lớp của các điểm dữ liệu chưa biết.
Branch/ Sub-TreeSplitting * y fo An.
Hình 1: Cau trúc co bản của Cây quyết định
(Nguồn: Nagesh Singh Chauhan, Kdnuggets)
- Node sốc (ROOT Node): là tập dữ liệu sốc, sẽ được phân chia thành hai
hay nhiều tập con dựa trên các quy luật sinh ra.
- Qua trình phân chia (Splitting): Quá trình phân chia một node thành hai
hay nhiều node con.
- Node quyết định (Decision Node): Các node con mà còn được phân chia
ra thành các node nhỏ hơn nữa.
- Node cuối (Terminal Node/ Leaf): Cac node con không còn được phân
chia nữa, thường được gọi là “lá” (“Teaf”’).
- Nhánh (Branch/ Sub-tree): là một bộ phận nhỏ của cây quyết định, bao
gom các node quyết định và hai hay nhiều leaf.
Nguyễn Quang Huy — Khoá 61 9 GVHD: ThS Tran Chung Thuy
Trang 18Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
- Node me và node con (Parent Node va Child Node): Node me là node
được chia thành hai hay nhiều node nhỏ; node con là các node được chia
ra bởi một node mẹ.
- Tia cây (Tree Prunning): Quá trình loại bỏ các node con khỏi một hay
nhiều nhánh của cây quyết định.
Mô hình cây sẽ phân lớp tập dữ liệu bằng cách dùng thuật toán dé đưa ra quyết định có nên phân chia một node hay không, trong đó quyết định phân chia
một node trên toàn bộ dữ liệu dang có là lựa chon tốt nhất trên các node con có thé phân chia tại cùng cấp đó Các mô hình cây phổ biến nhất có thể ké đến là ID3, C4.5, CART, CHAID, MARS, Đề tìm được cách phân chia tốt nhất cho
1 node, các mô hình cây thông thường thường sử dụng 2 thuật toán:
- Hệ số Gini (Gini Impurity/ Gini Index):
GI = XÊ1Pm¡(1 — Pmi) = 1— Ty Pini
- Entropy:
—i=1Pmi log(Pmi)
Trong đó, Pym; là ty lệ số quan sát được phân vào lớp i trên tổng số quan sát, với
i = (1,2, ,K) là phân lớp thứ i trong K phân lớp.
Trang 19Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Dựa trên đồ thị Gini và Entropy, ta thấy cả hai phương pháp này đều khá giống nhau Trong mô hình cây, cả hai thuật toán đều được sử dụng dé đánh giá
chất lượng của một quá trình phân chia Kết quả của quá trình phân chia được coi
là tốt hơn nếu một phía của node con (node kết quả sau khi được phân chia) có
entropy hoặc hệ số Gini gần 0 hơn do điều đó chứng tỏ tại phía đó của node con,
các điểm đữ liệu có xác suất nằm hoàn toàn về phân lớp 0 hoặc 1.
Mô hình cây rat phổ biến trong giải quyết các bài toán phân lớp do ý tưởng của mô hình rất giống với quá trình ra quyết định của con người, điều đó giúp mô hình cây dé hiểu và dễ giải thích Ngoài ra, mô hình cây còn phổ biến bởi kha năng tuỳ biến chủ động băng tree prunning, giúp mô hình thích nghi được với nhiều bộ đữ liệu trong nghiên cứu và cả ứng dụng thực tế.
1.3.2 Thuật toán Gradient Boosting
1.3.2.1 Boosting và Gradient Descent
Boosting là một hướng di trong học máy kết hợp (ensemble learning) dé giải quyết bài toán phân lớp, thay thế cho 1 mô hình dự đoán có độ chính xác tương đối như Cây quyết định Boosting không lập tức xây dựng 1 mô hình trên ROOT Node mà xây dựng tuần tự nhiều mô hình có độ chính xác kém (weak
learner) sau đó kết hợp lại thành một mô hình tối ưu có độ chính xác cao Các weak learner trong bài toán phân loại bằng mô hình cây chính là các Cây quyết định có độ chính xác thấp, mà mỗi cây được xây dựng sau sẽ kế thừa toàn bộ
thông tin đã có từ cây phía trước.
Nguyễn Quang Huy — Khoá 61 11 GVHD: ThS Tran Chung Thuy
Trang 20Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
S999 e “Se 0.
Ore) Ce : C@ Se = ee e
@.800@ | e®© ộ > eee 3 Cee Ceo ®<ee
Original Data Weighted Data Weighted Data
} } i
mm parm Classen:
L |
e6 ee©e6® eee eee
Hình 3: Minh hoạ các bước tuần tự trong thuật toán Boosting
(Nguồn: geeksforgeeks.org) Gradient Descent là quá trình tối ưu hoá một hàm mục tiêu bất kỳ dựa trên
các tham số cho trước nhằm tìm ngược về điểm có đạo hàm của hàm mục tiêu gần
0 nhất Điểm này chính là cực trị địa phương của hàm mục tiêu.
Xét hàm số: f(x) Đạo hàm của f (x¿) được ký hiệu là f’(x;) Xét điểm bắt
dau là 1 điểm bat kỳ có ƒ”(x¿) > 0, để điểm tiếp theo x;„¡ gần với x* (điểm cực
trị có ƒ“(x) = 0 thì:
Xt41 = X_ +A
Trong đó, A là một đại lượng ngược dấu với đạo hàm ƒŒ,) Vì x; càng tiễn lại
gần x* thì f’(x;) càng gan 0 nên đại lượng A nên là một đại lượng tỷ lệ thuận với
ƒ'(x,) Từ đó, ta có thể viết lại công thức Gradient Descent như sau:
X:+¡ =X, +pXŒ()
Với p là tốc độ học (learning rate) Việc lựa chon learning rate cũng yêu cau su
hop ly nhất định dé dat duoc mục tiêu là tim được điểm gần cực trị x* nhất Với
learning rate quá lớn, thuật toán Gradient Descent dễ bị thiếu chính xác do các bước nhảy liên tiếp có khoảng cách quá lớn Trong khi, learning rate quá nhỏ
Nguyễn Quang Huy — Khoá 61 12 GVHD: ThS Tran Chung Thuy
Trang 21Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
khiên tôc độ Gradient Descent trở nên rat cham, và có thê tìm sai diém x* từ điêmv °
xuât phát cô định với các hàm mục tiêu có nhiêu diém cực tri.
Ww WwW
Large Learning Rate Small Learning Rate
Hinh 4: Minh hoa vé Gradient Descent
(Nguon: Saugat Bhattarai)
1.3.2.2 Gradient Boosting
Là su kết hợp giữa hai hướng tiếp cận trên, thuật toán Gradient Boosting ra đời với mục tiêu kết hợp các mô hình có độ chính xác thấp dé tạo ra mô hình mới với độ chính xác cao hơn Xét một bộ đữ liệu :D = {x;, y¡}]f, kết quả của quá trình
Gradient Boosting là tim ra hàm F(x) gần hàm F*(x), sao cho những điểm dữ
liệu có thuộc tính x được phân lớp với độ chính xác cao trong y Gradient
Boosting xây dựng mô hình là xp xi của:
Fin(X) = Fom—1)(*) + Pmhm(*)
Trong đó, ø„„ là trọng số của hàm thứ m Các hàm tuần tự này là các mô hình con
trong mô hình kết hợp (ensemble).
Các bước phát trién một mô hình Gradient Boosting: - Bước 1: Tao hàm mat mát khởi động Fy (x):
Fo(x) = argming (SỀ+1L(y 8)
- Bước 2: Xây dựng mô hình tối wu Ø„„ hạ; (x)
(pmh„()) — argmim,w(XI+L(ị, Fm—1(%¡) + ph(,)))
Nguyễn Quang Huy — Khoá 61 13 GVHD: ThS Tran Chung Thuy
Trang 22Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Tại bước này, ta áp dụng thuật toán Gradient Descent, coi mỗi h,, là một
bước giống như một đại lượng A thêm vào hàm L(y, Em_J(X 0): Từ đó, mỗi h„ được huấn luyện trên một tập dữ liệu D = {x¿,rm¡}Ÿ, với Mm; là phan dư pseudo (pseudo-residuals) có dang:
_ [AL (yi, F(x)
Bước 3: Tinh toán lại giá tri của trọng sô p,, dựa trên mô hình vừa huan
Bước 4: Cập nhật mô hình chính và lặp lại các bước trên có tuần tự.
Một trong những phương pháp giảm thiéu tinh trạng overfit và tăng cường tinh
tuỳ biến cho Gradient Boosting là thêm /earning rate v dé kiểm soát các bước
nhảy của quá trình Gradient Descent Fm(x) = F„_¡(x) + VPmhm(x) hoặcgiảm độ phức tạp của các mô hình con (như prunning tree với bai toán sử dụng
mô hình cây).
1.4 Đánh giá độ chính xác của sự phân loại
Đánh giá mô hình giúp chúng ta suy đoán được được độ phù hợp của mô
hình đối với bài toán của mình hoặc so sánh giữa các mô hình với nhau Đề tìm
được thước do đánh giá mô hình phù hợp thì ta cân phải hiệu về ý nghĩa, ban chatvà trường hợp áp dụng của từng phương pháp đánh giá.
1.4.1 Độ chính xác (Accuracy, Precision và Recall)
Gia sử chúng ta xét một mô hình dự báo sự kiện với 2 kha nang positive
(tích cực) và negative (tiêu cực) Các kêt quả của model xảy ra sẽ rơi vào 4 nhóm
FN tương đương với mắc sai lầm loại I (Bác bỏ sự kiện là positive va gan
cho nó là negative) và FP tương đương với mắc sai lầm loại II (Chấp nhận một sựkiện là positive khi bản chất sự kiện và negative) Thông thường xác xuất mắc sai
Nguyễn Quang Huy — Khoá 61 14 GVHD: ThS Tran Chung Thuy
Trang 23Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp lầm loại II sẽ gây ra hậu quả lớn hơn Mục đích chính của các mô hình chuẩn đoán,
cảnh báo hay quản trị rủi ro là cảnh báo sớm, phòng ngừa, loại bỏ các sự kiện xâunên việc tìm chính xác được sự kiện negative được ưu tiên hon positive.
Dựa trên các chỉ sô này, chúng ta tính được đại lượng đo độ chính xác của
1.4.2 Duong cong Receiver Operating Characteristic (ROC)
ROC là đường cong biểu diễn kha năng phân loại của một mô hình phân
loại tại các threshold khác nhau Đường cong này dựa trên hai chỉ số :
- TPR (true positive rate): Là tỷ lệ các trường hợp phân loại true positive trên
tổng số các trường hợp thực tế là positive Giá trị TRR càng cao, mô hình dự báo càng tốt trên nhóm positive.
TPR =O
Tổng số quan sat positive
- FPR (fail positive rate): La tỷ lệ các trường hợp phân loại false positive trên
tổng số các trường hợp thực tế là negative Giá tri TRR càng cao, mô hình
dự báo càng tốt trên nhóm positive.
Tổng số quan sat negative
Đồ thi ROC là một đường cong cầu lồi dựa trên TPR và FPR có hình dạng:
FPR =
ROC curve 1
True positive rate
0 0.2 0.4 0.6 0.8 1
False positive rate
Hinh 5: Vi du về đường cong ROC
(nguon: BMC Bioinformatics)
Nguyễn Quang Huy — Khoá 61 15 GVHD: ThS Tran Chung Thuy
Trang 24Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp AUC là chỉ số được tính toán dựa trên đường cong ROC (receiving
operating curve) nhằm đánh giá khả năng phân loại của mô hình tốt hay không.
Phần diện tích năm dưới đường cong ROC và trên trục hoành là AUC (area under
curve) có giá trị năm trong khoảng [0,1] Khi diện tích này càng lớn thì đườngcong ROC có xu hướng tiệm cận đường thăng y = 1 va khả năng phân loại của
mô hình càng tôt.
Nguyễn Quang Huy — Khoá 61 16 GVHD: ThS Tran Chung Thuy
Trang 25Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
CHƯƠNG II: PHƯƠNG PHÁP PHAN LOẠI KHACH HANG PHO BIEN
TẠI CAC TO CHỨC TÍN DUNG
2.1 Các phương pháp phân loại khách hàng thường được sử dụng từ trướcđên nay
Hiện tại, có 3 loại phương pháp phân loại khách hàng sử dụng tín dụng đượcsử dụng rộng rãi; được lựa chọn dựa theo tính sẵn có của nguồn dữ liệu, cũng nhưđặc thù của từng phân khúc khách hàng, hoặc chính sách sản phẩm cho vay.
e Phương pháp chuyên gia: Phương pháp chuyên gia sẽ dựa trên ý kiến
thâm định của các chuyên gia về rủi ro đối với một khoản tín dụng Rủi ro sẽ được căn cứ trên các thông tin chủ yếu đó là:
Đặc điểm của chủ thé vay (character): Thâm định danh tiếng, tinh
trung thực của người vay vôn.
Vốn (capital): Tham định sự chênh lệch giữa tài sản và nguồn vốn của
người cho vay Tài sản chính là những giá trị mà ngân hàng có thé thuhồi khi người vay không trả được nợ Nguồn vốn có thê là các chi phímà người vay đang phải chi trả như chi tiêu gia đình, chi phí thuê nha,
Sau khi trừ đi các chi phí chúng ta sẽ biết được người vay sẽ tiết
kiệm được bao nhiêu và chi phí đó có đủ dé trang trải lãi vay hay
Tài sản đảm bảo (collateral): Sẽ có 2 loại hình thức cho vay được
phân chia dựa trên tài sản đảm bảo đó là vay thế chấp (có tài sản đảm
bảo) và vay tín chấp (không có tài sản đảm bảo) Rủi ro của 2 hình
thức cho vay này là khác biệt nhau nên lãi suất và hạn mức giữa chúng
cũng sẽ khác biệt dé dam bao dung hòa giữa lợi nhuận và rủi ro đối với
ngân hàng Đối với vay thế chấp ngân hàng sẽ phải định giá chính xác giá trị của các tài sản thế chấp Gia trị các tài sản này sẽ quyết định hạn
mức tín dụng mà ngân hàng sẽ cấp cho người vay Rủi ro đối với các
khoản vay thế chấp là thấp hơn tín chấp vì trong trường hợp khách
hàng không có khả năng thanh toán, ngân hàng được quyền thu hồi tàisản đảm bảo.
Khả năng trả nợ (capacity): Là các thông tin liên quan trực tiếp đến
khả năng tài chính của người vay đó là: nghê nghiệp, mức thu nhập,trạng thái hôn nhân, sô người phụ thuộc,
Điều kiện (condition): Đánh giá sơ bộ trạng thái của người vay có
tham chiếu tới điều kiện thị trường, bối cảnh tài chính, áp lực cạnh
tranh, mục đích sử dụng vốn, Chăng hạn người vay là hộ dân trồng
cafe nhưng năm vừa qua thị trường cafe giảm giá mạnh Do đó sẽ
khiến lợi nhuận và khản năng thanh toán của người vay xuống thấp hơn dự kiến.
Nguyễn Quang Huy — Khoá 61 17 GVHD: ThS Tran Chung Thuy
Trang 26Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Phương pháp chuyên gia dựa nhiều trên kinh nghiệm của con người khiến
cho quá trình thâm định sẽ tôn kém về thời gian, không phù hợp với nhu câu vốnliên tục gia tăng của các khoản vay kinh doanh vừa và nhỏ Đồng thời ý kiến đánhgiá cũng không nhất quán giữa các chuyên gia Do đó một phương pháp khác
được khuyến nghị nham đưa ra các đánh giá nhanh chóng và nhất quán hơn Đó
chính là phương pháp mô hình.
¢ Phương pháp thống kê: Phương pháp thống kê sử dung mô hình sẽ dựa
trên điểm số được lượng hóa từ các loại mô hình học máy như Hồi quy
Logistic, mô hình cây quyết định hay mạng neural nhân tạo Phương pháp này có nhiều điểm tôi ưu hơn so với phương pháp chuyên gia:
- Năng suất thẩm định từ mô hình cao hơn rất nhiều so với các chuyên
gia Một môt hình có thê giải quyết sô lượng hô sơ băng khôi lượngcông việc của hàng trăm chuyên gia.
- _ Giảm thiêu chi phí lao động khi cắt giảm được một phan lương chi trả
cho các chuyên gia thâm định.
- Kết quả đánh giá hé sơ là rất nhất quán dựa trên điểm số tín nhiệm là
duy nhât, trong khi đó các chuyên gia có thê đưa ra kêt quả đánh giákhác nhau dựa trên cảm quan cua họ vệ rủi ro.
- _ Mô hình sẽ xem xét toàn diện các biến số đầu vào và thậm chí có thé gia tăng số lượng biến tùy ý mà không ảnh hưởng tới thời gian dự báo Trong khi phương pháp chuyên gia sẽ chịu hạn chế bởi khả năng của
con người là có hạn Việc đánh giá hồ sơ đôi khi chỉ được nhận định
trên một số biến chính.
e Phương pháp hỗn hop (Hybrid): Là sự sử dụng kết hợp giữa phương
pháp chuyên gia và phương pháp thống kê Phương pháp này thường
được áp dụng cho các doanh nghiệp có quy mô tương đối lớn hay đa
ngành nghề bởi các doanh nghiệp này cần sự kiểm soát sát sao từ các kết
qua thẩm định của chuyên gia cũng như phân loại dựa trên dữ liệu sẵn có
theo phương pháp mô hình.
2.2 Xây dựng mô hình phân loại khách hàng theo phương pháp thống kê
Theo như đề tài nghiên cứu chính của bai viết, ta muốntap trung vào nhómkhách hàng cá nhân, có nhu cau tin dụng cho chi tiêu, mua sắm hoặc kinh doanhvừa và nhỏ, vậy nên ta sẽ tạm thời chỉ tập trung vào phương pháp thống kê, với
đặc trưng là giải ngân nhanh, giảm thiéu chi phí phát sinh không cân thiết; tất phù
hợp với tập khách hàng này Các bước đề thực hiện một
Bước 1: Dinh nghĩa “nợ xấu”
Bước 2: Nhận định các nhân tố rủi ro trong bộ dữ liệu Sau khi đã định
nghĩa được “nợ xấu”, ta sẽ thực hiện phân tích chuyên sâu các tập dữ liệu sẵn có,
dan dan tìm ra được một công thức phân tách các nhân tố đánh giá được khả năng
chi trả nợ của khách hang.
Bước 3: Thực hiện kiểm tra trên các nhân tố có ảnh hưởng lớn đến rủi ro
tín dụng Một cách khác dé thé hiện điều nay là: “kiểm tra các nhân tổ rủi ro đượcNguyễn Quang Huy — Khoá 61 18 GVHD: ThS Tran Chung Thuy
Trang 27Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp sảng lọc thông qua bước 2 thực sự hoạt động trên thực te” Người thiết kế mô hình
phải tìm được dẫn chứng trong thực tế để chứng minh rằng các nhân tố mới tìm
được thực sự là nhân tố có ảnh hưởng đến tình trạng khoản vay, hay đó là sai lầm
từ viéc gắn nhãn cho các biến, sang loc dit liệu không kỹ càng, Tóm lại, mô hình cuối cùng không chỉ hiệu quả trên mặt thống kê, mà còn phải hợp lý với tình
hình thực tế.
Bước 4: Tối ưu hoá mô hình
2.3 Mô hình hồi quy Logistic ứng dụng trong phân loại khách hàng
Mô hình Logistic là một mô hình hồi quy với biến phụ thuộc là biến nhị
phân (chỉ nhận giá trị 0 hoặc 1) và biến độc lập có thê là biến định lượng hoặc
định tính Áp dụng của mô hình Logistic trong xếp hạng tín dụng được sử dụng
rộng rãi nhất là đánh giá khả năng vỡ nợ của khách hàng Trong mô hình này, biếnphụ thuộc sẽ là Kha năng vỡ nợ (Default) của khách hang; Default nhận giá trị 1
tức là khách hàng có khả năng trả nợ và nhận giá trị 0 nếu khách hàng có khả năng
không thé chỉ trả khoản nợ đã vay Biến độc lập trong mô hình là các trường thông
tin thu thập từ khách hàng làm căn cứ dé đánh giá khả năng vỡ nợ Với đối tượng
khách hàng cá nhân (ndividual customers), các biến độc lập này thường là thông
tin về tuổi, giới tính, trình độ học van, giá trị khoản ng, thu nhập trung bình, lich
® p;: xác suât vỡ nợ của khách hang i
e_ X;: các biến độc lập chứa thông tin về khách hàng
e ø:hệ số chặn
e Ø,:hệ sỐ góc (i = 1,k)
Từ đây có thể thấy:
e B >0 thì x càng lớn xác suất dé Y = 1 càng lớn hay xác suất khách hang
đó không trả được tin dụng cảng lớn.
e < 0 thì x càng lớn xác suất dé Y = 1 càng nhỏ hay xác suất khách hang
đó vỡ nợ tín dụng càng nhỏ.
Kết hợp với phương pháp sử dụng giá trị thông tin (Information Value) và
Weight of Evidence, các giá trị đầu ra của mô hình Logistic hay xác suất vỡ
nợ của các khách hàng có thê được phân chia thành bảng điểm scorecard Đây là ứng dụng lớn nhất của mô hình Logistic trong quản lý rủi ro tín dụng bởi sự dễ hiểu, dé thử dụng và chứa đựng nhiều thông tin của nó.
Nguyễn Quang Huy — Khoá 61 19 GVHD: ThS Tran Chung Thuy
Trang 28Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
CHƯƠNG Ill: UNG DUNG MO HINH GRADIENT BOOSTING TRONG
PHAN LOAI KHACH HANG
3.1 Tổng quan về bộ dữ liệu
Bộ dữ liệu “Jending club_data” là dữ liệu công khai do Lending Club cung
cấp phục vụ mục đích nghiên cứu và phân tích của các nhà đầu tư, nghiên cứu sinh, sinh viên, Bộ dir liệu gốc cung cấp bởi Lending Club là tập hợp dữ liệu
lịch sử của trên một triệu khoản vay từ năm 2007 đến quý 3 năm 2020 bao gồm cả khoản vay với trạng thái được phê duyệt và bị từ chối; tình trạng khoản vay đã thanh toán hết/ vỡ nợ hay mới thanh toán được một phần/ trễ nợ; khách hàng vay tiền là cá nhân (individual) hay khoản vay chung nhiều người/ vay doanh nghiệp
Với bài nghiên cứu cua mình, em chi su dụng một phần bộ di liệu trên, là dữ liệu thu thập trong năm 2018 với bộ lọc khách hàng chỉ bao gồm khách hàng
cá nhân và đã hoàn trả toàn bộ khoản vay (Fully Paid) hoặc đã không còn đủ điều
kiện trả nợ (Charged Off).
Tập dữ liệu bao gồm 26 trường thông tin Được thê hiện trong bảng sau:
Ky han khoan vay, bao gom 2 mức kỳ han:
3 term Term - 36 thang- 60 thang
int_rate Interest Rate Lai suat hàng tháng của khoản vay
installment Installment Khoản tiền lãi phải trả hàng tháng
emp_title Employment Title | Công việc hiện tai của khách hang
Số năm kinh nghiệm làm việc, được đánh số từ 1
năm đến 9 năm
emp_length Employment Những khách hàng chưa du 1 năm kinh nghiệm
Length được ghi nhận là “< 1 years”
Những khách hàng có trên 10 năm kinh nghiệmlàm việc được ghi nhận là “10+ years”
- OWN: Có sở hữu nhà
Nguyễn Quang Huy — Khoá 61 20 GVHD: ThS Tran Chung Thuy
Trang 29Chuyên đê tốt nghiệp
- RENT: Hiện đang thuê nha
- MORTGAGE: Hiện đang được sử
dụng để thế chấp cho một khoản vay
- ANY: Không có thông tin
9 annual_inc Annual Income Thu nhập bình quan năm của khách hang
Tình trạng khoản vay:
- Charged Off: khách hàng không còn10 | loan_status Loan Status kha nang thanh toan
- Fully Paid: khách hàng đã thanh toán
toàn bộ khoản vay
within 2 years gân đây của khách hàng
- Số tài khoản tín dụng/ thẻ tín dụng của khách hang
14 | open acc Opening Account ¬
hiện van đang hoạt động
l5 pub_rec Public Record Số lần vỡ nợ được ghi nhận công khai của khách
_bankruptcies Bankrupcies hang tại các tổ chức tin dung
Hạn mức tín dụng quay vòng: khoản tiền còn chưa
thanh toán trong tài khoản tín dụng quay vòng của
Credit Revolving | khách hang (Tin dung quay vòng được định nghĩa
16 | revol_bal
Balance là khoản hạn mức tín dụng được phê duyệt trước
cho khách hang và khách hang có toàn quyén sửdung với điều kiện thanh toán day đủ)
17 | revol_util Utilization/ Credit | Ty lệ han mức tín dụng quay vòng chưa thanh toán
Utilization Ratio
Tong số tài khoản tin dụng đã từng được mở của
18 total_acc Total Account
khach hang
Total Payment „ ca
-19 | total_pymnt_inv Tông sô tiên phải trả trên khoản vayInvolve
Total Recorded „ TY,
20_ | total_rec_int Tông số tiên lãi đã trả của của khách hàng
Nguyễn Quang Huy — Khoá 61 21 GVHD: ThS Tran Chung Thuy