Các mô hình phân tích tín dụng được gọi làcác mô hình chấm điểm tín dụng dựa trên lich sử thông tin từ dit liệu ngân hàng về cáckhách hàng hiện tai, dé đánh giá liệu khách hàng tiềm năng
Trang 1DE TÀI: UNG DUNG MÔ HÌNH LOGISTIC TRONG XÉP HẠNG TÍN
DỤNG KHÁCH HÀNG CÁ NHÂN
Giáo viên hướng dẫn: TS Hoàng Đức Mạnh
Sinh viên: NGUYÊN HOÀI NAM
Mã sinh viên: 11193576
Lớp chuyên ngành: Toán Kinh tế 61
Hà Nội, tháng 11/2022
Trang 2LỜI CAM ĐOAN
Tác giả cam đoan đề tài nghiên cứu Ứng dụng mô hình Logistic trong xếp hạng tíndụng khách hàng cá nhân là một quá trình nghiên cứu độc lập Các kết quả nghiên cứutrong dé án do tác giả tự tìm hiểu va phân tích một các trung thực, phù hợp với dé tài nghiên
Trang 3LOT CAM ĐOAN cung Hà
101900 0 l5 ii
DANH MUC BANG c0 - HHHĂH , iv
DANH MỤC HINH Lo cescceccscscesseesseesssessessvessvessvcsssssuecssessvcssvcssesssessvessvessscssessussssessecssessstessesseessnesseessessseess v
Phần I: Mở đầu -22 22 11 HH HH HH HH ưêu 1
1 Li do Chom G6 1: 88 nn 4444 1
2 Mục tiêu nghiên cứu của dự ane cece ceeeeecseneceeseeecseseeecscsecessesesacseeecacseeesseeesasseeesaseeseraeeeeeeas 1
3 Phạm vi nghiÊn CỨU - + 1k1 TT HT HT TT TT HT TT TT TH HH trệt 2 Fld c0) 0 ()) 0u 0n ốc rrittdiiií 44 2
co, T8 ốẽ ẽ 2 Phan IL: NOi dung chuyén 8n 6“ “-(AäẬABHAH ,H, H ,
Chương 1: Co sé lý thuyết về xếp hang tín dụng
1.1 Khái quát về xếp hạng tín dụng ©5< 5< St ch E212 1211 eo 3 1.2 TẦm quan trọng của xép hạng tín dung scccccscccsscssseessesssesssesssesssssssessssssssssssssecssessusssusssesssessseessee 5
1.2.1 Đối với ngân hàng thương mi c- s5 Tre 5
1.2.2 Đối với khách hàng cá nhÂn -©cc cc EkcEE TT E111 eree 6
1.2.3 Thiệt hại từ rủi ro tin dụng Cá 'HÂN 5< 3v vn ng ng nh iệt 6
1.3 Các nhân tơ cần được xem xét khi xếp hạng tín dụng cá nhân -cccccccccccececreerree 7
1.3.1 Đặc điểm nhân thÂn -c-cStTtEEềE St TT HE TT TH TH HH HT HH tr 7
1.3.2 Thơng tin tài chính cá "ÂN! «1 vn TT TH TH HH rệt 8
1.4 Các phương pháp xếp hạng tín dụng - 2: ©2S£©+sEEESEEESEE22E12E171517112111271 211211 crk 9
1.4.1 Phương pháp ChUVÊN id - «11T TT TH HT TH HT HH TT ch Tà Hà ke 9
1.4.2 Phương pháp thong Ké s-©-s2ckeStcEEtE SE E E211 111 T1 11.11.111.111 erre 10 {50 1100) 808 n6 6 6 4+HB.H),.,)H,)HA : 12 Chương 2: Quy trình xây dựng mơ hình xếp hạng tín dụng cá nhân - 5+: 13 2.1 Chuẩn bị và xử lý đữ liệu ©5255 S1 2t 2 2 1111221 211211 11 11 H1 11111101 1011111111 1 1c 14 2.2 Phân tích đơn biến (Single Factor Analysis) — Lựa chọn danh sách biến cuối cùng 14
2.2.1 Khả năng phân biệt của từng lựa chọn — Weight of evidence (WOE) -«-s<<+ 15
2.2.2 Xu hướng WOE sau khi được ghép? nhom c- << 3E Hàn ng 16
2.2.3 Khả năng dự đốn của biến - Information Value . ©5c©5cccc+cccEtcEEcEEererkrrkerrrreee 17
2.2.4 Quá trình phân nhĩm giá trị
2.2.5 Xác định danh sách Dien CHỐI CUNY 55-25 5C SE SE SE E22 1.21211211111111 ke 20
Trang 42.3 Phương pháp hồi quy LOgiStic ccccsccssssssssssssssssssssssssesssssssessssssssssssssssusssssessssssssssssecssscsssesssecssecess 21
2.4 Kiểm định khá năng phân biệt của mô hìHÌ: occcoceSctiecrhrrrrreerec 22 2.5 Quy đổi điểm và phân hang khách NANG veccccccccsccsscesssessssssessssssssessesssesssssssssesssessssssssssesasecssecssecses 23
PIN Non nn nh ẽ nen n6 4 H 23
2.5.2 Phân hạng khách hỒIg - -¿- << sàn TH HT TH HT TT HH TH 25
{00 7 N6 “4 B.HẬHà),)à.à 26 Chương 3: Kết quả phân tích 2-2 2£ ©+2£E+2SEESEE£EEEEEEEEEEESEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEELrrkrrrrrrii 27
KSN) ii 8200.086 27
3.2 Kết qua quá trình phân tích và lựa chọn biến cuối cùng - 2© ©22©5z+cxeerxecrs 30
3.3 Kết qua do lường các tham số theo phương pháp hồi quy Logistic - 42
3.4 Kết qua kiểm định mô hình - 2-5 +2©SxềE+Et2EEE211271E221127112711 2711.2111111 re 44 3.5 Kết quá chấm điểm va phân hạng khách hàng 2-2 ©52©S22EEeSEEEEEerxeerkeerxeerxrres 45 {€3 6 c8 nh nmủỪụ.g, 50 Phan III: Kết luận và khuyến nghị À - 2-22 +sS++SEEEtSEEEEEEEEEEEEEEEvEEEkrEEkkrrrkrrrkkrrrkrerkrrerrrree 51
BAL KGt 8 hố A4.+HẶH)H,H., àH )H,H , 51
3.2 Khuyến nghị 2-22 ©2s S5SE119E152E112711271211711715 71.11.111.111 T1 T1 11111 1x 1 crrey 52
Tài liệu tham khảo - cà x1 HH TT HH TT TH HT TT HT TH HT g rht 53
PHU UC 1 54
Trang 5DANH MỤC BANGBảng 2.1 Minh họa biến “Số ngày quá hạn tối đa của khoản vay trong 3 tháng gần
Bảng 2.2 Các mức khả năng phân biệt của ÏV cà S Ăn se 18
Bang 2.3 Minh họa biến “Trình độ học vấn" -¿cc- 22c 2222221 2s xx2 19Bang 2.4 Minh họa biến ‘LTV — Loan to VaÏue” c- c2 c2 22211222 ei 20
Bảng 2.5 Khả năng phân biệt của mơ hình thơng qua ẲC 23
Bảng 3.1 Mơ tả thơng tin các biến trong bộ dữ liệu được sử dụng trong qua trình xây dựng
mơ hình ‹ - c2 SH SE SE SH TT nh KT ni ki kết 28
Bảng 3.2 Kết quả IV — Information Value của từng biến -5 30Bang 3.3 Kết quả hồi quy mơ hình Logistie -¿ ¿c7 c2 2222222 se243Bang 3.4 Kết qua dự báo xác suất vỡ nợ - c c2 2211122111252 111111 22x 43Bảng 3.5 Thống kê mơ tả xác suất vỡ nợ PD dự báo trên tập kiểm định 44Bang 3.6 Ví dụ cham điểm cho khách hàng c c2 222222222222 22xxs2 45Bang 3.7 Minh họa kết quả điểm của khách hàng + + ¿c2 2222222 ccsss2 47Bang 3.8 Thang điểm theo từng hạng + L c2 21111122221 111 1125511111 E cưng48
iv
Trang 6DANH MỤC HÌNH
Hình 2.1 Quá trình xây dựng mô hình xếp hạng tín dụng khách hàng cá nhân 13Hình 2.2 Quá trình phân tích đơn biến + + 2222222221112 252xxe4 14
Hình 2.3 Biéu đồ giá trị WOE của biến LTV — Loan to Value 20
Hình 2.4 Minh họa đường cong RÓC c c2 nh 22
Hình 3.1 Mô tả mức độ thiếu giá tri của các biến trong bộ dữ liệu 28Hình 3.2 Mô tả biến CODE_GENDER - c2 2222222211111 1111125511111 xxe 32Hình 3.3 Mô tả biến AGE - 2222220001011 2221511111111 1 11111 22 1xx yêu 32Hình 3.4 Mô tả biến NAME_EDUCATION_TYPE -cc c2 22252 ween 33Hình 3.5 Mô tả biến YRS_EMPLOYED 222 1122221111122 55 1111121511 xe2 33Hình 3.6 Mô tả biến OCCUPATION_TYPE 22c 11222222225 34Hình 3.7 Mô tả biến YRS_LAST_PHONE_CHANGE cccc552 2c ss52 35Hình 3.8 Mô tả biến YRS_ID_PUBLISH - 22 2112222222221 z2 35Hình 3.9 Mô tả biến ORGANIZATION_ TYPE - c2 222cc vn 37
Hình 3.10 Mô tả biến REGION_RATING_CLIENT_W_CITY - 37Hình 3.11 Mô tả biến REGION_RATING_CLIENT 2222233333333 ssze 38
Hình 3.12 Mô tả biến REGION_POPULATION_RELATIVE -< 38Hình 3.13 Mô tả biến NAME_INCOME_ TYPE c2 2222222222222 vn 39
Hình 3.14 Mô tả biến AMT_CREDIT + c2 2222222222211 1111111125552: eee 40
Hình 3.15 Mô tả biến AMT_GOODS_PRICE c c2 2222222222222 40Hình 3.16 Mô tả biến AMT_ANNUITY 22 1111222222221 111111111 xxeg41Hình 3.17 Mô tả biến FLAG_DOCUMENT - 2222211111222 ee 41Hình 3.18 Mô tả biến AMT_REQ_CREDIT_BUREAU_YEAR 42Hình 3.19 Biéu đồ đường cong ROC - - 2-2 1122222111 11222 511111 5255255 e2 45
Trang 7Hình 3.20 Biểu đồ phân phối phổi điểm của khách hàng -:Hình 3.21 Phân phối kết quả phân hạng
vi
Trang 8vậy, việc đánh giá khả năng trả nợ của một khách hàng khi đăng ký khoản vay tín dụng là
một việc vô cùng cân thiệt đôi với môi ngân hàng.
Vài năm trước, khi đăng ký vay, khách hàng điền vào một đề xuất dé đánh giá khả
năng tài chính bởi một hoặc nhiều các chuyên gia tài chính hay còn gọi là phương phápchuyên gia Bằng kinh nghiệm chuyên sâu trong lĩnh vực tài chính, tín dụng, các chuyên
gia sẽ đã đưa ra các ý kiến hay yêu cầu, điều kiện của khoản vay được đăng ký Mặc dù
hiệu quả, các bước đánh giá của quá trình diễn ra chậm vì nó không phù hợp với việc phân
tích nhiều yêu cầu đăng ký khoản vay cùng lúc Như vậy, mô hình thẻ điểm xếp hạng tíndụng lần đầu được giới thiệu và đề xuất trong các tô chức tài chính nhằm tăng tốc độ đánhgiá và sự chính xác trong khâu ra quyết định Các mô hình phân tích tín dụng được gọi làcác mô hình chấm điểm tín dụng dựa trên lich sử thông tin từ dit liệu ngân hàng về cáckhách hàng hiện tai, dé đánh giá liệu khách hàng tiềm năng khi nộp don đăng ký khoản vay
sẽ có khả năng trả nợ hay không Hiện nay, các mô hình thẻ điểm xếp hạng tín dụng đượcthêm vào hệ thống của các ngân hàng và tô chức cho vay tài chính vận dụng các phương
pháp phân tích, mô hình định lượng và học máy với mục tiêu cải thiện khả năng đánh giá
nhanh và chính xác của hệ thống hay cho phép thâm định tin dụng trực tuyến
Qua những thực trạng trên, đề tài “Ứng dụng mô hình Logistic trong xếp hạng tíndung cho khách hàng cá nhân” được tác giả lựa chọn dé làm chuyên đề tốt nghiệp
2 Mục tiêu nghiên cứu của dự án
Thứ nhát, tìm hiệu tông quan về các khái niệm và tâm quan trọng của hệ thông xêp hạng tín dụng.
Trang 9Thứ hai, hệ thông hóa cơ sở lý thuyết và phương pháp luận của một quy trình xâydựng mô hình thẻ điểm xếp hạng tín dụng cho khách hàng cá nhân.
Thứ ba, dựa trên bộ đữ liệu mẫu, vận dụng mô hình Logistic dé dự báo và xây dựng
hệ thống chấm điểm, xếp hạng tín dụng cho khách hàng cá nhân dựa trên kết quả mô hìnhthu được Đồng thời kết hợp đánh giá và kiểm định độ chính xác của mô hình
3 Pham vi nghiên cứu
Vấn đề nghiên cứu: Dự báo khả năng trả nợ của khách hàng và xây dựng hệ thốngchâm điểm và xếp hạng tín dụng khách hàng
Phạm vi nghiên cứu: Thu thập và sử dụng bộ dữ liệu về thông tin cá nhân, tài chínhcủa khách hàng từ cuộc thi Home Credit Default Risk được phát động triển khai vào năm
2018 trên trang web https://www.kaggle.com/
4 Phương pháp nghiên cứu
Đề tài áp dụng phương pháp nghiên cứu định lượng, sử dụng thống kê mô tả, cácthuật toán quy đổi và hồi quy mô hình Logistic dé phân tích dir liệu Trong toán bộ quátrình xử lý số liệu, xây dựng mô hình, tác giả sẽ sử dụng phần mềm Python
5 Kết cấu chuyên đề
Đề tài gồm cấu trúc các phần như sau:
Phần I: Mở đầuPhần II: Nội dung chuyên đềChương 1: Cơ sở lý thuyết về xếp hạng tín dụngChương 2: Quy trình xây dựng mô hình xếp hạng tín dụng cá nhân
Chương 3: Kết quả phân tích
Phần III: Kết luận và khuyến nghị
Trang 10Phần II: Nội dung chuyên đề Chương 1: Cơ sở lý thuyết về xếp hạng tín dụng
Mục tiêu của chương này nhằm tiếp cận một số khái niệm cơ bản, các yếu tố liênquan và các phương pháp tiếp cận lĩnh vực xếp hạng tín dụng nói chung và áp dụng chophân khúc khách hàng cá nhân nói riêng Từ đó, hình thành cơ sở và phương pháp luận đểtiếp tục nghiên cứu trong các chương tiếp theo của đề tài
1.1 Khái quát về xếp hang tin dụng
Hệ thống xếp hạng tín dụng được xây dựng dựa trên các mô hình sử dụng các công
cụ đề đánh giá mức độ rủi ro liên quan đến khách hàng và những ứng viên nộp đơn vay vốntại ngân hàng hay các tổ chức tài chính Về bản chất mô hình không xác định sự “Tốt”
z
AL?
(không có hành vi tiêu cực) hoặc “Xâu” (có hành vi tiêu cực) của các khách hang và ứng viên trên cơ sở cá nhân Thay vào đó, mô hình sẽ cung câp tỷ lệ thông kê hoặc xác suât mà một ứng viên với bat kỳ diém sô nhat định nào sẽ được coi là “Tot” hoặc “Xâu”.
Những xác suất dự báo hoặc có thể quy đổi thành điểm tin dụng, cùng với nhữngcân nhắc kinh doanh khác như tỷ lệ phê duyệt dự kiến, lợi nhuận, thời gian ngừng hoạtđộng và ton thất, sau đó được sử dụng làm cơ sở dé ra quyết định dé phát triển các chiếnlược ứng dụng mới sẽ tối đa hóa doanh thu và giảm thiểu rủi ro từ khả năng trả nợ của
khách hàng.
Một sô chiên lược dành cho những ứng viên có mức xêp hạng rủi ro cao là:
- Từ chối tín dụng / dịch vụ nếu mức độ rủi ro quá cao
- Chi định hạn mức tín dụng ban đầu thấp hơn trên thẻ tín dụng hoặc dòng tiền
- Yéu cầu ứng viên cung cấp một khoản trả trước hoặc tiền đặt cọc cao hơn cho các
khoản thé chấp hoặc cho vay mua 6 tô
- Tính lãi suất cao hơn đối với khoản vay
- Tinh phí bảo hiểm cao hon cho các hợp đồng bảo hiểm
- Yêu cầu ứng viên cung cấp một khoản đặt cọc cho các dịch vụ tiện ích như điện,
nước hay điện thoại cố định
- _ Cung cấp dich vụ di động trả trước thay vì trả sau
- Tir chối truy cập cuộc gọi quốc tế từ viễn thông các công ty viễn thông
- Yêu cầu ứng viên cung cấp thêm các tài liệu về việc làm, thu nhập và tài sản
3
Trang 11- _ Đưa ứng viên vào “Danh sách theo đõi” dé xem xét kỹ lưỡng khả năng gian lận hoạt
động tín dụng.
Ngược lại, những ứng viên đạt điểm tín dụng cao hay được xếp hạng ở mức rủi rothấp có thê được hưởng mức giá ưu đãi, hạn mức tín dụng cao hơn và được cung cấp cácsản phâm ở phân khúc cao cấp, chăng hạn như dưới dang thẻ vàng hoặc bạch kim, hoặc cácsản phâm bồ sung do công ty cung cấp
Điểm tín dụng cũng có thể giúp thiết lập các chính sách thâm định Ví dụ, một ứng
viên đạt điểm rất cao hoặc rất thấp có thể bị từ chối hoặc được chấp thuận hoàn toàn mà không cần thu thập thêm thông tin về bất động sản, xác minh thu nhập hoặc định giá tài sản
đảm bảo.
Các ví dụ trước đã xử lý cụ thể việc chấm điểm rủi ro ở giai đoạn ứng viên nộp đơnđăng ký khoản vay mới Chấm điểm rủi ro cũng được áp dụng tương tự với các khách hànghiện tại trong hệ thong của ngân hàng hoặc tô chức tài chính Trong bối cảnh này, dữ liệuhành vi của khách hàng với công ty, cũng như dữ liệu số sách được sử dụng dé dự đoán khanăng xảy ra hành vi tiêu cực Dựa trên các cân nhắc kinh doanh tương tự như đã đề cậptrước đây (Ví dụ: Mức độ rủi ro và lợi nhuận), các phương pháp xử lý khác nhau có thể
được điêu chỉnh các chính sách của tài khoản, chăng hạn như:
- _ Cung cấp các các sản phâm phân khúc cao cấp và các sản phâm bồ sung
- _ Tăng hạn mức tín dụng đối với thẻ tín dung và dòng tiền
- Cho phép một số khách hàng quay vòng tín dụng vượt ra ngoài hạn mức tin dụng
- _ Gắn cờ các giao dịch có khả năng gian lận
- Pua ra giá tốt hơn khi gia hạn hợp đồng cho vay / bảo hiểm
- Quyết định có phát hành lại thẻ tín dụng đã hết hạn hay không
- Sơ tuyển danh sách tiếp thị trực tiếp dé bán kèm
- Hướng dan các tài khoản quá hạn sử dụng các phương pháp thu nợ nghiêm ngặt hơn
hoặc thuê cơ quan thu nợ thuê ngoài.
- Dinh chỉ hoặc thu hồi các dịch vụ điện thoại hoặc các tiện ích tín dụng
- Dua một tài khoản vào “danh sách theo dõi” đôi với hoạt động gian lận tiêm ân.
Xếp hạng tín dụng, ngoài việc là một công cụ dé đánh giá mức độ rủi ro, còn có cũng
được áp dụng hiệu quả trong các lĩnh vực hoạt động khác, chăng hạn như:
- Hop lý hóa quá trình ra quyết định
- Giảm thời gian quay vòng dé xử lý các ứng dụng thông qua ra quyết định tự động
4
Trang 12- Danh giá chất lượng của danh mục đầu tư dự định mua lại
- _ Thiết lập phân bồ vốn kinh tế và quy định
- inh giá dé chứng khoán hóa danh mục các khoản phải thu
- So sánh chất lượng kinh doanh từ các kênh/khu vực khác nhau/các nhà cung cấp
Do đó, hệ thống xếp hạng tín dụng cung cấp cho các chủ nợ cơ hội ra quyết địnhnhất quán và khách quan, dựa trên kinh nghiệm rút ra thông tin Kết hợp với kiến thức kinhdoanh, mô hình dự đoán công nghệ cung cấp cho các nhà quản lý rủi ro thêm hiệu quả vàkiểm soát trong quá trình quản lý rủi ro
12 Tam quan trọng của xếp hang tin dung
1.2.1 Đối với ngân hàng thương mại
© Cơ sở dé lựa chọn khách hàng cho vay
Trong kinh tế thị trường, sự cạnh tranh gay gắt giữa các ngân hàng yêu cầu các quyếtđịnh tín dụng phải vừa nhanh, vừa có độ rủi ro thấp, vừa có hiệu quả cao Nếu không sẽ dễmắt đi cơ hội tăng thu nhập và mở rộng quy mô tín dụng do khách hàng tìm đến ngân hàngkhác hoặc tìm nguồn tài trợ ngoài ngân hàng Muốn có quyết định nhanh và chính xác, ngânhàng phải dự đoán tương đối chính xác về khả năng và thiện chí trả nợ của khách hàng.Điều này phụ thuộc vào yếu tố quan trọng là hệ thống thông tin của ngân hàng về kháchhàng trong quá khứ và hiện tại Yêu cầu đặt ra là ngân hàng phải có hệ thống thông tin đángtin cậy và thực hiện tốt công tác xếp hạng tín dụng nhăm tạo cơ sở cho việc đưa ra các quyếtđịnh tín dụng tối ưu Thông qua kết quả xếp hạng tín khách hàng, ngân hàng sẽ đánh giáđược mức độ tín nhiệm của từng khách hàng vay vốn, xác định được mức độ rủi ro khi cungcấp khoản vay, khả năng trả nợ vay Dựa vào kết quả xếp hạng ngân hàng sẽ quyết địnhcho vay hay từ chối cho vay đảm bảo tính khách quan, khoa học
e Cơ sở dé xây dựng chính sách khách hàng và chính sách tín dụng
Trên cơ sở xếp hạng, ngân hàng sẽ phân loại khách hàng và áp dụng chính sáchkhách hàng về lãi suất cho vay, hạn mức, thời hạn tín dụng phù hợp Đồng thời, cũng xây
dựng chính sách tín dụng, áp dụng kỹ thuật cho vay tương ứng với mỗi loại khách hàng.
Đối với khách hàng có độ tín nhiệm cao, xếp hạng tín dụng tốt, ngân hàng sẽ áp dụng chínhsách ưu đãi: cho vay với lãi suất thấp, giá trị khoản vay lớn, điều kiện cho vay nới lỏnghơn Ngược lại, đối với khách hàng có độ tín nhiệm thấp, xếp hạng tín dụng thấp cũngđồng nghĩa với những khoản tín dụng hàm chứa nhiều rủi ro, ngân hàng sẽ áp dụng chính
Trang 13sách cho vay và biện pháp kiểm soát chặt chẽ hơn, nhằm hạn chế khả năng rủi ro tín dụng
xảy ra
© Cơ sở dé xây dựng danh mục tín dụng
Dựa vào kết quả xếp hạng tín dụng, ngân hàng sẽ đánh giá được mức độ rủi ro của
từng doanh nghiệp, từng lĩnh vực hoạt động kinh doanh của khách hàng từ đó xây dựng danh mục tín dụng phù hợp theo định hướng của ngân hàng trong từng thời kỳ.
1.2.2 Đối với khách hàng cá nhân
Hệ thống Xếp hạng tín dụng là cơ sở dé xây dựng chính sách khách hang phù hợp
với từng nhóm khách hàng với các mức rủi ro khác nhau:
- Nhóm rủi ro thấp: Cho vay với chính sách ưu đãi
-_ Nhóm rủi ro trung bình: Cho vay với điều kiện bình thường
- Nhóm rủi ro cao: Có thé không cho vay, hoặc cho vay nhưng áp dụng lãi suất cao
hay cho vay với những điều kiện khắt khe hơn
Vì vậy, tất cả các cá nhân đều có thể tiếp cận và sử dụng sản phẩm tín dụng của ngânhàng phù hợp với điều kiện của mình mà giảm thiểu rủi ro cho ngân hàng Việc xếp hạngtín dụng ngày càng được hiện đại hóa và đơn giản hóa dé giảm thiêu thời gian, chi phí vàđáp ứng mọi nhu cầu cho khách hàng Tat cả các khách hàng đều được đánh giá xếp hạngtrên một hệ thống quy chuẩn chung, thống nhất trên toàn ngân hang; hạn chế việc đánh giácảm tính, chủ quan của nhân viên tín dụng, hay kết quả đánh giá xếp hạng khác nhau tạinhững nơi khác nhau của một hệ thống ngân hàng
1.2.3 Thiệt hại từ rui ro tín dung cá nhân
Khi rủi ro tín dụng ảnh hưởng nặng nề đến hoạt động kinh doanh của ngân hàng sẽ
gây tâm lý hoang mang lo sợ cho người gửi tiền và có thé những người gửi tiền sẽ 6 ạt rúttiền làm cho toàn bộ hệ thông ngân hàng gặp khó khăn Sự hoảng loan này ảnh hưởng rấtlớn đến toàn bộ nền kinh tế, làm cho sức mua giảm, giá cả tăng, xã hội mất ôn định Rủi rotín dụng của ngân hàng thương mại trong nước cũng ảnh hưởng đến nền kinh tế các nước
có liên quan do sự hội nhập đã gan chặt môi liên hệ về tiên tệ, dau tư giữa các quôc gia.
Ngân hàng thương mại gặp rủi ro tín dụng sẽ khó thu được vốn tín dụng đã cấp vàlãi cho vay, nhưng ngân hàng phải trả vốn và lãi cho khoản tiền huy động khi đến hạn, điềunay làm cho ngân hàng mắt cân đối thu chi, mat vốn tự có, mat khả năng thanh khoản,
Trang 14không thể hoàn trả được số tiền huy động, làm mất lòng tin người gửi tiền, ảnh hưởng đến
uy tín của ngân hàng.
Vì vậy, tính chất trung gian đặt ra yêu cầu đầu tiên đối với ngân hàng thương mại làphải thường xuyên thu hồi được số vốn đã cho vay dé duy trì khả năng hoàn trả số tiền huy
động của khách hàng và bảo toàn vôn của mình.
1.3 Các nhân tổ cần được xem xét khi xếp hạng tín dụng cá nhân
Xếp hạng tín dụng cá nhân có hai kỹ thuật đánh giá cơ bản hỗ trợ tổ chức tín dụng
ra quyết định cấp tín dụng cho khách hàng là tính điểm tín dụng (sử dụng các yếu tố đặcđiểm nhân thân và tài chính) và tính điểm hành vi (sử dụng các yếu tố về hành vi) Dé raquyết định cấp tín dụng cho khách hàng giao dịch lần đầu tiên, tổ chức tín dụng sử dụng kỹthuật tính điểm tín dụng Các quyết định đối với khách hàng hiện tại (Có tăng hạn mức tíndụng không? Áp dụng chính sách marketing nào? Nếu khách hàng không trả nợ đúng hẹnthì xử lý ra sao?) được đưa ra dựa trên điểm số về hành vi của khách hàng Vì vậy, khi tiếnhành xếp hạng tín dụng cá nhân theo hai kỹ thuật trên cần phải phân tích các nhân té theotừng nhóm, phục vụ cho mục tiêu nghiên cứu, ứng dụng khác nhau Qua tổng hợp từ cácnghiên cứu liên quan với cả hai kỹ thuật, tác giả muốn hệ thống lại các nhân tô có thể ảnh
hưởng đên khả năng trả nợ của mỗi cá nhân, cụ thê như sau:
1.3.1 Đặc điểm nhân thân
Mỗi cá nhân đều có những đặc điểm nhân thân riêng có Và họ sống trong điều kiệnhay hoàn cảnh cụ thể nào đó Đặc điểm và hoàn cảnh của mỗi cá nhân tác động đến cuộcsống hằng ngày của họ, tạo cho họ những thách thức, những khó khăn phải giải quyếtthường xuyên, cũng như mang đến cho họ những cơ hội mới Vậy, khi tiến hành xếp hạngtín dụng một cá nhân, người ta thường xem xét đến những thông tin sau:
e Thông tin về bản thân khách hang
Nghiên cứu về nhân thân một cá nhân nhằm đánh giá được khả năng cơ bản và điềukiện nội tại dé giải quyết những khó khăn, thực hiện cam kết của họ Bao gom một số thông
tin như sau:
- Độ tuổi
- Giới tính
- Tinh trạng hôn nhân
- Trinh độ hoc van
- _ Chức vu hiện tai trong công việc
Trang 15-_ Thời gian ho gan bó với công việc
- Thời gian công tác với công việc hiện tại
e Thông tin về điều kiện sống của khách hang
Nghiên cứu về điều kiện sống của khách hàng nhằm đánh giá được các tác độngxung quanh, chi phối đến khả năng tài chính và nhận thức của khách hàng đó Những thông
tin về điêu kiện sông bao gôm:
- Quy mô hộ gia đình
- _ Số người đi làm của gia đình
- Số người thất nghiệp hoặc không trong tuổi lao động của gia đình
- So hữu nhà
- So hữu tai sản khác (như xe, điện thoại)
- Dac điểm nơi cư trú của khách hàng
- Loại hình công việc của khách hàng
1.3.2 Thông tin tài chính cá nhân
Phân tích thông tin tài chính và các mối liên hệ tài chính là quan trọng nhất với xếphạng tín dụng cá nhân, vì đây là cơ sở chính cho thấy khả năng trả được nợ tín dụng của
khách hàng, từ đó ra quyết định cấp hạn mức cho khách hàng Một số chỉ tiêu tài chính cần
được phân tích:
- Thu nhập ròng hàng tháng
- Tiét kigm
- Gidtri tong tai san ng (tông dư nợ)
- Giá trị tài sản đảm bao
- _ Mối quan hệ với ngân hang
- _ Số dịch vụ khác đang sử dụng
- Số sản phẩm tín dụng khác đang sử dụng
- _ Hình thức chi lương
- _ Sô lân vay nợ mới
Ngoài những nhân tổ nêu trên nhằm ra quyết định ban đầu cho một khách hang đượcvay tín dụng Tuy nhiên, những nhân tổ trên không phản ánh được cách thức, mục dich,nhu cầu sử dụng tín dụng và uy tín của khách hàng với việc trả nợ Vì vậy, chúng ta cầnphải phân tích các nhân tố thuộc về hành vi sử dụng tín dụng của khách hàng Những nhân
tố này cho thay được cách thức, thói quen, mục đích, nhu cầu riêng về sử dụng tín dụng,
8
Trang 16cũng như uy tín của họ trong trả nợ với ngân hàng Từ những kết quả phân tích hành vi rút
ra được, các tô chức tín dụng (Ngân hàng thương mại) có thể ra quyết định tăng, giảm hạnmức hoặc ngưng cấp tín dụng; xây dựng chính sách marketing phù hợp với nhu cầu củakhách hang; cách thức thu hồi nợ tín dụng dưa trên năm bắt thói quen chỉ tiêu; dé có thé
giảm được thâp nhât rủi ro tín dụng Vậy, một sô các nhân tô cân được phân tích như sau:
Thói quen chỉ tiêu (% thanh toán bằng tín dụng)
Uy tín trong giao dịch Trung thực trong giao dịch
Tổng dư nợ trung bình và tỉ lệ dư nợ trên thu nhập trung bình định kỳ hằng tháng
Tỉ lệ số tiền phải trả theo kế hoạch / nguồn trả nợ
Lịch sử vay và trả nợ
Ý định — mục đích sử dụng của khách hàng
1.4 Các phương pháp xếp hạng tín dụng
1.4.1 Phương pháp chuyên gia
Phương pháp chuyên gia sẽ dựa trên ý kiến thâm định của các chuyên gia về rủi ro
đôi với một khoản tín dụng Rủi ro sẽ được căn cứ trên các thông tin chủ yêu đó là:
Đặc điểm của chủ thể vay: Tham định danh tiếng, tính trung thực của người vay vốn.Vốn: Thâm định sự chênh lệch giữa tài sản và nguồn vốn của người cho vay Tài sảnchính là những giá trị mà ngân hàng có thé thu hồi khi người vay không trả được nợ.Nguôn vốn có thé là các chi phí mà người vay đang phải chi trả như chỉ tiêu gia đình,
chi phí sinh hoạt, chi phí trả lãi từ các khoản vay khác, Sau khi trừ đi các chi phi
chúng ta sẽ biết được giá trị khả dụng của người vay và liệu nó có đủ đề bao quát lãi
vay hay không?
Tài san dam bao: Sẽ có 2 loại hình thức cho vay được phân chia dựa trên tài sản dam
bảo đó là vay thế chấp (có tài sản đảm bảo) và vay tín chấp (không có tài sản đảmbảo) Rủi ro của 2 hình thức cho vay này là khác biệt nhau nên lãi suất và hạn mức
của chúng cũng sẽ khác biệt để đảm bảo dung hòa giữa lợi nhuận và rủi ro đối với
ngân hàng Đối với vay thế chấp ngân hàng sẽ phải định giá chính xác giá trị của các
tài sản thé chấp Gia tri các tai sản nay sẽ quyét định hạn mức tin dung mà ngân hang
sẽ cấp cho người vay Rủi ro đối với các khoản vay thế chấp là thấp hơn tín chấp vìtrong trường hợp khách hàng không có khả năng thanh toán, ngân hàng được quyền
thu hồi tài sản đảm bảo
Trang 17Khả năng trả nợ: Là các thông tin liên quan trực tiếp đến khả năng tài chính của
người vay đó là: nghề nghiệp, mức thu nhập, trạng thái hôn nhân, số người phụ
thuộc,
Điêu kiện: Đánh giá sơ bộ trạng thái của người vay có tham chiếu tới điều kiện thi
trường, bối cảnh tài chính, áp lực cạnh tranh, mục đích sử dụng vốn, Chăng hạn
người vay là hộ dân trồng cafe nhưng năm vừa qua thị trường cafe giảm giá mạnh
Do đó sẽ khiến lợi nhuận và khả năng thanh toán của người vay xuống thấp hơn dự
kiên.
Phương pháp chuyên gia là phương pháp thủ công vì nó dựa trên kinh nghiệm của
con người Do đó quá trình thâm định sẽ tốn kém về thời gian Đồng thời ý kiến đánh giácũng không nhất quán giữa các chuyên gia Do đó một phương pháp khác được khuyếnnghị phát triển ở hội nghị Basel nhằm đưa ra các đánh giá nhanh chóng và nhất quán hơn
Đó chính là phương pháp thống kê sử dụng các mô hình học máy
1.4.2 Phương pháp thống kê
Phương pháp thống kê sẽ dựa trên điểm số được lượng hóa từ mô hình học máy.Phương pháp này có nhiều điểm tối ưu hơn so với phương pháp chuyên gia:
Những mô hình đưa ra kết quả dường như là ngay lập tức Do đó thời gian thâm định
hồ sơ nhanh chóng và rất phù hợp với các nền tảng cho vay online
Năng suất thấm định từ mô hình cao hơn rất nhiều so với các chuyên gia Một méthình có thé giải quyết số lượng hồ sơ bằng khối lượng công việc của hang trăm
hồ sơ và khá tốn thời gian để hoàn thành thâm định
Mô hình sẽ xem xét toàn diện các biến số đầu vào và thậm chí có thể gia tăng sốlượng biến tùy ý mà không ảnh hưởng tới thời gian dự báo Trong khi phương phápchuyên gia sẽ chịu hạn chế bởi khả năng của con người là có hạn Việc đánh giá hồ
sơ đôi khi chỉ được nhận định trên một số biến chính
Chính vì những lợi thế đó, phương pháp mô hình đang dần thay thế phương pháp
chuyên gia và trở thành phương pháp thâm định chủ yếu tại các ngân hàng Trong thực tế,
10
Trang 18tùy thuộc vào phương pháp thông kê được sử dụng trong Xếp hạng tín dụng, có thể tiếp cậntheo các mô hình thống kê sau:
- M6 hình hồi quy Logistic (Logistic Regression)
- Mang no ron nhan tao (Neural Networks)
- Phuong pháp lân cận gần nhất K (K Nearest Neighbor)
- Phương pháp giải thuật di truyền (Genetic Algorithm)
- Sơ đồ cây quyết định (Decision Tree)
- _ Thuật toán rừng ngẫu nhiên (Random Forest)
11
Trang 19Kết luận chương 1Chương 1 đã bước đầu khái quát và hệ thống hóa các khái niệm về xếp hang tín dụngnói chung và xếp hạng tín dụng khách hàng cá nhân nói riêng Trong thời kỳ mà thị trườngtài chính dang phát triển rất mạnh mẽ buộc cho tat cả các ngân hang và doanh nghiệp tàichính phải không ngừng phát triển và học hỏi những phương pháp tiếp cận các hệ thốngxếp hạn tín dụng mới nhất đề thích nghi với yêu cầu chặt chẽ của thị trường Từ đó, rấtnhiều phương pháp xếp hạng tín dụng đã được các nhà quản trị rủi ro nghiên cứu và vậndụng trong nội bộ và hơn nữa là hình thành các tổ chức cung cấp giải pháp tín dụng mới.Cùng với đó, tác giả đã đề cập các yếu tố cần thiết của một mô hình xếp hạng tín dụng vàtầm quan trọng của xếp hạng tín dụng trong thị trường hiện nay Một vài phương pháp họcmáy (Machine Learning) phổ biến trong xếp hạng tín dụng cũng được nhắc đến trong nội
dung chương Quy trình chi tiết để xây dựng một hệ thống xếp hạng tín dụng cho khách
hàng cá nhân vận dụng mô hình Logistic sẽ được tác giả trình bày ở Chương 2 và 3.
12
Trang 20Chương 2: Quy trình xây dựng mô hình xếp hạng tín dụng cá nhân
Ở chương 2, tác giả sẽ trình bày quy trình xây dựng mô hình xếp hạng tín dụng kháchhàng cá nhân Trong đó bao gồm cụ thể các cơ sở lý thuyết và phương pháp luận của từng
bước được áp dụng để xây dựng nên một mô hình xếp hạng tín dụng khach hàng cá nhân hoàn thiện nhất từ khâu chuẩn bị dữ liệu, quy đổi giá trị, ước lượng và kiểm định mô hình cho đến kết quả phân hạng điểm tín dụng cuối cùng của từng khách hàng Dưới đây hình
ảnh mô tả một quá trình chỉ tiết và kết quả của từng bước
Hình 2.1 Quy trình xây dựng mô hình xếp hạng tin dụng khách hàng cá nhân
Quá trình xây dựng mô hình Kết quả đầu ra
Chuẩn bị và : —> Bộ dữ liệu đưa vào mô hình
kiêm tra dữ liệu
Phân tích đơn biến ;
(Phân nhóm theo biến Kêt quả phân nhóm theo biên
quy đôi WOE và lựa | “======—— | biliệuquy đổi WOE
chọn danh sách biên , „
cu ối) Danh sách biên cuôi cùng
Hồi quy Logistic —— Kết quả mô hình cuối
Trang 212.1 Chuẩn bị và xử lý dữ liệu
Bước đầu tiên trước khi thực hiện xây dựng một mô hình thực tế là khám phá vàhiểu được bộ đữ liệu mẫu Các phương pháp thống kê mô tả đơn giản như phân phối cácgiá tri, giá tri trung bình / trung vi, ty lệ dữ liệu bị thiếu và phạm vi giá tri cho từng đặcđiểm có thé cung cấp thông tin chi tiết về bộ dữ liệu Ngoài ra, trực quan hóa dit liệu bangcác đồ thị cũng giúp các nhà phân tích quan sát được tất cả các trường hợp đữ liệu bị thiếuhoặc dit liệu ngoại lai Hau hết dữ liệu ngành tài chính đều chứa các giá trị bị thiếu hoặccác giá trị có không có ý nghĩa đối với một đặc tính cụ thé Đây có thé là các trường dữ liệukhông có sẵn do không được điền bởi người nộp đơn Một số phương pháp đề xử lý dữ liệu
bị thiếu hoặc ngoại lai như sau:
- Loại trừ tất cả dữ liệu có giá trị bị thiếu — đây là phân tích trường hợp hoàn chỉnh
và trong hầu hết các trường hợp trong ngành tài chính, có thê sẽ dẫn đến rất ít hoặc thiếu số lượng mẫu của bộ dữ liệu dé đưa vào nghiên cứu.
- Quy đổi các giá trị đữ liệu thiếu vào một nhóm riêng và có thé sử dụng nhóm này
làm dit liệu đầu vào dé hồi quy mô hình Tuy nhiên, trọng số của nhóm dữ liệu bịthiếu không được phép quá cao vì nó cỏ thể gây sai lệch kết quả của mô hình
- Quy đối dữ liệu thiếu sang giá trị trung bình hoặc trung vi dựa trên các kỹ thuật
thống kê
2.2 Phân tích đơn biến (Single Factor Analysis) — Lựa chọn danh sách biến cuối cùng
Phân tích đơn biến (Single Factor Analysis - SFA) là quá trình phân tích, đánh giá
và lựa chọn ra các biến giải thích phù hợp có khả năng dự báo tình trạng Tốt/Xấu của khách
hàng/khoản vay trong một khoảng thời gian xác định.
Phương pháp phân tích thống kê được sử dụng để nhằm đánh giá khả năng phân biệtcủa biến gồm có hai bước: (1) Phân nhóm và ghép nhóm biến (Binning) và (2) Xác địnhdanh sách biến cuối cùng
14
Trang 222.2.1 Khả năng phân biệt của từng lựa chọn — Weight of evidence (WOE)
Weight of evidence (WOE) là một trong những kĩ thuật phân tích và lựa chọn biếnđặc trưng thường được áp dụng trong mô hình thẻ điểm tín dụng Phương pháp này sẽ xếphạng các biến thành mạnh, trung bình, yếu, không tác động, dựa trên khả năng, sức mạnh
dự báo khả năng một biến đạt trạng thái Xấu Tiêu chuẩn xếp hạng sẽ là chỉ số giá trị thôngtin IV (Information value) được tính toán từ phương pháp WOE Đồng thời mô hình cũngtạo ra các giá trị cho mỗi biến Giá trị này sẽ đo lường sự khác biệt trong phân phối giữaKhách hàng Tốt và Khách hàng Xấu
Công thức tinh giá tri WOE của từng nhóm giá tri:
WOE; = Log0dds, = In (2)% Bad; (1)
Trong do:
%Good,: Phân phối khách hang tốt trong một nhóm giá trị
%Bad;: Phan phối khách hàng xau trong một nhóm giá tri
Giá trị âm của WOE thể hiện răng tỷ lệ khách hàng tốt trong lựa chọn nhỏ hơn tỷ lệ
khách hàng xấu và ngược lại
Sở di các mô hình thẻ điểm tín dụng lại ưa chuộng WOE bởi vì đây là phương phápbiến đổi biến có nhiều ảnh hưởng tích cực tới quá trình hồi quy Logistic Các lợi thé đó là:
Phương pháp WOE giúp ta chia nhỏ các biến liên tục thành các khoảng biến mà giátrị của nó là đơn điệu (đồng biến hoặc nghịch biến) với biến phụ thuộc dựatrên WOE tương ứng với mỗi khoảng Do đó các hệ số trong phương trình hồi quyLogistic sẽ giải thích được đúng thực tế mối quan hệ giữa biến độc lập với biến phụ
thuộc.
Phân nhóm bang phương pháp WOE giúp dé dàng hiểu các mối quan hệ va do đó cóthêm kiến thức về danh mục đầu tư Biểu đồ hiền thị mối quan hệ giữa các thuộctính của một đặc tính và hiệu suất là một công cụ mạnh mẽ hơn nhiều so với một
biến đơn giản thống kê sức mạnh Nó cho phép người dùng giải thích bản chất của
mỗi quan hệ này, ngoài sức mạnh của mối quan hệ Điều này có thé giúp phát triểncác chiến lược tốt hơn dé quản lý danh mục dau tư
Giá trị WOE phản ánh được ảnh hưởng của từng nhóm biến phân loại lên biến phụthuộc Vì giá trị WOE thể hiện tỷ lệ giữa %GOOD/%BAD, đây là chỉ số ảnh hưởng
trực tiêp đên xác suât vỡ nợ của khách hàng.
15
Trang 23Đối với các biến quá phân tán thì WOE sẽ nhóm thành những nhóm thành các phânloại và hệ số WOE thể hiện thông tin cho toàn bộ nhóm.
Phương pháp WOE giúp loại bỏ các giá trị ngoại lai (Outliers) vì các biến có khoảngbiến thiên lớn sẽ được nhóm lại thành các nhóm giá trị có cùng đặc điểm thống kê
Giá trị của các quan sát ngoại lai (Outliers) sẽ không còn khác biệt so với các những
quan sát khác thuộc cùng nhóm vì chúng cùng được gán giá trị bằng trọng số WOE
Chính nhờ những lợi thế trên mà WOE đã được sử dụng phô biến trong các mô hìnhThẻ điểm tín dụng Tuy nhiên phương pháp WOE cũng có những hạn chế nhất định đó là:
Khi tính toán WOE, rất khó đề biết phân chia bao nhiêu nhóm giá trị (bins) là phùhợp đối với biến liên tục hoặc khi nào thì nên nhóm các nhóm với nhau hoặc tách
nhóm.
Do các biến WOE là luôn đơn điệu với biến phụ thuộc nên giữa các biến độc lậpluôn có sự tương quan (do cùng tương quan với biến phụ thuộc) Điều này có thédẫn đến nguy cơ đa cộng tuyến cao ảnh hưởng tới khả năng giải thích của hệ số hồi
quy.
Dễ dàng xảy ra Overfitting — Hiện tượng mô hình quá khớp với tệp dữ liệu, do có
thê hiệu chỉnh ảnh hưởng của biến bằng cách nhóm các phân loại
2.2.2 Xu hướng WOE sau khi được ghép nhóm
Xu hướng thay đổi của WOE/ ty lệ khách hàng xau cần đáp ứng được ý nghĩa kinh
tế Nhóm giá trị của biến được kỳ vọng thể hiện chất lượng tín dụng cao hơn phải có giá triWOE cao hơn hoặc tỷ lệ khách hàng xấu thấp hơn các nhóm khác của biến
Bảng dưới đây là một ví dụ về xu hướng của WOE và tỷ lệ khách hàng xấu Sau khighép nhóm, biến thé hiện được mối quan hệ hợp lý giữa giá trị biến và tình trạng Tốt/Xấucủa khách hàng Như minh họa ở bảng dưới đây, WOE và tỷ lệ khách hàng xấu thỏa mãngiả thuyết: SO ngày quá hạn trong ba tháng gan đây càng nhiễu thì tỷ lệ khách hàng xấucàng cao hoặc giá trị WOE càng thấp
Bảng 2.1 Minh họa biễn “Số ngày quá hạn tối đa của khoản vay trong 3 tháng gan
day oe.
Cut_point Good Bab Total Bad rate | Per bin WOE
0 DPD 96,230 285 96,515 0.3% 67.2% 1.23
16
Trang 24© Cut_point: Khoảng cắt giá trị của biến.
© Good: Số lượng quan sát tốt trong từng khoảng cắt
e Bad: Số lượng quan sát xấu trong từng khoảng
e Total: Tổng số lượng quan sát trong từng khoảng
e Bad_rate: Tỷ lệ quan sát xấu trên tổng số lượng quan sát trong từng khoản
© Per_bin: Tỷ lệ % xét trên số lượng quan sát từng khoảng trên tổng số lượng quan sát
của tất cả các khoảng
e WOE: Khả năng phân biệt của từng lựa chọn
e DPD: Day past due — Số ngày quá hạn nợ
2.2.3 Khả năng dự đoán của biến - Information Value
Information Values (IV) được sử dụng dé đánh giá mức độ trọng yếu khi phân tíchđơn biến trong việc phân biệt khách hàng tốt và khách hàng xấu IV được đo lường bằng
công thức:
IV = }(%6Good; — %Bad,).WOE; (2)Trong đó: n là số lượng nhóm giá trị của biến
IV luôn nhận giá trị dương vì WOE; và (%Good; — %Bad;) đồng biến Giátrị IV sẽ cho ta biết mức độ chênh lệch của %Good và %Bad ở mỗi khoảng bin là nhiềuhay ít Nếu IV cao thì sự khác biệt trong phân phối giữa %Good và %Bad sẽ lớn và biếnhữu ich hơn trong việc phân loại hồ sơ và trái lại IV nhỏ thì biến ít hữu ích trong việc phânloại hồ sơ Tiêu chuẩn phân loại sức mạnh của biến theo giá trị IV như bên dưới:
17
Trang 25Bảng 2.2 Các mức khả năng phân biệt của IV
Khoảng giá trị IV Khả năng phân biệt
IV < 0.02 Không có khả năng phân biệt
0.02 < Iƒ < 0.1 Khả năng phân biệt kém
0.1< IV < 03 Khả năng phân biệt trung bình
IV > 03 Khả năng phân biệt tốt
2.2.4 Quá trình phân nhóm giá trị
Phân nhóm và ghép nhóm biến là kỹ thuật chuyên đổi dé phân loại giá trị/lựa chọnban đầu của biến s6/bién phân loại thành các nhóm mới dựa trên:
- Mối quan hệ thứ tự giữa giá trị/lựa chọn ban đầu (nếu có)
- Ty lệ quan sát xấu của từng lựa chọn là tuyến tính qua từng nhóm (cùng tăng hoặc
cùng giảm)
- Y nghĩa kinh tế của từng mức rủi ro được thé hiện bởi biến (chiều kỳ vọng của biến,
ví dụ kì vọng giá trị biến càng cao thì tỷ lệ quan sát xấu sẽ càng cao hoặc càng thấp)
Một biến được chuyên đổi hiệu quả khi có sự phân biệt rõ rệt về mức độ rủi ro trongcác nhóm được tạo của biến (thé hiện qua giá trị TV lớn hơn mức chấp nhận được) Trong
quá trình thực hiện nghiên cứu và xây dựng mô hình, tác giả sử dụng thuật toán phân nhóm
Optbinning Day là một thư viện được viết bằng ngôn ngữ lập trình Python nhằm triển khai
công thức lập trình toán học linh hoạt và nghiêm ngặt dé giải quyết van dé tạo ra những
nhóm ưu cho loại biến mục tiêu nhị phân, liên tục và đa lớp, kết hợp các ràng buộc chưa
được giải quyết trước đó Một số lưu ý về việc phân nhóm và ghép nhóm như sau:
- _ Một biến có thé được phân thành tối đa 20 nhóm ban đầu Tùy thuộc vào kịch bản
phân nhóm tốt nhất, hệ thống sẽ đưa ra kết quả phân nhóm cuối cùng bao gồm từ 2
— 20 nhóm cho mỗi biến và tính toán các tỷ lệ, giá trị WOE, IV tương ứng
- _ Đối với biến liên tục, các nhóm sẽ được chia theo nguyên lý trên thành các khoảng
giá trị tương ứng.
- _ Còn đối với biến đa lớp, nhị phân, hệ thống sẽ nhóm lại các giá trị có cùng tỷ lệ quan
sát và cùng ý nghĩa về mặt kinh tế (Vi dụ với biến Trình độ học van: Hệ thống sẽ
chia biến theo các nhóm trình độ như Học vấn cao, học vấn thấp).
18
Trang 26Bang 2.3 Minh họa bién ‘Trinh độ học van’
Count Non- Event
Bin Count Event WoE IV
(%) event rate
[Academic degree’ 'Higher
66806 0.26496 | 63134 | 3672 | 0.05496 | 0.48866 | 0.05178 education']
Các nhóm mới của biến được tạo thành phải có tỷ lệ quan sát xấu tăng dan hoặc
giảm dân, thê hiện xu hướng đơn điệu với tỷ lệ xâu và có ý nghĩa vê mặt kinh tê.
Một nhóm mới của bién thông thường sẽ chiếm tỉ lệ tổng số lượng quan sát tối thiểu5%, tuy nhiên có những trường hợp chiếm tỉ lệ nhỏ hơn do trong dai giá trị của biếntồn tai một giá trị chiếm đến hơn 95% tổng số lượng quan sát
Không có nhóm nào chứa toàn Good/Bad.
Sau khi thực hiện quá trình phân nhóm, tác giả sẽ thực hiện kiểm tra xem một biến
đã được chia nhóm hợp lý và chính xác hay không băng cách quan sát đồ thị đường cong
giá trị WOE Nếu kết quả phân nhóm không phù hợp với các tiêu chí về ty lệ quan sát hay
ý nghĩa kinh tế, cần phải thực hiện điều chỉnh việc chia nhóm sao cho đặc điểm của từngnhóm là hợp lý và khả năng phân biệt là mạnh mẽ hơn, phù hợp với ý nghĩa thực tế Dưới
đây là một ví dụ về kết quả phân nhóm của biến LTV — Loan to Value Đây là biến tỷ lệ
vay trên giá tri được tính băng cách chia khoản tiên cân vay cho giá tri của tai sản, hoặc
khoản tiền bạn cần bỏ ra dé mua tài sản ấy Xét về góc độ kinh tế, giá trị LTV càng cao thìmức độ rủi ro của khách hàng càng thấp hay tỷ lệ khách hàng xấu càng cao tương đươngvới giá trị WOE càng thấp Do đó quan sát bảng giá trị và đồ thị dưới đây thấy được đườngcong WOE đang có xu hướng đi xuống
Bảng 2.4 Minh họa bién ‘LTV — Loan to Value’
Bin Count Count (%) | Non-event | Event Event rate WoE IV
(-inf, 109555 |0.43451273 | 102103 7452 0.06802062 | 0.26163971 | 0.02670
1.10)
19
Trang 2760000 4
20000
g1
BH“ Non-event Z Bin special
maE.ent *_' Bin missing
Trong đó:
e _Non— event: Trạng thái Khách hàng Tốt
e Event: Trạng thái Khách hàng Xấu
e Bin special: Nhóm giá tri quy đổi cho dit liệu ký hiệu đặc biệt (Nếu có)
e Bin missing: Nhóm giá trị quy đôi cho đữ liệu thiếu
2.2.5 Xác định danh sách biến cuối cùng
Sau khi các đặc điểm mạnh nhất được nhóm lại và xếp hạng, việc lựa chọn biến đượcthực hiện Khi kết thúc phân tích đơn biến ban đầu, tác giả sẽ có một danh sách các biến đủ
điêu kiện dé sử dụng trong mô hình cuôi cùng Các biên được lựa chọn sẽ được quy đôi
20
Trang 28sang giá trị WOE tương ứng với từng nhóm đã được chia trước đó nhằm phục vụ cho việcthực hiện hồi quy Logistic.
Điêu kiện lựa chọn biên được dựa trên các đánh giá sau đây:
- Phạm vi và xu hướng của WOE qua các nhóm biến được thể hiện phù hợp với ý
nghĩa kinh tế
- Kha năng phân biệt và dự đoán của biến được đánh giá bang giá trị IV — Information
Value > 0.02.
- _ Cân nhắc về hoạt động và chính sách kinh doanh.
2.3 Phương pháp hôi quy Logistic
Hồi quy Logistic nhị phân là phương pháp phân tích hồi quy điển hình nhằm dự đoánxác suất khách hàng có trạng thái Xấu (Y=1) với biến nhị phân Y mang hai giá trị 0 và 1,tương ứng với trạng thái Tốt và Xấu của khách hàng, dựa trên một hoặc nhiều biến giải
© Ø; Ø„ là các hệ số hồi quy tương ứng với các biến X, đến X
e a là hệ số chặn trong hàm hồi quy
e _ Y là biến phụ thuộc nhị phân Khoản vay tại thời điểm quan sát tương ứng được xác
định khi :
ft = 0: Khách hang có trang thái Xấu
Y = 1: Khách hàng có trạng thái Tốt
e X là biến giải thích Cụ thé, giá trị của từng biến X sau bước phân tích đơn biến sẽ
được chuyên về các giá trị WOE — Weight of Evidence của từng biến dé đưa vào hồiquy mô hình Logistic Việc này được thực hiện nhằm đưa các biến có các độ đo khácnhau (Số tiền theo VND, Số lần thanh toán nợ, a) về cùng một độ đo đề có thể phântích tác động của từng biến lên xác suất khách hàng trở thành xấu trong mô hình
cui.
21
Trang 29e PD, là xác suất khách hàng có trạng thái là xấu.
2.4 Kiểm định khả năng phân biệt của mô hình
Kiểm định mô hình nhằm đánh giá khả năng phân biệt của mô hình qua những bộ
dữ liệu khác với bộ dữ liệu được sử dụng đề xây dựng mô hình, nhằm tránh trường hợp mô hình có kết qua dự đoán tốt cho bộ xây dựng, nhưng lại có kết quả không tốt cho các bộ dit
liệu khác.
Công cụ phổ biến dé đo lường khả năng phân biệt của một mô hình là AUC — diện
tích dưới Đường cong đặc trưng (ROC) hoặc chỉ số GINI.
GINI = 2+ AUC — 1 (5)
Đường cong ROC được xác định băng cách vẽ tần số lũy kế các trường hợp khách
hàng không trả được nợ xảy ra được thể hiện trên trục yva tần số lũy kế tổng số khách hàngtrả được nợ tương ứng được thể hiện trên trục x Mỗi điểm của Đường cong đặc trưng tương
ứng với một giá trị PD ước lượng từ mô hình, với giá trị xâu nhât ở bên trái của biêu đô.
Một mô hình có khả năng phân biệt lý tưởng sẽ cho thấy các trường hợp khách hàngkhông trả được nợ sẽ có các giá trị PD cao nhất Từ đó Đường cong đặc trưng của mô hình
có khả năng phân biệt lý tưởng sẽ chạy từ điểm dưới cùng bên trái (0%, 0%) đến điểm trêncùng bên trái (0%, 100%) và từ đó đến điểm trên cùng bên phải (100%,100%) Gia tri x va
y của Đường cong ROC luôn bang nhau nếu tan số xảy ra của các trường hợp tốt và xấubăng nhau có nghĩa là mô hình không có khả năng phân biệt giữa khách hàng Tốt và kháchhàng Xấu Trong trường hợp này đường ROC chính là đường chéo của hình vuông Ví dụ
về một đường cong ROC:
CUM %BAD.
Việc xác định ngưỡng AUC tùy thuộc vào một số yếu tố sau:
22
Trang 30- Chat lượng dữ liệu: chất lượng dữ liệu càng tốt thì ngưỡng yêu cầu đối với AUC
càng cao.
- Mức độ phát triển trong quá trình xây dung va sử dụng mô hình: Mô hình càng được
áp dụng sâu rộng trong hoạt động ngân hàng thì yêu cầu đối với AUC càng cao
- _ Loại mô hình: Các mô hình thiên về application - A Score (vi dụ như mô hình cham
điểm phê duyệt) thường có AUC thấp hơn các mô hình thiên về behavior — B Score
- Dù các yếu tố trên như thế nào, mức AUC dưới mức 65% thường là không chấp
nhận được.
Bang 2.5 Kha năng phan biệt của mô hình thông qua AUC
AUC GINI tương ứng Khả năng phân biệt
70% < AUC 40% < GINI Mô hình có khả năng phân biệt rat tốt
Mô hình có khả năng phân biệt chấp
65% < AUC < 70% 30% < GINI < 40% ˆ
nhận được 62.5% < AUC < 65% 25% < AUC < 30% Mô hình suy giảm khả năng phân biệt
Mô hình có khả năng phân biệt rất
AUC < 62.5% GINI < 25%
kém Cần xây dựng lại
2.5 Quy đổi diém và phân hạng khách hàng
2.5.1 Quy đối điểm
Bước phân tích đa biến sẽ xác định mô hình cuối cùng với kết quả là giá trị xác suấtkhách hàng vỡ nợ (PD_ Probability of Default) Tuy nhiên, việc ứng dụng trực tiếp giá tri
PD trong hoạt động kinh doanh có thé không quen thuộc đối với các bộ phận kinh doanh
Do vậy, kết quả PD từ mô hình thường được quy đổi sang giá trị điểm (Score) dé có thé sửdụng thuận tiện và dé hiểu hơn trong hoạt động kinh doanh của Ngân hàng, đặc biệt đối với
bộ phận kinh doanh và thâm định KHCN
Một trong những phương pháp quy đổi điểm từ giá trị PD phổ biến nhất là quy đổi
thành giá trị điểm theo hàm logarit, với tỉ lệ Odds tăng gấp đôi ứng với mỗi 50 điểm tăng
Trang 31Đề tính toán giá trị Offset và Factor, cần xác định và lựa chọn 3 tham số bao gồm:
- Mure điểm cơ sở (Reference Score): Đối với khách hàng cá nhân, thông thường mức
điểm cơ sở được lựa chọn 600
- PDO (Points to double the odds): mức điểm làm tăng gấp đôi tỉ lệ odds, thông thường
giá trị PDO được lựa chọn thường là 50.
- _ Ti lệ Odds tại mức điểm cơ sở (odds at reference score): giá trị tỉ lệ odds được lựa
chọn tại mức điểm cơ sở phụ thuộc và cấu trúc và tỉ lệ vỡ nợ thực tế danh mục của
Ngân hàng, thông thường được lựa chọn là 30:1.
Khi đó các giá trị được tính toán như sau:
PDO
In (2) 7)
- Offset = Reference Score — Factor * ln(0dđs) (8)
- Factor =
Vi du với một thẻ điểm có các giá trị giả thiết như sau:
- _ Mức điểm cơ sở Reference Score = 600
- _ Tỉ lệ Odds tại mức điểm này là 30:1
- Gidtri: Factor = 50/In(2) = 70.13
- Gidtri: Offset = 600- 70.13 * In(30) = 361.47
Khi đó, gia trị điểm quy đổi từ gid tri PD được tính toán theo công thức sau:
Score = 361.47 + 70.13 *In(@—)
Vì thẻ điểm ở đây dang được xây dung bang cách sử dung phương pháp quy đổiWeight of Evidence - WOE làm đầu vào cho phương trình hồi quy Logistic, mối quan hệtrước đó có thé được sửa đổi như sau:
a
Trong do:
- ƒ: Tương ứng từng biến của mô hình
- Ø;: Hệ số hồi quy của từng biến trong mô hình
- a: Hệ số chặn của mô hình
- WoEsay,: Giá trị WOE được quy đổi theo từng biến của mô hình
- _m: số biến của mô hình
Khi đó tổng điểm của một khách hàng sẽ được tính băng:
Score = }jj~1 Score; (10)
24
Trang 32Với n là sô biên của mô hình
2.5.2 Phân hạng khách hàng
Phân hạng khách hàng, về mặt lý thuyết, là quá trình xây dựng hạng dựa trên mục
tiêu phân biệt được mức độ rủi ro của khách hàng giữa các hạng Quá trình phân hạng khách
hàng sẽ được thực hiện trên tập đữ liệu kiểm định, sau khi đã thực hiện chấm điểm chokhách hàng Tác giả sẽ tiếp tục áp dụng phương pháp WOE — Weight of Evidence dé thựchiện phân hạng theo điểm cho khách hàng Bên cạnh đó, một bộ phân hạng tốt, ôn định
thông thường sẽ thỏa mãn thêm các tiêu chí:
Một bộ phân hạng thông thương bao gồm từ 6 — 12 nhóm
Số lượng quan sát không được quá tập trung vào một hạng Một nhóm mới thôngthường sẽ chiếm tỉ lệ tổng số lượng quan sát tối thiểu 5% và không quá 30%
Không có nhóm nao tập trung toàn khách hàng Tốt/Xấu
Hạng càng cao, tương ứng với điểm tín dụng của khách hạng càng cao, tỷ lệ khách
hàng xâu càng giảm.
Sau khi thực hiện phân hạng khách hàng theo điểm, có thể dựa vào các nhóm hạng
đó dé đưa ra các điều kiện ràng buộc hoặc phân loại nhóm nợ khi cho khách hàng vay tín
dụng, tùy thuộc vào chính sách của từng đơn vi ngân hàng hay doanh nghiệp tài chính.
Chăng hạn đối với khách hàng rơi vào hạng quá thấp thì sẽ từ chối khoản vay của kháchhàng hoặc có thê đề nghị khách hàng vay với tài sản đảm bảo hay phải trả phí vay, tiền cọc
25
Trang 33Kết luận chương 2Chương 2 đã trình bày chỉ tiết một quy trình xây dựng hệ thống xếp hạng tín dụng
áp dụng mô hình Logistic Về cơ bản, lý thuyết về mô hình thẻ điểm xếp hạng tín dụng là
khá đơn giản và mô hình được trình bày trong bài nghiên cứu của tác giả chỉ dựa trên
phương trình hồi quy Logistic Tuy nhiên quá trình xây dựng mô hình đòi hỏi phải đáp ứngđược rất nhiều tiêu chí như khả năng giải thích, độ chính xác, chi phí xây dựng, khả năng
áp dụng vào thực tiễn.
26
Trang 34Chương 3: Kết quả phân tích
Dựa trên quy trình xây dựng mô hình xếp hạng tín dụng khách hàng cá nhân được
đưa ra ở chương 2, tác giả sẽ áp dụng co sở lý thuyết và phương pháp luận dé xây dựng
một mô hình xếp hạng tín dụng một cách đầy đủ và chỉ tiết nhất với một bộ dữ liệu mẫu
bao gồm các tiêu chí đành cho phân khúc khách hàng cá nhân Mục tiêu của chương 3 là sẽtrình bày cụ thể kết quả của các bước của quy trình xây dựng mô hình xếp hạng tín dụngkhách hàng cá nhân Từ đó, nêu ra những phân tích và đánh giá cho kết quả của mô hình
thu được.
3.1 Dữ liệu nghiên cứu
Bộ dữ liệu được tác gia sử dụng cho quá trình nghiên cứu được thu thập từ một cuộc
thi dự báo nổi bật - Home Credit Default Risk được phát động triển khai vào năm 2018 trêntrang web https://www.kaggle.com/ Kaggle được ra mắt lần đầu tiên vào năm 2010 bằngcách cung cấp các cuộc thi học máy (Machine Learning) và hiện cũng cung cấp nền tảng
dữ liệu công khai, công cụ làm việc, nghiên cứu trực tuyến cho mảng khoa học đữ liệu vàgiáo dục trí tuệ nhân tạo Kaggle cho phép người dùng tìm và xuất bản các tập dữ liệu,
khám phá và xây dựng mô hình trong môi trường khoa học dữ liệu dựa trên web, làm việc
với các nhà khoa học dữ liệu và kỹ sư máy học khác, đồng thời tham gia các cuộc thi dégiải quyết các thách thức về khoa học dữ liệu
Cuộc thi Home Credit Default Risk cung cấp một bộ dit liệu bao gồm các thông tin
cá nhân, tài chính, lich sử giao dịch giao dịch và các yếu tổ liên quan của khách hàng vớimục dich áp dụng các phương pháp thống kê hay hoc máy khác nhau dé đưa ra những dựbáo về khả năng trả nợ của khách hàng Các kết quả mô hình thu được có thê vận dụng vàothực tế đề hỗ trợ việc ra quyết định và điều chỉnh chính sách, hạn mức, kỳ hạn hay lãi suất
của các hệ thông ngân hàng khi tiêp nhận các khoản vay mới.
Bộ dữ liệu gồm 307,51 1 bản ghi khách hàng và 121 các biến đặc điểm, thông tin liênquan Tuy nhiên trong quá trình thực hiện xây dựng mô hình, tác giả sẽ tiến hành xử lý dit
liệu và lựa chọn ra các biên phù hợp cho mô hình cuôi cùng.
Hình ảnh dưới đây thê hiện mức độ thiêu dữ liệu của các biên Điêu này có thê ảnh hưởng trực tiêp đên kêt quả của mô hình nên tác giả sẽ thực hiện loại bỏ các biên đâu vào
có số lượng giá trị bị thiếu lớn hơn 40% tông số quan sát của bộ dit liệu
27