DE TÀI: UNG DUNG MÔ HÌNH LOGISTIC TRONG XÉP HẠNG TÍN
DỤNG KHÁCH HÀNG CÁ NHÂN
Giáo viên hướng dẫn: TS Hoàng Đức Mạnh
Sinh viên: NGUYÊN HOÀI NAM
Mã sinh viên: 11193576
Lớp chuyên ngành: Toán Kinh tế 61
Hà Nội, tháng 11/2022
Trang 2LỜI CAM ĐOAN
Tác giả cam đoan đề tài nghiên cứu Ứng dụng mô hình Logistic trong xếp hạng tín dụng khách hàng cá nhân là một quá trình nghiên cứu độc lập Các kết quả nghiên cứu trong dé án do tác giả tự tìm hiểu va phân tích một các trung thực, phù hợp với dé tài nghiên
Trang 3LOT CAM ĐOAN cung Hà
101900 0 l5 ii
DANH MUC BANG c0 - HHHĂH , iv
DANH MỤC HINH Lo cescceccscscesseesseesssessessvessvessvcsssssuecssessvcssvcssesssessvessvessscssessussssessecssessstessesseessnesseessessseess vPhan IL: NOi dung chuyén 8n 6“ “-(AäẬABHAH ,H, H ,
Chương 1: Co sé lý thuyết về xếp hang tín dụng
1.1 Khái quát về xếp hạng tín dụng ©5< 5< St ch E212 1211 eo 31.2 TẦm quan trọng của xép hạng tín dung scccccscccsscssseessesssesssesssesssssssessssssssssssssecssessusssusssesssessseessee 51.2.1 Đối với ngân hàng thương mi c- s5 Tre 5
1.2.2 Đối với khách hàng cá nhÂn -©cc cc EkcEE TT E111 eree 6
1.2.3 Thiệt hại từ rủi ro tin dụng Cá 'HÂN 5< 3v vn ng ng nh iệt 6
1.3 Các nhân tơ cần được xem xét khi xếp hạng tín dụng cá nhân -cccccccccccececreerree 71.3.1 Đặc điểm nhân thÂn -c-cStTtEEềE St TT HE TT TH TH HH HT HH tr 7
1.3.2 Thơng tin tài chính cá "ÂN! «1 vn TT TH TH HH rệt 82.2 Phân tích đơn biến (Single Factor Analysis) — Lựa chọn danh sách biến cuối cùng 14
2.2.1 Khả năng phân biệt của từng lựa chọn — Weight of evidence (WOE) -«-s<<+ 15
2.2.2 Xu hướng WOE sau khi được ghép? nhom c- << 3E Hàn ng 16
2.2.3 Khả năng dự đốn của biến - Information Value . ©5c©5cccc+cccEtcEEcEEererkrrkerrrreee 17
2.2.4 Quá trình phân nhĩm giá trị
2.2.5 Xác định danh sách Dien CHỐI CUNY 55-25 5C SE SE SE E22 1.21211211111111 ke 20
Trang 42.3 Phương pháp hồi quy LOgiStic ccccsccssssssssssssssssssssssssesssssssessssssssssssssssusssssessssssssssssecssscsssesssecssecess 21
2.4 Kiểm định khá năng phân biệt của mô hìHÌ: occcoceSctiecrhrrrrreerec 222.5 Quy đổi điểm và phân hang khách NANG veccccccccsccsscesssessssssessssssssessesssesssssssssesssessssssssssesasecssecssecses 23PIN Non nn nh ẽ nen n6 4 H 23
2.5.2 Phân hạng khách hỒIg - -¿- << sàn TH HT TH HT TT HH TH 25
{00 7 N6 “4 B.HẬHà),)à.à 26Chương 3: Kết quả phân tích 2-2 2£ ©+2£E+2SEESEE£EEEEEEEEEEESEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEELrrkrrrrrrii 27
KSN) ii 8200.086 27
3.2 Kết qua quá trình phân tích và lựa chọn biến cuối cùng - 2© ©22©5z+cxeerxecrs 30
3.3 Kết qua do lường các tham số theo phương pháp hồi quy Logistic - 42
3.4 Kết qua kiểm định mô hình - 2-5 +2©SxềE+Et2EEE211271E221127112711 2711.2111111 re 443.5 Kết quá chấm điểm va phân hạng khách hàng 2-2 ©52©S22EEeSEEEEEerxeerkeerxeerxrres 45{€3 6 c8 nh nmủỪụ.g, 50Phan III: Kết luận và khuyến nghị À - 2-22 +sS++SEEEtSEEEEEEEEEEEEEEEvEEEkrEEkkrrrkrrrkkrrrkrerkrrerrrree 51BAL KGt 8 hố A4.+HẶH)H,H., àH )H,H , 51
3.2 Khuyến nghị 2-22 ©2s S5SE119E152E112711271211711715 71.11.111.111 T1 T1 11111 1x 1 crrey 52
Tài liệu tham khảo - cà x1 HH TT HH TT TH HT TT HT TH HT g rht 53
PHU UC 1 54
Trang 5DANH MỤC BANG
Bảng 2.1 Minh họa biến “Số ngày quá hạn tối đa của khoản vay trong 3 tháng gần
Bảng 2.2 Các mức khả năng phân biệt của ÏV cà S Ăn se 18
Bang 2.3 Minh họa biến “Trình độ học vấn" -¿cc- 22c 2222221 2s xx2 19 Bang 2.4 Minh họa biến ‘LTV — Loan to VaÏue” c- c2 c2 22211222 ei 20
Bảng 2.5 Khả năng phân biệt của mơ hình thơng qua ẲC 23
Bảng 3.1 Mơ tả thơng tin các biến trong bộ dữ liệu được sử dụng trong qua trình xây dựng
mơ hình ‹ - c2 SH SE SE SH TT nh KT ni ki kết 28
Bảng 3.2 Kết quả IV — Information Value của từng biến -5 30 Bang 3.3 Kết quả hồi quy mơ hình Logistie -¿ ¿c7 c2 2222222 se243 Bang 3.4 Kết qua dự báo xác suất vỡ nợ - c c2 2211122111252 111111 22x 43 Bảng 3.5 Thống kê mơ tả xác suất vỡ nợ PD dự báo trên tập kiểm định 44 Bang 3.6 Ví dụ cham điểm cho khách hàng c c2 222222222222 22xxs2 45 Bang 3.7 Minh họa kết quả điểm của khách hàng + + ¿c2 2222222 ccsss2 47 Bang 3.8 Thang điểm theo từng hạng + L c2 21111122221 111 1125511111 E cưng48
iv
Trang 6DANH MỤC HÌNH
Hình 2.1 Quá trình xây dựng mô hình xếp hạng tín dụng khách hàng cá nhân 13 Hình 2.2 Quá trình phân tích đơn biến + + 2222222221112 252xxe4 14
Hình 2.3 Biéu đồ giá trị WOE của biến LTV — Loan to Value 20
Hình 2.4 Minh họa đường cong RÓC c c2 nh 22
Hình 3.1 Mô tả mức độ thiếu giá tri của các biến trong bộ dữ liệu 28 Hình 3.2 Mô tả biến CODE_GENDER - c2 2222222211111 1111125511111 xxe 32 Hình 3.3 Mô tả biến AGE - 2222220001011 2221511111111 1 11111 22 1xx yêu 32 Hình 3.4 Mô tả biến NAME_EDUCATION_TYPE -cc c2 22252 ween 33 Hình 3.5 Mô tả biến YRS_EMPLOYED 222 1122221111122 55 1111121511 xe2 33 Hình 3.6 Mô tả biến OCCUPATION_TYPE 22c 11222222225 34 Hình 3.7 Mô tả biến YRS_LAST_PHONE_CHANGE cccc552 2c ss52 35 Hình 3.8 Mô tả biến YRS_ID_PUBLISH - 22 2112222222221 z2 35 Hình 3.9 Mô tả biến ORGANIZATION_ TYPE - c2 222cc vn 37
Hình 3.10 Mô tả biến REGION_RATING_CLIENT_W_CITY - 37 Hình 3.11 Mô tả biến REGION_RATING_CLIENT 2222233333333 ssze 38
Hình 3.12 Mô tả biến REGION_POPULATION_RELATIVE -< 38 Hình 3.13 Mô tả biến NAME_INCOME_ TYPE c2 2222222222222 vn 39
Hình 3.14 Mô tả biến AMT_CREDIT + c2 2222222222211 1111111125552: eee 40
Hình 3.15 Mô tả biến AMT_GOODS_PRICE c c2 2222222222222 40 Hình 3.16 Mô tả biến AMT_ANNUITY 22 1111222222221 111111111 xxeg41 Hình 3.17 Mô tả biến FLAG_DOCUMENT - 2222211111222 ee 41 Hình 3.18 Mô tả biến AMT_REQ_CREDIT_BUREAU_YEAR 42 Hình 3.19 Biéu đồ đường cong ROC - - 2-2 1122222111 11222 511111 5255255 e2 45
Trang 7Hình 3.20 Biểu đồ phân phối phổi điểm của khách hàng -: Hình 3.21 Phân phối kết quả phân hạng
vi
Trang 8Phan I: Mở đầu
1 Lí do chọn đề tài
Hoạt động tín dụng là hoạt động mang tính truyền thống và đem lại lợi nhuận cao nhất cho ngân hàng Nhưng tất nhiên là đi kèm với lợi nhuận cao là rủi ro lớn Rủi ro này
không những chỉ ảnh hưởng đến ngân hàng cho vay tín dụng mà còn có thé ảnh hưởng xấu đến toàn bộ nền kinh tế Hiện nay, các ngân hàng thương mại dang phát triển da dang các
sản phẩm tín dụng dành cho mọi đối tượng Trong đó, hoạt động cho vay tín dụng dành cho khách hàng cá nhân là một sản phẩm dién hình dang được triển khai chủ yếu tại các ngân hàng thương mại Đây là hình thức cho vay tín chấp chứa đựng nhiều rủi ro Nguyên nhân chủ yếu là do khách hàng vay tín dụng không có khả năng trả nợ hoặc trả nợ quá hạn Vì
vậy, việc đánh giá khả năng trả nợ của một khách hàng khi đăng ký khoản vay tín dụng là
một việc vô cùng cân thiệt đôi với môi ngân hàng.
Vài năm trước, khi đăng ký vay, khách hàng điền vào một đề xuất dé đánh giá khả
năng tài chính bởi một hoặc nhiều các chuyên gia tài chính hay còn gọi là phương pháp chuyên gia Bằng kinh nghiệm chuyên sâu trong lĩnh vực tài chính, tín dụng, các chuyên
gia sẽ đã đưa ra các ý kiến hay yêu cầu, điều kiện của khoản vay được đăng ký Mặc dù
hiệu quả, các bước đánh giá của quá trình diễn ra chậm vì nó không phù hợp với việc phân
tích nhiều yêu cầu đăng ký khoản vay cùng lúc Như vậy, mô hình thẻ điểm xếp hạng tín dụng lần đầu được giới thiệu và đề xuất trong các tô chức tài chính nhằm tăng tốc độ đánh giá và sự chính xác trong khâu ra quyết định Các mô hình phân tích tín dụng được gọi là các mô hình chấm điểm tín dụng dựa trên lich sử thông tin từ dit liệu ngân hàng về các khách hàng hiện tai, dé đánh giá liệu khách hàng tiềm năng khi nộp don đăng ký khoản vay sẽ có khả năng trả nợ hay không Hiện nay, các mô hình thẻ điểm xếp hạng tín dụng được thêm vào hệ thống của các ngân hàng và tô chức cho vay tài chính vận dụng các phương
pháp phân tích, mô hình định lượng và học máy với mục tiêu cải thiện khả năng đánh giá
nhanh và chính xác của hệ thống hay cho phép thâm định tin dụng trực tuyến.
Qua những thực trạng trên, đề tài “Ứng dụng mô hình Logistic trong xếp hạng tín dung cho khách hàng cá nhân” được tác giả lựa chọn dé làm chuyên đề tốt nghiệp.
2 Mục tiêu nghiên cứu của dự án
Thứ nhát, tìm hiệu tông quan về các khái niệm và tâm quan trọng của hệ thông xêphạng tín dụng.
Trang 9Thứ hai, hệ thông hóa cơ sở lý thuyết và phương pháp luận của một quy trình xây dựng mô hình thẻ điểm xếp hạng tín dụng cho khách hàng cá nhân.
Thứ ba, dựa trên bộ đữ liệu mẫu, vận dụng mô hình Logistic dé dự báo và xây dựng hệ thống chấm điểm, xếp hạng tín dụng cho khách hàng cá nhân dựa trên kết quả mô hình thu được Đồng thời kết hợp đánh giá và kiểm định độ chính xác của mô hình.
3 Pham vi nghiên cứu
Vấn đề nghiên cứu: Dự báo khả năng trả nợ của khách hàng và xây dựng hệ thống châm điểm và xếp hạng tín dụng khách hàng.
Phạm vi nghiên cứu: Thu thập và sử dụng bộ dữ liệu về thông tin cá nhân, tài chính của khách hàng từ cuộc thi Home Credit Default Risk được phát động triển khai vào năm
2018 trên trang web https://www.kaggle.com/
4 Phương pháp nghiên cứu
Đề tài áp dụng phương pháp nghiên cứu định lượng, sử dụng thống kê mô tả, các thuật toán quy đổi và hồi quy mô hình Logistic dé phân tích dir liệu Trong toán bộ quá trình xử lý số liệu, xây dựng mô hình, tác giả sẽ sử dụng phần mềm Python.
5 Kết cấu chuyên đề
Đề tài gồm cấu trúc các phần như sau: Phần I: Mở đầu
Phần II: Nội dung chuyên đề
Chương 1: Cơ sở lý thuyết về xếp hạng tín dụng
Chương 2: Quy trình xây dựng mô hình xếp hạng tín dụng cá nhân
Chương 3: Kết quả phân tích
Phần III: Kết luận và khuyến nghị
Trang 10Phần II: Nội dung chuyên đề
Chương 1: Cơ sở lý thuyết về xếp hạng tín dụng
Mục tiêu của chương này nhằm tiếp cận một số khái niệm cơ bản, các yếu tố liên quan và các phương pháp tiếp cận lĩnh vực xếp hạng tín dụng nói chung và áp dụng cho phân khúc khách hàng cá nhân nói riêng Từ đó, hình thành cơ sở và phương pháp luận để tiếp tục nghiên cứu trong các chương tiếp theo của đề tài.
1.1 Khái quát về xếp hang tin dụng
Hệ thống xếp hạng tín dụng được xây dựng dựa trên các mô hình sử dụng các công cụ đề đánh giá mức độ rủi ro liên quan đến khách hàng và những ứng viên nộp đơn vay vốn tại ngân hàng hay các tổ chức tài chính Về bản chất mô hình không xác định sự “Tốt”
(không có hành vi tiêu cực) hoặc “Xâu” (có hành vi tiêu cực) của các khách hang và ứngviên trên cơ sở cá nhân Thay vào đó, mô hình sẽ cung câp tỷ lệ thông kê hoặc xác suât màmột ứng viên với bat kỳ diém sô nhat định nào sẽ được coi là “Tot” hoặc “Xâu”.
Những xác suất dự báo hoặc có thể quy đổi thành điểm tin dụng, cùng với những cân nhắc kinh doanh khác như tỷ lệ phê duyệt dự kiến, lợi nhuận, thời gian ngừng hoạt động và ton thất, sau đó được sử dụng làm cơ sở dé ra quyết định dé phát triển các chiến lược ứng dụng mới sẽ tối đa hóa doanh thu và giảm thiểu rủi ro từ khả năng trả nợ của
khách hàng.
Một sô chiên lược dành cho những ứng viên có mức xêp hạng rủi ro cao là:
- Từ chối tín dụng / dịch vụ nếu mức độ rủi ro quá cao.
- Chi định hạn mức tín dụng ban đầu thấp hơn trên thẻ tín dụng hoặc dòng tiền.
- Yéu cầu ứng viên cung cấp một khoản trả trước hoặc tiền đặt cọc cao hơn cho các
khoản thé chấp hoặc cho vay mua 6 tô.
- Tính lãi suất cao hơn đối với khoản vay.
- Tinh phí bảo hiểm cao hon cho các hợp đồng bảo hiểm.
- Yêu cầu ứng viên cung cấp một khoản đặt cọc cho các dịch vụ tiện ích như điện, nước hay điện thoại cố định.
- _ Cung cấp dich vụ di động trả trước thay vì trả sau.
- Tir chối truy cập cuộc gọi quốc tế từ viễn thông các công ty viễn thông.
- Yêu cầu ứng viên cung cấp thêm các tài liệu về việc làm, thu nhập và tài sản.
3
Trang 11- _ Đưa ứng viên vào “Danh sách theo đõi” dé xem xét kỹ lưỡng khả năng gian lận hoạt
động tín dụng.
Ngược lại, những ứng viên đạt điểm tín dụng cao hay được xếp hạng ở mức rủi ro thấp có thê được hưởng mức giá ưu đãi, hạn mức tín dụng cao hơn và được cung cấp các sản phâm ở phân khúc cao cấp, chăng hạn như dưới dang thẻ vàng hoặc bạch kim, hoặc các sản phâm bồ sung do công ty cung cấp.
Điểm tín dụng cũng có thể giúp thiết lập các chính sách thâm định Ví dụ, một ứng
viên đạt điểm rất cao hoặc rất thấp có thể bị từ chối hoặc được chấp thuận hoàn toàn mà không cần thu thập thêm thông tin về bất động sản, xác minh thu nhập hoặc định giá tài sản
đảm bảo.
Các ví dụ trước đã xử lý cụ thể việc chấm điểm rủi ro ở giai đoạn ứng viên nộp đơn đăng ký khoản vay mới Chấm điểm rủi ro cũng được áp dụng tương tự với các khách hàng hiện tại trong hệ thong của ngân hàng hoặc tô chức tài chính Trong bối cảnh này, dữ liệu hành vi của khách hàng với công ty, cũng như dữ liệu số sách được sử dụng dé dự đoán kha năng xảy ra hành vi tiêu cực Dựa trên các cân nhắc kinh doanh tương tự như đã đề cập trước đây (Ví dụ: Mức độ rủi ro và lợi nhuận), các phương pháp xử lý khác nhau có thể
được điêu chỉnh các chính sách của tài khoản, chăng hạn như:
- _ Cung cấp các các sản phâm phân khúc cao cấp và các sản phâm bồ sung - _ Tăng hạn mức tín dụng đối với thẻ tín dung và dòng tiền.
- Cho phép một số khách hàng quay vòng tín dụng vượt ra ngoài hạn mức tin dụng - _ Gắn cờ các giao dịch có khả năng gian lận.
- Pua ra giá tốt hơn khi gia hạn hợp đồng cho vay / bảo hiểm.
- Quyết định có phát hành lại thẻ tín dụng đã hết hạn hay không - Sơ tuyển danh sách tiếp thị trực tiếp dé bán kèm.
- Hướng dan các tài khoản quá hạn sử dụng các phương pháp thu nợ nghiêm ngặt hơn
hoặc thuê cơ quan thu nợ thuê ngoài.
- Dinh chỉ hoặc thu hồi các dịch vụ điện thoại hoặc các tiện ích tín dụng.
- Dua một tài khoản vào “danh sách theo dõi” đôi với hoạt động gian lận tiêm ân.
Xếp hạng tín dụng, ngoài việc là một công cụ dé đánh giá mức độ rủi ro, còn có cũng
được áp dụng hiệu quả trong các lĩnh vực hoạt động khác, chăng hạn như:
- Hop lý hóa quá trình ra quyết định
- Giảm thời gian quay vòng dé xử lý các ứng dụng thông qua ra quyết định tự động
4
Trang 12- Danh giá chất lượng của danh mục đầu tư dự định mua lại
- _ Thiết lập phân bồ vốn kinh tế và quy định
- inh giá dé chứng khoán hóa danh mục các khoản phải thu
- So sánh chất lượng kinh doanh từ các kênh/khu vực khác nhau/các nhà cung cấp.
Do đó, hệ thống xếp hạng tín dụng cung cấp cho các chủ nợ cơ hội ra quyết định nhất quán và khách quan, dựa trên kinh nghiệm rút ra thông tin Kết hợp với kiến thức kinh doanh, mô hình dự đoán công nghệ cung cấp cho các nhà quản lý rủi ro thêm hiệu quả và kiểm soát trong quá trình quản lý rủi ro.
12 Tam quan trọng của xếp hang tin dung
1.2.1 Đối với ngân hàng thương mại
© Cơ sở dé lựa chọn khách hàng cho vay
Trong kinh tế thị trường, sự cạnh tranh gay gắt giữa các ngân hàng yêu cầu các quyết định tín dụng phải vừa nhanh, vừa có độ rủi ro thấp, vừa có hiệu quả cao Nếu không sẽ dễ mắt đi cơ hội tăng thu nhập và mở rộng quy mô tín dụng do khách hàng tìm đến ngân hàng khác hoặc tìm nguồn tài trợ ngoài ngân hàng Muốn có quyết định nhanh và chính xác, ngân hàng phải dự đoán tương đối chính xác về khả năng và thiện chí trả nợ của khách hàng Điều này phụ thuộc vào yếu tố quan trọng là hệ thống thông tin của ngân hàng về khách hàng trong quá khứ và hiện tại Yêu cầu đặt ra là ngân hàng phải có hệ thống thông tin đáng tin cậy và thực hiện tốt công tác xếp hạng tín dụng nhăm tạo cơ sở cho việc đưa ra các quyết định tín dụng tối ưu Thông qua kết quả xếp hạng tín khách hàng, ngân hàng sẽ đánh giá được mức độ tín nhiệm của từng khách hàng vay vốn, xác định được mức độ rủi ro khi cung cấp khoản vay, khả năng trả nợ vay Dựa vào kết quả xếp hạng ngân hàng sẽ quyết định cho vay hay từ chối cho vay đảm bảo tính khách quan, khoa học.
e Cơ sở dé xây dựng chính sách khách hàng và chính sách tín dụng
Trên cơ sở xếp hạng, ngân hàng sẽ phân loại khách hàng và áp dụng chính sách khách hàng về lãi suất cho vay, hạn mức, thời hạn tín dụng phù hợp Đồng thời, cũng xây
dựng chính sách tín dụng, áp dụng kỹ thuật cho vay tương ứng với mỗi loại khách hàng.
Đối với khách hàng có độ tín nhiệm cao, xếp hạng tín dụng tốt, ngân hàng sẽ áp dụng chính sách ưu đãi: cho vay với lãi suất thấp, giá trị khoản vay lớn, điều kiện cho vay nới lỏng hơn Ngược lại, đối với khách hàng có độ tín nhiệm thấp, xếp hạng tín dụng thấp cũng đồng nghĩa với những khoản tín dụng hàm chứa nhiều rủi ro, ngân hàng sẽ áp dụng chính
Trang 13sách cho vay và biện pháp kiểm soát chặt chẽ hơn, nhằm hạn chế khả năng rủi ro tín dụng
xảy ra
© Cơ sở dé xây dựng danh mục tín dụng
Dựa vào kết quả xếp hạng tín dụng, ngân hàng sẽ đánh giá được mức độ rủi ro của
từng doanh nghiệp, từng lĩnh vực hoạt động kinh doanh của khách hàng từ đó xây dựngdanh mục tín dụng phù hợp theo định hướng của ngân hàng trong từng thời kỳ.
1.2.2 Đối với khách hàng cá nhân
Hệ thống Xếp hạng tín dụng là cơ sở dé xây dựng chính sách khách hang phù hợp
với từng nhóm khách hàng với các mức rủi ro khác nhau:
- Nhóm rủi ro thấp: Cho vay với chính sách ưu đãi.
-_ Nhóm rủi ro trung bình: Cho vay với điều kiện bình thường.
- Nhóm rủi ro cao: Có thé không cho vay, hoặc cho vay nhưng áp dụng lãi suất cao hay cho vay với những điều kiện khắt khe hơn.
Vì vậy, tất cả các cá nhân đều có thể tiếp cận và sử dụng sản phẩm tín dụng của ngân hàng phù hợp với điều kiện của mình mà giảm thiểu rủi ro cho ngân hàng Việc xếp hạng tín dụng ngày càng được hiện đại hóa và đơn giản hóa dé giảm thiêu thời gian, chi phí và đáp ứng mọi nhu cầu cho khách hàng Tat cả các khách hàng đều được đánh giá xếp hạng trên một hệ thống quy chuẩn chung, thống nhất trên toàn ngân hang; hạn chế việc đánh giá cảm tính, chủ quan của nhân viên tín dụng, hay kết quả đánh giá xếp hạng khác nhau tại những nơi khác nhau của một hệ thống ngân hàng.
1.2.3 Thiệt hại từ rui ro tín dung cá nhân
Khi rủi ro tín dụng ảnh hưởng nặng nề đến hoạt động kinh doanh của ngân hàng sẽ
gây tâm lý hoang mang lo sợ cho người gửi tiền và có thé những người gửi tiền sẽ 6 ạt rút tiền làm cho toàn bộ hệ thông ngân hàng gặp khó khăn Sự hoảng loan này ảnh hưởng rất lớn đến toàn bộ nền kinh tế, làm cho sức mua giảm, giá cả tăng, xã hội mất ôn định Rủi ro tín dụng của ngân hàng thương mại trong nước cũng ảnh hưởng đến nền kinh tế các nước
có liên quan do sự hội nhập đã gan chặt môi liên hệ về tiên tệ, dau tư giữa các quôc gia.
Ngân hàng thương mại gặp rủi ro tín dụng sẽ khó thu được vốn tín dụng đã cấp và lãi cho vay, nhưng ngân hàng phải trả vốn và lãi cho khoản tiền huy động khi đến hạn, điều nay làm cho ngân hàng mắt cân đối thu chi, mat vốn tự có, mat khả năng thanh khoản,
Trang 14không thể hoàn trả được số tiền huy động, làm mất lòng tin người gửi tiền, ảnh hưởng đến
uy tín của ngân hàng.
Vì vậy, tính chất trung gian đặt ra yêu cầu đầu tiên đối với ngân hàng thương mại là phải thường xuyên thu hồi được số vốn đã cho vay dé duy trì khả năng hoàn trả số tiền huy
động của khách hàng và bảo toàn vôn của mình.
1.3 Các nhân tổ cần được xem xét khi xếp hạng tín dụng cá nhân
Xếp hạng tín dụng cá nhân có hai kỹ thuật đánh giá cơ bản hỗ trợ tổ chức tín dụng ra quyết định cấp tín dụng cho khách hàng là tính điểm tín dụng (sử dụng các yếu tố đặc điểm nhân thân và tài chính) và tính điểm hành vi (sử dụng các yếu tố về hành vi) Dé ra quyết định cấp tín dụng cho khách hàng giao dịch lần đầu tiên, tổ chức tín dụng sử dụng kỹ thuật tính điểm tín dụng Các quyết định đối với khách hàng hiện tại (Có tăng hạn mức tín dụng không? Áp dụng chính sách marketing nào? Nếu khách hàng không trả nợ đúng hẹn thì xử lý ra sao?) được đưa ra dựa trên điểm số về hành vi của khách hàng Vì vậy, khi tiến hành xếp hạng tín dụng cá nhân theo hai kỹ thuật trên cần phải phân tích các nhân té theo từng nhóm, phục vụ cho mục tiêu nghiên cứu, ứng dụng khác nhau Qua tổng hợp từ các nghiên cứu liên quan với cả hai kỹ thuật, tác giả muốn hệ thống lại các nhân tô có thể ảnh
hưởng đên khả năng trả nợ của mỗi cá nhân, cụ thê như sau:
1.3.1 Đặc điểm nhân thân
Mỗi cá nhân đều có những đặc điểm nhân thân riêng có Và họ sống trong điều kiện hay hoàn cảnh cụ thể nào đó Đặc điểm và hoàn cảnh của mỗi cá nhân tác động đến cuộc sống hằng ngày của họ, tạo cho họ những thách thức, những khó khăn phải giải quyết thường xuyên, cũng như mang đến cho họ những cơ hội mới Vậy, khi tiến hành xếp hạng tín dụng một cá nhân, người ta thường xem xét đến những thông tin sau:
e Thông tin về bản thân khách hang
Nghiên cứu về nhân thân một cá nhân nhằm đánh giá được khả năng cơ bản và điều kiện nội tại dé giải quyết những khó khăn, thực hiện cam kết của họ Bao gom một số thông
tin như sau:
- Độ tuổi
- Giới tính
- Tinh trạng hôn nhân
- Trinh độ hoc van
- _ Chức vu hiện tai trong công việc
Trang 15-_ Thời gian ho gan bó với công việc
- Thời gian công tác với công việc hiện tại
e Thông tin về điều kiện sống của khách hang
Nghiên cứu về điều kiện sống của khách hàng nhằm đánh giá được các tác động xung quanh, chi phối đến khả năng tài chính và nhận thức của khách hàng đó Những thông
tin về điêu kiện sông bao gôm:
- Quy mô hộ gia đình
- _ Số người đi làm của gia đình
- Số người thất nghiệp hoặc không trong tuổi lao động của gia đình
- So hữu nhà
- So hữu tai sản khác (như xe, điện thoại)
- Dac điểm nơi cư trú của khách hàng
- Loại hình công việc của khách hàng
1.3.2 Thông tin tài chính cá nhân
Phân tích thông tin tài chính và các mối liên hệ tài chính là quan trọng nhất với xếp hạng tín dụng cá nhân, vì đây là cơ sở chính cho thấy khả năng trả được nợ tín dụng của
khách hàng, từ đó ra quyết định cấp hạn mức cho khách hàng Một số chỉ tiêu tài chính cần
được phân tích:
- Thu nhập ròng hàng tháng
- Tiét kigm
- Gidtri tong tai san ng (tông dư nợ)
- Giá trị tài sản đảm bao
- _ Mối quan hệ với ngân hang
- _ Số dịch vụ khác đang sử dụng
- Số sản phẩm tín dụng khác đang sử dụng
- _ Hình thức chi lương- _ Sô lân vay nợ mới
Ngoài những nhân tổ nêu trên nhằm ra quyết định ban đầu cho một khách hang được vay tín dụng Tuy nhiên, những nhân tổ trên không phản ánh được cách thức, mục dich, nhu cầu sử dụng tín dụng và uy tín của khách hàng với việc trả nợ Vì vậy, chúng ta cần phải phân tích các nhân tố thuộc về hành vi sử dụng tín dụng của khách hàng Những nhân tố này cho thay được cách thức, thói quen, mục đích, nhu cầu riêng về sử dụng tín dụng,
8
Trang 16cũng như uy tín của họ trong trả nợ với ngân hàng Từ những kết quả phân tích hành vi rút ra được, các tô chức tín dụng (Ngân hàng thương mại) có thể ra quyết định tăng, giảm hạn mức hoặc ngưng cấp tín dụng; xây dựng chính sách marketing phù hợp với nhu cầu của khách hang; cách thức thu hồi nợ tín dụng dưa trên năm bắt thói quen chỉ tiêu; dé có thé
giảm được thâp nhât rủi ro tín dụng Vậy, một sô các nhân tô cân được phân tích như sau:
Thói quen chỉ tiêu (% thanh toán bằng tín dụng)
Uy tín trong giao dịch
Trung thực trong giao dịch
Tổng dư nợ trung bình và tỉ lệ dư nợ trên thu nhập trung bình định kỳ hằng tháng Tỉ lệ số tiền phải trả theo kế hoạch / nguồn trả nợ
Lịch sử vay và trả nợ
Ý định — mục đích sử dụng của khách hàng
1.4 Các phương pháp xếp hạng tín dụng
1.4.1 Phương pháp chuyên gia
Phương pháp chuyên gia sẽ dựa trên ý kiến thâm định của các chuyên gia về rủi ro
đôi với một khoản tín dụng Rủi ro sẽ được căn cứ trên các thông tin chủ yêu đó là:
Đặc điểm của chủ thể vay: Tham định danh tiếng, tính trung thực của người vay vốn Vốn: Thâm định sự chênh lệch giữa tài sản và nguồn vốn của người cho vay Tài sản chính là những giá trị mà ngân hàng có thé thu hồi khi người vay không trả được nợ Nguôn vốn có thé là các chi phí mà người vay đang phải chi trả như chỉ tiêu gia đình,
chi phí sinh hoạt, chi phí trả lãi từ các khoản vay khác, Sau khi trừ đi các chi phi
chúng ta sẽ biết được giá trị khả dụng của người vay và liệu nó có đủ đề bao quát lãi
vay hay không?
Tài san dam bao: Sẽ có 2 loại hình thức cho vay được phân chia dựa trên tài sản dam
bảo đó là vay thế chấp (có tài sản đảm bảo) và vay tín chấp (không có tài sản đảm bảo) Rủi ro của 2 hình thức cho vay này là khác biệt nhau nên lãi suất và hạn mức
của chúng cũng sẽ khác biệt để đảm bảo dung hòa giữa lợi nhuận và rủi ro đối với
ngân hàng Đối với vay thế chấp ngân hàng sẽ phải định giá chính xác giá trị của các
tài sản thé chấp Gia tri các tai sản nay sẽ quyét định hạn mức tin dung mà ngân hang
sẽ cấp cho người vay Rủi ro đối với các khoản vay thế chấp là thấp hơn tín chấp vì trong trường hợp khách hàng không có khả năng thanh toán, ngân hàng được quyền
thu hồi tài sản đảm bảo.
Trang 17Khả năng trả nợ: Là các thông tin liên quan trực tiếp đến khả năng tài chính của
người vay đó là: nghề nghiệp, mức thu nhập, trạng thái hôn nhân, số người phụ
Điêu kiện: Đánh giá sơ bộ trạng thái của người vay có tham chiếu tới điều kiện thi
trường, bối cảnh tài chính, áp lực cạnh tranh, mục đích sử dụng vốn, Chăng hạn
người vay là hộ dân trồng cafe nhưng năm vừa qua thị trường cafe giảm giá mạnh.
Do đó sẽ khiến lợi nhuận và khả năng thanh toán của người vay xuống thấp hơn dự
Phương pháp chuyên gia là phương pháp thủ công vì nó dựa trên kinh nghiệm của
con người Do đó quá trình thâm định sẽ tốn kém về thời gian Đồng thời ý kiến đánh giá cũng không nhất quán giữa các chuyên gia Do đó một phương pháp khác được khuyến nghị phát triển ở hội nghị Basel nhằm đưa ra các đánh giá nhanh chóng và nhất quán hơn Đó chính là phương pháp thống kê sử dụng các mô hình học máy.
1.4.2 Phương pháp thống kê
Phương pháp thống kê sẽ dựa trên điểm số được lượng hóa từ mô hình học máy. Phương pháp này có nhiều điểm tối ưu hơn so với phương pháp chuyên gia:
Những mô hình đưa ra kết quả dường như là ngay lập tức Do đó thời gian thâm định hồ sơ nhanh chóng và rất phù hợp với các nền tảng cho vay online.
Năng suất thấm định từ mô hình cao hơn rất nhiều so với các chuyên gia Một mét hình có thé giải quyết số lượng hồ sơ bằng khối lượng công việc của hang trăm
chuyên gia.
Giảm thiểu chi phi lao động khi không phải chi trả lương cho các chuyên gia thâm
Kết quả đánh giá hồ sơ là rất nhất quán dựa trên điềm số tín nhiệm là duy nhất, trong khi đó các chuyên gia có thê đưa ra kết quả đánh giá khác nhau dựa trên cảm quan của họ về rủi ro Khi xảy ra bất đồng ý kiến, sẽ cần hội đồng chuyên gia đánh giá lại hồ sơ và khá tốn thời gian để hoàn thành thâm định.
Mô hình sẽ xem xét toàn diện các biến số đầu vào và thậm chí có thể gia tăng số lượng biến tùy ý mà không ảnh hưởng tới thời gian dự báo Trong khi phương pháp chuyên gia sẽ chịu hạn chế bởi khả năng của con người là có hạn Việc đánh giá hồ
sơ đôi khi chỉ được nhận định trên một số biến chính.
Chính vì những lợi thế đó, phương pháp mô hình đang dần thay thế phương pháp
chuyên gia và trở thành phương pháp thâm định chủ yếu tại các ngân hàng Trong thực tế,
10
Trang 18tùy thuộc vào phương pháp thông kê được sử dụng trong Xếp hạng tín dụng, có thể tiếp cận theo các mô hình thống kê sau:
- M6 hình hồi quy Logistic (Logistic Regression)
- Mang no ron nhan tao (Neural Networks)
- Phuong pháp lân cận gần nhất K (K Nearest Neighbor) - Phương pháp giải thuật di truyền (Genetic Algorithm) - Sơ đồ cây quyết định (Decision Tree)
- _ Thuật toán rừng ngẫu nhiên (Random Forest)
11
Trang 19Kết luận chương 1
Chương 1 đã bước đầu khái quát và hệ thống hóa các khái niệm về xếp hang tín dụng nói chung và xếp hạng tín dụng khách hàng cá nhân nói riêng Trong thời kỳ mà thị trường tài chính dang phát triển rất mạnh mẽ buộc cho tat cả các ngân hang và doanh nghiệp tài chính phải không ngừng phát triển và học hỏi những phương pháp tiếp cận các hệ thống xếp hạn tín dụng mới nhất đề thích nghi với yêu cầu chặt chẽ của thị trường Từ đó, rất nhiều phương pháp xếp hạng tín dụng đã được các nhà quản trị rủi ro nghiên cứu và vận dụng trong nội bộ và hơn nữa là hình thành các tổ chức cung cấp giải pháp tín dụng mới Cùng với đó, tác giả đã đề cập các yếu tố cần thiết của một mô hình xếp hạng tín dụng và tầm quan trọng của xếp hạng tín dụng trong thị trường hiện nay Một vài phương pháp học máy (Machine Learning) phổ biến trong xếp hạng tín dụng cũng được nhắc đến trong nội
dung chương Quy trình chi tiết để xây dựng một hệ thống xếp hạng tín dụng cho khách
hàng cá nhân vận dụng mô hình Logistic sẽ được tác giả trình bày ở Chương 2 và 3.
12
Trang 20Chương 2: Quy trình xây dựng mô hình xếp hạng tín dụng cá nhân
Ở chương 2, tác giả sẽ trình bày quy trình xây dựng mô hình xếp hạng tín dụng khách hàng cá nhân Trong đó bao gồm cụ thể các cơ sở lý thuyết và phương pháp luận của từng
bước được áp dụng để xây dựng nên một mô hình xếp hạng tín dụng khach hàng cá nhân hoàn thiện nhất từ khâu chuẩn bị dữ liệu, quy đổi giá trị, ước lượng và kiểm định mô hình cho đến kết quả phân hạng điểm tín dụng cuối cùng của từng khách hàng Dưới đây hình
ảnh mô tả một quá trình chỉ tiết và kết quả của từng bước.
Hình 2.1 Quy trình xây dựng mô hình xếp hạng tin dụng khách hàng cá nhân
Quá trình xây dựng mô hình Kết quả đầu ra
Chuẩn bị và: —> Bộ dữ liệu đưa vào mô hình
kiêm tra dữ liệu
Phân tích đơn biến ;
(Phân nhóm theo biến Kêt quả phân nhóm theo biên
quy đôi WOE và lựa | “======—— | biliệuquy đổi WOE
chọn danh sách biên , „
cu ối) Danh sách biên cuôi cùng
Hồi quy Logistic —— Kết quả mô hình cuối
Trang 212.1 Chuẩn bị và xử lý dữ liệu
Bước đầu tiên trước khi thực hiện xây dựng một mô hình thực tế là khám phá và hiểu được bộ đữ liệu mẫu Các phương pháp thống kê mô tả đơn giản như phân phối các giá tri, giá tri trung bình / trung vi, ty lệ dữ liệu bị thiếu và phạm vi giá tri cho từng đặc điểm có thé cung cấp thông tin chi tiết về bộ dữ liệu Ngoài ra, trực quan hóa dit liệu bang các đồ thị cũng giúp các nhà phân tích quan sát được tất cả các trường hợp đữ liệu bị thiếu hoặc dit liệu ngoại lai Hau hết dữ liệu ngành tài chính đều chứa các giá trị bị thiếu hoặc các giá trị có không có ý nghĩa đối với một đặc tính cụ thé Đây có thé là các trường dữ liệu không có sẵn do không được điền bởi người nộp đơn Một số phương pháp đề xử lý dữ liệu bị thiếu hoặc ngoại lai như sau:
- Loại trừ tất cả dữ liệu có giá trị bị thiếu — đây là phân tích trường hợp hoàn chỉnh
và trong hầu hết các trường hợp trong ngành tài chính, có thê sẽ dẫn đến rất ít hoặc thiếu số lượng mẫu của bộ dữ liệu dé đưa vào nghiên cứu.
- Quy đổi các giá trị đữ liệu thiếu vào một nhóm riêng và có thé sử dụng nhóm này làm dit liệu đầu vào dé hồi quy mô hình Tuy nhiên, trọng số của nhóm dữ liệu bị thiếu không được phép quá cao vì nó cỏ thể gây sai lệch kết quả của mô hình.
- Quy đối dữ liệu thiếu sang giá trị trung bình hoặc trung vi dựa trên các kỹ thuật thống kê.
2.2 Phân tích đơn biến (Single Factor Analysis) — Lựa chọn danh sách biến cuối cùng
Phân tích đơn biến (Single Factor Analysis - SFA) là quá trình phân tích, đánh giá và lựa chọn ra các biến giải thích phù hợp có khả năng dự báo tình trạng Tốt/Xấu của khách
hàng/khoản vay trong một khoảng thời gian xác định.
Phương pháp phân tích thống kê được sử dụng để nhằm đánh giá khả năng phân biệt của biến gồm có hai bước: (1) Phân nhóm và ghép nhóm biến (Binning) và (2) Xác định danh sách biến cuối cùng.
14
Trang 222.2.1 Khả năng phân biệt của từng lựa chọn — Weight of evidence (WOE)
Weight of evidence (WOE) là một trong những kĩ thuật phân tích và lựa chọn biến đặc trưng thường được áp dụng trong mô hình thẻ điểm tín dụng Phương pháp này sẽ xếp hạng các biến thành mạnh, trung bình, yếu, không tác động, dựa trên khả năng, sức mạnh dự báo khả năng một biến đạt trạng thái Xấu Tiêu chuẩn xếp hạng sẽ là chỉ số giá trị thông tin IV (Information value) được tính toán từ phương pháp WOE Đồng thời mô hình cũng tạo ra các giá trị cho mỗi biến Giá trị này sẽ đo lường sự khác biệt trong phân phối giữa Khách hàng Tốt và Khách hàng Xấu.
Công thức tinh giá tri WOE của từng nhóm giá tri:
WOE; = Log0dds, = In (2)% Bad; (1)
Trong do:
%Good,: Phân phối khách hang tốt trong một nhóm giá trị %Bad;: Phan phối khách hàng xau trong một nhóm giá tri
Giá trị âm của WOE thể hiện răng tỷ lệ khách hàng tốt trong lựa chọn nhỏ hơn tỷ lệ
khách hàng xấu và ngược lại.
Sở di các mô hình thẻ điểm tín dụng lại ưa chuộng WOE bởi vì đây là phương pháp biến đổi biến có nhiều ảnh hưởng tích cực tới quá trình hồi quy Logistic Các lợi thé đó là: Phương pháp WOE giúp ta chia nhỏ các biến liên tục thành các khoảng biến mà giá trị của nó là đơn điệu (đồng biến hoặc nghịch biến) với biến phụ thuộc dựa trên WOE tương ứng với mỗi khoảng Do đó các hệ số trong phương trình hồi quy Logistic sẽ giải thích được đúng thực tế mối quan hệ giữa biến độc lập với biến phụ
Phân nhóm bang phương pháp WOE giúp dé dàng hiểu các mối quan hệ va do đó có thêm kiến thức về danh mục đầu tư Biểu đồ hiền thị mối quan hệ giữa các thuộc tính của một đặc tính và hiệu suất là một công cụ mạnh mẽ hơn nhiều so với một
biến đơn giản thống kê sức mạnh Nó cho phép người dùng giải thích bản chất của
mỗi quan hệ này, ngoài sức mạnh của mối quan hệ Điều này có thé giúp phát triển các chiến lược tốt hơn dé quản lý danh mục dau tư.
Giá trị WOE phản ánh được ảnh hưởng của từng nhóm biến phân loại lên biến phụ thuộc Vì giá trị WOE thể hiện tỷ lệ giữa %GOOD/%BAD, đây là chỉ số ảnh hưởng
trực tiêp đên xác suât vỡ nợ của khách hàng.
15
Trang 23Đối với các biến quá phân tán thì WOE sẽ nhóm thành những nhóm thành các phân loại và hệ số WOE thể hiện thông tin cho toàn bộ nhóm.
Phương pháp WOE giúp loại bỏ các giá trị ngoại lai (Outliers) vì các biến có khoảng biến thiên lớn sẽ được nhóm lại thành các nhóm giá trị có cùng đặc điểm thống kê.
Giá trị của các quan sát ngoại lai (Outliers) sẽ không còn khác biệt so với các những
quan sát khác thuộc cùng nhóm vì chúng cùng được gán giá trị bằng trọng số WOE.
Chính nhờ những lợi thế trên mà WOE đã được sử dụng phô biến trong các mô hình Thẻ điểm tín dụng Tuy nhiên phương pháp WOE cũng có những hạn chế nhất định đó là:
Khi tính toán WOE, rất khó đề biết phân chia bao nhiêu nhóm giá trị (bins) là phù hợp đối với biến liên tục hoặc khi nào thì nên nhóm các nhóm với nhau hoặc tách
Do các biến WOE là luôn đơn điệu với biến phụ thuộc nên giữa các biến độc lập luôn có sự tương quan (do cùng tương quan với biến phụ thuộc) Điều này có thé dẫn đến nguy cơ đa cộng tuyến cao ảnh hưởng tới khả năng giải thích của hệ số hồi
Dễ dàng xảy ra Overfitting — Hiện tượng mô hình quá khớp với tệp dữ liệu, do có
thê hiệu chỉnh ảnh hưởng của biến bằng cách nhóm các phân loại.
2.2.2 Xu hướng WOE sau khi được ghép nhóm
Xu hướng thay đổi của WOE/ ty lệ khách hàng xau cần đáp ứng được ý nghĩa kinh tế Nhóm giá trị của biến được kỳ vọng thể hiện chất lượng tín dụng cao hơn phải có giá tri WOE cao hơn hoặc tỷ lệ khách hàng xấu thấp hơn các nhóm khác của biến.
Bảng dưới đây là một ví dụ về xu hướng của WOE và tỷ lệ khách hàng xấu Sau khi ghép nhóm, biến thé hiện được mối quan hệ hợp lý giữa giá trị biến và tình trạng Tốt/Xấu của khách hàng Như minh họa ở bảng dưới đây, WOE và tỷ lệ khách hàng xấu thỏa mãn giả thuyết: SO ngày quá hạn trong ba tháng gan đây càng nhiễu thì tỷ lệ khách hàng xấu càng cao hoặc giá trị WOE càng thấp.
Bảng 2.1 Minh họa biễn “Số ngày quá hạn tối đa của khoản vay trong 3 tháng gan
day oe.
Cut_point Good Bab Total Bad rate | Per bin WOE
0 DPD 96,230 285 96,515 0.3% 67.2% 1.23
16
Trang 24© Cut_point: Khoảng cắt giá trị của biến.
© Good: Số lượng quan sát tốt trong từng khoảng cắt
e Bad: Số lượng quan sát xấu trong từng khoảng
e Total: Tổng số lượng quan sát trong từng khoảng
e Bad_rate: Tỷ lệ quan sát xấu trên tổng số lượng quan sát trong từng khoản
© Per_bin: Tỷ lệ % xét trên số lượng quan sát từng khoảng trên tổng số lượng quan sát của tất cả các khoảng
e WOE: Khả năng phân biệt của từng lựa chọn
e DPD: Day past due — Số ngày quá hạn nợ
2.2.3 Khả năng dự đoán của biến - Information Value.
Information Values (IV) được sử dụng dé đánh giá mức độ trọng yếu khi phân tích đơn biến trong việc phân biệt khách hàng tốt và khách hàng xấu IV được đo lường bằng
công thức:
IV = }(%6Good; — %Bad,).WOE; (2) Trong đó: n là số lượng nhóm giá trị của biến
IV luôn nhận giá trị dương vì WOE; và (%Good; — %Bad;) đồng biến Giá trị IV sẽ cho ta biết mức độ chênh lệch của %Good và %Bad ở mỗi khoảng bin là nhiều hay ít Nếu IV cao thì sự khác biệt trong phân phối giữa %Good và %Bad sẽ lớn và biến hữu ich hơn trong việc phân loại hồ sơ và trái lại IV nhỏ thì biến ít hữu ích trong việc phân loại hồ sơ Tiêu chuẩn phân loại sức mạnh của biến theo giá trị IV như bên dưới:
17
Trang 25Bảng 2.2 Các mức khả năng phân biệt của IVKhoảng giá trị IV Khả năng phân biệt
IV < 0.02 Không có khả năng phân biệt
0.02 < Iƒ < 0.1 Khả năng phân biệt kém
0.1< IV < 03 Khả năng phân biệt trung bình
IV > 03 Khả năng phân biệt tốt
2.2.4 Quá trình phân nhóm giá trị
Phân nhóm và ghép nhóm biến là kỹ thuật chuyên đổi dé phân loại giá trị/lựa chọn ban đầu của biến s6/bién phân loại thành các nhóm mới dựa trên:
- Mối quan hệ thứ tự giữa giá trị/lựa chọn ban đầu (nếu có)
- Ty lệ quan sát xấu của từng lựa chọn là tuyến tính qua từng nhóm (cùng tăng hoặc
cùng giảm)
- Y nghĩa kinh tế của từng mức rủi ro được thé hiện bởi biến (chiều kỳ vọng của biến, ví dụ kì vọng giá trị biến càng cao thì tỷ lệ quan sát xấu sẽ càng cao hoặc càng thấp) Một biến được chuyên đổi hiệu quả khi có sự phân biệt rõ rệt về mức độ rủi ro trong các nhóm được tạo của biến (thé hiện qua giá trị TV lớn hơn mức chấp nhận được) Trong
quá trình thực hiện nghiên cứu và xây dựng mô hình, tác giả sử dụng thuật toán phân nhóm
Optbinning Day là một thư viện được viết bằng ngôn ngữ lập trình Python nhằm triển khai
công thức lập trình toán học linh hoạt và nghiêm ngặt dé giải quyết van dé tạo ra những
nhóm ưu cho loại biến mục tiêu nhị phân, liên tục và đa lớp, kết hợp các ràng buộc chưa
được giải quyết trước đó Một số lưu ý về việc phân nhóm và ghép nhóm như sau:
- _ Một biến có thé được phân thành tối đa 20 nhóm ban đầu Tùy thuộc vào kịch bản phân nhóm tốt nhất, hệ thống sẽ đưa ra kết quả phân nhóm cuối cùng bao gồm từ 2 — 20 nhóm cho mỗi biến và tính toán các tỷ lệ, giá trị WOE, IV tương ứng.
- _ Đối với biến liên tục, các nhóm sẽ được chia theo nguyên lý trên thành các khoảng
giá trị tương ứng.
- _ Còn đối với biến đa lớp, nhị phân, hệ thống sẽ nhóm lại các giá trị có cùng tỷ lệ quan
sát và cùng ý nghĩa về mặt kinh tế (Vi dụ với biến Trình độ học van: Hệ thống sẽ
chia biến theo các nhóm trình độ như Học vấn cao, học vấn thấp).
18
Trang 26Bang 2.3 Minh họa bién ‘Trinh độ học van’
Count Non- Event
Bin Count Event WoE IV
Các nhóm mới của biến được tạo thành phải có tỷ lệ quan sát xấu tăng dan hoặc
giảm dân, thê hiện xu hướng đơn điệu với tỷ lệ xâu và có ý nghĩa vê mặt kinh tê.
Một nhóm mới của bién thông thường sẽ chiếm tỉ lệ tổng số lượng quan sát tối thiểu 5%, tuy nhiên có những trường hợp chiếm tỉ lệ nhỏ hơn do trong dai giá trị của biến tồn tai một giá trị chiếm đến hơn 95% tổng số lượng quan sát.
Không có nhóm nào chứa toàn Good/Bad.
Sau khi thực hiện quá trình phân nhóm, tác giả sẽ thực hiện kiểm tra xem một biến đã được chia nhóm hợp lý và chính xác hay không băng cách quan sát đồ thị đường cong
giá trị WOE Nếu kết quả phân nhóm không phù hợp với các tiêu chí về ty lệ quan sát hay ý nghĩa kinh tế, cần phải thực hiện điều chỉnh việc chia nhóm sao cho đặc điểm của từng nhóm là hợp lý và khả năng phân biệt là mạnh mẽ hơn, phù hợp với ý nghĩa thực tế Dưới
đây là một ví dụ về kết quả phân nhóm của biến LTV — Loan to Value Đây là biến tỷ lệ
vay trên giá tri được tính băng cách chia khoản tiên cân vay cho giá tri của tai sản, hoặc
khoản tiền bạn cần bỏ ra dé mua tài sản ấy Xét về góc độ kinh tế, giá trị LTV càng cao thì mức độ rủi ro của khách hàng càng thấp hay tỷ lệ khách hàng xấu càng cao tương đương với giá trị WOE càng thấp Do đó quan sát bảng giá trị và đồ thị dưới đây thấy được đường cong WOE đang có xu hướng đi xuống.
Bảng 2.4 Minh họa bién ‘LTV — Loan to Value’
Bin Count Count (%) | Non-event | Event Event rate WoE IV
(-inf, 109555 |0.43451273 | 102103 7452 0.06802062 | 0.26163971 | 0.026701.10)
19
Trang 27BH“ Non-event Z Bin special
maE.ent *_' Bin missing
Trong đó:
e _Non— event: Trạng thái Khách hàng Tốt e Event: Trạng thái Khách hàng Xấu
e Bin special: Nhóm giá tri quy đổi cho dit liệu ký hiệu đặc biệt (Nếu có) e Bin missing: Nhóm giá trị quy đôi cho đữ liệu thiếu
2.2.5 Xác định danh sách biến cuối cùng
Sau khi các đặc điểm mạnh nhất được nhóm lại và xếp hạng, việc lựa chọn biến được thực hiện Khi kết thúc phân tích đơn biến ban đầu, tác giả sẽ có một danh sách các biến đủ
điêu kiện dé sử dụng trong mô hình cuôi cùng Các biên được lựa chọn sẽ được quy đôi
20
Trang 28sang giá trị WOE tương ứng với từng nhóm đã được chia trước đó nhằm phục vụ cho việc thực hiện hồi quy Logistic.
Điêu kiện lựa chọn biên được dựa trên các đánh giá sau đây:
- Phạm vi và xu hướng của WOE qua các nhóm biến được thể hiện phù hợp với ý nghĩa kinh tế
- Kha năng phân biệt và dự đoán của biến được đánh giá bang giá trị IV — Information
Value > 0.02.
- _ Cân nhắc về hoạt động và chính sách kinh doanh.
2.3 Phương pháp hôi quy Logistic.
Hồi quy Logistic nhị phân là phương pháp phân tích hồi quy điển hình nhằm dự đoán xác suất khách hàng có trạng thái Xấu (Y=1) với biến nhị phân Y mang hai giá trị 0 và 1, tương ứng với trạng thái Tốt và Xấu của khách hàng, dựa trên một hoặc nhiều biến giải
© Ø; Ø„ là các hệ số hồi quy tương ứng với các biến X, đến X e a là hệ số chặn trong hàm hồi quy.
e _ Y là biến phụ thuộc nhị phân Khoản vay tại thời điểm quan sát tương ứng được xác
định khi :
ft = 0: Khách hang có trang thái Xấu
Y = 1: Khách hàng có trạng thái Tốt
e X là biến giải thích Cụ thé, giá trị của từng biến X sau bước phân tích đơn biến sẽ được chuyên về các giá trị WOE — Weight of Evidence của từng biến dé đưa vào hồi quy mô hình Logistic Việc này được thực hiện nhằm đưa các biến có các độ đo khác nhau (Số tiền theo VND, Số lần thanh toán nợ, a) về cùng một độ đo đề có thể phân tích tác động của từng biến lên xác suất khách hàng trở thành xấu trong mô hình
21
Trang 29e PD, là xác suất khách hàng có trạng thái là xấu 2.4 Kiểm định khả năng phân biệt của mô hình
Kiểm định mô hình nhằm đánh giá khả năng phân biệt của mô hình qua những bộ
dữ liệu khác với bộ dữ liệu được sử dụng đề xây dựng mô hình, nhằm tránh trường hợp mô hình có kết qua dự đoán tốt cho bộ xây dựng, nhưng lại có kết quả không tốt cho các bộ dit
liệu khác.
Công cụ phổ biến dé đo lường khả năng phân biệt của một mô hình là AUC — diện
tích dưới Đường cong đặc trưng (ROC) hoặc chỉ số GINI.
GINI = 2+ AUC — 1 (5)
Đường cong ROC được xác định băng cách vẽ tần số lũy kế các trường hợp khách
hàng không trả được nợ xảy ra được thể hiện trên trục yva tần số lũy kế tổng số khách hàng trả được nợ tương ứng được thể hiện trên trục x Mỗi điểm của Đường cong đặc trưng tương
ứng với một giá trị PD ước lượng từ mô hình, với giá trị xâu nhât ở bên trái của biêu đô.
Một mô hình có khả năng phân biệt lý tưởng sẽ cho thấy các trường hợp khách hàng không trả được nợ sẽ có các giá trị PD cao nhất Từ đó Đường cong đặc trưng của mô hình có khả năng phân biệt lý tưởng sẽ chạy từ điểm dưới cùng bên trái (0%, 0%) đến điểm trên cùng bên trái (0%, 100%) và từ đó đến điểm trên cùng bên phải (100%,100%) Gia tri x va y của Đường cong ROC luôn bang nhau nếu tan số xảy ra của các trường hợp tốt và xấu băng nhau có nghĩa là mô hình không có khả năng phân biệt giữa khách hàng Tốt và khách hàng Xấu Trong trường hợp này đường ROC chính là đường chéo của hình vuông Ví dụ
về một đường cong ROC:
CUM %BAD.
Việc xác định ngưỡng AUC tùy thuộc vào một số yếu tố sau:
22
Trang 30- Chat lượng dữ liệu: chất lượng dữ liệu càng tốt thì ngưỡng yêu cầu đối với AUC
càng cao.
- Mức độ phát triển trong quá trình xây dung va sử dụng mô hình: Mô hình càng được áp dụng sâu rộng trong hoạt động ngân hàng thì yêu cầu đối với AUC càng cao.
- _ Loại mô hình: Các mô hình thiên về application - A Score (vi dụ như mô hình cham điểm phê duyệt) thường có AUC thấp hơn các mô hình thiên về behavior — B Score - Dù các yếu tố trên như thế nào, mức AUC dưới mức 65% thường là không chấp
nhận được.
Bang 2.5 Kha năng phan biệt của mô hình thông qua AUC
AUC GINI tương ứng Khả năng phân biệt
70% < AUC 40% < GINI Mô hình có khả năng phân biệt rat tốt
Mô hình có khả năng phân biệt chấp
65% < AUC < 70% 30% < GINI < 40% ˆ
nhận được
62.5% < AUC < 65% 25% < AUC < 30% Mô hình suy giảm khả năng phân biệt
Mô hình có khả năng phân biệt rất
AUC < 62.5% GINI < 25%
kém Cần xây dựng lại
2.5 Quy đổi diém và phân hạng khách hàng
2.5.1 Quy đối điểm
Bước phân tích đa biến sẽ xác định mô hình cuối cùng với kết quả là giá trị xác suất khách hàng vỡ nợ (PD_ Probability of Default) Tuy nhiên, việc ứng dụng trực tiếp giá tri
PD trong hoạt động kinh doanh có thé không quen thuộc đối với các bộ phận kinh doanh.
Do vậy, kết quả PD từ mô hình thường được quy đổi sang giá trị điểm (Score) dé có thé sử dụng thuận tiện và dé hiểu hơn trong hoạt động kinh doanh của Ngân hàng, đặc biệt đối với
bộ phận kinh doanh và thâm định KHCN.
Một trong những phương pháp quy đổi điểm từ giá trị PD phổ biến nhất là quy đổi
thành giá trị điểm theo hàm logarit, với tỉ lệ Odds tăng gấp đôi ứng với mỗi 50 điểm tăng
Trang 31Đề tính toán giá trị Offset và Factor, cần xác định và lựa chọn 3 tham số bao gồm: - Mure điểm cơ sở (Reference Score): Đối với khách hàng cá nhân, thông thường mức
điểm cơ sở được lựa chọn 600.
- PDO (Points to double the odds): mức điểm làm tăng gấp đôi tỉ lệ odds, thông thường
giá trị PDO được lựa chọn thường là 50.
- _ Ti lệ Odds tại mức điểm cơ sở (odds at reference score): giá trị tỉ lệ odds được lựa chọn tại mức điểm cơ sở phụ thuộc và cấu trúc và tỉ lệ vỡ nợ thực tế danh mục của
Ngân hàng, thông thường được lựa chọn là 30:1.
Khi đó các giá trị được tính toán như sau:
In (2) 7)
- Offset = Reference Score — Factor * ln(0dđs) (8)
- Factor =
Vi du với một thẻ điểm có các giá trị giả thiết như sau: - _ Mức điểm cơ sở Reference Score = 600
- _ Tỉ lệ Odds tại mức điểm này là 30:1
- Gidtri: Factor = 50/In(2) = 70.13
- Gidtri: Offset = 600- 70.13 * In(30) = 361.47
Khi đó, gia trị điểm quy đổi từ gid tri PD được tính toán theo công thức sau:
Score = 361.47 + 70.13 *In(@—)
Vì thẻ điểm ở đây dang được xây dung bang cách sử dung phương pháp quy đổi Weight of Evidence - WOE làm đầu vào cho phương trình hồi quy Logistic, mối quan hệ trước đó có thé được sửa đổi như sau:
Trong do:
- ƒ: Tương ứng từng biến của mô hình
- Ø;: Hệ số hồi quy của từng biến trong mô hình - a: Hệ số chặn của mô hình
- WoEsay,: Giá trị WOE được quy đổi theo từng biến của mô hình
- _m: số biến của mô hình
Khi đó tổng điểm của một khách hàng sẽ được tính băng:
Score = }jj~1 Score; (10)
24
Trang 32Với n là sô biên của mô hình
2.5.2 Phân hạng khách hàng
Phân hạng khách hàng, về mặt lý thuyết, là quá trình xây dựng hạng dựa trên mục
tiêu phân biệt được mức độ rủi ro của khách hàng giữa các hạng Quá trình phân hạng khách
hàng sẽ được thực hiện trên tập đữ liệu kiểm định, sau khi đã thực hiện chấm điểm cho khách hàng Tác giả sẽ tiếp tục áp dụng phương pháp WOE — Weight of Evidence dé thực hiện phân hạng theo điểm cho khách hàng Bên cạnh đó, một bộ phân hạng tốt, ôn định
thông thường sẽ thỏa mãn thêm các tiêu chí:
Một bộ phân hạng thông thương bao gồm từ 6 — 12 nhóm.
Số lượng quan sát không được quá tập trung vào một hạng Một nhóm mới thông thường sẽ chiếm tỉ lệ tổng số lượng quan sát tối thiểu 5% và không quá 30%.
Không có nhóm nao tập trung toàn khách hàng Tốt/Xấu.
Hạng càng cao, tương ứng với điểm tín dụng của khách hạng càng cao, tỷ lệ khách
hàng xâu càng giảm.
Sau khi thực hiện phân hạng khách hàng theo điểm, có thể dựa vào các nhóm hạng đó dé đưa ra các điều kiện ràng buộc hoặc phân loại nhóm nợ khi cho khách hàng vay tín
dụng, tùy thuộc vào chính sách của từng đơn vi ngân hàng hay doanh nghiệp tài chính.
Chăng hạn đối với khách hàng rơi vào hạng quá thấp thì sẽ từ chối khoản vay của khách hàng hoặc có thê đề nghị khách hàng vay với tài sản đảm bảo hay phải trả phí vay, tiền cọc.
25
Trang 33Kết luận chương 2
Chương 2 đã trình bày chỉ tiết một quy trình xây dựng hệ thống xếp hạng tín dụng áp dụng mô hình Logistic Về cơ bản, lý thuyết về mô hình thẻ điểm xếp hạng tín dụng là
khá đơn giản và mô hình được trình bày trong bài nghiên cứu của tác giả chỉ dựa trên
phương trình hồi quy Logistic Tuy nhiên quá trình xây dựng mô hình đòi hỏi phải đáp ứng được rất nhiều tiêu chí như khả năng giải thích, độ chính xác, chi phí xây dựng, khả năng
áp dụng vào thực tiễn.
26
Trang 34Chương 3: Kết quả phân tích
Dựa trên quy trình xây dựng mô hình xếp hạng tín dụng khách hàng cá nhân được
đưa ra ở chương 2, tác giả sẽ áp dụng co sở lý thuyết và phương pháp luận dé xây dựng
một mô hình xếp hạng tín dụng một cách đầy đủ và chỉ tiết nhất với một bộ dữ liệu mẫu
bao gồm các tiêu chí đành cho phân khúc khách hàng cá nhân Mục tiêu của chương 3 là sẽ trình bày cụ thể kết quả của các bước của quy trình xây dựng mô hình xếp hạng tín dụng khách hàng cá nhân Từ đó, nêu ra những phân tích và đánh giá cho kết quả của mô hình
thu được.
3.1 Dữ liệu nghiên cứu
Bộ dữ liệu được tác gia sử dụng cho quá trình nghiên cứu được thu thập từ một cuộc
thi dự báo nổi bật - Home Credit Default Risk được phát động triển khai vào năm 2018 trên trang web https://www.kaggle.com/ Kaggle được ra mắt lần đầu tiên vào năm 2010 bằng cách cung cấp các cuộc thi học máy (Machine Learning) và hiện cũng cung cấp nền tảng dữ liệu công khai, công cụ làm việc, nghiên cứu trực tuyến cho mảng khoa học đữ liệu và giáo dục trí tuệ nhân tạo Kaggle cho phép người dùng tìm và xuất bản các tập dữ liệu,
khám phá và xây dựng mô hình trong môi trường khoa học dữ liệu dựa trên web, làm việc
với các nhà khoa học dữ liệu và kỹ sư máy học khác, đồng thời tham gia các cuộc thi dé giải quyết các thách thức về khoa học dữ liệu.
Cuộc thi Home Credit Default Risk cung cấp một bộ dit liệu bao gồm các thông tin cá nhân, tài chính, lich sử giao dịch giao dịch và các yếu tổ liên quan của khách hàng với mục dich áp dụng các phương pháp thống kê hay hoc máy khác nhau dé đưa ra những dự báo về khả năng trả nợ của khách hàng Các kết quả mô hình thu được có thê vận dụng vào thực tế đề hỗ trợ việc ra quyết định và điều chỉnh chính sách, hạn mức, kỳ hạn hay lãi suất
của các hệ thông ngân hàng khi tiêp nhận các khoản vay mới.
Bộ dữ liệu gồm 307,51 1 bản ghi khách hàng và 121 các biến đặc điểm, thông tin liên quan Tuy nhiên trong quá trình thực hiện xây dựng mô hình, tác giả sẽ tiến hành xử lý dit
liệu và lựa chọn ra các biên phù hợp cho mô hình cuôi cùng.
Hình ảnh dưới đây thê hiện mức độ thiêu dữ liệu của các biên Điêu này có thê ảnhhưởng trực tiêp đên kêt quả của mô hình nên tác giả sẽ thực hiện loại bỏ các biên đâu vào
có số lượng giá trị bị thiếu lớn hơn 40% tông số quan sát của bộ dit liệu.
27