1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp: Thử nghiệm phân loại khách hàng bằng phương pháp học máy

59 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 13,36 MB

Nội dung

Trang 1

TRUONG ĐẠI HỌC KINH TE QUOC DAN KHOA TOAN KINH TE

CHUYEN NGANH: TOAN KINH TE

DE TAI:

THU NGHIEM PHAN LOAI KHACH HANG BANG

PHUONG PHAP HOC MAY

Sinh viên thực hiện : Nguyễn Quang Huy

Mã sinh viên : 11192392

Lớp : Toán Kinh Tế 61

Giảng viên hướng dẫn : Th§ Trần Chung Thủy

HÀ NOI - 2022

Trang 2

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN KHOA TOÁN KINH TE

KHOA LUẬN TOT NGHIỆP

CHUYEN NGÀNH: TOÁN KINH TE

ĐÈ TÀI:

THU NGHIỆM PHAN LOẠI KHÁCH HANG BANG

PHUONG PHAP HOC MAY

Sinh viên thực hiện : Nguyễn Quang Huy

Mã sinh viên : 11192392

Lớp : Toán Kinh Tế 61

Giảng viên hướng dẫn : ThS Trần Chung Thủy

HÀ NOI - 2022

Trang 3

Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp LOI CAM ON

Dé hoàn thành khóa luận tốt nghiệp nay, đầu tiên, em xin chân thành cảm on

ThS Trần Chung Thuỷ đã là người định hướng, giúp đỡ em từ việc lựa chọn đề

tài nghiên cứu, đề xuất phương pháp thực hiện và giúp em chỉnh sửa những sai

sót trong quá trình hoàn thiện bài làm.

Em cũng xin gửi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của trường Đại học Kinh tế Quốc dân, đặc biệt là các thầy cô khoa Toán kinh tế đã giúp đỡ

em trong suốt quá trình học tập để em có đầy đủ nền tảng kiến thức hoàn thành bài chuyên đề của mình.

Trong quá trình thực hiện chuyên đề tốt nghiệp, em nhận thấy mình vẫn còn rất nhiều thiếu sót, rất mong nhận được những ý kiến đóng góp từ phía các thày, cô dé em có thêm nhiều kinh nghiệm cho con đường học tập và sự nghiệp mai

Em xin chân thành cảm ơn!

Nguyễn Quang Huy — Khoá 61 i GVHD: ThS Tran Chung Thuy

Trang 4

Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp

MỤC LỤC

MUC LUC iiiiiaiắaắăắăaảäảá il

DANH MỤC TU VIET TAT cessesssssssssssecessseecessnsecssnneeessnesessnecessneeesnneesesnness iv

II 9)58Ẻ0098:79160202000055 V

DANH MỤC HINH ẢNH (6 SE ‡EEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrkerkrrrree vi

GIỚI THIỆU CHƯNGG - 2 St E‡EE£EEÊEE£EE+EEEEEEEEEEEEEEEEEEEEEEEESEEEErrkerkerkeree 1 1 _ Lý do chọn đề tài - 2-52 E2 2 XE EEEEEEE21E21121111 11c |

2 _ Mục tiêu nghiÊn CỨU - s1 E0 E191 ng rưy 2

3 Đối tượng và phương pháp nghiên cứu - 2 s s+s£+xezzzzezced 2 4 Tổng quan về bộ dit liệu - - ¿2 2+ £+EE+EE+EE£EE£EEEEEE2EE2EEEEEEEEerkerkerree 2 CHƯƠNG I: CƠ SỞ LÝ THUYÊT - -:-©252:2225+tt22EEvtttExtertrrrrersrrrerree 3

1.1 RU1 10 tin MUNG “43 5 3

1.1.2 Rủi ro tin Ụng - - - - -c- s 1v ng ng rưy 3

1.1.3 Nguyên nhân dẫn đến rủi ro tin dụng - 2-2 2 s+cs+rxersezez 4

1.1.4 Hậu quả của rủi ro tin Ụng - - - + s+++ xxx +Eekseeeseeserskese 6

1.2 Giảm thiêu rủi ro tín dụng bằng phương pháp phân loại khách hàng 7

1.3 Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient Boosting)

¬ 81.3.1 Mô hình dạng cây (Tree Based ModeÏ) - -««+s«+++++sex++ 9

1.3.2 Thuật toán Gradient Boosting - ¿+ +sss‡+sssevxeeerseessesss 11

1.4 Đánh gia độ chính xác của sự phan loại «++-««++s++sex+ss++ 14

1.4.1 Độ chính xác (ACCUTACY) Ác kg n riệt 141.4.2 Đường cong Receiver Operating Characteristic (R@C) 15

CHUONG II: PHUONG PHAP PHAN LOAI KHACH HANG PHO BIEN TAI

0.\00)9160))00/969))89)0)) 6101 17

2.1 Các phương pháp phân loại khách hàng thường được sử dụng từ trước đến

¡0 Ô 17

2.2 Xây dựng mô hình phân loại khách hàng theo phương pháp thống ké 18 2.3 Mô hình hồi quy Logistic ứng dụng trong phân loại khách hàng 19 CHƯƠNG III: UNG DUNG MÔ HÌNH GRADIENT BOOSTING TRONG

PHAN LOẠI KHACH HÀNG Ác SH nHh HH HH Hư 20

Nguyễn Quang Huy — Khoá 61 ii GVHD: ThS Tran Chung Thuy

Trang 5

Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp

3.1 Tổng quan về bộ dit liệu - 2 2 £+EE+EE+EE+EEtEEEEEEEEEEEEEEerkrrkerkee 20 3.1.1 Các biến đầu vào là biến định tính - -c:¿©cc+++ccxvssrxvesre 22

3.1.2 Các biến đầu vào là biến định lượng -2- 2-2 2+secx+zszceez 22

3.2 Trực quan hoá dữ liệu va làm sạch dữ liệu - - «5s «++s«+2 23

3.2.1 Các biến đầu vào là biến định tính - -c:¿+cccc+ccvvssrrvrsre 23

3.2.2 Các biến đầu vào là biến định lượng - 2-2 2+secx+zszceez 27

3.3 Xây dựng mô hình Logistic eee eseeeeseesececeeeeeeseeeeeeeeeeceeeeeeeeeeeeeaes 32

3.3.1 Tính toán Information Value va Weight of Evidence 32

3.3.2 Xây dựng mô hình OBISẨTC - - 5 + +*v+eeeeeerseeeseees 33

3.4 Xây dựng mô hình phân lớp khách hàng bằng Gradient Boosting 35 3.4.1 Xây dựng mô hình phân lớp khách hàng bằng Gradient Boosting 35

3.4.2 Tinh chỉnh mô hình <5 + 2+ 1E E*#EEEeEEseeseerreererereeere 38

3.5 KẾT WAN tt tt 111 1515111115111 11111111 1111111111111 11111111 Al

I.908)20095790.47 0115 44

PHU LUC: CODE R 01117 45

Nguyễn Quang Huy — Khoá 61 iii GVHD: ThS Tran Chung Thuy

Trang 6

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

DANH MỤC TU VIET TAT

KH Khach hang

TCTD Tô chức tín dụng

GBM Gradient Boosting Machine

CBNV Can bộ nhân viên

Nguyễn Quang Huy — Khoá 61 iv GVHD: ThS Tran Chung Thuy

Trang 7

Khoa Toỏn Kinh tế - ĐH KTOD Chuyờn đờ tốt nghiệp

DANH MỤC BANG BIEU

Bảng 1: Cỏc biến trong bộ dữ liệu lending_club_ data 22

Bảng 2: Thụng kờ mụ tả cỏc biờn định lượng trong bộ dữ liệuTending club_data 0.0.0.0 aˆoồồễồễđồđờâ"đ^ 23

Bang 3: Bang so sỏnh hiệu qua giữa cỏc mụ hỡnh 42

Nguyễn Quang Huy — Khoỏ 61 M GVHD: ThS Tran Chung Thuy

Trang 8

Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp

DANH MỤC HÌNH ANH

Hình 1: Cấu trúc cơ bản của Cây quyết định - 2-2 2+ ecxecxexecxez 9 Hình 2: Đồ thị đường cong Gini và Entropy với bài toán phân lớp nhị phân

¬— 10

Hình 3: Minh hoa các bước tuần tự trong thuật toán Boosting 12 Hình 4: Minh hoạ về Gradient Descent 2 2-©525sccxczxczxeerxee 13

Hình 5: Ví dụ về đường cong ROC -5- 5s tt EEEErkerkerkerkee 15 Hình 6: Biểu đồ kỳ han khoản vay (term) 2 2-52 s+cssrxerscres 24

Hình 7: Biểu đồ cột thống kê kinh nghiệm làm việc (emp_length) 25 Hình 8: Biểu đồ cột thống kê home_ownership - 2-2 2s cxsxcx+z 26

Hình9: Biểu đồ cột thống kê tình trạng khoản vay (loan_ status) 26

Hình10: Biểu đồ nhiệt tương quan giữa CC 27

Hình11: Biểu đồ thống kê biến annual_inc -s- 2 + z+xezxerxerxexee 28

Hình12: Biểu đồ thống kê biến annual_inc sau khi đã loại bỏ outliers 29

Hình13: Biểu đồ cột quan hệ giữa biến loan_status và in(_rate 29

Hình14: Biểu đồ điểm về quan hệ giữa 3 biến loan status và int_rate,

Hình17: Biểu đồ histogram credit_his theo từng trạng thái khoản vay 32

Hình18: Biểu đồ WOE biến tofal_rec_ pFTCD 575 S<c<+<ccesseerees 33

Hình 19: Đường cong ROC của mô hình Logistic - - - - 35

Hình 20: Đường cong ROC của mô hình GBM - 525 <S<<+<++ 38Hình 21: Bang relative influence trong GBM tỉnh chỉnh 39Hình 22: Đường cong ROC của mô hình GBM tỉnh chỉnh 41

Nguyễn Quang Huy — Khoá 61 vi GVHD: ThS Tran Chung Thuy

Trang 9

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp GIỚI THIỆU CHUNG

1 Lý do chọn đề tài

Đi cùng với sự phát triển của nền kinh tế, nhu cầu tin dụng của các cá nhân/

tổ chức quy mô từ nhỏ tới lớn là nhu cầu không thé thiếu Tin dụng giải quyết được một trong những nhu cầu tất yếu của con người hay một hoạt động kinh

doanh hay một dự án, là nhu cầu về vốn Tín dụng là đòn bây thiết yếu cho sự

thành công của một mô hình kinh doanh và cũng là một trong những phương pháp

tốt nhất dé tối ưu hoá lợi ích của tiền Tuy nhiên, việc ra quyết định có nên cho một người vay tiền hay không là một quá trình mang day tính rủi ro mà một người

hay một tô chức tín dụng nói chung phải cân nhắc thực sự kỹ càng trước khi giải

Trong quá trình hoạt động của các tổ chức tín dụng, những rủi ro trong hoạt động cho vay là điều không thé tránh khỏi Việc một khách hàng vay nhưng không trả được nợ

(hoặc trả nợ chậm) sẽ ảnh hưởng rất lớn đến doanh thu và lợi nhuận và uy tín của tô chức tin dụng đó, thậm chí ảnh hưởng tới nền kinh tế của cả một quốc gia Nhưng dé đánh giá được khách hàng có trả được nợ hay không lại phụ thuộc rất nhiều yếu tố Trong quá khứ, cách duy nhất dé tránh rủi ro vỡ nợ bên khách hang là đánh giá chủ quan của chuyên gia về khả năng trả nợ của khách hàng đó Tuy nhiên, với nhu cầu về tín dụng ngày một gia

tăng thì đây không thể là một phương pháp tối ưu cho tất cả các khoản nợ nắm giữ bởi một tổ chức tài chính Cùng với sự phát triển của khoa học dit liệu, các mô hình phân loại khách hàng dựa trên phương pháp định lượng đang dần trở thành những công cụ tối ưu thay thế cho con người trong việc đánh giá không chỉ với từng khách hàng mà là trên một

tập khách hàng rất lớn Các mô hình học máy là một trong các công cụ ấy và đang dần trở thành xu hướng trong tâm, nồi bật, đã và dang được nghiên cứu, ứng dụng rộng rãi

trong ngành tài chính nói chung và lĩnh vực công nghệ tài chính nói riêng, tạo ra những

bứt phá mạnh mẽ về tính hiệu quả, kịp thời, chính xác trong công tác giám sát, dự báo.

Sức mạnh của một mô hình phân loại tín dụng có tác động rất lớn đến kết quả hoạt động kinh doanh của một ngân hàng Một mô hình có mức độ chuẩn xác cao giúp

các tô chức tài chính giảm thiêu tỷ lệ nợ xâu, tránh được các khoản nợ thiêu hiệu

Nguyễn Quang Huy — Khoá 61 1 GVHD: ThS Tran Chung Thuy

Trang 10

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp quả va đưa ra các chính sách sản phẩm tốt hon qua thời gian Một trong những mô hình được sử dụng phổ biến nhất là Gradient Boosting - một ứng dụng của học máy trong phân lớp tín dụng, đang được sử dụng phô biến trên toàn thế giới

với độ chính xác cao và đã giành chiến thắng trong rất nhiều cuộc thi về khoa học

dữ liệu Em đã quyết định lựa chọn đề tài “Thử nghiệm phân loại khách hang

bằng phương pháp học máy” đề nghiên cứu về tính hiệu quả của mô hình này

trong phân loại khách hàng tại các tổ chức tín dụng.

2 Mục tiêu nghiên cứu

- Tìm hiểu về các nhân tô có thé ảnh hưởng đến rủi ro tín dụng của khách hàng

tại các tô chức tín dụng.

- Phương pháp phân lớp khách hàng thực tế dang được sử dụng rộng rãi trên thé

- Tinh ứng dụng của thuật toán Gradient Boosting trong phan lớp khách hang

3 Đối tượng và phương pháp nghiên cứu

- Cac yêu t6 có anh hưởng đến tình trạng thanh toán của khoản nợ.

- _ Các mô hình học máy xếp hang (Classification): Hồi quy Logistic, Gradient

4 Tong quan về bộ dữ liệu

- Bộ dữ liệu khoản vay của trên 50,000 khách hàng tại Lending Club được ghi

nhận trong năm 2018.Trong đó đã bao gồm tình trạng thanh toán chỉ tiết của từng khoản

Nguyễn Quang Huy — Khoá 61 2 GVHD: ThS Tran Chung Thuy

Trang 11

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

CHƯƠNG I: CƠ SỞ LÝ THUYÉT

1.1 Rủi ro tín dụng

1.1.1 Tín dụng

Tin dụng là sự thé hiện cho mối quan hệ vay và cho vay Trong đó, người vay có thé là cá nhân hoặc tô chức, còn người cho vay là ngân hàng hoặc các tô

chức tai chính đủ thâm quyền hoạt động tại một khu vực/ quốc gia Sản phẩm vay có thé là hàng hóa hoặc tiền.

Mỗi khoản vay sẽ có những quy định và ràng buộc cụ thể để tạo sự tín

nhiệm giữa người vay và người cho vay Một khoản vay tín dụng sẽ luôn đi kèm

với lãi suất được quy định trước dé bù đắp thiệt hại cho người cho vay, khi giao

di tài sản cua mình cho người vay trong một khoảng thời gian trong tương lai.

Tín dụng có thể được phân loại theo nhiều cách:

- Theo khoảng thời gian: ngắn hạn, trung hạn, dai han.

- Theo đối tượng tín dụng bao gồm: Đối tượng sử dụng vốn lưu động và đối tượng sử dụng vốn cô định.

- Theo mục đích sử dụng: Tín dụng hàng hóa, tín dụng tiêu dùng, vay

kinh doanh, vay xây dựng cơ sở vật chat, vay đầu tu, - Theo kiểu vay: vay tín chấp, vay thế chấp.

Tín dụng mang lại lợi ích lớn cho cả người vay và người cho vay; giúp thúc

đây đầu tư kinh doanh, sản xuất, Tin dụng góp một phan quan trọng trong

những dự án từ nhỏ đến lớn, từ đó ảnh hưởng và tác động đến nén kinh tế của cả

một quốc gia Với những khoản tín dụng được chấp nhận đã góp phần đáp ứng

nhu cầu về vốn của cá nhân, tô chức từ đó giải quyết khá nhiều khâu quan trọng

như đâu tư, mua sam hoặc phát triên kinh tê từ trong dén ngoai nước.

1.1.2 Rui ro tín dung

Rui ro tín dụng được định nghĩa như sau: “Rui ro tin dung là khoản lỗ tiềm năng khi ngân hàng cấp tín dụng cho một khách hàng (KH), nghĩa là luồng thu nhập dự tính mang lại từ khoản vay của ngân hàng không thể được thực hiện cả về số lượng và thời hạn” (Anthony Sauders, 2007).

Nguyễn Quang Huy — Khoá 61 3 GVHD: ThS Tran Chung Thuy

Trang 12

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Theo khoản 1 điều 3 Thông tư số 02/2013/TT-NHNN: “Rủi ro tín dụng là

ton thất có khả năng xảy ra đối với nợ của tô chức tin dụng, chi nhánh ngân hang nước ngoài do KH không thực hiện hoặc không có khả năng thực hiện một phần hoặc toàn bộ nghĩa vụ của mình theo cam kết.”

Rủi ro tín dụng luôn tiềm tàng trong quá trình cung cấp các sản phẩm tín dụng của ngân hàng cũng như các tổ chức tín dụng (TCTD) nói chung Rủi ro tín

dụng không chỉ sinh ra trong các nghiệp vụ về tín dụng giữa ngân hàng/ TCTD và

KH, mà còn phụ thuộc vào các bên đối tác khác và môi trường hoạt động của các ngành nghề, trách nghiệm và kinh nghiệm của người vay cũng như phương pháp

quản lý của ngân hàng/ TCTD Có thể nói, rủi ro tín dụng là loại rủi ro chiếm tỷ

trọng lớn nhất trong các rủi ro ma TCTD phải đối mặt 1.1.3 Nguyên nhân dẫn đến rủi ro tín dụng

1.1.3.1 Về phía TCTD

Chính sách quản trị chưa chặt chẽ dé khiến cho TCTD gặp phải rủi ro tín dụng, các gói chính sách sản pham tin dụng không được viết day đủ, rõ ràng hoặc không được kiểm thử can thận khiến KH có thé lợi dụng những kẽ hở dé trục lợi bat chính.

Các TCTD vì chạy theo lợi nhuận mà mở rộng tín dụng qua mức có thể dẫn

đến việc sang lọc KH kém kỹ càng, nhất là trong trường hợp thông tin không cân

xứng sẽ dễ dàng tạo ra sự lựa chọn đối nghịch, khả năng giám sát của cán bộ tín

dụng đối với việc sử dụng khoản vay giảm xuống, việc tuân thủ theo quy trình tín dụng bị lơi lỏng, các quy định về an toàn tín dụng sẽ không được thực hiện nghiêm

minh.Cạnh tranh không lành mạnh nhằm thu hút KH giữa các TCTD ngày càng phức tạp khiến cho việc thầm định KH trở nên sơ sài, qua loa hơn hoặc hạ thấp tiêu chuẩn tín dụng, giảm thời gian thâm định những hoạt động này đều có thể

làm tăng thêm rủi ro trong hoạt động tín dụng.

Rui ro có thé xuất hiện do tính toán không chính xác hiệu quả đầu tư dự án,

định giá sai dự án dẫn dé phê duyệt khoản vay quá cao so với chuẩn, hoặc do cán

bộ tín dụng cố ý tài trợ những dự án xin vay không hiệu quả, làm giả hồ sơ, vay

Nguyễn Quang Huy — Khoá 61 4 GVHD: ThS Tran Chung Thuy

Trang 13

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp ké KH sẽ gây ra rủi ro lớn cho TCTD Nhiều TCTD quá chú trọng đến lợi nhuận

bất chấp những khoản vay không lành mạnh, thiếu an toàn hoặc có chất lượng

thông tin, quá trình xử lý thông tin, cơ cau tô chức năng lực công nghệ yếu đều

gia tăng khả năng xảy ra rủ ro tín dụng.

1.1.3.2 Về phía khách hàng

Trình độ yếu kém của người vay trong dự đoán các van đề kinh doanh, yêu

kém trong quan ly, chủ định lừa dao cán bộ của TCTD, là các nguyên nhân

thường gặp nhất gây rủi ro tín dụng.

Khách hàng là khách hàng cá nhân yếu kém trong quản lý tài chính, không

hoặc không có kha năng tính toán kỹ lưỡng, không có khả năng thích ứng và khắc phục khó khăn trong kinh doanh sẽ dẫn tới vốn vay không được sử dụng hiệu quả, hiệu quả kinh doanh từ đó sa sút Khách hàng không có khả năng hoàn trả nợ gốc và lãi đầy đủ, đúng hạn cho TCTD.

Một số ít trường hợp, KH kinh doanh là kẻ xấu muốn lợi dụng khoản vay;

kinh doanh, đầu tư có lãi song vẫn không trả nợ cho TCTD đúng hạn hoặc không

muốn trả nợ TCTD với hy vọng có thê quyt nợ hoặc sử dụng vốn vay càng lâu

càng tốt.

Các nguyên nhân khác: các nguyên nhân khác bao gồm những nguyên nhân khách quan về môi trường có ảnh hưởng lớn tới rủi ro tín dụng như khủng hoảng

kinh tế/ tài chính; thiên tai tự nhiên hay những bất ồn chính trị xã hội trong khu vực sinh sống và làm việc của KH Những tác nhân này có ảnh hưởng tiêu cực tới các khoản tín dụng do làm thay đôi đột ngột các điều kiện tài chính cá nhân của KH, làm mất việc hoặc gây thiệt hại trực tiếp lên cơ sở vật chất, khiến cho KH dễ rơi vào tình trạng quá hạn nợ, nợ xấu do không đủ khả năng chi trả cho các khoản

nợ du đã có kế hoạch rõ ràng nhưng chưa tính toán đến những rủi ro trong vận

Nguyễn Quang Huy — Khoá 61 5 GVHD: ThS Tran Chung Thuy

Trang 14

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

1.1.4 Hậu quả của rủi ro tín dụng

Trong trường hợp rủi ro tín dụng xảy ra, hậu quả của việc rút tiền là rất nghiêm trọng Nó không chỉ ảnh hưởng đến những người đi vay cá nhân mà còn

ảnh hưởng đến các ngân hàng và toàn bộ nền kinh tế.

1.1.4.1 Tác động của rủi ro tín dụng đến hoạt động của Ngân hàng

Nếu ngân hàng gặp rủi ro tín dụng thì sẽ không thé thu được lãi từ khoản

cho vay, điều này có thé làm ngân hang mat đi cân đối thu chi Ngoài ra, còn dẫn

đến lãi ngân hàng và thất thoát vốn Khi mọi thứ trở nên nghiêm trọng, các ngân hàng thất bại và phá sản Ngân hàng vỡ nợ do không có khả năng thu hồi nợ dẫn

đến bị các ngân hàng quốc doanh soi mói, hạ điểm uy tín và ảnh hưởng đến quy

mô hoạt động.

1.1.4.2 Tác động của rủi ro tín dụng doi với nên kinh tế ; ;

Nó cũng được cho là do ty lệ nợ xâu cao của ngân hàng, làm tôn hai đên uy

tín của ngân hàng và làm xói mòn lòng tin của khách hàng Từ đó, khách hàng

đang có tiền gửi tiết kiệm tại ngân hàng đó sẽ rút tiền ra, có thể dẫn đến những

hậu quả nghiêm trọng như sau:

- Các ngân hàng thiếu vốn buộc phải vay ngân hàng khác hoặc ngân hàng quốc

- Mắt cân đối tiền tệ và bất ôn kinh tế.

Ngoài ra, trường hợp ngân hàng phá sản cũng có thể xảy ra Điều này sẽ ảnh hưởng trực tiếp đến các hoạt động kinh doanh của các doanh nghiép, khién cho

đời sống của người lao động Hơn nữa, cuộc khủng hoảng ngân hàng đã tác động

nghiêm trọng đến toàn bộ nền kinh tế Nó gây ra tình trạng suy thoái của nền kinh

tế, làm tăng giá cả, giảm sức mua, tăng tỷ lệ thất nghiệp và gây bat ôn định cho xã hội Hơn nữa, rủi ro tín dụng còn ảnh hưởng đến nên kinh tế toàn cầu vì ngày nay nền kinh tế của mỗi quốc gia phụ thuộc vào nền kinh tế khu vực và toàn cau.

Kinh nghiệm cho thấy cuộc khủng hoảng tài chính châu Á (1997) và cuộc khủng

hoảng tài chính Nam Mỹ (2001-2002) đã làm rung chuyên thế giới Mặt khác, quan hệ ngoại hối và đầu tư giữa các nước phát triên rất nhanh nên rủi ro tín dụng

của một quôc gia ảnh hưởng trực tiêp đên nên kinh tê của họ.

Nguyễn Quang Huy — Khoá 61 6 GVHD: ThS Tran Chung Thuy

Trang 15

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

1.2 Giảm thiểu rủi ro tín dụng bằng phương pháp phân loại khách hàng

Hiện nay, có rất nhiều biện pháp nhăm hạn chế rủi ro tin dụng nói chung vàcác biện pháp hạn chế rủi ro trong cho vay của ngân hang và TCTD nói riêng.

Những van dé cấp thiết nhất trong hạn chế rủi ro tín dụng có thé kẻ tới là:

Hoàn thiện được chính sách quản lý rủi ro tại các ngân hàng/ tô chức tín dụng Chính sách quản lý rủi ro phải bao quát toàn bộ những vấn đề xoay quanh một loại rui ro nhất định:

+ Bước 1: Nhận biết rủi ro: Xác định chính xác loại rủi ro mà ngân

hàng/ TCTD có thê gặp phải hay dang gặp phải.

+ Bước 2: Xác định hạn mức rủi ro: Xác định được rõ hạn mức rủi

ro mà ngân hàng/ TCTD đó có thể chấp nhận Các hạn mức này phải được làm rõ, quản lý và có sự phê duyệt của các cấp lãnh đạo, HĐQT.

Sau đó, hạn mức này phải được thông báo đến toàn thể CBNV các

bộ phận nghiệp vụ.

+ Bước 3: Dinh lượng rủi ro: Là việc dé ra và xem xét lại hạn mức

rủi ro, giúp người điều hành biết được thứ tự ưu tiên theo dõi và kiếm

SOát rui ro.

+ Bước 4: Kiểm soát rủi ro.

Hoàn thiện hệ thông xếp hạng tín dụng nội bộ: là một trong những chính

sách quan trọng bậc nhất của ngân hàng và các TCTD, hệ thong xép

hạng nội bộ phải rõ ràng, phù hop với ngân hang/ TCTD đó va luôn

được kiểm soát, cập nhật liên tục.

Hệ thống xếp hang tín dụng nội bộ tối thiểu phải bao gồm: (i) Cơ sở pháp lý về liên quan đến nghành nghé kinh doanh/ công việc của khách hang; (ii) Các chỉ tiêu tổng hợp tình hình kinh doanh, tài chính, tài sản, khả năng thực hiện nghĩa vụ theo cam kết của khách hang; (iii) Uy tín

với các TCTD khác; (iv) Các tiêu chi đánh giá thông tin cá nhân cua

khách hàng, thường là bộ câu hỏi không mang trọng số Ý tưởng về một

bộ công cụ chấm điểm tín dụng đã có từ những năm 70 của thế kỷ trước,

khi ngân hàng và các tô chức tín dụng lớn nhân ra răng, thị trường có sự

Nguyễn Quang Huy — Khoá 61 7 GVHD: ThS Tran Chung Thuy

Trang 16

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

gia tăng chóng mặt của các khoản vay vừa và nhỏ (vay chi tiêu hoặc

kinh doanh quy mô nhỏ) Nếu tiếp tục sử dụng các phương pháp xếp hạng tín dụng cũ trên các khoản vay này sẽ gây ra tình trạng thất thoát

doanh thu do chi phí vận hành phương pháp cũ lớn, thời gian kiểm tra

thông tin tín dụng mất nhiều thời gian Y tuong về một bộ công cụ dựa

hoàn toàn trên toán thống kê được cho rang sẽ giải quyết được van đề này một cách triệt dé nhất với ba tiêu chí: rẻ hơn, nhanh hon và đáng tin

cậy hơn; giúp các ngân hàng giải ngân khoản vay nhanh hơn, phục vụ

nhu cau lớn của khách hàng, vừa dam bảo được khả năng kiểm soát rủi

ro tốt Các mô hình chấm điểm tín dụng từ đó được xây dựng ngày càng phức tạp, tiên tiến hơn và được sử dụng rộng rãi song song cùng với các

phương pháp xếp hạng tín dụng sẵn có.

Việc hạn chế rủi ro tín dụng trách nghiệm của mỗi ngân hàng, TCTD nhưng cũng là trách nghiệm của nhà nước Chính phủ cũng phải thường xuyên thanh tra,

kiểm tra và đưa ra những chỉ thị, đường lối đúng đắn, sát sao và kịp thời; tránh để

xảy ra những trường hợp thất thoát tài nguyên quốc gia, gây mất tín nhiệm tin

dụng trong mắt bạn bè quốc tế.

1.3 Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient

Trong hoc máy, bài toán phân loại (classification) thường được xử ly bang hồi quy Logistic hoặc mô hình Cây quyết định (Decision Tree) Thuật toán Boosting có thê hiéu là thay vì xây dựng một mô hình (có thé là decision tree) có

độ chính xác tương đối dựa trên tập huấn luyện, ta xây dựng rất nhiều mô hình có

độ chính xác kém hơn khi đi riêng lẻ nhưng lại cao hơn khi kết hợp với nhau.

Gradient Boosting hiện đang được xem là một trong những thuật toán học tối ưu nhất đề giải quyết các bài toán học máy có giám sát bên cạnh những mô hình học sâu thường được sử dụng cho các bài toán hồi quy với dit liệu đầu vào dạng định

Nguyễn Quang Huy — Khoá 61 8 GVHD: ThS Tran Chung Thuy

Trang 17

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

1.3.1 Mô hình dạng cây (Tree Based Model)

Mô hình dang cây là một cây phân cấp có cấu trúc được dùng dé phân lớp

các đối tượng dựa vào các quy luật Các thuộc tinh (features) của đối tượng có thé

thuộc nhiều kiểu khác nhau như nhị phân, định danh, thứ bac, định lượng và thuộc tính phân lớp phải là kiểu nhị phân hoặc thứ bậc Xét tập đữ liệu bao gồm các

thuộc tính của từng điểm đữ liệu và phân lớp nó thuộc về, mô hình cây sẽ sinh ra các quy luật để dự đoán phân lớp của các điểm dữ liệu chưa biết.

Branch/ Sub-TreeSplitting * y fo An.

Hình 1: Cau trúc co bản của Cây quyết định

(Nguồn: Nagesh Singh Chauhan, Kdnuggets)

- Node sốc (ROOT Node): là tập dữ liệu sốc, sẽ được phân chia thành hai

hay nhiều tập con dựa trên các quy luật sinh ra.

- Qua trình phân chia (Splitting): Quá trình phân chia một node thành hai

hay nhiều node con.

- Node quyết định (Decision Node): Các node con mà còn được phân chia

ra thành các node nhỏ hơn nữa.

- Node cuối (Terminal Node/ Leaf): Cac node con không còn được phân

chia nữa, thường được gọi là “lá” (“Teaf”’).

- Nhánh (Branch/ Sub-tree): là một bộ phận nhỏ của cây quyết định, bao

gom các node quyết định và hai hay nhiều leaf.

Nguyễn Quang Huy — Khoá 61 9 GVHD: ThS Tran Chung Thuy

Trang 18

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

- Node me và node con (Parent Node va Child Node): Node me là node

được chia thành hai hay nhiều node nhỏ; node con là các node được chia

ra bởi một node mẹ.

- Tia cây (Tree Prunning): Quá trình loại bỏ các node con khỏi một hay

nhiều nhánh của cây quyết định.

Mô hình cây sẽ phân lớp tập dữ liệu bằng cách dùng thuật toán dé đưa ra quyết định có nên phân chia một node hay không, trong đó quyết định phân chia

một node trên toàn bộ dữ liệu dang có là lựa chon tốt nhất trên các node con có thé phân chia tại cùng cấp đó Các mô hình cây phổ biến nhất có thể ké đến là ID3, C4.5, CART, CHAID, MARS, Đề tìm được cách phân chia tốt nhất cho

1 node, các mô hình cây thông thường thường sử dụng 2 thuật toán:

- Hệ số Gini (Gini Impurity/ Gini Index):

GI = XÊ1Pm¡(1 — Pmi) = 1— Ty Pini

- Entropy:

—i=1Pmi log(Pmi)

Trong đó, Pym; là ty lệ số quan sát được phân vào lớp i trên tổng số quan sát, với

i = (1,2, ,K) là phân lớp thứ i trong K phân lớp.

Trang 19

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Dựa trên đồ thị Gini và Entropy, ta thấy cả hai phương pháp này đều khá giống nhau Trong mô hình cây, cả hai thuật toán đều được sử dụng dé đánh giá

chất lượng của một quá trình phân chia Kết quả của quá trình phân chia được coi

là tốt hơn nếu một phía của node con (node kết quả sau khi được phân chia) có

entropy hoặc hệ số Gini gần 0 hơn do điều đó chứng tỏ tại phía đó của node con,

các điểm đữ liệu có xác suất nằm hoàn toàn về phân lớp 0 hoặc 1.

Mô hình cây rat phổ biến trong giải quyết các bài toán phân lớp do ý tưởng của mô hình rất giống với quá trình ra quyết định của con người, điều đó giúp mô hình cây dé hiểu và dễ giải thích Ngoài ra, mô hình cây còn phổ biến bởi kha năng tuỳ biến chủ động băng tree prunning, giúp mô hình thích nghi được với nhiều bộ đữ liệu trong nghiên cứu và cả ứng dụng thực tế.

1.3.2 Thuật toán Gradient Boosting

1.3.2.1 Boosting và Gradient Descent

Boosting là một hướng di trong học máy kết hợp (ensemble learning) dé giải quyết bài toán phân lớp, thay thế cho 1 mô hình dự đoán có độ chính xác tương đối như Cây quyết định Boosting không lập tức xây dựng 1 mô hình trên ROOT Node mà xây dựng tuần tự nhiều mô hình có độ chính xác kém (weak

learner) sau đó kết hợp lại thành một mô hình tối ưu có độ chính xác cao Các weak learner trong bài toán phân loại bằng mô hình cây chính là các Cây quyết định có độ chính xác thấp, mà mỗi cây được xây dựng sau sẽ kế thừa toàn bộ

thông tin đã có từ cây phía trước.

Nguyễn Quang Huy — Khoá 61 11 GVHD: ThS Tran Chung Thuy

Trang 20

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

S999 e “Se 0.

Ore) Ce : C@ Se = ee e

@.800@ | e®© ộ > eee 3 Cee Ceo ®<ee

Original Data Weighted Data Weighted Data

} } i

mm parm Classen:

L |

e6 ee©e6® eee eee

Hình 3: Minh hoạ các bước tuần tự trong thuật toán Boosting

(Nguồn: geeksforgeeks.org) Gradient Descent là quá trình tối ưu hoá một hàm mục tiêu bất kỳ dựa trên

các tham số cho trước nhằm tìm ngược về điểm có đạo hàm của hàm mục tiêu gần

0 nhất Điểm này chính là cực trị địa phương của hàm mục tiêu.

Xét hàm số: f(x) Đạo hàm của f (x¿) được ký hiệu là f’(x;) Xét điểm bắt

dau là 1 điểm bat kỳ có ƒ”(x¿) > 0, để điểm tiếp theo x;„¡ gần với x* (điểm cực

trị có ƒ“(x) = 0 thì:

Xt41 = X_ +A

Trong đó, A là một đại lượng ngược dấu với đạo hàm ƒŒ,) Vì x; càng tiễn lại

gần x* thì f’(x;) càng gan 0 nên đại lượng A nên là một đại lượng tỷ lệ thuận với

ƒ'(x,) Từ đó, ta có thể viết lại công thức Gradient Descent như sau:

X:+¡ =X, +pXŒ()

Với p là tốc độ học (learning rate) Việc lựa chon learning rate cũng yêu cau su

hop ly nhất định dé dat duoc mục tiêu là tim được điểm gần cực trị x* nhất Với

learning rate quá lớn, thuật toán Gradient Descent dễ bị thiếu chính xác do các bước nhảy liên tiếp có khoảng cách quá lớn Trong khi, learning rate quá nhỏ

Nguyễn Quang Huy — Khoá 61 12 GVHD: ThS Tran Chung Thuy

Trang 21

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

khiên tôc độ Gradient Descent trở nên rat cham, và có thê tìm sai diém x* từ điêmv °

xuât phát cô định với các hàm mục tiêu có nhiêu diém cực tri.

Ww WwW

Large Learning Rate Small Learning Rate

Hinh 4: Minh hoa vé Gradient Descent

(Nguon: Saugat Bhattarai)

1.3.2.2 Gradient Boosting

Là su kết hợp giữa hai hướng tiếp cận trên, thuật toán Gradient Boosting ra đời với mục tiêu kết hợp các mô hình có độ chính xác thấp dé tạo ra mô hình mới với độ chính xác cao hơn Xét một bộ đữ liệu :D = {x;, y¡}]f, kết quả của quá trình

Gradient Boosting là tim ra hàm F(x) gần hàm F*(x), sao cho những điểm dữ

liệu có thuộc tính x được phân lớp với độ chính xác cao trong y Gradient

Boosting xây dựng mô hình là xp xi của:

Fin(X) = Fom—1)(*) + Pmhm(*)

Trong đó, ø„„ là trọng số của hàm thứ m Các hàm tuần tự này là các mô hình con

trong mô hình kết hợp (ensemble).

Các bước phát trién một mô hình Gradient Boosting: - Bước 1: Tao hàm mat mát khởi động Fy (x):

Fo(x) = argming (SỀ+1L(y 8)

- Bước 2: Xây dựng mô hình tối wu Ø„„ hạ; (x)

(pmh„()) — argmim,w(XI+L(ị, Fm—1(%¡) + ph(,)))

Nguyễn Quang Huy — Khoá 61 13 GVHD: ThS Tran Chung Thuy

Trang 22

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Tại bước này, ta áp dụng thuật toán Gradient Descent, coi mỗi h,, là một

bước giống như một đại lượng A thêm vào hàm L(y, Em_J(X 0): Từ đó, mỗi h„ được huấn luyện trên một tập dữ liệu D = {x¿,rm¡}Ÿ, với Mm; là phan dư pseudo (pseudo-residuals) có dang:

_ [AL (yi, F(x)

Bước 3: Tinh toán lại giá tri của trọng sô p,, dựa trên mô hình vừa huan

Bước 4: Cập nhật mô hình chính và lặp lại các bước trên có tuần tự.

Một trong những phương pháp giảm thiéu tinh trạng overfit và tăng cường tinh

tuỳ biến cho Gradient Boosting là thêm /earning rate v dé kiểm soát các bước

nhảy của quá trình Gradient Descent Fm(x) = F„_¡(x) + VPmhm(x) hoặcgiảm độ phức tạp của các mô hình con (như prunning tree với bai toán sử dụng

mô hình cây).

1.4 Đánh giá độ chính xác của sự phân loại

Đánh giá mô hình giúp chúng ta suy đoán được được độ phù hợp của mô

hình đối với bài toán của mình hoặc so sánh giữa các mô hình với nhau Đề tìm

được thước do đánh giá mô hình phù hợp thì ta cân phải hiệu về ý nghĩa, ban chatvà trường hợp áp dụng của từng phương pháp đánh giá.

1.4.1 Độ chính xác (Accuracy, Precision và Recall)

Gia sử chúng ta xét một mô hình dự báo sự kiện với 2 kha nang positive

(tích cực) và negative (tiêu cực) Các kêt quả của model xảy ra sẽ rơi vào 4 nhóm

FN tương đương với mắc sai lầm loại I (Bác bỏ sự kiện là positive va gan

cho nó là negative) và FP tương đương với mắc sai lầm loại II (Chấp nhận một sựkiện là positive khi bản chất sự kiện và negative) Thông thường xác xuất mắc sai

Nguyễn Quang Huy — Khoá 61 14 GVHD: ThS Tran Chung Thuy

Trang 23

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp lầm loại II sẽ gây ra hậu quả lớn hơn Mục đích chính của các mô hình chuẩn đoán,

cảnh báo hay quản trị rủi ro là cảnh báo sớm, phòng ngừa, loại bỏ các sự kiện xâunên việc tìm chính xác được sự kiện negative được ưu tiên hon positive.

Dựa trên các chỉ sô này, chúng ta tính được đại lượng đo độ chính xác của

1.4.2 Duong cong Receiver Operating Characteristic (ROC)

ROC là đường cong biểu diễn kha năng phân loại của một mô hình phân

loại tại các threshold khác nhau Đường cong này dựa trên hai chỉ số :

- TPR (true positive rate): Là tỷ lệ các trường hợp phân loại true positive trên

tổng số các trường hợp thực tế là positive Giá trị TRR càng cao, mô hình dự báo càng tốt trên nhóm positive.

TPR =O

Tổng số quan sat positive

- FPR (fail positive rate): La tỷ lệ các trường hợp phân loại false positive trên

tổng số các trường hợp thực tế là negative Giá tri TRR càng cao, mô hình

dự báo càng tốt trên nhóm positive.

Tổng số quan sat negative

Đồ thi ROC là một đường cong cầu lồi dựa trên TPR và FPR có hình dạng:

FPR =

ROC curve 1

True positive rate

0 0.2 0.4 0.6 0.8 1

False positive rate

Hinh 5: Vi du về đường cong ROC

(nguon: BMC Bioinformatics)

Nguyễn Quang Huy — Khoá 61 15 GVHD: ThS Tran Chung Thuy

Trang 24

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp AUC là chỉ số được tính toán dựa trên đường cong ROC (receiving

operating curve) nhằm đánh giá khả năng phân loại của mô hình tốt hay không.

Phần diện tích năm dưới đường cong ROC và trên trục hoành là AUC (area under

curve) có giá trị năm trong khoảng [0,1] Khi diện tích này càng lớn thì đườngcong ROC có xu hướng tiệm cận đường thăng y = 1 va khả năng phân loại của

mô hình càng tôt.

Nguyễn Quang Huy — Khoá 61 16 GVHD: ThS Tran Chung Thuy

Trang 25

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

CHƯƠNG II: PHƯƠNG PHÁP PHAN LOẠI KHACH HANG PHO BIEN

TẠI CAC TO CHỨC TÍN DUNG

2.1 Các phương pháp phân loại khách hàng thường được sử dụng từ trướcđên nay

Hiện tại, có 3 loại phương pháp phân loại khách hàng sử dụng tín dụng đượcsử dụng rộng rãi; được lựa chọn dựa theo tính sẵn có của nguồn dữ liệu, cũng nhưđặc thù của từng phân khúc khách hàng, hoặc chính sách sản phẩm cho vay.

e Phương pháp chuyên gia: Phương pháp chuyên gia sẽ dựa trên ý kiến

thâm định của các chuyên gia về rủi ro đối với một khoản tín dụng Rủi ro sẽ được căn cứ trên các thông tin chủ yếu đó là:

Đặc điểm của chủ thé vay (character): Thâm định danh tiếng, tinh

trung thực của người vay vôn.

Vốn (capital): Tham định sự chênh lệch giữa tài sản và nguồn vốn của

người cho vay Tài sản chính là những giá trị mà ngân hàng có thé thuhồi khi người vay không trả được nợ Nguồn vốn có thê là các chi phímà người vay đang phải chi trả như chi tiêu gia đình, chi phí thuê nha,

Sau khi trừ đi các chi phí chúng ta sẽ biết được người vay sẽ tiết

kiệm được bao nhiêu và chi phí đó có đủ dé trang trải lãi vay hay

Tài sản đảm bảo (collateral): Sẽ có 2 loại hình thức cho vay được

phân chia dựa trên tài sản đảm bảo đó là vay thế chấp (có tài sản đảm

bảo) và vay tín chấp (không có tài sản đảm bảo) Rủi ro của 2 hình

thức cho vay này là khác biệt nhau nên lãi suất và hạn mức giữa chúng

cũng sẽ khác biệt dé dam bao dung hòa giữa lợi nhuận và rủi ro đối với

ngân hàng Đối với vay thế chấp ngân hàng sẽ phải định giá chính xác giá trị của các tài sản thế chấp Gia trị các tài sản này sẽ quyết định hạn

mức tín dụng mà ngân hàng sẽ cấp cho người vay Rủi ro đối với các

khoản vay thế chấp là thấp hơn tín chấp vì trong trường hợp khách

hàng không có khả năng thanh toán, ngân hàng được quyền thu hồi tàisản đảm bảo.

Khả năng trả nợ (capacity): Là các thông tin liên quan trực tiếp đến

khả năng tài chính của người vay đó là: nghê nghiệp, mức thu nhập,trạng thái hôn nhân, sô người phụ thuộc,

Điều kiện (condition): Đánh giá sơ bộ trạng thái của người vay có

tham chiếu tới điều kiện thị trường, bối cảnh tài chính, áp lực cạnh

tranh, mục đích sử dụng vốn, Chăng hạn người vay là hộ dân trồng

cafe nhưng năm vừa qua thị trường cafe giảm giá mạnh Do đó sẽ

khiến lợi nhuận và khản năng thanh toán của người vay xuống thấp hơn dự kiến.

Nguyễn Quang Huy — Khoá 61 17 GVHD: ThS Tran Chung Thuy

Trang 26

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Phương pháp chuyên gia dựa nhiều trên kinh nghiệm của con người khiến

cho quá trình thâm định sẽ tôn kém về thời gian, không phù hợp với nhu câu vốnliên tục gia tăng của các khoản vay kinh doanh vừa và nhỏ Đồng thời ý kiến đánhgiá cũng không nhất quán giữa các chuyên gia Do đó một phương pháp khác

được khuyến nghị nham đưa ra các đánh giá nhanh chóng và nhất quán hơn Đó

chính là phương pháp mô hình.

¢ Phương pháp thống kê: Phương pháp thống kê sử dung mô hình sẽ dựa

trên điểm số được lượng hóa từ các loại mô hình học máy như Hồi quy

Logistic, mô hình cây quyết định hay mạng neural nhân tạo Phương pháp này có nhiều điểm tôi ưu hơn so với phương pháp chuyên gia:

- Năng suất thẩm định từ mô hình cao hơn rất nhiều so với các chuyên

gia Một môt hình có thê giải quyết sô lượng hô sơ băng khôi lượngcông việc của hàng trăm chuyên gia.

- _ Giảm thiêu chi phí lao động khi cắt giảm được một phan lương chi trả

cho các chuyên gia thâm định.

- Kết quả đánh giá hé sơ là rất nhất quán dựa trên điểm số tín nhiệm là

duy nhât, trong khi đó các chuyên gia có thê đưa ra kêt quả đánh giákhác nhau dựa trên cảm quan cua họ vệ rủi ro.

- _ Mô hình sẽ xem xét toàn diện các biến số đầu vào và thậm chí có thé gia tăng số lượng biến tùy ý mà không ảnh hưởng tới thời gian dự báo Trong khi phương pháp chuyên gia sẽ chịu hạn chế bởi khả năng của

con người là có hạn Việc đánh giá hồ sơ đôi khi chỉ được nhận định

trên một số biến chính.

e Phương pháp hỗn hop (Hybrid): Là sự sử dụng kết hợp giữa phương

pháp chuyên gia và phương pháp thống kê Phương pháp này thường

được áp dụng cho các doanh nghiệp có quy mô tương đối lớn hay đa

ngành nghề bởi các doanh nghiệp này cần sự kiểm soát sát sao từ các kết

qua thẩm định của chuyên gia cũng như phân loại dựa trên dữ liệu sẵn có

theo phương pháp mô hình.

2.2 Xây dựng mô hình phân loại khách hàng theo phương pháp thống kê

Theo như đề tài nghiên cứu chính của bai viết, ta muốntap trung vào nhómkhách hàng cá nhân, có nhu cau tin dụng cho chi tiêu, mua sắm hoặc kinh doanhvừa và nhỏ, vậy nên ta sẽ tạm thời chỉ tập trung vào phương pháp thống kê, với

đặc trưng là giải ngân nhanh, giảm thiéu chi phí phát sinh không cân thiết; tất phù

hợp với tập khách hàng này Các bước đề thực hiện một

Bước 1: Dinh nghĩa “nợ xấu”

Bước 2: Nhận định các nhân tố rủi ro trong bộ dữ liệu Sau khi đã định

nghĩa được “nợ xấu”, ta sẽ thực hiện phân tích chuyên sâu các tập dữ liệu sẵn có,

dan dan tìm ra được một công thức phân tách các nhân tố đánh giá được khả năng

chi trả nợ của khách hang.

Bước 3: Thực hiện kiểm tra trên các nhân tố có ảnh hưởng lớn đến rủi ro

tín dụng Một cách khác dé thé hiện điều nay là: “kiểm tra các nhân tổ rủi ro đượcNguyễn Quang Huy — Khoá 61 18 GVHD: ThS Tran Chung Thuy

Trang 27

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp sảng lọc thông qua bước 2 thực sự hoạt động trên thực te” Người thiết kế mô hình

phải tìm được dẫn chứng trong thực tế để chứng minh rằng các nhân tố mới tìm

được thực sự là nhân tố có ảnh hưởng đến tình trạng khoản vay, hay đó là sai lầm

từ viéc gắn nhãn cho các biến, sang loc dit liệu không kỹ càng, Tóm lại, mô hình cuối cùng không chỉ hiệu quả trên mặt thống kê, mà còn phải hợp lý với tình

hình thực tế.

Bước 4: Tối ưu hoá mô hình

2.3 Mô hình hồi quy Logistic ứng dụng trong phân loại khách hàng

Mô hình Logistic là một mô hình hồi quy với biến phụ thuộc là biến nhị

phân (chỉ nhận giá trị 0 hoặc 1) và biến độc lập có thê là biến định lượng hoặc

định tính Áp dụng của mô hình Logistic trong xếp hạng tín dụng được sử dụng

rộng rãi nhất là đánh giá khả năng vỡ nợ của khách hàng Trong mô hình này, biếnphụ thuộc sẽ là Kha năng vỡ nợ (Default) của khách hang; Default nhận giá trị 1

tức là khách hàng có khả năng trả nợ và nhận giá trị 0 nếu khách hàng có khả năng

không thé chỉ trả khoản nợ đã vay Biến độc lập trong mô hình là các trường thông

tin thu thập từ khách hàng làm căn cứ dé đánh giá khả năng vỡ nợ Với đối tượng

khách hàng cá nhân (ndividual customers), các biến độc lập này thường là thông

tin về tuổi, giới tính, trình độ học van, giá trị khoản ng, thu nhập trung bình, lich

® p;: xác suât vỡ nợ của khách hang i

e_ X;: các biến độc lập chứa thông tin về khách hàng

e ø:hệ số chặn

e Ø,:hệ sỐ góc (i = 1,k)

Từ đây có thể thấy:

e B >0 thì x càng lớn xác suất dé Y = 1 càng lớn hay xác suất khách hang

đó không trả được tin dụng cảng lớn.

e < 0 thì x càng lớn xác suất dé Y = 1 càng nhỏ hay xác suất khách hang

đó vỡ nợ tín dụng càng nhỏ.

Kết hợp với phương pháp sử dụng giá trị thông tin (Information Value) và

Weight of Evidence, các giá trị đầu ra của mô hình Logistic hay xác suất vỡ

nợ của các khách hàng có thê được phân chia thành bảng điểm scorecard Đây là ứng dụng lớn nhất của mô hình Logistic trong quản lý rủi ro tín dụng bởi sự dễ hiểu, dé thử dụng và chứa đựng nhiều thông tin của nó.

Nguyễn Quang Huy — Khoá 61 19 GVHD: ThS Tran Chung Thuy

Trang 28

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

CHƯƠNG Ill: UNG DUNG MO HINH GRADIENT BOOSTING TRONG

PHAN LOAI KHACH HANG

3.1 Tổng quan về bộ dữ liệu

Bộ dữ liệu “Jending club_data” là dữ liệu công khai do Lending Club cung

cấp phục vụ mục đích nghiên cứu và phân tích của các nhà đầu tư, nghiên cứu sinh, sinh viên, Bộ dir liệu gốc cung cấp bởi Lending Club là tập hợp dữ liệu

lịch sử của trên một triệu khoản vay từ năm 2007 đến quý 3 năm 2020 bao gồm cả khoản vay với trạng thái được phê duyệt và bị từ chối; tình trạng khoản vay đã thanh toán hết/ vỡ nợ hay mới thanh toán được một phần/ trễ nợ; khách hàng vay tiền là cá nhân (individual) hay khoản vay chung nhiều người/ vay doanh nghiệp

Với bài nghiên cứu cua mình, em chi su dụng một phần bộ di liệu trên, là dữ liệu thu thập trong năm 2018 với bộ lọc khách hàng chỉ bao gồm khách hàng

cá nhân và đã hoàn trả toàn bộ khoản vay (Fully Paid) hoặc đã không còn đủ điều

kiện trả nợ (Charged Off).

Tập dữ liệu bao gồm 26 trường thông tin Được thê hiện trong bảng sau:

Ky han khoan vay, bao gom 2 mức kỳ han:

3 term Term - 36 thang- 60 thang

int_rate Interest Rate Lai suat hàng tháng của khoản vay

installment Installment Khoản tiền lãi phải trả hàng tháng

emp_title Employment Title | Công việc hiện tai của khách hang

Số năm kinh nghiệm làm việc, được đánh số từ 1

năm đến 9 năm

emp_length Employment Những khách hàng chưa du 1 năm kinh nghiệm

Length được ghi nhận là “< 1 years”

Những khách hàng có trên 10 năm kinh nghiệmlàm việc được ghi nhận là “10+ years”

- OWN: Có sở hữu nhà

Nguyễn Quang Huy — Khoá 61 20 GVHD: ThS Tran Chung Thuy

Trang 29

Chuyên đê tốt nghiệp

- RENT: Hiện đang thuê nha

- MORTGAGE: Hiện đang được sử

dụng để thế chấp cho một khoản vay

- ANY: Không có thông tin

9 annual_inc Annual Income Thu nhập bình quan năm của khách hang

Tình trạng khoản vay:

- Charged Off: khách hàng không còn10 | loan_status Loan Status kha nang thanh toan

- Fully Paid: khách hàng đã thanh toán

toàn bộ khoản vay

within 2 years gân đây của khách hàng

- Số tài khoản tín dụng/ thẻ tín dụng của khách hang

14 | open acc Opening Account ¬

hiện van đang hoạt động

l5 pub_rec Public Record Số lần vỡ nợ được ghi nhận công khai của khách

_bankruptcies Bankrupcies hang tại các tổ chức tin dung

Hạn mức tín dụng quay vòng: khoản tiền còn chưa

thanh toán trong tài khoản tín dụng quay vòng của

Credit Revolving | khách hang (Tin dung quay vòng được định nghĩa

16 | revol_bal

Balance là khoản hạn mức tín dụng được phê duyệt trước

cho khách hang và khách hang có toàn quyén sửdung với điều kiện thanh toán day đủ)

17 | revol_util Utilization/ Credit | Ty lệ han mức tín dụng quay vòng chưa thanh toán

Utilization Ratio

Tong số tài khoản tin dụng đã từng được mở của

18 total_acc Total Account

khach hang

Total Payment „ ca

-19 | total_pymnt_inv Tông sô tiên phải trả trên khoản vayInvolve

Total Recorded „ TY,

20_ | total_rec_int Tông số tiên lãi đã trả của của khách hàng

Nguyễn Quang Huy — Khoá 61 21 GVHD: ThS Tran Chung Thuy

Ngày đăng: 11/04/2024, 20:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w