Chuyên đề thực tập: Ứng dụng mô hình neural network và logistic regression trong phân loại hồ sơ tín dụng tại ngân hàng TMCP An Bình chi nhánh Ba Đình

Trong lĩnh vực tài chính, ngân hàng, Machine Learning, khi được kết hợp với các mô hình phân tích định lượng, phát huy hiệu quả đặc biệt trong việc tìm kiếm các bộ mẫu đữ liệu, đưa ra nh

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG DAI HỌC KINH TE QUOC DÂN

4155

Dé tai:

UNG DUNG MO HINH NEURAL NETWORK VA

LOGISTIC REGRESSION TRONG PHAN LOAI HO SO

TIN DUNG TAI NGAN HANG TMCP

AN BINH CHI NHANH BA DINH

Ho và tên : Nguyễn Thành Luân

Mã sinh viên : 11172896

Lớp : Toán Kinh Tế 59

Giảng viên hướng dẫn : TS Bùi Dương Hải

Hà Nội - 2021

Trang 2

Chuyên đề thực tập chuyên ngành Toán Kinh Tế

LỜI CẢM ƠN

Dé hoàn thành bài nghiên cứu này, em xin cảm ơn anh chị, nhân viên ngânhàng TMCP An Bình Chi Nhánh Hà Nội là giúp em hoàn thành số liệu nghiên

cứu.

Em xin cảm ơn thầy Bùi Dương Hải đã luôn giúp đỡ và hỗ trợ em trong

quá trình hoàn thành bài nghiên cứu này.

11172896- Nguyễn Thành Luân

Trang 3

CHƯƠNG 1 : CƠ SỞ LY THUYET e- 5< se sessvssevssexseessess 3

1.1 Tống quan về nợ xấu -e-s- s-s°ssssss+sssssessesserserssessessersersee 3

1.1.1 Bản chất của nợ xấu ¿St tt SE SESEEEEEEEEEEEEEEEEEEEkrkrkrrkrkekree 31.1.2 Tổng quan các bài viết từng phân tich . :-2©5¿5csz5c+2 3

1.1.2.1 Các công trình nghiên cứu nước ngoài phân loại hồ sơ tin dụng4

1.1.2.2 Các công trình nghiÊn Cứu trong NUGC - -s-cs«csxcsecss &

1.2 Mô hình Logistic Regression (LR) 0-5555 S55 S5 5556595956 12

1.2.1 Định ng Hĩa (1 11 1 93 9199 901g Hà HH Hưng nh gà 12

1.3 Mô hình Neural Network 6-5 << 9 HH 0008906 13

1.3.2 Nền tảng hoạt GONG ccccceccsssessssssesssessseesssssessecssecsesssesssecssecseesseessess 13

1.3.3 Cac dạng hàm kích hoat - 5 +2 * + E*EEsvrerserrrserreeerrrek 14

1.3.3.1 Hàm phi tuyến sigimoid 5c ScctccccEccEerkerterkererrrrres 141.3.4 Cau trúc mô hình Neural network . -¿-¿- + s+s++s++z++zxezse+ 15

1.4 Đánh giá mô hình phan ÏOqÌ G555 55 S5 953 559849559595 89% 17

1.4.1 Accuracy, Precision và RecalÏ - - + ss + kxsvkeseseserseseeeere 17 1.4.2 Đường cong ROC - G9 TH HH HH ng 19

TÓM TAT CHƯNG s< s°Ev+eseeSEErdeeorrdeeorrkreeorrrdee 21CHƯƠNG 2: THỰC TRẠNG DỮ LIỆU NGHIÊN CỨU VÀ XỬ LÝ DỮ

Trang 4

2.3 Chuẩn hoá dữ liệu: .s-s- 5° ssscsessssesserserssessesserserssrsee 36TÓM TAT CHƯNG 2 s°°+es2E++dEESEAAAeEeotkkeeotkkreoorrrsee 39CHƯƠNG 3: XÂY DUNG MÔ HÌNH NEURAL NETWORK 40

3.1 Đánh giá mức độ tương quan của các biến với biến phụ thuộc 40

3.2 Mô hình nghiên CỨU <5 <2 9 99.9894 9899896598589961 896866 42

3.2.1 Phan chia ditt 0 42

3.2.2 Mô hình Logistic Regression - 5c Series 43

3.2.2.1 Với mẫu mắt cân bằng -. 2: 2+52+S++E+E+te£teEtererrresree 433.2.2.2 Với mẫu được xử lý mắt cân bằng -c-©cz©cs+cscsce: 44

3.2.3 Mô hình Neural Network (NÌ) Ăn HH ke, 46 3.2.4 So Sanh Mô Hình - - 5 5 3112211315111 5111118111811 ket 48

00090775 ÚÔ 49TÀI LIEU THAM KHAO s- 5° 5° 52 s5s£ s2 ssEsseEseEssessessesserseesee 50

Trang 5

DANH MỤC BANG

Bang 1: Bảng ma trận sai lầm của ví đụ -:- 5 252+cz+EccEerkerxerxerxerrrree 18

Bang 2: Kí hiệu và loại biến của 42 biến sử dụng trong mô hình - 23

Bang 3: Nội dung và giá trị đặc trưng của tất cả các biến trong bộ dit liệu 25

Bang 4&5: Thống kê mô tả giá trị Missing của 9 biến định danh 25

Bảng 6: Thống kê mô tả tuần suất biến NAME_CONTRACT - 25

Bảng 7: Thống kê mô tả tuần suất biến GENDER -2 ¿c5¿+55+¿ 26 Bang 8&9: Thống kê mô tả tuần suất 2 biến IN COME TYPE và OWN REALITY - - c<<<<<<<< << <sxx Error! Bookmark not defined. Bang 10: Thống kê mô tả tuần suất biến OWN_CAR -. ¿©-5¿©55¿-: 27 Bảng 11: Thống kê mô tả tần suất biến Name_type Suite - - 27

Bảng 15: Thống kê mô tả các biến định lượng -. :- 5+ s2©5++cxz+ss+2 32 Bang 16: Thống kê mô tả các biến định lượng sau khi xử ly Missing 33

Bang 17: Thống kê các biến có số lượng giá trị đặc trưng lớn hơn 90 34

Bảng 18: Thống kê mô ta tần suất biến phụ thuộc Y . ¿-¿-5z-: 35 Bảng 19 : Ma trận sai lầm của mô hình LR dự báo trên tập Train 43

Bảng 20 : ma trận sai lầm đánh giá kết quả dự báo tập train sau khi SMOTE 44

Bảng 22: Ma trận sai lầm giữa giá trị thực tế và giá trị dự báo trên tập Train của môhình Neural NetWOTK - - ng ng nh ng nh ng nh nh 47 Bảng 23: Ma trận sai lầm giữa giá trị thực té và giá tri dự báo trên tap Test 47

Trang 6

DANH MỤC HÌNH

Hình 1: Đường cong Learning giữa tập CV và tập TTra1n - 555 5<<<><<+ 6

Hình 2: Kết quả đo lường hiệu quả 5 mô hình trong 3 trường hợp - 7

Hình 4: Kí hiệu nội dung 17 biến độc lập trong mô hình nghiên cứuError! Bookmark not defiHình 5: cấu trúc mô hình Neural Network Error! Bookmark not defined

Hình 6: Kết quả so sánh mô hình trên 2 tap train va testError! Bookmark not defined

Hình 7: biểu đồ biểu diễn sự khác biệt giữa yếu tố đầu vào - 12

Hình 8: Sơ đồ hoạt động mạng lưới thần kinh con người - 2-2: 13

Hình 9: Đồ thị biểu dién giá trị dao động của hàm phi tuyến sigmoid 15

Hình 10: cau trúc mô hình mạng nơ ron - 2:2 5¿++2++2x++zx++zxzsseex 15

Hình 11: Cấu trúc liên kết giữa các lớp mô hình NN .: -:-:-: 16

Hình 12: Đường cong ROC va A ÙCC, s5 + vn ng gi 20

Hình 13: Đồ thị biểu diễn giá trị đặc trưng của 9 biến định danh theo biến phụ

Hình 14: Đồ thị biểu diễn sự khác biệt của 2 biến độc lập theo biến phụ thuộc Y30

Hình 15: Biểu đồ thể hiện giá trị đặc trưng của 2 biến theo biến phụ thuộc Y sau

khi phan chia dit LiQu oe ee - 31

Hình 16: Đồ thi Boxplot và đồ thi phân phối của biến AMT_INCOME 33

Hình 17: Đồ thị Boxplot và đồ thị mật độ biến AMT_INCOME sau khi xử lý

Hình 18: Ma trận tương quan tuyến tính của 15 biến có độ tương quan lớn nhất

với biến J0i)81ì100 0 -3ä. 40

Hình 19: Đồ thị phân phối xác suất theo biến mục tiêu của 2 biến GENDER 41

Hình 20: Biểu đồ phân phối xác suất theo biến mục tiêu Y của biến

DAY _BIRTH 20.0 41

Hình 21: Phân loại nhóm tuổi theo tỉ lệ nợ xấu - -¿-cc+c:+cxxccrx 42

Hình 22: Đường cong ROC của mô hình LR với dit liệu huấn luyện sau khi

Bảng 21: Ma trận sai lầm giữa giá trị thực tế và dự báo trên tập Test mô hình LR45

Hình 23: Đường cong ROC với tập dit liệu Test thông qua mô hình LR 46

Trang 7

Hình 24: Đường cong ROC trên dữ liệu tập Test của mô hình NN

Biểu đồ Đường cong ROC dựa trên 70% mẫu xây dựng mô hình

Trang 8

LỜI MỞ ĐẦU

1 Lí do chọn đề tài

Trong quá trình hoạt động của ngành Ngân Hàng, những rủi ro trong hoạt động

cho vay là điều không thê tránh khỏi Việc một khách hàng cá nhân vay nhưng không trả

được nợ ( hoặc trả nợ chậm) sẽ ảnh hưởng rất lớn đến doanh thu và lợi nhuận của Ngân

Hàng, qua đó ảnh hưởng khá lớn tới nền kinh tế của một quốc gia Việc khách hàng cánhân trả được nợ hay không, điều này phụ thuộc rất nhiều yếu tố Chúng ta hoàn toàn cóthé phân tích các yếu tố này rồi tong hợp một mô hình tuyến tính, giúp ngân hàng dự báomột cách chính xác rủi ro của một khoản vay cá nhân Qua đó, ngân hàng có thể tính lãi

suất áp đặt lên từng khách hàng cụ thê

Cách mạng Công nghiệp 4.0 mang đến những thay đổi bước ngoặt, toàn diện

trong mọi mặt của cuộc sông “Thế giới vận hành bằng công nghệ” trở thành xu thé tấtyếu, là mục tiêu tranh đua cho mọi nền kinh tế, mọi doanh nghiệp cùng hướng đến Trong

đó, Trí tuệ nhân tạo (A.I) và phương pháp May học (Machine Learning) là những xu

hướng trọng tâm, nỗi bật, đã và dang được nghiên cứu, ứng dụng rộng rãi trong ngành

ngân hang nói chung va lĩnh vực công nghệ tài chính (FinTech) nói riêng, tạo ra những

birt phá mạnh mẽ về tính hiệu quả, kịp thời, chính xác trong công tác giám sát, dự báo và

hỗ trợ ra quyết định

Trong lĩnh vực tài chính, ngân hàng, Machine Learning, khi được kết hợp

với các mô hình phân tích định lượng, phát huy hiệu quả đặc biệt trong việc tìm

kiếm các bộ mẫu đữ liệu, đưa ra những dự đoán, hỗ trợ hiệu quả ra quyết địnhgiúp đảm bảo hoạt động kinh doanh liên tục và kiểm soát rủi ro Trên thé giới,

cuộc chạy đua trong ngành Ngân hàng diễn ra đặc biệt sôi động Từ các công ty công nghệ mới thành lập như Feedzai (trong mảng thanh toán), Shift Technology

(trong mang bảo hiểm), tới các tập đoàn công nghệ không 16 như IBM và nhómdẫn đầu về công nghệ hiện tại như Google, Alibaba và các Fintech, dang dựa vào

ưu thế công nghệ đề cạnh tranh, lấn sân sang lĩnh vực ngân hang, tài chính

Rất nhiều ví dụ về ứng dụng hiệu quả Machine Learning trong lĩnh vực tài

chính, ngân hang có thé kể đến như: Monzo - một ngân hàng khởi nghiệp tại Anh, đã xây dựng một mô hình phân tích, dự báo đủ nhanh, dé kip thời phát hiện

và ngăn chặn những kẻ lừa đảo giả mạo trong quá trình hoàn tất giao dịch, giúp

giảm tỷ lệ lừa đảo trên thẻ trả trước từ 0,85% vào tháng 6/2016 xuống dưới 0,1%

vào tháng 1/2017 Các công ty công nghệ khác như Xcelerit hay Kinetica, cung

cấp cho các ngân hàng và công ty đầu tư, một hệ thống có khả năng theo dõi và

11172896- Nguyễn Thành Luân 1

Trang 9

Chuyên đề thực tập chuyên ngành Tốn Kinh Tế

phát hiện các rủi ro tiềm ấn theo thời gian thực, cho phép ngân hàng giám sát

chặt chẽ các yêu cầu về nguồn vốn Trong năm 2017, JPMorgan Chase giới thiệu

COïN, một nền tảng quản lý hợp đồng thơng minh, sử dụng Machine Learning,

cĩ khả năng xem xét 12.000 hợp đồng tín dụng thương mại trong vài giây, tươngđương khối lượng cơng việc trong 360.000 giờ làm việc của một nhân viên bình

thường.

Sức mạnh của một mơ hình phân loại tín dụng cĩ tác động rất lớn đến kếtquả hoạt động kinh doanh của một ngân hàng Một mơ hình cĩ mức độ chuẩn xáccao giúp tăng doanh thu, lợi nhuận và giảm thiêu tỷ lệ nợ xấu nhưng trái lại nếucác mơ hình phân loại kém cĩ thể khiến doanh thu, lợi nhuận giảm và tỷ lệ nợxâu tăng Mơ hình Neural network(NN) trong xếp hạng tín dụng là một ứng dụngmới của Machine learning trong xếp hạng tín dụng, dang được áp dụng phố biếntrên tồn thế giới với độ chính xác cao Vì vậy em chọn đề tài: “Ứng dụng mơhình Neural Network phân tích, phân loại hồ sơ tín dụng cá nhân ngân hàng”

2 Mục tiêu nghiên cứu

-Xác định các nhân t6 ảnh hưởng rủi ro tín dụng cá nhân của ngân hàng,qua đĩ, đo lường, kiểm định mức độ ảnh hưởng của các nhân tố tới rủi ro tín

dụng cá nhân.

-Khả năng ứng dụng của mơ hình Neural network và Logistic Regression trong việc phân tích, dự báo rủi ro ứng dụng cá nhân.

3 Đối tượng nghiên cứu

-Mối quan hệ giữa các yêu tố đến khả năng nợ xấu

-Mơ hình Neural network, Logistic model Mơ hình nào là phù hợp nhất

với bộ dữ liệu.

4.Phạm vi nghiên cứu

1000 hồ sơ tín dụng của khách hàng cá nhân của Ngân hàng TMCP AnBình CN Hà Nội Số hồ sơ được thu thập trong 8 tháng năm 2019, từ tháng 1

năm 2019 đến thang 8 năm 2019

5 Phương pháp nghiên cứu

- Phân tích định lượng: thống kê mơ tả các biến độc lập (bằng SPSS), xử

lý giá trị ngoại lai (outlier) , xử lý giá tri Missing, Lựa chọn biến dựa trên đánh

giá tương quan, Xây dựng mơ hình neural network, xử lý cải thiện độ chính xác

mơ hình , đánh giá mức độ phù hợp mơ hình, đo lường hiệu quả mơ hình trên các

độ đo Accuracy, Precision và Recall

Trang 10

CHƯƠNG 1 : CƠ SỞ LÝ THUYET

1.1 Tổng quan về nợ xấu

1.1.1 Bản chất của nợ xấu

Nợ xấu hay nợ khó đòi là các khoản nợ dưới chuẩn, có thể quá hạn và bịnghi ngờ về khả năng trả nợ lẫn khả năng thu hồi vốn của chủ nợ, điều này

thường xảy ra khi các con nợ đã tuyên bố phá sản hoặc đã tau tán tai sản Nợ xấu

gồm các khoản nợ quá hạn trả lãi hoặc gốc trên thường quá ba tháng căn cứ vàokhả năng trả nợ của khách hang dé hạch toán các khoản vay vào các nhóm thích

làm ăn thua lỗ hoặc phá san, Nhìn chung, một doanh nghiệp luôn phải ước tính

trước những khoản nợ xấu trong chu kỳ kinh doanh hiện tại dựa vào những sốliệu nợ xấu ở kì trước

1.1.2 Tổng quan các bài viết từng phân tích

Sự ra đời của các mô hình Machine Learning có ý nghĩa to lớn đối với nền

kinh tế, cụ thể là lĩnh vực ngân hàng, bởi tốc độ xử lý đáng kinh ngạc, thay thế

công việc của hàng chục người chỉ trong khoảng thời gian ngắn Bởi vậy, việc

ứng dụng mô hình Machine Learning trong ngân hàng đã xảy ra từ những năm

đầu của thé ky 21 Đến nay, đã có rất nhiều bản thé của Machine Learning ra đời

và được sử dụng với nhiều mục đích khác nhau, nhăm giúp các ngân hàng quản

lý tốt hơn, tối ưu hoá lợi nhuận Cụ thể, việc kết hợp các mô hình ML với BigData trong quản trị rủi ro, ngân hàng có thé áp dung dé phân tích, sàng lọc nhữngkhách hàng không đủ chỉ trả khoản vay trước viễn cảnh xấu nhất xảy ra

Sử dụng Data Sclence, khai thác hiệu quả Machine Learning và phân tích,

dự đoán để tạo ra công cụ phân theo nhóm, từng cụm dữ liệu có thể nhận ra vàphát hiện những xu hướng, mô hình độc hại trong hệ thống phát hiện gian lận

Những công cụ như CART (classification and Regression Trees) hay GLM

(Generalized Linear Model) có vai trò thiết thực trong quá trình chọn lọc, phân

loại, hay dự đoán xu hướng giúp ngân hàng xác định chính xác giá trị vòng đời khách hàng, phân khúc thị trường.

Trang 11

Đối với vấn đề phân loại tín dụng, cách tiếp cận truyền thống là dựa vào

các phương pháp thống kê thuần túy như hồi quy tuyến tính đa biến (Meyer &

Pifer, 1970), phân tích khác biệt (Altman, 1968; Banasik, Crook, & Thomas,

2003), và hồi quy Logistic (Desai, Crook, & Overstreet, 1996; Dimitras, Zanakis,

& Zopounidis, 1996; Elliott & Filinkov, 2008; Lee, Chiu, Lu, & Chen, 2002).

Tuy nhiên những yêu cầu của hội đồng Basel về giám sát hoạt động ngân hàng

(the Basel Committee on Banking Supervision) ban hành năm 2004 đòi hỏi các

ngân hàng cũng như các tô chức tài chính phải sử dụng những mô hình phân loại

tín dụng tin cậy hơn nhằm nâng cao hiệu quả của việc phân bổ vốn Nhằm đápứng những đòi hỏi trên, trong những năm gần đây đã xuất hiện một số mô hìnhphân loại tín dụng mới theo cách tiếp cận của học máy (Machine Learning) và tríthông minh nhân tạo (Artificial Intelligence) Không giống như các tiếp cận trướcđây, các phương pháp mới này không đưa ra bất kì giả thiết chặt chẽ nào như đòihỏi của các cách tiếp cận theo phương pháp thống kê Thay vào đó, các tiếp cậnmới này cô găng khai thác va đưa ra các kiến thức, các thông tin đầu ra chỉ dựavào các thông tin đầu vào là các quan sát, các thông tin trong quá khứ Với bàitoán phân loại tín dụng, một số mô hình thuộc học máy như mạng trí tuệ nhân tạo

ANN (Artificial Neural Network), Máy Hỗ Trợ Véctơ SVM (Support Vector

Machines), K láng giềng gần nhất KNN (K-Nearest Neighbors), rừng ngẫu nhiên

RF (Random Forest), cây quyết định DT (Decision Tree) chang hạn đã chứng tỏ

nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân

loại truyền thống (Chi & Hsu, 2012; Huang et.all, 2004; Huang, Chen, & Wang,

2007; Ince & Aktan, 2009; Martens và et al., 2010).

1.1.2.1 Các công trình nghiên cứu nước ngoài phân loại hồ sơ tín dụng

Một trong những nghiên cứu mới đây nhất về phân loại hồ sơ tín dụng cóthé kế đến đó là bài nghiên cứu có tựa dé: “Analysis of Individual Loans usinglogit under Supervised Machine Learning Approach” Đây là sản phẩm của ba

nha khoa học Dominic M.Obare, Gladys G.Njoroge va Moses M.Muraya thuộc

trường đại hoc Chuka, Kenya, lần đầu tiên được công khai trên trang web nghiêncứu nôi tiếng researchgate.net vào ngày 01/05/2019 Dữ liệu được sử dụng trong

nghiên cứu này được lay từ ngân hàng cô phần Kenya, trong khoảng thời gian từ

năm 2006 đến năm 2016 Một mẫu ngẫu nhiên gồm 1000 người đã nộp đơn vayvốn, được ngân hàng cô phần Kenya chấp thuận và cả bác bỏ Dữ liệu thu thậpdựa trên 11 biến độc lap, bao gom: lịch sử tín dụng, mục đích khoản vay, taikhoản tiết kiệm, tình trạng việc làm, giới tính, độ tuổi, bảo mật khoản vay và khuvực cư trú (nông thôn/ thành thị) Dữ liệu được xử lý trước băng phần mềm R,

Trang 12

sau đó được tách thành 2 tập : tập train và tập test dé thử nghiệm mô hình logistic

và hậu kiểm Trong đó, với dữ liệu của 1000 hồ sơ tín dụng, tập train sẽ bao gồm

700, còn lại của tập test Khi chạy mô hình logistic với sự tham gia của

Supervised Machine Learning, tập train được chia thành 7 mẫu phụ tương ứng

100, 200, 300, 400, 500, 600, 700 Mô hình hồi quy logistic đã được trang bịbăng cách sử dụng từng mẫu con và kiểm tra hành vi của mô hình thu được dựatrên dir liệu thử nghiệm trong từng trường hợp Lý do cho điều này là để giúp

quan sát xem việc tăng kích thước mẫu có làm tăng hiệu suất của mô hình hay

không Hành vi của mô hình với ca dữ liệu thử nghiệm được hiển thị bang cách

sử dụng các đường cong ROC tập train và tập test so với kích thước mẫu Điềunày giả định ảnh hưởng của kích thước mẫu đến hiệu quả và hiệu suất của môhình được tạo ra Biến phụ thuộc là target nhận 2 giá tri: 1 trả nợ đúng hạn, và 0

là không trả được nợ Biến Target được lập dựa trên thông tin thời gian trả nợcủa khách hàng Theo xếp loại của ngân hàng cô phần Kenya, một khách hàng

được đánh giá là trả được nợ, khi thời gian trả nợ của khách hàng đó trước hạn

trả nợ hoặc quá hạn 30 ngày, một khách hàng được đánh giá là nợ xấu khi quá

hạn trả nợ 90 ngày.

Kết quả bài nghiên cứu chỉ ra, các biến độc lập đều có tác động mang ýnghĩa thống kê đối với biến phụ thuộc, một vài biến có thé ké đến ở đây là:

- Những cá nhân đã vay một khoản cho mục đích tài trợ cho giáo dục cho

thấy tỷ lệ không trả được nợ cao nhất (44%) Tiếp theo là những người không cómục đích vay với tỷ lệ 42% Các khoản vay cá nhân cho thấy hiệu quả tốt nhất là

các khoản vay do những người có mục đích đảo tạo lại Đào tạo lại có nghĩa là để

có thêm một kỹ năng như đào tạo tại chức Điều này có thê liên quan đến việcnhững người di dao tao lai đã có được việc làm Do đó họ không phải vất va dé

trả các khoản vay của mình

- Phân tích tình hình hoạt động cho vay theo lịch sử tín dụng cho thấy các

cá nhân vay lần đầu tiên có tỷ lệ vỡ nợ là 62,5% Những người đã từng vay ngânhàng và đã hoàn trả đầy đủ cho thấy 57,14% không trả được nợ Những người có

các khoản vay khác và vẫn đang được giải quyết kịp thời cho thấy tỷ lệ vỡ nợ là31,89% Những cá nhân đã từng bị vỡ nợ trước đây cho thấy khả năng hoàn trảcác khoản vay của họ tốt nhất Quan sát chung là việc cho một người mới vaytiền gặp rủi ro hơn so với một người đi vay đã biết lịch sử vay Điều này thốngnhất với báo cáo thường niên của Ngân hàng Trung ương Kenya (2016) răng lịch

sử tín dụng của người đi vay là yếu tố quyết định chính trong mức độ tín nhiệm

Trang 13

Lịch sử về cách một cá nhân đã trả các khoản vay hiện tại hoặc trước đó sẽ xác

định xem người đó có khả năng vỡ nợ hay không.

-Giới tính và tình trạng hôn nhân cũng là 2 nhân tố rất quan trọng trongphân tích rủi ro hồ sơ tín dụng Trong nghiên cứu này, phụ nữ cho thấy hoạtđộng giải quyết các khoản vay của họ kém hơn so với nam giới Một trongnhững lý do khiến các cá nhân vỡ nợ là do ly hôn Khi ly hôn, phụ nữ bị ảnhhưởng nhiều hơn so với nam giới Đây có thé là một trong những lý do tại sao tỷ

lệ phụ nữ không trả được nợ nhiều hơn nam giới Điều này phù hợp với cácnghiên cứu, phát hiện ra rằng những người đi vay là phụ nữ có xu hướng vỡ nợnhiều hơn nam giới Điều này có thé là do cách xã hội mô tả phụ nữ về quyền sởhữu tài sản và thu được của cải Hầu hết các quyết định tài chính liên quan đếnphụ nữ đều do chồng hoặc cha mẹ của họ đưa ra và điều này gây rủi ro cho bất

kỳ khoản tín dụng nào có được.

Còn nhiều nhân tố quan trọng có thé kế đến có tác động rat lớn đến phânloại hồ sơ tín dụng như: mục đích khoản vay, khu vuc,

Sau khi chạy mô hình hồi quy logistic, bài nghiên cứu có kết quả khá khaquan Mô hình hồi quy logistic đã dự đoán 303 hồ sơ vỡ nợ từ tập dữ liệu traindata, 122 khoản nợ trả đúng hạn và khoản vay bị phân loại sai lầm loại I là 56,

loại II là 69 Mô hình có độ chính xác là 0,7727 với dữ liệu tap train và 0,7333

với đữ liệu tập test Hiệu suất mô hình trên 2 tập dữ liệu được kiểm chứng bằng

cách sử dụng đường cong Learning, một đường cong được hình thành dựa trên

những điểm tỉ lệ dự báo sai lầm Tỉ lệ dự báo sai lầm được tính dựa trên tỉ lệ sốlượng quan sát mắc sai lầm trên một tập dữ liệu so với kích thước mẫu Thôngthường Đây là một biểu đồ của các sai lầm trên tập train và các sai lầm trên tậptest so với kích thước mẫu trên các trục giống nhau cho thấy rằng chất lượng của

mô hình tăng lên khi kích thước mẫu tăng lên.

Hình 1: Đường cong Learning giữa tập CV va tap Train

11172896- Nguyễn Thanh Luân 6

Trang 14

Điều nay phù hợp với nghiên cứu được thực hiện bởi Dobson A.J Ông

đã thực hiện nghiên cứu về ảnh hưởng của kích thước mẫu đến hiệu suất của môhình tuyến tính tổng quát Nghiên cứu cho thấy sự gia tăng kích thước của mẫucải thiện hiệu suất của các mô hình Mô hình tốt nhất có kích thước mẫu là 700

Một trong những nghiên cứu cần chú trọng trong những năm gần đây, có

tên là :” Use of Machine Learning Techniques to Create a Credit Score Model

for Airtime Loans” Bài nghiên cứu là su tổng hợp của 4 nhà khoa hoc Bernard

Dushimimana, Yvonne Wambui , Timothy Lubega va Patrick E McSharry thuộc

dai hoc Africa, bài viết được công bố bang hình thức đăng trực tuyến trên

researchgate.com vào ngày 13/08/2020 Với bộ dữ liệu gồm 41300 hồ sơ tín

dụng được thu thập từ ngân hàng thương mại Cozmo trong khoảng thời gian từ

1/1/2016 đến 1/4/2017, bài nghiên cứu đã chứng minh được rằng, ngoài các nhân

tố chính thuộc về thông tin chung của khách hàng (tuổi, giới tính, tình trạng hônnhân, ), thông tin hồ sơ nợ hiện tại (số tiền vay, thời gian vay, thời gian trảnợ, ) thì còn một nhân tố ảnh hưởng đến khả năng trả nợ đúng hạn của kháchhàng là lịch sử tín dụng (đã vay nợ bao nhiêu lần trong 1 năm, đã từng không trảđược nợ chưa, hang tháng chuyền bao nhiêu tiền vào tài khoản, )

Việc phân chia dữ liệu vào tập train va test được thực hiện theo tỉ lệ 4:1.

Trong quá trình chạy số liệu trên tập train, bài nghiên cứu sử dụng 5 thuật toán

được sử dụng nhiều nhất trong quản trị rủi ro tín dụng : LR, Decesion Tree,Random Forest, SVM và Neural network Kết quả đánh giá độ chính xác của 5

mô hình được thể hiện ở hỉnh dưới:

Acouracy Precision Recall Fl Score

imbalances data withoat ecaling

Imeatanzed data with scaling

Balanced training set with SWOTE without scaling

Hình 2: Kết quả đo lường hiệu quả 5 mô hình trong 3 trường hợp

Trang 15

Từ bảng dữ liệu trên, ta thấy, độ chính xác của 5 mô hình có dấu hiệugiảm sau khi dữ liệu biến phụ thuộc được cân bằng Kết quả mô hình tốt nhất là

dữ liệu của ngân hàng, và loại bỏ bớt các quan sát bị thiếu, các biến thiếu dữ liệu

Theo đó, mô hình có độ chuẩn xác cao nhất là Decesion Tree

1.1.2.2 Các công trình nghiên cứu trong nước

Tại Việt Nam, Ứng dụng Machine Learning trong ngân hàng, được sửdụng nhiều nhất ở việc phân loại khoản vay (Bank loan classifications) Trongthống kê, đặc biệt là thống kê suy diễn, ta có phương pháp ước lượng(Estimation) bao gồm ước lượng điểm (Point Estimation) và ước lượng khoảng(interval estimation) dựa trên các thống kê của mẫu dé suy ra tham số tổng thé.Thuật toán Classifications cũng gần giống với Estimation, tuy nhiên thay vì kếtquả của quá trình ước lượng (Quantitative variables) thì đầu ra sau cùng của

thuật toán phân loại là dữ liệu định tính.

Ví dụ kết quả đầu ra của Classification có thể là đánh giá mức thu nhậpcủa khách hàng tiềm năng có thé là High income, Middle và Low Gia sử nhânviên ngân hàng muốn phân loại khách hàng mới vào các nhóm thu nhập trên Họ

sẽ phân tích các yêu t6 khác nhau như độ tuổi, giới tính, nghề nghiệp dé xem xét,

với cơ sở đã có sẵn một bộ dit liệu với các khách hàng cũ đã được đánh giá trên

chính các yếu tố đó Qua đó, thuật toán sẽ xác định biến nào có quan hệ với biếnmục tiêu (Target) Ví dụ, khách hàng là nam, độ tuổi trung niên, nghề nghiệp

giám đốc thì có thé có thu nhập cao, tức High income Tập dữ liệu sử dung ở đây

là “Train data” Tiép theo, sau khi đã tim ra cách thức phân loại trên Train data,thuật toán sẽ tiến hành phân loại trên tệp dữ liệu mới Hiện nay, có rất nhiều

thuật toán phân loại khác nhau dùng dé khai phá dữ liệu như: Logistic, K-nearest

neighbor (KNN), Decesion Trees, ANN, v.v Tuy nhiên, ở Việt Nam,phan lớn

chỉ nghiên cứu và phân loại dựa trên thuật toán Logistic — thuật toán điển hìnhtrong phân loại hồ sơ tín dụng

Một trong những nghiên cứu tiêu biểu của thuật toán Logistic là bàinghiên cứu được đăng trên website tapchi.ftu.edu.vn, tạp chí KTĐN số 102, được

đăng ngày 16/5/2018 với tiêu đề: “Ứng dung mô hình Logistic cham điểm kháchhàng cá nhân nộp hồ sơ vay trên LENDINGCLUB” của 3 sinh viên Nguyễn Thị

Thuý Quỳnh, Bùi Lê Trà Linh và Trần Thị Xuân Anh Dữ liệu ban đầu của bàinghiên cứu gồm 235.629 quan sát với 89 biến độc lập Sau khi chỉnh sửa dữ liệubằng cách loại bỏ các biến không cần thiết cũng như với các biến thiếu dữ liệu,còn lại 17 biến độc lập và đã được tính giá tri tương ứng đó là: dti3w (Tỷ lệ giátrị khoản vay/thu nhập khả dụng), acc_open_past_24 (số TK giao dich mở trong

Trang 16

24 tháng trước ngày nộp hồ sơ vay), bc_open_to_buy (số tiền còn lại có thé vaytrong các tài khoản thẻ ngân hàng quay vong),ing_last_6mthsw (số lần điều tratrong 6 tháng qua), mo_sin_old_rev_tl_op (số tháng kể từ khi mở tài khoản đầu

tiên), purposew (mục đích vay tiêu dùng, đảo nợ, tín dụng ), tyle_loans (Giá tri

khoản vay trên Lending Club/ Tổng dư nợ hiện tại), termw (thời hạn vay củakhoản vay), mo_sin_olds (Số tháng kể từ tài khoản ngân hàng mở đầu tiên),mths_sin_opens (số tháng từ khimở tài khoản thé gần nhất đến nay),

percent_pc_75 (tỷ lệ phần trăm số tài khoản thẻ vượt qua 75% hạn mức tín dụngchia cho tổng số tài khoản thé),annual_inc (thu nhập hàng năm của người vay),

Verifications_stat (trang thái xác minh thu nhập của khách hang), Dtiw (% số thu

nhập dành vào việc trả nợ hàng tháng), revol_utilw (các khoản tín dụng của

người vay được sử dụng liên quan đến tất cả các tín dụng quay vòng có sẵn),mths_sin_recent(Số tháng kế từ khi hầu hết các cuộc điều tra gần đây),mo_sin rec(số tháng ké từ khi lần mở tài khoản bat ky gan nhất đến hiện tại)

Bài nghiên cứu cũng chỉ ra được rằng, 17 biến độc lập đều có ý nghĩa

trong việc đánh giá rủi ro tín dụng.

Biến phụ thuộc của mô hình là Loan Status với 2 giá tri là Current tức là

khoản vay còn nợ nhưng đã thanh toán đủ tiền lãi hàng tháng, và Late(30-120)

tức là khoản vay trả muộn 30-120 ngày so với hạn trả nợ Đồng thời nhóm kháchhàng được đánh giá là Late(30-120) là Bad, còn lại là Good Lay mau nhién 70%mẫu dé chạy mô hình, 30% dé hậu kiểm Sau khi đã có kết quả mô hình, người

nghiên cứu đánh giá độ chính xác mô hình bằng đường ROC và chỉ số GINI

Biểu đồ Đường cong ROC dựa trên 70% mẫu xây dựng mô hình

= —ROC

= 0,3 ———=Đường 45

2 0,2 go1

0 0,5 1

Cumulative frequency of Good

ROC cho thay mô hình có khả năng dự báo ở mức trung bình, tiễn hành

hậu kiêm với 30% mẫu, độ đo GINI của cả hai mâu xây dựng mô hình và mâu

Trang 17

hậu kiểm không quá sai lệch, nằm trong khoảng 0.3 Mô hình có khả năng dự

báo ở mức trung bình.

Khi nhắc đến mô hình mạng nơ ron, nhiều người sẽ nghỉ đến ứng dụngcủa nó trong những bộ dữ liệu với đầu ra là những giá trị phân loại phức tạp, như

phân loại chó, mèo thông qua bức ảnh, nhận diện khuôn mặt Tuy nhiên, tại Việt

Nam, trong những năm gần đây mô hình này bắt đầu được áp dụng rất nhiềutrong ngành kinh tế - ngân hàng Một ví dụ điển hình của việc ứng dụng mô hìnhmạng nơ ron trong phân loại hồ sơ tín dụng là bài nghiên cứu với tựa đề “ Ứngdụng mô hình mạng thần kinh nhân tạo trong quản trị rủi ro tín dụng tại một sỐngân hàng thương mại trên địa bàn thành phố Biên Hoà” của 2 sinh viên ĐàoTrọng Thịnh và Doãn Văn Toàn thuộc khoa Tài Chính — Kế Toán, trường đạihọc Lạc Hồng, Đồng Nai Bài nghiên cứu được đăng trên tạp chí Khoa Học LạcHồng, số 5 (2016), trang 31-35 vào ngày 23/7/2016 Dữ liệu nghiên cứu đã đượcthu thập dựa trên việc tham khảo hop đồng tín dụng được nhân viên tín dụnghoàn thành và được cấp trên thông qua bằng việc ra quyết định xem hồ sơ đó cóđược cho vay hay bị từ chối Hồ sơ tín dụng thu thập trong phạm vi các ngânhàng thương mại tại thành phố Biên Hoà như Agribank và Vietcombank Tổng

số mẫu quan sát là 3003 quan sát, được đánh giá dựa trên 17 biến độc lập và 1biến phụ thuộc Y với hai giá trị 1: chấp nhận cấp tín dụng và 0: từ chối cấp tín

dụng 17 biến độc lập được sử dụng trong mô hình là

TE a ole (ib me een sốc n

XÔI - Tudi người đi vay X02 = Gia cảnh khách hang so với mặt bằng ving X03 - Trinh dé học vấn

x04 - Tink trạng sử hữm nhà ở

X05 - So ngưới phy thuốc

x06 - Co cầu pin dink hiện tai

XO? - Mức thu nhập rong hing tháng

X08 - Thu nhận của gia đình? nim X09 - Ty lẽ thu nhập rong trên tổng số tiền phải tra

X10 - Thới gian công the tụi cer quan hiện tại

X11 - Thới gian lam công việc hiện tại

XI2 - Nghề nghiệp

X14 - Ther gian vay

XI4 - Tink hình trả ng gốc vú lãi trong 12 thủng vừa qua che các tổ chức tin dung

XI5 - Tông du ne hiển tại X16 - Các dich vụ khúc sử dung của ngân hàng

MI? - Số dư tien gửi tiết kiệm trung hình tại agin hàng

Hình 3: Kí hiệu nội dung 17 biến độc lập trong mô hình nghiên cứuTác giả xây dựng mô hình mang no ron với 1 lớp nơ ron đầu vào, 1 lớp an

và một lớp nơ ron đầu ra Trong đó, lớp nơ ron đầu vào có 17 nơ ron, tượngtrưng cho 17 biến độc lập Lớp ân duy nhất có 10 nơ ron và lớp nơ ron đầu ra với

1 nơ ron Mô hình mạng nơ ron của bài nghiên cứu trên dạng như sau

Trang 18

Output Layer os) fe j | Qutput

1) ae | ®

Hình 4: cấu trúc mô hình Neural NetworkTrong đó, với mỗi lớp ẩn, tác giả sử dụng hàm kích hoạt phi tuyếnLogistic nhằm tạo ra kết quả giá trị đầu ra là đữ liệu xác suất liên tục với tính

chuẩn xác cao Tiếp đến, nhóm tác giả tiến hành phân chia dữ liệu thành 3 tập

chính là tập dữ liệu huấn luyện (train), tập dữ liệu phê duyệt (Validation) và tap

dữ liệu dùng để kiểm tra (test), tương ứng với tỉ lệ 88%, 10% và 2% dữ liệu mẫu

Trong đó tác giả tiễn hành, huấn luyện mô hình với tập train, dự báo và kiểm tra

lại kết quả dự báo với 2 tập Validation và test, thu duoc kết qua là dạng xác suất

dao động trong khoảng [0;1], nhóm tác giả quy ước nếu output > 0.5 là 1, ngượclại là 0 Nhóm tác giả bắt đầu đánh giá hiệu quả mô hình dựa trên sự sai lệch kết

dự báo so với thực tế giữa 3 tập đữ liệu

taat Validation Performance is 0.03877 at epoch 210

wt

°

188 ie Vine ai ta _ he

720 Epochs

Hình 5: Kết quả so sánh mô hình trên 2 tập train và test

Ta thấy rằng, đường kiểm tra (Test), đường chuẩn dùng để phê duyệt(Validation) biến thiên cùng chiều và có độ lệch thấp, điều này cho thấy giá trịkhi được kiểm tra sẽ có độ chính xác và sát với thực tế hơn từ nguồn dữ liệuđược thu thập từ những hồ sơ cấp tín dụng, phù hợp với mục tiêu mà nhóm tácgiả đã đề ra R của mô hình có giá trị huấn luyện = 0,92311, giá trị kiểm tra =0,90786 các giá trị R này đều ở mức cao; điều này cho thấy kết quả của dự báomang tính chính xác cao, nghĩa là nếu R càng lớn thì mô hình cho ra kết quả có

độ tin cậy cao, tác giả thống kê được rằng trong 2% mẫu ngẫu nhiên được sửdụng (tương ứng với 60 giá tri được dùng dé chạy thực nghiêm mô hình), có 57

Trang 19

mẫu đã được dự đoán chính xác so với quyết định thực tế (tương ứng với độ

chính xác là 95%).

Nhìn chung qua các nghiên cứu trước đây, ứng dụng Machine Learning

trong đánh giá rủi ro tín dụng còn nhiều hạn chế về độ chính xác và thuật toán ápdụng với dữ liệu phù hợp Nhiều nghiên cứu trong nước ta trước đây chỉ tậptrung vào nghiên cứu những mô hình cụ thể như : LR, SVM hay phân tích nhân

tố Do đó độ chính xác và khả năng dự báo của mô hình rất thấp Trong những

năm gần đây, sự tiễn bộ của khoa học kĩ thuật, đặc biệt là sự phát triển Big Data

đã đặt nền móng cho AI Một trong những nghiên cứu giúp loại bỏ những hạnchế của mô hình cổ điển là Neural Network (ANN), được cho là vượt trội hơn

những mô hình LR, SVM.

1.2 Mô hình Logistic Regression (LR)

1.2.1 Định nghĩa

Phương pháp hồi quy logistic là một mô hình hồi quy nhằm dự đoán giá

trị đầu ra roi rac (discrete target variable) y ing với một véc-tơ đầu vào x Việc

này tương đương với chuyện phân loại các dau vào x vào các nhóm y tương ứng.

100

x2

100

Hình 6: biếu đồ biểu diễn sự khác biệt giữa yếu tố đầu vào

Ví dụ, xem một bức ảnh có chứa một con mèo hay không Thì ở đây ta

coi đầu ra y=1 nếu bước ảnh có một con mèo và y=0 nếu bức ảnh không có con

mèo nào Đầu vào x ở đây sẽ là các pixel một bức ảnh đầu vào

Dé đơn giản, trước tiên ta sẽ cùng đi tìm hiểu mô hình và cách giải quyết

cho bài toán phân loại nhị phân tức là y={0,1} Sau đó ta mở rộng cho trường hợp nhiêu nhóm sau.

Trang 20

1.3 Mô hình Neural Network

1.3.1 Định nghĩa

Neural network (mạng nơ-ron) là một một chuỗi các thuật toán nhằm cố

gắng nhận ra các mối quan hệ cơ bản trong một tập hợp dữ liệu, thông qua một

quy trình bắt chước cách bộ não con người hoạt động Mạng noron có thể thích

ứng với việc thay đổi đầu vào; vì vậy mạng tao ra kết qua tốt nhất có thé mà

không cần thiết kế lại các tiêu chí đầu ra

1.3.2 Nền tảng hoạt động

Một mạng nơ-ron được cấu thành bởi các nơ-ron đơn lẻ được gọi là cácperceptron Nên trước tiên ta tìm hiểu xem perceptron là gì đã rồi tiến tới mô

hình của mạng nơ-ron sau Nơ-ron nhân tạo được lay cảm hứng từ nơ-ron sinh

học như hình mô tả bên dưới:

impulses carried toward cell body

ra một kết quả duy nhất Một perceptron sẽ nhận một hoặc nhiều đầu x vào dạng

nhị phân và cho ra một kết quả o dạng nhị phân duy nhất Các đầu vào được điều

phối tầm ảnh hưởng bởi các tham số trọng lượng tương ứng w của nó, còn kết

qua đầu ra được quyết định dựa vào một ngưỡng quyết định b nào đó:

Trang 21

Đặt y=3,w;x¡ + b, y được gọi là một hàm kích hoạt.

Dé dễ hình dung, ta lay vi dụ việc đi học hay không phụ thuộc vào 4 yếut6 sau:

1 Trời có nang hay không?

2 Có hẹn trước hay không?

3 Vui hay không?

4 Bạn thân có đi học hay không?

Thì ta coi 4 yếu tố đầu vào là x1,x2,x3,x4 và nếu ø =0 thì ta không đi họccòn ø=Ï thi ta đi học Giả sử mức độ quan trọng của 4 yếu tố trên lần lượt là w1

=0.05,w2=0.5,w3=0.2,w4=0.25 và chọn ngưỡng b=—0.5 thì ta có thé thấy rằngviệc trời nắng có ảnh hưởng chỉ 5% tới quyết định đi học và việc có hẹn từ trướcảnh hưởng tới 50% quyết định đi học

1.3.3 Các dạng hàm kích hoạt

1.3.3.1 Ham phi tuyến sigmoid

Hàm kích hoạt là hàm số mô phỏng lại cách truyền tín hiệu của Nơ-ron từthân tế bào Có 2 dạng hàm kích hoạt là hàm tuyến tính (có đồ thị dạng đườngthang) và hàm phi tuyến (có đồ thị dang đường cong biến đổi)

Ví dụ: Hàm tuyến tính y = ax+b ; Hàm phi tuyến yy

Tuy nhién

Dé mô hình hoạt động chính xác nhất, phải cần dùng đến ham kích hoạtphi tuyến Một trong những ham phi tuyến phổ biến đang được sử dung trong ratnhiều mô hình dự báo là hàm phi tuyến sigmoid

Với đầu vào và đầu ra dạng nhị phân, ta rất khó có thể điều chỉnh mộtlượng nhỏ đầu vào dé đầu ra thay d6i chút ít, nên dé linh động, ta có thé mở rộng

chúng ra cả khoảng [0,1] Lúc này đầu ra được quyết định bởi một hàm

sigmoid:o(zZ) = -—

eZ

Đồ thị của hàm nay đối xứng trong khoảng [0,1]

Trang 22

Hình 8: Đồ thị biểu diễn giá trị dao động của hàm phi tuyến sigmoid

Đặt z-Y w;x; +b, Ham perceptron được biểu diễn qua một hàm kích hoạt

(activation function) f(z) như sau: ø= f(z) = f(X w;x; + b) , bằng cách biểu diễnvậy, ta có thể coi neural network được thê hiện như sau :

Hình 1: cấu trúc mô hình mang nơ ron

1.3.4 Cấu trúc mô hình Neural network

Mạng NN là sự kết hợp của của các tầng perceptron hay còn được gọi làperceptron đa tầng (multilayer perceptron) như hình vẽ bên dưới:

Trang 23

output layer input layer

-Tang ấn (hidden layer): Là tang nằm giữa tang vào va tầng ra thé hiện

cho việc suy luận logic của mạng.

Lưu ý rang, một NN chỉ có 1 tầng vào và 1 tang ra nhưng có thé có nhiều

tầng ân Trong mạng NN, mỗi nút mạng là một sigmoid nơ-ron nhưng hàm kíchhoạt của chúng có thé khác nhau Tuy nhiên trong thực tế người ta thường déchúng cùng dạng với nhau dé tính toán cho thuận lợi

Ở mỗi tang, số lượng các nút mạng (nơ-ron) có thé khác nhau tuỳ thuộcvào bài toán và cách giải quyết Nhưng thường khi làm việc người ta để các tầng

ân có số lượng nơ-ron bằng nhau Ngoài ra, các nơ-ron ở các tầng thường đượcliên kết đôi một với nhau tạo thành mạng kết nối đầy đủ (full-connectednetwork) Khi đó ta có thé tính được kích cỡ của mạng dựa vào sỐ tầng và số nơ-

ron

Như ta thấy thì tất cả các nốt mạng (nơ-ron) được kết hợp đôi một với

nhau theo một chiều duy nhất từ tầng vào tới tang ra Tức là mỗi nốt ở một tầng

nào đó sẽ nhận đầu vào là tất cả các nốt ở tầng trước đó mà không suy luậnngược lại Hay nói cách khác, việc suy luận trong mạng NN là suy luận tiến

Trang 24

l+1 1 at*9 = CAN 3

Trong đó, n(1) số lượng nút ở tang | tương ứng và aj(1) là nút mạng thứ jcủa tầng L Còn wÿ(I+1) là tham sỐ trọng lượng của đầu vào 4/( đối với nút

mạng thứ ii của tang +7 và bi(I+1) là độ lệch (bias) của nút mạng thứ i của tầngI+1 Đầu ra của nút mạng này được biểu diễn bằng ai(I+1) ứng với hàm kích hoạt

#zủ tương ứng.

Riêng với tầng vào, thông thường a! cũng chính là các đầu vào x tương

ứng của mạng.

Rasa ge P » i), na, ak ca ` +1 1+1),, k

Dé tiện tính toán, ta coi a la mot dau vao va wo } =p‘ ) 1a tham so

trong lượng của đầu vào này Lúc đó ta có thé viết lại công thức trên dưới dang

véc-to:

z* 1) =wt 9 a?

at?) — fz")

1.4 Đánh giá mô hình phân loại

Trong quá trình xây dựng một mô hình machine learning, một phần khôngthé thiếu dé biết được chat lượng của mô hình như thế nào đó chính là đánh giá

mô hình.

Đánh giá mô hình giúp chúng ta lựa chọn được mô hình phù hợp nhất đốivới bài toán của mình Tuy nhiên để tìm được thước đo đánh giá mô hình phùhợp thì ta cần phải hiểu về ý nghĩa, ban chất và trường hợp áp dụng của từng

thước đo.

Đối với Machine Learning, các độ do (metrics) dùng dé đánh giá một môhình có rất nhiều, tuy nhiên, trong phạm vi bài nghiên cúu này, tôi sẽ đề cập đếnnhững metric mà tôi sẽ sử dụng dé đánh giá khả năng phân loại của mô hình

1.4.1 Accuracy, Precision và Recall

Giả định rằng chúng ta đang xây dựng một mô hình phân loại nợ xấu.Nhãn của các quan sát sẽ bao gồm GOOD (thông thường) và BAD (nợ xấu)

Kích thước của các tập dir liệu như sau:

Tập train: 1000 hồ sơ bao gồm 900 hồ sơ GOOD và 100 hồ sơ BAD

Tập test: 100 hồ sơ bao gồm 85 hồ sơ GOOD và 15 hồ sơ BAD

Dé thuận tiện cho diễn giải và đồng nhất với những tài liệu tham khảo

khác về ký hiệu thì biến mục tiêu y nhãn BAD có giá trị 1 va GOOD giá tri 0

Trang 25

Đồng thời trong các công thức diễn giải và bảng thống kê, nhãn BAD là positive

va GOOD là negative Positive va Negative ở đây chi là qui ước tương ứng với

giá tri 1 và 0.

Một mô hình phân loại ¢ đưa ra kết quả dự báo trên tập train được thống kê

BAD (Positive) (TP - tion Positive) (FP - tiến: Positive)

45 850

GOOD (Negative) (FN - False em (TN - True Negative)

Bang 1: Bang ma trận sai lầm của ví dụ

Các chỉ số TP, FP, TN, FN lần lượt có ý nghĩa là :

TP (True Positive): Tổng số trường hợp dự báo khớp Positive

TN (True Negative): Tổng số trường hợp dự báo khớp Negative

FP (False Positive): Tổng số trường hợp dự báo các quan sát thuộc nhãn

Negative thành Positive.

FN (False Negative): Tổng số trường hop dự báo các quan sát thuộc nhãn

Positive thành Negative.

Precision trả lời cho câu hỏi trong các trường hop được dự báo là positive

thì có bao nhiêu trường hợp là đúng ? Và tất nhiên precision càng cao thì môhình của chúng ta càng tốt trong việc phân loại hồ sơ BAD (BAD chính là nhóm

positive) Công thức cua precision như sau:

TP 55

Pr ion= = =52,4ecesio TP+FP 55+50 52,4%

Precision sẽ cho chúng ta biết mức độ chuẩn xác của mô hình đối với các

hồ sơ được dự báo là BAD Ví dụ khi precision = 52,4%, chúng ta tin rằng trong

các hồ sơ được dự báo là BAD thì có 52,4% tỷ lệ các hồ sơ được phân loại đúng.Cũng có ý nghĩa gần tương tự như precision, có cùng tử số nhưng có một chútkhác biệt về mẫu số trong công thức tính toán, và cũng là một chỉ số giúp đolường hiệu suất dự báo trên nhóm positive, đó là recall

Recall đo lường tỷ lệ dự báo chính xác các trường hop positive trên toàn

bộ các mẫu thuộc nhóm positive Công thức của recall như sau:

Trang 26

Những độ đo trên càng cao, chứng tỏ mô hình càng hiệu quả trong việc

phân loại.

1.4.2 Đường cong ROC

Bên cạnh đó, còn một độ đo giúp ta đánh giá sức mạnh phân loại một môt

hình, đó là đường cong ROC ROC curve (Receiver Operating Characteristic) là

một đường cong thê hiện mối liên hệ giữa tỷ lệ mắc sai lầm loại I (false positive

rate) và tỷ lệ dự báo dung positive (true positive rate).

Trong thống kê, chúng ta chia các sai lầm của giả thuyết thành 2 loại: sailầm loại I và sai lầm loại II Khi thực hiện một mô hình phân loại nợ mục tiêucủa chúng ta là tìm ra những hồ sơ nợ xấu Một kết luận từ mô hình có thé rơivào 2 trạng thái sai lầm: nhận định một hồ sơ xấu là tốt - loại I, hoặc trái lại, coimột hồ sơ tốt là xấu - loại II

Tác hại của sai lầm loại I sẽ lớn hơn sai lầm loại II bởi ảnh hưởng do hồ

sơ xấu gây là lớn hơn nhiều so với việc bạn kiếm được một hồ sơ tốt

Nếu chúng ta chấp nhận một tỷ lệ dự báo đúng hồ sơ tốt cao hơn thì chúng

ta sẽ phải hạ thấp ngưỡng (threshold) xác định loại hồ sơ (mặc định là 0.5) Điềunày dẫn đến các hồ sơ xấu có khả năng bị nhận định là hồ sơ tốt cao hơn Điềunày cho thấy luôn có sự đánh đổi giữa tỷ lệ true positive rate va false positiverate Một mô hình phân loại tốt là mô hình mà ở các threshold ta phân loại đượcnhiều nhất các hồ sơ tốt nhưng chỉ phải chấp nhận một lượng rất nhỏ các hồ sơ

xấu Các mô hình như vậy đều có chung một tính chất, đó là đường cong ROC

lồi lên phía trên so với trục hoành ROC càng lồi mô hình càng phân loại tốt và

trái lại.

ROC là đường cong biểu diễn khả năng phân loại của một mô hình phân

loại tại các ngưỡng threshold Đường cong này dựa trên hai chỉ số :

-TPR (true positive rate): Hay còn gọi là recall hoặc sensitivity Là ty lệ

các trường hợp phân loại đúng positive trên tổng số các trường hợp thực tế làpositive Chỉ số này sẽ đánh giá mức độ dự báo chính xác của mô hình trênpositive Khi giá trị của nó càng cao, mô hình dự báo càng tốt trên nhómpositive Nếu TPR=0.9, chúng ta tin rằng 90% các mẫu thuộc nhóm positive đã

được mô hình phân loại đúng.

Trang 27

là negative Một mô hình có FPR càng thấp thì mô hình càng chuẩn xác vì sai số

của nó trên nhóm negative càng thấp Phần bù của FPR là specificity đo lường tỷ

lệ dự báo đúng các trường hop negative trên tong số các trường hợp thực tế là

True positive fraction

False positive fraction False positive fraction

Hình 3: Đường cong ROC va AUC

AUC là chi số được tính toán dựa trên đường cong ROC (receivingoperating curve) nhằm đánh giá khả năng phân loại của mô hình tốt như thế nào

Phần diện tích gạch chéo nằm dưới đường cong ROC và trên trục hoành là

AUC (area under curve) có giá tri nam trong khoang [0, 1] Khi dién tich nay

càng lớn thì đường cong ROC có xu hướng tiệm cận đường thang y=1 va kha

năng phân loại của mô hình càng tốt Khi đường cong ROC nằm sát với đường

chéo di qua hai điểm (0, 0) và (1, 1), mô hình sẽ tương đương với một phân loại

ngau nhiên

Trang 28

TÓM TẮT CHƯƠNG 1

Qua chương 2, chúng ta đã đi qua những khái niệm, lý thuyết cơ bản về

nợ xấu Tầm quan trọng của Machine Learning trong đời sống, đặc biệt là ngành

ngân hàng như thế nào Chúng ta cũng đã biết được ưu, nhược điểm của các

nghiên cứu trước đây thông qua việc tổng quan, xem xét lại những bài nghiên

cứu nồi trội trong những năm gan đây Mặt khác, trong những năm gan đây, môhình Neural network nổi lên là một trong những mô hình dự báo với độ chínhxác cao nhất Việc hiểu ban chất, cau trúc và cách hoạt động của mô hình là mộtphần rất quan trọng trong bài nghiên cứu này

Ta cũng đã có những kiến thức nhất định về các độ đo thường được sửdụng để đánh giá hiệu quả của một mô hình phân loại tín dụng, hiểu được bản

chất của các độ đo này là một việc rất quan trọng trong việc đánh giá 2 mô hình

của bài nghiên cứu.

Tiếp theo, chúng ta đi đến một trong những phần chính của bài nghiên

cứu, đó là thực trang di liệu của bài nghiên cứu Qua đó, có những xử lý cầnthiết dé mô hình đạt hiệu quả cao nhất Những phương pháp như kiểm tra dữ liệuMissing, xử lý giá trị Oulier, phân tích các nhân tố ảnh hưởng đến biến phụ thuộc

là không thé thiếu trong quá trình Data Processing

Trang 29

CHƯƠNG 2: THỰC TRẠNG DỮ LIỆU NGHIÊN CỨU VÀ

XỬ LÝ DỮ LIỆU

2.1 Thực Trạng Dữ Liệu

Như đã nói phần phạm vi nghiên cứu, dữ liệu trong bài nghiên cứu được

tham khảo từ ngân hàng TMCP An Bình Chi Nhánh Ba Dinh Em cũng đã có

chỉnh sửa bằng việc thêm, bớt một vài biến không phù hợp để tạo ra mộtdatabase phù hợp nhất Bộ dữ liệu trong bài nghiên cứu bao gồm 1000 hồ sơ tíndụng được ngân hàng cấp phép cho vay và không cấp phép Đánh giá dựa trên 41tiêu chí riêng ( biến độc lâp), và một biến phụ thuộc là biến Target- nhận giá trị0: hồ sơ đầy đủ tiêu chí được cấp khoản vay, và nhận giá trị 1: hồ sơ không được

cấp phép vay

Bảng dưới thê hiện kí hiệu biến và loại dữ liệu biếnTên Biến KíHiệu |Kiêu dit liệu biến

TARGET Y Dạng nhị phân

CONTRACT XI Biến định danh

GENDER X2 Biến định danh

CAR X3 Biến định lượng

REALTY X4 Biến định danh

CHILDREN X5 Biến định lượng

INCOME X6 Biến định lượng

CREDIT X7 Biến định lượng

ANNUITY X§ Biến định lượng

GOODS_CONSUME X9 Biến định lượng

TYPE_SUITE X10 Bién dinh danh

INCOME_TYPE X11 Bién dinh danh

EDUCATION X12 Bién dinh danh

FAMILY_STATUS X13 Bién dinh danh

HOUSING x14 Bién dinh danh

REGION_POPULATION X15 Biến định lượng

DAYS_BIRTH X16 Biến định lượng

DAYS_EMPLOYED X17 Biến định lượng

DAYS_REGISTRATION X18 Biến định lượng

DAYS_ID_PUBLISH XI9 Biến định lượng

Tiêu đề	Ứng dụng mô hình neural network và logistic regression trong phân loại hồ sơ tín dụng tại ngân hàng TMCP An Bình chi nhánh Ba Đình
Tác giả	Nguyễn Thành Luõn
Người hướng dẫn	TS. Bùi Dương Hải
Trường học	Trường Đại học Kinh tế Quốc dân
Chuyên ngành	Toán Kinh Tế
Thể loại	Chuyên đề thực tập
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	58
Dung lượng	17,8 MB