Trong lĩnh vực tài chính, ngân hàng, Machine Learning, khi được kết hợp với các mô hình phân tích định lượng, phát huy hiệu quả đặc biệt trong việc tìm kiếm các bộ mẫu đữ liệu, đưa ra nh
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG DAI HỌC KINH TE QUOC DÂN
4155
Dé tai:
UNG DUNG MO HINH NEURAL NETWORK VA
LOGISTIC REGRESSION TRONG PHAN LOAI HO SO
TIN DUNG TAI NGAN HANG TMCP
AN BINH CHI NHANH BA DINH
Ho và tên : Nguyễn Thành Luân
Mã sinh viên : 11172896
Lớp : Toán Kinh Tế 59
Giảng viên hướng dẫn : TS Bùi Dương Hải
Hà Nội - 2021
Trang 2Chuyên đề thực tập chuyên ngành Toán Kinh Tế
LỜI CẢM ƠN
Dé hoàn thành bài nghiên cứu này, em xin cảm ơn anh chị, nhân viên ngânhàng TMCP An Bình Chi Nhánh Hà Nội là giúp em hoàn thành số liệu nghiên
cứu.
Em xin cảm ơn thầy Bùi Dương Hải đã luôn giúp đỡ và hỗ trợ em trong
quá trình hoàn thành bài nghiên cứu này.
11172896- Nguyễn Thành Luân
Trang 3Chuyên đề thực tập chuyên ngành Toán Kinh Tế
CHƯƠNG 1 : CƠ SỞ LY THUYET e- 5< se sessvssevssexseessess 3
1.1 Tống quan về nợ xấu -e-s- s-s°ssssss+sssssessesserserssessessersersee 3
1.1.1 Bản chất của nợ xấu ¿St tt SE SESEEEEEEEEEEEEEEEEEEEkrkrkrrkrkekree 31.1.2 Tổng quan các bài viết từng phân tich . :-2©5¿5csz5c+2 3
1.1.2.1 Các công trình nghiên cứu nước ngoài phân loại hồ sơ tin dụng4
1.1.2.2 Các công trình nghiÊn Cứu trong NUGC - -s-cs«csxcsecss &
1.2 Mô hình Logistic Regression (LR) 0-5555 S55 S5 5556595956 12
1.2.1 Định ng Hĩa (1 11 1 93 9199 901g Hà HH Hưng nh gà 12
1.3 Mô hình Neural Network 6-5 << 9 HH 0008906 13
1.3.2 Nền tảng hoạt GONG ccccceccsssessssssesssessseesssssessecssecsesssesssecssecseesseessess 13
1.3.3 Cac dạng hàm kích hoat - 5 +2 * + E*EEsvrerserrrserreeerrrek 14
1.3.3.1 Hàm phi tuyến sigimoid 5c ScctccccEccEerkerterkererrrrres 141.3.4 Cau trúc mô hình Neural network . -¿-¿- + s+s++s++z++zxezse+ 15
1.4 Đánh giá mô hình phan ÏOqÌ G555 55 S5 953 559849559595 89% 17
1.4.1 Accuracy, Precision và RecalÏ - - + ss + kxsvkeseseserseseeeere 17 1.4.2 Đường cong ROC - G9 TH HH HH ng 19
TÓM TAT CHƯNG s< s°Ev+eseeSEErdeeorrdeeorrkreeorrrdee 21CHƯƠNG 2: THỰC TRẠNG DỮ LIỆU NGHIÊN CỨU VÀ XỬ LÝ DỮ
Trang 4Chuyên đề thực tập chuyên ngành Toán Kinh Tế
2.3 Chuẩn hoá dữ liệu: .s-s- 5° ssscsessssesserserssessesserserssrsee 36TÓM TAT CHƯNG 2 s°°+es2E++dEESEAAAeEeotkkeeotkkreoorrrsee 39CHƯƠNG 3: XÂY DUNG MÔ HÌNH NEURAL NETWORK 40
3.1 Đánh giá mức độ tương quan của các biến với biến phụ thuộc 40
3.2 Mô hình nghiên CỨU <5 <2 9 99.9894 9899896598589961 896866 42
3.2.1 Phan chia ditt 0 42
3.2.2 Mô hình Logistic Regression - 5c Series 43
3.2.2.1 Với mẫu mắt cân bằng -. 2: 2+52+S++E+E+te£teEtererrresree 433.2.2.2 Với mẫu được xử lý mắt cân bằng -c-©cz©cs+cscsce: 44
3.2.3 Mô hình Neural Network (NÌ) Ăn HH ke, 46 3.2.4 So Sanh Mô Hình - - 5 5 3112211315111 5111118111811 ket 48
00090775 ÚÔ 49TÀI LIEU THAM KHAO s- 5° 5° 52 s5s£ s2 ssEsseEseEssessessesserseesee 50
11172896- Nguyễn Thành Luân
Trang 5Chuyên đề thực tập chuyên ngành Toán Kinh Tế
DANH MỤC BANG
Bang 1: Bảng ma trận sai lầm của ví đụ -:- 5 252+cz+EccEerkerxerxerxerrrree 18
Bang 2: Kí hiệu và loại biến của 42 biến sử dụng trong mô hình - 23
Bang 3: Nội dung và giá trị đặc trưng của tất cả các biến trong bộ dit liệu 25
Bang 4&5: Thống kê mô tả giá trị Missing của 9 biến định danh 25
Bảng 6: Thống kê mô tả tuần suất biến NAME_CONTRACT - 25
Bảng 7: Thống kê mô tả tuần suất biến GENDER -2 ¿c5¿+55+¿ 26 Bang 8&9: Thống kê mô tả tuần suất 2 biến IN COME TYPE và OWN REALITY - - c<<<<<<<< << <sxx Error! Bookmark not defined. Bang 10: Thống kê mô tả tuần suất biến OWN_CAR -. ¿©-5¿©55¿-: 27 Bảng 11: Thống kê mô tả tần suất biến Name_type Suite - - 27
Bảng 15: Thống kê mô tả các biến định lượng -. :- 5+ s2©5++cxz+ss+2 32 Bang 16: Thống kê mô tả các biến định lượng sau khi xử ly Missing 33
Bang 17: Thống kê các biến có số lượng giá trị đặc trưng lớn hơn 90 34
Bảng 18: Thống kê mô ta tần suất biến phụ thuộc Y . ¿-¿-5z-: 35 Bảng 19 : Ma trận sai lầm của mô hình LR dự báo trên tập Train 43
Bảng 20 : ma trận sai lầm đánh giá kết quả dự báo tập train sau khi SMOTE 44
Bảng 22: Ma trận sai lầm giữa giá trị thực tế và giá trị dự báo trên tập Train của môhình Neural NetWOTK - - ng ng nh ng nh ng nh nh 47 Bảng 23: Ma trận sai lầm giữa giá trị thực té và giá tri dự báo trên tap Test 47
11172896- Nguyễn Thành Luân
Trang 6Chuyên đề thực tập chuyên ngành Toán Kinh Tế
DANH MỤC HÌNH
Hình 1: Đường cong Learning giữa tập CV và tập TTra1n - 555 5<<<><<+ 6
Hình 2: Kết quả đo lường hiệu quả 5 mô hình trong 3 trường hợp - 7
Hình 4: Kí hiệu nội dung 17 biến độc lập trong mô hình nghiên cứuError! Bookmark not defiHình 5: cấu trúc mô hình Neural Network Error! Bookmark not defined
Hình 6: Kết quả so sánh mô hình trên 2 tap train va testError! Bookmark not defined
Hình 7: biểu đồ biểu diễn sự khác biệt giữa yếu tố đầu vào - 12
Hình 8: Sơ đồ hoạt động mạng lưới thần kinh con người - 2-2: 13
Hình 9: Đồ thị biểu dién giá trị dao động của hàm phi tuyến sigmoid 15
Hình 10: cau trúc mô hình mạng nơ ron - 2:2 5¿++2++2x++zx++zxzsseex 15
Hình 11: Cấu trúc liên kết giữa các lớp mô hình NN .: -:-:-: 16
Hình 12: Đường cong ROC va A ÙCC, s5 + vn ng gi 20
Hình 13: Đồ thị biểu diễn giá trị đặc trưng của 9 biến định danh theo biến phụ
Hình 14: Đồ thị biểu diễn sự khác biệt của 2 biến độc lập theo biến phụ thuộc Y30
Hình 15: Biểu đồ thể hiện giá trị đặc trưng của 2 biến theo biến phụ thuộc Y sau
khi phan chia dit LiQu oe ee - 31
Hình 16: Đồ thi Boxplot và đồ thi phân phối của biến AMT_INCOME 33
Hình 17: Đồ thị Boxplot và đồ thị mật độ biến AMT_INCOME sau khi xử lý
Hình 18: Ma trận tương quan tuyến tính của 15 biến có độ tương quan lớn nhất
với biến J0i)81ì100 0 -3ä. 40
Hình 19: Đồ thị phân phối xác suất theo biến mục tiêu của 2 biến GENDER 41
Hình 20: Biểu đồ phân phối xác suất theo biến mục tiêu Y của biến
DAY _BIRTH 20.0 41
Hình 21: Phân loại nhóm tuổi theo tỉ lệ nợ xấu - -¿-cc+c:+cxxccrx 42
Hình 22: Đường cong ROC của mô hình LR với dit liệu huấn luyện sau khi
Bảng 21: Ma trận sai lầm giữa giá trị thực tế và dự báo trên tập Test mô hình LR45
Hình 23: Đường cong ROC với tập dit liệu Test thông qua mô hình LR 46
11172896- Nguyễn Thành Luân
Trang 7Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Hình 24: Đường cong ROC trên dữ liệu tập Test của mô hình NN
Biểu đồ Đường cong ROC dựa trên 70% mẫu xây dựng mô hình
11172896- Nguyễn Thành Luân
Trang 8Chuyên đề thực tập chuyên ngành Toán Kinh Tế
LỜI MỞ ĐẦU
1 Lí do chọn đề tài
Trong quá trình hoạt động của ngành Ngân Hàng, những rủi ro trong hoạt động
cho vay là điều không thê tránh khỏi Việc một khách hàng cá nhân vay nhưng không trả
được nợ ( hoặc trả nợ chậm) sẽ ảnh hưởng rất lớn đến doanh thu và lợi nhuận của Ngân
Hàng, qua đó ảnh hưởng khá lớn tới nền kinh tế của một quốc gia Việc khách hàng cánhân trả được nợ hay không, điều này phụ thuộc rất nhiều yếu tố Chúng ta hoàn toàn cóthé phân tích các yếu tố này rồi tong hợp một mô hình tuyến tính, giúp ngân hàng dự báomột cách chính xác rủi ro của một khoản vay cá nhân Qua đó, ngân hàng có thể tính lãi
suất áp đặt lên từng khách hàng cụ thê
Cách mạng Công nghiệp 4.0 mang đến những thay đổi bước ngoặt, toàn diện
trong mọi mặt của cuộc sông “Thế giới vận hành bằng công nghệ” trở thành xu thé tấtyếu, là mục tiêu tranh đua cho mọi nền kinh tế, mọi doanh nghiệp cùng hướng đến Trong
đó, Trí tuệ nhân tạo (A.I) và phương pháp May học (Machine Learning) là những xu
hướng trọng tâm, nỗi bật, đã và dang được nghiên cứu, ứng dụng rộng rãi trong ngành
ngân hang nói chung va lĩnh vực công nghệ tài chính (FinTech) nói riêng, tạo ra những
birt phá mạnh mẽ về tính hiệu quả, kịp thời, chính xác trong công tác giám sát, dự báo và
hỗ trợ ra quyết định
Trong lĩnh vực tài chính, ngân hàng, Machine Learning, khi được kết hợp
với các mô hình phân tích định lượng, phát huy hiệu quả đặc biệt trong việc tìm
kiếm các bộ mẫu đữ liệu, đưa ra những dự đoán, hỗ trợ hiệu quả ra quyết địnhgiúp đảm bảo hoạt động kinh doanh liên tục và kiểm soát rủi ro Trên thé giới,
cuộc chạy đua trong ngành Ngân hàng diễn ra đặc biệt sôi động Từ các công ty công nghệ mới thành lập như Feedzai (trong mảng thanh toán), Shift Technology
(trong mang bảo hiểm), tới các tập đoàn công nghệ không 16 như IBM và nhómdẫn đầu về công nghệ hiện tại như Google, Alibaba và các Fintech, dang dựa vào
ưu thế công nghệ đề cạnh tranh, lấn sân sang lĩnh vực ngân hang, tài chính
Rất nhiều ví dụ về ứng dụng hiệu quả Machine Learning trong lĩnh vực tài
chính, ngân hang có thé kể đến như: Monzo - một ngân hàng khởi nghiệp tại Anh, đã xây dựng một mô hình phân tích, dự báo đủ nhanh, dé kip thời phát hiện
và ngăn chặn những kẻ lừa đảo giả mạo trong quá trình hoàn tất giao dịch, giúp
giảm tỷ lệ lừa đảo trên thẻ trả trước từ 0,85% vào tháng 6/2016 xuống dưới 0,1%
vào tháng 1/2017 Các công ty công nghệ khác như Xcelerit hay Kinetica, cung
cấp cho các ngân hàng và công ty đầu tư, một hệ thống có khả năng theo dõi và
11172896- Nguyễn Thành Luân 1
Trang 9Chuyên đề thực tập chuyên ngành Tốn Kinh Tế
phát hiện các rủi ro tiềm ấn theo thời gian thực, cho phép ngân hàng giám sát
chặt chẽ các yêu cầu về nguồn vốn Trong năm 2017, JPMorgan Chase giới thiệu
COïN, một nền tảng quản lý hợp đồng thơng minh, sử dụng Machine Learning,
cĩ khả năng xem xét 12.000 hợp đồng tín dụng thương mại trong vài giây, tươngđương khối lượng cơng việc trong 360.000 giờ làm việc của một nhân viên bình
thường.
Sức mạnh của một mơ hình phân loại tín dụng cĩ tác động rất lớn đến kếtquả hoạt động kinh doanh của một ngân hàng Một mơ hình cĩ mức độ chuẩn xáccao giúp tăng doanh thu, lợi nhuận và giảm thiêu tỷ lệ nợ xấu nhưng trái lại nếucác mơ hình phân loại kém cĩ thể khiến doanh thu, lợi nhuận giảm và tỷ lệ nợxâu tăng Mơ hình Neural network(NN) trong xếp hạng tín dụng là một ứng dụngmới của Machine learning trong xếp hạng tín dụng, dang được áp dụng phố biếntrên tồn thế giới với độ chính xác cao Vì vậy em chọn đề tài: “Ứng dụng mơhình Neural Network phân tích, phân loại hồ sơ tín dụng cá nhân ngân hàng”
2 Mục tiêu nghiên cứu
-Xác định các nhân t6 ảnh hưởng rủi ro tín dụng cá nhân của ngân hàng,qua đĩ, đo lường, kiểm định mức độ ảnh hưởng của các nhân tố tới rủi ro tín
dụng cá nhân.
-Khả năng ứng dụng của mơ hình Neural network và Logistic Regression trong việc phân tích, dự báo rủi ro ứng dụng cá nhân.
3 Đối tượng nghiên cứu
-Mối quan hệ giữa các yêu tố đến khả năng nợ xấu
-Mơ hình Neural network, Logistic model Mơ hình nào là phù hợp nhất
với bộ dữ liệu.
4.Phạm vi nghiên cứu
1000 hồ sơ tín dụng của khách hàng cá nhân của Ngân hàng TMCP AnBình CN Hà Nội Số hồ sơ được thu thập trong 8 tháng năm 2019, từ tháng 1
năm 2019 đến thang 8 năm 2019
5 Phương pháp nghiên cứu
- Phân tích định lượng: thống kê mơ tả các biến độc lập (bằng SPSS), xử
lý giá trị ngoại lai (outlier) , xử lý giá tri Missing, Lựa chọn biến dựa trên đánh
giá tương quan, Xây dựng mơ hình neural network, xử lý cải thiện độ chính xác
mơ hình , đánh giá mức độ phù hợp mơ hình, đo lường hiệu quả mơ hình trên các
độ đo Accuracy, Precision và Recall
11172896- Nguyễn Thành Luân 2
Trang 10Chuyên đề thực tập chuyên ngành Toán Kinh Tế
CHƯƠNG 1 : CƠ SỞ LÝ THUYET
1.1 Tổng quan về nợ xấu
1.1.1 Bản chất của nợ xấu
Nợ xấu hay nợ khó đòi là các khoản nợ dưới chuẩn, có thể quá hạn và bịnghi ngờ về khả năng trả nợ lẫn khả năng thu hồi vốn của chủ nợ, điều này
thường xảy ra khi các con nợ đã tuyên bố phá sản hoặc đã tau tán tai sản Nợ xấu
gồm các khoản nợ quá hạn trả lãi hoặc gốc trên thường quá ba tháng căn cứ vàokhả năng trả nợ của khách hang dé hạch toán các khoản vay vào các nhóm thích
làm ăn thua lỗ hoặc phá san, Nhìn chung, một doanh nghiệp luôn phải ước tính
trước những khoản nợ xấu trong chu kỳ kinh doanh hiện tại dựa vào những sốliệu nợ xấu ở kì trước
1.1.2 Tổng quan các bài viết từng phân tích
Sự ra đời của các mô hình Machine Learning có ý nghĩa to lớn đối với nền
kinh tế, cụ thể là lĩnh vực ngân hàng, bởi tốc độ xử lý đáng kinh ngạc, thay thế
công việc của hàng chục người chỉ trong khoảng thời gian ngắn Bởi vậy, việc
ứng dụng mô hình Machine Learning trong ngân hàng đã xảy ra từ những năm
đầu của thé ky 21 Đến nay, đã có rất nhiều bản thé của Machine Learning ra đời
và được sử dụng với nhiều mục đích khác nhau, nhăm giúp các ngân hàng quản
lý tốt hơn, tối ưu hoá lợi nhuận Cụ thể, việc kết hợp các mô hình ML với BigData trong quản trị rủi ro, ngân hàng có thé áp dung dé phân tích, sàng lọc nhữngkhách hàng không đủ chỉ trả khoản vay trước viễn cảnh xấu nhất xảy ra
Sử dụng Data Sclence, khai thác hiệu quả Machine Learning và phân tích,
dự đoán để tạo ra công cụ phân theo nhóm, từng cụm dữ liệu có thể nhận ra vàphát hiện những xu hướng, mô hình độc hại trong hệ thống phát hiện gian lận
Những công cụ như CART (classification and Regression Trees) hay GLM
(Generalized Linear Model) có vai trò thiết thực trong quá trình chọn lọc, phân
loại, hay dự đoán xu hướng giúp ngân hàng xác định chính xác giá trị vòng đời khách hàng, phân khúc thị trường.
11172896- Nguyễn Thành Luân 3
Trang 11Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Đối với vấn đề phân loại tín dụng, cách tiếp cận truyền thống là dựa vào
các phương pháp thống kê thuần túy như hồi quy tuyến tính đa biến (Meyer &
Pifer, 1970), phân tích khác biệt (Altman, 1968; Banasik, Crook, & Thomas,
2003), và hồi quy Logistic (Desai, Crook, & Overstreet, 1996; Dimitras, Zanakis,
& Zopounidis, 1996; Elliott & Filinkov, 2008; Lee, Chiu, Lu, & Chen, 2002).
Tuy nhiên những yêu cầu của hội đồng Basel về giám sát hoạt động ngân hàng
(the Basel Committee on Banking Supervision) ban hành năm 2004 đòi hỏi các
ngân hàng cũng như các tô chức tài chính phải sử dụng những mô hình phân loại
tín dụng tin cậy hơn nhằm nâng cao hiệu quả của việc phân bổ vốn Nhằm đápứng những đòi hỏi trên, trong những năm gần đây đã xuất hiện một số mô hìnhphân loại tín dụng mới theo cách tiếp cận của học máy (Machine Learning) và tríthông minh nhân tạo (Artificial Intelligence) Không giống như các tiếp cận trướcđây, các phương pháp mới này không đưa ra bất kì giả thiết chặt chẽ nào như đòihỏi của các cách tiếp cận theo phương pháp thống kê Thay vào đó, các tiếp cậnmới này cô găng khai thác va đưa ra các kiến thức, các thông tin đầu ra chỉ dựavào các thông tin đầu vào là các quan sát, các thông tin trong quá khứ Với bàitoán phân loại tín dụng, một số mô hình thuộc học máy như mạng trí tuệ nhân tạo
ANN (Artificial Neural Network), Máy Hỗ Trợ Véctơ SVM (Support Vector
Machines), K láng giềng gần nhất KNN (K-Nearest Neighbors), rừng ngẫu nhiên
RF (Random Forest), cây quyết định DT (Decision Tree) chang hạn đã chứng tỏ
nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân
loại truyền thống (Chi & Hsu, 2012; Huang et.all, 2004; Huang, Chen, & Wang,
2007; Ince & Aktan, 2009; Martens và et al., 2010).
1.1.2.1 Các công trình nghiên cứu nước ngoài phân loại hồ sơ tín dụng
Một trong những nghiên cứu mới đây nhất về phân loại hồ sơ tín dụng cóthé kế đến đó là bài nghiên cứu có tựa dé: “Analysis of Individual Loans usinglogit under Supervised Machine Learning Approach” Đây là sản phẩm của ba
nha khoa học Dominic M.Obare, Gladys G.Njoroge va Moses M.Muraya thuộc
trường đại hoc Chuka, Kenya, lần đầu tiên được công khai trên trang web nghiêncứu nôi tiếng researchgate.net vào ngày 01/05/2019 Dữ liệu được sử dụng trong
nghiên cứu này được lay từ ngân hàng cô phần Kenya, trong khoảng thời gian từ
năm 2006 đến năm 2016 Một mẫu ngẫu nhiên gồm 1000 người đã nộp đơn vayvốn, được ngân hàng cô phần Kenya chấp thuận và cả bác bỏ Dữ liệu thu thậpdựa trên 11 biến độc lap, bao gom: lịch sử tín dụng, mục đích khoản vay, taikhoản tiết kiệm, tình trạng việc làm, giới tính, độ tuổi, bảo mật khoản vay và khuvực cư trú (nông thôn/ thành thị) Dữ liệu được xử lý trước băng phần mềm R,
11172896- Nguyễn Thành Luân 4
Trang 12Chuyên đề thực tập chuyên ngành Toán Kinh Tế
sau đó được tách thành 2 tập : tập train và tập test dé thử nghiệm mô hình logistic
và hậu kiểm Trong đó, với dữ liệu của 1000 hồ sơ tín dụng, tập train sẽ bao gồm
700, còn lại của tập test Khi chạy mô hình logistic với sự tham gia của
Supervised Machine Learning, tập train được chia thành 7 mẫu phụ tương ứng
100, 200, 300, 400, 500, 600, 700 Mô hình hồi quy logistic đã được trang bịbăng cách sử dụng từng mẫu con và kiểm tra hành vi của mô hình thu được dựatrên dir liệu thử nghiệm trong từng trường hợp Lý do cho điều này là để giúp
quan sát xem việc tăng kích thước mẫu có làm tăng hiệu suất của mô hình hay
không Hành vi của mô hình với ca dữ liệu thử nghiệm được hiển thị bang cách
sử dụng các đường cong ROC tập train và tập test so với kích thước mẫu Điềunày giả định ảnh hưởng của kích thước mẫu đến hiệu quả và hiệu suất của môhình được tạo ra Biến phụ thuộc là target nhận 2 giá tri: 1 trả nợ đúng hạn, và 0
là không trả được nợ Biến Target được lập dựa trên thông tin thời gian trả nợcủa khách hàng Theo xếp loại của ngân hàng cô phần Kenya, một khách hàng
được đánh giá là trả được nợ, khi thời gian trả nợ của khách hàng đó trước hạn
trả nợ hoặc quá hạn 30 ngày, một khách hàng được đánh giá là nợ xấu khi quá
hạn trả nợ 90 ngày.
Kết quả bài nghiên cứu chỉ ra, các biến độc lập đều có tác động mang ýnghĩa thống kê đối với biến phụ thuộc, một vài biến có thé ké đến ở đây là:
- Những cá nhân đã vay một khoản cho mục đích tài trợ cho giáo dục cho
thấy tỷ lệ không trả được nợ cao nhất (44%) Tiếp theo là những người không cómục đích vay với tỷ lệ 42% Các khoản vay cá nhân cho thấy hiệu quả tốt nhất là
các khoản vay do những người có mục đích đảo tạo lại Đào tạo lại có nghĩa là để
có thêm một kỹ năng như đào tạo tại chức Điều này có thê liên quan đến việcnhững người di dao tao lai đã có được việc làm Do đó họ không phải vất va dé
trả các khoản vay của mình
- Phân tích tình hình hoạt động cho vay theo lịch sử tín dụng cho thấy các
cá nhân vay lần đầu tiên có tỷ lệ vỡ nợ là 62,5% Những người đã từng vay ngânhàng và đã hoàn trả đầy đủ cho thấy 57,14% không trả được nợ Những người có
các khoản vay khác và vẫn đang được giải quyết kịp thời cho thấy tỷ lệ vỡ nợ là31,89% Những cá nhân đã từng bị vỡ nợ trước đây cho thấy khả năng hoàn trảcác khoản vay của họ tốt nhất Quan sát chung là việc cho một người mới vaytiền gặp rủi ro hơn so với một người đi vay đã biết lịch sử vay Điều này thốngnhất với báo cáo thường niên của Ngân hàng Trung ương Kenya (2016) răng lịch
sử tín dụng của người đi vay là yếu tố quyết định chính trong mức độ tín nhiệm
11172896- Nguyễn Thành Luân 5
Trang 13Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Lịch sử về cách một cá nhân đã trả các khoản vay hiện tại hoặc trước đó sẽ xác
định xem người đó có khả năng vỡ nợ hay không.
-Giới tính và tình trạng hôn nhân cũng là 2 nhân tố rất quan trọng trongphân tích rủi ro hồ sơ tín dụng Trong nghiên cứu này, phụ nữ cho thấy hoạtđộng giải quyết các khoản vay của họ kém hơn so với nam giới Một trongnhững lý do khiến các cá nhân vỡ nợ là do ly hôn Khi ly hôn, phụ nữ bị ảnhhưởng nhiều hơn so với nam giới Đây có thé là một trong những lý do tại sao tỷ
lệ phụ nữ không trả được nợ nhiều hơn nam giới Điều này phù hợp với cácnghiên cứu, phát hiện ra rằng những người đi vay là phụ nữ có xu hướng vỡ nợnhiều hơn nam giới Điều này có thé là do cách xã hội mô tả phụ nữ về quyền sởhữu tài sản và thu được của cải Hầu hết các quyết định tài chính liên quan đếnphụ nữ đều do chồng hoặc cha mẹ của họ đưa ra và điều này gây rủi ro cho bất
kỳ khoản tín dụng nào có được.
Còn nhiều nhân tố quan trọng có thé kế đến có tác động rat lớn đến phânloại hồ sơ tín dụng như: mục đích khoản vay, khu vuc,
Sau khi chạy mô hình hồi quy logistic, bài nghiên cứu có kết quả khá khaquan Mô hình hồi quy logistic đã dự đoán 303 hồ sơ vỡ nợ từ tập dữ liệu traindata, 122 khoản nợ trả đúng hạn và khoản vay bị phân loại sai lầm loại I là 56,
loại II là 69 Mô hình có độ chính xác là 0,7727 với dữ liệu tap train và 0,7333
với đữ liệu tập test Hiệu suất mô hình trên 2 tập dữ liệu được kiểm chứng bằng
cách sử dụng đường cong Learning, một đường cong được hình thành dựa trên
những điểm tỉ lệ dự báo sai lầm Tỉ lệ dự báo sai lầm được tính dựa trên tỉ lệ sốlượng quan sát mắc sai lầm trên một tập dữ liệu so với kích thước mẫu Thôngthường Đây là một biểu đồ của các sai lầm trên tập train và các sai lầm trên tậptest so với kích thước mẫu trên các trục giống nhau cho thấy rằng chất lượng của
mô hình tăng lên khi kích thước mẫu tăng lên.
Hình 1: Đường cong Learning giữa tập CV va tap Train
11172896- Nguyễn Thanh Luân 6
Trang 14Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Điều nay phù hợp với nghiên cứu được thực hiện bởi Dobson A.J Ông
đã thực hiện nghiên cứu về ảnh hưởng của kích thước mẫu đến hiệu suất của môhình tuyến tính tổng quát Nghiên cứu cho thấy sự gia tăng kích thước của mẫucải thiện hiệu suất của các mô hình Mô hình tốt nhất có kích thước mẫu là 700
Một trong những nghiên cứu cần chú trọng trong những năm gần đây, có
tên là :” Use of Machine Learning Techniques to Create a Credit Score Model
for Airtime Loans” Bài nghiên cứu là su tổng hợp của 4 nhà khoa hoc Bernard
Dushimimana, Yvonne Wambui , Timothy Lubega va Patrick E McSharry thuộc
dai hoc Africa, bài viết được công bố bang hình thức đăng trực tuyến trên
researchgate.com vào ngày 13/08/2020 Với bộ dữ liệu gồm 41300 hồ sơ tín
dụng được thu thập từ ngân hàng thương mại Cozmo trong khoảng thời gian từ
1/1/2016 đến 1/4/2017, bài nghiên cứu đã chứng minh được rằng, ngoài các nhân
tố chính thuộc về thông tin chung của khách hàng (tuổi, giới tính, tình trạng hônnhân, ), thông tin hồ sơ nợ hiện tại (số tiền vay, thời gian vay, thời gian trảnợ, ) thì còn một nhân tố ảnh hưởng đến khả năng trả nợ đúng hạn của kháchhàng là lịch sử tín dụng (đã vay nợ bao nhiêu lần trong 1 năm, đã từng không trảđược nợ chưa, hang tháng chuyền bao nhiêu tiền vào tài khoản, )
Việc phân chia dữ liệu vào tập train va test được thực hiện theo tỉ lệ 4:1.
Trong quá trình chạy số liệu trên tập train, bài nghiên cứu sử dụng 5 thuật toán
được sử dụng nhiều nhất trong quản trị rủi ro tín dụng : LR, Decesion Tree,Random Forest, SVM và Neural network Kết quả đánh giá độ chính xác của 5
mô hình được thể hiện ở hỉnh dưới:
Acouracy Precision Recall Fl Score
imbalances data withoat ecaling
Imeatanzed data with scaling
Balanced training set with SWOTE without scaling
Hình 2: Kết quả đo lường hiệu quả 5 mô hình trong 3 trường hợp
11172896- Nguyễn Thành Luân 7
Trang 15Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Từ bảng dữ liệu trên, ta thấy, độ chính xác của 5 mô hình có dấu hiệugiảm sau khi dữ liệu biến phụ thuộc được cân bằng Kết quả mô hình tốt nhất là
dữ liệu của ngân hàng, và loại bỏ bớt các quan sát bị thiếu, các biến thiếu dữ liệu
Theo đó, mô hình có độ chuẩn xác cao nhất là Decesion Tree
1.1.2.2 Các công trình nghiên cứu trong nước
Tại Việt Nam, Ứng dụng Machine Learning trong ngân hàng, được sửdụng nhiều nhất ở việc phân loại khoản vay (Bank loan classifications) Trongthống kê, đặc biệt là thống kê suy diễn, ta có phương pháp ước lượng(Estimation) bao gồm ước lượng điểm (Point Estimation) và ước lượng khoảng(interval estimation) dựa trên các thống kê của mẫu dé suy ra tham số tổng thé.Thuật toán Classifications cũng gần giống với Estimation, tuy nhiên thay vì kếtquả của quá trình ước lượng (Quantitative variables) thì đầu ra sau cùng của
thuật toán phân loại là dữ liệu định tính.
Ví dụ kết quả đầu ra của Classification có thể là đánh giá mức thu nhậpcủa khách hàng tiềm năng có thé là High income, Middle và Low Gia sử nhânviên ngân hàng muốn phân loại khách hàng mới vào các nhóm thu nhập trên Họ
sẽ phân tích các yêu t6 khác nhau như độ tuổi, giới tính, nghề nghiệp dé xem xét,
với cơ sở đã có sẵn một bộ dit liệu với các khách hàng cũ đã được đánh giá trên
chính các yếu tố đó Qua đó, thuật toán sẽ xác định biến nào có quan hệ với biếnmục tiêu (Target) Ví dụ, khách hàng là nam, độ tuổi trung niên, nghề nghiệp
giám đốc thì có thé có thu nhập cao, tức High income Tập dữ liệu sử dung ở đây
là “Train data” Tiép theo, sau khi đã tim ra cách thức phân loại trên Train data,thuật toán sẽ tiến hành phân loại trên tệp dữ liệu mới Hiện nay, có rất nhiều
thuật toán phân loại khác nhau dùng dé khai phá dữ liệu như: Logistic, K-nearest
neighbor (KNN), Decesion Trees, ANN, v.v Tuy nhiên, ở Việt Nam,phan lớn
chỉ nghiên cứu và phân loại dựa trên thuật toán Logistic — thuật toán điển hìnhtrong phân loại hồ sơ tín dụng
Một trong những nghiên cứu tiêu biểu của thuật toán Logistic là bàinghiên cứu được đăng trên website tapchi.ftu.edu.vn, tạp chí KTĐN số 102, được
đăng ngày 16/5/2018 với tiêu đề: “Ứng dung mô hình Logistic cham điểm kháchhàng cá nhân nộp hồ sơ vay trên LENDINGCLUB” của 3 sinh viên Nguyễn Thị
Thuý Quỳnh, Bùi Lê Trà Linh và Trần Thị Xuân Anh Dữ liệu ban đầu của bàinghiên cứu gồm 235.629 quan sát với 89 biến độc lập Sau khi chỉnh sửa dữ liệubằng cách loại bỏ các biến không cần thiết cũng như với các biến thiếu dữ liệu,còn lại 17 biến độc lập và đã được tính giá tri tương ứng đó là: dti3w (Tỷ lệ giátrị khoản vay/thu nhập khả dụng), acc_open_past_24 (số TK giao dich mở trong
11172896- Nguyễn Thành Luân 8
Trang 16Chuyên đề thực tập chuyên ngành Toán Kinh Tế
24 tháng trước ngày nộp hồ sơ vay), bc_open_to_buy (số tiền còn lại có thé vaytrong các tài khoản thẻ ngân hàng quay vong),ing_last_6mthsw (số lần điều tratrong 6 tháng qua), mo_sin_old_rev_tl_op (số tháng kể từ khi mở tài khoản đầu
tiên), purposew (mục đích vay tiêu dùng, đảo nợ, tín dụng ), tyle_loans (Giá tri
khoản vay trên Lending Club/ Tổng dư nợ hiện tại), termw (thời hạn vay củakhoản vay), mo_sin_olds (Số tháng kể từ tài khoản ngân hàng mở đầu tiên),mths_sin_opens (số tháng từ khimở tài khoản thé gần nhất đến nay),
percent_pc_75 (tỷ lệ phần trăm số tài khoản thẻ vượt qua 75% hạn mức tín dụngchia cho tổng số tài khoản thé),annual_inc (thu nhập hàng năm của người vay),
Verifications_stat (trang thái xác minh thu nhập của khách hang), Dtiw (% số thu
nhập dành vào việc trả nợ hàng tháng), revol_utilw (các khoản tín dụng của
người vay được sử dụng liên quan đến tất cả các tín dụng quay vòng có sẵn),mths_sin_recent(Số tháng kế từ khi hầu hết các cuộc điều tra gần đây),mo_sin rec(số tháng ké từ khi lần mở tài khoản bat ky gan nhất đến hiện tại)
Bài nghiên cứu cũng chỉ ra được rằng, 17 biến độc lập đều có ý nghĩa
trong việc đánh giá rủi ro tín dụng.
Biến phụ thuộc của mô hình là Loan Status với 2 giá tri là Current tức là
khoản vay còn nợ nhưng đã thanh toán đủ tiền lãi hàng tháng, và Late(30-120)
tức là khoản vay trả muộn 30-120 ngày so với hạn trả nợ Đồng thời nhóm kháchhàng được đánh giá là Late(30-120) là Bad, còn lại là Good Lay mau nhién 70%mẫu dé chạy mô hình, 30% dé hậu kiểm Sau khi đã có kết quả mô hình, người
nghiên cứu đánh giá độ chính xác mô hình bằng đường ROC và chỉ số GINI
Biểu đồ Đường cong ROC dựa trên 70% mẫu xây dựng mô hình
= —ROC
= 0,3 ———=Đường 45
2 0,2 go1
0 0,5 1
Cumulative frequency of Good
ROC cho thay mô hình có khả năng dự báo ở mức trung bình, tiễn hành
hậu kiêm với 30% mẫu, độ đo GINI của cả hai mâu xây dựng mô hình và mâu
11172896- Nguyễn Thành Luân 9
Trang 17Chuyên đề thực tập chuyên ngành Toán Kinh Tế
hậu kiểm không quá sai lệch, nằm trong khoảng 0.3 Mô hình có khả năng dự
báo ở mức trung bình.
Khi nhắc đến mô hình mạng nơ ron, nhiều người sẽ nghỉ đến ứng dụngcủa nó trong những bộ dữ liệu với đầu ra là những giá trị phân loại phức tạp, như
phân loại chó, mèo thông qua bức ảnh, nhận diện khuôn mặt Tuy nhiên, tại Việt
Nam, trong những năm gần đây mô hình này bắt đầu được áp dụng rất nhiềutrong ngành kinh tế - ngân hàng Một ví dụ điển hình của việc ứng dụng mô hìnhmạng nơ ron trong phân loại hồ sơ tín dụng là bài nghiên cứu với tựa đề “ Ứngdụng mô hình mạng thần kinh nhân tạo trong quản trị rủi ro tín dụng tại một sỐngân hàng thương mại trên địa bàn thành phố Biên Hoà” của 2 sinh viên ĐàoTrọng Thịnh và Doãn Văn Toàn thuộc khoa Tài Chính — Kế Toán, trường đạihọc Lạc Hồng, Đồng Nai Bài nghiên cứu được đăng trên tạp chí Khoa Học LạcHồng, số 5 (2016), trang 31-35 vào ngày 23/7/2016 Dữ liệu nghiên cứu đã đượcthu thập dựa trên việc tham khảo hop đồng tín dụng được nhân viên tín dụnghoàn thành và được cấp trên thông qua bằng việc ra quyết định xem hồ sơ đó cóđược cho vay hay bị từ chối Hồ sơ tín dụng thu thập trong phạm vi các ngânhàng thương mại tại thành phố Biên Hoà như Agribank và Vietcombank Tổng
số mẫu quan sát là 3003 quan sát, được đánh giá dựa trên 17 biến độc lập và 1biến phụ thuộc Y với hai giá trị 1: chấp nhận cấp tín dụng và 0: từ chối cấp tín
dụng 17 biến độc lập được sử dụng trong mô hình là
TE a ole (ib me een sốc n
XÔI - Tudi người đi vay X02 = Gia cảnh khách hang so với mặt bằng ving X03 - Trinh dé học vấn
x04 - Tink trạng sử hữm nhà ở
X05 - So ngưới phy thuốc
x06 - Co cầu pin dink hiện tai
XO? - Mức thu nhập rong hing tháng
X08 - Thu nhận của gia đình? nim X09 - Ty lẽ thu nhập rong trên tổng số tiền phải tra
X10 - Thới gian công the tụi cer quan hiện tại
X11 - Thới gian lam công việc hiện tại
XI2 - Nghề nghiệp
X14 - Ther gian vay
XI4 - Tink hình trả ng gốc vú lãi trong 12 thủng vừa qua che các tổ chức tin dung
XI5 - Tông du ne hiển tại X16 - Các dich vụ khúc sử dung của ngân hàng
MI? - Số dư tien gửi tiết kiệm trung hình tại agin hàng
Hình 3: Kí hiệu nội dung 17 biến độc lập trong mô hình nghiên cứuTác giả xây dựng mô hình mang no ron với 1 lớp nơ ron đầu vào, 1 lớp an
và một lớp nơ ron đầu ra Trong đó, lớp nơ ron đầu vào có 17 nơ ron, tượngtrưng cho 17 biến độc lập Lớp ân duy nhất có 10 nơ ron và lớp nơ ron đầu ra với
1 nơ ron Mô hình mạng nơ ron của bài nghiên cứu trên dạng như sau
11172896- Nguyễn Thành Luân 10
Trang 18Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Output Layer os) fe j | Qutput
1) ae | ®
Hình 4: cấu trúc mô hình Neural NetworkTrong đó, với mỗi lớp ẩn, tác giả sử dụng hàm kích hoạt phi tuyếnLogistic nhằm tạo ra kết quả giá trị đầu ra là đữ liệu xác suất liên tục với tính
chuẩn xác cao Tiếp đến, nhóm tác giả tiến hành phân chia dữ liệu thành 3 tập
chính là tập dữ liệu huấn luyện (train), tập dữ liệu phê duyệt (Validation) và tap
dữ liệu dùng để kiểm tra (test), tương ứng với tỉ lệ 88%, 10% và 2% dữ liệu mẫu
Trong đó tác giả tiễn hành, huấn luyện mô hình với tập train, dự báo và kiểm tra
lại kết quả dự báo với 2 tập Validation và test, thu duoc kết qua là dạng xác suất
dao động trong khoảng [0;1], nhóm tác giả quy ước nếu output > 0.5 là 1, ngượclại là 0 Nhóm tác giả bắt đầu đánh giá hiệu quả mô hình dựa trên sự sai lệch kết
dự báo so với thực tế giữa 3 tập đữ liệu
taat Validation Performance is 0.03877 at epoch 210
wt
°
188 ie Vine ai ta _ he
720 Epochs
Hình 5: Kết quả so sánh mô hình trên 2 tập train và test
Ta thấy rằng, đường kiểm tra (Test), đường chuẩn dùng để phê duyệt(Validation) biến thiên cùng chiều và có độ lệch thấp, điều này cho thấy giá trịkhi được kiểm tra sẽ có độ chính xác và sát với thực tế hơn từ nguồn dữ liệuđược thu thập từ những hồ sơ cấp tín dụng, phù hợp với mục tiêu mà nhóm tácgiả đã đề ra R của mô hình có giá trị huấn luyện = 0,92311, giá trị kiểm tra =0,90786 các giá trị R này đều ở mức cao; điều này cho thấy kết quả của dự báomang tính chính xác cao, nghĩa là nếu R càng lớn thì mô hình cho ra kết quả có
độ tin cậy cao, tác giả thống kê được rằng trong 2% mẫu ngẫu nhiên được sửdụng (tương ứng với 60 giá tri được dùng dé chạy thực nghiêm mô hình), có 57
11172896- Nguyễn Thành Luân 11
Trang 19Chuyên đề thực tập chuyên ngành Toán Kinh Tế
mẫu đã được dự đoán chính xác so với quyết định thực tế (tương ứng với độ
chính xác là 95%).
Nhìn chung qua các nghiên cứu trước đây, ứng dụng Machine Learning
trong đánh giá rủi ro tín dụng còn nhiều hạn chế về độ chính xác và thuật toán ápdụng với dữ liệu phù hợp Nhiều nghiên cứu trong nước ta trước đây chỉ tậptrung vào nghiên cứu những mô hình cụ thể như : LR, SVM hay phân tích nhân
tố Do đó độ chính xác và khả năng dự báo của mô hình rất thấp Trong những
năm gần đây, sự tiễn bộ của khoa học kĩ thuật, đặc biệt là sự phát triển Big Data
đã đặt nền móng cho AI Một trong những nghiên cứu giúp loại bỏ những hạnchế của mô hình cổ điển là Neural Network (ANN), được cho là vượt trội hơn
những mô hình LR, SVM.
1.2 Mô hình Logistic Regression (LR)
1.2.1 Định nghĩa
Phương pháp hồi quy logistic là một mô hình hồi quy nhằm dự đoán giá
trị đầu ra roi rac (discrete target variable) y ing với một véc-tơ đầu vào x Việc
này tương đương với chuyện phân loại các dau vào x vào các nhóm y tương ứng.
100
x2
100
Hình 6: biếu đồ biểu diễn sự khác biệt giữa yếu tố đầu vào
Ví dụ, xem một bức ảnh có chứa một con mèo hay không Thì ở đây ta
coi đầu ra y=1 nếu bước ảnh có một con mèo và y=0 nếu bức ảnh không có con
mèo nào Đầu vào x ở đây sẽ là các pixel một bức ảnh đầu vào
Dé đơn giản, trước tiên ta sẽ cùng đi tìm hiểu mô hình và cách giải quyết
cho bài toán phân loại nhị phân tức là y={0,1} Sau đó ta mở rộng cho trường hợp nhiêu nhóm sau.
11172896- Nguyễn Thành Luân 12
Trang 20Chuyên đề thực tập chuyên ngành Toán Kinh Tế
1.3 Mô hình Neural Network
1.3.1 Định nghĩa
Neural network (mạng nơ-ron) là một một chuỗi các thuật toán nhằm cố
gắng nhận ra các mối quan hệ cơ bản trong một tập hợp dữ liệu, thông qua một
quy trình bắt chước cách bộ não con người hoạt động Mạng noron có thể thích
ứng với việc thay đổi đầu vào; vì vậy mạng tao ra kết qua tốt nhất có thé mà
không cần thiết kế lại các tiêu chí đầu ra
1.3.2 Nền tảng hoạt động
Một mạng nơ-ron được cấu thành bởi các nơ-ron đơn lẻ được gọi là cácperceptron Nên trước tiên ta tìm hiểu xem perceptron là gì đã rồi tiến tới mô
hình của mạng nơ-ron sau Nơ-ron nhân tạo được lay cảm hứng từ nơ-ron sinh
học như hình mô tả bên dưới:
impulses carried toward cell body
ra một kết quả duy nhất Một perceptron sẽ nhận một hoặc nhiều đầu x vào dạng
nhị phân và cho ra một kết quả o dạng nhị phân duy nhất Các đầu vào được điều
phối tầm ảnh hưởng bởi các tham số trọng lượng tương ứng w của nó, còn kết
qua đầu ra được quyết định dựa vào một ngưỡng quyết định b nào đó:
Trang 21Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Đặt y=3,w;x¡ + b, y được gọi là một hàm kích hoạt.
Dé dễ hình dung, ta lay vi dụ việc đi học hay không phụ thuộc vào 4 yếut6 sau:
1 Trời có nang hay không?
2 Có hẹn trước hay không?
3 Vui hay không?
4 Bạn thân có đi học hay không?
Thì ta coi 4 yếu tố đầu vào là x1,x2,x3,x4 và nếu ø =0 thì ta không đi họccòn ø=Ï thi ta đi học Giả sử mức độ quan trọng của 4 yếu tố trên lần lượt là w1
=0.05,w2=0.5,w3=0.2,w4=0.25 và chọn ngưỡng b=—0.5 thì ta có thé thấy rằngviệc trời nắng có ảnh hưởng chỉ 5% tới quyết định đi học và việc có hẹn từ trướcảnh hưởng tới 50% quyết định đi học
1.3.3 Các dạng hàm kích hoạt
1.3.3.1 Ham phi tuyến sigmoid
Hàm kích hoạt là hàm số mô phỏng lại cách truyền tín hiệu của Nơ-ron từthân tế bào Có 2 dạng hàm kích hoạt là hàm tuyến tính (có đồ thị dạng đườngthang) và hàm phi tuyến (có đồ thị dang đường cong biến đổi)
Ví dụ: Hàm tuyến tính y = ax+b ; Hàm phi tuyến yy
Tuy nhién
Dé mô hình hoạt động chính xác nhất, phải cần dùng đến ham kích hoạtphi tuyến Một trong những ham phi tuyến phổ biến đang được sử dung trong ratnhiều mô hình dự báo là hàm phi tuyến sigmoid
Với đầu vào và đầu ra dạng nhị phân, ta rất khó có thể điều chỉnh mộtlượng nhỏ đầu vào dé đầu ra thay d6i chút ít, nên dé linh động, ta có thé mở rộng
chúng ra cả khoảng [0,1] Lúc này đầu ra được quyết định bởi một hàm
sigmoid:o(zZ) = -—
eZ
Đồ thị của hàm nay đối xứng trong khoảng [0,1]
11172896- Nguyễn Thành Luân 14
Trang 22Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Hình 8: Đồ thị biểu diễn giá trị dao động của hàm phi tuyến sigmoid
Đặt z-Y w;x; +b, Ham perceptron được biểu diễn qua một hàm kích hoạt
(activation function) f(z) như sau: ø= f(z) = f(X w;x; + b) , bằng cách biểu diễnvậy, ta có thể coi neural network được thê hiện như sau :
Hình 1: cấu trúc mô hình mang nơ ron
1.3.4 Cấu trúc mô hình Neural network
Mạng NN là sự kết hợp của của các tầng perceptron hay còn được gọi làperceptron đa tầng (multilayer perceptron) như hình vẽ bên dưới:
Trang 23Chuyên đề thực tập chuyên ngành Toán Kinh Tế
output layer input layer
-Tang ấn (hidden layer): Là tang nằm giữa tang vào va tầng ra thé hiện
cho việc suy luận logic của mạng.
Lưu ý rang, một NN chỉ có 1 tầng vào và 1 tang ra nhưng có thé có nhiều
tầng ân Trong mạng NN, mỗi nút mạng là một sigmoid nơ-ron nhưng hàm kíchhoạt của chúng có thé khác nhau Tuy nhiên trong thực tế người ta thường déchúng cùng dạng với nhau dé tính toán cho thuận lợi
Ở mỗi tang, số lượng các nút mạng (nơ-ron) có thé khác nhau tuỳ thuộcvào bài toán và cách giải quyết Nhưng thường khi làm việc người ta để các tầng
ân có số lượng nơ-ron bằng nhau Ngoài ra, các nơ-ron ở các tầng thường đượcliên kết đôi một với nhau tạo thành mạng kết nối đầy đủ (full-connectednetwork) Khi đó ta có thé tính được kích cỡ của mạng dựa vào sỐ tầng và số nơ-
ron
Như ta thấy thì tất cả các nốt mạng (nơ-ron) được kết hợp đôi một với
nhau theo một chiều duy nhất từ tầng vào tới tang ra Tức là mỗi nốt ở một tầng
nào đó sẽ nhận đầu vào là tất cả các nốt ở tầng trước đó mà không suy luậnngược lại Hay nói cách khác, việc suy luận trong mạng NN là suy luận tiến
Trang 24Chuyên đề thực tập chuyên ngành Toán Kinh Tế
l+1 1 at*9 = CAN 3
Trong đó, n(1) số lượng nút ở tang | tương ứng và aj(1) là nút mạng thứ jcủa tầng L Còn wÿ(I+1) là tham sỐ trọng lượng của đầu vào 4/( đối với nút
mạng thứ ii của tang +7 và bi(I+1) là độ lệch (bias) của nút mạng thứ i của tầngI+1 Đầu ra của nút mạng này được biểu diễn bằng ai(I+1) ứng với hàm kích hoạt
#zủ tương ứng.
Riêng với tầng vào, thông thường a! cũng chính là các đầu vào x tương
ứng của mạng.
Rasa ge P » i), na, ak ca ` +1 1+1),, k
Dé tiện tính toán, ta coi a la mot dau vao va wo } =p‘ ) 1a tham so
trong lượng của đầu vào này Lúc đó ta có thé viết lại công thức trên dưới dang
véc-to:
z* 1) =wt 9 a?
at?) — fz")
1.4 Đánh giá mô hình phân loại
Trong quá trình xây dựng một mô hình machine learning, một phần khôngthé thiếu dé biết được chat lượng của mô hình như thế nào đó chính là đánh giá
mô hình.
Đánh giá mô hình giúp chúng ta lựa chọn được mô hình phù hợp nhất đốivới bài toán của mình Tuy nhiên để tìm được thước đo đánh giá mô hình phùhợp thì ta cần phải hiểu về ý nghĩa, ban chất và trường hợp áp dụng của từng
thước đo.
Đối với Machine Learning, các độ do (metrics) dùng dé đánh giá một môhình có rất nhiều, tuy nhiên, trong phạm vi bài nghiên cúu này, tôi sẽ đề cập đếnnhững metric mà tôi sẽ sử dụng dé đánh giá khả năng phân loại của mô hình
1.4.1 Accuracy, Precision và Recall
Giả định rằng chúng ta đang xây dựng một mô hình phân loại nợ xấu.Nhãn của các quan sát sẽ bao gồm GOOD (thông thường) và BAD (nợ xấu)
Kích thước của các tập dir liệu như sau:
Tập train: 1000 hồ sơ bao gồm 900 hồ sơ GOOD và 100 hồ sơ BAD
Tập test: 100 hồ sơ bao gồm 85 hồ sơ GOOD và 15 hồ sơ BAD
Dé thuận tiện cho diễn giải và đồng nhất với những tài liệu tham khảo
khác về ký hiệu thì biến mục tiêu y nhãn BAD có giá trị 1 va GOOD giá tri 0
11172896- Nguyễn Thành Luân 17
Trang 25Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Đồng thời trong các công thức diễn giải và bảng thống kê, nhãn BAD là positive
va GOOD là negative Positive va Negative ở đây chi là qui ước tương ứng với
giá tri 1 và 0.
Một mô hình phân loại ¢ đưa ra kết quả dự báo trên tập train được thống kê
BAD (Positive) (TP - tion Positive) (FP - tiến: Positive)
45 850
GOOD (Negative) (FN - False em (TN - True Negative)
Bang 1: Bang ma trận sai lầm của ví dụ
Các chỉ số TP, FP, TN, FN lần lượt có ý nghĩa là :
TP (True Positive): Tổng số trường hợp dự báo khớp Positive
TN (True Negative): Tổng số trường hợp dự báo khớp Negative
FP (False Positive): Tổng số trường hợp dự báo các quan sát thuộc nhãn
Negative thành Positive.
FN (False Negative): Tổng số trường hop dự báo các quan sát thuộc nhãn
Positive thành Negative.
Precision trả lời cho câu hỏi trong các trường hop được dự báo là positive
thì có bao nhiêu trường hợp là đúng ? Và tất nhiên precision càng cao thì môhình của chúng ta càng tốt trong việc phân loại hồ sơ BAD (BAD chính là nhóm
positive) Công thức cua precision như sau:
TP 55
Pr ion= = =52,4ecesio TP+FP 55+50 52,4%
Precision sẽ cho chúng ta biết mức độ chuẩn xác của mô hình đối với các
hồ sơ được dự báo là BAD Ví dụ khi precision = 52,4%, chúng ta tin rằng trong
các hồ sơ được dự báo là BAD thì có 52,4% tỷ lệ các hồ sơ được phân loại đúng.Cũng có ý nghĩa gần tương tự như precision, có cùng tử số nhưng có một chútkhác biệt về mẫu số trong công thức tính toán, và cũng là một chỉ số giúp đolường hiệu suất dự báo trên nhóm positive, đó là recall
Recall đo lường tỷ lệ dự báo chính xác các trường hop positive trên toàn
bộ các mẫu thuộc nhóm positive Công thức của recall như sau:
Trang 26Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Những độ đo trên càng cao, chứng tỏ mô hình càng hiệu quả trong việc
phân loại.
1.4.2 Đường cong ROC
Bên cạnh đó, còn một độ đo giúp ta đánh giá sức mạnh phân loại một môt
hình, đó là đường cong ROC ROC curve (Receiver Operating Characteristic) là
một đường cong thê hiện mối liên hệ giữa tỷ lệ mắc sai lầm loại I (false positive
rate) và tỷ lệ dự báo dung positive (true positive rate).
Trong thống kê, chúng ta chia các sai lầm của giả thuyết thành 2 loại: sailầm loại I và sai lầm loại II Khi thực hiện một mô hình phân loại nợ mục tiêucủa chúng ta là tìm ra những hồ sơ nợ xấu Một kết luận từ mô hình có thé rơivào 2 trạng thái sai lầm: nhận định một hồ sơ xấu là tốt - loại I, hoặc trái lại, coimột hồ sơ tốt là xấu - loại II
Tác hại của sai lầm loại I sẽ lớn hơn sai lầm loại II bởi ảnh hưởng do hồ
sơ xấu gây là lớn hơn nhiều so với việc bạn kiếm được một hồ sơ tốt
Nếu chúng ta chấp nhận một tỷ lệ dự báo đúng hồ sơ tốt cao hơn thì chúng
ta sẽ phải hạ thấp ngưỡng (threshold) xác định loại hồ sơ (mặc định là 0.5) Điềunày dẫn đến các hồ sơ xấu có khả năng bị nhận định là hồ sơ tốt cao hơn Điềunày cho thấy luôn có sự đánh đổi giữa tỷ lệ true positive rate va false positiverate Một mô hình phân loại tốt là mô hình mà ở các threshold ta phân loại đượcnhiều nhất các hồ sơ tốt nhưng chỉ phải chấp nhận một lượng rất nhỏ các hồ sơ
xấu Các mô hình như vậy đều có chung một tính chất, đó là đường cong ROC
lồi lên phía trên so với trục hoành ROC càng lồi mô hình càng phân loại tốt và
trái lại.
ROC là đường cong biểu diễn khả năng phân loại của một mô hình phân
loại tại các ngưỡng threshold Đường cong này dựa trên hai chỉ số :
-TPR (true positive rate): Hay còn gọi là recall hoặc sensitivity Là ty lệ
các trường hợp phân loại đúng positive trên tổng số các trường hợp thực tế làpositive Chỉ số này sẽ đánh giá mức độ dự báo chính xác của mô hình trênpositive Khi giá trị của nó càng cao, mô hình dự báo càng tốt trên nhómpositive Nếu TPR=0.9, chúng ta tin rằng 90% các mẫu thuộc nhóm positive đã
được mô hình phân loại đúng.
11172896- Nguyễn Thành Luân 19
Trang 27Chuyên đề thực tập chuyên ngành Toán Kinh Tế
là negative Một mô hình có FPR càng thấp thì mô hình càng chuẩn xác vì sai số
của nó trên nhóm negative càng thấp Phần bù của FPR là specificity đo lường tỷ
lệ dự báo đúng các trường hop negative trên tong số các trường hợp thực tế là
True positive fraction
False positive fraction False positive fraction
Hình 3: Đường cong ROC va AUC
AUC là chi số được tính toán dựa trên đường cong ROC (receivingoperating curve) nhằm đánh giá khả năng phân loại của mô hình tốt như thế nào
Phần diện tích gạch chéo nằm dưới đường cong ROC và trên trục hoành là
AUC (area under curve) có giá tri nam trong khoang [0, 1] Khi dién tich nay
càng lớn thì đường cong ROC có xu hướng tiệm cận đường thang y=1 va kha
năng phân loại của mô hình càng tốt Khi đường cong ROC nằm sát với đường
chéo di qua hai điểm (0, 0) và (1, 1), mô hình sẽ tương đương với một phân loại
ngau nhiên
11172896- Nguyễn Thành Luân 20
Trang 28Chuyên đề thực tập chuyên ngành Toán Kinh Tế
TÓM TẮT CHƯƠNG 1
Qua chương 2, chúng ta đã đi qua những khái niệm, lý thuyết cơ bản về
nợ xấu Tầm quan trọng của Machine Learning trong đời sống, đặc biệt là ngành
ngân hàng như thế nào Chúng ta cũng đã biết được ưu, nhược điểm của các
nghiên cứu trước đây thông qua việc tổng quan, xem xét lại những bài nghiên
cứu nồi trội trong những năm gan đây Mặt khác, trong những năm gan đây, môhình Neural network nổi lên là một trong những mô hình dự báo với độ chínhxác cao nhất Việc hiểu ban chất, cau trúc và cách hoạt động của mô hình là mộtphần rất quan trọng trong bài nghiên cứu này
Ta cũng đã có những kiến thức nhất định về các độ đo thường được sửdụng để đánh giá hiệu quả của một mô hình phân loại tín dụng, hiểu được bản
chất của các độ đo này là một việc rất quan trọng trong việc đánh giá 2 mô hình
của bài nghiên cứu.
Tiếp theo, chúng ta đi đến một trong những phần chính của bài nghiên
cứu, đó là thực trang di liệu của bài nghiên cứu Qua đó, có những xử lý cầnthiết dé mô hình đạt hiệu quả cao nhất Những phương pháp như kiểm tra dữ liệuMissing, xử lý giá trị Oulier, phân tích các nhân tố ảnh hưởng đến biến phụ thuộc
là không thé thiếu trong quá trình Data Processing
11172896- Nguyễn Thành Luân 21
Trang 29Chuyên đề thực tập chuyên ngành Toán Kinh Tế
CHƯƠNG 2: THỰC TRẠNG DỮ LIỆU NGHIÊN CỨU VÀ
XỬ LÝ DỮ LIỆU
2.1 Thực Trạng Dữ Liệu
Như đã nói phần phạm vi nghiên cứu, dữ liệu trong bài nghiên cứu được
tham khảo từ ngân hàng TMCP An Bình Chi Nhánh Ba Dinh Em cũng đã có
chỉnh sửa bằng việc thêm, bớt một vài biến không phù hợp để tạo ra mộtdatabase phù hợp nhất Bộ dữ liệu trong bài nghiên cứu bao gồm 1000 hồ sơ tíndụng được ngân hàng cấp phép cho vay và không cấp phép Đánh giá dựa trên 41tiêu chí riêng ( biến độc lâp), và một biến phụ thuộc là biến Target- nhận giá trị0: hồ sơ đầy đủ tiêu chí được cấp khoản vay, và nhận giá trị 1: hồ sơ không được
cấp phép vay
Bảng dưới thê hiện kí hiệu biến và loại dữ liệu biếnTên Biến KíHiệu |Kiêu dit liệu biến
TARGET Y Dạng nhị phân
CONTRACT XI Biến định danh
GENDER X2 Biến định danh
CAR X3 Biến định lượng
REALTY X4 Biến định danh
CHILDREN X5 Biến định lượng
INCOME X6 Biến định lượng
CREDIT X7 Biến định lượng
ANNUITY X§ Biến định lượng
GOODS_CONSUME X9 Biến định lượng
TYPE_SUITE X10 Bién dinh danh
INCOME_TYPE X11 Bién dinh danh
EDUCATION X12 Bién dinh danh
FAMILY_STATUS X13 Bién dinh danh
HOUSING x14 Bién dinh danh
REGION_POPULATION X15 Biến định lượng
DAYS_BIRTH X16 Biến định lượng
DAYS_EMPLOYED X17 Biến định lượng
DAYS_REGISTRATION X18 Biến định lượng
DAYS_ID_PUBLISH XI9 Biến định lượng
11172896- Nguyễn Thành Luân 22