1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng

68 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH

-PHƯƠNG PHÁP ƯỚC LƯỢNG LASSO: CƠ SỞ TOÁN HỌC VÀ ỨNG DỤNG

ĐỀ TÀI KHOA HỌC CẤP CƠ SỞ

Người thực hiện: Bùi Thị Thiện Mỹ

Trần Thị Thu Hương Nguyễn Thị Yến

TP HỒ CHÍ MINH – 2021

Trang 2

3 Đối tượng và phạm vi nghiên cứu 3

4 Phương pháp nghiên cứu 4

5 Những đóng góp mới của đề tài 4

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP LASSO 5

1.1 Các kiến thức liên quan 5

1.1.1 Hàm lồi và các tính chất 5

1.1.2 Điều kiện cần và đủ để hàm lồi đạt cực tiểu 6

1.2 Phương pháp Lasso cho mô hình hồi quy tuyến tính 7

1.2.1 Bài toán tổng quát 7

1.2.2 Cơ sở toán học của phương pháp Lasso 9

1.2.3 Thuật toán tìm ước lượng Lasso 10

1.3 Phương pháp Lasso cho bài toán phân loại 14

1.3.1 Mô hình hồi quy Logistic (LR) 14

1.3.2 Mô hình hồi quy Lasso-Logistic (LL) 15

CHƯƠNG 2 ỨNG DỤNG LASSO TRÊN BÀI TOÁN HỒI QUY 18

2.1 Mô hình nghiên cứu và các biến 18

2.2 Quy trình tính toán 20

2.3 Kết quả tính toán 21

2.4 Kết luận 25

Trang 3

CHƯƠNG 3 ỨNG DỤNG LASSO TRÊN BÀI TOÁN PHÂN LOẠI 26

3.1 Giới thiệu 26

3.2 Khung phân tích vấn đề xây dựng mô hình đánh giá tín dụng 27

3.2.1 Khái niệm đánh giá tín dụng 27

3.2.2 Các yếu tố đầu vào 28

3.3 Các phương pháp thống kê trong xây dựng mô hình đánh giá tín dụng 293.3.1 Các phương pháp thống kê truyền thống 29

3.3.2 Các mô hình học máy trong đánh giá tín dụng 31

3.4 Vấn đề mất cân bằng dữ liệu trong bài toán phân loại 32

3.4.1 Phương pháp CSL 33

3.4.2 Các kỹ thuật tái chọn mẫu 33

3 5 Mô hình đánh giá tín dụng SMOTE-Lasso-Logistic 35

Quy trình thực hiện mô hình SMOTE-Lasso-Logistic 35

3.6 Kết quả thực nghiệm 36

3.6.1 Dữ liệu thực nghiệm 36

3.6.2 Các độ đo đánh giá hiệu quả của mô hình 37

3.6.3 Hiệu quả mô hình SMOTE-Lasso-Logistic 39

Trang 4

DANH MỤC BẢNG BIỂU

Bảng 1 Thuật toán giảm chiều 12

Bảng 2 Thuật toán giảm chiều theo quỹ đạo 13

Bảng 3 Các biến giải thích trong mô hình 19

Bảng 4 Thống kê mô tả các biến 19

Bảng 5 Kết quả ước lượng bằng phương pháp Lasso với tốt nhất 22

Bảng 6 So sánh MSE từ Lasso với tốt nhất và OLS trên tập kiểm tra 23

Bảng 7 Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO 28Bảng 8 Thuật toán SMOTE(T, k, r) 34

Bảng 9 Quy trình thực hiện mô hình SMOTE-Lasso-Logistic 35

Bảng 10 Ma trận nhầm lẫn trong đánh giá tín dụng 37

Bảng 11 Kết quả ước lượng mô hình SMOTE-Lasso-Logistic 40

Bảng 12 Ma trận nhầm lẫn với ngưỡng 63.35% trên tập kiểm tra 42

Bảng 13 Các độ đo hiệu quả của SMOTE-Lasso-Logistic trên tập kiểm tra 42

Bảng 14 Giá trị AUC và KS của các mô hình LL, LR, DT kết hợp các kỹ thuật lấy mẫu 43

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1 Đồ thị hàm lồi (a) và không lồi (b) 5

Hình 2 Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge 9

Hình 3 Đồ thị của toán tử biên mềm 11

Hình 4 Sự biến thiên của các ước lượng hệ số theo 21

Hình 5 Sự biến thiên của CVM theo lambda 22

Hình 6 Biểu đồ của mô hình (2.1) 24

Hình 7 Biểu đồ của mô hình (2.2) 25

Hình 8 Minh họa mô hình Cây quyết định 32

Hình 9 Minh họa đường cong ROC và AUC 39

Trang 6

PHẦN MỞ ĐẦU 1 Lý do chọn đề tài

Ngày nay, trong lĩnh vực kinh tế, tài chính và quản trị, các nghiên cứu được thực hiện thông qua phân tích dữ liệu và mô hình ngày càng phổ biến Kết quả các nghiên cứu bằng phương pháp định lượng này bị ảnh hưởng bởi các yếu tố đầu vào như độ tin cậy của dữ liệu, tần suất lấy dữ liệu, các biến số trong mô hình, định dạng mô hình… Trong đó, lựa chọn biến số có liên quan là vấn đề quan trọng hàng đầu, đặc biệt đối với bài toán hồi quy (regression) và bài toán phân loại (classification) Lựa chọn biến (variable selection) được hiểu là lựa chọn tập con gồm các biến tốt nhất cho mô hình

Xét mô hình thống kê như sau:

( ) với ( ) (1) Ký hiệu: ̂ ̂( ) là ước lượng của Khi đó, trung bình bình phương sai số ước lượng (mean squared error) của mô hình được phân tích thành: độ chệch (biasness), phương sai (variance) và sai số (Hastie, Tibshirani & Friedman, 2017)

( ̂) [ ( ) ̂( )]

, ( ̂( ) ( )- , ( ) ( ̂( )- ( ) Độ chệch Phương sai Phương sai sai số

Trong đó, thành phần sai số là thành phần không thể tránh khỏi trong mọi mô hình Thành phần độ chệch và phương sai phụ thuộc vào sự phức tạp của mô hình Khi mô hình có ít biến giải thích, ̂( ) có độ chệch lớn và phương sai nhỏ Ngược lại, khi mô hình nhiều biến giải thích, tính phức tạp vì thế tăng lên, ̂( ) có độ chệch nhỏ nhưng phương sai lớn Ý tưởng lựa chọn biến nhằm tối ưu hóa sự đánh đổi giữa độ chệch và phương sai của ̂( ) Các phương pháp thường được sử

dụng trong lựa chọn biến là Chọn lựa tập con tốt nhất (The best subset selection),

Tiếp cận từng bước (Stepwise approach) và Lasso (Roncalli, 2020)

Trang 7

Phương pháp ước lượng Lasso (The Least Absolute Shrinkage and Selection Operator) là một trong những phương pháp chọn biến được sử dụng rộng rãi trong lĩnh vực học máy (Tibshirani, 1996) Nội dung của phương pháp Lasso như sau:

Tìm ước lượng ̂ ̂( ) ( ̂ ) sao cho:

{ ̂ { ( ̂ )/}

‖ ̂‖ (2) Trong đó:

 ( ) là tham số của mô hình; ̂ ( ̂ ̂ ) là

ước lượng của β

 ( ̂ )/ là hàm tổn thất trong quy trình thực hiện ước lượng tham

Chọn lựa tập con tốt nhất và có thể sử dụng trong trường hợp kích thước mẫu bé

hơn số biến giải thích của mô hình (Hastie & ctg, 2017)

Mặt khác, với xu hướng xét lại các thủ tục kiểm định giả thuyết thống kê, các công cụ phân tích cổ điển như mô hình hồi quy tuyến tính sử dụng phương pháp ước lượng OLS (Ordinary Least Squares, OLS), mô hình hồi quy Logistic đang đứng trước những thách thức vì nếu không sử dụng p-value (hoặc các thủ tục kiểm định giả thuyết thống kê), không thể trả lời được câu hỏi thường gặp nhất

Trang 8

trong quá trình phân tích mô hình: “Những biến độc lập nào là quan trọng nhất, thể hiện sự ảnh hưởng mạnh lên biến phụ thuộc trong mô hình hồi quy?” Khi đó,

phương pháp Cách tiếp cận từng bước không thể được sử dụng Phương pháp ước

lượng Lasso là một lựa chọn thay thế hợp lý nhất

Gần đây, một số nghiên cứu thuộc lĩnh vực kinh tế, tài chính, ngân hàng đã áp dụng Lasso và đạt được một số kết quả đáng lưu ý (Bui & Nguyen, 2021; Nguyễn Đức Trung, Lê Hoàng Anh, Đinh Thị Phương Anh, 2021) Tuy vậy, các nghiên cứu này chỉ dừng lại ở mức độ ứng dụng Lasso trên bài toán hồi quy Một khung kiến thức cơ sở toán học của Lasso chưa được trình bày một cách chặt chẽ Bên cạnh đó, phương pháp Lasso còn có thể được ứng dụng trong bài toán phân loại Hiện tại chưa có nghiên cứu thực nghiệm tại Việt Nam áp dụng Lasso cho bài toán phân loại Nghiên cứu sẽ cung cấp một khung phân tích về cơ sở toán học, phương pháp tính toán và tình huống thực nghiệm áp dụng Lasso trong lĩnh vực tài chính, ngân hàng cho bài toán hồi quy và phân loại Nghiên cứu đồng thời so sánh Lasso với phương pháp ước lượng OLS trong bài toán hồi quy; so sánh mô hình Lasso-Logistic với mô hình hồi quy Logistic trong bài toán phân loại

2 Mục đích nghiên cứu

Nghiên cứu được thực hiện nhằm các mục đích sau:

 Giới thiệu một khung lý thuyết về phương pháp ước lượng Lasso

 Giới thiệu các tình huống thực nghiệm với bộ dữ liệu Việt Nam bằng cách áp dụng phương pháp ước lượng Lasso Qua đó, chứng minh khả năng cải thiện dự báo của Lasso so với phương pháp ước lượng OLS trong bài toán hồi quy và so với mô hình hồi quy Logistic trong bài toán phân loại

3 Đối tƣợng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Cơ sở lý thuyết và ứng dụng của phương pháp ước

lượng Lasso trong bài toán hồi quy và phân loại

Phạm vi nghiên cứu:

Trang 9

 Cơ sở toán học cho lời giải của phương pháp Lasso, các thuật toán tìm lời giải Lasso, tính chất của các ước lượng từ phương pháp Lasso

 Ứng dụng Lasso trong lĩnh vực Tài chính – Ngân hàng trên bài toán hồi quy và phân loại

4 Phương pháp nghiên cứu

 Nghiên cứu sử dụng phương pháp phân tích, tổng hợp các tài liệu (sách, bài báo) có liên quan đến phương pháp ước lượng Lasso để rút ra những vấn đề liên quan như: Thuật toán tìm ước lượng Lasso, cơ sở toán học của thuật toán, các tính chất của ước lượng Lasso

 Đối với nội dung ứng dụng Lasso, nghiên cứu sử dụng phương pháp định lượng với các mô hình phân tích hồi quy, mô hình phân loại dữ liệu Các ước lượng mô hình được thực hiện trên ngôn ngữ lập trình R

5 Những đóng góp mới của đề tài

Phổ biến một phương pháp chọn biến của mô hình hồi quy và phân loại trong phân tích kinh tế, tài chính, ngân hàng Phương pháp này vừa có khả năng xây dựng một mô hình đơn giản, ít biến giải thích, đồng thời có thể cải thiện khả năng dự báo so với các phương pháp truyền thống

Thông qua ví dụ ứng dụng Lasso cho bài toán phân loại, nghiên cứu đề xuất một mô hình đánh giá tín dụng có hiệu quả cao hơn các phương pháp phân loại phổ biến

Trang 10

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP LASSO 1.1 Các kiến thức liên quan

Nếu với mọi bất đẳng thức trong định nghĩa trên là dấu bất đẳng thức chặt (<) thì hàm số được gọi là lồi chặt

Hình 1 Đồ thị hàm lồi (a) và không lồi (b)

Nguồn: Hastie & ctg (2017)

Hình 1 minh họa đồ thị hàm lồi (a) và không lồi (b) Theo định nghĩa hàm lồi, mọi đoạn thẳng nối hai điểm ( ( )) ( ( )) luôn nằm trên hoặc trùng với phần đồ thị hàm số trên khoảng ( ) Hơn nữa, nếu đường thẳng nối ( ( )) ( ( )) luôn nằm trên thì hàm số là lồi chặt Đồ thị (a) là đồ thị của một hàm lồi chặt

Ví dụ 1: Trên , các hàm ( ) ( ) | | là hàm lồi Trong đó, ( ) là hàm lồi chặt; ( ) | | là hàm lồi nhưng không chặt

Trang 11

Ví dụ 2: Trên , các chuẩn là những hàm lồi, trong đó chuẩn Euclide là hàm lồi chặt, chuẩn là hàm lồi không chặt

1.1.2 Điều kiện cần và đủ để hàm lồi đạt cực tiểu

Các kiến thức về tối ưu lồi sau đây bỏ qua phần chứng minh, mọi chi tiết có thể được tham khảo qua các tài liệu về tối ưu lồi (Bertsekas, Nedic & Ozdaglar, 2003; Boyd & Vanderberghe, 2004)

Nhắc lại một số khái niệm và tính chất:

* Gradient (bậc nhất) của hàm số thực biến tại kí hiệu là ( ), được định nghĩa như sau:

( ) (

( )

( )) với

( ) là đạo hàm riêng của theo biến tại

* Subgradient của hàm số thực biến tại là vectơ thoả: ( ) ( ) 〈 〉

Với 〈 〉 là ký hiệu tích vô hướng của Tập tất cả các subgradient của tại là một tập lồi trên , ký hiệu là ( ) Khi hàm số khả vi tại thì ( ) * ( )+

Ví dụ: Xét hàm số ( ) | |, khi đó:

( ) {

* + nếu * + nếu , - nếu

Ta thường dùng kí hiệu ( ) để chỉ ( ) của hàm giá trị tuyệt đối của

* Tính chất cực tiểu của hàm lồi Giả sử là một hàm lồi, nếu đạt cực tiểu địa phương tại thì là điểm cực tiểu toàn cục của Nếu là hàm lồi chặt và có cực tiểu thì điểm cực tiểu là toàn cục và duy nhất

Trang 12

* Điều kiện cần và đủ của cực tiểu toàn cục Xét hàm lồi và tập ràng buộc đối với biến số là tập lồi Xét bài toán tối ưu: ( ) sao cho

i) Giả sử khả vi tại Điều kiện cần và đủ để là điểm cực tiểu toàn cục của trên là 〈 ( )

Trường hợp , bài toán trở thành tối ưu không có điều kiện ràng buộc Khi đó, điều kiện cần và đủ để là điểm cực tiểu toàn cục của là ( )

ii) Xét và không khả vi tại , điều kiện cần và đủ để là điểm cực tiểu toàn cục của là ( )

1.2 Phương pháp Lasso cho mô hình hồi quy tuyến tính

1.2.1 Bài toán tổng quát

Xét mô hình hồi quy tổng thể có dạng:

(3) Trong đó là biến được giải thích (biến phụ thuộc), ( ) là các biến giải thích (biến độc lập), là sai số ngẫu nhiên với kỳ vọng bằng 0

Một số ký hiệu sử dụng ngôn ngữ vector – ma trận được sử dụng trong bài viết như sau

 ‖ ‖ ∑ | | ‖ ‖ (∑ ) ⁄ với và (‖ ‖ ‖ ‖ là chuẩn và chuẩn Euclide trên không gian metric );

 ( ) là vectơ biến phụ thuộc, ( ) ;

Trang 13

{

‖ ̂ ‖ } với điều kiện ‖ ̂‖ (5) Trong bài toán (2) và (5), giá trị được gọi là tham số điều chỉnh Khi giá trị đủ lớn, điều kiện ràng buộc về độ lớn các tham số không quá chặt, các ước lượng ̂ thu được từ bài toán (5) trùng với các ước lượng ̂ thu được từ bài toán (4) Ngược lại, khi giá trị gần 0, các ước lượng ̂ rất bé và do ràng buộc bởi chuẩn ‖ ‖ nên một số ước lượng nhận giá trị bằng 0

Để thuận tiện trong kí hiệu và việc so sánh các tham số của mô hình, các biến giải thích được chuẩn hóa theo công thức sau:

̅

( ) (6) với ̅ ∑ ; ( ) √

∑ ( ̅ )

Hơn nữa, giả sử biến được giải thích có trung bình bằng 0 Khi đó, tham số và ta có thể bỏ tham số ra khỏi mô hình (3) Từ đây trở về sau, trong khuôn khổ của nghiên cứu này, ta sẽ xét bài toán (5) với giả thiết các biến được chuẩn hóa (tức là các biến giải thích có trung bình bằng 0, phương sai bằng 1; biến được giải thích có trung bình bằng 0) Khi đó, bài toán (5) trở thành:

{

‖ ̂ ‖ } với điều kiện ‖ ̂‖ (7) Ta sẽ so sánh bài toán (7) và bài toán ước lượng Ridge để hiểu lí do chọn ràng buộc các tham số với chuẩn mà không phải là chuẩn Euclide:

Trang 14

Bài toán ước lượng Ridge:

{

‖ ̂ ‖ } với điều kiện ‖ ̂‖ (8) Các hàm mục tiêu trong bài toán (7) và (8) giống nhau, tuy nhiên điều kiện ràng buộc của hai bài toán khác nhau Hình 2 minh họa kết quả ước lượng từ Lasso và Ridge cho trường hợp Phần diện tích màu xanh là miền phẳng xác định bởi điều kiện | | | | (trái) và (phải) Cả hai phương pháp đều mong muốn tìm giao điểm đầu tiên của các đường elip (là đồ thị của hàm mục tiêu) với miền giới hạn Với miền giới hạn là đa giác có các góc nằm trên các trục tọa độ, nhiều khả năng giao điểm sẽ rơi vào các góc này, khi đó sẽ có một tham số bằng 0 Điều này không thể xảy ra khi miền giới hạn là hình tròn Do đó, bài toán (8) sẽ cho kết quả các ước lượng khác 0 Khi , miền giới hạn ở phương pháp Lasso sẽ có nhiều góc, cạnh phẳng và mặt, vì thế nhiều khả năng cho kết quả ước lượng bằng 0 hơn (Hastie, Tibshirani & Friedman, 2017)

Nguồn: Hastie & ctg (2017)

1.2.2 Cơ sở toán học của phương pháp Lasso

Đặt ( )

‖ ‖ và ( ) ‖ ‖ Khi đó ( ) ( ) là các hàm lồi và liên tục trên ; hơn nữa tập ràng buộc * | ( ) + là tập

Hình 2 Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge

Trang 15

lồi, đóng và bị chặn trên Theo các kết quả tối ưu lồi, bài toán (7) tồn tại lời giải và có thể đưa về bài toán tương đương như sau:

{

‖ ̂ ‖ ‖ ̂‖ } với (9) Trong bài toán (9), tham số được gọi là mức phạt của mô hình Khi đủ

lớn, tất cả các giá trị ước lượng của từ (9) bằng 0 Khi bé, chỉ một vài giá trị ̂bằng 0, tương ứng với một số biến giải thích bị loại khỏi mô hình (3) Tham số tương ứng một-một với tham số điều chỉnh trong (7) Với mỗi tham số điều chỉnh , ta có thể xác định duy nhất giá trị sao cho ‖ ̂‖ Ngược lại, với mỗi tham số tham số điều chỉnh được xác định bởi ‖ ̂ ‖

Bài toán (9) là bài toán tối ưu lồi không ràng buộc, với hàm mục tiêu là

‖ ̂ ‖ ‖ ̂‖ ( ̂) ( ̂)

Tuy nhiên, hàm mục tiêu này không khả vi tại những điểm có ít nhất một ̂ Theo tính chất cực tiểu của hàm lồi, điều kiện cần và đủ để ̂ là điểm cực tiểu toàn cục của ( ̂) ( ̂) là :

( ̂ ) ( ̂ ) hay ( ̂ ) (10) Trong đó vectơ thỏa mãn ( ̂ )với mọi

1.2.3 Thuật toán tìm ước lượng Lasso

Trong nhiều thuật toán tìm lời giải cho bài toán (9), thuật toán giảm chiều

(Coordinate descent, CD) là thuật toán tuy đơn giản nhưng rất hiệu quả

1.2.3.1 Trường hợp hồi quy đơn

Bài toán (9) được phát biểu như sau: Từ mẫu * + , cần tìm ̂ sao cho:

{

∑ ( ̂) | ̂|} với (11) Từ điều kiện cần và đủ được cho bởi (10), nghiệm của (11) được xác định như sau:

Trang 16

∑ ( )( ̂) ̂ 〈 〉 (với ( ̂)) Như vậy:

̂

〈 〉 nếu 〈 〉 nếu | 〈 〉|

〈 〉 nếu 〈 〉

Nếu đặt ( ) ( )(| | ) ( ( ) được gọi là toán tử biên mềm)

thì kết quả ước lượng trên có thể viết như sau:

̂ ( 〈 〉) (12) Lưu ý rằng ̃ 〈 〉 là kết quả ước lượng mô hình (3) bằng phương pháp OLS

Hình 3 Đồ thị của toán tử biên mềm

Nguồn: Hastie & ctg (2017)

Hình 3 minh họa đồ thị của toán tử biên mềm ( ) Khi thì ( ) Tuy nhiên, khi thì | ( )| | | Nói cách khác toán tử ( ) co độ lớn của về 0 Theo công thức (11), có thể cho rằng trường hợp hồi quy đơn, phương pháp Lasso đã co độ lớn của các ước lượng OLS về 0

1.2.3.2 Trường hợp hồi quy bội

Ý tưởng của thuật toán giảm chiều trong trường hợp hồi quy bội như sau: Lần lượt áp dụng thuật toán giảm chiều, tìm cực tiểu hàm mục tiêu theo một biến

Trang 17

giải thích và giữ không đổi các biến giải thích còn lại Cụ thể, hàm mục tiêu trong bài toán (6) được viết lại:

̂ ( 〈 ( ) 〉) (14) Quá trình cứ thế được lặp lại tuần tự trên các tham số khác cho đến khi hàm mục tiêu đạt cực tiểu toàn cục

Bảng 1 Thuật toán giảm chiều

Dữ liệu vào Mẫu {( )}

, và

Bước 1 Gán và ̂ ( ̂ ̂ ) ( ) Bước 2 Tính ( ) ∑ ̂

Bước 3 Tính ̂ 〈 ( ) 〉/

Bước 4

+ Tính giá trị hàm mục tiêu:

∑ ( ∑ ̂ ) ∑ | ̂ | + tăng thêm 1 đơn vị

Bước 5 Lặp lại từ bước 2 đến bước 4 cho đến khi thì dừng Bước 6 Trả về ̂ ( ̂ ̂ ) tương ứng với { }

Dữ liệu ra ̂ ( ̂ ̂ ) sao cho thỏa mãn (9)

Nguồn: Hastie & ctg (2017)

Trang 18

Bảng 2 Thuật toán Giảm chiều theo quỹ đạo

Dữ liệu vào Mẫu {( )}

1.4

+ Tính giá trị hàm mục tiêu:

∑ ( ∑ ̂ ) ∑ | ̂ |

+ j tăng thêm 1 đơn vị.

1.5 Lặp lại từ Bước 1.2 đến Bước 1.5 cho đến khi Bước 2 + giảm 1 đơn vị

+ Lặp lại Bước 1 cho đến khi Bước 3 Trả về ( ̂ ) tương ứng với { }

Dữ liệu ra ( ̂ ) ( ̂ ̂ ) sao cho thỏa mãn (9).

Nguồn: Hastie & ctg (2017)

Trong thực hành, việc tìm lời giải cho phương pháp ước lượng Lasso thực hiện trên một tập các giá trị của thay vì tại một giá trị đơn lẻ Ban đầu, thuật toán giảm chiều áp dụng với đủ lớn (thường chọn | 〈 〉|), kết quả nhận được là ̂ * + Sau đó giảm giá trị một lượng nhỏ định trước, tiếp tục áp dụng thuật toán giảm chiều với tương ứng; kết quả ước lượng ̂ ở bước trước đó được xem như là giá trị khởi đầu của các tham số ̂ ở bước kế tiếp Quá trình cứ thế tiếp tục cho đến khi bài toán (7) đạt cực tiểu toàn cục

Trang 19

tại ( ̂ ) Thuật toán vừa trình bày được gọi là Giảm chiều theo quỹ đạo (Pathwise Coordinate Descent) Các thuật toán được tóm tắt ở Bảng 1 và 2

Nhận xét: Thuật toán ở Bảng 1 và 2 cho thấy phương pháp Lasso có thể áp

dụng cho các trường hợp kích thước mẫu bé hơn số biến giải thích trong mô hình ( )

1.3 Phương pháp Lasso cho bài toán phân loại

Không mất tính tổng quát, ở mục này, ta xét bài toán phân loại nhị phân (các bài toán phân loại đa nhãn đều có thể được đưa về phân loại nhị phân) Mô hình hồi quy Logistic đã được ứng dụng từ rất lâu để giải quyết bài toán phân loại dữ liệu Ý tưởng của phương pháp Lasso (1) có thể áp dụng cho mô hình hồi quy Logistic, với hàm tổn thất là hàm âm log-likelihood Mục này nhắc lại mô hình hồi quy Logistic và giới thiệu phương pháp Lasso cho mô hình hồi quy Logistic (sẽ được gọi là Lasso-Logistic)

1.3.1 Mô hình hồi quy Logistic (LR)

Giả sử dữ liệu gồm n quan sát *( )+ với * + là biến chỉ nhãn của quan sát thứ và là vector chỉ các biến giải thích, mô tả các đặc điểm

của quan sát thứ i Một quan sát có nhãn bằng được gọi là quan sát “dương tính”, ngược lại được gọi là “âm tính”

Một mô hình phân loại nhị phân là một ánh xạ * + Trong đó, *( ) | * + + là tập dữ liệu

Mô hình hồi quy Logistic (LR) giả sử rằng hàm mật độ xác suất có điều kiện khi nhận giá trị 1 có dạng:

( | )

( ) (15) trong đó:

 là ma trận cột chuyển vị của các vector biến giải thích ;

 ( ) ;

 và là các tham số cần ước lượng; ( )

là hàm sigmoid

Trang 20

LR tính toán các xác suất ( | ) với mọi * + và xếp quan sát vào nhóm tương ứng với xác suất lớn hơn Giả sử rằng các quan sát là độc lập, các tham số ( ) và được ước lượng bằng phương pháp hợp lý cực đại (Maximum Likelihood) với hàm mục tiêu là:

( ( | )) (∏ ( | )) ∑ ( ( | ) ∑ .

( )/ ∑ ( ( )) (16) Một quan sát mới ( ) được gán nhãn (hoặc ) nếu xác suất có điều kiện ( | ) (hoặc ( | )) lớn hơn Trong thực hành, xác suất có điều kiện ( | ) được so sánh với một ngưỡng cho trước Nếu ( | ) không bé hơn ngưỡng , được xếp vào lớp có nhãn " Ngược lại, nếu ( | ) bé hơn α, được xếp vào lớp có nhãn

1.3.2 Mô hình hồi quy Lasso-Logistic (LL)

Sử dụng các ký hiệu ở mục 1.3.1, giả định của mô hình LL là:

Trang 21

) bằng mô hình LR Giá trị tốt nhất của được chọn căn cứ vào các tiêu chuẩn AIC, BIC hoặc thủ tục Xác thực chéo

Lập luận tương tự trường hợp bài toán hồi quy tuyến tính, hàm mục tiêu ∑ ( ( ̂ )) ‖ ̂‖ ( ̂) ( ̂) là hàm lồi và ( ̂) là hàm khả vi Do đó, bài toán (18) tồn tại cực tiểu toàn cục Điểm cực tiểu ̂ được xác định như sau:

( ̂) ( ̂)

∑ ̂ ( ̂ )

với ( ̂)( ) (19) Giải hệ (19) bằng cách sử dụng phương pháp lặp Newton Hiện nay các phần mềm tính toán có thể dễ dàng giải hệ (19) bằng các gói chương trình có sẵn Ví dụ, đối với ngôn ngữ R, gói có thể giải quyết bài toán tìm ước lượng cho mô hình LL

1.4 Tính chất của ƣớc lƣợng Lasso

1.4.1 Bậc tự do

Xét mô hình (2), giả sử lời giải Lasso chỉ ra tập con gồm biến giải thích được chọn Nếu là trường hợp hồi quy tuyến tính thì bậc tự do của mô hình ước lượng ̂( ) là Trường hợp hồi quy Logistic, bậc tự do của mô hình lớn hơn Với tham số phạt cho trước, giá trị là ước lượng không chệch cho bậc tự do của mô hình ước lượng ̂( ) (Hastie & ctg, 2017)

1.4.2 Tính duy nhất

Ước lượng Lasso không là ước lượng duy nhất Nhận thấy ước lượng Lasso là điểm cực tiểu toàn cục của một hàm lồi không chặt, do đó có thể không là cực tiểu duy nhất Một số trường hợp Lasso cho kết quả ước lượng không duy nhất, ví dụ: các biến giải thích có tương quan tuyến tính hoàn hảo hoặc dữ liệu có biến định tính, được mã hóa bởi biến giả 0-1 Ngược lại, nếu dữ liệu được rút ra từ một phân phối xác suất liên tục thì ước lượng Lasso là duy nhất (Hastie & ctg,

Trang 22

2017) Ước lượng Lasso có thể không duy nhất nhưng kết quả dự báo dựa trên Lasso là duy nhất

1.4.3 Tính chệch

Các ước lượng Lasso là ước lượng chệch Chẳng hạn trường hợp , ước lượng Lasso có công thức tính là ̂ ( ̃) với ̃ là ước lượng OLS Giả sử rằng kỳ vọng có điều kiện của sai số ngẫu nhiên u ở mô hình (3) bằng 0 Khi đó, ̃ là

ước lượng không chệch: ( ̃) Với , ta có:

( ̂) ( ( ̃) ) ( ̃)(| ̃ | ) / ( ̃)( (| ̃ |) )

( ̃)(| | )

1.4.4 Tính vững

Xét mô hình hồi quy tuyến tính: ( ) và giả sử ̂ là ước lượng Lasso của mô hình gồm giá trị ước lượng ̂ khác không

Nếu thì ‖ ( ̂)‖ ‖ ‖ √ ( ) với xác suất rất lớn

Như vậy, nếu ‖ ‖ (√

( )) thì ước lượng Lasso là ước lượng vững Nói cách khác, nếu mô hình ( ) thật sự là mô hình thưa theo tỉ lệ

( ) thì ước lượng Lasso là ước lượng vững

Trang 23

CHƯƠNG 2 ỨNG DỤNG LASSO TRÊN BÀI TOÁN HỒI QUY

Chương này giới thiệu một nghiên cứu thực nghiệm với chủ đề “Sự ảnh

hưởng của các yếu tố nội tại đến khả năng sinh lợi của các ngân hàng thương mại cổ phần Việt Nam” Trong đó, phương pháp Lasso được sử dụng cho bài toán hồi

quy để xác định các yếu tố bên trong có ảnh hưởng mạnh đến khả năng sinh lợi của các ngân hàng thương mại cổ phần Việt Nam Đồng thời, nghiên cứu thực hiện ước lượng bằng phương pháp OLS và so sánh với kết quả của phương pháp Lasso

2.1 Mô hình nghiên cứu và các biến

Nghiên cứu sử dụng ROA – suất sinh lợi trên tổng tài sản và ROE – suất sinh lợi trên vốn chủ sở hữu để đo lường khả năng sinh lợi của các ngân hàng Các yếu tố nội tại của ngân hàng được xem xét dựa trên các nghiên cứu đã thực hiện tại các nền kinh tế khác nhau Bảng 3 giới thiệu các biến giải thích của mô hình, thể hiện các yếu tố nội tại của ngân hàng, cách tính toán và cơ sở đề xuất Dữ liệu được tổng hợp từ các báo cáo tài chính và báo cáo thường niên của mười ngân hàng thương mại cổ phần niêm yết Việt Nam trong giai đoạn 2009 – 2019 Các ngân hàng được chọn trong mẫu nghiên cứu bao gồm: Vietcombank, Vietinbank, BIDV,

ACB, Eximbank, MB, NCB, Sacombank, SHB và VP Mô hình nghiên cứu

( )

( )

Trang 24

Bảng 3 Các biến giải thích trong mô hình

TT Yếu tố nội tại

Biến giải thích

xuất

1 Quy mô ngân hàng

SIZE Logarit tự nhiên tổng tài sản ngân hàng

(Abdul Rahman & Md Reja, 2015; Isik et al., 2018; Lin & Zhang, 2009; Swai & Mbogela, 2014) 2 EQU Tỷ lệ tăng trưởng vốn chủ sở hữu

3 Cấu trúc sở hữu

STATE Tỷ lệ sở hữu cổ phần của nhà nước 4 FOR Tỷ lệ sở hữu cổ phần của nước ngoài

5

Rủi ro tín dụng

CRE

Tỷ lệ dự phòng rủi ro tín dụng/dư nợ cho vay khách hàng và cho thuê tài chính

6 LDR Tỷ lệ cho vay khách hàng/tiền gởi khách hàng

7 LOAN Tỷ lệ cho vay/tổng tài sản 8 Đòn bẩy tài

chính FLE Tỷ lệ nợ/tổng tài sản

Nguồn: Tác giả tổng hợp

Bảng 4 Thống kê mô tả các biến

Giá trị nhỏ nhất 0.01 0.07 16.74 -7.16 -1.01 34.86 58.53 79.60 0.00 0.00 Giá trị lớn nhất 2.54 27.73 21.12 104.27 5.41 74.37 138.01 95.94 30.00 100.00 Khoảng biến thiên 2.53 27.66 4.38 111.43 6.42 39.51 79.48 16.34 30.00 100.00 Trung vị 0.88 13.03 19.23 11.10 0.87 58.92 85.69 92.92 12.28 9.09 Trung bình 0.96 13.05 19.21 17.86 1.08 57.94 88.57 92.36 14.24 29.89 Độ lệch chuẩn 0.59 7.26 1.00 20.22 0.93 10.51 17.11 2.47 11.89 36.78

Nguồn: Tác giả

Trang 25

2.2 Quy trình tính toán

Nghiên cứu sử dụng phần mềm R thực hiện tính toán với quy trình như sau:

Bước 1 Chuẩn hóa dữ liệu các biến giải thích, đối với biến được giải thích

chỉ thực hiện biến đổi đưa về trung bình bằng 0 Xét tập giá trị của gồm 1000 giá trị cách đều nhau từ 10–4 đến 101

Bước 3 Vì dữ liệu mẫu là dữ liệu bảng, thực hiện ước lượng các mô hình

(2.1) và (2.2) bằng kỹ thuật hai chiều trong cùng nhóm (within estimator for the

two-way) để kiểm soát các ảnh hưởng của yếu tố thời gian và yếu tố cá biệt của mỗi ngân hàng Trên cơ sở đó, dùng thuật toán giảm chiều, thủ tục xác thực chéo để tìm tốt nhất và thực hiện phương pháp ước lượng Lasso với tốt nhất trên tập huấn luyện

Thủ tục xác thực chéo (Cross validation) là một trong những phương pháp

được sử dụng để tìm ước lượng tốt nhất cho Trong thủ tục xác thực chéo, tập dữ liệu được chia ngẫu nhiên làm tập con, kí hiệu Với mỗi giá trị , thủ tục xác thực chéo được thực hiện như sau: Xem là tập kiểm tra, tập còn lại là tập huấn luyện Áp dụng phương pháp Lasso trên tập huấn luyện này thu được mô hình ước lượng (fitted model) Sau đó, áp dụng mô hình ước lượng trên tập kiểm tra để dự báo giá trị của biến được giải thích và ghi nhận lại giá trị (Mean Squared Erorrs) Lần lượt thực hiện với Đặt là trung bình của các :

Như vậy, mỗi tương ứng với một Khi biến thiên trên một tập cho trước, giá trị tốt nhất là giá trị tương ứng với nhỏ nhất (Hastie & ctg, 2017)

Trang 26

Bước 4 Tính của các mô hình tương ứng với phương pháp ước lượng

Lasso và OLS trên tập kiểm tra

Bước 5 Thực hiện lặp lại 100 lần từ Bước 2 đến Bước 4 để so sánh

của các mô hình (2.1) và (2.2) tương ứng với phương pháp ước lượng Lasso và OLS trên tập kiểm tra

2.3 Kết quả tính toán

Bước 1: Chuẩn hóa dữ liệu các biến giải thích, đối với biến được giải thích

chỉ thực hiện biến đổi đưa về trung bình bằng 0

Bước 2 Tập huấn luyện và tập kiểm tra được phân chia ngẫu nhiên theo tỉ lệ

Tập kiểm tra gồm 22 quan sát với các quan sát thứ: 1, 2, 5, 7, 9, 17, 22, 25, 32, 35, 42, 51, 53, 56, 60, 75, 76, 80, 83, 91, 101, 102 Tập huấn luyện gồm 88 quan sát còn lại

Bước 3 Hình 4 minh họa sự biến thiên của các hệ số ước lượng trong các

mô hình (2.1) (trái) và mô hình (2.2) (phải) khi biến thiên trên tập

Hình 4 Sự biến thiên của các ước lượng hệ số theo

Nguồn: Tác giả

- Dùng thủ tục xác thực chéo với để tìm tốt nhất Hình 5 minh họa sự biến thiên của theo đối với mô hình (2.1) (trái) và mô hình (2.2) (phải) Mức phạt tốt nhất lần lượt đối với các mô hình (2.1) và (2.2) là

Trang 27

Các kết quả ước lượng theo hai phương pháp - Lasso (theo tốt nhất) và OLS của các mô hình (2.1), (2.2) đồng thời thể hiện ở Bảng 5 Đối với mô hình (2.1), biến chỉ thành phần sở hữu nhà nước STATE có ước lượng hệ số hồi quy bằng 0, do đó bị loại ra khỏi mô hình

Hình 5 Sự biến thiên của CVM theo lambda.

Nguồn: Tác giả

Bảng 5 Kết quả ước lượng bằng phương pháp Lasso với tốt nhất

Biến giải thích

Mô hình (2.1)

Mô hình (2.2) Lasso (λ=0.007707) OLS Lasso (λ=0.220467) OLS

Hệ số ước lượng Hệ số ước

lượng Thống kê t Hệ số ước lượng

Hệ số ước

lượng Thống kê t SIZE 0.2208 0.2687* 2.58 3.6685 4.5555*** 3.461 EQU 0.2068 0.2119*** 4.008 3.6699 3.8580*** 5.774 CRE 0.1753 0.1706** 3.333 1.0174 1.0006 1.547 LOAN -0.2507 -0.2848*** -4.171 -2.4018 -3.2745*** -3.794 LDR 0.1494 0.1654** 2.834 1.2249 1.6554* 2.245 FLE -0.1905 -0.2105** -3.22 0.0000 -0.2215 -0.268 FOR 0.0555 0.0495 0.658 0.0000 -0.0615 -0.07 STATE 0.0000 -0.0179 -0.25 0.0000 -0.2282 -0.252

Nguồn: Tác giả Ghi chú: Các ký hiệu * , **, *** lần lượt chỉ mức ý nghĩa thống kê 10%, 5%, và 1%

Trang 28

Đối với mô hình (2.2), các biến chỉ số đòn bẩy tài chính (FLE), thành phần sở hữu nhà nước (STATE) và thành phần sở hữu nước ngoài (FOR) bị loại ra khỏi mô hình

Bên cạnh đó, điểm tương đồng trong kết quả ước lượng của Lasso và OLS là hầu hết những hệ số có ước lượng Lasso bằng 0 thì không có ý nghĩa thống kê nếu suy diễn từ ước lượng OLS (trừ hệ số của biến FOR ở mô hình (2.1) và hệ số của biến LDR ở mô hình (2.2)) Mặt khác, ở mô hình (2.1), vì giá trị rất gần giá trị

0 nên kết quả ước lượng Lasso khá gần với kết quả ước lượng OLS

Bước 4 Để so sánh khả năng dự báo của phương pháp Lasso và OLS, ta so

sánh trên tập kiểm tra của các ước lượng mô hình (2.1) và (2.2) bằng hai phương pháp nói trên Kết quả ở Bảng 6 cho thấy của các mô hình được ước lượng bằng Lasso nhỏ hơn của các mô hình được ước lượng bằng OLS

Bảng 6 So sánh từ Lasso với tốt nhất và OLS trên tập kiểm tra

Trang 29

& Mbogela (2014) Bên cạnh đó, nhận thấy ở cả hai trường hợp (2.1) và (2.2), trên tập kiểm tra, của mô hình được ước lượng từ phương pháp Lasso nhỏ hơn từ OLS Tuy vậy, sự khác biệt của hai phương pháp ước lượng không quá lớn

Bước 5 Nhằm ước lượng các phân bố của , thực hiện lặp lại 100 lần từ

Bước 2 đến Bước 4, thu được của các mô hình từ các phương pháp Lasso và OLS Hình 6 và 7 mô tả trực quan phân bố mẫu của từ phương pháp ước lượng Lasso và OLS cho các mô hình (2.1) và (2.2)

Hình ảnh cho thấy rằng, đối với mô hình (2.1), phương pháp Lasso cho nhỏ hơn phương pháp OLS, tuy không đáng kể Đối với mô hình (2.2), từ hai phương pháp là như nhau Phân bố của từ hai phương pháp tương đối giống nhau ở cả hai mô hình

Hình 6 Biểu đồ của mô hình (2.1)

Nguồn: Tác giả

Trang 30

Hình 7 Biểu đồ của mô hình (2.2)

Nguồn: Tác giả

2.4 Kết luận

Chương 2 đã cung cấp ví dụ ứng dụng phương pháp Lasso trong phân tích hồi quy Có thể kết luận rằng phương pháp ước lượng Lasso là một điều chỉnh của phương pháp OLS với mục đích chính là co gọn mô hình Khi đó, mô hình co gọn này dễ diễn giải hơn vì xác định rõ các yếu tố có ảnh hưởng mạnh đến biến được giải thích Đây là ưu điểm vượt trội của phương pháp Lasso so với các phương pháp ước lượng OLS hay phương pháp ước lượng điều chỉnh Ridge Kết quả thực nghiệm trong nghiên cứu còn cho thấy rằng Lasso có thể cải thiện khả năng dự báo của mô hình Tuy nhiên, sự khác biệt giữa sai số của mô hình ước lượng bằng Lasso và OLS ở ví dụ ứng dụng này không đáng kể

Trang 31

CHƯƠNG 3 ỨNG DỤNG LASSO TRÊN BÀI TOÁN PHÂN LOẠI

Chương này giới thiệu ứng dụng phương pháp Lasso trong bài toán phân

loại qua tình huống thực nghiệm “Xây dựng mô hình đánh giá tín dụng”

Một mô hình đánh giá tín dụng tin cậy phải phát hiện đúng nhóm khách hàng xấu Điều này thường khó đạt được khi chênh lệch số phần tử hai nhóm khách hàng tốt - xấu là lớn Bên cạnh đó, mô hình đánh giá tín dụng cần chỉ rõ những đặc điểm quan trọng của khách hàng để dự báo khả năng vỡ nợ Nghiên cứu đề xuất một mô hình đánh giá tín dụng, được gọi là SMOTE-Lasso-Logistic Áp dụng kết hợp kỹ thuật tái chọn mẫu SMOTE và phương pháp Lasso trên mô hình hồi quy Logistic, mô hình SMOTE-Lasso-Logistic được kỳ vọng có thể giải quyết những vấn đề nói trên đồng thời đạt hiệu quả phân loại cao hơn các tiếp cận truyền thống như mô hình hồi quy Logistic và mô hình Cây phân loại

3.1 Giới thiệu

Đánh giá tín dụng hay chấm điểm tín dụng (Credit Scoring) là vấn đề rất được quan tâm trong các nền kinh tế hiện đại Mỗi cá nhân, các công ty, doanh nghiệp (từ đây sẽ gọi chung là khách hàng) được gán một mức điểm số hoặc thứ hạng tín dụng bởi các ngân hàng, các tổ chức cung cấp dịch vụ tín dụng (gọi chung là ngân hàng) Xếp hạng tín dụng nhằm đánh giá mức độ rủi ro của khoản cho vay, có ý nghĩa quan trọng đối với cả hai phía ngân hàng và khách hàng Đối với phía ngân hàng, đó là những thông tin giúp các ngân hàng phòng ngừa rủi ro tín dụng Một phân loại không chính xác với bản chất của khách hàng, ví dụ khách hàng tiềm ẩn nhiều rủi ro tín dụng lại được nhận diện là khách hàng tốt, có thể dẫn đến những tổn thất to lớn của ngân hàng (Abdou & Pointon, 2011) Đối với phía khách hàng, những hiểu biết về điểm số hoặc mức xếp hạng tín dụng của bản thân giúp họ có thể cải thiện các chỉ số đánh giá tín dụng, nhờ đó có thể tiếp cận các khoản vay với lãi suất và thời hạn hợp lý Tại các nền kinh tế phát triển, mức xếp hạng tín dụng cao không những giúp khách hàng thuận lợi tiếp cận nguồn vốn ngân hàng mà còn là một trong những yếu tố thể hiện ở hồ sơ xin việc làm, đơn xin nhập học cho con cái, các giao dịch mua bán trả góp… Có thể cho rằng công tác đánh giá tín dụng đã

Trang 32

góp phần ngăn ngừa tổn thất cho xã hội và giúp dòng tiền lưu chuyển hợp lý trong nền kinh tế

Có nhiều hướng tiếp cận để giải quyết bài toán đánh giá tín dụng, bao gồm các phân tích định tính và định lượng Trong đó, phổ biến nhất là sử dụng các công cụ thống kê nhằm phân biệt hai nhóm khách hàng “tốt” và “xấu” từ những thông tin về đặc điểm khách hàng và khoản vay (Onay & Öztürk, 2018) Bên cạnh yêu cầu phân loại chính xác nhóm khách hàng tốt và xấu, hai vấn đề tồn tại trong bài toán đánh giá tín dụng, đó là: i) Xác định các đặc điểm quan trọng để nhận dạng nhóm khách hàng; và ii) Vấn đề dữ liệu đầu vào mất cân bằng Trên bộ dữ liệu của một ngân hàng thương mại cổ phần lớn tại Việt Nam, nghiên cứu đề xuất một mô hình đánh giá tín dụng có thể giải quyết hai vấn đề trên Trước tiên, vấn đề dữ liệu mất cân bằng được giải quyết bằng kỹ thuật SMOTE Sau đó, phương pháp ước lượng Lasso được sử dụng cho mô hình hồi quy Logistic để tính xác suất vỡ nợ của khách hàng Từ đó, với một giá trị ngưỡng được chọn, có thể phân loại khách hàng tốt và xấu Các độ đo hiệu quả AUC và KS cho thấy mô hình phân loại đề xuất tốt hơn các mô hình phân loại truyền thống như Hồi quy Logistic và Cây quyết định

3.2 Khung phân tích vấn đề xây dựng mô hình đánh giá tín dụng

3.2.1 Khái niệm đánh giá tín dụng

Đánh giá tín dụng/ chấm điểm tín dụng/ xếp hạng tín dụng là các thuật ngữ

Việt hóa của từ gốc credit scoring Theo các tài liệu, credit scoring có nhiều định nghĩa Credit chỉ một khoản tiền do một tổ chức tài chính cho khách hàng vay và khoản tiền này phải được hoàn trả dần cùng với phần lãi Scoring chỉ việc sử dụng

một số công cụ số học để xếp hạng các khoản vay căn cứ vào chất lượng thực tế

hoặc cảm nhận (Anderson & Hardin, 2014; Hand & Henley, 1997) Scores có thể

được biểu diễn dưới dạng số hoặc dưới dạng điểm - qua hình thức “chữ cái” hoặc “nhãn”, nhằm thể hiện chất lượng của khách hàng Một định nghĩa rộng hơn của

credit scoring - là một biểu diễn số học dựa trên phân tích mức độ tin cậy của

khách hàng, biểu diễn đó là một công cụ hữu ích trong đánh giá và dự phòng rủi ro vỡ nợ (Louzada, Ara & Fernandes, 2016)

Trang 33

Từ những định nghĩa trên, trong khuôn khổ đề tài, chúng tôi chọn sử dụng thuật ngữ Việt hóa là “đánh giá tín dụng” với ý nghĩa: Dựa trên dữ liệu đầu vào là các tính chất của khách hàng và khoản vay, sử dụng các mô hình phân loại để gán nhãn “xấu” và “tốt” cho khách hàng tín dụng Trong đó, nhãn “xấu” được gán cho khách hàng có khả năng vỡ nợ cao và ngược lại, nhãn “tốt” được gán cho khách hàng có khả năng vỡ nợ thấp

3.2.2 Các yếu tố đầu vào

Trong giai đoạn ban đầu, đánh giá tín dụng được thực hiện theo phương pháp chuyên gia Phổ biến nhất là quy tắc 5C, bao gồm những yếu tố được cho là quan trọng nhất trong quy trình đánh giá rủi ro tín dụng

Bảng 7 Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO

1 Đặc điểm khách hàng (Character)

1 Lịch sử trả nợ của khách hàng (Payment History)

3 Tài sản thế chấp

3 Khoảng thời gian ghi nhận lịch sử tín dụng (Length of Credit History)

15%

4 Khả năng chi trả

4 Các khoản tín dụng

mới (New Credit) 10%

5 Điều kiện của thị

5 Các loại hình tín dụng khác mà khách hàng sử dụng (Credit Mix)

10%

Nguồn: Tác giả tổng hợp

Trang 34

Tuy nhiên, tiếp cận 5C chỉ quan tâm đến khoản vay hiện tại của khách hàng, bỏ qua rất nhiều thông tin hữu ích như lịch sử trả nợ vay của khách hàng, thói quen chi tiêu của khách hàng… Hiện tại, nổi tiếng nhất là tổ chức Fair and Issac (FICO) đánh giá tín dụng qua 5 yếu tố với tỷ trọng khác nhau trong công thức chấm điểm tín dụng Bảng 7 giới thiệu các yếu tố được xem xét trong quy trình đánh giá tín dụng của quy tắc 5C và FICO

Có thể thấy, từ cách tiếp cận 5C đến phương pháp chấm điểm tín dụng của FICO, bài toán xếp hạng tín dụng đã mở rộng các thông tin liên quan của khách hàng Điểm hạn chế của FICO là không đưa ra giải thích hợp lý cho trọng số của các thành phần trong Bảng 7 Tuy vậy, các yếu tố được đề cập đến trong tiếp cận 5C và FICO là những yếu tố được sử dụng tại hầu hết các ngân hàng hoặc trong các nghiên cứu xây dựng mô hình phân loại hoặc chấm điểm tín dụng khách hàng

3.3 Các phương pháp thống kê trong xây dựng mô hình đánh giá tín dụng

3.3.1 Các phương pháp thống kê truyền thống

Đánh giá tín dụng được giải quyết bằng cách áp dụng các mô hình phân loại, trong đó phổ biến nhất là phương pháp Phân tích phân biệt và hồi quy Logistic Mục này tóm tắt các kiến thức về phương pháp Phân tích phân biệt

i) Phân tích Phân biệt tuyến tính và bậc hai

Nội dung phương pháp Phân tích phân biệt tuyến tính (Linear Discriminant Analysis, LDA) như sau:

Giả sử dữ liệu gồm n quan sát *( )+ với * + là biến chỉ nhãn (label) và là vector chỉ các đặc tính của quan sát thứ i Phân tích phân

biệt sẽ phân loại một quan sát ( ) (chưa biết giá trị của ) vào một trong các nhóm * +dựa vào đặc điểm riêng được mô tả bởi tập các biến độc lập

LDA giả định rằng:

i) ( ) có phân phối chuẩn p-chiều, ( , ) với là vector kỳ vọng và là ma trận hiệp phương sai của

Ngày đăng: 06/05/2024, 16:48

HÌNH ẢNH LIÊN QUAN

Hình 1. Đồ thị hàm lồi (a) và không lồi (b) - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Hình 1. Đồ thị hàm lồi (a) và không lồi (b) (Trang 10)
Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge (Trang 14)
Hình 3 minh họa đồ thị của toán tử biên mềm   ( ). Khi       thì   ( )    . Tuy  nhiên, khi        thì |  ( )|   | | - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Hình 3 minh họa đồ thị của toán tử biên mềm ( ). Khi thì ( ) . Tuy nhiên, khi thì | ( )| | | (Trang 16)
Bảng 2. Thuật toán Giảm chiều theo quỹ đạo. - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Bảng 2. Thuật toán Giảm chiều theo quỹ đạo (Trang 18)
Bảng 4. Thống kê mô tả các biến. - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Bảng 4. Thống kê mô tả các biến (Trang 24)
Bảng 3. Các biến giải thích trong mô hình. - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Bảng 3. Các biến giải thích trong mô hình (Trang 24)
Bước 3. Hình 4  minh  họa sự biến thiên  của  các hệ số ước lượng trong các - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
c 3. Hình 4 minh họa sự biến thiên của các hệ số ước lượng trong các (Trang 26)
Hình 5. Sự biến thiên của CVM theo lambda. - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Hình 5. Sự biến thiên của CVM theo lambda (Trang 27)
Bảng 5. Kết quả ước lượng bằng phương pháp Lasso với   tốt nhất. - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Bảng 5. Kết quả ước lượng bằng phương pháp Lasso với tốt nhất (Trang 27)
Bảng 6. So sánh     từ Lasso với   tốt nhất và OLS trên tập kiểm tra - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Bảng 6. So sánh từ Lasso với tốt nhất và OLS trên tập kiểm tra (Trang 28)
Hình ảnh cho thấy rằng, đối với mô hình (2.1), phương pháp Lasso cho      nhỏ hơn phương pháp OLS, tuy không đáng kể - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
nh ảnh cho thấy rằng, đối với mô hình (2.1), phương pháp Lasso cho nhỏ hơn phương pháp OLS, tuy không đáng kể (Trang 29)
Hình 7. Biểu đồ     của mô hình (2.2) - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Hình 7. Biểu đồ của mô hình (2.2) (Trang 30)
Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và  FICO - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO (Trang 33)
Hình 8. Minh họa mô hình Cây quyết định - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Hình 8. Minh họa mô hình Cây quyết định (Trang 37)
Bảng  10  minh  họa  các  kết  quả  có  thể  xảy  ra  trong  quá  trình  phân  loại  một  tập dữ liệu - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
ng 10 minh họa các kết quả có thể xảy ra trong quá trình phân loại một tập dữ liệu (Trang 42)
Hình 9. Minh họa đường cong ROC và AUC - Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng
Hình 9. Minh họa đường cong ROC và AUC (Trang 44)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w