Phương pháp Lasso trong ước lượng hồi quy tuyến tính: Cơ sở lý thuyết và ứng dụng thực tiễn

MỤC LỤC

Phương pháp Lasso cho mô hình hồi quy tuyến tính 1 Bài toán tổng quát

Từ đây trở về sau, trong khuôn khổ của nghiên cứu này, ta sẽ xét bài toán (5) với giả thiết các biến được chuẩn hóa (tức là các biến giải thích có trung bình bằng 0, phương sai bằng 1; biến được giải thích có trung bình bằng 0). Sau đó giảm giá trị một lượng nhỏ định trước, tiếp tục áp dụng thuật toán giảm chiều với tương ứng; kết quả ước lượng ̂ ở bước trước đó được xem như là giá trị khởi đầu của các tham số ̂ ở bước kế tiếp.

Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge
Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge

Phương pháp Lasso cho bài toán phân loại

Nhận xét: Thuật toán ở Bảng 1 và 2 cho thấy phương pháp Lasso có thể áp dụng cho các trường hợp kích thước mẫu bé hơn số biến giải thích trong mô hình ( ). Trong thực hành, tham số được khảo sát trên một tập hữu hạn với giá trị nhỏ nhất gần bằng 0 và giá trị lớn nhất là ước lượng lớn nhất của các (. ) bằng mô hình LR.

Tính chất của ƣớc lƣợng Lasso 1. Bậc tự do

Hiện nay các phần mềm tính toán có thể dễ dàng giải hệ (19) bằng các gói chương trình có sẵn. Ví dụ, đối với ngôn ngữ R, gói có thể giải quyết bài toán tìm ước lượng cho mô hình LL. Tính chất của ƣớc lƣợng Lasso. 2017) Ước lượng Lasso có thể không duy nhất nhưng kết quả dự báo dựa trên Lasso là duy nhất. Xét mô hình hồi quy tuyến tính: ( ) và giả sử ̂ là ước lượng Lasso của mô hình gồm giá trị ước lượng ̂ khác không.

ỨNG DỤNG LASSO TRÊN BÀI TOÁN HỒI QUY

Mô hình nghiên cứu và các biến

Chuẩn hóa dữ liệu các biến giải thích, đối với biến được giải thích chỉ thực hiện biến đổi đưa về trung bình bằng 0. Vì dữ liệu mẫu là dữ liệu bảng, thực hiện ước lượng các mô hình (2.1) và (2.2) bằng kỹ thuật hai chiều trong cùng nhóm (within estimator for the two-way) để kiểm soát các ảnh hưởng của yếu tố thời gian và yếu tố cá biệt của mỗi ngân hàng. Trên cơ sở đó, dùng thuật toán giảm chiều, thủ tục xác thực chéo để tìm tốt nhất và thực hiện phương pháp ước lượng Lasso với tốt nhất trên tập huấn luyện.

Thủ tục xác thực chéo (Cross validation) là một trong những phương pháp được sử dụng để tìm ước lượng tốt nhất cho. Với mỗi giá trị , thủ tục xác thực chéo được thực hiện như sau: Xem là tập kiểm tra, tập còn lại là tập huấn luyện. Sau đó, áp dụng mô hình ước lượng trên tập kiểm tra để dự báo giá trị của biến được giải thích và ghi nhận lại giá trị (Mean Squared Erorrs).

Khi biến thiên trên một tập cho trước, giá trị tốt nhất là giá trị tương ứng với nhỏ nhất (Hastie & ctg, 2017).

Bảng 4. Thống kê mô tả các biến.
Bảng 4. Thống kê mô tả các biến.

Kết quả tính toán

Đối với mô hình (2.1), biến chỉ thành phần sở hữu nhà nước STATE có ước lượng hệ số hồi quy bằng 0, do đó bị loại ra khỏi mô hình. Đối với mô hình (2.2), các biến chỉ số đòn bẩy tài chính (FLE), thành phần sở hữu nhà nước (STATE) và thành phần sở hữu nước ngoài (FOR) bị loại ra khỏi mô hình. Bên cạnh đó, điểm tương đồng trong kết quả ước lượng của Lasso và OLS là hầu hết những hệ số có ước lượng Lasso bằng 0 thì không có ý nghĩa thống kê nếu suy diễn từ ước lượng OLS (trừ hệ số của biến FOR ở mô hình (2.1) và hệ số của biến LDR ở mô hình (2.2)).

Để so sánh khả năng dự báo của phương pháp Lasso và OLS, ta so sánh trên tập kiểm tra của các ước lượng mô hình (2.1) và (2.2) bằng hai phương pháp nói trên. Kết quả cho thấy, đối với tỷ suất ROA, tất cả các yếu tố nội tại trong mô hình, trừ thành phần sở hữu nhà nước, đều có ảnh hưởng. Về mức độ ảnh hưởng đến các tỷ suất sinh lợi, ba yếu tố sau đây là mạnh nhất: tỷ lệ cho vay trên tổng tài sản (LOAN), tổng tài sản (SIZE) và mức tăng trưởng vốn chủ sở hữu (EQU) (thứ tự mức độ ảnh hưởng tùy vào mô hình).

Nhằm ước lượng các phân bố của , thực hiện lặp lại 100 lần từ Bước 2 đến Bước 4, thu được của các mô hình từ các phương pháp Lasso và OLS.

Hình 5. Sự biến thiên của CVM theo lambda.
Hình 5. Sự biến thiên của CVM theo lambda.

ỨNG DỤNG LASSO TRÊN BÀI TOÁN PHÂN LOẠI Chương này giới thiệu ứng dụng phương pháp Lasso trong bài toán phân

    Trong đó, phổ biến nhất là sử dụng các công cụ thống kê nhằm phân biệt hai nhóm khách hàng “tốt” và “xấu” từ những thông tin về đặc điểm khỏch hàng và khoản vay (Onay & ệztỹrk, 2018). Bờn cạnh yờu cầu phân loại chính xác nhóm khách hàng tốt và xấu, hai vấn đề tồn tại trong bài toán đánh giá tín dụng, đó là: i) Xác định các đặc điểm quan trọng để nhận dạng nhóm khách hàng; và ii) Vấn đề dữ liệu đầu vào mất cân bằng. Từ những định nghĩa trên, trong khuôn khổ đề tài, chúng tôi chọn sử dụng thuật ngữ Việt hóa là “đánh giá tín dụng” với ý nghĩa: Dựa trên dữ liệu đầu vào là các tính chất của khách hàng và khoản vay, sử dụng các mô hình phân loại để gán nhãn “xấu” và “tốt” cho khách hàng tín dụng. Tuy nhiên, tiếp cận 5C chỉ quan tâm đến khoản vay hiện tại của khách hàng, bỏ qua rất nhiều thông tin hữu ích như lịch sử trả nợ vay của khách hàng, thói quen chi tiêu của khách hàng… Hiện tại, nổi tiếng nhất là tổ chức Fair and Issac (FICO) đánh giá tín dụng qua 5 yếu tố với tỷ trọng khác nhau trong công thức chấm điểm tín dụng. Bảng 7 giới thiệu các yếu tố được xem xét trong quy trình đánh giá tín dụng của quy tắc 5C và FICO. Có thể thấy, từ cách tiếp cận 5C đến phương pháp chấm điểm tín dụng của FICO, bài toán xếp hạng tín dụng đã mở rộng các thông tin liên quan của khách hàng. Điểm hạn chế của FICO là không đưa ra giải thích hợp lý cho trọng số của các thành phần trong Bảng 7. Tuy vậy, các yếu tố được đề cập đến trong tiếp cận 5C và FICO là những yếu tố được sử dụng tại hầu hết các ngân hàng hoặc trong các nghiên cứu xây dựng mô hình phân loại hoặc chấm điểm tín dụng khách hàng. Các phương pháp thống kê trong xây dựng mô hình đánh giá tín dụng 3.3.1. Các phương pháp thống kê truyền thống. Đánh giá tín dụng được giải quyết bằng cách áp dụng các mô hình phân loại, trong đó phổ biến nhất là phương pháp Phân tích phân biệt và hồi quy Logistic. Mục này tóm tắt các kiến thức về phương pháp Phân tích phân biệt. i) Phân tích Phân biệt tuyến tính và bậc hai.

    Phân tích phân biệt sẽ phân loại một quan sát ( ) (chưa biết giá trị của ) vào một trong các nhóm * +dựa vào đặc điểm riêng được mô tả bởi tập các biến độc lập. LDA giả định rằng:. ii) Các quan sát ở mỗi nhóm * + có phân phối chuẩn ( , ) với là vector kỳ vọng và là ma trận hiệp phương sai giống nhau ở các nhóm. Ý tưởng của phân tích Phân biệt bậc hai (Quadractic Discriminant Analysis, QDA) tương tự như LDA, tuy nhiên giả định ii) được thay thế bằng:. ii’) Các quan sát ở mỗi nhóm j có phân phối chuẩn với vector kỳ vọng và ma trận hiệp phương sai khác nhau. Như vậy LDA là một trường hợp riêng của QDA và kém linh hoạt hơn so với QDA vì giả định ii) khá cứng nhắc. DT có nhiều ưu điểm vượt trội, như khả năng dễ giải thích; có thể xác định được thứ tự các thuộc tính quan trọng với mục tiêu phân loại; không đòi hỏi các yêu cầu về phân phối xác suất của các biến; có thể áp dụng cho cả trường hợp các biến là biến định tính và định lượng.

    Mặc dù đã có nhiều mô hình phân loại giải quyết bài toán đánh giá tín dụng, chúng tôi chọn phương pháp Lasso trên mô hình LR (sẽ được gọi là phương pháp Lasso-Logistic) vỡ những ưu điểm của LR như khả năng dễ giải thớch, chỉ rừ được ảnh hưởng của các đặc điểm đầu vào đến kết quả phân loại. Phương pháp Lasso áp dụng trên mô hình Logistic đã rút gọn mô hình phân loại bằng cách giới thiệu một số biến giải thích mô tả đặc điểm của khách hàng có ảnh hưởng mạnh nhất đến xác suất vỡ nợ của khách hàng đồng thời cải thiện được khả năng phân lớp so với các mô hình phân loại thông dụng. Trên bộ dữ liệu của một ngân hàng thương mại cổ phần tại Việt Nam, sự kết hợp kỹ thuật tái chọn mẫu SMOTE và phương pháp chọn biến Lasso cho mô hình hồi quy Logistic đã làm tăng các độ đo hiệu quả AUC và KS so với những cách tiếp cận thông thường là mô hình hồi quy Logistic và Cây quyết định.

    Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và  FICO
    Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO