IV. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
2.4 PHƢƠNG PHÁP HỒI QUY LOGISTIC
2.4.1 Khái niệm
a) Hồi quy Logistic
Hồi quy Logistic là một kỹ thuật phân tích hồi quy. Trong đó, biến phụ thuộc Y là một biến nhị phân. Theo đó Y chỉ có 2 giá trị thƣờng đƣợc mã hoá là và ( gọi là lớp thành công; gọi là lớp thất bại). Biến độc lập trong hồi quy Logistic có thể là biến rời rạc hoặc liên tục, biến đơn hoặc đa biến số.
Hồi quy Logistic đƣợc xây dựng trên nền tảng các mô hình hồi quy phổ biến, đặc biệt là hồi quy tuyến tính.
b) Odds và tỷ số odds
Định nghĩa 1.1. Odds của một biến cố xảy ra đƣợc định nghĩa là tỷ số
giữa xác suất của biến cố xảy ra với xác suất của biến cố đó không xảy ra. Kí hiệu: Odds của biến cố A đƣợc kí hiệu là ( ).
Nhƣ vậy
( ) ( )
( )
Định nghĩa 1.2. Tỷ số odds của hai biến cố và đã xảy ra là tỷ số của
( ) và ( ). Kí hiệu: ( ). Nhƣ vậy ( ) ( ) ( ) ( ) ( ) ( ) ( )
Nhận xét: Odds của một biến cố đã xảy ra là con số so sánh số lần xác suất xảy ra và không xảy ra của một biến cố. Trong khi đó ( ) là so sánh số lần của ( ) và ( ).
29
2.4.2 Hồi quy Logistic đơn a) Mô hình a) Mô hình
Khi phân tích dữ liệu nhị phân, chúng ta quan tâm đến việc phân tích mối quan hệ giữa xác suất của kết quả thành công với các biến độc lập ảnh hƣởng đến kết quả này, hơn là phân tích mối quan hệ giữa giá trị của biến phụ thuộc với các biến độc lập.
Khi tìm mối quan hệ giữa biến phụ thuộc nhị phân với các biến độc lập khác ta gặp vấn đề khó khăn so với các mô hình hồi quy khác. Bởi xác suất của sự thành công chỉ có thể đƣa giá trị giữa và trong khi các biến độc lập khác có thể nhận giá trị bất kỳ. Để giải quyết khó khăn này, ngƣời ta sử dụng mô hình hồi quy Logistic. Hàm hồi quy Logistic sẽ tìm mối quan hệ giữa odds của một sự thành công với các biến độc lập khác bất kỳ. Mối quan hệ này có thể tuyến tính và phi tuyến tính. Tuy nhiên, trong các bài toán thực tế mối quan hệ này thông thƣờng là tuyến tính.
Xét hai biến X và Y, trong đó Y chỉ nhận giá trị là 0 và 1 còn giá trị của X
ảnh hƣởng đến giá trị của Y. Gọi ( ) ( | ) là xác suất có điều kiện của khi X xảy ra. Giả sử ( ) có mối quan hệ với biến X, nhƣng ta không thể tìm trực tiếp mối quan hệ này vì ( ) thuộc , - trong khi tùy ý. Bởi vì [ ( ( ))] 0 ( )
( )1 có mối quan hệ với ( ) và có giá trị bất kỳ nên ta có thể thay thế mối quan hệ giữa ( ) và bằng mối quan hệ giữa 0 ( ) ( ) 1 và X. Giả sử mối quan hệ này là tuyến tính
[ ( )
( )] ( )
Hay
( )
( ) ( ) ( )
(2.9) và (2.10) là hai hình thức của mô hình hồi quy Logistic đơn. Trong đó
[ ( ( ))] hay 0 ( ) ( ) 1 còn đƣợc gọi là ( ( )).
Hai tham số và đƣợc gọi là hai hệ số của đƣờng hồi quy, cụ thể hơn đƣợc gọi là điểm chắn, đƣợc gọi là độ dốc.
30
Chú ý:
i) Ta có
* ( )+ * ( )+ ( ) ( )
Như vậy khi tăng lên 1 đơn vị thì ( ( )) sẽ tăng lên ii) Khi thì giá trị của odds tương ứng là
( ( )| ) ( )
Khi (tức tăng lên 1 đơn vị từ thì
( ( )| ) ( ( ))
Khi đó tỷ số là tỷ số của hai odds và được tính bằng công thức sau:
( ( )| )
( ( )| )
( ( ))
( ) ( )
b) Xây dựng đƣờng hồi quy mẫu
Trong hồi quy Logistic, các hệ số trong các đƣờng hồi quy đƣợc ƣớc lƣợng bằng phƣơng pháp hợp lý cực đại.
Giả sử ta có n mẫu quan sát độc lập ( ) . Trong đó
( ) . Giả sử phân phối có điều kiện cho khi xảy ra là phân phối nhị thức ( ) với
[
]
Gọi ̂ , ̂ lần lƣợt là các ƣớc lƣợng của và . Chúng ta xây dựng đƣờng hồi quy
( ( )
( )) ̂ ̂ ( )
Từ (2.11) ta có xác suất của sự thành công và không thành công đƣợc xác định bởi ( ̂ ̂ ) ( ̂ ̂ ) ( ̂ ̂ ) Thực hiên n lần quan sát ta có hàm hợp lý ( ̂ ̂ ) ∏ ( ) ∏ [( ( ̂ ̂ ) ( ̂ ̂ )) ( ( ̂ ̂ )) ]
31
( ̂ ∑ ̂ ∑ ) ∏ [ ( ̂ ̂ )]
Trong đó, nhận giá trị bằng 1 nếu kết quả thành công và nhận giá trị bằng 0 nếu kết quả thất bại.
Ta có ( ) * ( ̂ ̂ ) ( ̂ ̂ )+ ∑ ( ) ( ( ̂ ̂ ) ( ̂ ̂ )) (∑∑ ( ) ( ) )
Cho ( ) ta có hệ phƣơng trình cụ thể nhƣ sau:
{ ∑ ∑( [ ( ̂ ̂ )]) ∑ ∑ ( [ ( ̂ ̂ )])
Việc giải hệ phƣơng trình để tìm một biểu thức giải tích cụ thể rất phức tạp trong trƣờng hợp tổng quát, nên ngƣời ta chỉ giải trong trƣờng hợp cụ thể. Tuy nhiên việc tính toán trong trƣờng hợp cụ thể cũng không đơn giản, nên trong thực tế ngƣời ta thƣờng sử dụng đến sự hỗ trợ của các phần mềm toán học nhƣ SPSS hay R.
2.4.3 Hồi quy Logistic bội a) Mô hình a) Mô hình
Xét biến phụ thuộc Y và k biến độc lập . Trong đó Y chỉ nhận
hai giá trị 0 và 1 còn giá trị của ảnh hƣởng đến giá trị của Y. Đặt ( ), gọi ( ) ( | ) là xác suất điều kiện của khi X
xảy ra .Giả sử ( ), ta có quan hệ tuyến tính với biến bởi biểu thức sau:
* ( ) ( )+ ∑ ( ) Hay ( ) ( ) ( ∑ ) ( )
(2.12) và (2.13) là hai hình thức của mô hình hồi quy Logistic bội. .
32
b) Xây dựng đƣờng hồi quy mẫu
Quan sát n mẫu độc lập ta có các giá trị có thể có của và các giá trị có
thể có của là và . Giả sử là những biến độc lập và ( ). Gọi ̂ là những ƣớc lƣợng của . Ta có ( ) ( ̂ ∑ ̂ )
Từ đây ta rút ra đƣợc xác suất của sự thành công và không thành công cho một lần quan sát đƣợc xác định bởi công thức
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
Hàm hợp lý cho n quan sát trên là
∏ [( ( ̂ ∑ ̂ )
( ̂ ∑ ̂ )) ( ( ̂ ∑ ̂ ))
]
Trong đó nhận giá trị bằng 1 nếu kết quả thành công và nhận giá trị bằng 0 nếu kết quả thất bại.
Cực đại hoá hàm hợp lý L ta có hệ phƣơng trình
{ ∑ ∑ ( * ( ̂ ∑ ̂ )+) ∑ ∑ ( * ( ̂ ∑ ̂ )+) ( )
Trong đó ̂ ̂ với lần lƣợt là các ƣớc lƣợng của .
Việc giải hệ phƣơng trình (2.14) vô cùng phức tạp. Thực tế tính toán ngƣời ta chỉ ƣớc lƣợng giá trị số của nó bằng một chƣơng trình nào đó.
2.4.4 Vấn đề phân loại
33
( ) sẽ có xác suất để để thuộc lớp thành công và không thành công
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
( ̂ ∑ ̂ ) ( ̂ ∑ ̂ )
Từ đây chúng ta có nguyên tắc phân loại là: Một phần tử với biến quan sát
( ) sẽ đƣợc xếp vào nhóm thành công nếu xác suất thành công nếu . Ngƣợc lại nếu ta sẽ xếp vào nhóm thất bại.
2.4.5 Sử dụng phần mềm SPSS trong hồi quy Logistic
Hiện nay sử dụng hồi quy Logistic trong phân loại là phƣơng pháp đƣợc sử dụng phổ biến nhất, đặc biệt là trong y học và trong xã hội. Vì vậy các các phần mềm thống kê phổ biến hiện nay nhƣ R, SPSS, Militab, Eview, … đều có các gói để xử lý. Trong luận văn này, chúng tôi sử dụng phần mềm SPSS. Các lệnh đƣợc sử dụng cụ thể nhƣ sau:
Bước 1: Tại cửa sổ dữ liệu của file Binary Logistic bạn chọn menu: Anlyze > Regression > Binary Logistic, lựa chọn này mở ra hộp thoại Logistic Regression.
Bước2: Chọn biến phụ thuộc (y) đƣa sang khung Dependent, nhớ chỉ
chọn biến có 2 biểu hiện, nếu biến phụ thuộc bạn chọn không có đúng 2 biểu hiện thì thủ tục này không thực hiện đƣợc.
Bước 3: Chọn một biến hay một khối biến (block) đƣa sang khung
Covariate. Nếu muốn tạo biến dạng tƣơng tác thì bạn chọn sang 2 biến (hay
hơn 2 biến) của mối tƣơng tác trong danh sách biến nguồn và nhấp >a*b> đƣa sang khung Covariate.
Bước 4: Trong nút Method bạn chọn phƣơng pháp đƣa biến độc lập
vào mô hình, ở đây ta để chế độ mật định là Enter.
Bước 5: Để thể hiện đồ thị phân loại giá trị thật và giá trị dự báo của biến phụ thuộc, bạn nhấn nút Option để mở hộp thoại Logistic Regression: Options, rồi nhấn chọn Classification plots trong phần Statistics and Plots.
Một số tùy chọn khác trên hộp thoại này bạn đọc có thể suy diễn từ hƣớng dẫn ở phần hồi quy tuyến tính.
34
Bước 7: Muốn tính đƣợc giá trị dự đoán, là xác suất mà một đối tƣợng
sẽ trả nợ ta nhấp Predict value trong hộp thoai Save. Cuối cùng, ta nhấp OK.
35 Chƣơng 3
ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY TẠI NGÂN HÀNG ĐÔNG Á
3.1 GIỚI THIỆU
3.1.1 Bài toán phân loại trong đánh giá khả năng trả nợ vay của khách hàng hàng
Bài toán phân loại đã và đang đƣợc áp dụng cho nhiều lĩnh vực khác nhau, đặc biệt trong ngân hàng. Khi khách hàng (cá nhân, doanh nghiệp,…) đến vay vốn, nếu cán bộ tín dụng không có khả năng đánh giá thông tin sẽ có cái nhìn lệch lạc, dẫn đến sai lầm trong cấp tín dụng: Cho vay khách hàng có rủi ro nhƣng lại từ chối khách hàng tốt. Trong những năm qua, hệ thống ngân hàng Việt Nam phát triển mạnh nhƣng nợ xấu cũng tăng nhanh chóng, gây rủi ro lớn cho hoạt động của ngân hàng. Nhu cầu đánh giá khả năng trả nợ của các công ty để cho vay trở thành một nhiệm vụ quan trọng đối với các ngân hàng hiện nay. Mỗi khách hàng đến vay vốn tại các ngân hàng sẽ đƣợc xác định bởi một bộ thông tin (do khách hàng cung cấp kết hợp với sự điều tra từ cán bộ tín dụng). Thông tin của khách hàng là một véctơ n chiều (n dấu hiệu) đƣợc định lƣợng hóa. Với n dấu hiệu này, cán bộ tín dụng cần quyết định cho khách hàng đó vay hay không với mức sai lầm thấp nhất.
3.1.2 Một số nghiên cứu liên quan trong và ngoài nƣớc
a) Nghiên cứu của Stefanic Kleimeier và Dinh Thi Huyen Thanh về mô hình điểm số tín dụng cá nhân áp dụng cho các ngân hàng bán lẻ tại Việt Nam
Stefanic Kleimeier đã sử dụng nguồn số liệu tổng hợp từ các ngân hàng thƣơng mại tại Việt Nam theo 20 biến số, bao gồm độ tuổi, thu nhập, trình độ học vấn, nghề nghiệp, thời gian công tác, tình trạng cƣ trú, giới tính, tình trạng hôn nhân, mục đích vay… để xác định mức ảnh hƣởng của các biến số này đến rủi ro tín dụng và qua đó thuyết lập một số mô hình điểm số tín dụng cá nhân áp dụng cho các ngân hàng bàn lẻ tại Việt Nam. Hầu hết số biến này điều là các chi tiêu phi tài chính rất khác so với các nghiên cứu từ trƣớc đến nay. Vì hầu hết các mô hình điểm số tín dụng thƣờng sử dụng các chi tiêu tài chính là chủ yếu. Nghiên cứu này đã xây dựng mô hình chấm điểm tín dụng cá nhân gồm hai phần: Chấm điểm thân nhân và năng lực trả nợ, chấm điểm quan hệ với ngân hàng. Tuy nhiên, công trình nghiên cứu này không đƣa ra cách tính
36
điểm cụ thể cho từng chỉ tiêu, để vận dụng đƣợc mô hình đòi hỏi các Ngân hàng thƣơng mại phải thiết lập thang điểm cho từng chỉ tiêu đánh giá phù hợp với thực trạng và hệ thống cơ sở dữ liệu cá nhân tại ngân hàng mình.
b) Nghiên cứu của Maria Aparecida Gouvêa và Eric Bacconi Goncalves về áp dụng mô hình Hồi quy Binary Logistic, neutral network và mô hình Genetic Algorithm để phân tích rủi ro tín dụng
Mục tiêu của nghiên cứu là phát triển một mô hình chấm điểm tín dụng có tính dự báo dựa trên số liệu của những tổ chức tài chính lớn bằng cách sử dụng mô hình hồi quy Logit, mạng neutral nhân tạo và giải thuật di truyền (Genetic Algorithms). Ba mô hình trình bày kết quả phù hợp với cơ sở dữ liệu đƣợc cung cấp bởi một ngân hàng bán lẻ lớn tại Brazil. Trong đó, mô hình hồi quy Logit trình bày kết quả tốt hơn so với mô hình đƣợc xây dựng bởi mạng thần kinh nhân tạo. Cả hai mô hình này điều tốt hơn mô hình dựa trên thuật toán di truyền. Từ kết quả nghiên cứu, nhóm tác giả đã đề xuất mô hình Logit là mô hình chấm điểm tín dụng phân loại khách hàng tốt và xấu.
c) Nghiên cứu của Cumhur Erdem về các nhân tố ảnh hƣởng đến vỡ nợ thẻ tín dụng và ý định sử dụng thẻ ở Thổ Nhỹ Kỳ
Trong bài nghiên cứu này, Cumhur Erdem nhắm đến hai mục tiêu
Thứ nhất, xác định những nhân tố tác động đến xác suất vỡ nợ của những
ngƣời sử dụng thẻ tín dụng.
Thứ hai, Cumhur Erdem muốn xác định các nhân tố nhƣ các quan niệm
chủ quan, thái độ kiểm soát hành vi và khả năng kiểm soát hành vi của nhân tố có khả năng giải thích cho yếu tố ý định về hành vi sử dụng thẻ tín dụng trong chi tiêu.
Ông sử dụng mô hình Probit và mô hình cấu trúc tuyến tính dựa trên lý thuyết hoạch định hành vi để đạt đƣợc hai mục tiêu trên. Cumhur Erdem tiến hành nghiên cứu 520 khách hàng sử dụng thẻ tín dụng trong thành phố Tokat ở Thổ Nhĩ Kỳ. Cuộc nghiên cứu đƣợc tiến hành bằng cách phỏng vấn trực tiếp trong tháng 5 và tháng 6 năm 2006. Trong 520 quan sát, chỉ có 474 quan sát đƣợc sử dụng để phân tích bởi vì có những quan sát khuyết những câu hỏi quan trọng. Nghiên cứu cho biết tại thành phố Tokat ở Thổ Nhĩ Kỳ các biến về nhân thân của cá nhân không có ý nghĩa thống kê, không có tác động đến xác suất vỡ nợ của ngƣời sử dụng thẻ tín dụng ở Thổ Nhĩ Kỳ. Điều này đặt ra một giả thiết rằng các biến về nhân thân đƣợc đƣa ra để xây dựng mô hình chấm điểm tín dụng cũng có thể không có tác động đến biến phụ thuộc (biến phụ thuộc là xác suất đảm bảo trả nợ).
37
d) Nghiên cứu của Vƣơng Quân Hoàng, Nguyễn Văn Hữu, Đào Gia Hƣng
Trong nghiên cứu này các tác giả muốn xây dựng mô hình định mức tín nhiệm trên cơ sở giải quyết hai bài toán là phân nhóm và phân biệt khách hàng dựa vào mô hình hồi quy Logistic bội. Nhóm tác giả đã sử dụng dữ liệu 1727 khách hàng (quan sát) của ngân hàng Techcombank. Trong đó có 1357 khách hàng “tốt” và 353 khách hàng “xấu”. Kết quả nghiên cứu đã cho một mô hình Logistic bội tƣơng đối tốt để phân loại khách hàng cho bộ số liệu thực.
3.2 TỔNG QUAN VIỆC THỰC HIỆN 3.2.1 Số liệu 3.2.1 Số liệu
a) Nguồn số liệu
Để thực hiện đƣợc mô hình đánh giá khả năng trả nợ của các khách hàng tín dụng, luận văn đã sử dụng bộ số liệu từ luận văn “ Xây dựng mô hình xếp hạng tín dụng cá nhân của ngân hàng Đông Á”. Bộ số liệu sử dụng trong luận văn thực chất là thông tin về việc vay và trả nợ. Các thông tin về khách hàng đƣợc cung cấp bởi phòng tín dụng cá nhân ngân hàng Đông Á.
b) Cỡ mẫu
Trong phân tích, kết quả của phân tích đều bị ảnh hƣởng bởi cỡ mẫu. Cỡ mẫu quá nhỏ có thể dẫn đến những kết luận khó có thể chính xác. Theo Hoàng Trọng và Chu Nguyễn Mộng Ngọc, (2008)) cho rằng có tối thiểu 5 quan sát cho mỗi biến dự báo. Mẫu của nghiên cứu trong luận văn có 136 quan sát, với số biến là 24 nên đảm bảo cho các thống kê thực hiện.
c) Thời gian và phạm vi chọn mẫu
Mẫu đƣợc cung cấp bởi phòng tín dụng cá nhân của ngân hàng Đông Á trong thời gian từ tháng 9 năm 2008 đến tháng 2 năm 2010.
d) Chi tiết số liệu mẫu
Số liệu mẫu thực hiện phân tích đƣợc cho chi tiết trong phụ lục. Trong đó biến phụ thuộc có giá trị nhƣ sau:
{ ( )
Biến phụ thuộc đƣợc đánh giá theo 2 khả năng là khách hàng có khả năng trả nợ (nhận giá trị 1) và khách hàng không có khả năng trả nợ (nhận giá trị 0).
38
Bảng 3.1. Các biến độc lập đƣợc khảo sát.
STT Chỉ tiêu Thang đo thiết Giả Ký hiệu
1 Giới tính 1: Nam – 0: Nữ +/- Gender
2 Tuổi Tuổi - Age
3 Trình độ đại học (ĐH) 1: Từ ĐH trở lên – 0: Dƣới ĐH + HE