Phương pháp và trình tự phân tích dữ liệu- 123docz.net

Các phương pháp ước lượng được sử dụng nhiều nhất trong các nghiên cứu thực nghiệm với dữ liệu bảng là mô hình tác động cố định FEM và mô hình tác động ngẫu nhiên REM. Sau khi phân tích mô hình tác động FEM, REM thì sẽkiểm định Hausman đểđánh giá và lựa chọn mô hình FEM hay REM. Tuy nhiên ước lượng FEM và REM có những nhược điểm là phát sinh hiện tượng phương sai sai số thay đổi rất khó khắc phục, hiện tượng tự tương quan và ngoài ra tồn tại các biến nội sinh trong mô hình nghiên cứụ Để khắc phục tính không hiệu quả của ước lượng FEM và REM, các nghiên cứu trước đây tiến hành kiểm định trước các khuyết tật của các mô hình nghiên cứu và sau đó sử dụng GMM để phân tích chiều hướng tác động.

Với mục tiêu là nghiên cứu các nhân tố tác động tới tỷ lệ nợ xấu của các ngân hàng bằng bộ dữ liệu mảng trong thời gian 10 năm từ 2011-2020 của 20 ngân hàng thương mại Việt Nam, tác giả sử dụng phần mềm Stata 16.0 để chạy dữ liệụ Việc phân tích dữ liệu được thực hiện theo trình tự sau:

Bước 1: Thống kê mô tả các biến trong mô hình nghiên cứu và chạy ma trận hệ số tương quan giữa các biến trong mô hình.

Bước 2: Kiểm định mô hình hồi quy pooled OLS, ước lượng mô hình tác động cốđịnh FEM, ước lượng mô hình tác động ngẫu nhiên REM. Sau đó lựa chọn một mô hình phù hợp cho nghiên cứu để phân tích và khắc phục những khuyết tật của mô hình. Bước 3: Kiểm định hiện tượng đa cộng tuyến, phương sai thay đổi, sự tự tương quan với mô hình đã lựa chọn phù hợp.

Bước 4: Khắc phục hiện tượng phương sai thay đổi, sự tự tương quan (nếu có) bằng mô hình hồi quy theo phương pháp bình phương tối thiểu tổng quát GLS.

Bước 5: Ước lượng mô hình dữ liệu bảng động GMM nhằm khắc phục khuyết tật của mô hình về hiện tượng phương sai thay đổi, sự tự tương quan và có hiện tượng biến nội sinh trong mô hình nghiên cứụ

Đầu tiên để phân tích dữ liệu sử dụng phần mềm STATA16.0, nhập các dữ liệu vào bảng tính Excel, mã hoá tên các biến như dưới đây:

Bảng 3.11. Các biến độc lập đã được mã hóa

Tên biến Mã hoá

Tỷ lệ nợ xấu của ngân hàng hiện tại TLNX Tỷ lệ nợ xấu của ngân hàng trong quá khứ l.TLNX Tốc độ tăng trưởng tín dụng TTTD Tỷ lệ dự phòng rủi ro tín dụng DPRRTD

Quy mô ngân hàng QMNH

Tỷ lệ chi phí hoạt động CFHĐ Tỷ lệ thu nhập ngoài lãi TNNL Tăng trưởng chi nhánh, sở giao dịch TTCN Tốc độ tăng trưởng GDP GDP

Tỷ lệ lạm phát LP

Nguồn: Tác giả tổng hợp

Sau đó sử dụng phần mềm STATA 16.0 khai báo dữ liệu bảng phân tích, chuyển biến “QMNH” về đồng nhất dữ liệu nghiên cứu bằng lệnh gen log_QMNH = log (QMNH) và đặt tên biến SIZẸ

3.5.2. Kết quả phân tích dữ liệu

3.5.2.1. Thống kê mô tả các biến trong mô hình nghiên cứu và ma trận tương

quan giữa các biến trong mô hình nghiên cứu

* Thống kê mô tả các biến trong mô hình nghiên cứu:

Mô hình nghiên cứu về nhân tố tác động tới đến rủi ro tín dụng của NHTM Việt Nam đề xuất của tác giả gồm có các biến tỷ lệ nợ xấu (TLNX), tốc độ tăng trưởng tín dụng (TTTD), tỷ lệ dự phòng rủi ro tín dụng (DPRRTD), quy mô ngân hàng (QMNH), tỷ lệ chi phí hoạt động (CFHĐ), tỷ lệ thu nhập ngoài lãi (TNNL), tăng trưởng chi nhánh và sở giao dịch (TTCN), tốc độ tăng trưởng GDP (GDP) và tỷ lệ lạm phát (LP). Dữ liệu sử dụng cho nghiên cứu này các số liệu được thu thập từ các báo cáo thường niên của các NHTM, thống kê của NHNN, tổng cục thống kê trong giai đoạn 2011- 2020. Mô tả mẫu nghiên cứu chi tiết dưới bảng sau:

Bảng 3.12. Thống kê các biến trong mô hình nghiên cứu Biến Trung bình (Mean) Độ lệch chuẩn (Std. Deviation) Giá trị nhỏ nhất (Minimum) Giá trị lớn nhất (Maximum) TLNX 2.150846 1.29648 0.3396671 8.8 TTTD 20.19743 17.44103 -23.33325 108.2092 DPRRTD 1.450349 0.7541764 0.1588224 8.524312 QMNH 323045.6 350091.3 16008 1568127 CFHĐ 1.688219 0.5071568 0.2216637 3.289297 TNNL 19.92172 13.37999 -17.75493 78.58628 TTCN 2.605 6.401081 -6 53 GDP 5.938 1.195232 2.91 7.08 LP 5.394 4.961778 0.63 18.58 Nguồn: Kết quả chạy dữ liệu từ phần mềm Stata 16.0

Tỷ lệ xấu (TLNX) là biến phụ thuộc trong nghiên cứu nàỵ Nhìn vào bảng 3.12 cho thấy TLNX trung bình là 2,15%, độ lệch chuẩn là 1,296% với giá trị thấp nhất là 0,34% và cao nhất là 8,8% của các NHTM trong 10 năm (2011-2020). Như vậy, tỷ lệ xấu của các ngân hàng nghiên cứu trung bình < 3%, có nhiều ngân hàng có tỷ lệ xấu khá thấp nhưng không có sự chênh lệch lớn giữa các ngân hàng.

Tốc độ tăng trưởng tín dụng (TTTD) là biến độc lập trong mô hình. Kết quả thống kê cho thấy TTTD của các ngân hàng trong 10 năm (2011-2020) có tỷ lệ trung bình là 20,19%, với tỷ lệ thấp nhất là (23,33%) và cao nhất là 108,21% với độ lệch chuẩn khá lớn là 17,44%. Tăng trưởng tín dụng của các ngân hàng có sự chênh lệch khá lớn, thậm chí có ngân hàng tăng trưởng âm nhưng có ngân hàng tăng trưởng dương với tốc độ lớn > 100%.

Quy mô ngân hàng (QMNH) là biến độc lập trong mô hình nghiên cứụ QMNH giữa các ngân hàng có chênh lệch cao với độ lệch chuẩn là 350.091,3 có sự chênh lệch khá lớn giữa các ngân hàng. Giá trị tài sản trung bình của các ngân hàng nghiên cứu là 323.045,6 tỷđồng, giá trị thấp nhất là 16.008 tỷđồng và cao nhất là 1.568.127 tỷđồng

theo số liệu thống kê 10 năm (2011-2020).

Tỷ lệ dự phòng rủi ro tín dụng (DPRRTD) là biến độc trong mô hình nghiên cứụ Theo số liệu thống kê cho thấy DPRRTD của NHTM trong 10 năm (2011-2020) có tỷ lệ trung bình là 1,45% với tỷ lệ thấp nhất là 0,16% và tỷ lệ cao nhất là 8,52%.

Tỷ lệ chi phí hoạt động (CFHĐ) của ngân hàng trong 10 năm (2011-2020) là biến độc lập trong mô hình nghiên cứụ Kết quả thống kê cho thấy CFHĐ có tỷ lệ trung bình là 1,69%, với tỷ lệ thấp nhất là 0,22% và tỷ lệ cao nhất là 3,29%, có sự chênh lệch giữa các ngân hàng nghiên cứụ

Tỷ lệ thu nhập ngoài lãi (TNNL) của các ngân hàng trong 10 năm (2011-2020) có sự chênh lệch lớn giữa các ngân hàng với tỷ lệ thấp nhất là (17,76%) và tỷ lệ cao nhất là 78,59% với tỷ lệ trung bình là 19,92%.

Tăng trưởng số lượng chi nhánh và sở giao dịch của ngân hàng (TTCN) là biến độc lập trong mô hình nghiên cứụ Tăng trưởng chi nhánh của các ngân hàng trong 10 năm 2011-2020 có mức trung bình tăng là 2,605 chi nhánh, với mức tăng thấp nhất là (6) chi nhánh và tăng mức cao nhất là 53 chi nhánh.

Tốc độ lệ tăng trưởng GDP (GDP) là biến độc lập thuộc về vĩ mô trong mô hình nghiên cứụ Theo số liệu thống kê thì tỷ lệ tăng trưởng GDP trong 10 năm (2011- 2020) trung bình là 5,94% với mức tăng trưởng thấp nhất là 2,91% và tăng trưởng cao nhất là 7,08% với độ lệch chuẩn thấp 1,19%.

Biến độc lập thuộc về vĩ mô cuối cùng trong mô hình là tỷ lệ lạm phát (LP). LP trong 10 năm (2011-2020) có tỷ lệ trung bình là 5,39% với tỷ lệ thấp nhất là 0,63% và cao nhất là 18,58%.

* Ma trận tương quan giữa các biến trong mô hình nghiên cứu:

Để phân tích dữ liệu trong Stata 16.0, đầu tiên phải chuyển biến QMNH thành biến Logarit QMNH theo câu lệnh trong Stata: gen log_QMNH = log (QMNH) và gán nhãn tên cho biến này là SIZẸ

Sau đó thực hiện lệnh corr chạy ma trận tương quan giữa các biến độc lập trong mô hình nghiên cứụ Kết quả chạy dữ liệu ma trận tương quan dưới bảng kết quả sau:

Bảng 3.13. Ma trận hệ số tương quan giữa các biến nghiên cứu 1.TLNX TTTD DPRRTD CFHĐ TNNL TTCN GDP LP SIZE 1.TLNX 1.0000 TTTD -0.0535 1.0000 DPRRTD 0.2783 -0.1187 1.0000 CFHĐ 0.1354 -0.0799 0.0082 1.0000 TNNL -0.0865 0.0699 0.0320 -0.1915 1.0000 TTCN -0.0168 0.1115 0.0255 0.0019 0.1117 1.0000 GDP 0.0011 0.0732 0.0001 0.0270 -0.0099 0.0465 1.0000 LP 0.2455 -0.0364 0.0717 0.1156 -0.1478 -0.0302 -0.2252 1.0000 SIZE -0.2406 -0.1656 0.1444 -0.2165 0.2148 0.1049 -0.0136 -0.2503 1.0000 Nguồn: Kết quả chạy dữ liệu từ phần mềm Stata 16.0

Bảng ma trận tương quan cho biết các biến trong mô hình nghiên cứu có mối quan hệ tương quan với nhau không. Hệ số tương quan có trị số từ -1 đến 1. Nếu hệ số tương quan bằng 0 hoặc xấp xỉ bằng 0 thì hai biến coi như không có mối quan hệ tương quan, còn nếu hệ số tương quan bằng 1 thì có sự tương quan tuyệt đốị

Kết quả thể hiện ở bảng 3.13 cho thấy hệ số tương quan giữa các biến đều khác 0, giá trị tương quan lớn nhất là 0.2783. Như vậy, giữa các biến trong mô hình nghiên cứu có sự tương quan với hệ số tương quan đều ở mức thấp. Tuy nhiên, nếu hệ số tương quan lớn hơn 0.7 thì dễ xảy ra hiện tượng đa cộng tuyến.

3.5.2.2. Kiểm định lựa chọn mô hình phù hợp

Dữ liệu bảng (Panel data) bao gồm các quan sát về các đơn vị riêng lẻ theo không gian và thời gian. Dữ liệu bảng liên quan tới cả không gian và thời gian mà vấn đề cố hữu xảy cần giải quyết trong nghiên cứu về thời gian như sự tự tương quan, về không gian như là phương sai thay đổi và ngoài ra còn có các hiện tượng tương quan chéọ Mô hình ước lượng dữ liệu bảng được sử dụng là mô hình hồi quy pooled OLS, mô hình tác động cốđịnh FEM và mô hình tác động ngẫu nhiên REM. Vấn đềđặt ra là mô hình nào là phù hợp cho nghiên cứụ Trong nghiên cứu này dữ liệu sử dụng để phân tích đánh giá là số liệu thu thập của 20 NHTM Việt Nam trong giai đoạn 2011- 2020. Đây là dữ liệu bảng, do đó cần phải lựa chọn ước lượng mô hình phù hợp cho nghiên cứụ

định mô hình hồi quy pooled OLS, tiếp theo ước lượng mô hình tác động cố định FEM, cuối cùng ước lượng mô hình tác động ngẫu nhiên REM và sau đó lựa chọn mô hình phù hợp cho nghiên cứu để phân tích và khắc phục những khuyết tật của mô hình. Để tìm hiểu xem phương pháp hồi quy nào là phù hợp trong ba phương pháp trên thì sử dụng các kiểm định F, kiểm định Lagrangian Multiplier và kiểm định Hausman.

* Ước lượng mô hình pooled OLS:

Mô hình hồi quy pooled OLS là mô hình kiểm định sựảnh hưởng của các biến độc lập tới biến phụ thuộc sử dụng dữ liệu bảng. Mô hình này thực chất là việc sử dụng dữ liệu bảng để phân tích bằng hình thức sử dụng tất cả dữ liệu bằng cách sắp xếp chồng không phân biệt từng cá thể riêng, tức là mô hình này sử dụng dữ liệu như một phân tích OLS thông thường. Phương pháp bình phương bé nhất (OLS) được sử dụng để ước lượng đường thẳng hồi quy bởi vì nó cho phép sai số cực tiểu giữa các điểm ước lượng trên đường thẳng hồi quy và những điểm quan sát thực tế của đường thẳng hồi quy là phù hợp nhất. Kết quả hồi quy pooled OLS như sau:

Bảng 3.14. Kết quả hồi quy pooled OLS

Source SS df MS Number of obs = 180 F(9, 170) = 21.91 Prob > F = 0.0000 R-squared = 0.5370 Adj R-squared = 0.5125 Root MSE = 0.86621 Model 147.921789 9 16.4357543 Residual 127.552985 170 0.750311674 Tổng 275.474774 179 1.53896521

TLNX Hệ số hồi quy Sai số chuẩn t P > t Khoảng tin cậy 95%

1.TLNX 0.4360341 0.0542477 8.04 0.000 0.3289482 0.5431199 TTTD 0.0032375 0.0039334 0.82 0.412 -0.004527 0.011002 DPRRTD 0.2557239 0.0922225 2.77 0.006 0.0736752 0.4377726 CFHĐ 0.3064744 0.1360215 2.25 0.026 0.0379657 0.5749832 TNNL 0.0037865 0.0051718 0.73 0.465 -0.0064227 0.0139956 TTCN 0.0320256 0.0102631 3.12 0.002 0.0117661 0.052285 GDP -0.0212484 0.0533494 -0.40 0.691 -0.1265611 0.0840643 LP 0.1402723 0.0294511 4.76 0.000 0.0821354 0.1984092 SIZE -0.1494514 0.0736459 -2.03 0.044 -0.2948296 -0.0040732 Hằng số 1.419156 1.079713 1.31 0.190 -0.7122158 3.550529 Nguồn: Kết quả chạy dữ liệu từ phần mềm Stata 16.0

Kết quả ước lượng mô hình pooled OLS cho Prob > F = 0.0000; R-squared = 0.5370, cho kết quảước lượng tốt. Kết quảước lượng có thể thấy các nhân tố tỷ lệ nợ xấu có độ trễ 1 năm (1.TLNX), tỷ lệ dự phòng rủi ro tín dụng (DPRRTD), chi phí hoạt

động (CFHĐ), tăng trưởng chi nhánh và sở giao dịch (TTCN), tỷ lệ lạm phát (LP), quy mô ngân hàng (SIZE) có tác động tới tỷ lệ nợ xấu của ngân hàng năm hiện tạị Kết quả ước lượng chỉ ra là biến tốc độ tăng trưởng tín dụng (TTTD), biến tỷ lệ thu nhập ngoài lãi (TNNL), biến tốc độ tăng trưởng GDP (GDP) không có ý nghĩa thống kê.

* Ước lượng mô hình tác động cốđịnh FEM:

Mô hình FEM giả định mỗi thực thể đều có những đặc điểm riêng biệt ảnh hưởng đến biến giải thích, FEM phân tích mối tương quan giữa phần dư của mỗi thực thể với các biến giải thích qua đó kiểm soát và tách ảnh hưởng của các đặc điểm riêng biệt ra khỏi các biến giải thích để ước lượng những ảnh hưởng thực của biến giải thích lên biến được giải thích (biến phụ thuộc). Ước lượng mô hình tác động cố định FEM với lệnh xtreg ..,fẹ Kết quảước lượng như bảng dưới đây:

Bảng 3.15. Kết quảước lượng mô hình cốđịnh FEM

R-squared: Obs per group:

within = 0.5050 min = 9 between = 0.5087 Avg = 9.0 overall = 0.5043 max = 9 Corr (u_i, Xb) = -0.0701 F(9,151) = 17.12 Prob > F = 0.0000 TLNX Hệ số hồi quy Sai số

chuẩn t P > t Khoảng tin cậy 95%

1.TLNX 0.3230651 0.0600299 5.38 0.000 0.2044582 0.441672 TTTD 0.0053382 0.0046706 1.14 0.255 -0.00389 0.0145665 DPRRTD 0.284621 0.1055106 2.70 0.008 0.0761532 0.4930887 CFHĐ 0.431322 0.2374558 1.82 0.041 -0.0378429 0.9004869 TNNL 0.0044591 0.0068287 0.65 0.515 -0.009033 0.0179512 TTCN 0.0356934 0.0106332 3.36 0.001 0.0146843 0.0567025 GDP -0.0307486 0.053215 -0.58 0.564 -0.1358907 0.0743934 LP 0.1325379 0.0354739 3.74 0.000 0.0624487 0.2026272 SIZE -0.3375879 0.2242397 -1.51 0.034 -0.7806404 0.1054647 Hằng số 3.743117 2.998352 1.25 0.214 -2.181023 9.667257 sigma_u 0.41220742 sigma_e 0.84430589

rho 0.19247987 (fraction of variance due to u_i)

test that all u_i=0: F(19, 151) = 1.47 Prob > F = 0.1038

Kết quảước lượng mô hình tác động cố định FEM cho Prob > F = 0.0000; các biến có ý nghĩa thống kê ngoại trừ biến tốc độ tăng trưởng tín dụng (TTTD), tỷ lệ thu nhập ngoài lãi (TNNL), tốc độ tăng trưởng GDP (GDP) có P > 5% là không có ý nghĩa thống kê. Kết quảước lượng mô hình cho kết quả khá tốt, chỉ ra rằng nhân tố tỷ lệ nợ xấu có độ trễ 1 năm (1.TLNX), tỷ lệ dự phòng rủi ro tín dụng (DPRRTD), chi phí hoạt động (CFHĐ), tăng trưởng chi nhánh và sở giao dịch (TTCN), tỷ lệ lạm phát (LP), quy mô ngân hàng (SIZE) có tác động tới tỷ lệ nợ xấu của ngân hàng năm hiện tạị

Kết quảước lượng mô hình cốđịnh FEM cho thấy kiểm định test that all u_i=0: F(19, 151) = 1.47, Prob > F = 0.1038 > 5% chấp nhận Ho, hay là mô hình hồi quy pooled OLS tốt hơn mô hình FEM.

* Ước lượng mô hình tác động ngẫu nhiên REM:

Mô hình tác động ngẫu nhiên REM với giảđịnh là có sự biến động giữa các cá thể và có liên quan đến biến giải thích thì giả định của mô hình REM sự biến động giữa các cá thể là ngẫu nhiên và không tương quan đến các biến giải thích. Như vậy, sự khác biệt giữa mô hình FEM và mô hình REM ở sự biến động của các cá thể, nếu sự khác biệt giữa các cá thể có ảnh hưởng đến biến phụ thuộc thì REM sẽ thích hợp hơn so với FEM. Trong mô hình REM phần dư của mỗi thực thể (không tương quan với biến giải thích) được xem là một biến giải thích mớị Để ước ước lượng mô hình tác động ngẫu nhiên REM sử dụng với câu lệnh xtreg ..,rẹ Kết quả ước lượng như bảng dưới đây:

Bảng 3.16. Kết quảước lượng mô hình ngẫu nhiên REM

R-squared: Obs per group:

within = 0.4930 min = 9 between = 0.7467 Avg = 9.0 overall = 0.5370 max = 9 Corr (u_i, x) = 0 (assumed) Wald chi2(9) = 197.15 Prob > chi2 = 0.0000

TLNX Hệ số hồi quy

Sai số

chuẩn z P > z Khoảng tin cậy 95%

1.TLNX 0.4360341 0.0542477 8.04 0.000 0.3297196 0.5423576 TTTD 0.0032375 0.0039334 0.82 0.410 -0.0044718 0.0109467 DPRRTD 0.2557239 0.0922225 2.77 0.006 0.0749712 0.4364766 CFHĐ 0.3064744 0.1360215 2.25 0.024 0.0398772 0.5730717

Phương pháp và trình tự phân tích dữ liệu

Giả thuyết nghiên cứ ụ

Tốc độ tăng trưởng tín dụng