PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU

3.4.1 Giới thiệu về dữ liệu bảng

Trong phân tích thực nghiệm, các loại dữ liệu thường dùng bao gồm: dữ liệu chuỗi thời gian, dữ liệu chéo và dữ liệu bảng. Nếu dữ liệu chuỗi thời gian giúp ta quan sát các giá trị của một hoặc nhiều biến theo thời gian, dữ liệu chéo cho các giá trị của một hoặc nhiều biến theo không gian (thu thập cho nhiều đơn vị mẫu hoặc nhiều đại diện mẫu tại cùng một thời điểm) thì dữ liệu bảng là sự kết hợp giữa không gian và thời gian. Nói cách khác dữ liệu bảng là sự mở rộng dữ liệu chéo theo thời gian hay dữ liệu chéo theo chuỗi thời gian. Như đã trình bày ở trên, dữ liệu được sử dụng trong mẫu nghiên cứu bao gồm 25 NHTM trong thời gian 10 năm (2008 – 2018) tạo thành bảng dữ liệu cân bằng với 275 quan sát.

Theo TS. Phạm Thị Tuyết Trinh (2016), việc sử dụng dữ liệu bảng trong nghiên cứu có những lợi thế sau: dữ liệu bảng chứa nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả hơn. Cũng vì tỷ lệ thu nhập lãi thuần của các NHTM sẽ liên tục thay đổi qua các năm và bị ảnh hưởng bởi rất nhiều nhân tố tác động nên việc sử dụng dữ liệu bảng tỏ ra thích hợp hơn cho nghiên cứu bởi nó cho phép nghiên cứu các dữ liệu chéo một cách lặp đi lặp lại, phát hiện, đo lường tốt hơn các tác động không thể quan sát được và có thể giúp chúng ta nghiên cứu các mô hình hành vi phức tạp hơn so với dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy.

3.4.2 Một số phương pháp ước lượng cơ bản trong hồi quy dữ liệu bảng

Trong hồi quy dữ liệu bảng, người ta thường dùng ba phương pháp cơ bản sau: phương pháp bình phương tối thiểu dạng gộp (Pooled OLS), phương pháp hiệu ứng cố định (Fixed Effects Model – FEM) và phương pháp hiệu ứng ngẫu nhiên (Random Effects Model – REM).

3.4.2.1 Phương pháp pháp bình phương tối thiểu dạng gộp (Pooled OLS)

Phương pháp Pooled OLS là phương pháp đơn giản nhất để ước lượng mô hình hồi quy bình phương nhỏ nhất thông thường (OLS) và không kể đến các kích

thước không gian và thời gian của dữ liệu bảng. Điều này có nghĩa là phương pháp này,

chúng ta giả định ảnh hưởng của các nhân tố lên tỷ lệ thu nhập lãi thuần là giống nhau giữa tất cả các ngân hàng và không đổi theo thời gian.

Ta có thể thấy, phương pháp này rất đơn giản và dễ thực hiện nhưng rõ ràng những giả định trên rất hạn chế và khó xảy ra trong thực tế vì mỗi ngân hàng đều có những khác biệt và tác động của các đặc điểm riêng biệt này đến tỷ lệ thu nhập lãi thuần ở mỗi ngân hàng là khác nhau và thay đổi qua các năm. Vì thế, kết quả ước lượng thu được có thể không hiệu quả.

3.4.2.2 Phương pháp hiệu ứng cố định (Fixed Effects Model – FEM)

Phương pháp FEM được sử dụng trong ước lượng với giả định mỗi ngân hàng có những đặc điểm riêng biệt và những đặc điểm riêng này có thể ảnh hưởng đến các biến độc lập trong mô hình hay nói cách khác có sự tương quan giữa các biến độc lập với thành phần sai số của mỗi thực thể (chứa các đặc điểm riêng của ngân hàng). Các đặc điểm riêng (không đổi theo thời gian) này là duy nhất đối với một ngân hàng và không tương quan với đặc điểm của các ngân hàng khác.

Vì vậy, FEM có thể kiểm soát, tách ảnh hưởng của các đặc điểm riêng biệt (không đổi theo thời gian) ra khỏi các biến độc lập và mô hình có thể ước lượng tác động thực của các yếu tố trong mô hình lên tỷ lệ thu nhập lãi thuần. Tuy nhiên, FEM có hạn chế là không đo lường được tác nhân không đổi theo thời gian và làm tăng khả năng đa cộng tuyến của mô hình gây khó khăn cho việc ước lượng chính xác.

3.4.2.3 Phương pháp hiệu ứng ngẫu nhiên (Random Effects Model – REM)

Phương pháp REM được sử dụng trong ước lượng với giả định đặc điểm riêng giữa các ngân hàng là ngẫu nhiên và không tương quan với các biến độc lập trong mô hình. REM xem thành phần sai số của mỗi ngân hàng (không tương quan với biến độc lập) là một biến giải thích mới.

Điều này có nghĩa là, trong FEM mỗi ngân hàng có giá trị tung độ gốc cố định riêng và 25 ngân hàng sẽ có 25 tung độ gốc khác nhau, ngược lại, trong REM, chỉ có 1 giá trị tung độ gốc là giá trị trung bình của 25 tung độ gốc của các ngân hàng,

thành phần sai số thể hiện chênh lệch (ngẫu nhiên) của từng tung độ gốc với giá trị trung bình.

Kiểm định Hausman để lựa chọn giữa FEM và REM Kiểm định F - test để lựa chọn Pooled OLS và FEM

Kiểm định Breusch Pagan Lagrange Multiplier để lựa chọn Pooled OLS và REM

Kiểm định các khuyết tật của mô hình: Hiện tượng đa cộng tuyến, tự tương quan và phương sai thay đồi và khắc phục các khuyết tật (nếu có)

Thành phần sai số là biến không thể quan sát được thể hiện những yếu tố tác động không thể quan sát một cách trực tiếp.

3.4.3 Lựa chọn mô hình hồi quy

Như đã phân tích ở trên, mỗi phương pháp được sử dụng với những giả định riêng của nó. Có thể dễ dàng nhận thấy Pooled OLS dường như không hiệu quả bởi những giả định của nó hầu như rất khó xảy ra trong thực tế vì mỗi ngân hàng đều có đặc trưng riêng biệt. Việc lựa chọn giữa FEM và REM phụ thuộc vào giả định về sự tương quan giữa thành phần sai số (chứa các đặc điểm riêng của các ngân hàng) và các biến độc lập trong mô hình: nếu có sự tương quan thì sử dụng FEM và không tương quan thì REM là thích hợp.

Ngoài ra, có thể sử dụng các kiểm định cần thiết nhằm tìm ra mô hình thích hợp nhất trong ba mô hình Pooled OLS, mô hình FEM và mô hình REM được thực hiện theo trình tự sau:

Hình 3.1 – Sơ đồ quy trình nghiên cứu

Nguồn: Tác giả tự tổng hợp

Thống kê mô tả dữ liệu

Phân tích tương quan

Để có thể thực hiện được quy trình này, tác giả sử dụng phần mềm hỗ trợ Stata 13 để thực hiện mô hình và kiểm định mô hình. Các bước trong quy trình được thực hiện chi tiết như sau:

Bước 1: Thống kê mô tả dữ liệu.

Thống kê mô tả được sử dụng nhằm mô tả những đặc tính cơ bản của dữ liệu thu thập được từ nghiên cứu qua các cách thức khác nhau. Qua thống kê mô tả này trình bày được giá trị trung bình của các biến thông qua tiêu chí giá trị trung bình, giá trị nhỏ nhất và giá trị lớn nhất, giá trị trung vị và sai số chuẩn giữa các giá trị. Thông qua các tiêu chí được thống kê đó, ta có thể hiểu được các hiện tượng và đưa quyết định đúng đắn về chuỗi dữ liệu nghiên cứu.

Bước 2: Phân tích tương quan

Phương pháp phân tích tương quan được sử dụng để xem xét mối quan hệ giữa các biến trong mô hình với nhau. Thông qua đó giúp tác giả bước đầu xác định được mối liên hệ tuyến tính giữa biến phụ thuộc và các biến độc lập, mặt khác cũng là cơ sở để nhận biết dấu hiệu đa cộng tuyến khi các biến độc lập có mối tương quan cao. Bước 3: Lựa chọn mô hình hồi quy phù hợp giữa Pooled OLS, FEM và REM.

Thực hiện phân tích hồi quy là một phân tích thống kê để xác định xem các biến độc lập quy định các biến phụ thuộc như thế nào. Kết quả hồi quy được xem là bằng chứng thực nghiệm để đánh giá tác động. Các mô hình hồi quy được tác giả xem xét gồm có: Pooled OLS, Fixed Effect, Random Effect. Để chọn ra được mô hình phù hợp nhất cho bài nghiên cứu, tác giả dựa vào lý thuyết kiểm định được trình bày như sau:

 Pooled OLS và REM:

Kiểm định được thực hiện là kiểm định Breusch Pagan Lagrange Multiplier. Xét 2 mô hình:

OLS: Yi,t = β0 + βkXkit+µit REM: Yi,t = β0 + βkXkit+εi+µit Giả thuyết kiểm định:

H1: Mô hình REM phù hợp hơn.

Nếu kiểm định có p-value < mức ý nghĩa α = 5% thì giả thuyết H0 bị bác bỏ, hay nói cách khác là mô hình REM phù hợp hơn mô hình Pooled PLS.

 Pooled OLS và FEM:

Kiểm định được thực hiện là kiểm định F – test. OLS: Yi,t = β0 + βkXkit+µit

FEM: Yi,t = β0 + βkXkit+αj+µit Giả thuyết kiểm định:

H0: Mô hình Pooled OLS phù hợp hơn. H1: Mô hình FEM phù hợp hơn.

Nếu kiểm định có p-value < mức ý nghĩa α = 5% thì giả thuyết H0 bị bác bỏ, hay nói cách khác là mô hình FEM phù hợp hơn mô hình Pooled OLS.

 FEM và REM:

Kiểm định được thực hiện là kiểm định Hausman. Xét 2 mô hình:

FEM: Yi,t = β0 + βkXkit+µit REM: Yi,t = β0 + βkXkit+εi+µit Giả thuyết kiểm định:

H0: Mô hình REM phù hợp hơn. H1: Mô hình FEM phù hợp hơn.

Nếu kiểm định có p-value < mức ý nghĩa α = 5% thì giả thuyết H0 bị bác bỏ, hay nói cách khác là mô hình FEM phù hợp hơn mô hình REM.

Bước 4: Kiểm định các khuyết tật của mô hình.

Kiểm định hiện tượng đa cộng tuyến: Tác giả sẽ tiến hành kiểm định đa cộng tuyến bằng cách thông qua phân tích hệ số tương quan nhằm kiểm định đa cộng tuyến của từng cặp biến độc lập hoặc dựa vào hệ số phóng đại phương sai VIF. Hệ số tương quan (Pearson) được tính bằng cách chia hiệp phương sai của biến với tích độ lệch chuẩn của chúng. Trong trường hợp các biến độc lập có mối tương quan cao

(lớn hơn hoặc bằng 0.8, theo chuẩn so sánh của Farrar & Glauber, 1967) và có ý nghĩa, đây có

thể là dấu hiệu của hiện tượng đa cộng tuyến. Tuy nhiên, có thể phán đoán này sẽ không chính xác bởi có những trường hợp hệ số tương quan thấp nhưng vẫn xuất hiện đa cộng tuyến. Vì thế tác giả chọn thực hiện kiểm định thêm bằng cách phân tích hệ số phóng đại phương sai VIF để hạn chế sai sót (Badi H. Baltagi, 2005).

Kiểm định hiện tượng tự tương quan: Là hiện tượng có quan hệ tương quan giữa các biến quan sát trong cùng bảng dữ liệu. Tác giả sẽ tiến hành kiểm định Wooldridge cho dữ liệu bảng (Badi H. Baltagi, 2005).

Kiểm định hiện tượng phương sai thay đổi: Nếu trong trường hợp mô hình được chọn là Fix Effect tác giả sẽ tiến hành kiểm định bằng phương pháp nhân tử Larange (Kiểm định LM – Breusch pagan Lagrangian Multiplier) để kiểm tra phương sai thay đổi. Nếu trong trường hợp mô hình Random Effect được chọn thì đề tài chỉ tiến hành kiểm định Wald (Badi H. Baltagi, 2005).

Nếu mô hình có hiện tượng phương sai thay đổi hoặc có hiện tượng tự tương quan hoặc có cả hai khuyết tật này thì đề tài tiến hành khắc phục mô hình nghiên cứu bằng cách ước lượng lại mô hình được chọn bằng phương pháp mô hình hiệu chỉnh sai số chuẩn mạnh – Robust Standard errors (White, 1980).

KẾT LUẬN CHƯƠNG 3

Chương 3 đã lần lượt trình bày phương pháp thực hiện luận văn từ việc xây dựng mô hình nghiên cứu, thu thập dữ liệu và phương pháp phân tích dữ liệu cùng các kiểm định để tìm ra mô hình ước lượng phù hợp. Ở phần giới thiệu mô hình, tác giả đã thiết kế mô hình cho đề tài dựa trên cơ sở lí thuyết đã trình bày ở chương 2. Đồng thời, tác giả cũng xác định các biến độc lập cùng biến phụ thuộc và làm rõ mô hình thông qua việc trình bày công thức, ý nghĩa và bảng kỳ vọng dấu của các biến trên. Từ đó luận văn đã phát triển 8 giả thuyết nghiên cứu. Làm cơ sở cho việc thực hiện mô hình và kết luận đề tài cho chương sau. Bên cạnh đó tác giả đã giới thiệu phương pháp phân tích dữ liệu được sử dụng để xác định kết quả mô hình hồi quy cụ thể.

Chương tiếp theo, chương 4, sẽ trình bày chi tiết về cách thức thực hiện mô hình nghiên cứu dựa theo số liệu đã thu thập bao gồm thống kê mô tả và chạy mô hình. Từ kết quả nghiên cứu thu được, chương cũng sẽ đưa ra các phân tích liên quan.

CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN

Trong chương này, tác giả tiến hành thống kê mô tả, phân tích tương quan giữa các biến. Sau đó tác giả sẽ trình bày phương pháp lựa chọn mô hình ước lượng và kiểm định các khuyết tật của mô hình để đưa đến kết quả nghiên cứu.

4.1 KẾT QUẢ THỐNG KÊ MÔ TẢ DỮ LIỆU

Bảng 4.1 – Thống kê mô tả dữ liệu Biến Số quan sát Giá trị

trung bình Giá trị lớn nhất Giá trị nhỏ nhất Độ lệch chuẩn NIM 275 3.2966 9.0905 0.5779 1.3026 CAP 275 10.1050 40.4836 3.2572 5.5201 LOAN 275 57.8630 99.2766 17.7131 13.5594 LIQ 275 15.9407 73.9356 3.8463 8.7127 CR 275 1.3007 4.1192 0.1921 0.5843 OE 275 1.6522 4.2818 0.3205 0.5465 MQ 275 52.3948 92.7379 22.7101 14.1779 SBR 275 3.0840 40.6372 0.0556 3.1691 IRT 275 10.3709 16.9500 6.9600 2.8789

Nguồn: Tác giả tự tổng hợp từ phần mềm Stata 13 (Xin xem nguồn phụ lục số 02)

Với mẫu dữ liệu được thu thập từ 25 NHTMCP trong giai đoạn từ 2008 – 2018, bảng 4.1 trình bày kết quả thống kê mô tả các biến số được nghiên cứu trong bài. Kết quả mô tả thống kê của 8 biến số bao gồm: giá trị trung bình, giá trị trung vị, giá trị lớn nhất, giá trị nhỏ nhất và độ lệch chuẩn.

Sau đây, tác giả phân tích số liệu của từng biến số qua từng năm trong giai đoạn 2008 – 2018.

NIM 4.50% 4.00% 3.50% 3.00% 2.50% 2.00% 1.50% 1.00% 0.50% 0.00% 20082009201020112012201320142015201620172018

4.1.1 Tỷ lệ thu nhập lãi thuần NIM

Hình 4.1 – Tỷ lệ thu nhập lãi thuần trung bình của 25 NHTM Việt Nam

4.15% 3.91% 3.39% 3.03% 3.14% 3.28% 3.40% 3.02% 2.81% 3.10% 3.04% Nguồn: Tác giả tổng hợp

Thống kê mô tả các biến cho thấy rằng NIM của các NHTM trong giai đoạn 2008 – 2018 có giá trị trung bình là 3.30%, giá trị trung vị bằng 3.14%, với giá trị của này có ý nghĩa là một nửa tổng số quan sát có NIM trên 3.14%, giá trị lớn nhất là 9.09% thuộc về năm 2018 của Ngân hàng TMCP Việt Nam Thịnh Vượng (VPB); ngoài ra giá trị nhỏ nhất là 0.58% thuộc về năm 2017 của Ngân hàng TMCP Sài Gòn (SCB). Độ lệch chuẩn của là 1.3026.

Trong giai đoạn 2008 – 2009 tỷ lệ thu nhập lãi thuần tăng nhẹ. Tiếp đó giai đoạn 2009 – 2010 tỷ lệ thu nhập lãi thuần không có thay đổi nhiều, tuy nhiên đến năm 2011 tỷ lệ này lại trên đà tăng dần một cách nhanh chóng và từ năm 2012 đến năm 2013 giảm mạnh đột ngột. Từ giai đoạn 2014 – 2018 tỷ lệ này dao động lên xuống thay đổi bất thường nhưng chênh lệch qua các năm thấp.

Năm 2008, bởi vì ảnh hưởng của khủng hoảng suy thoái kinh tế thế giới đã khiến tình hình hoạt động sản xuất kinh doanh của các doanh nghiệp Việt Nam trở nên khó khăn, trong khi đó thanh khoản của các NHTM dư thừa, hoạt động tín dụng và đầu tư gặp khó khăn trong khi nguồn vốn thì quá nhiều. Chính vì vậy, NHNN Việt

sách nhằm để kích cầu. Vì vậy tỷ lệ NIM trung bình của các NHTM lúc này có biểu hiện cải thiện tăng nhẹ lên 3.39%, tăng 0.11% so với năm 2007.

Trong giai đoạn 2009 – 2010, các ngân hàng đang nỗ lực cố gắng vực dậy sau cuộc khủng hoảng nền kinh tế năm 2008. Mặc dù nền kinh tế chưa thực sự ổn định và còn nhiều yếu tố gây bất lợi cho nền kinh tế nhưng NIM của các NHTM vẫn có chuyển biến tích cực và giữ vững mặc dù chênh lệch gia tăng giữa năm 2009 và 2010 (0.01%) không cao nhưng đây được xem là khởi đầu tích cực của các NHTM. Trong đó Vietinbank có chỉ tiêu NIM tăng mạnh nhất (NIM của năm 2009 là 2.19% đã đạt tại 4.22% vào năm 2010).

Giai đoạn 2010 – 2011 kinh tế Việt Nam vẫn đối mặt với nhiều rủi ro, thách thức dưới tác động của nền kinh tế thế giới, bắt nguồn từ cuộc khủng hoảng nợ công

nghĩa của tỷ lệ thu nhập lãi thuần

Các nghiên cứu nước ngoài