Luận văn sử dụng phương pháp nghiên cứu định lượng, áp dụng kỹ thuật hồi quy đa biến với dữ liệu bảng (Panel Data) để xem xét mức độ ảnh hưởng của các yếu tố đến lợi nhuận ngân hàng, chạy mô hình hồi quy Pooled regression (OLS), mô hình Fixed effects (FEM) và mô hình Random effects (REM), từ đó so sánh kết quả giữa các mô hình. Kết quả thực nghiệm từ việc chạy mô hình và các kiểm định sẽ được sử dụng làm cơ sở để chấp nhận hay bác bỏ các giả thuyết của nghiên cứu, đảm bảo tính phù hợp của mô hình. Luận văn tiến hành xây dựng mô hình nghiên cứu, trình bày các biến độc lập và biến phụ thuộc trong mô hình ở Phần 4, nguồn dữ liệu được lấy từ báo cáo tài chính và báo cáo thường niên của các ngân hàng và các biến vĩ mô được lấy dữ liệu từ nguồn tổng cục thống kê. Phần mềm được tác giả sử dụng để phân tích định lượng là Stata 12, lý do là phần mềm này cung cấp đầy đủ các công cụ để tác giả phân tích kết quả định lượng.
Bên cạnh đó, luận văn còn sử dụng các phương pháp như: tổng hợp, so sánh, phân tích, suy luận, mô tả... nhằm so sánh với thực tế, xem xét đánh giá các yếu tố ảnh hưởng đến lợi nhuận của NH TMCP Hàng Hải Việt Nam.
2.2.1. Dữ liệu nghiên cứu
Bài luận văn này được tiến hành dựa trên mẫu nghiên cứu là NH TMCP Hàng Hải Việt Nam. Bài luận văn sử dụng dữ liệu thứ cấp, được lấy từ các báo cáo tài chính được kiểm toán và công bố hằng năm của ngân hàng, bankscope. Các dữ liệu kinh tế vĩ mô được thu thập từ trang website của ngân hàng thế giới (Worldbank). Bài luận văn được thực hiện dựa trên số liệu của NH TMCP Hàng Hải Việt Nam trong giai đoạn 2007-2020, chia ra theo các tháng (168 tháng).
2.2.2. Phương pháp xử lý dữ liệu
Thực nghiệm trong kinh tế là giải thích mối quan hệ giữa các đại lượng độc lập đối với biến phụ thuộc. Hay nói cách khác là nghiên cứu thực nghiệm muốn biết sự tác động của Xi| lên Y theo chiều hướng lẫn độ tác động như thế nào. Để trả lời được vấn đề này thì phải dựa vào mẫu dữ liệu thu thập nhằm có một kết quả ước lượng không chệch của biến độc lập đối với biến phụ thuộc. Việc kiểm soát được kết quả ước lượng trong mô hình hồi quy thì điều tiên quyết là phải kiểm soát được các biến nhiễu trong mô hình, bao gồm những biến quan sát được và không quan sát được. Đối với những thành phần nhiễu quan sát được thì việc mô hình tuyến tính cổ điển Gauss (CLRM) có thể giải quyết được những vấn đề thường xuyên gặp phải trong mô hình như: Phương sai của nhiễu, tương quan phần dư của nhiễu, tính đa cộng tuyến. Đồng thời ước lượng OLS trên mô hình thuộc dạng dữ liệu quan sát nhiễu được như thế này sẽ mang ước lượng không có độ thiên lệch (không chệch) hoặc sai số đặc trưng, có tính nhất quán và hiệu quả nhất (tính chất BLUE). Còn đối với các biến nhiễu không quan sát được, điều đó tùy vào đặc điểm, tính chất khác nhau của từng lớp đối tượng và thời gian mà lựa chọn mô hình hồi quy tác động cố định (FEM) hay mô hình hồi quy tác động ngẫu nhiên (REM) cho phù hợp. Cả hai mô hình này đều đòi hỏi chúng ta phải thao tác và sử dụng dữ liệu bảng (panel data).
Dữ liệu bảng đôi khi còn được gọi là dữ liệu gộp (longitudinal data) mô tả nhiều đại lượng tương ứng với tần số quan sát qua nhiều đối tượng (cá nhân, doanh
nghiệp, tỉnh, thành phố, quốc gia) theo một chuỗi thời gian xác định cho từng đối tượng là như nhau. Có thể nói dữ liệu bảng là sự kết hợp của dữ liệu chéo (cross section) và dữ liệu theo thời gian (time series). Để có thể thu thập được dữ liệu bảng ta cần tiến hành thu thập một hoặc nhiều đặc điểm của đối tượng nghiên cứu trong cùng một khoảng thời gian. Dữ liệu bảng có nhiều ưu thế hơn so với nhóm dữ liệu thông thường, điển hình dữ liệu bảng có 2 điểm nổi trội như sau:
Đầu tiên, các ước lượng tham số trong mô hình hồi quy bằng dữ liệu bảng sẽ cho kết quả có độ tin cậy cao hơn, điều này được thể hiện qua ba yếu tố: Thứ nhất dữ liệu bảng sẽ kiểm soát được những thành phần không quan sát được. Các thành phần này có thể không giống nhau giữa các đối tượng nhưng không thay đổi theo thời gian hoặc có thay đổi theo thời gian nhưng giống nhau giữa các đối tượng. Điều này phần nào đã làm thay đổi để giảm sự chênh lệch trong ước lượng tham số mô hình. Yếu tố thứ hai, thông thường sự biến động trong dữ liệu bảng thường nhiều hơn so với dữ liệu chéo hoặc dữ liệu thời gian. Sự biến động cho một đặc điểm trong dữ liệu càng nhiều thì hiển nhiên độ chính xác của các ước lượng đó càng tăng, tức là có nhiều biến động thì càng có nhiều giải thích cho việc ước lượng tham số. Yếu tố thứ ba, có ít đa cộng tuyến trong các biến giải thích ở dữ liệu bảng hơn so với dữ liệu chéo hoặc dữ liệu thời gian. Vì vậy kết quả ước lượng trong mô hình dữ liệu bảng được nâng độ chính xác cao hơn.
Thứ hai, dữ liệu bảng xác định và đo lường được những tác động mà những tác động đó không được tìm thấy hay không xác định khi sử dụng dữ liệu chéo hoặc theo chuỗi dữ liệu thời gian riêng lẻ. Chẳng hạn, xét một ví dụ cụ thể về đánh giá lợi thế thu nhập theo kinh nghiệm làm việc và trình độ của nhiều cá nhân trong một lĩnh vực cụ thể. Với dữ liệu chéo, ta có thể dự báo được sự thay đổi của trình độ của từng cá nhân. Đối với dữ liệu theo thời gian, thì không thể tách riêng được yếu tố lợi thế thu nhập theo trình độ dựa vào kinh nghiệm làm việc của cá nhân. Giả định nghiên cứu trong dữ liệu thời gian là thu nhập không đổi theo kinh nghiệm làm việc. Tuy nhiên, đây là một phương pháp không đáng tin cậy. Với dữ liệu bảng ta có thể xác định và đo lường cả hai yếu tố lợi thế thu nhập theo kinh nghiệm dựa vào trình độ của từng cá nhân.
Tóm lại, việc sử dụng hồi quy theo dữ liệu bảng sẽ thu được những kết quả khả quan trong việc ước lượng các hệ số gốc của các biến độc lập trong mô hình có nhiều yếu tố đặc trưng, đảm bảo được tính chất ước lượng trong hồi quy là không có độ chệch, mang tính hiệu quả. Trong khi dữ liệu theo thời gian thuần túy hoặc dữ liệu chéo thì không thể xác định được.
⮚ Các bước lựa chọn mô hình phù hợp phân tích
Các bước phân tích để lựa chọn mô hình phù hợp cụ thể như sau:
Bước 1: Tác giả sử dụng phép toán và các câu lệnh trong phần mềm Rstudio
tiến hành thực hiện phân tích phương pháp hồi quy Pooled OLS và FEM, sau đó so sánh kết quả để lựa chọn 1 mô hình phù hợp nhất trong 2 mô hình này. Sau khi ước lượng với FEM, sử dụng kiểm định F để kiểm định giả thuyết 𝐻0: α1 = α2 = … αN = α. Nếu kết quả kiểm định bác bỏ giả thuyết 𝐻0, chúng ta nên chọn FEM, ngược lại, chọn Pooled OLS.
Bước 2: Tác giả so sánh giữa 2 mô hình Pooled OLS với REM, phương pháp
nhân tử Lagrange (LM) với kiểm định Breusch-Pagan12 được sử dụng để kiểm chứng tính phù hợp của ước lượng. Theo đó, giả thuyết 𝐻0 cho rằng sai số của ước lượng thô không bao gồm các sai lệch giữa các doanh nghiệp hoặc các năm (phương sai giữa các doanh nghiệp) là không đổi. Bác bỏ giả thuyết 𝐻0, cho thấy sai số trong ước lượng có bao gồm cả sự sai lệch giữa các nhóm, và phù hợp với mô hình REM, ngược lại, Pooled OLS là phù hợp hơn REM.
Sau khi thực hiện xong 2 bước trên, nếu kết quả kiểm định cho thấy, cả 2 bước này Pooled OLS đều phù hợp hơn FEM và REM, tác giả sẽ lựa chọn phương pháp hồi quy Pooled OLS. Nếu không phải kết quả này, tác giả sẽ thực hiện tiếp bước thứ 3 như sau:
Bước 3: Tác giả thực hiện ước lượng với FEM và REM, sử dụng kiểm định
Hausman dưới giả thuyết 𝐻0: Cov(Xit, ui) = 0. Nếu kết quả kiểm định bác bỏ giả thuyết 𝐻0, tác giả chọn FEM. Nếu kết quả kiểm định không bác bỏ giả thuyết 𝐻0, tác giả sẽ chọn REM. Bởi vì, một mô hình chỉ có ý nghĩa giải thích khi các giả định
của nó đã được thỏa mãn. Do vậy, trong luận văn này, tác giả sẽ phải kiểm tra các giả định trước khi diễn giải các kết quả của mô hình. Quá trình kiểm tra các giả định có thể được thực hiện thông qua việc phát hiện khuyết tật có thể có của mô hình. Nội dung kế tiếp sẽ thực hiện các kiểm định này.
⮚ Kiểm định các khuyết tật của mô hình và lựa chọn mô hình hồi quy. (1)Giả định phương sai của sai số không đổi:
Phương sai thay đổi nghĩa là phương sai của các phần dư là không phải hằng số, nghĩa là chúng khác nhau ở các quan sát khác nhau. Điều này sẽ dẫn đến vấn đề nếu các phương sai không bằng nhau thì độ tin cậy tương đối của mỗi quan sát (dữ liệu) sẽ không bằng nhau. Phương sai càng lớn thì mức độ quan trọng gán cho quan sát càng nhỏ. Vấn đề sẽ rõ ràng hơn khi giá trị của phương sai có mối quan hệ với một hoặc một số biến giải thích. Điều này vi phạm giả định rằng các phân phối của phần dư phải không có tương quan với bất kì biến giải thích nào.
Hiện tượng phương sai thay đổi sẽ dẫn đến một số hậu quả như: các ước lượng OLS vẫn là không chệch nhưng không còn hiệu quả nữa, ước lượng của các phương sai sẽ bị chệch, như vậy sẽ làm mất hiệu lực của kiểm định hệ số hồi quy.
Trong quá trình hồi quy, tác giả sẽ tập trung xem xét lại bản chất của vấn đề nghiên cứu, đồ thị phần dư và dùng một số kiểm định Goldfeld-Quandt, BreuschPagan, White, Park trên OLS và phương pháp Greene (2000) trên dữ liệu bảng để kiểm tra xem mô hình đã vi phạm giả thiết hồi quy - hiện tượng phương sai thay đổi.
(2)Giả định không có sự tương quan giữa các phần dư:
Tự tương quan là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian trong các số liệu chuỗi thời gian, hoặc sắp xếp theo thứ tự không gian, đối với các số liệu theo không gian.
Để kiểm tra xem mô hình đã vi phạm giả thiết hồi quy - hiện tượng tự tương quan. Trong quá trình hồi quy, tác giả sẽ dùng phương pháp đồ thị và kiểm định d (Durbin-Watson) để phát hiện tượng tự tương quan trong mô hình hồi quy OLS (pooled regression). Ở khía cạnh kiểm tra phương sai thay đổi dữ liệu bảng, tác giả sử dụng kiểm định được đề xuất bởi Wooldridge (2002)13 và Drukker (2003)14.
Hiện tượng tự tương quan sẽ dẫn đến một số hậu quả như: ước lượng OLS vẫn là ước lượng tuyến tính không chệch, nhưng không là ước lượng hiệu quả nữa; phương sai các ước lượng OLS là bị chệch, đôi khi quá thấp so với phương sai thực và sai số tiêu chuẩn, dẫn đến phóng đại tỷ số t; các kiểm định t và F không đáng tin cậy; công thức thông thường để tính phương sai của sai số là ước lượng chệch của phương sai thực và trong một số trường hợp dường như ước lượng thấp của phương sai thực; có thể hệ số xác định không đáng tin cậy và dường như là nhận giá trị ước lượng cao; các phương sai và số tiêu chuẩn của dự đoán không có hiệu quả.
(3)Giả định không có mối tương quan giữa các biến độc lập (không xảy ra hiện tường đa cộng tuyến)
Đa cộng tuyến nghĩa là hai hay nhiều biến giải thích trong biểu thức hồi quy có mối quan hệ tuyến tính với nhau. Nếu các biến có mối quan hệ tuyến tính thì các hệ số ước lượng và thống kê T sẽ không còn hợp lý.
Trong quá trình hồi quy, kết quả hồi quy có hệ số xác định R2 cao nhưng tỷ số t thấp, tương quan cặp giữa các biến giải thích cao, xét tương quan riêng, hồi quy phụ thấy có tồn tại hiện tượng tương quan giữa các biến độc lập thì mô hình đã vi phạm giả thiết hồi quy - hiện tượng đa cộng tuyến.
Hiện tượng đa cộng tuyến sẽ dẫn đến một số hậu quả như: phương sai và hiệp phương sai của các ước lượng OLS lớn, khoảng tin cậy rộng lớn, tỷ số t mất ý nghĩa, hệ số xác định cao nhưng tỷ số t mất ý nghĩa, các ước lượng OLS và sai số chuẩn trở nên rất nhạy với những thay đổi trong số liệu, dấu của các ước lượng của các hệ số hồi quy có thể sai lệch, thêm vào hay bớt đi các biến cộng tuyến với các biến khác thì hệ số của các biến còn lại có thể thay đổi rất lớn và thay đổi cả dấu của chúng.
Đa cộng tuyến giữa các biến luôn tồn tại và khuyết tật chỉ xảy ra nếu mức độ đa cộng tuyến đủ lớn để gây ra sự thiên chệch các kết quả ước lượng. Theo Gujarati (2004), một số cách kiểm tra vấn đề đa cộng tuyến như sau:
− Nhiều trường hợp mô hình có R2 lớn hơn 0.8 nhưng | t | thấp.
− Hệ số tương quan giữa các cặp biến độc lập cao. Nếu giá trị tuyệt đối của hệ số tương quan giữa 2 biến lớn hơn 0.8 cho thấy có tồn tại hiện tượng đa cộng tuyến giữa 2 biến này.
− Sử dụng hệ số khuếch đại phương sai (VIF), nếu VIF của một biến lớn hơn 10 thì tồn tại hiện tượng đa cộng tuyến giữa biến đó với các biến giải thích còn lại. Trong luận văn này, tác giả sẽ thực hiện tính toán hệ số tương quan giữa các cặp biến độc lập và sử dụng hệ số khuếch đại phương sai (VIF).
Trong luận văn tác giả sử dụng hệ số tương quan giữa các cặp biến độc lập kết hợp với sử dụng hệ số khuếch đại phương sai (VIF). Tuy nhiên, cũng theo Baltagi (2008), việc sử dụng dữ liệu bảng cũng đã hạn chế được hiện tượng đa cộng tuyến này nhưng nếu có hiện tượng đa cộng tuyến xảy ra thì tác giả sẽ khắc phục bằng cách bỏ các biến có đa cộng tuyến hoặc tăng thêm số quan sát bằng cách thu thập thêm số liệu.
Lựa chọn phương pháp hồi quy phân tích:
Trong nội dung này, tác giả sẽ tiến hành thực hiện kiểm định việc lựa chọn mô hình ước lượng hồi quy.
Tiểu kết chương 2
Chương 2 đã giới thiệu tổng quan về bối cảnh hình thành, phát triển và cơ cấu tổ chức của NH TMCP Hàng Hải Việt Nam và tình hình lợi nhuận của NH TMCP Hàng Hải Việt Nam giai đoạn 2017-2020. Qua đó, tác giả đã lựa chọn ra phương pháp nghiên cứu và mô hình phù hợp với vấn đề nghiên cứu.
Chương 3
KẾT QUẢ VÀ THẢO LUẬN