Dữ liệu được tác giả sử dụng được dựa trên số liệu báo cáo tài chính đã kiểm toán của 31 NHTM VN và dữ liệu các chỉ số vĩ mô được lấy từ ngân hàng phát triển
Châu Á (ADB) kết hợp với việc tổng hợp, tính toán theo công thức đã được nêu ở chương cơ sở lý thuyết (chương 2) để được nguồn dữ liệu thứ cấp đưa vào mô hình. Cụ thể, với tổng 322 mẫu quan sát được bắt đầu vào tháng 01/2009 và kết thúc vào tháng 12/2019 sẽ được đưa vào mô hình để đánh giá các yêu tô ảnh hưởng đến hiệu quả hoạt động của ngân hàng. Sau đó sử dụng phương pháp hồi quy dữ liệu bảng đề thống kê phân tích mức độ tác động của biến độc lập lên biến phụ thuộc là ROA và ROE. Nghiên cứu sử dụng dữ liệu bảng để phân tích vì có nhiều ưu điểm so với dữ liệu chéo hoặc dữ liệu chuỗi thời gian, như:
Thứ nhất, dữ liệu bảng cho phép giải thích sự khác biệt hay không đồng nhất (heterogeneity) của các đơn vị chéo. Các đơn vị chéo khác nhau thường không đồng nhất với nhau. Dữ liệu bảng cung cấp dữ liệu nhiều đơn vị chéo theo thời gian, nên cũng chứa những đặc điểm không đồng nhất giữa chúng. Phân tích dữ liệu bảng có thể tính đến đặc trưng của từng đơn vị chéo (individual specific). (Phạm Thị Tuyết Trinh, 2016).
Thứ hai, do kết hợp của yếu tố thời gian và đơn vị chéo, dữ liệu bảng có số lượng số quan sát lớn hơn, cung cấp nhiều thông tin hơn. Trong nghiên cứu thực nghiệm, mối quan hệ giữa các biến số theo thời gian là vấn đề thường được quan tâm.
Do đó, sử dụng dữ liệu bảng các nhà nghiên cứu chỉ cần kết hợp nhiều đơn vị chéo trong một khoảng thời gian nhất định, nhờ đó gian tăng số lượng quan sát, gia tăng bậc tự do, theo đó là sức mạnh của kiểm định. Ngoài ra sự kết hợp dữ liệu theo cách này còn làm giảm bớt hiện tượng đa cộng tuyến thường gặp trong các mô hình chuỗi thời gian nhiều biến giải thích. (Phạm Thị Tuyết Trinh, 2016).
Thứ ba, sử dụng dữ liệu bảng có thể nghiên cứu những vấn đề rộng hơn, và giải quyết được những vấn đề phức tạp hơn. Do là sự kết hợp của dữ liệu chuỗi thời gian và dữ liệu chéo, dữ liệu bảng cho phép vừa phân tích được tính động theo thời gian vừa phân tích được sự khác nhau giữa các đơn vị chéo nhờ thành phần chéo trong dữ liệu.(Phạm Thị Tuyết Trinh, 2016)
Thứ tư, các mô hình dữ liệu bảng cho phép xây dựng và kiểm định những mô hình hành vi phức tạp hơn so với hai dạng dữ liệu chéo và dữ liệu chuỗi thời gian thuần túy, như mô hình hiệu quả về mặt kỹ thuật. (Phạm Thị Tuyết Trinh, 2016)
Cuối cùng là những thiên lệch do tổng hợp số liệu (data aggregation) về các công ty hoặc cá nhân sẽ giảm bớt đi hoặc triệt tiêu trong dữ liệu bảng. Do dữ liệu bảng sẽ tạo ra những biến chính xác hơn so với số liệu thu thập và đo lường ở góc độ
vĩ mô. (Phạm Thị Tuyết Trinh, 2016)
3.3 PHƯƠNG PHÁP NGHIÊN CỨU
Mô hình hồi quy bằng 3 phương pháp: ước lượng mô hình hồi quy Pooled- OLS, FEM, REM. Sở dĩ ước lượng mô hình hồi quy bằng 3 phương pháp vì mỗi phương pháp đều có các ưu và nhược điểm như sau:
Ước lượng Pool OLS là cách tiếp cận đơn giản nhất. Giả định của mô hình này
là các hệ số hồi quy (hệ số chặn và hệ số gốc) là không thay đổi giữa các ngân hàng, đồng thời mô hình này cũng không xét đến sự thay đổi theo thời gian. Hay nói cách khác, mô hình này bỏ qua sự không đồng nhất, sự khác biệt giữa các ngân hàng cũng như tính các thể giữa các đối tượng nghiên cứu. Đó cũng chính là yếu điểm của mô hình Pooled OLS, mô hình này không nói cho chúng ta biết tác động của các giá trị từng ngân hàng có thay đổi giữa các ngân hàng khác và thay đổi theo thời gian hay không. Và chính điểm yếu này có thể gây ra hiện tượng tự tương quan giữa các biến độc lập trong mô hình có nhiều biến giải thích dẫn đến ước lượng Pooled OLS không
có hiệu quả. Do đó cần một mô hình tốt hơn.(Phạm Thị Tuyết Trinh, 2016)
Ước lượng Fixed Effect Model (FEM), cách ước lượng này giúp khắc phục các yếu điểm của ước lượng Pooled OLS. Theo đó, mô hình này sẽ quan tâm đến sự khác biệt, đặc điểm riêng, không đồng nhất giữa các ngân hàng trong mẫu nghiên cứu
theo thay đổi (theo không gian) của tung độ gốc mỗi ngân hàng. Tuy nhiên, tung độ gốc này không thay đổi theo thời gian và để xem xét sự thay đổi tung độ gốc giữa các
Ước lượng Random Effect Model (REM) khá phù hợp với các nghiên cứu quan tâm đến sự khác biệt giữa các đối tượng nghiên cứu là ngẫu nhiên theo không gian và thời gian. Cách tiếp cận của mô hình này là dựa trên phần dư. (Phạm Thị Tuyết Trinh, 2016)