Hiện nay, các bài nghiên cứu trên thế giới sử dụng phổ biến 3 loại dữ liệu: dữ liệu chuỗi thời gian (time-series data), dữ liệu chéo (cross-sectional data) và dữ liệu bảng (panel data). Mỗi loại dữ liệu được thiết kế riêng cho từng mục đích và điều kiện nghiên cứu.
Dữ liệu chuỗi thời gian: thể hiện thông tin về một đối tượng trong 1 khoảng
thời gian dài. Nghiên cứu loại dữ liệu này có thể thấy được sự thay đổi của đối
tượng trong thời gian nghiên cứu, từ đó dự báo xu hướng dài hạn của đối tượng đó trong tương lai.
Dữ liệu chéo: trái với dữ liệu theo thời gian, dữ liệu chéo thể hiện thông tin về
nhiều đối tượng vào một thời điểm nhất định.
Dữ liệu bảng: là sự kết hợp của dữ liệu chéo và dữ liệu chuỗi thời gian. Dữ liệu
29
bảng cung cấp nhiều thơng tin hơn, biến thiên hơn, ít có sự đa cộng tuyến giữa các biến số, bậc tự do cao hơn, và hiệu quả hơn. Bằng cách nghiên cứu các dữ liệu chéo một cách lặp đi lặp lại, dữ liệu bảng thực hiện tốt hơn các nghiên cứu về những thay
đổi xảy ra liên tục như tỷ lệ thất nghiệp, di chuyển lao động. Cho phép kiểm soát sự
khác biệt không quan sát được giữa các thực thể (entities), ví dụ như khác biệt văn hố giữa các quốc gia hay sự khác biệt về triết lý kinh doanh giữa các cơng ty. Cho phép kiểm sốt các biến không quan sát được nhưng thay đổi theo thời gian (chính sách quốc gia, thỏa thuận quốc tế). Cho phép nghiên cứu các mơ hình phức tạp, ví dụ như tính kinh tế do quy mơ hay thay đổi cơng nghệ.
Ngân hàng Việt Nam có lịch sử phát triển khá non trẻ, trong điều kiện các quy
định cơng khai tài chính chưa được nghiêm ngặt nên đa số các ngân hàng không công bố đầy đủ số liệu của mình trong suốt quá trình hoạt động. Đặc điểm này gây khá nhiều khó khăn cho các bài nghiên cứu về ngân hàng. Với thực tế như trên, bài nghiên cứu sẽ chọn dữ liệu bảng để đảm bảo số lượng đối tượng thu thập được nhiều nhất.
Trong nghiên cứu, độ chính xác của dữ liệu vơ cùng quan trọng. Nếu các dữ liệu thu thập từ những nguồn không đáng tin cậy, và các dữ liệu này được dùng để phân tích, nghiên cứu thì kết quả bài nghiên cứu cũng không mang nhiều ý nghĩa. Vì lý do này, bài nghiên cứu sử dụng số liệu từ các báo cáo tài chính đã được kiểm toán của 30 ngân hàng thương mại Việt Nam giai đoạn từ 2005 đến 2010. Tuy
nhiên, đây là các số liệu phục vụ cho mục đích báo cáo cho cổ đơng và các bên có liên quan như: cơ quan thuế, ngân hàng nhà nước, không phục vụ trực tiếp cho bài
nghiên cứu. Do đó, sau khi dữ liệu được thu thập, tác giả phải thực hiện bước tiếp theo là tính tốn lại các biến dựa trên số liệu thu thập được từ báo cáo tài chính để phù hợp với bài nghiên cứu.