Mẫu nghiên cứu của đề tài bao gồm 31 công ty niêm yết trên HOSE (xem chi tiết thông tin tại phụ lục 1), được lựa chọn căn cứ vào việc thỏa mãn đầy đủ các tiêu chí như sau:
(i) Được được Tạp chí Forbes Việt Nam vinh danh trong top 50 công ty niêm yết tốt nhất Việt Nam năm 2016: 50 công ty trong danh sách có giá trị vốn hóa 829.010 tỷ đồng, chiếm 62,14 % giá trị vốn hóa thị trường (theo mức giá đóng cửa phiên giao dịch ngày 16/05/2016). Tổng giá trị doanh thu của 50 công ty đạt 475.546 tỷ đồng, bằng 37,77% của toàn thị trường. Lợi nhuận sau thuế đạt 53.482 tỷ đồng, chiếm 53,08% toàn thị trường3
.
(ii) Không phải là những công ty thuộc ngành tài chính (ngân hàng, chứng khoán, bảo hiểm).
(iii) Có giá trị vốn hóa trên 300 tỷ đồng và doanh thu trên 150 tỷ đồng.
(iv) Cổ phiếu của công ty vẫn còn niêm yết trên thị trường tính đến thời điểm kết thúc năm tài chính 2016.
(v) Năm tài chính được tính từ ngày 01/01 cho đến ngày 31/12.
(vi) Có đầy đủ báo cáo tài chính đã kiểm toán từ năm 2011 đến năm 2016.
(vii) Tất cả báo cáo tài chính được kiểm toán và báo cáo kiểm toán cho ý kiến chấp nhận tính hợp lý và trung thực theo nguyên tắc trọng yếu.
(viii) Xử lý dữ liệu trống: dữ liệu nghiên cứu bao gồm tất cả 7 biến số. Thời gian từ năm 2011 đến 2016 (6 năm) của 31 công ty cổ phần niêm yết tại HOSE. Do đó, theo lý thuyết, nghiên cứu có tất cả 186 quan sát (bằng 6 năm nhân với 31 công ty) trong mô hình nghiên cứu. Tuy nhiên, dữ liệu tồn tại các dữ liệu trống và do đó cần được xử lý. Theo kết quả từ hình 3.3 và bảng 3.2, xét trên toàn bộ bảng 7 biến, có 92.47% các giá trị không bị trống; có khoảng 3.76% các giá trị bị trống tại 5 biến (DPRt-1, SIZE, DPR, DA, OCF) tương ứng với 7 quan sát, khoảng 3.23% các giá trị trống tại 1 biến (DPRt-1) tương ứng với 6 quan sát.
Hình 3.3: Mức độ dữ liệu trống trong dữ liệu
Nguồn: Xử lý của tác giả từ R Studio
Bảng 3.2: Thống kê dữ liệu trống toàn bộ Panel
DPR DPRt-1 DA OCF ROE SIZE GROWTH
172 1 1 1 1 1 1 1 0
6 1 0 1 1 1 1 1 1
1 0 1 0 0 1 0 1 4
7 0 0 0 0 1 0 1 5
8 13 8 8 0 8 0 45
Các giá trị này không phải bị trống một cách hệ thống, hầu như chỉ khách quan do báo cáo tài chính công ty mẹ kiểm toán của các công ty không được công bố.
Để xử lý các dữ liệu trống như vậy, chúng ta có thể sử dụng các phương pháp nhằm giả lập dữ liệu (imputation/simulation) để tính toán các vị trí chỉ trống ở một vài vị trí như các công ty có mã chứng khoán CAV, CTD, NLG, PAC, SBT, phương pháp được chọn là giả lập Kalman. Sau khi giả lập, tác giả thu được 1 bảng dữ liệu cân bằng mạnh (strong balanced panel) với hệ số đo lường mức độ cân bằng gamma và nu đều bằng 14
.