Biến Phương pháp đo lường Kỳ
vọng
Biến phụ thuộc
Tỷ lệ tiền (CASH) Tiền và tương đương tiền/Tổng tài sản
Biến độc lập
Tỷ số dòng tiền (CF) (Lợi nhuận trước thuế + Khấu hao)/Tổng tài
sản +
Tỷ lệ thanh khoản (LIQ) (TSNH – Tiền và tương đương tiền)/Tổng tài
sản -
Đòn bẩy tài chính (LEV) Tổng nợ/ Tổng tài sản -
Tốc độ tăng trưởng (GRT) (Doanh thu nămt - Doanh thu nămt-1)/ Tổng
tài sản +
Quy mô công ty (SIZE) Logarit tự nhiên tổng tài sản -
Đầu tư vào tài sản cố định (INV)
Thay đổi trong đầu tư vào tài sản cố
định/Tổng tài sản -
Chi trả cổ tức(DIV) Là 1 nếu công ty chi trả cổ tức
Là 0 nếu công ty không chi trả cổ tức -
Nguồn: Tác giả xác định và dự đoán dựa trên các lý thuyết và nghiên cứu đi trước
3.3 Dữ liệu nghiên cứu
Một phần quan trọng không thể thiếu trong nghiên cứu đó chính là xác định kích thước mẫu của dữ liệu nghiên cứu. Trong phân tích hồi quy tuyến tính, theo Barbara và Linda (2007) kích thước của mẫu phụ thuộc vào các yếu tố như: mức ý nghĩa, độ mạnh của phép kiểm định và số lượng biến độc lập. Barbara và Linda (2007) cũng đưa ra công thức xác định mẫu đại diện như sau:
n ≥ 104 + m
Trong đó, n là số quan sát tối thiểu và m là số biến độc lập trong mô hình. Như vậy, nếu số biến độc lập là 7 thì số quan sát tối thiểu là 111.
Sau khi trình bày phương pháp chọn mẫu, đề tài sẽ tiến hành chọn mẫu thuận tiện và sử dụng mẫu nghiên cứu gồm các doanh nghiệp được niêm yết trên sàn chứng khoán Thành phố Hồ Chí Minh (HOSE) và sàn chứng khoán Hà Nội giai đoạn 2011- 2016. Biến phụ thuộc đại diện cho quyết định nắm giữ tiền mặt của doanh nghiệp là tỉ lệ tiền
mặt (CASH). Các biến tài chính được sử dụng để đo lường mối tương quan giữa các đặc điểm của doanh nghiệp với quyết định nắm giữ tiền mặt gồm: đầu tư tài sản cố định (INV), quy mô doanh nghiệp (SIZE), dòng tiền doanh nghiệp (CF), tài sản thanh khoản (LIQUID), đòn bẩy (LEV), tỉ tăng trưởng doanh thu (GRT), chi trả cổ tức (DIV). Bên cạnh đó, số quan sát của mẫu được chọn tối thiểu bằng 2664 số quan sát nhằm đảm bảo kích thước mẫu tương đối lớn, đại diện tốt cho mẫu tổng thể.
3.4 Phương pháp nghiên cứu
Đề tài đã chọn 444 doanh nghiệp trong giai đoạn 2011-2016 để nghiên cứu, tạo nên bộ số liệu với 2664 quan sát, cấu trúc dữ liệu bảng cân đối. Đề tài sử dụng dữ liệu bảng vì dữ liệu bảng có những ưu điểm sau đây (Ulrich, 2009):
- Dữ liệu bảng liên hệ đến các doanh nghiệp theo thời gian, nên chắc chắn có tính
không đồng nhất trong các doanh nghiệp này. Các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất của các doanh nghiệp một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo doanh nghiệp.
- Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho biết
nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.
- Bằng cách nghiên cứu các quan sát lặp đi lặp lại của các đơn vị chéo, dữ liệu bảng
phù hợp cho việc nghiên cứu các động thái thay đổi theo thời gian của các đơn vị chéo này.
- Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà không thể
quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy.
- Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể làm
giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu gộp các doanh nghiệp theo những biến số có mức tổng hợp cao.
Như vậy, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.
Các mô hình hồi quy thường được sử dụng cho dữ liệu bảng là Pooled regression, Fixed effects model và Random effects model. Những đặc điểm cụ thể của các mô hình sẽ được phân tích sau đây.
3.4.1 Mô hình Pooled OLS
Một trong những lý do sử dụng phương pháp Pooled OLS là vì phương pháp này làm tăng kích cỡ mẫu so với phương pháp OLS thông thường. Bằng việc sử dụng dữ liệu dạng bảng những quan sát khác nhau của từng công ty sẽ được đưa vào mô hình, do đó mô hình ước lượng sẽ đáng tin cậy hơn.
Sử dụng phương pháp Pooled OLS không giải quyết được vấn đề đưa thiếu biến vào mô hình. Thiếu biến là tình trạng những biến có ảnh hưởng lớn đến biến phụ thuộc nhưng lại không được đưa vào mô hình, do đó có thể dẫn đến mô hình ước lượng bị sai. Sử dụng biến giả là ngành có thể cho phép xem xét tác động những nhân tố đặc trưng của từng ngành tới quyết định nắm giữ tiền mặt (Ferreira và Vilela, 2004). Trong bài viết tác giả sử dụng 8 ngành đại diện cho các công ty niêm yết trên sàn HOSE và HNX (Phân ngành theo Global Industry Classification Standards – Chuẩn phân ngành toàn cầu) bao gồm: công nghệ (TECHNO), công nghiệp (INDUSTR), năng lượng (ENERGY), dịch vụ tiêu dùng (CONSSERV), y tế (HEALTH), hàng tiêu dùng (CONSGOODS), nguyên vật liệu (MATERIAL) và dịch vụ tiện ích (ULTILITIES). Biến giả là biến nhận giá trị 0 hoặc 1 để chỉ sự tồn tại hay không tồn tại của hiệu ứng ngành có tác động tới kết quả mô hình. Biến giả đại diện cho các công ty ngành công nghiệp sẽ nhận giá trị 1 nếu công ty thuộc ngành công nghiệp và 0 cho các ngành khác. Tương tự cho 6 ngành còn lại, nếu công ty thuộc ngành đó sẽ nhận giá trị 1 và 0 cho các ngành còn lại. Vì có tất cả 8 ngành nên tác giả sử dụng 7 biến giả đại diện cho ngành để tránh rơi vào bẫy biến giả. Trong bài tác giả không có biến giả cho ngành năng lượng, ngành năng lượng trở thành ngành so sánh của các ngành khác.
Phương trình hồi quy Pooled OLS với biến giả ngành được biểu thị như sau: 𝐶𝐴𝑆𝐻𝑖, 𝑡= 𝛽0 +𝛽1𝐶𝐹𝑖, 𝑡+ 𝛽2𝐿𝐼𝑄𝑖, 𝑡+ 𝛽3𝐿𝐸𝑉𝑖, 𝑡+ 𝛽4𝐺𝑅𝑇𝑖, 𝑡+ + 𝛽5𝑆𝐼𝑍𝐸𝑖, 𝑡+ + 𝛽6𝐼𝑁𝑉𝑖, 𝑡+ 𝛽7𝐷𝐼𝑉𝑖, 𝑡 +β8CONSGOODSi.t + β9CONSSERVi,t + β10HEALTHi,t+ + β11INDUSTRi,t + β12 ULTILITIESi,t + β13TECHNOi,t + β14MATERIAL i,t + εi,t
với: i=1,2,…,444; t=1,2,…,6
Trong đó: CASHi,t là tiền mặt nắm giữ của công ty i trong năm t, CFi,t là tỷ lệ dòng tiền trên tổng tài sản, LIQi,t là tỷ lệ tài sản thanh khoản không bao gồm tiền trên tổng tài sản, LEVi,t là tỷ lệ tổng nợ trên tổng tài sản, GRTi,t là tốc độ tăng trưởng doanh thu, SIZEi,t là logarith tự nhiên của tổng tài sản, INVi,t là tỷ lệ đầu tư vào tài sản cố định trên tổng tài sản, DIVi,t là tỷ lệ chi trả cổ tức, CONSGOODSi,t là biến giả đại diện cho ngành hàng tiêu dùng nhận giá trị 1 nếu công ty thuộc ngành hàng tiêu dùng và nhận giá trị 0 nếu thuộc các ngành khác, CONSSERVi,t là biến giả đại diện cho ngành dịch vụ tiêu dùng nhận giá trị 1 nếu công ty thuộc ngành dịch vụ tiêu dùng và nhận giá trị 0 nếu thuộc các ngành khác, HEALTHi,t là biến giả đại diện cho ngành y tế nhận giá trị 1 nếu công ty thuộc ngành y tế và nhận giá trị 0 nếu thuộc các ngành khác, INDUSTRi,t là biến giả đại diện cho ngành công nghiệp nhận giá trị 1 nếu công ty thuộc ngành công nghiệp
và nhận giá trị 0 nếu thuộc các ngành khác, ULTILITIESi,t là biến giả đại diện cho ngành
dịch vụ tiện ích nhận giá trị 1 nếu công ty thuộc ngành dịch vụ hạ tầng và nhận giá trị 0 nếu thuộc các ngành khác, TECHNOi,t là biến giả đại diện cho ngành công nghệ nhận giá trị 1 nếu công ty thuộc ngành công nghệ và nhận giá trị 0 nếu thuộc các ngành khác, MATERIALi,t là biến giả đại diện cho ngành nguyên vật liệu nhận giá trị 1 nếu công ty thuộc ngành công nghệ và nhận giá trị 0 nếu thuộc các ngành khác βi,t là các hệ số ược lượng, ɛi,t là các sai số mô hình.
3.4.2 Mô hình hồi quy với tác động cố định – FEM
Một cách để tính đến đặc trưng riêng của mỗi doanh nghiệp là để cho tung độ gốc thay đổi đối với mỗi doanh nghiệp, nhưng vẫn giả định các hệ số độ dốc không đổi giữa các doanh nghiệp, đó là nội dung của mô hình tác động cố định (fixed effects model - FEM), mô hình cụ thể như sau:
𝐶𝐴𝑆𝐻𝑖, 𝑡 = 𝛽0+𝛽1𝐶𝐹𝑖, 𝑡+ 𝛽2𝐿𝐼𝑄𝑖, 𝑡+ 𝛽3𝐿𝐸𝑉𝑖, 𝑡+ 𝛽4𝐺𝑅𝑇𝑖, 𝑡+ + 𝛽5𝑆𝐼𝑍𝐸𝑖, 𝑡
+𝛽6𝐼𝑁𝑉𝑖, 𝑡+ 𝛽7𝐷𝐼𝑉𝑖, 𝑡+𝑣𝑖+ 𝜀𝑖, 𝑡
Trong đó: 𝑣𝑖 là chênh lệch tung độ gốc của doanh nghiệp i so với hàm hồi quy
chung
Thuật ngữ tác động cố định được sử dụng là do thực tế mặc dù tung độ gốc có thể khác nhau giữa các doanh nghiệp, nhưng mỗi tung độ gốc của một doanh nghiệp không thay đổi theo thời gian, nghĩa là nó bất biến theo thời gian. Các kỹ thuật sử dụng biến giả cũng tương đương với mô hình tác động cố định, nó cũng đo lường được sự chênh lệch
tung độ gốc của các doanh nghiệp so với hàm hồi quy chung (𝑣𝑖). Trong mô hình FEM
sự tác động của đặc điểm riêng của từng doanh nghiệp thể hiện ở sự khác biệt về tung độ gốc trên từng doanh nghiệp. Nhược điểm của mô hình này là các hệ số độ dốc của các doanh nghiệp như nhau nghĩa là mức độ tác động của các biến độc lập lên biến phụ thuộc ở các doanh nghiệp là như nhau, có những biến time invariant muốn nghiên cứu riêng
nhưng mô hình lại gom chung vào (𝑣𝑖) (Ulrich, 2009). Để khắc phục những nhược điểm
này thì việc sử dụng mô hình random effects model sẽ thích hợp hơn.
3.4.3 Mô hình hồi quy với tác động ngẫu nhiên – Random
Theo Ulrich (2009) mô hình hồi quy với tác động ngẫu nhiên giả định các tung độ gốc và các hệ số độ dốc khác nhau đối với tất cả các doanh nghiệp:
𝐶𝐴𝑆𝐻𝑖, 𝑡= α1, i+ 𝛽1𝐶𝐹𝑖, 𝑡+ 𝛽2𝐿𝐼𝑄𝑖, 𝑡+ 𝛽3𝐿𝐸𝑉𝑖, 𝑡+ 𝛽4𝐺𝑅𝑇𝑖, 𝑡+ + 𝛽5𝑆𝐼𝑍𝐸𝑖, 𝑡
+𝛽6𝐼𝑁𝑉𝑖, 𝑡+ 𝛽7𝐷𝐼𝑉𝑖, 𝑡+ 𝑢𝑖+ 𝜀𝑖, 𝑡
Thay vì coi α1, i như là một hằng số, thì mô hình giả định rằng đây là một biến
ngẫu nhiên với giá trị trung bình là α1, và giá trị tung độ gốc đối với một doanh nghiệp
đơn lẻ có thể được biểu thị như sau: α1, i = α1 + ui với i= 1, 2,…,444
Trong đó ui là một số hạng sai số ngẫu nhiên có giá trị trung bình bằng 0, và phương sai là 𝛿2u.
Những gì được đề cập ở đây là 444 doanh nghiệp được đưa vào mẫu là một tập hợp lấy ra từ một tổng thể lớn hơn nhiều và rằng có một giá trị trung bình chung của tung
độ gốc (=α1) và những chênh lệch riêng lẻ trong các giá trị tung độ gốc của mỗi doanh nghiệp được thể hiện trong số hạng sai số ui. Hàm hồi quy đầy đủ như sau:
𝐶𝐴𝑆𝐻𝑖, 𝑡= α1, i+ 𝛽1𝐶𝐹𝑖, 𝑡+ 𝛽2𝐿𝐼𝑄𝑖, 𝑡+ 𝛽3𝐿𝐸𝑉𝑖, 𝑡+ 𝛽4𝐺𝑅𝑇𝑖, 𝑡+ + 𝛽5𝑆𝐼𝑍𝐸𝑖, 𝑡
+𝛽6𝐼𝑁𝑉𝑖, 𝑡+ 𝛽7𝐷𝐼𝑉𝑖, 𝑡+ 𝑢𝑖+ 𝜀𝑖, 𝑡
Và được viết lại như sau:
𝐶𝐴𝑆𝐻𝑖, 𝑡= α1, i+ 𝛽1𝐶𝐹𝑖, 𝑡+ 𝛽2𝐿𝐼𝑄𝑖, 𝑡+ 𝛽3𝐿𝐸𝑉𝑖, 𝑡+ 𝛽4𝐺𝑅𝑇𝑖, 𝑡+ + 𝛽5𝑆𝐼𝑍𝐸𝑖, 𝑡
+𝛽6𝐼𝑁𝑉𝑖, 𝑡+ 𝛽7𝐷𝐼𝑉𝑖, 𝑡+ 𝑤𝑖, 𝑡
Trong đó 𝑤𝑖, 𝑡 = 𝑢𝑖 + 𝜀𝑖, 𝑡
Số hạng sai số tổng hợp 𝑤𝑖, 𝑡 gồm hai phần đó là 𝑢𝑖 là thành phần sai số chéo hay
theo doanh nghiệp, và 𝜀𝑖, 𝑡 là phần sai số chéo và chuỗi thời gian kết hợp.
3.5 Phương pháp xử lý số liệu
Số liệu được thu thập từ các báo cáo tài chính đã kiểm toán của các doanh nghiệp
trong 6 năm (2011-2016), được chọn lọc các khoản mục cần thiết cho tính toán các chỉ
số. Số liệu được nhập trên excel, các doanh nghiệp không đủ số liệu cho 6 năm sẽ bị loại, còn lại 444 doanh nghiệp đủ điều kiện về dữ liệu được đưa vào tính toán các chỉ số. Sau đó sử dụng phần mềm stata để thống kê mô tả dữ liệu, phân tích tương quan, đánh giá sự phù hợp của các mô hình hồi quy, lựa chọn mô hình hồi quy phù hợp nhất, kiểm định các giả thuyết của mô hình trên mẫu 2664 quan sát đã chọn, và cuối cùng là phân tích kết quả hồi quy.
3.5.1 Thống kê mô tả dữ liệu
Nhằm mục đích mô tả một số đặc điểm quan trọng của các biến, nên số liệu sau khi tổng hợp sẽ được thống kê và trình bày dưới dạng bảng mô tả. Các đặc điểm quan trọng của các biến gồm có tên biến, số mẫu quan sát, giá trị trung bình, giá trị cực đại, giá trị cực tiểu, và độ lệch chuẩn.
3.5.2 Phân tích tương quan giữa các biến trong mô hình
Một trong số các giả định của hồi quy tuyến tính là không có tương quan giữa các biến độc lập và khi giả thuyết này bị vi phạm thì hiện tượng đa cộng tuyến xảy ra. Hậu
quả là các biến bị đa cộng tuyến có thể bị mất đi ý nghĩa trong mô hình hoặc hệ số hồi quy có thể bị sai dấu, đa cộng tuyến nghiêm trọng hơn (đa cộng tuyến hoàn hảo) sẽ không thể ước lượng được mô hình. Do đó, việc phân tích tương quan giữa các biến trong mô hình là rất cần thiết, phân tích tương quan được thực hiện thông qua ma trận tương quan. Nhưng ma trận tương quan lại mắc phải nhược điểm là chỉ phát hiện được tương quan cặp, không phát hiện được tương quan nhóm (Badi, 2008).Vì vậy, ngoài ma trận tương quan còn có thể sử dụng nhân tử phóng đại phương sai (VIF) sẽ giúp phân tích tương quan nhóm tốt hơn.
3.5.3 Phân tích hồi quy đa biến
Khi sử dụng ma trận tương quan sẽ góp phần cho thấy mối quan hệ giữa các biến độc lập và biến phụ thuộc, song nó chỉ cho thấy từng mối quan hệ cặp giữa một biến độc lập với biến phụ thuộc. Trong khi đó mục đích nghiên cứu của đề tài là nghiên cứu đồng thời tác động của nhiều biến độc lập lên biến phụ thuộc. Do đó, đề tài sử dụng phương pháp hồi quy đa biến để phân tích. Phương pháp này sẽ được thực hiện trên 3 mô hình hồi quy dữ liệu bảng phổ biến nhất là mô hình POOL, FEM và REM như đã trình bày ở trên.
Để lựa chọn ra một mô hình phù hợp nhất trong ba mô hình trên, đề tài tiến hành các kiểm định so sánh tính phù hợp giữa mô hình POOL và FEM, giữa FEM và REM đối với dữ liệu bảng.
Kiểm định đầu tiên được dùng là kiểm định F để so sánh lựa chọn POOL hay
FEM, với giả định Ho: chọn mô hình POOL, nếu P-value < 0.05 thì bác bỏ Ho, kết luận
chọn mô hình FEM, ngược lại thì chọn POOL (Ulrich, 2009).
Kiểm định thứ hai là kiểm định Hausman dùng để so sánh giữa FEM và REM,
giả định Ho: chọn REM, nếu kết quả kiểm định cho thấy P-value < 0.05 thì bác bỏ Ho,
kết luận mô hình FEM phù hợp hơn, ngược lại thì chọn REM (Ulrich, 2009).
3.5.4 Thảo luận kết quả
Sau khi đã lựa chọn được mô hình phù hợp nhất, cần tiến hành tiếp các bước kiểm định đánh giá mức độ phù hợp của mô hình: xem mô hình có thống nhất với cơ sở lý
thuyết, dấu của các hệ số hồi quy có phản ánh đúng quan hệ của các biến độc lập và phụ thuộc trong thực tế, cũng như đúng với nền tảng lý thuyết, kiểm tra các hệ số hồi quy có ý nghĩa thống kê hay không?
Ngay cả khi mô hình đã phù hợp với thực tế và lý thuyết thì mô hình này vẫn chưa hẳn là mô hình hiệu quả nhất, bởi vì nó có thể vi phạm các giả thuyết của hồi quy mà đề tài chưa xem xét tới. Chính vì vậy, việc kiểm định các khuyết tật của mô hình là rất cần thiết. Các khuyết tật có thể mắc phải là: đa cộng tuyến, phương sai thay đổi và tự tương quan. Đối với dữ liệu bảng đề tài sẽ tiến hành các kiểm định sau:
- Đa cộng tuyến: sẽ kiểm định bằng ma trận tương quan và nhân tử phóng đại phương sai (VIF) đối với các biến được chọn đưa vào mô hình xem có hiện tượng đa cộng tuyến hay không?
- Phương sai thay đổi: nếu mô hình mắc phải khuyết tật này có thể làm cho các kết quả kiểm định hệ số hồi quy không còn đáng tin cậy (nó làm cho các biến độc lập