3.3.1. Thống kê mô tả.
Thống kê mô tả (Descriptive statistics): là phƣơng pháp liên quan đến việc thu thập số liệu, tóm tắt, trình bày, tính toán và mô tả các đặc trƣng khác nhau để phản ánh một cách tổng quát đối tƣợng nghiên cứu. Theo nhƣ Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), thống kê mô tả là các phƣơng pháp thăm dò dung để khám phá ý nghĩa của dữ liệu bằng các phép tính số học đơn giản và các biểu đồ đơn giản nhằm tóm tắt lại dữ liệu nghiên cứu.
Các đại lƣợng thống kê mô tả thƣờng đƣợc dung là:
Mean: Trung bình cộng.
Sum: tổng cộng (cộng tất cả các giá trị trong tập dữ liệu quan sát)
Std. Deviation: Độ lệch chuẩn.
Minimun (min): Giá trị nhỏ nhất.
Maximun (max): Giá trị lớn nhất.
SE mean: Sai số chuẩn khi ƣớc lƣợng trị trung bình.
3.3.2. Hồi quy Logistic.
Trƣớc hết chúng ta xem xét một mô hình đơn giản: mô hình hồi quy xác suất tuyến tính, mô hình này giả định xác suất xảy ra sự kiện, Pi, là tuyến tính với các biến giải thích:
Pi = P(yi=1)= β1 + β2 + β3 βk
Đây là mô hình hồi quy tuyến tính và có thể ƣớc lƣợng bằng phƣơng pháp bình phƣơng sai số bé nhất (Ordinary Least Squares – OLS). Giá trị ƣớc lƣợng từ
mô hình hồi quy này là những giá trị xác suất cho yi=1 ứng với mỗi quan sát i. Các giá trị ƣớc lƣợng đƣợc biểu diễn nhƣ hình 3.1.
Hình 3.1: Mô tả kết quả hồi quy với mô hình hồi quy xác suất tuyến tính
Tuy nhiên, theo Hoàng Trọng và Chu Nguyễn Hồng Ngọc (2008), khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với dạng hồi quy thông thƣờng vì tiềm ẩn những vi phạm giả định nền tảng của OLS là (i) phân phối của phần dƣ không phải là phân phối chuẩn mà thay vào đó là phân phối nhị thức và (ii) phƣơng sai thay đổi. Do vậy, mô hình nhị phân Logistic đã đƣợc thay thế cho mô hình hồi quy xác suất tuyến tính. Mô hình này sử dụng một hàm số có thể chuyển đổi một cách có hiệu quả mô hình hồi quy xác suất tuyến tính sao cho các giá trị ƣớc lƣợng chỉ sẽ nằm giữa khoảng cách cho phép (0, 1). Các giá trị ƣớc lƣợng đã đƣợc uốn cong lại theo hình chữ S thay vì là một đƣờng thẳng nhƣ trƣớc đây trong mô hình hồi quy xác suất tuyến tính.
Hình 3.2: Mô tả kết quả hồi quy với mô hình hồi quy nhị phân
Mô hình hồi quy Logistic
Mô hình hồi quy Logistic đã sử dụng phân phối Logistic tích lũy (cumulative logistic distribution) để chuyển đổi sao cho các giá trị xác suất đƣợc ƣớc lƣợng sẽ tuân theo mô hình chữ S nhƣ trên.
P(zi) =
Với e là cơ số mũ tự nhiên tƣơng ứng với phân phối Logistic, z là biểu thức
. Sau khi biến đổi lấy logarit thì mô hình Logistic sẽ có dạng hàm nhƣ sau:
=
Độ phù hợp của mô hình Logistic
Độ phù hợp của mô hình hồi quy Logistic dựa vào chỉ tiêu Log likelihood function chứ không phải là tối thiểu hóa RSS (residual sum of squares). Do vậy, tiêu chuẩn nhƣ RSS, R2 không còn đúng với mô hình Logistic. Thay vào đó, có 2 cách đo lƣờng mức độ phù hợp của mô hình hồi quy với biến phụ thuộc bị giới hạn. Vì vậy để đo lƣờng sức mạnh dự báo (Measures of predictive power): cho thấy khả
năng giải thích/ dự báo của các biến độc lập tới biến phụ thuộc. Luận văn sử dụng hệ số Pseudo- R2, với L0 là likelihood của mô hình chỉ có hệ số chặn (only an intercept model) hay mô hình không dự báo (no predictors) và LM là likelihood của mô hình Logistic.
Các giá trị Pseudo-R2 đều đo lƣờng mức độ cải thiện khả năng dự báo của mô hình khi có các biến độc lập so với mô hình khi chỉ có tung độ gốc và có ý nghĩa tƣơng tự R2
trong mô hình hồi quy tuyến tính.
Tóm lại, theo Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), điểm khác biệt cơ bản giữa hồi quy Logistic và hồi quy bội thông thƣờng là ở chỗ biến phụ thuộc là dạng nhị phân, hồi quy logistic thay vì tối thiểu hóa độ lệch bình phƣơng nhƣ hồi quy tuyến tính thì nó tối đa hóa khả năng hiện tƣợng xảy ra với ƣớc lƣợng thích hợp cực đại – Maximum Likelihood Estimation, tuy nhiên hồi quy Logistic và hồi quy bội thông thƣờng khá tƣơng đồng trong việc kiểm định ý nghĩa của các hệ số hồi quy.
Trong luận văn này, vì biến phụ thuộc (AUD) là biến nhị phân, nên nghiên cứu này sử dụng hồi quy logistic gộp (pooled logistic regressions) để kiểm định các giả thuyết, tƣơng tự nhƣ các nghiên cứu trƣớc đó đã thực hiện. Ngoài ra, các biến giả theo năm và nhóm ngành (year and industry dummy) cũng đƣợc xây dựng nhằm kiểm soát sự khác nhau giữa các giai đoạn thời gian và các đặc tính của từng ngành nghề. Đồng thời, để kiểm tra khả năng giải thích/ dự báo của các biến độc lập tới biến phụ thuộc, thay vì sử dụng R2 nhƣ trong mô hình hồi quy tuyến tính cổ điển, hồi quy logistic sử dụng hệ số Pseudo- R2 (hay McFadden’s R2) để trình bày kết quả này. Cuối cùng, thống kê z (z-statistics) với sai số chuẩn mạnh (robust standard errors) cũng đƣợc sử dụng.
Trong bài, nghiên cứu lần lƣợt thực hiện các phép hồi quy sau đây: (i) hồi quy trên toàn mẫu,
(ii) hồi quy với biến tƣơng tác.
CHƢƠNG 4: KẾT QUẢ NGHIÊN CỨU
4.1. Thống kê mô tả.
Mẫu nghiên cứu bao gồm 415 quan sát của 83 công ty niêm yết trên Sở GDCK TP. HCM (HSX) trong giai đoạn 5 năm từ 2011 đến 2015, tƣơng ứng với 5 quan sát/1 doanh nghiệp. Nghiên cứu này tiến hành thống kê mô tả các biến cho toàn bộ mẫu quan sát trong nghiên cứu. Kết quả đƣợc trình bày trong bảng 4.1 bao gồm giá trị trung bình, trung vị, giá trị nhỏ nhất, giá trị lớn nhất, độ lệch chuẩn của các biến nhằm cung cấp một cái nhìn tổng quan về các đặc tính của dữ liệu.
Đầu tiên, giá trị trung bình của biến lựa chọn công ty kiểm toán (AUD) nhận giá trị trung bình là 0.439, điều này cho thấy, các công ty kiểm toán thuộc nhóm Big 4 có một vị trí khá lớn trên thị trƣờng kiểm toán các công ty niêm yết tại TTCK Việt Nam với mức trung bình gần 44% trong 415 quan sát hàng năm trong mẫu nghiên cứu. Tiếp theo, ở nhóm biến cấu trúc sở hữu, Biến sở hữu tập trung (OWNCONC) nhận giá trị trung bình khoảng 38.9%, điều này cho thấy, tỷ lệ sở hữu của một cổ đông trong cơ cấu sở hữu của các CTCP tại Việt Nam là khá cao và biến này đạt giá trị cao nhất lên đến 80.5% ở CTCP Chế biến Hàng xuất khẩu Long An (LAF), sở hữu lớn nhất này thuộc về một CTCP niêm yết khác là CTCP Thực phẩm PAN (HOSE). Một số công ty khác cũng có sở hữu tập trung lớn là ABT - Công ty Cổ phần Xuất nhập khẩu Thủy sản Bến Tre (HOSE), TIE – CTCP TIE. Biến Gia đình kiểm soát (FAMCON) nhận giá trị trung bình là 0.492, cho thấy, tại TTCK Việt Nam, có mức độ khá lớn với 50% DN trong mẫu quan sát thuộc quyền kiểm soát của gia đình. Biến tỷ lệ sở hữu nƣớc ngoài (FORCON) nhận giá trị trung bình 30.4%, cho thấy mức độ tham gia của NĐT nƣớc ngoài trên TTCK Việt Nam vẫn còn hạn chế (chỉ hơn 30% trong mẫu quan sát). Nguyên nhân là do TTCK Việt Nam vẫn còn là một thị trƣờng thuộc nhóm thị trƣờng cận biên (Frontier Market - theo xếp hạng của MSCI) với những rào cản phi thị trƣờng và
giới hạn sự tham gia của NĐT nƣớc ngoài tại TTCK Việt Nam (tỷ lệ giới hạn là 49% theo Quyết định số 55/2009/QĐ-TTg, Về tỷ lệ tham gia của nhà đầu tƣ nƣớc ngoài trên thị trƣờng chứng khoán Việt Nam hiệu lực đến tháng 6/2015).
Cuối cùng, ở nhóm các biến kiếm soát, biến BOARD, thể hiện sự kiêm nhiệm của Chủ tịch Hội đồng quản trị đồng thời cũng là CEO, nhận giá trị trung bình 0.395, tức là có đến gần 40% các DN trong mẫu quan sát có Chủ tịch HĐQT cũng đồng thời là CEO. Sau khi san phẳng bằng hàm logarit, quy mô của doanh nghiệp (FSIZE) nhận giá trị trung bình là 12.037. Đòn bẩy tài chính (LEVER) nhận giá trị trung bình là 0.469, kết quả này cho thấy, trong mẫu nghiên cứu, có 0.469 đơn vị nợ trong 1 đơn vị tài sản của doanh nghiệp. Cuối cùng, giá trị trung bình của lợi nhuận ròng (PROFIT) và TOBINQ lần lƣợt là 0.07 (%) và 1.071 lần.
Bảng 4.1: Mô tả thống kê các biến trong mô hình
Variable Obs Mean Median
Std.
Dev Min Max
Auditor choice AUD 415 0.439 0.000 0.497 0 1 Ownership structure OWNCONC 415 0.389 0.408 0.151 0.050 0.805 FAMCON 415 0.492 0.000 0.501 0 1 FORCON 415 0.304 0.000 0.460 0 1 Control variables BOARD 415 0.395 0.000 0.489 0 1 FSIZE 415 12.037 11.979 0.513 11.107 13.856 LEVER 415 0.469 0.499 0.211 0.003 0.971 PROFIT 415 0.070 0.064 0.086 -0.646 0.397 TOBINQ 415 1.071 0.962 0.522 0.187 7.621
Nguồn: tác giả tổng hợp dựa số liệu phân tích được thực hiện trên Stata
Ngoài ra, trong các phép hồi quy, nghiên cứu có sử các biến giả theo ngành (Industry Dummy) nhằm kiểm soát sự khác nhau giữa các ngành nghề lên mối quan hệ chính trong bài nghiên cứu. Về việc phân chia ngành nghề của các doanh nghiệp trong mẫu quan sát: nghiên cứu dựa theo chuẩn phân ngành khá phổ biến là ICB (Industry Classification Benchmark), theo đó, ICB do FTSE Group và DowJone xây dựng. ICB phân chia các ngành kinh tế quốc dân thành 4 cấp gồm: 10 nhóm ngành (Industries), 19 phân ngành lớn (Super sectors), 41 phân ngành chính (Sectors), 114 phân ngành phụ (Sub sectors). Các nhóm ngành chính đƣợc
xây dựng trong ICB bao gồm: Dầu khí, nguyên vật liệu, công nghiệp, hàng tiêu dùng, y tế, dịch vụ tiêu dùng, viễn thông, dịch vụ công cộng và tài chính. Việc sắp xếp các doanh nghiệp niêm yết riêng lẻ vào các nhóm phân ngành cụ thể, tác giả tham khảo từ một số nguồn: Stockbiz (Stockbiz Investment Ltd); StoxPlus và website: http://www.cophieu68.vn/ thuộc Công Ty Cổ Phần Tƣ Vấn Đầu Tƣ Cây Cầu Vàng. Dựa trên việc phân chia ngành nghề này, số lƣợng các công ty trong mẫu đƣợc phân bổ ở các ngành nghề đƣợc trình bày trong bảng 4.2. Theo đó, số lƣợng công ty trong mẫu tập trung nhiều ở ngành Công nghiệp và Hàng tiêu dùng.
Bảng 4.2: Thống kê các ngành nghề trong mẫu quan sát
Mã ICB
Tên ngành Tiếng
Việt Tên ngành Tiếng Anh
Số lƣợng
0001 Dầu khí Energy 6
1000 Vật liệu cơ bản Basic Materials 6
2000 Công nghiệp Industrials 14
3000 Hàng tiêu dùng Consumer Goods 35
4000 Y tế Health Care 5
5000 Dịch vụ tiêu dùng Consumer Services 3
6000 Viễn thông Telecommunications 0
7000 Các dịch vụ hạ tầng Utilities 11
8000 Tài chính Financials 0
9000 Công nghệ Technology 3
Tổng số 83
4.2. Phân tích tƣơng quan.
Trƣớc khi thực hiện các phép hồi quy, nghiên cứu tiến hành phân tích tƣơng quan giữa các biến để so sánh mức độ phù hợp với các giả thuyết (về mặt trực quan) cũng nhƣ khả năng xảy ra hiện tƣợng đa cộng tuyến giữa các biến có thể làm cho kết quả hồi quy bị sai lệch. Nghiên cứu này sử dụng hệ số tƣơng quan Spearman (Spearman rank-order correlation) để xem xét mối tƣơng quan giữa các biến, kết quả phân tích tƣơng quan đƣợc thể hiện trong bảng 4.3.
Bảng 4.3: Ma trận tƣơng quan giữa các biến trong mô hình
AUD OWCON FAMCON BOARD FSIZE LEVER PROFIT TOBINQ
AUD 1 Sig. level --- OWNCONC 0.209*** 1 Sig. level 0.000 --- FAMCON -0.24*** 0.0089 1 Sig. level 0.000 0.8565 --- BOARD -0.089* -0.313*** 0.0235 1 Sig. level 0.0713 0.0000 0.6332 --- FSIZE 0.452*** 0.0655 -0.23*** -0.0700 1 Sig. level 0.0000 0.1829 0.0000 0.1547 --- LEVER 0.0331 0.0220 -0.14*** -0.088* 0.354*** 1 Sig. level 0.5016 0.6546 0.0032 0.0747 0.0000 --- PROFIT 0.0474 0.088* 0.0231 -0.0268 -0.18*** -0.53*** 1 Sig. level 0.3352 0.0746 0.6384 0.5864 0.0007 0.000 --- TOBINQ 0.183*** -0.0354 -0.080* 0.0369 0.125** 0.0049 0.514*** 1 Sig. level 0.0002 0.4726 0.1028 0.4529 0.0111 0.9215 0.0000 ---
Ký hiệu ***, **, * tương ứng với các mức ý nghĩa thống kê 1%, 5% và 10% Nguồn: tác giả tổng hợp dựa vào kết quả kiểm định thực hiện trên Stata
Đầu tiên, hệ số hồi quy của biến lựa chọn công ty kiểm toán AUD có quan hệ đồng biến với biến sở hữu tập trung (OWNCONC), điều này ngƣợc lại với kỳ vọng về mối quan hệ nghịch biến trong giả thuyết H1. Các doanh nghiệp có sở hữu tập trung lại có vẻ ƣa thích các công ty kiểm toán thuộc nhóm Big 4 với chất lƣợng kiểm toán cao hơn. Mối quan hệ này sẽ đƣợc phân tích rõ hơn trong các phép phân tích hồi quy tiếp theo. Kết quả trong bảng 4.3 cũng chỉ ra mối tƣơng quan âm giữa việc lựa chọn công ty kiểm toán và sự kiểm soát gia đình, mối tƣơng quan này phù hợp với giả thuyết H2. Các doanh nghiệp đƣợc sở hữu bởi các cá nhân, hoặc nhóm cá nhân có liên quan, hoặc công ty chƣa niêm yết, hoặc tổ chức tƣ nhân nắm quyền kiểm soát có khuynh hƣớng lựa chọn các công ty kiểm toán không phải là Big 4 với chất lƣợng kiểm toán thấp hơn. Cuối cùng, hệ số tƣơng quan ở nhóm các biến kiểm soát và các biến độc lập khác nhận giá trị thấp (<0.5) điều này cho thấy không có khả năng xảy ra hiện tƣợng đa cộng tuyến giữa các biến.
4.3. Kiểm định giá trị trung bình
Nghiên cứu này tiến hành kiểm định về sự khác nhau trong giá trị trung bình (tests of mean differences) của các biến chính trong mô hình (AUD, OWNCONC, FAMCON) sau khi phân thành từng nhóm nhỏ. Kết quả đƣợc trình bày trong bảng 4.4 bao gồm giá trị trung bình, độ lệch chuẩn và giá trị thống kê t (t-Statistics) của kiểm định t-tests.
Bảng 4.4: Kiểm định giá trị trung bình của các nhóm biến
Panel A: so sánh giữa DN kiểm toán bởi Big 4 và Non- Big 4
Variable Big 4 (n=182) Non- Big 4 (n=233) t-Statistics Mean Std. Dev Mean Std. Dev
OWNCONC 0.422 0.140 0.364 0.155 -3.983***
FAMCON 0.357 0.480 0.597 0.492 4.9719***
Panel B: so sánh giữa các DN theo sở hữu tập trung (concentration)
Variable
High concentration (n= 209)
Low concentration
(n=206) t-Statistics Mean Std. Dev Mean Std. Dev
AUD 0.531 0.500 0.345 0.476 -3.760***
FAMCON 0.469 0.500 0.515 0.501 0.862
Panel C: so sánh giữa các DN theo mức độ kiểm soát của gia đình
Variable
Family controlled (n=204)
Non-family controlled
(n=211) t-Statistics Mean Std. Dev Mean Std. Dev
AUD 0.319 0.467 0.555 0.498 4.9719***
OWNCONC 0.391 0.158 0.388 0.145 -0.226
Ký hiệu ***, **, * tương ứng với các mức ý nghĩa thống kê 1%, 5% và 10% Nguồn: tác giả tổng hợp dựa vào kết quả kiểm định thực hiện trên Stata
Dãy A (panel A) trình bày các kết quả của 2 nhóm doanh nghiệp đƣợc phân chia theo biến AUD, các quan sát trong mẫu nghiên cứu có AUD = 1 đƣợc phân vào một nhóm, tƣơng ứng với nhóm doanh nghiệp đƣợc kiểm toán bởi Big 4 (có 182/415 quan sát thuộc nhóm này) và các quan sát có AUD = 0 đƣợc phân vào một nhóm, tƣơng ứng với nhóm doanh nghiệp đƣợc kiểm toán bởi các công ty kiểm toán khác (Non – Big 4) (có 233/415 quan sát thuộc nhóm này). Kết quả trong dãy
A, bảng 4.4 cho thấy, giá trị trung bình biến OWNCONC ở nhóm Big 4 nhận giá trị cao hơn ở nhóm Non – Big 4 (0.422 so với 0.364) và sự khác nhau này có ý nghĩa thống kê ở mức 1%. Điều này hàm ý các DN đƣợc kiểm toán bởi Big 4 có sở hữu tập trung cao hơn các DN đƣợc kiểm toán bởi Non-Big 4, hay nói cách khác, các DN có sở hữu tập trung lớn, thƣờng ƣu thích các công ty kiểm toán thuộc nhóm Big 4 hơn. Ngƣợc lại, giá trị trung bình của biến FAMCON ở nhóm Big 4 nhận giá trị thấp hơn nhóm Non – Big 4 (0.357 so với 0.597 và ý nghĩa thống kê ở mức 1%). Điều này chỉ ra xu hƣớng ƣa thích các công ty kiểm toán ngoài Big 4 của các công ty có sự kiểm soát của gia đình.
Dãy B (panel B) trình bày các kết quả của 2 nhóm doanh nghiệp đƣợc phân chia theo biến sở hữu tập trung (OWNCONC). Theo đó, giá trị trung vị (median) của biến OWNCONC (0.485) là điểm phân chia, các quan sát trong mẫu nghiên cứu có OWNCONC >= 0.485 đƣợc phân vào một nhóm, tƣơng ứng với nhóm doanh nghiệp có sở hữu tập trung lớn (high concentration) (có 209/415 quan sát