Biến Tên biến Ký hiệu Đo lường
Biến phụ thuộc Tỷ suất sinh lời STOCK_RETURN STOCK_RETURNSit = log ( Pit Pit−1)
Biến độc lập
Tỷ suất thu nhập EPS_P EPS_Pit= EPSit
Pit−1
Tỷ suất thu nhập
biến đổi dEPS_P dEPS_P𝑖𝑡 = EPSit− EPSit−1
𝑃𝑖𝑡−1
Biến kiểm sốt
Quy mơ cơng ty SIZE SIZEit = log (tổng tài sản)
Tỷ lệ nợ RI RIit = Tổng nợ
Tổng tài sản
Sự tăng trưởng MB MBit =Giá trị thị trường
Giá sổ sách
(Nguồn: Tổng hợp của tác giả.)
3.5 Phương pháp nghiên cứu
Trước tiên nghiên cứu sơ bộ định tính nhằm xây dựng và hoàn thiện hơn về lý thuyết về mối quan hệ giữa TTKT trên BCTC và TSSL cổ phiếu.
Sau đó dùng phương pháp định lượng dựa trên mơ hình của Easton và Harris (1991) kết hợp với giả thuyết thị trường hiệu quả cùng với phương pháp định lượng thông qua phần mềm STATA để phân tích và xử lý các mơ hình trong dữ liệu bảng, qua đó kiểm định mối quan hệ giữa TTKT trên BCTC và TSSL của cổ phiếu trên TTCK.
3.5.1 Chọn mẫu nghiên cứu
Bài nghiên cứu sử dụng dữ liệu mẫu bao gồm tất cả các cổ phiếu của các công ty niêm yết trên 2 sàn chứng khoán HNX và HOSE từ tháng 3 năm 2009 đến tháng 3 năm 2015. Đây là mẫu dữ liệu bảng khơng cân xứng (Unbalanced Panel) do có một số cơng ty khơng có dữ liệu đầy đủ từ năm 2009 đến 2014.
36
Trong bài nghiên cứu này, tác giả chỉ chọn mốc thời gian nghiên cứu bắt đầu từ năm 2009 mà không chọn sớm hơn nữa là do: giai đoạn liền trước đó, cụ thể là năm 2008 chứng kiến cuộc bùng nổ khủng hoảng tài chính tồn cầu và có ảnh hưởng mạnh đến TTCK Việt Nam. Đồng thời, sau giai đoạn tăng trưởng nóng mà đỉnh điểm là vào ngày 12 tháng 3 năm 2007 với chỉ số VN-Index đạt mốc 1.170,67 điểm, TTCK Việt Nam bước vào thời kỳ lao dốc không phanh cho đến hết năm 2008. Sau khi chạm đáy, thị trường mới dần được hồi phục và đi vào ổn định từ đầu năm 2009. Do đó, việc lấy mốc nghiên cứu từ năm 2009 sẽ giúp hạn chế được tác động của các sự kiện trên, tạo điều kiện phản ánh rõ nét vai trò ảnh hưởng của các nhân tố giải thích trong mơ hình đối với tỷ suất sinh lợi của cổ phiếu.
Vì dữ liệu được lấy từ trang http://www.cophieu68.vn/ nên các công ty trong mẫu được phân nhóm ngành theo trang điện tử này. Các cơng ty trong mẫu được chia thành nhóm ngành chính bao gồm: bất động sản, cao su, chứng khốn, công nghệ viễn thông, dịch vụ-du lịch, dược phẩm-y tế-hóa chất, giáo dục, khống sản, năng lượng, ngân hàng-bảo hiểm, thép, dầu khí, nhựa-bao bì, sản xuất-kinh doanh, thực phẩm, thương mại, thủy sản, vận tải, vật liệu xây dựng, xây dựng.
Các công ty được chọn vào mẫu thỏa mãn các tiêu chí sau:
- Có đầy đủ ít nhất 1 năm các thơng tin cần thiết về số liệu tài chính trên bảng kết quả hoạt động kinh doanh và bảng cân đối kế toán trong giai đoạn nghiên cứu từ 2009-2014.
- Các cổ phiếu được niêm yết liên tục trong giai đoạn từ 2008 đến 2015.
- Tất cả các cơng ty tài chính như ngân hàng, bảo hiểm, chứng khốn, các quỹ do đặc thù của những ngành này không phù hợp cho mục tiêu nghiên cứu nên bị loại ra khỏi mẫu, là một thực tế phổ biến trong hầu hết các nghiên cứu tài chính.
- Loại trừ các cổ phiếu có giá trị sổ sách bằng hoặc nhỏ hơn không.
Mẫu số liệu ban đầu bao gồm 485 công ty. Sau khi loại bỏ các cơng ty tài chính như ngân hàng, bảo hiểm, chứng khoán, các quỹ ra và loại bỏ các công ty không đầy đủ các thông tin cần thiết với tối thiểu 1 năm về số liệu tài chính trên bảng kết
37
quả hoạt động kinh doanh và bảng cân đối kế tốn thì số cơng ty sau cùng gồm 478 công ty.
Từ cách làm trên, tác giả thu thập được một bảng dữ liệu trong vòng 6 năm từ 2009-2014 tạo thành bảng gồm 2430 công ty - năm quan sát.
Theo Tabachnick và Fidell (2001), trong nghiên cứu định lượng thì số mẫu cho hồi qui đa biến: n > 50+8*k (n: số mẫu, k: số biến độc lập). Như vậy cỡ mẫu nghiên cứu của bài luận văn này gồm 2430 quan sát là phù hợp và kết quả thống kê có thể xem là đại diện cho tồn bộ các cơng ty trên TTCK Việt Nam.
3.5.2 Phương pháp thu thập dữ liệu
Dữ liệu trong bài nghiên cứu là dữ liệu thứ cấp và chọn mẫu ngẫu nhiên gồm 478 công ty được niêm yết trên 2 sàn HOSE và HNX. Dữ liệu thu được thu thập ở trang điện tử http://www.cophieu68.vn/ sau đó tính tốn cho các biến và tiến hành điều chỉnh các thông tin cho phù hợp.
Dữ liệu sử dụng trong bài nghiên cứu mà tác giả cần thu thập như sau:
- Giá đóng cửa có điều chỉnh của phiên giao dịch cuối cùng trong tháng. Trường hợp cổ phiếu khơng có giao dịch tại phiên cuối cùng trong tháng sẽ lấy giá đóng cửa có điều chỉnh của phiên giao dịch liền trước đó. Tác giả sử dụng giá đóng cửa có điều chỉnh để tính tốn TSSL của cổ phiếu sẽ giúp phản ánh được toàn bộ lợi nhuận mà cổ phiếu mang lại cho nhà đầu tư, bao gồm lợi nhuận thu được từ sự biến động giá và các khoản cổ tức bằng tiền mặt, cổ phiếu thưởng,...
- Các chỉ tiêu EPS, giá sổ sách, giá thị trường cuối kỳ hàng năm được thu thập trên bảng kết quả hoạt động kinh doanh. Tương tự, chỉ tiêu về tổng nợ, tổng tài sản được thu thập dựa trên bảng cân đối kế toán.
3.5.3 Phương pháp xử lý dữ liệu
Sử dụng dữ liệu bảng để đánh giá mối liên hệ giữa TTKT với thị trường qua dữ liệu thu thập từ 478 công ty được niêm yết trên TTCK trong giai đoạn 2009-2014.
Để tiến hành nghiên cứu, tác giả thực hiện: thống kê mô tả nhằm cung cấp một cái nhìn tổng thể về số liệu của các biến. Mỗi biến trong bảng thống kê bao gồm: tên biến, số quan sát, giá trị trung bình, sai số chuẩn, giá trị thấp nhất và giá trị cao nhất.
38
Trong luận văn này, tác giả sử dụng phương pháp phân tích dữ liệu bảng (panel data) với mơ hình hồi quy tuyến tính. Nó là sự kết hợp giữa dữ liệu chéo (cross section) và dữ liệu thời gian (time series). Tác giả sử dụng dữ liệu bảng vì các ưu điểm của dữ liệu bảng so với dữ liệu theo chuỗi thời gian và khơng gian. Theo Baltagi (2008), vì dữ liệu bảng liên quan đến các cá nhân, doanh nghiệp, v.v… theo thời gian, nên nhất định phải có tính dị biệt (không đồng nhất) trong các đơn vị này. Kỹ thuật ước lượng dữ liệu bảng có thể chính thức xem xét đến tính dị biệt đó bằng cách xem xét các biến số có tính đặc thù theo từng cá nhân. Thuật ngữ “cá nhân” theo ý nghĩa chung bao gồm các đơn vị vi mô như các cá nhân, các doanh nghiệp, tiểu bang, và đất nước. Thông qua kết hợp các chuỗi theo thời gian của các quan sát theo không gian, dữ liệu bảng cung cấp những dữ liệu có nhiều thơng tin hơn, đa dạng hơn, ít cộng tuyến hơn giữa các biến số, nhiều bậc tự do hơn và hiệu quả hơn.
Thông qua nghiên cứu các quan sát theo không gian lặp lại, dữ liệu bảng phù hợp hơn để nghiên cứu tính động của thay đổi. Tình trạng thất nghiệp, ln chuyển cơng việc, và tính lưu chuyển lao động sẽ được nghiên cứu tốt hơn với dữ liệu bảng. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn những ảnh hưởng mà không thể quan sát trong dữ liệu chuỗi thời gian thuần túy hay dữ liệu chéo theo không gian thuần túy. Dữ liệu bảng giúp ta nghiên cứu những mơ hình hành vi phức tạp hơn. Ví dụ, các hiện tượng như lợi thế kinh tế theo qui mơ và thay đổi kỹ thuật có thể được xem xét thông qua dữ liệu bảng tốt hơn so với dữ liệu theo chuỗi thời gian thuần túy hay theo không gian thuần túy. Bằng cách thu thập những số liệu có sẵn cho vài nghìn đơn vị, dữ liệu bảng có thể tối thiểu hóa sự thiên lệch có thể xảy ra nếu ta tổng hợp các cá nhân hay các doanh nghiệp thành số liệu tổng. Nói tóm lại, dữ liệu bảng có thể giúp chúng ta phân tích thực nghiệm theo những cách thức mà khơng chắc có thể đạt được nếu ta chỉ sử dụng các dữ liệu theo chuỗi thời gian hay khơng gian thuần túy.
Có ba mơ hình hồi quy dùng để phân tích dữ liệu bảng là: mơ hình hồi quy gộp (PM - Pooled Model), mơ hình tác động cố định (FEM – Fixed Effect Model) và mơ hình tác động ngẫu nhiên (REM – Random Effect Model). Các mơ hình hồi quy
39
dữ liệu bảng hiệu ứng tác động cố định (FEM), hồi quy dữ liệu bảng hiệu ứng tác động ngẫu nhiên (REM), mơ hình Pooled là các mơ hình phổ biến khi phân tích dữ liệu bảng. Tuy nhiên OLS, FEM và REM khơng kiểm sốt được hiện tượng phương sai thay đổi và tự tương quan đã được phát hiện bởi kiểm định Greene (2000), Wooldridge (2002) và Drukker (2003). Nếu kết quả kiểm định cho thấy có hiện tượng phương sai thay đổi và tự tương quan thì tác giả sẽ tiến hành hồi quy với phương pháp GMM (General Method of Moments) theo kết quả nghiên cứu của Arellano và Bond (1991). Để khẳng định kết quả một lần nữa thì nên kiểm tra đối chiếu với mơ hình mới hơn theo Daniel Hoechle (2007).
3.5.4 Các kiểm định trong mơ hình dữ liệu bảng 3.5.4.1 Kiểm định sự phù hợp của mơ hình 3.5.4.1 Kiểm định sự phù hợp của mơ hình
Kiểm định sự phù hợp của mơ hình là việc kiểm định liệu rằng toàn bộ các biến độc lập trong mơ hình đều khơng tác động đến biến phụ thuộc hay khơng. Nếu đúng như vậy thì mơ hình khơng có ý nghĩa hay cịn gọi là mơ hình khơng phù hợp.
H0: β2 = β3 = … = βk = 0. H1: β22 + β32 + …+ βk2 ≠ 0.
Nếu p-value của thống kê F có ý nghĩa thống kê cho phép ta bác bỏ giả thuyết H0 nghĩa là mơ hình hồi quy phù hợp.
3.5.4.2 Kiểm định hiện tượng đa cộng tuyến
Có nhiều tiêu chuẩn để kiểm định hiện tượng đa cộng tuyến, trong luận văn này tác giả sử dụng 2 tiêu chuẩn sau:
Tồn tại tương quan cặp cao giữa các biến độc lập
Theo kinh nghiệm, hiện tượng đa cộng tuyến chỉ trở nên nghiêm trọng khi hệ số tương quan giữa các biến độc lập trong mơ hình từ 0.8 trở lên. Do đó, nếu hệ số tương quan giữa hai biến độc lập lớn hơn 0.8 thì mơ hình xảy ra hiện tượng đa cộng tuyến. Tuy nhiên tiêu chuẩn này thường khơng chính xác, nên để có kết luận kiểm định chính xác hơn, người ta sử dụng thêm tiêu chuẩn nhân tử phóng đại phương sai.
40
𝑉𝐼𝐹𝑗= 1 - 𝑅1 𝑗 2
Với Rj2 là hệ số xác định trong hồi quy phụ biến độc lập Xj theo các biến độc lập còn lại.
Quy tắc kinh nghiệm: VIFj > 10 Rj2 > 0,9 có hiện tượng đa cộng tuyến cao giữa biến độc lập Xj và các biến độc lập còn lại.
3.5.4.3 Kiểm định hiện tượng tự tương quan
Định nghĩa: Thuật ngữ tự tương quan có thể được định nghĩa như là sự tương
quan giữa các thành phần của chuỗi của các quan sát được sắp xếp theo thời gian (như trong dữ liệu chuỗi thời gian) hoặc không gian (như trong dữ liệu chéo).
Hậu quả:
Khi có tự tương quan, các hàm ước lượng OLS vẫn là tuyến tính khơng thiên lệch và nhất qn, nhưng chúng khơng cịn là ước lượng hiệu quả nữa. Nói cách khác, ước lượng OLS không phải là ước lượng tuyến tính khơng chệch tốt nhất nữa.
Phương sai ước lượng được của các ước lượng OLS thường là chệch. Khi tính phương sai và sai số tiêu chuẩn của các ước lượng OLS thường cho những giá trị thấp hơn các giá trị thật và do đó làm cho giá trị t lớn, dẫn đến kết quả sai khi kiểm định. Do đó kiểm định t và F khơng cịn tin cậy nữa.
𝜎̂2 là ước lượng chệch của σ2.
R2 cao hơn so với thực tế: không đáng tin cậy.
Kiểm định:
Để kiểm tra hiện tượng tự tương quan, tác giả sử dụng phương pháp của Wooldridge (2002) và Drukker (2003) và đặt giả thuyết kiểm định như sau:
Giả thuyết H0: Mơ hình khơng có hiện tượng tự tương quan bậc 1. Giả thuyết H1: Mơ hình có hiện tượng tự tương quan bậc 1.
Nếu giá trị p-value có ý nghĩa thống kê thì giả thuyết H0 bị bác bỏ, khi đó ta kết luận có tồn tại hiện tượng tự tương quan trong mơ hình. Ngược lại, mơ hình khơng có hiện tượng tự tương quan nếu chấp nhận giả thuyết H0.
41
3.5.4.4 Kiểm định hiện tượng phương sai sai số thay đổi
Định nghĩa: Tính chất đồng nhất về phương sai của phần dư (homogeneity of var-
iance of the residuals) là một trong những giả định chính của hồi quy OLS. Nếu mơ hình hồi quy là hồn tồn phù hợp (well-fitted) thì khơng có mẫu hình (no pattern) đối với phần dư nào trên đồ thị phân tán của phần dư và giá trị dự đoán. Nếu phương sai của phần dư khơng cịn là hằng số hay có sự thay đổi về phương sai của phần dư thì hiện tượng này được gọi là phương sai thay đổi (heteroskedastic).
Hậu quả:
Các ước lượng bình phương bé nhất OLS vẫn là các ước lượng tuyến tính, khơng chệch nhưng khơng cịn là ước lượng có phương sai nhỏ nhất nữa.
Ước lượng của phương sai sẽ bị chệch.
Việc sử dụng thống kê t và F để kiểm định giả thiết khơng cịn ý nghĩa .
Kiểm định:
Kiểm định phương sai sai số thay đổi bằng phương pháp kiểm định Greene (2000) với giả thuyết như sau:
Giả thuyết Ho: Mơ hình khơng có hiện tượng phương sai thay đổi. Giả thuyết H1: Mơ hình có hiện tượng phương sai thay đổi.
Nếu giá trị p-value có ý nghĩa thống kê thì giả thuyết H0 bị bác bỏ, khi đó ta kết luận có tồn tại hiện tượng phương sai thay đổi trong mơ hình. Ngược lại, mơ hình khơng có hiện tượng phương sai thay đổi nếu chấp nhận giả thuyết H0.
3.5.4.5 Kiểm định hệ số của các biến độc lập
Kiểm định hệ số của các biến độc lập là việc kiểm định xem các biến độc lập có tác động đến biến phụ thuộc hay không. Nếu phát hiện biến độc lập nào không tác động đến biến phụ thuộc thì ta loại biến đó ra khỏi mơ hình.
H0: βi = 0 H1: βi ≠ 0
Nếu p-value có ý nghĩa thống kê thì giả thuyết H0 bị bác bỏ, hay nói cách khác là biến độc lập thứ i đó tác động tới biến phụ thuộc một cách có ý nghĩa thống kê.
42
3.5.5 Phương pháp hồi quy theo GMM (General Method of Moments) 3.5.5.1 Phương pháp ước lượng GMM và kiểm định cơ bản 3.5.5.1 Phương pháp ước lượng GMM và kiểm định cơ bản
Phương pháp GMM là 1 phương pháp thống kê cho phép kết hợp các dữ liệu kinh tế quan sát được trong các điều kiện moment tổng thể (population moment condi- tions) để ước lượng các tham số chưa biết của các mơ hình kinh tế. GMM là phương pháp hiệu quả, ưu việt hơn cả nên cũng khá phức tạp. GMM được Lars Pe-
ter Hansen trình bày lần đầu tiên vào năm 1982 trong bài viết “Large Sample Prop- erties of Generalized Methods of Moments Estimators”.
Để ước lượng được hệ số β, chúng ta cần một bộ L vector các biến công cụ (trong ước lượng GMM còn được gọi là các điều kiện moment) và số lượng biến công cụ phải khơng ít hơn số biến giải thích trong mơ hình (L ≥ K).
Điều kiện để một biến được chọn là biến cơng cụ là nó khơng được tương quan với phần dư, điều này có nghĩa là:
𝐸(𝑍𝑡𝑢𝑡(𝛽)) = 0
Ý tưởng chủ đạo của phương pháp GMM là thay thế giá trị các biến công cụ bằng giá trị trung bình của mẫu:
𝐸(𝑍𝑡𝑢𝑡(𝛽)) =1𝑇∑ 𝑍𝑡𝑢𝑡(𝛽) =1𝑇𝑍′𝑢𝑡(𝛽) = 0 𝑡
và đi tìm Vector β thõa mãn phương trình trên.
Khi số lượng điều kiện moment lớn hơn số biến trong mơ hình (L > K) thì phương trình khơng thể xác định một nghiệm chính xác duy nhất (có nhiều nghiệm có thể