Phân tích dữ liệu

Để phân tích tác động của CTV đến KNSL trong các công ty kinh doanh cao su niêm yết, tác giả t hực hiện phân tích sử dụng phương pháp bình phương bé

3.2.3. Phân tích dữ liệu

Từ tổng quan nghiên cứu liên quan đến CTV và KNSL của các tác giả trong và ngoài nước đều sử dụng mô hình hồi quy. Các phân tích định tính được thực hiện thông qua phân tích, mô tả, so sánh, đánh giá 18 công ty cao su niêm yết trên HOSE và HNX bằng việc tiếp cận là CTV để xem xét sự tác động của nó lên KNSL. Khi phân tích tác giả sử dụng mô hình hồi quy đa biến. Dữ liệu được thực hiện khi phân tích đơn biến bao gồm thống kê mô tả, phân tích tương quan, khi phân tích đa biến sẽ lựa chọn mô hình xử lý dữ liệu, đánh giá sự phù hợp của mô hình hồi quy. Cụ thể các bước được tiến hành như sau:

- Thống kê mô tả:

Các số liệu sau khi được thu thập, tác giả sẽ tổng hợp, tính toán đối tượng nghiên để phân tích. Trình bày số liệu dưới dạng bảng thống kê, mỗi biến gồm: tên biến, số quan sát, trung bình, độ lệch chuẩn, giá trị cực tiểu và giá trị cực đại, độ lệch chuẩn và độ nhọn. Từ kết quả các số liệu thống kê của các biến quan sát được, tác giả sẽ có sự diễn giải và phân tích ý nghĩa của các số liệu trên. Theo Đinh Công Khải và Kim Chi (2011) thì việc sử dụng dữ liệu bảng giúp:

+ Dữ liệu dạng bảng cung cấp dữ liệu có nhiều thông tin hơn, đa dạng hơn, ít xảy ra đa cộng tuyến giữa các biến và có hiệu quả.

+ Khi nghiên cứu tính động thì dữ liệu dạng bảng rất phù.

mà không thể quan sát trong dữ liệu, thời gian hay dữ liệu chéo theo không gian. + Dữ liệu bảng giúp nghiên cứu được các mô hình phức tạp.

+ Khi thu thập những số liệu có sẵn cho vài nghìn đơn vị, dữ liệu bảng có thể tối thiểu hoá sự thiên lệch có thể xảy ra nếu tổng hợp các cá nhân hay các công ty thành số liệu tổng.

Tóm lại, dữ liệu bảng có thể làm phong phú các phân tích thực nghiệm theo cách thức mà không chắc có thể đạt được nếu ta chỉ sử dụng các dữ liệu theo chuỗi thời gian hay không gian thuần tuý.

- Phân tích tương quan:

Được thực hiện bằng cách thiết lập ma trận hệ số tương quan và xem xét hệ số tương quan cặp giữa các biến. Hệ số tương quan là một chỉ số thống kê đo lường mối liên hệ tương quan giữa hai biến số có giá trị từ -1 đến 1. Hệ số tương quan bằng 0 hay gần 0 có nghĩa là hai biến số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối. Phân tích tương quan cũng giúp tìm ra những cặp biến có hệ số tương quan cao. Hệ số tương quan cặp giữa các biến quá cao có thể xảy ra hiện tượng đa cộng tuyến.

- Phương pháp xử lý dữ liệu:

Phương pháp nghiên cứu ước lượng hồi quy theo phương pháp gộp (Pooled OLS), mô hình tác động cố định (Fixed Effects Model, FEM) và mô hình tác động ngẫu nhiên (Random Effects Model, REM) là ba phương pháp được lựa chọn để xử lý dữ liệu dạng bảng.

Phương pháp gộp (Pooled OLS): đây là cách tiếp cận đơn giản nhất khi dữ liệu kết hợp với giả định tất cả các hệ số đều không đổi theo không gian và thời gian và chỉ ước lượng hồi quy bình phương nhỏ nhất thông thường OLS. Phương pháp này được thực hiện bằng việc xếp chồng lên nhau các quan sát của từng đơn vị chéo nên mô hình được hồi quy theo phương pháp này mặc dù đơn giản nhất nhưng lại có thể “bóp méo” mối quan hệ giữa biến phụ thuộc và các biến giải thích.

Mô hình tác động cố định (Fixed Effects Model, FEM), đây là mô hình giúp nghiên cứu có thể giải quyết được hạn chế của phương pháp gộp. Ước lượng FEM

cho biết mỗi cá nhân có thể có những đặc điểm riêng, do đó tung độ gốc trong mô hình hồi quy có thể sẽ khác nhau giữa các cá nhân. Mô hình FEM phù hợp trong những tình huống mà tung độ gốc của mỗi công ty tương quan với một hay nhiều biến độc lập. Với mô hình có quá nhiều biến thì khả năng xảy ra hiện tượng đa cộng tuyến là rất lớn, có thể gây khó khăn cho việc ước lượng chính xác một hoặc nhiều hơn một thông số. Tuy nhiên, những vấn đề khó khăn của mô hình FEM có thể sẽ được khắc phục khi sử dụng mô hình tác động ngẫu nhiên.

Mô hình ước lượng sử dụng: Yit = Ci + β Xit + uit

Trong đó:

Yit: biến phụ thuộc với i: công ty, t: thời gian (năm) Ci: hệ số chặn cho từng thực thể nghiên cứu (i = 1.…n) Xit: biến độc lập

β: hệ số góc đối với nhân tố X uit: phần dư

Mô hình tác động ngẫu nhiên (Random Effects Model, REM), FEM có lợi thế hơn Pooled OLS vì không yêu cầu các giả định khắt khe nhưng lại làm cho mô hình mất đi nhiều bậc tự do, nhất là đối với dữ liệu có n lớn, do đó mô hình REM ra đời.

Mô hình ước lượng sử dụng:

Yit = Ci + β Xit + εi + uit hay Yit = Ci + β Xit + wit với wit = εi + uit

Trong đó:

εi: sai số thành phần của đặc điểm riêng khác nhau của từng công ty

uit: sai số thành phần kết hợp khác của cả đặc điểm riêng theo từng đối tượng và theo thời gian.

Nếu t (số dữ liệu chuỗi thời gian) lớn và n (số đơn vị chéo) nhỏ, thì có thể sẽ không có khác biệt trong các giá trị của các thông số được ước lượng bởi FEM và

Chọn REM

Lựa chọn OLS/REM

Lựa chọn mô hình REM/FEM

Lựa chọn mô hình tối ưu

Mô hình có khuyết tật: Khắc phục mô hình

Chọn FEM

Kiểm tra khuyết tật mô hình tối ưuMô hình không có khuyết tật: Chọn mô hình tối ưu

REM. Nếu n lớn và t nhỏ, các ước lượng thu nhận được bởi hai phương pháp này có thể khác nhau đáng kể. Nếu thành phần sai số cá nhân εi và một hay nhiều hơn một biến hồi quy độc lập tương quan với nhau, thì các phép toán ước lượng REM bị chệch, trong khi đó các phép toán ước lượng thu được từ FEM thì không chệch. Nếu n lớn và t nhỏ, và nếu các giả định cơ bản cho REM được giữ đúng, thì các phép toán ước lượng REM hiệu quả lớn hơn các phép toán ước lượng FEM. Có một kiểm định chính thức sẽ giải quyết được vấn đề lựa chọn giữa hai mô hình FEM và REM là kiểm định do Hausman xây dựng năm 1978.

Hình 3.3: Quy trình phân tích hồi quy

Nguồn: Tác giả tổng hợp trê cơ sở kết quả nghiên cứu

Kiểm định Hausman: Được sử dụng để lựa chọn phương pháp ước lượng phù hợp giữa hai phương pháp ước lượng tác động cố định và tác động ngẫu nhiên. Giả thuyết H0 cho rằng không có sự tương quan giữa sai số đặc trưng εi giữa các đối tượng với các biến giải thích Xit trong mô hình. Nếu giả thuyết H0 không phù hợp

thì FEM là phù hợp hơn so với REM và sẽ được lựa chọn. Ngược lại, nếu chưa chứng minh được H0 không phù hợp nghĩa là không bác bỏ được sự tương quan giữa sai số và các biến giải thích thì FEM không còn phù hợp và REM sẽ ưu tiên được sử dụng. Kiểm định Hausman được sử dụng lựa chọn mô hình FEM hay mô hình REM là phù hợp cho hồi quy dữ liệu mẫu với giả thiết:

H0: Ước lượng của FEM và REM là không khác nhau; H1: Ước lượng của FEM và REM là khác nhau.

Nếu p-value < α, H0 bị bác bỏ. Khi đó, mô hình REM không hợp lí, nếu mô hình FEM được lựa chọn. Ngược lại, mô hình REM phù hợp để lựa chọn nếu chấp nhận giả thiết H0.

Và như vậy, sau khi sử dụng các phương pháp hồi quy, cần thực hiện kiểm định Hausman để lựa chọn mô hình hồi quy xử lý dữ liệu bảng và giải thích kết quả nghiên cứu. Quy trình phân tích được thực hiện trên phần mềm Stata 16. Hình 3.3 thể hiện quy trình phân tích hồi quy.

KẾT LUẬN CHƯƠNG 3

Trong chương 3, tác giả đã trình bày các nội dung chính: Quy trình nghiên cứu; phương pháp nghiên cứu; các giả thuyết và mô hình nghiên cứu; dữ liệu nghiên cứu và cách thức thu thập dữ liệu.

Tác giả trình bày nghiên cứu và các lập luận để thực hiện luận văn thông qua quy trình nghiên cứu. Quy trình này được trình bày dưới dạng lưu đồ. Trên nền tảng các lý thuyết và nghiên cứu thực nghiệm đã trình bày ở Chương 2, xây dựng mô hình nghiên cứu và cách thức tính toán cho từng biến số.

Phương pháp thu thập và xử lý dữ liệu: Tác giả nêu quy trình chọn mẫu là các công ty thuộc ngành cao từ năm 2015 đến năm 2019, có đủ BCTC, chọn được 18 công ty niêm yết. Từ BCTC tác giả nhập các chỉ tiêu cần lấy vào phần mềm excel, chuyển vào phần mềm Stata 16 để phân tích. Quy trình phân tích hồi quy.

Chương 4

GIỚI THIỆU ĐỀ TÀI NGHIÊN CỨU

Lý thuyết về cấu trúc vốn