Phương pháp xử lý dữ liệu

Bước 1: Thống kê mô tả biến phụ thuộc và biến giải thích của mô hình để đưa ra các nhận định ban đầu về đặc điểm của mẫu nghiên cứu. Sau đó phân tích tương quan giữa các biến trong mô hình.

Tính toán các chỉ tiêu thông kê của dữ liệu giúp người đọc biết được tổng quan về các mẫu. Nó bao gồm các thông tin về trung bình, độ lệch, phương sai, quy luật dữ liệu.

Trung bình mẫu (mean) trong thống kê là một đại lượng mô tả thống kê, được tính ra bằng cách lấy tổng giá trị của toàn bộ các quan sát trong tập chia cho số lượng các quan sát trong tập.

Số trung vị (median) là một số tách giữa nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân bố xác suất. Nó là giá trị giữa trong một phân bố, mà số số nằm trên hay dưới con số đó là bằng nhau. Điều đó có nghĩa rằng 1/2 quần thể sẽ có các giá trị nhỏ hơn hay bằng số trung vị, và một nửa quần thể sẽ có giá trị bằng hoặc lớn hơn số trung vị.

Độ lệch chuẩn, hay độ lệch tiêu chuẩn, là một đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập dữ liệu đã được lập thành bảng tần số. Có thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của phương sai. Nếu gọi X là giá trị của công cụ tài chính, m = E(X) là trung bình cộng của X, S là phương sai, d là độ lệch chuẩn thì độ lệch chuẩn sẽ được tính toán như sau:S = E[(X – m)2] d = Căn bậc hai của S.

Tần suất và biểu đồ phân bổ tần suất, tần suất là số lần xuất hiện của biến quan sát trong tổng thể, giá trị các biến quan sát có thể hội tụ, phân tán, hoặc phân bổ theo một mẫu hình nào đó, quy luật nào đó.

Kiểm định tương quan biến, Hệ số tương quan đo mức độ phụ thuộc tuyến tính giữa hai biến (X & Y); khi hệ số tương quan càng gần bằng không quan hệ càng lỏng lẻo; càng gần 1 càng chặt; nếu cùng dấu là tương quan thuận và ngược lại là nghịch. Theo quy ước các biến có hệ số tương quan nhỏ hơn 0,3 được coi là biến rác, không có ý nghĩa nghiên cứu. Cụ thể :

±0.01 đến ±0.1: Mối tương quan quá thấp, không đáng kể ±0.2 đến ±0.3 : Mối tương quan thấp

±0.4 đến ±0.5: Mối tương quan trung bình ±0.6 đến ±0.7: Mối tương quan cao

±0.8 trở lên : Mối tương quan rất cao

Bên cạnh đó, mức ý nghĩa của tương quan giữa các biến độc lập và biến kiểm soát đóng vai trò quan trọng. Nếu mức ý nghĩa này lớn hơn 0.05 thì mối tương quan không có ý nghĩa và không tồn tại đa cộng tuyến giữa các biến đó. Nếu mức ý nghĩa nhỏ hơn 0.05 thì mối tương quan mới có ý nghĩa.

Bước 2: Kiểm định mức độ tác động của các biến giải thích đến biến phụ thuộc và ý nghĩa thống kê của các tham số hồi quy: Lựa chọn mô hình hồi quy phù hợp giữa mô hình hồi quy gộp (Pooled OLS model), mô hình tác động cố định (Fixed Effect Model – FEM) và mô hình tác động ngẫu nhiên (Random Effect Model – REM) bằng phương pháp kiểm định F-limer test và kiểm định Hausman test.

Theo Nguyễn Quang Dong (2012), Mô hình hồi quy theo phương pháp tác động cố định (Fixed-effects - FEM) và hồi quy theo tác động ngẫu nhiên (random-effects - REM) được sử dụng trong phân tích dữ liệu bảng (Panel data).

Dữ liệu bảng được hiểu là sự kết hợp của dữ liệu chéo theo đơn vị quan sát (cross- section) và dữ liệu thời gian (time series). Sử dụng dữ liệu bảng có hai ưu điểm lớn như: i) Dữ liệu bảng cho các kết quả ước lượng các của tham số trong mô hình tin cậy

hơn; ii) Dữ liệu bảng cho phép chúng ta xác định và đo lường tác động mà những tác động này không thể được xác định và đo lường khi sử dụng chéo theo đơn vị quan sát hoặc dữ liệu thời gian.

Dữ liệu bảng là dạng dữ liệu có nhiều ưu điểm, tuy nhiên cũng gây nhiều khó khăn cho người nghiên cứu khi ước lượng. Giả sử mô hình hồi quy đơn giản của dữ liệu bảng có dạng sau:

i là các đơn vị chéo (i= 1,2,3,…,N) t là các thời gian chéo (t= 1,2,3,…,N)

Có 3 phương pháp phổ biến dùng để hồi quy dữ liệu bảng:

- Phương pháp hồi quy gộp (Pooled OLS): Đây là phương pháp đơn giản nhất khi hồi quy dữ liệu bảng vì không kể đến tính chất không gian và thời gian của dữ liệu, tức xem các hệ số , không thay đổi theo thời gian và không gian.

- Phương pháp tác động cố định (FEM): Đây là phương pháp được dùng khá phổ biến. Trong phương pháp này, hệ số chặn thay đổi theo không gian ( ). Mỗi công ty sẽ có một hệ số chặn riêng. Kỹ thuật để tính toán hệ số gốc thay đổi là dùng cách đặt biến giả:

Sẽ có (N-1) biến giả theo không gian.

- Phương pháp tác động ngẫu nhiên (REM): Trong phương pháp tác động ngẫu nhiên REM, chỉ có một hệ số gốc chung cho các quan sát, là giá trị trung bình của NxT quan sát. Chênh lệch ngẫu nhiên ở hệ số gốc sẽ được đưa vào sai số

Hệ số gốc trong mô hình (3.1) được viết lại như sau :

Các bước lựa chọn mô hình

Đầu tiên, dùng kiểm định F-limer test để kiểm định sự phù hợp giữa mô hình FEM và Panel OLS với giả thuyết H0 là kiểm định FEM là dư thừa, tức không cần xét khác biệt mang tính cá nhân.

(1) Nếu giả thuyết H0 được chấp nhận, tức mô hình Panel OLS phù hợp hơn, và lúc này không cần kiểm định REM nữa.

(2) Nếu giả thuyết H0 bị bác bỏ, lúc này mô hình FEM là phù hợp hơn Panel OLS. Và vì vậy, sẽ tiến hành bước tiếp theo là chọn giữa FEM và REM bằng Hausman test.

Kiểm định Hausman (1978) với giả thuyết H0 là không có sự khác biệt giữa ước lượng bằng mô hình FEM và REM:

Nếu giả thuyết Ho được chấp nhận, tức không có sự khác biệt giữa ước lượng theo FEM và REM. Lúc này, REM sẽ được chọn do không làm giảm bậc tự do của mô hình.

Nếu giả thuyết Ho bị bác bỏ, tức có sự khác biệt giữa ước lượng theo FEM và REM. Và khi đó, mô hình FEM là phù hợp hơn vì lúc này ước lượng theo REM sẽ bị chệch.

Bước 3: Khắc phục các vấn đề trong xử lý dữ liệu bảng. Trong dữ liệu bảng, có 2 vấn đề lớn cần khắc phục đó là tự tương quan và phương sai thay đổi. Hậu quả của hai hiện tượng này đều khá nghiêm trọng, có thể làm sai lệch đáng kể kết quả hồi quy, tham số ước lượng nếu không được xử lý.

Vấn đề tự tương quan thường chỉ xảy ra trong mô hình REM vì mô hình này quan tâm đến cả những khác biệt của riêng các đối tượng phân tích qua thời gian đóng góp vào mô hình. Nhưng bù lại, REM lại loại bỏ tốt yếu tố phương sai thay đổi.

Ngược lại với mô hình REM, mô hình FEM có tính tác động theo thời gian, do đó, yếu tố tự tương quan gần như không có trong mô hình này. Trong khi đó, FEM xét đến các khác biệt cá nhân giữa các công ty trong mẫu nên vấn đề phương sai thay đổi lại là vấn đề tiềm tàng cần giải quyết trong mô hình này.

Do đó, nếu kết quả kiểm định ở bước 2 xác định mô hình hồi quy phù hợp là REM thì luận văn sẽ khắc phục tự tương quan còn nếu mô hình hồi quy phù hợp là FEM thì luận văn sẽ khắc phục hiện tượng phương sai thay đổi trong phần dư.

3.3.1.Mô hình tác động cố định (FEM)

Theo Gujarati (2004), xét một mối quan hệ kinh tế, với biến phụ thuộc, Vit và nhiều biến giải thích quan sát và không quan sát được như mô hình 1,2,3,4 đã nêu ở phần trên. Chúng ta hình thành dữ liệu bảng cho Vit và các biến độc lập; dữ liệu bảng bao gồm n đối tượng (ở đây là các doanh nghiệp niêm yết HOSE) và t-thời điểm (ở đây là các quý trong khoảng thời gian nghiên cứu); và từ đó chúng ta có n*t quan sát.

Mô hình hồi quy tác động cố định, là một dạng mở rộng của mô hình hồi quy tuyến tính cổ điển (OLS) được cho bởi phương trình, chẳng hạn như: Vit = β0 + β1* CASHit +

β2*(CASHit)2 +β3* INTANGGIBLEit + β4* SIZEit + β5* LEVit + ƞi + ʎt + εit (với ý nghĩa các ký hiệu, biến đã diễn giải ở phần trên) . Trong đó sai số của mô hình hồi quy tuyến tính cổ điển được tách làm hai thành phần: Thành phần ƞi đại diện cho các yếu tố không quan sát được khác nhau giữa các đối tượng nhưng không thay đổi theo thời gian. Thành phần ʎt đại diện cho những yếu tố không quan sát được khác nhau giữa các đối tượng và thay đổi theo thời gian.

Nguyên tắc của ước lượng tác động cố định được hiểu như sau: Để đánh giá tác động nhân quả của các biến độc lập lên biến phụ thuộc Vit, ước lượng tác động cố định sử dụng sự thay đổi trong các biến độc lập và phụ thuộc theo thời gian. Gọi là Zi kí hiệu cho một biến không quan sát được khác nhau giữa các đối tượng nhưng không đổi theo thời gian và vì vậy bao gồm cả phần sai số trong đó. Bởi vì Zi không thay đổi theo thời gian nên nó không thể gây ra bất kì sự thay đổi nào trong Vit ; Sở dĩ như vậy là vì không thay đổi theo thời gian, Zi không thể giải thích bất kì sự thay đổi nào trong Vit theo thời gian. Vì vậy, loại trừ tác động cố định của Zi lên Vit bằng cách sử dụng dữ liệu sự thay đổi trong Vit theo thời gian.

Trên thực tế xử lý dữ liệu nghiên cứu thì quá trình xử lý này được tính toán tự động hoàn toàn bằng phần mềm Eview.

3.3.2. Mô hình tác động ngẫu nhiêm (REM)

Theo Gujarati (2004), xét một mối quan hệ kinh tế, với biến phụ thuộc, Vit và nhiều biến giải thích quan sát và không quan sát được như mô hình 1,2,3,4 đã nêu ở phần trên. Chúng ta hình thành dữ liệu bảng cho Vit và các biến độc lập; dữ liệu bảng bao gồm n đối tượng (ở đây là các doanh nghiệp niêm yết HOSE) và t-thời điểm (ở đây là các năm trong khoảng thời gian nghiên cứu); và từ đó chúng ta có n*t quan sát.

Mô hình hồi quy tác động ngẫu nhiên được viết dưới dạng chẳng hạn như: Vit = β0 + β1* CASHit + β2*(CASHit)2+β3* INTANGGIBLEit + β4* SIZEit + β5* LEVit + ƞi + ʎt + εit (với ý nghĩa các ký hiệu, biến đã diễn giải ở phần trên) Trong đó, sai số cổ điển được chia làm 2 thành phần. Thành phần ƞi đại diện cho tất các các yếu tố không quan sát được mà thay đổi giữa các đối tượng nhưng không thay đổi theo thời gian. Thành phần μit đại diện cho tất cả các yếu tố không quan sát được mà thay đổi giữa các đối tượng và thời gian. Trong đó ƞi lại được phân chia làm hai thành phần: i) thành phần bất định a0 ii) thành phần ngẫu nhiên ωi

Giả định rằng, ωi cho mỗi đối tượng được rút ra từ một phân phối xác suất độc lập với giá trị trung bình bằng 0 và phương sai không đổi, đó là, E(ωi) = 0 Var(ωi) = sω2

Cov(ωi,ωs) = 0 k biến ngẫu nhiên ωi được gọi tác động ngẫu nhiên (random effects). Ước lượng OLS cho mô hình tác động ngẫu nhiên sẽ cho các tham số ước lượng không chệch nhưng lại không hiệu quả. Hơn nữa, các ước lượng của sai số chuẩn và do đó thống kê T sẽ không còn chính xác. Sở dĩ như vậy là vì ước lượng OLS bỏ qua sự tự tương quan trong thành phần sai số μit. Để kết quả ước lượng không chệch và hiệu quả, chúng ta có thể sử dụng ước lượng GLS khả thi (FGLS) để khắc phục hiện tượng sai số nhiễu tự tương quan. Ước lượng FGLS còn được gọi là ước lượng tác động ngẫu nhiên (Random effects estimator).

3.3.3. Lựa chọn FEM hay REM

Mô hình ước lượng tác động cố định (FEM) được kiểm chứng bằng kiểm định F với giả thuyết: H0 cho rằng tất cả các hệ số vi đều bằng 0 (nghĩa là không có sự khác biệt giữa các đối tượng hoặc các thời điểm khác nhau). Bác bỏ giả thuyết H0 với mức ý nghĩa cho trước (thường là 5%) sẽ cho thấy ước lượng tác động cố định là phù hợp.

Đối với ước lượng tác động ngẫu nhiên, phương pháp nhân tử Lagrange (LM) với kiểm định Breusch-Pagan được sử dụng để kiểm chứng tính phù hợp của ước lượng (Baltagi, 2008 trang 319). Theo đó, giả thuyết H0 cho rằng sai số của ước lượng thô không bao gồm các sai lệch giữa các đối tượng var (vi) = 0 (hay phương sai giữa các đối tượng hoặc các thời điểm là không đổi). Bác bỏ giả thuyết H0, cho thấy sai số trong ước lượng có bao gồm cả sự sai lệch giữa các nhóm, và phù hợp với ước lượng tác động ngẫu nhiên.

Kiểm định Hausman sẽ được sử dụng để lựa chọn phương pháp ước lượng phù hợp giữa hai phương pháp ước lượng tác động cố định và tác động ngẫu nhiên (Baltagi, 2008 trang 320; Gujarati, 2004 trang 652). Giả thuyết H0 cho rằng không có sự tương quan giữa sai số đặc trưng giữa các đối tượng (vi) với các biến giải thích trong mô hình. Ước lượng REM là hợp lý theo giả thuyết H0 nhưng lại không phù hợp ở giả thuyết thay thế. Ước lượng FEM là hợp lý cho cả giả thuyết H0 và giả thuyết thay thế. Tuy nhiên, trong trường hợp giả thuyết H0 bị bác bỏ thì ước lượng tác động cố định là phù hợp hơn so với ước lượng tác động ngẫu nhiên. Ngược lại, chưa có đủ bằng chứng để bác bỏ H0 nghĩa là không bác bỏ được sự tương quan giữa sai số và các biến giải thích thì ước lượng tác động cố định không còn phù hợp và ước lượng ngẫu nhiên sẽ ưu tiên được sử dụng.

3.3.4. Một số kiểm định mô hình

a) Kiểm định giả thiết về hệ số hồi qui j, mục đích là xem xét liệu j có bằng 0 hay không, nếu j=0 thì biến độc lập không có tác động riêng phần đến biến phụ thuộc.

Giả thiết:

H0: j=0; j 0,k

H1: j0

Với mức ý nghĩa  miền bác bỏ là:

      value p t t /2;(n k)

Bác bỏ H0: Các biến độc lập có tác động riêng phần đến biến phụ thuộc.

b) Kiểm định sự phù hợp của mô hình, Đại lượng R2 cho thấy mức độ phù hợp của mô hình hồi qui. Muốn biết với R2 khác 0 có ý nghĩa thống kê không, mô hình có phù hợp hay không cần tiến hành kiểm định giả thiết.

Giả thiết:

H0: R2=0  H0: j=0 j1,k

H1: R20  H1: j0

Với mức ý nghĩa miền bác bỏ là: F> F;(k-1,n-k) hay p-value<

Chấp nhận H0: Mô hình không phù hợp . Bác bỏ H0: Mô hình phù hợp.

c) Kiểm định đa cộng tuyến, kiểm định này nhằm phát hiện ra hiện tượng đa cộng tuyến là hiện tượng mà các biến độc lập có quan hệ tương quan với nhau.

Mô hình hồi qui chính:

Vit = β0 + β1* CASHit + β2*(CASHit)2 +β3* INTANGGIBLEit + β4* SIZEit + β5* LEVit + ƞi + ʎt +εit

Xét các mô hình hồi qui phụ với việc bỏ biến phụ thuộc Vit và lấy lượt thay thế các biến độc lập (ở vế phải) đóng vai trò biến phụ thuộc sau đó xem xét các R2 của từng phương trình hồi quy phụ.

Giả thiết 1:

H0: Rj2=0: Không có đa cộng tuyến H1: Rj20: Có đa cộng tuyến Với mức ý nghĩa  miền bác bỏ là: F> F;(k-2,n-k+1) hay p-value<

Hệ số VIF là hệ số được sử dụng để xác định mô hình có hiện tượng đa cộng tuyến, được tính theo công thức VIF = 1/(1-Rj2).

Nếu VIF > 10 thì không có hiện tượng đa cộng tuyến. Nếu VIF < 10 thì mô hình có hiện tượng đa cộng tuyến.

d) Kiểm định phương sai sai số thay đổi (kiểm định White) nhằm xem xét phương sai của sai số mô hình hồi qui có thay đổi hay không. Mô hình có dạng

Thảo luận kết quả nghiên cứu

Kết luận về các vấn đề nghiên cứu