CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU
3.1 PHƯƠNG PHÁP NGHIÊN CỨU
Để đồng nhất và phù hợp với mục tiêu nghiên cứu được đề ra các bước phân tích được thực hiện theo một quy trình chi tiết được mô tả dưới dạng sơ đồ dưới đây:
Hình 3.1 Phương pháp nghiên cứu
Nguồn: Tác giả tổng hợp
17
Stata 16 là phần mềm hỗ trợ cũng như công cụ phân tích phù hợp để thực hiện các bước phân tích đã đề ra. Chi tiết các bước:
Bước 1: Thống kê mô tả dữ liệu
Các phép toán và câu lệnh sẽ được tác giả sử dụng trong phần mềm stata 14 để tiến hành thực hiện các phân tích thống kê mô tả đặc trưng nhất như: giá trị lớn nhất, giá trị nhỏ nhất, giá trị trung bình, trung vị và sai số chuẩn của các các biến được đề cập đến trong mô hình. Qua đó tác giả có thể đưa ra các quyết định phù hợp cũng lọc lại dữ liệu nghiên cứu nếu cần thiết qua các tiêu chí được thống kê đó.
Bước 2: Kiểm định mô hình Pooled OLS, FEM và REM
Hồi quy dữ liệu bảng sử dụng ba phương pháp chính, đó là phương pháp Pooled OLS, phương pháp tác động cố định (FEM) và phương pháp tác động ngẫu nhiên (FEM). Phương pháp Pooled OLS thực chất là việc sử dụng dữ liệu bảng để phân tích bằng hình thức sử dụng tất cả dữ liệu theo cách xếp chồng và không phân biệt từng đơn vị chéo riêng. Đây là phương pháp thông thường và đơn giản nhất, tương tự như việc phân tích OLS bình thường, không kể đến kích thước không gian và thời gian của dữ liệu. Mô hình Pooled OLS được cụ thể như sau:
𝑦𝑖𝑡 =∝1+ 𝛽1𝑥1𝑖𝑡 + 𝛽2𝑥2𝑖𝑡+. . +𝛽𝑘𝑥𝑘𝑖𝑡 + +𝑢𝑖𝑡 Trong đó 𝑦𝑖𝑡 là biến phụ thuộc của quan sát i trong thời kỳ t, 𝑥𝑘𝑖𝑡 là biến độc lập của quan sát k trong thời kỳ k.
Mô hình này có một số nhược điểm, đó là nhận diện sai thể hiện ở Durbin – Watson (DW) và ràng buộc quá chặt về các đơn vị chéo, điều này khó xảy ra so với thực tế. Vì thế, để khắc phục các nhược điểm trên, mô hình FEM và REM được sử dụng.
Để thể hiện tác động đặc trưng của mỗi đơn vị chéo đến biến phụ thuộc nhằm cho tung
độ gốc thay đổi đối với mỗi đơn vị nhưng hệ số độ dốc không thay đổi. Phương pháp đó được gọi là phương pháp hồi quy theo mô hình tác động cố định (FEM), nghĩa là tung
độ gốc có thể khác nhau giữa các đơn vị chéo nhưng không thay đổi theo thời gian.
18
Với giả định mỗi đơn vị đều có những đặc điểm riêng biệt có thể ảnh hưởng đến các biến giải thích, FEM phân tích mối tương quan này giữa phần dư của mỗi đơn vị với các biến giải thích qua đó kiểm soát và tách ảnh hưởng của các đặc điểm riêng biệt (không đổi theo thời gian) ra khỏi các biến giải thích để chúng ta có thể ước lượng những ảnh hưởng thực (net effects) của biến giải thích lên biến phụ thuộc. Mô hình FEM có dạng như sau:
𝑦𝑖𝑡 = 𝐶𝑖+ 𝛽𝑥𝑖𝑡 + +𝑢𝑖𝑡 Trong đó 𝑦𝑖𝑡 là biến phụ thuộc của quan sát i trong thời gian t, 𝑥𝑖𝑡 là biến độc lập của quan sát i trong thời gian t, 𝐶𝑖 là hệ số chặn cho từng đơn vị nghiên cứu, 𝛽 là hệ số góc đối với nhân tố x và 𝑢𝑖𝑡 là phần dư.
Điểm khác biệt giữa mô hình ảnh hưởng ngẫu nhiên và mô hình ảnh hưởng cố định được thể hiện ở sự biến động giữa các đơn vị. Nếu sự biến động giữa các đơn vị có tương quan đến biến độc lập – biến giải thích trong mô hình ảnh hưởng cố định thì trong mô hình ảnh hưởng ngẫu nhiên sự biến động giữa các đơn vị được giả sử là ngẫu nhiên và không tương quan đến các biến giải thích.
Chính vì vậy, nếu sự khác biệt giữa các đơn vị có ảnh hưởng đến biến phụ thuộc thì REM
sẽ thích hợp hơn so với FEM. Trong đó, phần dư của mỗi thực thể (không tương quan với biến giải thích) được xem là một biến giải thích mới.
Ý tưởng của mô hình REM cũng bắt đầu từ mô hình như sau:
𝑦𝑖𝑡 = 𝐶𝑖+ 𝛽𝑥𝑖𝑡 + +𝑢𝑖𝑡 Thay vì trong mô hình trên, 𝐶𝑖 là cố định thì trong REM có giả định rằng nó là một biến ngẫu nhiên với trung bình là C1 và giá trị hệ số chặn được mô tả như sau
𝐶𝑖 = 𝐶 + 𝜀𝑖 (𝑖 = 1, … , 𝑛)
Trong đó 𝜀𝑖 là sai số ngẫu nhiên có trung bình bằng 0 và phương sai là 𝜎2. Thay vào mô hình tác giả được:
𝑦𝑖𝑡 = 𝐶 + 𝛽𝑥𝑖𝑡+ 𝜀𝑖𝑡+ 𝑢𝑖𝑡 hay 𝑦𝑖𝑡 = 𝐶 + 𝛽𝑥𝑖𝑡+ 𝑤𝑖𝑡 và 𝑤𝑖𝑡 = 𝜀𝑖𝑡+ 𝑢𝑖𝑡
19
Trong đó 𝜀𝑖𝑡 là sai số thành phần của các đối tượng khác nhau (đặc điểm khác nhau của từng doanh nghiệp) và 𝑢𝑖𝑡 là sai số thành phần kết hợp khác của cả đặc điểm riêng theo từng đối tượng và theo thời gian.
So với phương pháp FEM, phương pháp REM có thể khắc phục toàn bộ nhược điểm của phương pháp FEM nhưng REM coi mỗi đặc điểm riêng của các đơn vị 𝜀𝑖 không tương quan với các biến độc lập. Do đó nếu xảy ra hiện tượng này thì REM ước lượng không còn chính xác.
Bước 3: Kiểm định các hệ số hồi quy
Đầu tiên các biến không cần thiết sẽ được loại ra khỏi mô hình thông qua các kiểm định thừa biến. Các biến không có ý nghĩa thống kế từ kết quả ước lượng của các
mô hình Pooled OLS, FEM và REM sẽ lựa chọn loại ra để mô hình phù hợp hơn. Kiểm định Wald sẽ được sử dụng để kiểm tra sự cần thiết của các biến được lựa chọn với mô hình.
Các biến sau khi được loại ra (nếu có), mô hình sẽ được tác giả hồi quy lại với các biến độc lập còn lại, sau đó tiến hành kiểm tra các thông số. Kiểm định t (t-test) sẽ được tiến hành để kiểm tra sự phù hợp của các hệ số hồi quy. Các mức ý nghĩa thống kê
ở mức 1%, 5%, 10% sẽ được lựa chọn phù hợp mô hình.
Bước 4: Kiểm định khuyết tật của mô hình
Kiểm định phương sai số thay đổi:
Phương sai thay đổi nghĩa là phương sai của các phần dư là không phải hằng số, nghĩa
là chúng khác nhau ở các quan sát khác nhau. Hệ quả của nó sẽ dẫn đến các vấn đề như: ước lượng của phương sai sẽ bị chệch, các ước lượng OLS vẫn là không chệch nhưng không còn hiệu quả nữa. Kết quả sẽ làm các kiểm định của hệ số hồi quy không còn hiệu quả. Kiểm định Breusch – Pagan sẽ được tiến hành cho mô hình Pooled OLS hoặc FEM. Nếu mô hình có phương sai thay đổi sẽ được khắc phục mô hình nghiên cứu bằng cách ước lượng lại mô hình được chọn bằng phương pháp GLS. Nếu trong trường hợp mô hình Random effect được chọn thì đề tài chỉ tiến hành kiểm định đa cộng tuyến và tự
20
tương quan do mô hình Random Effect chưa có cách thức kiểm định phương sai thay đổi.
Kiểm định hiện tượng tự tương quan:
Tự tương quan là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian trong các số liệu chuỗi thời gian, hoặc sắp xếp theo thứ tự không gian, đối với các số liệu theo không gian. Một số hậu quả có thể xảy ra nếu xuất hiện hiện tượng tự tương quan như: các phương sai và số tiêu chuẩn của dự đoán không có hiệu quả, ước lượng OLS vẫn là ước lượng tuyến tính không chệch, đôi khi quá thấp so với phương sai thực và sai số tiêu chuẩn, dẫn đến phóng đại tỷ số t nhưng không là ước lượng hiệu quả nữa, có thể hệ số xác định không đáng tin cậy và dường như là nhận giá trị ước lượng cao, các kiểm định t và F không đáng tin cậy, công thức thông thường để tính phương sai của sai số là ước lượng chệch của phương sai thực và trong một số trường hợp dường như ước lượng thấp của phương sai thực. Kiểm định dựa trên quy tắc kiểm định Durbin – Watson sẽ được tiến hành trong nghiên cứu. Nếu có hiện tượng tự tương quan xảy ra, tác giả quyết định chọn biến pháp khắc phục là ước lượng ρ dựa trên thống
kê Durbin – Watson.
Kiểm định hiện tượng đa cộng tuyến:
Đa cộng tuyến nghĩa là hai hay nhiều biến giải thích trong biểu thức hồi quy có mối quan
hệ tuyến tính với nhau. Nếu các biến có mối quan hệ tuyến tính thì các hệ số ước lượng
và thống kê T sẽ không còn hợp lý. Hiện tượng đa cộng tuyến có thể dẫn đến các hậu quả như sau: các ước lượng OLS và sai số chuẩn trở nên rất nhạy với những thay đổi trong số liệu, dấu của các ước lượng của các hệ số hồi quy có thể sai lệch, thêm vào hay bớt đi các biến cộng tuyến với các biến khác thì hệ số của các biến còn lại có thể thay đổi rất lớn và thay đổi cả dấu của chúng, phương sai và hiệp phương sai của các ước lượng OLS lớn, khoảng tin cậy rộng lớn, tỷ số t mất ý nghĩa, hệ số xác định cao nhưng
tỷ số t mất ý nghĩa. Kiểm định đa cộng tuyến bằng hai cách sẽ được tiến hành theo hai cách. Cách một là thông qua phân tích hệ số tương quan nhằm kiểm định đa cộng tuyến
21
của từng cặp biến độc lập. Hệ số tương quan (Pearson) được tính bằng cách chia hiệp phương sai của biến với tích độ lệch chuẩn của chúng. Nếu hệ số tương quan giữa các biến độc lập lớn hơn 0.8 (còn được gọi là hệ số tương quan cao), ta có hiện tượng đa cộng tuyến cao. Cách hai là kiểm định đa cộng tuyến giữa một biến độc lập so với các biến độc lập còn lại thông qua sử dụng thừa phóng đại phương sai VIF. Nếu hiện tượng
đa cộng tuyến xảy ra, nhóm tác giả sẽ khắc phục bằng cách bỏ đi biến độc lập có đa cộng tuyến, đây là cách làm đơn giản nhất vì sau khi bỏ biến độc lập có đa cộng tuyến, các hệ
số hồi quy của các biến còn lại từ chỗ khác 0 và không có ý nghĩa thống kê có thể trở thành khác 0 có ý nghĩa thống kê.