7. Tổng quan tài liệu nghiên cứu
2.5.4. Phân tích tƣơng quan và đa cộng tuyến
a. Phân tích tương quan
Hệ số tƣơng quan (r) là một chỉ số thống kê đo lƣờng mối liên hệ tƣơng quan giữa hai biến số X và Y.
Cho hai biến số x và y từ n mẫu, hệ số tƣơng quan Pearson đƣợc ƣớc tính bằng công thức sau đây:
Trong đó: x , y : giá trị trung bình mẫu của biến x, y
Hệ số tƣơng quan (r) có giá trị từ -1 đến 1. Hệ số tƣơng quan (r) bằng 0 (hay gần 0) có nghĩa là hai biến số không có liên hệ gì với nhau. Ngƣợc lại, nếu hệ số tƣơng quan bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối. Nếu giá trị của hệ số tƣơng quan là âm (r <0) có nghĩa là khi x tăng cao thì y giảm (và ngƣợc lại, khi x giảm thì y tăng). Nếu giá trị hệ số tƣơng quan là dƣơng (r > 0) có nghĩa là khi x tăng cao thì y cũng tăng, và khi x giảm thì y cũng giảm theo.
r > 0,8 : x và y tƣơng quan mạnh, tồn tại đa cộng tuyến. r = 0,4 đến 0,8 : x và y tƣơng quan trung bình.
r < 0,4 : x và y tƣơng quan yếu.
b. Đa cộng tuyến
Thông thƣờng các biến độc lập không có mối quan hệ tuyến tính, nếu quy tắc bị vi phạm sẽ có hiện tƣợng đa cộng tuyến. Nhƣ vậy, đa cộng tuyến là hiện tƣợng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện đƣợc dƣới dạng hàm số.
Y = β1 + β2X2i + β3X3i + …+ βkXki + Ui (i= 1, 𝑛 )
Các biến X2, X3,…, Xk gọi là các đa cộng tuyến hoàn hảo hay còn gọi là đa cộng tuyến chính xác nếu tồn tại λ2, λ3..., λk không đồng thời bằng 0 sao cho:
λ2X2 + λ3X3 +…+ λkXk = 0 với mọi i
Các biến X2, X3,…, Xk gọi là các đa cộng tuyến không hoàn hảo nếu tồn tại λ2, λ3..., λk không đồng thời bằng 0 sao cho:
λ2X2 + λ3X3 +…+ λkXk + Vi = 0 với Vi là sai số ngẫu nhiên Các giải pháp khắc phục đa cộng tuyến:
- Loại bỏ biến: Vì tính đa cộng tuyến là do những mối quan hệ chặt chẽ giữa các biến độc lập, cách chắc chắn nhất để loại bỏ hoặc giảm bớt các tác động của tính đa cộng tuyến là bỏ một hoặc nhiều biến độc lập ra khỏi mô hình.
- Tăng kích thước mẫu: Giải pháp này thích hợp cho hiện tƣợng đa cộng tuyến do cỡ mẫu nhỏ, vì tăng cỡ mẫu sẽ làm cải thiện độ chính xác của một ƣớc lƣợng và do đó, giảm thiểu đƣợc những yếu tố phản tác dụng của tính đa cộng tuyến. Đôi khi chỉ cần tăng thêm một số quan sát là khắc phục đƣợc hiện tƣợng đa cộng tuyến. Tuy nhiên, việc tăng dữ liệu đôi khi đồng nghĩa với việc tăng chi phí, nhất là đối với dữ liệu sơ cấp.
- Bỏ qua đa cộng tuyến: Nếu t > 2 hoặc R2 của mô hình cao hơn R2
của mô hình hồi quy phụ thì bỏ qua đa cộng tuyến. Nếu nhà nghiên cứu ít quan tâm đến việc diễn dịch từng hệ số riêng lẻ nhƣng lại chú trọng hơn vào việc dự báo, thì tính đa cộng tuyến có thể không phải là một vấn đề nghiêm trọng. Ngay cả khi có tƣơng quan cao giữa các biến độc lập, nếu nhƣ các hệ số hồi quy là có ý nghĩa, có những dấu và giá trị có ý nghĩa, thì không cần quan tâm vào vấn đề đa cộng tuyến. Bởi, nếu một hệ số hồi quy có ý nghĩa ngay cả trong trƣờng hợp có sự hiện diện của đa cộng tuyến thì đó mới là một kết quả mạnh.
- Sử dụng thông tin tiền nghiệm: sử dụng kết quả của các mô hình kinh tế lƣợng trƣớc ít có đa cộng tuyến. Chẳng hạn
Β3 = 0,1 β2. Chạy mô hình với điều kiện tiền nghiệm Y = β1X1 + β2X2+ 0,1 β2X3+ e
Y = β1 + β2X trong đó X = X2 + 0,1X3
Khi ƣớc lƣợng đƣợc β2 thì suy ra β3 từ mối quan hệ tiền nghiệm trên.