Phần này sẽ trình bày các điều kiện trong đánh giá phân tích mô hình hồi quy nhằm xác thực độ tin cậy của các ước lượng hồi quy có được từ dữ liệu khảo sát.
Chúng ta đã biết, các kết luận dựa trên hàm hồi quy tuyến tính thu đ ược chỉ có ý nghĩa khi hàm hồi quy đó phù hợp với dữ liệu mẫu và các hệ số hồi quy khác 0 có ý nghĩa; đồng thời, các giả định của hàm hồi quy tuyến tính cổ điển về ph ương sai, tính độc lập của phần dư… được đảm bảo. Vì thế, trước khi phân tích kết quả hồi quy, ta thực hiện các kiểm định về độ phù hợp của hàm hồi quy, kiểm định ý nghĩa của các hệ số hồi quy và đặc biệt là kiểm định các giả định của hàm hồi quy.
a) Kiểm chứng các giả định của mô hình hồi quy
Nếu các giả định bị vi phạm, thì các kết quả ước lượngsẽkhông còn đáng tin cậy nữa. Vì thế, để đảm bảo sự diễn dịch từ kết quả hồi quy của mẫu cho tổng thể có giá trị, trong phần này, ta tiến hành kiểm định các giả định của hàm hồi quy tuyến tính cổ điển bao gồm các giả định nhưsau:
- Không có hiện tượng đa cộng tuyến giữa các biến độc lập. - Phương sai của phân phối phần dư là không đổi.
- Các phần dư có phân phối chuẩn.
- Không có hiện tượng tự tương quan giữa các phần dư.
*Giả định không có hiện tượng đa cộng tuyến giữa các biến độc lập:
Đa cộng tuyến là hiện tượng mà trong đó có sự tồn tại của nhiều hơn một mối quan hệ tuyến tính chính xác. Tức là giữa các biến độc lập có thể có một biến nào đó được biểu diễn bởi tổ hợp tuyến tính của các biến còn lại. Hiện tượng này sẽ dẫn đến những hậu quả nghiêm trọng trong phân tích hồi quy như kiểm định t sẽ không còn ý nghĩa, dấu của các ước lượng hệ số hồi quy có thể sai. Trong mô hình hồi quy bội, chúng ta giả định giữa các biến độc lập của mô hình không có hiện tượng đa cộng tuyến.
phương sai VIF (variance inflation factor). Khi VIF vượt quá 10 thì đó là dấu hiệu của hiện tượng đa cộng tuyến. Trong phần mềm thống kê SPSS còn những công cụ khác để xem xét có hay không có sự xuất hiện của hiện tượng này như chỉ số điều kiện (condition
index). Chỉ số điều kiện lớn hơn 15 thì đó là một dấu hiệu cho thấy có thể xảy ra hiện tượng đa cộng tuyến (trong mục trợ giúp của phần mềm SPSS v16.0).
*Giả định phương sai của phân phối phần dư là không đổi:
Phần dư (residual) của một quan sát là độ chênh lệch (εi hay ei) giữa tung độ của giá trị quan sát thực tế (Yi) và tung độ của giá trị hồi quy (Ŷi). Tập hợp các độ lệch này so với một giá trị hồi quy sẽ tạo nên một phân phối chuẩn tại giá trị (Ŷi). Một hàm hồi quy tuyến tính sẽ có nhiều phân phối chuẩn của phần dư tại các giá trị (Ŷi).
Giả định này cho rằng các phân phối chuẩn của các phần dư nói trên này đều có phương sai là một hằng số (phương sai không đổi).
Ta có thể quan sát và kiểm chứng được điều kiện này bằng biểu đồ Histogram của phân phối phần dư chuẩn hóa (standardized residual). Nếu phương sai của phần dư không đổi thì các chấm sẽ phân tán một cách ngẫu nhiên quanh trục hoành, tức là xung quanh giá trị trung bình (cótung độ = 0) chứ không hình thành nên một dạng đồ thị nhất định nào cả.
Kiểm định hệ số tương quan Spearman có gi ả thuyết H0 cho rằng hệ số tương quan hạng giữa các biến giải thích (Xi) và phần dư (ε) là không có ý nghĩa (bằng 0). Nếu ta không có đủ cơ sở bác bỏ giả thuyết này thì có thể chấp nhận rằng phương sai của phân phối phần dư là không thay đổi.
*Giả định về phân phối của phần dư là phân phối chuẩn:
Phần dư có thể không tuân theo phân phối chuẩn vì nhiều lý do: sử dụng mô hình không đúng, phương sai không ph ải là hằng số, số lượng các phần dư không đủ nhiều để phân tích. Vì vậy, ta cần phảisử dụng nhiều cách kiểm định khác nhau để đảm bảo tính xác đáng của kiểm định. Các kiểm định phân phối chuẩn của phần d ư gồm có: Biểu đồ tần số của phần dư chuẩn hóa, Biểu đồ tần số Q-Q plot, P-P plot và kiểm định Kolmogorov-Smirnov… Trong đó kiểm địnhKolmogorov-Smirnov có giả thuyết H0 cho rằng phần dư có phân phối chuẩn. Với độ tin cậy 95% nếu phân phối của phần d ư có trị trung bình bằng 0 (hoặc xấp xĩ =0) và độ lệch chuẩn bằng 1 (hoặc xấp xĩ =1) với mức ý
nghĩa (Sig) > 0.05 thì ta có thể an toàn chấp nhận giả thuyết H0 cho rằng phần dư có phân phối chuẩn.
Ngoài ra, biểu đồ tần số P-P plot và biểu đồ tần số Q-Q plot cũng giúp ta quan sát các giá trị của các điểm phân vị của phân phối phần d ư theo các phân vị của phân phối chuẩn. Những giá trị kỳ vọng này tạo thành 1 đường chéo trên biểu đồtần số P-P plot và Q-Q plot. Nếu phần dư có phân phối chuẩn thì các điểm quan sát thực tế của nó sẽ tập trung sát vào đường chéo kỳ vọng này.
*Giả định không có sự tự t ương quan giữa các phần dư:
Một giả thuyết quan trọng của mô hình hồi quy tuyến tính cổ đi ển là không có sự tự tương quan giữa các phần dư ngẫu nhiên tức là các phần dư mang tính độc lập với nhau. Tự tương quan có thể hiểu là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian hoặc không gian. Khi xảy ra hiện tượng tự tương quan, lúc đó các ư ớc lượng của mô hình hồi quysẽkhông cònđáng tin cậy nữa.
Phương pháp kiểm định có ý nghĩa nhất để phát hiện ra hiện tượng tự tương quan là kiểm định Dubin-Watson. Trong kiểm định này, nếu trị thống kê d nằm trong khoảng từ 1 đến 3 thì kết luận mô hình không có tự tương quan, nếu trị thống kê d nằm trong khoảng từ 0 đến 1 thì kết luận mô hình có tự tương quan dương, nếu trị thống kê d nằm trong khoảng từ 3 đến4 thì kết luận mô hình có tự tương quan âm.
b) Kiểm định độ phù hợp và ý nghĩa của các hệ số hồi quy trong mô hình
Sau khi thực hiện kiểm tra 4 giả định trên. Ta cầnphải kiểm định tiếp2 vấn đề: - Kiểm định sự phù hợp của mô hình hồi quy.
- Kiểm định ý nghĩa của các hệ số hồi quy.
*Kiểm định về sự phù hợp củamô hình hồi quy:
Tiêu chuẩn thông thường dùng để xác định mức độ phù hợp của mô hình hồi quy tuyến tính đã xây dựng so với dữ liệu chính là hệ số xác định R2.
+Hệ số xác định R2 = SSR / SST, biểu diễn một tương quan về tỷ lệ giữa chênh lệch của giá trị hồi quy (Ŷi) và chênh lệch của giá trị quan sát thực (Yi) so với giá trị Y trung bình (Ÿ) biểu diễn qua phân số (Ŷi– Ÿ)/( Yi– Ÿ). Nếu sai biệt của phần d ư càng bé (tức Ŷi và Yi) thì phân số càng gần bằng 1 (tức R2 càng gần 1), hay mô hình hồi quy càng phù hợp. Tuy nhiên, ta cũng cần lưu ý rằng R2 sẽ tăng dần lên (hiện tượng R2 tăng giả
tạo) khi ta thêm càng nhiều biến độc lập vào mô hình nhưng điều đó chưa chắc đã làm tăng độ phù hợp của mô hình hồi quy.
Hình 4-1: Đường hồi quy tuyến tính[16]
Kiểm định F đối với biến thiên của độ lệch do hồi quy và của độ lệch do phần dư cũng được dùng để kiểm định sự phù hợp của mô hình hồi quy. Kiểm định F có giả thuyết H0 cho rằng các hệ số hồi quy của mô hình đều bằng 0. Nếu bác bỏ đ ược giả thuyết này thì ta có thể kết luận mô hình hồi quy là phù hợp.
Tỷ số F được tính theo công thức: F = (SSR / k) / (SSE / (n – k– 1) )
Với n là kích cỡ mẫu quan sát; k là số lượng các biến độc lập trong mô hình.
SST (Tổng biến thiên) = ∑(Y-Ÿ)2 (Tổng các bình phương độ lệch giữa trị thực tế (Y) và trị trung bình (Ÿ)).
SSE (Biến thiên không giải thích được bằng hồi quy) = ∑(Y-Ŷ)2 (Tổng các bình phương độ lệch giữa trị thực tế (Y) và trị hồi quy (Ŷ)).
SSR (Biến thiên được giải thích bằng hồi quy) = ∑(Ŷ-Ÿ)2 (Tổng các bình phương độ lệch giữa trị hồi quy (Ŷ) và trị trung bình (Ÿ).
VớiSST = SSR + SSE[16]
Các hệ số trong phân tích hồi quy đều có vai trò quan trọng trong đánh giá một mô hình hồi quy. Ta cần chú ý đến các hệ số s au đây:
Hệ số hồi quy chưa chuẩn hoá B được dùng trong phương trình hồi quy sau khi thỏa mãn tất cả các điều kiện của các bước kiểm định. Hệ số hồi quy riêng β (đã chuẩn hóa) có được khi quy các đơn vị tính toán khác nhau của các biến độc lập về cùng một độ lệchchuẩn đểdễso sánh (quy về phân phối chuẩn có trị trung bình =0 và phương sai =1). Hệ số tương quan từng phần (Partial Corr) của biến độc lập Xk chính là hệ số tương quan giữa biến phụ thuộc Y với biến độc lập Xk khi ảnh hưởng tuyến tính của các biến độc lập khác lên Xk trong mô hình bị loại bỏ. Còn hệ số tương quan riêng (Part Corr) của biến độc lập Xk chính là hệ số tương quan giữa biến phụ thuộc Y với biến độc lập Xk khiảnh hưởng tuyến tính của các biến độc lập khác lên cảXk lẫn Y trong mô hình bị loại bỏ. Hai hệ số nàyđược dùng để so sánh mức độ ảnh h ưởng mạnh yếu của các biến Xi lên biến phụ thuộc Y.
Kiểm định Partial F test (hay kiểm định Fchange) có giả thuyết H0 cho rằng không có sự thay đổi của hệ số xác định R2 khi thêm một hoặc nhiều biến độc lập vào mô hình hồi quy trong một bước (tức giá trị R2change = 0). Nếu ta có cơ sở bác bỏ được giả thuyết này thì ta có thể kết luận một hoặc nhiều biến độc lập đ ưa vào mô hình hồi quy là có ý nghĩa tại một bước đưa biến vào mô hình.
Trong phần tiếp theo, ta sẽ áp dụng lần l ượt các bước kiểm định trên đối với mô hình hồi quy đãđược xây dựng ở phần trên.