Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay biến giải thích) với ý tưởng cơ bản là ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc trên cơ sở đã biết của biến độc lập.
a. Các giả định khi xây dựng mô hình hồi quy
Mô hình hồi quy có dạng:
Yi = B0+ B1 X1i+ B2 X2 i+…+ Bn Xn i + ei
Các giả định quan trọng khi phân tích hồi quy tuyến tính
- Giả thiết 1: giả định liên hệ tuyến tính.
- Giả thiết 2: phương sai có điều kiện không đổi của các phần dư. - Giả thiết 3: không có sự tương quan giữa các phần dư.
- Giả thiết 4: không xảy ra hiện tượng đa cộng tuyến. - Giả thiết 5: giả thiết về phân phối chuẩn của phần dư.
b. Xây dựng mô hình hồi quy
Các bước xây dựng mô hình:
B1. Xem xét ma trận hệ số tương quan
các biến độc lập cũng như quan hệ giữa các biến độc lập với nhau thông qua ma trận tương quan.
Hệ số tương quan giữa biến phụ thuộc với các biến độc lập cao (>0.5), sơ bộ ta có thể kết luận các biến độc lập này có thể đưa vào mô hình để giải thích cho biến phụ thuộc. Tuy nhiên, hệ số tương quan giữa các biến độc lập với nhau cũng cao sẽ khiến chúng ta phải xem xét lại thật kỹ vai trò của các biến độc lập trong mô hình hồi quy tuyến tính bội ta xây dựng được vì có thể xảy ra hiện tượng đa cộng tuyến, vi phạm giả định của mô hình.
B2. Đánh giá độ phù hợp của mô hình
Thông qua hệ số R2 ta đánh giá độ phù hợp của mô hình xem mô hình trên giải thích bao nhiêu % sự biến thiên của biến phụ thuộc.
R2 =
TSS ESS
- ESS: tổng bình phương tất cả các sai lệch giữa giá trị dự đoán của Yi và giá trị trung bình của chúng.
- TSS: tổng bình phương sai lệch giữa giá trị Yi và giá trị trung bình của chúng.
Khi đưa càng nhiều biến vào mô hình thì hệ số này càng cao. Tuy nhiên, R2ở hồi quy bội không phản ánh đúng sự phù hợp của mô hình như trong hồi quy đơn nên ta phải sử dụng R2 điều chỉnh để đánh giá sự phù hợp của mô hình.
2 R = 1- (1 - R2 ) k n n 1 B3. Kiểm định sự phù hợp của mô hình
Sử dụng kiểm định F để kiểm định với giả thiết Ho: B1 = B2 = Bn = 0
Nếu giả thiết này bị bác bỏ thì ta có thể kết luận mô hình ta xây dựng phù hợp với tập dữ liệu.
B4. Xác định tầm quan trọng của các biến
Ý tưởng đánh giá tầm quan trọng tương đối của các biến độc lập trong mô hình thông qua xem xét mức độ tăng của R2 khi một biến giải thích được đưa thêm vào mô hình. Nếu mức độ thay đổi này lớn thì chứng tỏ biến này cung cấp thông tin độc
nhất về sự phụ thuộc mà các biến khác trong phương trình không có được.
Ta đánh giá tầm quan trọng của một biến thông qua hai hệ số: (1) Hệ số tương quan từng phần: căn bậc hai của R2 change thể hiện mối tương quan giữa biến Y và X mới đưa vào. Tuy nhiên, sự thay đổi của R2 không thể hiện tỷ lệ phần trăm biến thiên mà một mình biến đó có thể giải thích. Lúc này, ta sử dụng (2) hệ số tương
quan riêng bằng căn bậc hai của Prk 2 , Prk2 = k 2 k 2 R 1 R R 2 .
B5. Lựa chọn biến cho mô hình: chọn phương pháp đưa tất cả vào cùng một lần(enter).
B6. Dò tìm sự vi phạm các giả thiết
Các công cụ chẩn đoán giúp ta phát hiện sự tồn tại của cộng tuyến trong dữ liệu và đánh giá mức độ cộng tuyến làm thoái hóa các tham số được ước lượng là: - Độ chấp nhận của biến (Tolerance) thường được sử dụng để đo lường hiện tượng đa cộng tuyến. Quy tắc là nếu độ chấp nhận của một biến nhỏ, thì nó gần như là một kết hợp tuyến tính của các biến độc lập khá, và đó là dấu hiệu của đa cộng tuyến.
- Hệ số phóng đại phương sai (Variance inflation factor - VIF), có liên hệ gần với độ chấp nhận. Quy tắc VIF vượt quá 10 là dấu hiệu của đa cộng tuyến.
- Hệ số tương quan tuyến tính giữa các biến giải thích trong ma trận hệ số tương quan tuyến tính (r) lớn ở tất cả các biến, nó thể hiện một mối tương quan mạnh với các biến độc lập còn lại của mô hình.
CHƯƠNG IV. PHÂN TÍCH KẾT QUẢ NGHIÊN CỨU