Dò tìm các vi phạm giả định cần thiết trong hồi qu- 123docz.net

Phân tích hồi quy không phải chỉ là việc mô tả các dữ liệu quan sát được, mà từ các dữ liệu quan sát này chúng ta phải suy rộng cho mối quan hệ giữa các biến trong tổng thể, nghĩa là chúng ta phải suy rộng cho tổng thể các khách hàng cá nhân tại Thành phố Nha Trang chứ không phải chỉ giới hạn ở 295 người được khảo sát. Để việc diễn dịch kết quả hồi quy này được chấp nhận thì nghiên cứu không được vi phạm các giả

định cần thiết sau:

Giả định 1: Giả định liên hệ tuyến tính

Theo Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), người ta hay vẽ biểu đồ phân tán giữa các phần dư và giá trị dự đoán của mô hình hồi quy tuyến tính cho ra, hai biến này đã được chuẩn hóa với phần dư trên trục tung và giá trị dự đoán trên trục hoành. Nếu giả định liên hệ tuyến tính và phương sai bằng nhau được thỏa mãn thì ta sẽ không nhận thấy có liên hệ gì giữa các giá trị dự đoán và phần dư, chúng sẽ phân tán rất ngẫu nhiên.

Kết quả cho thấy phần dư phân tán ngẫu nhiên trong một vùng xung quanh đường đi qua tung độ 0 chứ không tạo thành một hình dạng nào, do đó giả định tuyến tính được thỏa mãn.

Nguồn: Số liệu phân tích từ SPSS 20 (phụ lục 03)

Hình 3.1: Đồ thị phân tán Scatter Giả định 2: Giả định phương sai của sai số không đổi

Hiện tượng phương sai thay đổi gây ra khá nhiều hậu quả tai hại đối với mô hình ước lượng bằng phương pháp OLS. Nó làm cho các ước lượng của các hệ số hồi quy

không chệch nhưng không hiệu quả, ước lượng của các phương sai bị chệch làm kiểm định các giả thuyết mất hiệu lực khiến ta đánh giá nhầm về chất lượng của mô hình hồi quy tuyến tính.

Vì cỡ mẫu trong nghiên cứu này không lớn nên chúng ta sử dụng loại kiểm định khá đơn giản là kiểm định tương quan hạng Spearman. Giả thuyết đặt ra cho kiểm định là: Phương sai của sai số thay đổi, nếu giả thuyết này đúng thì hệ số tương quan hạng tổng thể giữa phần dư và các biến độc lập sẽ khác 0.

Thực hiện kiểm định tương quan hạng Spearman cho biến giá trị tuyệt đối của phần dư và các biến độc lập. Kết quả kiểm định cho thấy giá trị Sig. của kiểm định đều lớn hơn mức ý nghĩa 0,05 nên chúng ta không thể bác bỏ giả thuyết hệ số tương quan hạng của tổng thể bằng 0. Như vậy giả thuyết phương sai của sai số thay đổi bị bác bỏ. Kết luận: Phương sai của sai số là không đổi.

Giả định 3: Giả định về phân phối chuẩn của phần dư

Để khảo sát tính phân phối chuẩn của phần dư, cách đơn giản nhất là xây dựng biểu đồ tần số của các phần dư. Có thể dùng biểu đồ tần số Histogram hoặc biểu đồ tần số Q-Q plot để khảo sát phân phối chuẩn của phần dư.

Dựa vào đồ thị tần số Histogram có thể nói phân phối của phần dư là xấp xỉ chuẩn (Trung bình Mean ~ 0 và độ lệch chuẩn = 0,991 ~ 1).

Nguồn: Số liệu phân tích từ SPSS 20 (phụ lục 03)

Hình 3.2: Biểu đồ phân phối chuẩn phần dư

Đồ thị P-P plot cho thấy các chấm phân tán sát với đường chéo, phân phối phần dư có thể xem như chuẩn. Do đó có thể kết luận rằng giả thuyết phân phối chuẩn của phần dư không bị vi phạm.

Nguồn: Số liệu phân tích từ SPSS 20 (phụ lục 03)

Hình 3.3: Đồ thị P-P Plot Giả định 4: Giả định về tính độc lập của sai số

Tính độc lập của sai số ở đây có nghĩa rằng giữa các phần dư không có mối tương quan với nhau. Đại lượng thống kê Durbin-Watson (d) dùng để kiểm định tương quan của các sai số kề nhau (tương quan chuỗi bậc nhất).

Giả thuyết kiểm định là: H0: hệ số tương quan tổng thể của các phần dư = 0

Bác bỏ giả thuyết H0, nghĩa là có Miền không có Chấp nhận giả thuyết H0,

nghĩa là không có tương quan chuỗi bậc nhất Miền không có Bác bỏ giả thuyết H0, nghĩa là có 0 dL dU 2 4-dU 4-dL 4

Nguồn: Hoàng Trọng và Chu Nguyễn Mộng Ngọc, 2008

Hình 3.4: Quy tắc ra quyết định

Theo Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), đại lượng d có giá trị biến thiên trong khoảng từ 0 đến 4.

- Giá trị d 2 nếu các phần dư không có tương quan chuỗi bậc nhất với nhau. - Giá trị d < 2 nghĩa là các phần dư gần nhau có tương quan thuận.

- Giá trị d > 2 và gần bằng 4 có nghĩa là các phần dư có tương quan nghịch.

- Khi thực hiện kiểm định Durbin-Watson, nếu kết quả giá trị d nằm trong khoảng: 1 < D < 3 thì mô hình không có tự tương quan.

Kết quả kiểm định của mô hình bằng kiểm định Durbin-Watson có giá trị D =

1,786 (Bảng 3.11) cho thấy chưa đủ cơ sở bác bỏ giả thuyết H0: hệ số tương quan tổng

thể của các phần dư = 0.

Kết luận: chấp nhận giả thuyết H0, các phần dư không có mối tương quan với nhau.

Giả định 5: Giả định không có mối tương quan giữa các biến độc lập

Có một tình huống vi phạm giả định xảy ra riêng với hồi quy tuyến tính bội đó là hiện tượng cộng tuyến. Cộng tuyến là trạng thái trong đó các biến độc lập có tương quan chặt chẽ với nhau (Hoàng Trọng và Chu Nguyễn Mộng Ngọc, 2008) và dò tìm vi phạm giả định này được gọi là đo lường đa cộng tuyến.

Công cụ giúp ta phát hiện sự tồn tại của cộng tuyến trong dữ liệu là: Độ chấp nhận của biến (Tolerance) và hệ số phóng đại phương sai (Variance Inflation Factor- VIF). Nếu hệ số Tolerance của một biến nhỏ thì nó gần như là một kết hợp tuyến tính của các biến độc lập khác và hệ số VIF vượt quá 2 thì đó là dấu hiệu tiềm ẩn mối quan hệ tương quan giữa các biến độc lập do đa cộng tuyến gây ra và trên 6 là có đa cộng tuyến.

Kết quả bảng 3.11 cho thấy hệ số Tolerance thấp và VIF không vượt quá 2 nên không xảy ra hiện tượng đa cộng tuyến, do đó không có tương quan chặt chẽ giữa các biến độc lập.

Kết luận: nghiên cứu không vi phạm các giả định về hồi quy tuyến tính, do vậy kết quả nghiên cứu có thể suy rộng ra cho toàn bộ các khách hàng cá nhân tại Thành phố Nha Trang chứ không hạn chế ở 295 người như trong nghiên cứu này.

Dò tìm các vi phạm giả định cần thiết trong hồi quy tuyến tính

Quy trình thực hiện nghiên cứu

Nghiên cứu định lượng chính thức