Dò tìm các vi phạm giả định cần thiết trong hồi qu- 123docz.net

Phân tích hồi quy không phải chỉ là việc mô tả các dữ liệu quan sát đƣợc, mà từ các dữ liệu quan sát này chúng ta phải suy rộng cho mối quan hệ giữa các biến trong tổng thể, nghĩa là chúng ta phải suy rộng cho tổng thể các khách hàng cá nhân tại TP. HCM chứ không phải chỉ giới hạn ở 361 ngƣời đƣợc khảo sát. Để việc diễn dịch kết quả hồi quy này đƣợc chấp nhận thì nghiên cứu không đƣợc vi phạm các giả định cần thiết sau:

Giả định 1: Giả định liên hệ tuyến tính

Theo Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), ngƣời ta hay vẽ biểu đồ phân tán giữa các phần dƣ và giá trị dự đoán của mô hình hồi quy tuyến tính cho ra,

hai biến này đã đƣợc chuẩn hóa với phần dƣ trên trục tung và giá trị dự đoán trên trục hoành. Nếu giả định liên hệ tuyến tính và phƣơng sai bằng nhau đƣợc thỏa mãn thì ta sẽ không nhận thấy có liên hệ gì giữa các giá trị dự đoán và phần dƣ, chúng sẽ phân tán rất ngẫu nhiên.

Kết quả cho thấy phần dƣ phân tán ngẫu nhiên trong một vùng xung quanh đƣờng đi qua tung độ 0 (xem phụ lục 6) chứ không tạo thành một hình dạng nào, do đó giả định tuyến tính đƣợc thỏa mãn.

Hình 4.1: Đồ thị phân tán Scatter

Nguồn: Số liệu phân tích dữ liệu nghiên cứu chính thức bằng SPSS 23.0

Giả định 2: Giả định phƣơng sai của sai số không đổi

Hiện tƣợng phƣơng sai thay đổi gây ra khá nhiều hậu quả tai hại đối với mô hình ƣớc lƣợng bằng phƣơng pháp OLS. Nó làm cho các ƣớc lƣợng của các hệ số hồi quy không chệch nhƣng không hiệu quả, ƣớc lƣợng của các phƣơng sai bị chệch làm kiểm định các giả thuyết mất hiệu lực khiến ta đánh giá nhầm về chất lƣợng của mô hình hồi quy tuyến tính.

Vì cỡ mẫu trong nghiên cứu này không lớn nên chúng ta sử dụng loại kiểm định khá đơn giản là kiểm định tƣơng quan hạng Spearman. Giả thuyết đặt ra cho kiểm định là: Phƣơng sai của sai số thay đổi, nếu giả thuyết này đúng thì hệ số tƣơng quan hạng tổng thể giữa phần dƣ và các biến độc lập sẽ khác 0.

Thực hiện kiểm định tƣơng quan hạng Spearman cho biến giá trị tuyệt đối của phần dƣ và các biến độc lập. Kết quả kiểm định cho thấy giá trị Sig. của kiểm định đều lớn hơn mức ý nghĩa 0.05 nên chúng ta không thể bác bỏ giả thuyết hệ số tƣơng quan hạng của tổng thể bằng 0, nhƣ vậy giả thuyết phƣơng sai của sai số thay đổi bị bác bỏ. Kết luận: Phƣơng sai của sai số là không đổi.

Giả định 3: Giả định về phân phối chuẩn của phần dƣ

Để khảo sát tính phân phối chuẩn của phần dƣ, cách đơn giản nhất là xây dựng biểu đồ tần số của các phần dƣ. Có thể dùng biểu đồ tần số Histogram hoặc biểu đồ tần số Q-Q plot để khảo sát phân phối chuẩn của phần dƣ.

Dựa vào đồ thị tần số Histogram có thể nói phân phối của phần dƣ là xấp xỉ chuẩn (Trung bình Mean = -1,80E-15 và độ lệch chuẩn = 0.993 ~ 1).

Hình 4.2: Biểu đồ phân phối chuẩn phần dƣ

Đồ thị P-P plot cho thấy các chấm phân tán sát với đƣờng chéo, phân phối phần dƣ có thể xem nhƣ chuẩn.

Hình 4.3: Đồ thị P-P Plot

Nguồn: Số liệu phân tích dữ liệu nghiên cứu chính thức bằng SPSS 23.0

Do đó có thể kết luận rằng giả thuyết phân phối chuẩn của phần dƣ không bị vi phạm.

Giả định 4: Giả định về tính độc lập của sai số

Tính độc lập của sai số ở đây có nghĩa rằng giữa các phần dƣ không có mối tƣơng quan với nhau. Đại lƣợng thống kê Durbin-Watson (d) dùng để kiểm định tƣơng quan của các sai số kề nhau (tƣơng quan chuỗi bậc nhất).

Giả thuyết kiểm định là: Ho: hệ số tƣơng quan tổng thể của các phần dƣ = 0.

Bảng 4.13: Quy tắc ra quyết định

0 dL dU 2 4-dU 4-dL 4

Nguồn: Hoàng Trọng và Chu Nguyễn Mộng Ngọc, 2008

Bác bỏ giả thuyết Ho, nghĩa là có tƣơng quan ngƣợc chiều (âm) Bác bỏ giả thuyết Ho, nghĩa là có tƣơng quan thuận chiều (dƣơng) Miền không có kết luận Chấp nhận giả thuyết Ho, nghĩa là không có tƣơng quan chuỗi

bậc nhất

Miền không có

Theo Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), đại lƣợng d có giá trị biến thiên trong khoảng từ 0 đến 4. Giá trị d gần bằng 2 nếu các phần dƣ không có tƣơng quan chuỗi bậc nhất với nhau. Giá trị d < 2 nghĩa là các phần dƣ gần nhau có tƣơng quan thuận. Giá trị d > 2 và gần bằng 4 có nghĩa là các phần dƣ có tƣơng quan nghịch. Khi thực hiện kiểm định Durbin-Watson, nếu kết quả giá trị d nằm trong khoảng: 1 < D < 3 thì mô hình không có tự tƣơng quan. Kết quả kiểm định của mô hình bằng kiểm định Durbin-Watson có giá trị D = 1,571 (Bảng 4.11) cho thấy chƣa đủ cơ sở bác bỏ giả thuyết H0: hệ số tƣơng quan tổng thể của các phần dƣ = 0.

Kết luận: chấp nhận giả thuyết Ho, các phần dƣ không có mối tƣơng quan với nhau.

Giả định 5: Giả định không có mối tƣơng quan giữa các biến độc lập

Có một tình huống vi phạm giả định xảy ra riêng với hồi quy tuyến tính bội đó là hiện tƣợng cộng tuyến. Cộng tuyến là trạng thái trong đó các biến độc lập có tƣơng quan chặt chẽ với nhau (Hoàng Trọng và Chu Nguyễn Mộng Ngọc, 2008) và dò tìm vi phạm giả định này đƣợc gọi là đo lƣờng đa cộng tuyến.

Công cụ giúp ta phát hiện sự tồn tại của cộng tuyến trong dữ liệu là: Độ chấp nhận của biến (Tolerance) và hệ số phóng đại phƣơng sai (Variance Inflation Factor- VIF). Nếu hệ số Tolerance của một biến nhỏ thì nó gần nhƣ là một kết hợp tuyến tính của các biến độc lập khác và hệ số VIF vƣợt quá 2 thì đó là dấu hiệu tiềm ẩn mối quan hệ tƣơng quan giữa các biến độc lập do đa cộng tuyến gây ra và trên 5 là có đa cộng tuyến.

Kết quả bảng 4.11 cho thấy hệ số Tolerance thấp và VIF không vƣợt quá 2 nên không xảy ra hiện tƣợng đa cộng tuyến, do đó không có tƣơng quan chặt chẽ giữa các biến độc lập.

Kết luận: nghiên cứu không vi phạm các giả định về hồi quy tuyến tính, do vậy kết quả nghiên cứu có thể suy rộng ra cho toàn bộ các khách hàng cá nhân tại TP.HCM chứ không hạn chế ở 361 ngƣời nhƣ trong nghiên cứu này.

Dò tìm các vi phạm giả định cần thiết trong hồi quy tuyến tính

Các nghiên cứu trƣớc đây

Tóm tắt các nghiên cứu có liên quan