41 Để xây dựng phương trình hồi quy tuyến tính trong SPSS ta thao tác qua các bước như sau:
Bước 1. Mô tả mối quan hệ giữa hai biến định lượng bằng biểu đồ phân tán. Bước 2: Tính hệ số tương quan của 2 biến.
Vào Analyze/Correlate/Bivariate xuất hiện hộp hội thoại tương quan hai biến Bivariate Correlate:
Chuyển các biến cần nghiên cứu vào hộp.
+ Đưa các biến cần phân tích vào khung Variables, nếu tất cả các trường hợp quan sát đều có giá trị bị thiếu đối với một hay cả hai biến được chọn hoặc tất cả các trường hợp đều có cùng một giá trị trên một biến (không có biến thiên) thì hệ số tương quan không thể tính được và được SPSS thể hiện bằng một dấu chấm (.)
+ Ở phần Hệ số tương quan - Correlation Coefficients: hệ số Pearson được lựa chọn mặc định, hệ số này chỉ hợp lý khi các biến X và Y tuân theo quy luật chuẩn, bảng kết quả sẽ thể hiện một ma trận vuông đối xứng gồm các hệ số tương quan giữa các biến, tương quan của một biến với chính nó = 1 và là đường chéo của ma trận.
42 Ta sử dụng hệ số tương quan Pearson (ký hiệu r) để lượng hóa mức độ chặt chẽ của mối liên hệ tuyến tính giữa hai biến định lượng, r có giá trị nằm trong đoạn [-1,1], giá trị tuyệt đối của r cho biết mức độ chặt chẽ của mối liên hệ tuyến tính.
+ Nếu r >0 thì mối liên hệ là tuyến tính thuận + Nếu r <0 thì mối liên hệ là tuyến tính nghịch
+ Nếu r=0 thì 2 biến không có mối liên hệ tuyến tính, ta có 2 trường hợp là không có mối liên hệ giữa 2 biến hoặc hai biến có mối liên hệ nhưng không phải tuyến tính tức là phi tuyến.
+ Trong phần lựa chọn kiểm định mức ý nghĩa – Test of Significance gồm 2 loại: Two-tailed (kiểm định 2 phía) được sử dụng trong trường hợp chiều hướng của mối liên hệ tuyến tính không thể xác định trước. Ngược lại là loại One-tailed (kiểm định 1 phía).
+ Việc xử lý giá trị khuyết thiếu có 2 lựa chọn:
Exclude cases pairwise – các trường hợp quan sát bị thiếu giá trị ở một hoặc hai biến của cặp biến đang được xét sẽ bị loại khỏi quá trình tính toán, nhưng nếu ở với một cặp biến khác mà quan sát đó không thiếu giá trị thì chúng vẫn được sử dụng (như vậy các hệ số tương quan có thể được tính trên số lượng các quan sát khác nhau) đây là lựa chọn mặc định.
Exclude cases listwise – các trường hợp quan sát bị thiếu giá trị ở bất kỳ biến nào cũng sẽ bị loại ra khỏi toàn bộ các phân tích tính toán (như vậy các hệ số tương quan đều tính toán từ cùng một số lượng các quan sát).
Ở bảng kết quả nếu hệ số r có một dấu * thì có nghĩa ta có thể kiểm định các giả thuyết ở mức ý nghĩa nhỏ hơn 0.05, còn nếu có hai dấu ** thì mức ý nghĩa nhỏ hơn 0.01.
Các hệ số tương quan đo mức độ tương quan giữa hai biến số, nhưng không cho chúng ta một phương trình để nối hai biến số đó với nhau. Do đó, vấn
43 đề đặt ra là chúng ta tìm một phương trình tuyến tính để mô tả mối liên hệ này. Chúng ta sẽ ứng dụng mô hình hồi qui tuyến tính.
Bước 3: Ước lượng quan hệ giữa các biến (phương trình hồi quy tuyến tính)
Tìm sự liên hệ giữa 2 biến số liên tục: biến độc lập (biến dự đoán) trên
trục hoành x với biến phụ thuộc (biến kết cục) trên trục tung y. Sau đó vẽ một
đường thẳng hồi qui và từ phương trình đường thẳng này ta có thể dự đoán được biến Y (ví dụ: cân nặng) khi đã có X (ví dụ: tuổi). Thực hiện như sau:
Vào Analyze/Regression/Linear xuất hiện hộp hội thoại Linear Regression
+ Đưa biến phụ thuộc Cân nặng vào ô Dependent + Đưa biến độc lập Tuổi vào ô Independent + Bấm OK sẽ xuất hiện hộp thoại cho phép
44
Các thông số hồi quy tuyến tính:
Regression Coefficient (hệ số hồi quy):
Estimates: Yêu cấu ước lượng các hệ số hồi quy, các thông số thống kê như hệ số hồi quy β, sai số β, hệ số β chuẩn hoá, giá trị T và mức ý nghĩa.
Confidence intervals: khoảng tin cậy cho từng hệ số hồi quy không chuẩn hoá
Descriptives: cho chúng ta trung bình, độ lệch của mỗi biến, hệ số tương quan và mức ý nghĩa nó đo lường mức độ phân tán quanh đường thẳng phù hợp nhất
Model fit cho chúng ta các giá trị R, R2 ...
Sau đó kích nút Continue, ta có kết quả của mô hình hồi quy đơn tuyến tính bằng SPSS.
Ví dụ: Có dữ liệu về tuổi và cân nặng như sau:
Yêu cầu: Lập mô hình hồi qui tuyến tính thể hiện mối quan hệ giữa cân nặng và tuổi. Sử dụng SPSS
- Mở SPSS, Tạo một file dữ liệu với tên và định dạng các biến trong tab
45
Nhập dữ liệu trong tab : Data view như sau:
Thực hiện hồi qui như sau:
Trong menu Analyze, chọn Regression, chọn Linear, xuất hiện hộp thoại, chỉ định biến phụ
thuộc là cân nặng trong ô
Dependent và biến độc lập là
tuổi trong ô Independent(s)
Thiết lập thêm các tham số tùy chọn (nếu cần thiết) để giải thích mô hình
46 Bấm Continue để thực hiện hồi qui. Kết quả như sau:
Các hệ số hồi qui được cho trong bảng Coefficients
Phương trình hồi qui tương ứng
Y = 29,538 + 0, 457*tuôi
Khi tuổi tăng lên 1 đơn vị, mô hình dự đoán cân nặng tăng trung bình 0,457 kg.
Bây giờ sử dụng mô hình hồi qui trên để dự đoán cân nặng theo tuổi: Cân nặng = 29,538+0,457*14= 35,936 (kg)
Cân nặng = 29,538+0,457*24= 40,506 (kg)
Một số tham số quan trọng để đánh giá mô hình hồi qui.
Model Summaryb Model R R Square Adjusted R Square Std. Error of the Estimate Durbin- Watson 1 .635a .403 .400 10.890 1.135
a. Predictors: (Constant), Tuoi b. Dependent Variable: cannang
Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) sự biến thiên của biến phụ thuộc được giải thích bởi biến độc lập. Trong ví
47 dụ này, có thể nói 40% sự biến đổi cân nặng có thể được giải thích bằng sự biến đổi về tuổi (đo bằng kg).
Bảng ANOVA
Giá trị của Sig( P-value) của bảng ANOVA dùng để đánh giá sự phù hợp (tồn tại) của mô hình. Giá trị Sig nhỏ (thường <5%) thì mô hình tồn tại.
Giá trị Sig trong bảng Coefficients cho biết các tham số hồi qui có ý nghĩa hay không (với độ tin cậy 95% thì Sig<5% có ý nghĩa).
Hệ số tương quan cho biết mức độ tương quan giữa biến phụ thuộc và biến độc lập (thường sử dụng hệ số tương quan Pearson)
Correlations
cannang Tuoi
Pearson Correlation cannang 1.000 .635
48 Trong ví dụ này, hệ số tương quan giữa biến phụ thuộc (Cân nặng) và biến độc lập (Tuổi) là 0,635 cho biết mối tương quan giữa Cân nặng và Tuổi là chặt chẽ.