Với trƣờng hợp phƣơng trình hồi quy đƣợc xây dựng từ nhiều biến độc lập, cần phải xác định đóng góp của từng biến cho mô hình. Có những biến độc lập khi đƣa vào phƣơng trình đóng góp không đáng kể vào mô hình vì vậy cần loại bỏ khi xây dựng phƣơng trình. Để có thể tìm đƣợc phƣơng trình hồi quy tốt nhất cần có thêm các lệnh phụ khác.
a. Phương pháp Best Subset
Đây là phƣơng pháp liệt kê tất cả các trƣờng hợp (subset) có thể của các biến độc lập trong mô hình thống kế kèm theo các thông tin (SSE CP AIC) để lựa chọn subset tốt nhất.
SAS CODE VIDU13C.SAS:
PROC REG;
MODEL KL = DL DN /SSE CP AIC SELECTION = CP;
RUN;
Trong đó: Lựa chọn (option) đứng ngay sau dấu /SSE CP AIC SELECTION = CP
đƣợc dùng để chọn subset tốt nhất; trong đó mô hình tốt khi có SSE: tổng bình phƣơng của sai số ngẫu nhiên (phần dƣ) nhỏ; CP: Conceptual predictive criterion (còn gọi là hệ số Mallow) đƣợc sử dụng để xác định mô hình có khả năng giải thích sự biến động lớn nhất với số biến ít nhất có thể và đƣợc tính theo công thức Cp = p +
² ² n p MSE , trong đó, MSE: trung bình bình phƣơng sai số ngẫu nhiên của mô hình rút gọn, ²: phƣơng sai của mô hình đầy đủ, n: dung lƣợng mẫu, p: tham số của mô hình rút gọn, mô hình tốt nhất khi có CP nhỏ và gần bằng p; AIC: Akaike information criterion tính theo công thức AIC = nlog(SSE/n) + 2p, mô hình có hệ số AIC bé nhất đƣợc coi là mô hình tốt nhất; SELECTION = CP: sắp xếp giá trị CP theo thứ tự tăng dần.
Ngoài các option SSE, Cp, AIC trong các chƣơng trình thống kê còn nhiều option khác nhƣ S, PC, SBC nhƣng các option khác nhau không phải lúc nào cũng dẫn tới cùng một subset.
Kết quả từ SAS:
The REG Procedure
Model: MODEL1 Dependent Variable: KL
C(p) Selection Method
Number in Model C(p) R-Square AIC SSE Variables in Model 2 3.0000 0.9852 -9.3146 10.96738 DL DN
1 214.0225 0.8195 43.7381 133.93043 DN
1 233.9326 0.8040 45.5493 145.42313 DL
Trong đó: Kết quả phân tích hồi quy, phƣơng pháp chọn theo hệ số C(p); Số biến độc lập trong mô hình hồi quy; Hệ số C(p), mô hình tối có hệ số C(p) thấp nhất là mô hình tốt nhất nhƣng không phải là mô hình tối ƣu nhất; Hệ số xác định R²;
Hệ số AIC; Giá trị tổng bình phƣơng của sai số ngẫu nhiên SSE; Tên các biến độc lập trong mô hình.
b. Phương pháp Stepwise
- Forward Selection (FORWARD) là phƣơng pháp mà các biến độc lập lần lƣợt đƣợc đƣa vào mô hình, mỗi lần đƣa một biến vào mô hình gọi là một bƣớc (step). Biến độc lập có giá trị xác suất P < sẽ đƣợc đƣa vào trong mô hình.
SAS CODE VIDU13D.SAS
data WORK.VIDU13 ;
%let _EFIERR_ = 0; /* set the ERROR detection macro variable */
infile 'D:\SAS2014\VIDU13.txt' delimiter='09'x MISSOVER DSD lrecl=32767 firstobs=2 ; informat KL best32. ; informat DL best32. ; informat DN best32. ; format KL best12. ; format DL best12. ; format DN best12. ; input KL DL DN ; PROC REG;
MODEL KL = DL DN / SLENTRY=0.15 SELECTION=FORWARD;
RUN;
Trong đó: Thủ tục PROC REG đƣợc sử dụng; Mô hình phân tích hồi quy bao gồm 2 biến độc lập (DL DN) và 1 biến phụ thuộc (KL), SLENTRY=0.15 (Significance Level of Entry = 0.15) tức biến có giá trị xác suất P < 0,15 mới có thể thêm vào mô hình hồi quy.
The REG Procedure
Dependent Variable: KL
Forward Selection: Step 1
Variable DN Entered: R-Square = 0.8195 and C(p) = 214.0225 Analysis of Variance
Source DF Sum of Squares Mean Square F Value Pr > F
Model 1 608.08820 608.08820 90.81 <.0001
Error 20 133.93043 6.69652
Corrected Total 21 742.01864
Variable Parameter Estimate Standard Error Type II SS F Value Pr > F Intercept -115.53651 18.63648 257.37130 38.43 <.0001
DN 4.01099 0.42091 608.08820 90.81 <.0001
Bounds on condition number: 1, 1
Forward Selection: Step 2
Variable DL Entered: R-Square = 0.9852 and C(p) = 3.0000 Analysis of Variance
Source DF Sum of Squares Mean Square F Value Pr > F
Model 2 731.05126 365.52563 633.24 <.0001
Error 19 10.96738 0.57723
Corrected Total 21 742.01864
Variable Parameter Estimate Standard Error Type II SS F Value Pr > F Intercept -116.55512 5.47204 261.88686 453.70 <.0001
DL 1.21473 0.08323 122.96306 213.02 <.0001
DN 2.47638 0.16226 134.45575 232.93 <.0001
Bounds on condition number: 1.7239, 6.8957
All variables have been entered into the model.
Summary of Forward Selection
Step Variable Entered Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F
Summary of Forward Selection Step Variable Entered Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F 1 DN 1 0.8195 0.8195 214.023 90.81 <.0001 2 DL 2 0.1657 0.9852 3.0000 213.02 <.0001
Trong đó: Kết quả phân tích hồi quy với PROC REG; đối với biến khối lƣợng (KL); Bƣớc 1 (Step 1); đƣa biến độc lập thứ nhất (DN) vào trong mô hình với thông tin thu đƣợc R² = 0,8195 và C(p) = 214,0225; Kết quả phân tích phƣơng sai của mô hình; Các tham số ƣớc tính ở Step 1 (tọa độ gốc -115,53651 và hệ số góc đối với biến độc lập DN = 4,01099); Bƣớc 2 (Step 2); đƣa thêm biến độc lập thứ hai (DL) vào trong mô hình với thông tin thu đƣợc R² = 0,9852 và C(p) = 3,0000; Các tham số ƣớc tính ở Step 2 (tọa độ gốc -116,55512 và hệ số góc đối với biến độc lập DN = 2,47638 và DL = 1,21473), tất cả các biến độc lập (DL, DN) đều có trong mô hình cuối cùng; Các thông tin tổng hợp cho phần Forward đƣợc thể hiện chi tiết trong bảng.
- Backward Elimination (BACKWARD) là phƣơng pháp loại bỏ dần những biến độc lập trong phƣơng trình hồi quy (ngƣợc lại với phƣơng pháp Forward Selection). Biến độc lập có giá trị xác suất P > sẽ bị loại bỏ khỏi mô hình.
SAS CODE VIDU13E.SAS
data WORK.VIDU13 ;
%let _EFIERR_ = 0; /* set the ERROR detection macro variable */
infile 'D:\SAS2014\VIDU13.txt' delimiter='09'x MISSOVER DSD lrecl=32767 firstobs=2 ; informat KL best32. ; informat DL best32. ; informat DN best32. ; format KL best12. ; format DL best12. ; format DN best12. ; input KL DL DN ; PROC REG;
MODEL KL = DL DN / SLSTAY=0.15 SELECTION=BACKWARD;
RUN;
Trong đó: Thủ tục PROC REG đƣợc sử dụng; Mô hình phân tích hồi quy bao gồm 2 biến độc lập (DL DN) và 1 biến phụ thuộc (KL), SLSTAY=0.15 (Significance Level of Stay = 0,15) tức biến có giá trị xác suất P ≤0,15 sẽ có mặt (stay) trong mô hình hồi quy và biến có P >0,15 sẽ bị loại (elimination) khỏi mô hình.
The REG Procedure
Model: MODEL1 Dependent Variable: KL
Backward Elimination: Step 0
All Variables Entered: R-Square = 0.9852 and C(p) = 3.0000 Analysis of Variance
Source DF Sum of Squares Mean Square F Value Pr > F
Model 2 731.05126 365.52563 633.24 <.0001
Error 19 10.96738 0.57723
Corrected Total 21 742.01864
Variable Parameter Estimate Standard Error Type II SS F Value Pr > F Intercept -116.55512 5.47204 261.88686 453.70 <.0001
DL 1.21473 0.08323 122.96306 213.02 <.0001
DN 2.47638 0.16226 134.45575 232.93 <.0001
Bounds on condition number: 1.7239, 6.8957
All variables left in the model are significant at the 0.1500 level.
Trong đó: Kết quả phân tích hồi quy với PROC REG; đối với biến khối lƣợng (KL); Bƣớc 0 (Step 0); đƣa tất cả các biến độc lập vào trong mô hình với thông tin thu đƣợc R² = 0,9852 và C(p) = 3,0000; Kết quả phân tích phƣơng sai của mô hình; Các tham số ƣớc tính ở Step 0 (tọa độ gốc -116,55512 và hệ số góc đối với biến độc lập DL = 1,21473 và DN = 2,47638); Không biến nào bị loại khỏi mô hình (tất cả các biến độc lập (DL, DN) đều có trong mô hình cuối cùng ở mức P = 0,15.
Phƣơng pháp Stepwise chỉ dựa trên phân tích phần dƣ trong phân tích hồi quy bội tuyến tính để lựa chọn biến đƣa vào và biến đƣa ra. Để đảm bảo trong mô hình cuối cùng có mặt một số biến có ý nghĩa về mặt chuyên môn các nhà thống kê thƣờng đƣa thêm phần chọn biến bắt buộc có mặt trƣớc khi bắt đầu việc lọc theo Stepwise.