Lựa chọn mô hình hồi quy tốt nhất

Một phần của tài liệu giáo trình phân tích số liệu SAS (Trang 97 - 101)

Với trƣờng hợp phƣơng trình hồi quy đƣợc xây dựng từ nhiều biến độc lập, cần phải xác định đóng góp của từng biến cho mô hình. Có những biến độc lập khi đƣa vào phƣơng trình đóng góp không đáng kể vào mô hình vì vậy cần loại bỏ khi xây dựng phƣơng trình. Để có thể tìm đƣợc phƣơng trình hồi quy tốt nhất cần có thêm các lệnh phụ khác.

a. Phương pháp Best Subset

Đây là phƣơng pháp liệt kê tất cả các trƣờng hợp (subset) có thể của các biến độc lập trong mô hình thống kế kèm theo các thông tin (SSE CP AIC) để lựa chọn subset tốt nhất.

SAS CODE VIDU13C.SAS:

PROC REG;

MODEL KL = DL DN /SSE CP AIC SELECTION = CP;

RUN;

Trong đó:  Lựa chọn (option) đứng ngay sau dấu /SSE CP AIC SELECTION = CP

đƣợc dùng để chọn subset tốt nhất; trong đó mô hình tốt khi có SSE: tổng bình phƣơng của sai số ngẫu nhiên (phần dƣ) nhỏ; CP: Conceptual predictive criterion (còn gọi là hệ số Mallow) đƣợc sử dụng để xác định mô hình có khả năng giải thích sự biến động lớn nhất với số biến ít nhất có thể và đƣợc tính theo công thức Cp = p +   

² ²   n p MSE  , trong đó, MSE: trung bình bình phƣơng sai số ngẫu nhiên của mô hình rút gọn, ²: phƣơng sai của mô hình đầy đủ, n: dung lƣợng mẫu, p: tham số của mô hình rút gọn, mô hình tốt nhất khi có CP nhỏ và gần bằng p; AIC: Akaike information criterion tính theo công thức AIC = nlog(SSE/n) + 2p, mô hình có hệ số AIC bé nhất đƣợc coi là mô hình tốt nhất; SELECTION = CP: sắp xếp giá trị CP theo thứ tự tăng dần.

Ngoài các option SSE, Cp, AIC trong các chƣơng trình thống kê còn nhiều option khác nhƣ S, PC, SBC nhƣng các option khác nhau không phải lúc nào cũng dẫn tới cùng một subset.

Kết quả từ SAS:

The REG Procedure

Model: MODEL1 Dependent Variable: KL

C(p) Selection Method

Number in Model C(p) R-Square AIC SSE Variables in Model 2 3.0000 0.9852 -9.3146 10.96738 DL DN

1 214.0225 0.8195 43.7381 133.93043 DN

1 233.9326 0.8040 45.5493 145.42313 DL

Trong đó:  Kết quả phân tích hồi quy, phƣơng pháp chọn theo hệ số C(p);  Số biến độc lập trong mô hình hồi quy;  Hệ số C(p), mô hình tối có hệ số C(p) thấp nhất là mô hình tốt nhất nhƣng không phải là mô hình tối ƣu nhất;  Hệ số xác định R²; 

Hệ số AIC;  Giá trị tổng bình phƣơng của sai số ngẫu nhiên SSE;  Tên các biến độc lập trong mô hình.

b. Phương pháp Stepwise

- Forward Selection (FORWARD) là phƣơng pháp mà các biến độc lập lần lƣợt đƣợc đƣa vào mô hình, mỗi lần đƣa một biến vào mô hình gọi là một bƣớc (step). Biến độc lập có giá trị xác suất P < sẽ đƣợc đƣa vào trong mô hình.

SAS CODE VIDU13D.SAS

data WORK.VIDU13 ;

%let _EFIERR_ = 0; /* set the ERROR detection macro variable */

infile 'D:\SAS2014\VIDU13.txt' delimiter='09'x MISSOVER DSD lrecl=32767 firstobs=2 ; informat KL best32. ; informat DL best32. ; informat DN best32. ; format KL best12. ; format DL best12. ; format DN best12. ; input KL DL DN ; PROC REG;

MODEL KL = DL DN / SLENTRY=0.15 SELECTION=FORWARD; 

RUN;

Trong đó:  Thủ tục PROC REG đƣợc sử dụng;  Mô hình phân tích hồi quy bao gồm 2 biến độc lập (DL DN) và 1 biến phụ thuộc (KL), SLENTRY=0.15 (Significance Level of Entry = 0.15) tức biến có giá trị xác suất P < 0,15 mới có thể thêm vào mô hình hồi quy.

The REG Procedure

Dependent Variable: KL

Forward Selection: Step 1

Variable DN Entered: R-Square = 0.8195 and C(p) = 214.0225 Analysis of Variance

Source DF Sum of Squares Mean Square F Value Pr > F

Model 1 608.08820 608.08820 90.81 <.0001

Error 20 133.93043 6.69652

Corrected Total 21 742.01864

Variable Parameter Estimate Standard Error Type II SS F Value Pr > F Intercept -115.53651 18.63648 257.37130 38.43 <.0001

DN 4.01099 0.42091 608.08820 90.81 <.0001

Bounds on condition number: 1, 1

Forward Selection: Step 2

Variable DL Entered: R-Square = 0.9852 and C(p) = 3.0000 Analysis of Variance

Source DF Sum of Squares Mean Square F Value Pr > F

Model 2 731.05126 365.52563 633.24 <.0001

Error 19 10.96738 0.57723

Corrected Total 21 742.01864

Variable Parameter Estimate Standard Error Type II SS F Value Pr > F Intercept -116.55512 5.47204 261.88686 453.70 <.0001

DL 1.21473 0.08323 122.96306 213.02 <.0001

DN 2.47638 0.16226 134.45575 232.93 <.0001

Bounds on condition number: 1.7239, 6.8957

All variables have been entered into the model.

Summary of Forward Selection

Step Variable Entered Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F

Summary of Forward Selection Step Variable Entered Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F 1 DN 1 0.8195 0.8195 214.023 90.81 <.0001 2 DL 2 0.1657 0.9852 3.0000 213.02 <.0001

Trong đó:  Kết quả phân tích hồi quy với PROC REG;  đối với biến khối lƣợng (KL);  Bƣớc 1 (Step 1);  đƣa biến độc lập thứ nhất (DN) vào trong mô hình với thông tin thu đƣợc R² = 0,8195 và C(p) = 214,0225;  Kết quả phân tích phƣơng sai của mô hình;  Các tham số ƣớc tính ở Step 1 (tọa độ gốc -115,53651 và hệ số góc đối với biến độc lập DN = 4,01099);  Bƣớc 2 (Step 2);  đƣa thêm biến độc lập thứ hai (DL) vào trong mô hình với thông tin thu đƣợc R² = 0,9852 và C(p) = 3,0000;  Các tham số ƣớc tính ở Step 2 (tọa độ gốc -116,55512 và hệ số góc đối với biến độc lập DN = 2,47638 và DL = 1,21473), tất cả các biến độc lập (DL, DN) đều có trong mô hình cuối cùng;  Các thông tin tổng hợp cho phần Forward đƣợc thể hiện chi tiết trong bảng.

- Backward Elimination (BACKWARD) là phƣơng pháp loại bỏ dần những biến độc lập trong phƣơng trình hồi quy (ngƣợc lại với phƣơng pháp Forward Selection). Biến độc lập có giá trị xác suất P > sẽ bị loại bỏ khỏi mô hình.

SAS CODE VIDU13E.SAS

data WORK.VIDU13 ;

%let _EFIERR_ = 0; /* set the ERROR detection macro variable */

infile 'D:\SAS2014\VIDU13.txt' delimiter='09'x MISSOVER DSD lrecl=32767 firstobs=2 ; informat KL best32. ; informat DL best32. ; informat DN best32. ; format KL best12. ; format DL best12. ; format DN best12. ; input KL DL DN ; PROC REG;

MODEL KL = DL DN / SLSTAY=0.15 SELECTION=BACKWARD;

RUN;

Trong đó:  Thủ tục PROC REG đƣợc sử dụng;  Mô hình phân tích hồi quy bao gồm 2 biến độc lập (DL DN) và 1 biến phụ thuộc (KL), SLSTAY=0.15 (Significance Level of Stay = 0,15) tức biến có giá trị xác suất P ≤0,15 sẽ có mặt (stay) trong mô hình hồi quy và biến có P >0,15 sẽ bị loại (elimination) khỏi mô hình.

The REG Procedure

Model: MODEL1 Dependent Variable: KL

Backward Elimination: Step 0

All Variables Entered: R-Square = 0.9852 and C(p) = 3.0000 Analysis of Variance

Source DF Sum of Squares Mean Square F Value Pr > F

Model 2 731.05126 365.52563 633.24 <.0001

Error 19 10.96738 0.57723

Corrected Total 21 742.01864

Variable Parameter Estimate Standard Error Type II SS F Value Pr > F Intercept -116.55512 5.47204 261.88686 453.70 <.0001

DL 1.21473 0.08323 122.96306 213.02 <.0001

DN 2.47638 0.16226 134.45575 232.93 <.0001

Bounds on condition number: 1.7239, 6.8957

All variables left in the model are significant at the 0.1500 level.

Trong đó:  Kết quả phân tích hồi quy với PROC REG;  đối với biến khối lƣợng (KL);  Bƣớc 0 (Step 0);  đƣa tất cả các biến độc lập vào trong mô hình với thông tin thu đƣợc R² = 0,9852 và C(p) = 3,0000;  Kết quả phân tích phƣơng sai của mô hình;  Các tham số ƣớc tính ở Step 0 (tọa độ gốc -116,55512 và hệ số góc đối với biến độc lập DL = 1,21473 và DN = 2,47638);  Không biến nào bị loại khỏi mô hình (tất cả các biến độc lập (DL, DN) đều có trong mô hình cuối cùng ở mức P = 0,15.

Phƣơng pháp Stepwise chỉ dựa trên phân tích phần dƣ trong phân tích hồi quy bội tuyến tính để lựa chọn biến đƣa vào và biến đƣa ra. Để đảm bảo trong mô hình cuối cùng có mặt một số biến có ý nghĩa về mặt chuyên môn các nhà thống kê thƣờng đƣa thêm phần chọn biến bắt buộc có mặt trƣớc khi bắt đầu việc lọc theo Stepwise.

Một phần của tài liệu giáo trình phân tích số liệu SAS (Trang 97 - 101)

Tải bản đầy đủ (PDF)

(171 trang)