Phương pháp Best Subset

Đây là phương pháp liệt kê tất cảcác trường hợp (subset) có thể của các biến độc lập trong mô hình thống kê kèm theo các thông tin (R2 CP và S) để lựa chọn subset tốt nhất.

Đểđánh giá mức độđóng góp của biến độc lập X1là đường kính lớn và X2 là đường kính nhỏ

với biến phụ thuộc Y là khối lượng trứng được thực hiện như sau:

Stat  Regression  Best Subsets...

Khai báo các biến khối lượng trứng (P) vào ô Response.

Khai báo các biến đường kính lớn (DKL) và đường kính nhỏ (DKN) vào ô Free predictors.

Kích chuột OKđể cókết quả

111

Best Subsets Regression: P versus DKL, DKN  Response is P D D Mallows K K Vars R-Sq R-Sq(adj) Cp S L N 1 82.0 81.0 214.0 2.5878 X 1 80.4 79.4 233.9 2.6965 X 2 98.5 98.4 3.0 0.75976 X X Trong đó:

 Kết quả phân tích hồi quy theo phương pháp Best Subset ;

 Số biến độc lập trong mô hình hồi quy;

 Hệ số xác định R² và  hệ sốxác định hiệu chỉnh. Hệ sốxác định và hệ sốxác định hiệu chỉnh lớn nhất là mô hình tối ưu nhất;

+ Với 1 biến đường kính nhỏ (DKN) giải thích được 82% mức độ biến thiên của biến khối

lượng trứng;

+ Với 1 biến đường kính lớn (DKL) giải thích được 80,4% mức độ biến thiên của biến khối

lượng trứng;

+ Với 2 biến đường kính lớn (DKL) và đường kính nhỏ (DKN) giải thích được 98,5% mức độ

biến thiên của biến khối lượng trứng;

 Hệ số Cp, mô hình tối có hệ số Cp thấp nhất là mô hình tốt nhất nhưng không phải là mô hình tối ưu nhất; CP: Conceptual predictive criterion (còn gọi là hệ sốMallow) được sử dụng để xác định mô hình có khảnăng giải thích sự biến động lớn nhất với số biến ít nhất có thểvà được tính theo công thức Cp = p +    ² ²   n p MSE 

, trong đó MSE = trung bình bình phương sai số ngẫu nhiên của mô hình rút gọn, ² = phương sai của mô hình đầy đủ, n = dung lượng mẫu, p = tham số của mô hình rút gọn, mô hình tốt nhất khi có CP nhỏ và gần bằng p;

 Giá trị sai số tiêu chuẩn (S) của mô hình hồi quỵ Giá trị S nhỏ nhất là mô hình tối ưu nhất;

 Tên các biến độc lập trong mô hình.

+ Với 2 biến đường kính lớn (DKL) và đường kính nhỏ (DKN): sai số tiêu chuẩn của mô hình bằng 0,76 (nhỏ nhất trong 3 mô hình). Do đó, mô hình gồm hai biến DKL và DKN là tối ưu

nhất;

Kiểm định điều kiện phân tích phương sai

Thí nghiệm hoán vị (cross over)