7 Hồi quy
7.3 Mơ hình tuyến tính tổng qt hóa
7.3.1 Lý thuyết chung
Trong thực tế, nhiều trường hợp yếu tố nghiên cứu khơng là biến liên tục. Ví dụ, tình trạng có bệnh hay khơng có bệnh; kết quả điều trị tốt, trung bình, xấu v.v... Trong những trường hợp như vậy, để dễ dàng phân tích thống kê, người ta tìm cách chuyển đổi mơ hình này sang mơ hình tuyến tính bình thường. Q trình này được gọi là tổng qt hóa mơ hình tuyến tính; và mơ hình được chuyển đổi gọi là mơ hình tuyến tính tổng qt hóa ((generalized linear models)
Để chuyển đổi mơ hình như đã nói trên, người ta sử dụng các hàm nối (link function). bảng dưới đây là những hàm nối hay gặp cho những mơ hình khơng tuyến tính:
Dưới đây là một số đặc điểm của mơ hình tuyến tính được tổng qt hóa:
1. Ước lượng Maximum Likelihood.
Khác với mơ hình tuyến tính bình thường, mơ hình tuyến tính tổng qt hóa khơng sử dụng ước lượng bình phương tối hiểu để ước lượng giá trị của hệ sốβ. Thay vào đó, nó sử dụng ước lượng Maximum Likelihood (Maximum likelihood estimation:MLE).
2. Hệ số xác định (Coefficient of Determination).
Trong mơ hình hồi quy bình thường, hệ số xác định, ký hiệu R2, được sử dụng để giải thích và phân tích ý nghĩa của mơ hình. Ví dụ, một mơ hình tuyến tính y=bx+b0 có
R2 =0.67thì có thể giải thích như sau: 67% biến đổi phương sai của y có thể được giải thích bởi mơ hình này.
Tuy nhiên, trong mơ hình tuyến tính tổng qt hóa khơng thể sử dụngR2 để phân tích và lý giải cho mơ hình. Thay vào đó, người ta sử dụng deviance. Một trong những deviance hay được sử dụng trong hồi quy Logistic là chỉ số Nagelkerke.
Tóm lại, mơ hình hồi quy tuyến tính tổng qt hóa khác mơ hình tuyến tính bình thường ở chỗ:
7 HỒI QUY
• Nó sử dụng ước lượng Maximum likelihood estimation thay vì bình phương tối thiều để ước lượng các hệ sốβ.
Hai mơ hình hay găọ nhất của mơ hình hồi quy tuyến tính tổng qt hóa là hồi quy logistic và hồi quy Poisson.
7.3.2 Các hàm Matlab
Dưới đây là một số hàm được hỗ trợ trong Matlab để xử lý các bài tốn về hồi quy tuyến tính tổng qt:
1. fitglm
Tạo mơ hình hồi quy tuyến tính tổng qt:
(a) mdl = fitglm(tbl): Trả về mơ hình hồi quy tuyến tính tổng qt phù hợp với dữ liệu
trongtbl. Theo mặc định, hàm f itblmlấy biến cuối cùng làm biến phản hồi.
(b) mdl = fitglm(X,y): Trả về mơ hình tuyến tính tổng qt cho biến phàn hồi là y và các
biến đầu vào (biến độc lập) trong X.
(c) mdl = fitglm(___,modelspec): Trả về mơ hình tuyến tính tổng qt của có kiểu được
chỉ định trong biến modelspec.
(d) mdl = fitglm(___,Name,Value): Chỉ định cặp tham số Name-Value.
Ví dụ minh họa:
load hospital dsa = hospital;
modelspec = ’Smoker ~ Age*Weight*Sex - Age:Weight:Sex’;
7 HỒI QUY
2. stepwiseglm
• mdl = stepwiseglm(tbl): tạo mơ hình tuyến tính tổng qt từ dữ liệutbl bằng cách sử dụng hồi quy từng bước để thêm hoặc xóa các yếu tố dự đốn, bắt đầu từ một mơ hình khơng đổi. Hàmstepwiseglmsử dụng biến cuối cùng củatbllàm biến phản hồi. • mdl = stepwiseglm(X,y): sử dụng biến phản hồi là y với các biến thành phần trong X.
• mdl = stepwiseglm(___,modelspec): bắt đầu với mơ hình xác định sẵn các biến phản
hồi và biến độc lập bằngmdlspec.
• mdl = stepwiseglm(___,modelspec,Name,Value): chỉ định cặp đối số Name-Value. Ví
dụ, ta có thể chỉ định các biến phân loại, tập các biến lớn nhất hoặc nhỏ nhất được sử dụng trong mơ hình, số bước lớn nhất, điều kiện để thêm hoặc xóa đi một biến độc lập.
Ví dụ minh họa:
Tạo tập dữ liệu sử dụng 3 trong 20 yếu tố dự đốn và tạo mơ hình tuyến tính tổng qt.
rng(’default’) % for reproducibility
X = randn(100,20);
mu = exp(X(:,[5 10 15])*[.4;.2;.3] + 1);
y = poissrnd(mu);
Fit mơ hình tuyến tính tổng qt bằng cách sử dụng phân phối Poisson
mdl = stepwiseglm(X,y,...
’constant’,’upper’,’linear’,’Distribution’,’poisson’)
Các hàm dưới đây được sử dụng tương tự như trong hồi quy tuyến tính (đã được trình bày ở phía trên):
– compact: tìm mơ hình đơn giản hơn.
7 HỒI QUY
– removeTerm: Xóa bớt biến độc lập khỏi mơ hình.
– step: sử dụng hồi quy từng bước để đưa ra một mơ hình hồi quy mới.
– feval: trả về các dự đoán cho bộ dữ liệu mới.
– coefCI: tìm khoảng ước lượng của hệ số.
– coefTest: Kiểm định giả thuyết tuyến tính. trên các hệ số của mơ hình hồi quy.