Chương 1 : CÁCMƠ HÌNH TUYẾN TÍNH TRONG PHÂN TÍCH THỐNG KÊ
1.3 Mơ hình tuyến tính tổng qt
1.3.7 Phân bố khơng chuẩn và mơ hình tuyến tính suy rộng
Một số quá trình tạo lập dữ liệu không đem lại các quan sát với phân bố chuẩn. Làm việc với một phân bố không chuẩn sẽ dẫn đến một số hệ quả, chẳng hạn như khi xem xét những quan sát nhị phân có phân phối Bernoullị Cụ thể:
a) Giá trị trung bình và phương sai có thể tương quan với nhaụ Chẳng hạn khi ta xét phân phối Bernoulli của biến ngẫu nhiên y với p(y=1)=π và p(y=0)=1-π, giá trị trung bình và phương sai của nó sẽ phụ thuộc vào nhau, vì
E(y)=π và Var(y)=π(1-π)
Các dạng phân phối khác nhau (ví dụ phân phối Poisson) có thể gần với phân phối chuẩn khi có giá trị trung bình lớn, nhưng sự phụ thuộc của phương sai vào trung bình vẫn hiện diện.
b) Mơ hình tuyến tính có thể khơng phải là cách thích hợp để mơ hình hóa dữ liệụ Ví dụ với dữ liệu Bernoulli, mơ hình tuyến tính Xbcó thể cho ra các giá trị của nằm ngồi khoảng [0, 1] và vì vậy khơng thể coi đó là một giá trị của xác suất.
c) Hiện tượng phương sai thay đổi làm cho phương pháp bình phương bé nhất khơng cịn là một kỹ thuật ước lượng phù hợp nữạ
Người ta xây dựng thủ tục phù hợp của mơ hình tuyến tính tổng quát, giải quyết được các vướng mắc sau đâỵ Thủ tục mở rộng này có ba đặc điểm riêng:
+) Phân bố của các quan sát được rút ra từ tập hợp lớn hơn của những phân bố thuộc họ mũ. Hàm mật độ của phân bố như thế có dạng
( ) ( ) exp[ ]+c(y, ) ( ) y b f y a
Ở đây là tham số xác định vị trí trung tâm của phân bố, là tham số kích cỡ của độ biến động và ặ), b(.), c(.) là các hàm số.
+) Phương sai của các quan sát liên kết một cách tự nhiên với giá trị trung bình. Chẳng hạn ta có đối với dữ liệu có phân bố Poisson, Var(y)=E(y), cịn đối với dữ liệu có phân có phân bố Gamma, Var(y)=[E(y)]2. Đại lượng
( )
a (thường chính bằng ) là kích cỡ của độ biến động, tăng lên hay giảm xuống không là thay đổi giá trị trung bình và phương saị
+) Giá trị trung bình liên quan tới mơ hình tuyến tính tổng qt thơng qua tham số định vị và hàm liên kết phi tuyến
( ) T
g x
Mặc dù có thể sử dụng một hàm tùy ý để làm hàm liên kết, nhưng mơ hình sẽ đơn giản nhất khi tham số định vị của hàm liên kết bằng chính tham số định vị
của hàm phân bố. Chẳng hạn, với dữ liệu có phân bố Bernoulli, hàm liên kết chính là hàm logistic (mơ hình hồi quy logistic). Cịn đối với dữ liệu có phân bố Gamma thì hàm liên kết là hàm nghịch đảọ
Mức độ phù hợp của mơ hình tuyến tính suy rộng được đo bằng một đại lượng quen thuộc dùng để chỉ độ lệch, xác định thông qua logarit của tỷ số hợp lý:
độ lệch =-2logL,
trong đó L là tỷ số hợp lý. Người ta có thể chứng minh được rằng đại lượng trên có phân bố xấp xỉ phân bố Khi-bình phương với r bậc tự do, trong đó r là số chiều ràng buộc.
Tỷ số hợp lý là một tiêu chuẩn thống kê phi tham số được dùng để kiểm định tính phù hợp của dữ liệu với mơ hình tuyến tính tổng qt thay cho tiêu chuẩn Fisher được dùng cho mơ hình hồi quy tuyến tính hoặc mơ hình phân tích phương sai cổ điển. Tiêu chuẩn thống kê phi tham số này khơng địi hỏi số liệu phải thỏa mãn các đièu kiện ngặt nghèo của mơ hình hồi quy tuyến tính
và mơ hình phân tích phương sai cổ điển, do đó có thể áp dụng rộng rãi hơn trong thực tế.