Một số quá trình tạo lập dữ liệu không đem lại các quan sát với phân bố chuẩn. Làm việc với một phân bố không chuẩn sẽ dẫn đến một số hệ quả, chẳng hạn như khi xem xét những quan sát nhị phân có phân phối Bernoullị Cụ thể:
a) Giá trị trung bình và phương sai có thể tương quan với nhaụ Chẳng hạn khi ta xét phân phối Bernoulli của biến ngẫu nhiên y với p(y=1)=π và p(y=0)=1-π, giá trị trung bình và phương sai của nó sẽ phụ thuộc vào nhau, vì
E(y)=π và Var(y)=π(1-π)
Các dạng phân phối khác nhau (ví dụ phân phối Poisson) có thể gần với phân phối chuẩn khi có giá trị trung bình lớn, nhưng sự phụ thuộc của phương sai vào trung bình vẫn hiện diện.
b) Mô hình tuyến tính có thể không phải là cách thích hợp để mô hình hóa dữ liệụ Ví dụ với dữ liệu Bernoulli, mô hình tuyến tính Xbcó thể cho ra các giá trị của nằm ngoài khoảng [0, 1] và vì vậy không thể coi đó là một giá trị của xác suất.
c) Hiện tượng phương sai thay đổi làm cho phương pháp bình phương bé nhất không còn là một kỹ thuật ước lượng phù hợp nữạ
Người ta xây dựng thủ tục phù hợp của mô hình tuyến tính tổng quát, giải quyết được các vướng mắc sau đâỵ Thủ tục mở rộng này có ba đặc điểm riêng:
+) Phân bố của các quan sát được rút ra từ tập hợp lớn hơn của những phân bố thuộc họ mũ. Hàm mật độ của phân bố như thế có dạng
( ) ( ) exp[ ]+c(y, ) ( ) y b f y a
47
Ở đây là tham số xác định vị trí trung tâm của phân bố, là tham số kích cỡ của độ biến động và ặ), b(.), c(.) là các hàm số.
+) Phương sai của các quan sát liên kết một cách tự nhiên với giá trị trung bình. Chẳng hạn ta có đối với dữ liệu có phân bố Poisson, Var(y)=E(y), còn đối với dữ liệu có phân có phân bố Gamma, Var(y)=[E(y)]2. Đại lượng
( )
a (thường chính bằng ) là kích cỡ của độ biến động, tăng lên hay giảm xuống không là thay đổi giá trị trung bình và phương saị
+) Giá trị trung bình liên quan tới mô hình tuyến tính tổng quát thông qua tham số định vị và hàm liên kết phi tuyến
( ) T
g x
Mặc dù có thể sử dụng một hàm tùy ý để làm hàm liên kết, nhưng mô hình sẽ đơn giản nhất khi tham số định vị của hàm liên kết bằng chính tham số định vị
của hàm phân bố. Chẳng hạn, với dữ liệu có phân bố Bernoulli, hàm liên kết chính là hàm logistic (mô hình hồi quy logistic). Còn đối với dữ liệu có phân bố Gamma thì hàm liên kết là hàm nghịch đảọ
Mức độ phù hợp của mô hình tuyến tính suy rộng được đo bằng một đại lượng quen thuộc dùng để chỉ độ lệch, xác định thông qua logarit của tỷ số hợp lý:
độ lệch =-2logL,
trong đó L là tỷ số hợp lý. Người ta có thể chứng minh được rằng đại lượng trên có phân bố xấp xỉ phân bố Khi-bình phương với r bậc tự do, trong đó r là số chiều ràng buộc.
Tỷ số hợp lý là một tiêu chuẩn thống kê phi tham số được dùng để kiểm định tính phù hợp của dữ liệu với mô hình tuyến tính tổng quát thay cho tiêu chuẩn Fisher được dùng cho mô hình hồi quy tuyến tính hoặc mô hình phân tích phương sai cổ điển. Tiêu chuẩn thống kê phi tham số này không đòi hỏi số liệu phải thỏa mãn các đièu kiện ngặt nghèo của mô hình hồi quy tuyến tính
48
và mô hình phân tích phương sai cổ điển, do đó có thể áp dụng rộng rãi hơn trong thực tế.
49
Chương 2: PHÂN TÍCH SỐ LIỆU