Dự đốn khơng chệch tuyến tính tốt nhất (BLUP)- 123docz.net

2 Mơ hình hiệu quả ngẫu nhiên

2.5 Dự đoán

2.5.1 Dự đốn khơng chệch tuyến tính tốt nhất (BLUP)

Xét mơ hình tuyến tính hỗn hợp

y =Zα+Xβ+ε.

Giả sử rằng chúng ta quan sát một vectơ ngẫu nhiên y mức N ×1 với trung bình Xβ và phương sai V ary = V, trong đó ma trận V có dạng chéo khối

2.5. Dự đoán 28

V = (V1, V2,· · · , Vn) với Vi = ZiDZi′ và V arα = D. Mục đích chính là để dự đốn một biến ngẫu nhiên w sao cho

Ew =λ′β

và

V arw =σ2

(i) Giả sử các tham số β đã biết. Khi đó lấy c1 là một hằng số tùy ý và c2

là một vectơ hằng số. Với cách chọn này, ta sẽ đi tìm dự đốn của w có dạng c1+c′2y. Sai số bình phương trung bình bằng

M SE(c1, c2) = E(c1+c′2y−w)2

= V ar(c1 +c′2y−w) +E(c1+c′2Ey−Ew)2

. Vì Ey = Xβ và Ew = λ′β nên ta có ∂ ∂c1M SE(c1, c2) = ∂ ∂c1(c1+ (c ′ 2X −λ′)β)2 = 2(c1+ (c′2X −λ′)β).

Cho phương trình này bằng 0 và chúng ta có được nghiệm c∗1 = c1(c2) = (λ′−c′2X)β. Với cách chọn c1, ta có

M SE(c1(c2), c2) = E(c′2(y −Ey)−(w−Ew))2

= V ar(c′2y −w) =c′2V c2+σ2

w−2Cov(w, y)c2.

Để tìm cách chọn tốt nhất cho c2, ta lại lấy đạo hàm riêng của MSE theo

c2, ta được ∂ ∂c2M SE(c1(c2), c2) = 2V c2−2Cov(w, y) ′ . Giải phương trình ∂

∂c2M SE(c1(c2), c2) = 0có nghiệmc∗2 = V−1Cov(w, y)′. Như vậy dự đốn bình phương trung bình nhỏ nhất của w là

w∗ = c∗1+c∗2y = Ew +Cov(w, y)V−1

(y −Ey) (2.5.1)

= λ′β +Cov(w, y)V−1

2.5. Dự đoán 29 (ii) Trường hợp các tham số hồi quy tổng thể chưa biết. Với trường hợp này,

chúng ta sử dụng bGLS = (X′V−1

X)−1

X′V−1

y là ước lượng GLS, ước lượng tuyến tính khơng chệch tốt nhất của β. Thay β bởi bGLS trong phương trình (3.2.1) của w∗, ta có

wBLU P = λ′bGLS +Cov(w, y)V−1

(y−XbGLS) (2.5.2)

= (λ′−Cov(w, y)V−1X)bGLS+Cov(w, y)V−1y.

Đây là dự đốn khơng chệch tuyến tính tốt nhất của w. Thật vậy, xét tất

cả các dự đốn tuyến tính khơng chệch có dạng wBLU P +c′y, trong đó c

là một vectơ hằng. Do tính khơng chệch, ta có

Ec′y = Ew−EwBLU P = 0.

Như vậy, c′y là một ước lượng không chệch của 0. Điều kiện cần và đủ để

Ec′y = 0 là c′X = 0. Bây giờ, chúng ta xét E(wBLU P +c′y −w)2 để cực tiểu sai số dự đốn bình phương trung bình trên tất cả các cách chọn của

c. Ta có

Cov(wBLU P −w, c′y) =Cov(wBLU P, y)c−Cov(w, y)c

=Cov(w, y)V−1Cov(y, y)c+ (λ′−Cov(w, y)V−1X)

×Cov(bGLS, y)c−Cov(w, y)c

=Cov(w, y)c+ (λ′−Cov(w, y)V−1X)

×(X′V−1

X)−1

X′V−1

Cov(y, y)c−Cov(w, y)c

=(λ−Cov(w, y)V−1X)(X′V−1X)−1X′c = 0.

(2.5.3) Đẳng thức cuối cùng suy ra từ c′X = 0. Như vậy, ta có

E(wBLU P +c′y−w)2 = V ar(wBLU P −w) +V ar(c′y),

đạt giá trị nhỏ nhất khi chọnc = 0. Và ta có phương sai của wBLU P bằng

V arwBLU P = Cov(w, y)V−1

Cov(w, y)′−(λ′−Cov(w, y)V−1

2.5. Dự đốn 30 ×(X′V−1 X)−1 (λ′−Cov(w, y)V−1 X)′. 2.5.2 Dự đốn mơ hình hỗn hợp

Dự đốn khơng chệch tuyến tính tốt nhất đối với mơ hình tuyến tính hỗn hợp được biểu diễn trong phương trình (2.5.2). Từ phương trình này ta có

wBLU P = λ′bGLS+Cov(w, y)V−1(y −XbGLS) (2.5.4)

= λ′bGLS+ n X i=1 Cov(w, yi)V−1 i (yi−XibGLS).

Dự đốn cho tổ hợp tuyến tính các tham số tổng thể và hiệu quả đặc trưng đối tượng

Xét dự đốn tổ hợp tuyến tính có dạngw= c′1αi+c′2β, trong đóc1, c2 là những vectơ hằng đã biết. Khi đó với cách chọn w, ta có Ew = c′2β và λ = c2. Hơn thế nữa, chúng ta có Cov(w, yi) =      c′1DZi′ với i=j, 0 với i 6=j.

Thay vào phương trình (2.5.4) ta được

wBLU P =c′1DZi′V−1

(yi−XibGLS) +c′2bGLS.

Để đơn giản biểu diễn này, chúng ta chọn c2 = 0 và có BLUP của αi bằng

ai,BLU P = DZi′V−1

i (yi−XibGLS). (2.5.5)

Như vậy, ta sẽ có được BLUP của w= c′1αi+c′2β là

2.5. Dự đoán 31 Dự đoán phần dư

Xét dự đốn một tổ hợp tuyến tính các phần dư,w = c′

εεi, trong đó cε là vectơ các hằng số. Với sự lựa chọn này, chúng ta có Ew = 0, suy ra λ = 0. Ta có

Cov(w, yi) =      c′εRi với i=j, 0 với i6= j.

Như vậy, từ phương trình (2.5.4) chúng ta có vectơ phần dư BLUP bằng

ei,BLU P = RiV−1

i (yi−XibGLS),

hay

ei,BLU P = yi−(Ziai,BLU P +XibGLS).

Trong trường hợp D = 0 :

ei,BLU P = yi−XibGLS =ei,GLS.

Dự đoán các quan sát tương lai

Giả sử rằng đối tượng thứ i khơng có mặt trong tập dữ liệu và chúng ta muốn dự đoán w =yi,Ti+L =z′

i,Ti+Lαi+x′

i,Ti+Lβ+εi,Ti+L, với L là số đơn vị thời gian ở tương lai. Lại giả sử, zi,Ti+L và xi,Ti+L đã biết. Với cách chọn w này, suy ra

λ =xi,Ti+L. Hơn thế Cov(w, yi) =      z′ i,Ti+LDZ′

i +Cov(εi,Ti+L, εi) với i=j,

0 với i6=j.

Sử dụng các phương trình (2.5.4), (2.5.5) và (2.5.6) ta có

yi,Ti+L = wBLU P (2.5.7)

= (zi,T′ i+LDZi′+Cov(εi,Ti+L, εi))V−1

(yi−XibGLS) +x′i,Ti+LbGLS = x′i,Ti+LbGLS+z′i,Ti+Lai,BLU P +Cov(εi,Ti+L, εi)R−i 1ei,BLU P.

Chương 3

Mơ hình nhiều mức

Chương này mơ tả khung mơ hình có điều kiện, làm việc với những cấu trúc dữ liệu phân mức và dữ liệu nhóm. Dữ liệu và các mơ hình nhiều mức được sử dụng rộng rãi trong khoa học giáo dục và khoa học xã hội. Và chúng ta sẽ chỉ ra rằng, mơ hình nhiều mức được xem như mơ hình hiệu quả hỗn hợp tuyến tính và như vậy, các phương pháp kết luận thống kê được giới thiệu trong chương 3 sẽ được áp dụng trong chương này.

Định nghĩa 7. Mơ hình nhiều mức(mơ hình phân mức hay mơ hình lồng nhau) là mơ hình thống kê mà trong đó các tham số biến đổi tại các mức lớn hơn một. Các đơn vị phân tích của mơ hình thường là các cá thể (ở mức thấp hơn) được lồng thành những đơn vị ở mức cao hơn.

3.1 Mơ hình nhiều mức cắt ngang

Hệ thống giáo dục thường được mơ tả bằng các cấu trúc mà trong đó các đơn vị quan sát ở mức một được nhóm thành các đơn vị quan sát ở mức cao hơn. Để minh họa, giả sử rằng chúng ta muốn đánh giá thành tích của sinh viên dựa trên các bài kiểm tra đạt được. Các sinh viên được nhóm thành một lớp, các lớp được nhóm thành một trường và các trường lại được nhóm thành một khu vực. Tại mỗi mức lại có các biến mà có thể ảnh hưởng đến biến đáp ứng của mỗi sinh viên. Ví dụ, ở mức lớp học , yếu tố giáo dục của giáo viên; ở mức

3.1. Mơ hình nhiều mức cắt ngang 33 trường, yếu tố quy mô, cơ sở vật chất, đều là những yếu tố quan trọng ảnh hưởng đến chất lượng của sinh viên. Và ta cũng thấy rằng, khơng chỉ có mối quan hệ giữa các biến trong mỗi nhóm mà cịn có các mối liên quan giữa các nhóm được xét.

Thuật ngữ "nhiều mức" được dùng cho các loại dữ liệu lồng nhau. Trong ví dụ trên, mỗi sinh viên là một đơn vị quan sát cơ sở, được gọi là đơn vị quan sát mức một. Chúng ta có thể tưởng tượng dữ liệu nhiều mức được tập hợp bởi một sơ đồ mẫu chùm. Mơ hình nhiều mức được xác định qua các mối quan hệ có điều kiện, trong đó các mối quan hệ được mơ tả tại mức một, lấy điều kiện trên các hệ số ngẫu nhiên ở mức cao hơn.

3.1.1 Mơ hình hai mức

Để minh họa những đặc điểm quan trọng của mơ hình nhiều, bây giờ chúng ta đi xét mơ hình hai mức. Giả sử rằng chúng ta có một mẫu gồm n trường học và đối với trường học thứ i, chúng ta chọn ngẫu nhiên ni sinh viên. Với sinh viên thứ j ở trường thứ i, chúng ta đánh giá thành tích của sinh viên trên một bài kiểm tra đạt được yij và thông tin về trạng thái kinh tế - xã hội của sinh viên, ví dụ như tổng thu nhập của gia đình. Để đánh giá kết quả dựa vào trạng thái kinh tế - xã hội, chúng ta có thể bắt đầu với một mơ hình đơn giản sau

yij =β0i+β1izij +εij. (3.1.1) Phương trình (3.1.1) mơ tả mối quan hệ tuyến tính giữa trạng thái kinh tế xã hội và thành tích mong đợi của sinh viên, trong đó β0i là tham số chặn đặc trưng cho trường học, β1i là tham số tổng thế. Phương trình (3.1.1) biểu diễn mơ hình mức một, mơ tả thành tích của sinh viên, được coi như một đơn vị quan sát.

Nếu chúng ta đồng nhất các trường học với nhau thì khi đó các tham số

β0i, β1i được coi như các đại lượng cố định. Tuy nhiên, với việc coi các trường như một mẫu ngẫu nhiên thì các tham số β0i, β1i là các đại lượng ngẫu nhiên.

3.1. Mơ hình nhiều mức cắt ngang 34 Một biểu diễn cho các đại lượng này có dạng

β0i = β0+α0i và β1i = β1+α1i, (3.1.2) trong đóα0i, α1i là những biến có trung bình bằng 0. Biểu diễn này mơ tả mối quan hệ giữa các trường và sơ lược về phương trình mức hai.

Phương trình (3.1.1) và (3.1.2) mơ tả những mơ hình hai mức. Để đánh giá, chúng ta kết hợp hai phương trình này thành

yij = (β0+α0i) + (β1+α1i)zij +εij = α0i+α1izij +β0+β1zij +εij.

(3.1.3)

Phương trình (3.1.3) chỉ ra rằng mơ hình hai mức có thể được viết như mơ hình hiệu quả hỗn hợp tuyến tính. Đặc biệt, chúng ta định nghĩaαi = (α0i, α1i)′, zij = (1, zij)′, β = (β0, β1)′ và xij = zij, khi đó

yij =zij′ αi+x′ijβ+εij.

Một khía cạnh đẹp của mơ hình nhiều mức là chúng ta có thể xác định mối quan hệ có điều kiện tại mỗi mức của mơ hình, phụ thuộc vào từng mối quan tâm nghiên cứu. Để minh họa, chúng ta muốn hiểu về các đặc trưng của trường ảnh hưởng tới thành tích của sinh viên như thế nào. Raudenbush và Bryk đã đưa ra một ví dụ trong đó xi biểu thị một trường học Công giáo hay một trường Công lập. Một cách đơn giản để giới thiệu thông tin này là biến đổi mơ hình mức hai trong phương trình (3.1.2) thành

β0i =β0+β01xi+α0i và β1i = β1+β11xi+α1i.

Đây là hai mơ hình hồi quy mức hai. Kết hợp hai phương trình này với mơ hình mức một trong phương trình (3.1.1), ta có

yij = (β0+β01xi+α0i) + (β11xi+α1i)zij +εij =α0i+α1izij +β0+β01xi+β11xizij +εij.

(3.1.4)

Số hạngβ11xizij tương tác giữa biến mức một (zij) và biến mức hai (xi), được biết như một tương tác chéo mức. Với ví dụ này, chúng ta sử dụng x = 1 cho

3.1. Mơ hình nhiều mức cắt ngang 35 các trường học Công giáo,x = 0 cho các trường học cơng lập. Khi đó,β11 biểu diễn sự khác biệt giữa sự thay đổi điểm thành tích trên một đơn vị thu nhập gia đình, giữa trường Cơng giáo và trường cơng lập. Các nhà nghiên cứu đã chứng tỏ rằng, việc nắm bắt được sự tương tác chéo mức là một thúc đẩy lớn cho việc phân tích dữ liệu nhiều mức.

3.1.2 Mơ hình hai mức mở rộng

Để xét nhiều biến, chúng ta mở rộng phương trình (3.1.1) và (3.1.2). Xét mơ hình mức một có dạng

yij = z1′,ijβi+x′1,ijβ1+εij, (3.1.5) trong đó z1′,ij và x′1,ij lần lượt biểu diễn tập các biến mức một được gán với các hệ số biến đổi và các hệ số cố định. Mơ hình mức hai có dạng

βi = X2,iβ2+αi, (3.1.6)

trong đó Eαi = 0. Với kí hiệu này, số hạng X2,iβ2 hình thành nên các hiệu quả khác với các tham số ước lượng được. Kết hợp phương trình (3.1.5) và (3.1.6) ta có

yij = z1,ij′ (X2,iβ2+αi) +x′1,ijβ1+εij = zij′ αi+x′ijβ+εij,

(3.1.7)

với kí hiệu x′ij = (x′1,ijz1′,ijX2,i);zij = z1,ij và β = (β1β′ 2)′ ′. Phương trình (3.1.7) biểu diễn mơ hình nhiều mức dưới dạng mơ hình hiệu quả hỗn hợp tuyến tính. Xét một số trường hợp đặc biệt của các phương trình (3.1.5) - (3.1.7). Giả sử

βi là đại lượng vô hướng và z1,ij = 1. Khi đó, mơ hình (3.1.7) rút gọn thành mơ hình thành phần sai số được giới thiệu ở phần 3.1. Raudenbush và Bryk đã thảo luận sâu hơn về trường hợp này, trong đó phương trình (3.1.5) khơng chứa hiệu quả cố định x′1,ijβ1. Trong trường hợp này, phương trình (3.1.7) rút gọn thành

3.1. Mơ hình nhiều mức cắt ngang 36 Mơ hình này có các biến giải thích mức hai nên có thể dùng để dự báo các giá trị trung bình của mỗi nhóm i. Một trường hợp đặc biệt khác là mơ hình hệ số ngẫu nhiên. Ở đây, chúng ta bỏ qua thành phần hiệu quả cố định mức một

x′1,ijβ1 và sử dụng ma trận đồng nhất cho X2,i. Phương trình (3.1.7) rút gọn thành

yij = zij′ (β2+αi) +εij.

3.1.3 Mơ hình nhiều mức

Việc mở rộng thành các mơ hình mức cao về cơ bản cũng giống như các mơ hình hai mức. Để thấy rõ, chúng ta đưa ra một mơ hình ba mức dựa trên ví dụ của Raudenbush và Bryk. Xét mơ hình về thành tích của sinh viên với đáp ứng y. Khi đó, mơ hình mức một có dạng

yi,j,k = z1′,i,j,kβi,j +x′1,i,j,kβ1+ε1,i,j,k, (3.1.8) trong đó có i= 1,2,· · · , n trường, j = 1,2,· · · , J1 lớp học ở trong trường thứ i vàk = 1,2,· · · , Ki,j sinh viên ở trong lớp học thứ j. Các biến giải thíchz1,i,j,k và x1,i,j,k có thể phụ thuộc vào các đặc trưng của sinh viên(như giới tính, thu nhập gia đình,..), lớp học(như các đặc điểm của giáo viên, cơ sở vật chất,...) hay trường(như vị trí, cơ cấu quản lý,...). Các tham số phụ thuộc vào trường học i hay lớp học j đều là một phần của vectơ βi,j, trong khi đó các tham số hằng số là một phần của vectơ β1. Các nhiễu ε1,i,j,k có trung bình bằng 0 và phương sai khơng đổi.

Mơ hình mức hai mơ tả sự biến đổi tại mức lớp học và có dạng

βi,j =Z2,i,jγi+X2,i,jβ2+ε2,i,j. (3.1.9)

Tương tự với mơ hình mức một, các biến giải thích Z2,i,j và X2,i,j có thể phụ thuộc vào các đặc trưng của lớp hay trường học nhưng không phụ thuộc vào sinh viên. Các tham số γi được gán với các biến giải thíchZ2,i,j phụ thuộc vào trường học i, trong khi đó các tham số được gán với các biến giải thích X2,i,j

3.2. Các mơ hình nhiều mức dọc 37 là hằng số. Các nhiễu ε2,i,j có trung bình bằng 0 và có phương sai không đổi theo lớp và trường học. Các tham số mức một βi,j có thể biến đổi nhưng phi ngẫu nhiên hoặc là biến ngẫu nhiên. Với điều này, chúng ta sẽ sử dụng phương sai bằng 0 với các mơ hình có tham số biến đổi nhưng phi ngẫu nhiên.

Mơ hình mức ba mơ tả sự biến đổi tại mức trường học. Các tham số mức hai γi có thể biến đổi nhưng phi ngẫu nhiên hoặc là một biễn ngẫu nhiên. Mơ hình mức ba có dạng

γi =X3,iβ3+ε3,i. (3.1.10) Các biến giải thích X3,i có thể phụ thuộc vào trường học. Các nhiễu ε3,i có trung bình bằng 0 và có phương sai khơng đổi theo trường.

Kết hợp các phương trình (3.1.8)-(3.1.10), ta có

yi,j,k = z1,i,j,k′ (Z2,i,j(X3,i+ε3,i) +X2,i,jβ2+ε2,i,j) +x′1,i,j,kβ1+ε1,i,j,k

= x′1,i,j,kβ1+z1,i,j,k′ X2,i,jβ2+z1,i,j,k′ Z2,i,jX3,i+z1,i,j,k′ Z2,i,jε3,i+z1,i,j,k′ ε2,i,j +ε1,i,j,k = x′i,j,kβ +zi,j,k′ αi,j +ε1,i,j,k.

(3.1.11)trong đó x′ trong đó x′

i,j,k = (x′

1,i,j,k;z′

1,i,j,kX2,i,j;z′

1,i,j,kZ2,i,jX3,i);β = (β1;′ β2;′ β3)′ ′, z′

i,j,k = (z′

1,i,j,k;z′

1,i,j,kZ2,i,j) và αi,j = (ε′

2,i,j;ε′

3,i)′.

Chúng ta giả thiết các ε1,i,j,k, ε2,i,j, ε3,i là khơng tương quan với nhau. Phương trình (3.1.11) biểu diễn mơ hình ba mức có dạng như một mơ hình hiệu quả hỗn hợp. Như vậy các ước lượng tham số của phương trình này được tính theo các kết quả của Chương 2.

3.2 Các mơ hình nhiều mức dọc

Phần này chỉ ra cách sử dụng khung mơ hình có điều kiện để biểu diễn dữ liệu

Dự đốn khơng chệch tuyến tính tốt nhất (BLUP)

Các kết luận về hệ số hồi quy

Ước lượng các thành phần phương sai