Dự đoán không chệch tuyến tính tốt nhất (BLUP)

Một phần của tài liệu Thử nghiệm phân tích dữ liệu kinh tế - xã hội Việt Nam bằng thống kê toán học (Trang 34)

2 Mô hình hiệu quả ngẫu nhiên

2.5.1Dự đoán không chệch tuyến tính tốt nhất (BLUP)

Xét mô hình tuyến tính hỗn hợp

y =Zα+Xβ+ε.

Giả sử rằng chúng ta quan sát một vectơ ngẫu nhiên y mức N ×1 với trung bình Xβ và phương sai V ary = V, trong đó ma trận V có dạng chéo khối

2.5. Dự đoán 28

V = (V1, V2,· · · , Vn) với Vi = ZiDZi′ và V arα = D. Mục đích chính là để dự đoán một biến ngẫu nhiên w sao cho

Ew =λ′β

V arw =σ2

w.

(i) Giả sử các tham số β đã biết. Khi đó lấy c1 là một hằng số tùy ý và c2

là một vectơ hằng số. Với cách chọn này, ta sẽ đi tìm dự đoán của w có dạng c1+c′

2y. Sai số bình phương trung bình bằng

M SE(c1, c2) = E(c1+c′2y−w)2

= V ar(c1 +c′2y−w) +E(c1+c′2Ey−Ew)2

. Vì Ey = Xβ và Ew = λ′β nên ta có ∂ ∂c1 M SE(c1, c2) = ∂ ∂c1 (c1+ (c′2X −λ′)β)2 = 2(c1+ (c′2X −λ′)β).

Cho phương trình này bằng 0 và chúng ta có được nghiệm c∗1 = c1(c2) = (λ′−c′2X)β. Với cách chọn c1, ta có

M SE(c1(c2), c2) = E(c2′(y −Ey)−(w−Ew))2 = V ar(c′2y −w) =c′2V c2+σ2

w−2Cov(w, y)c2.

Để tìm cách chọn tốt nhất cho c2, ta lại lấy đạo hàm riêng của MSE theo

c2, ta được ∂ ∂c2 M SE(c1(c2), c2) = 2V c2−2Cov(w, y)′. Giải phương trình ∂ ∂c2 M SE(c1(c2), c2) = 0có nghiệmc∗2 = V−1 Cov(w, y)′. Như vậy dự đoán bình phương trung bình nhỏ nhất của w là

w∗ = c∗1+c∗2y = Ew +Cov(w, y)V−1

(y −Ey) (2.5.1)

= λ′β +Cov(w, y)V−1

2.5. Dự đoán 29 (ii) Trường hợp các tham số hồi quy tổng thể chưa biết. Với trường hợp này,

chúng ta sử dụng bGLS = (X′V−1

X)−1

X′V−1

y là ước lượng GLS, ước lượng tuyến tính không chệch tốt nhất của β. Thay β bởi bGLS trong phương trình (3.2.1) của w∗, ta có

wBLU P = λ′bGLS +Cov(w, y)V−1

(y−XbGLS) (2.5.2)

= (λ′−Cov(w, y)V−1

X)bGLS+Cov(w, y)V−1

y.

Đây là dự đoán không chệch tuyến tính tốt nhất của w. Thật vậy, xét tất cả các dự đoán tuyến tính không chệch có dạng wBLU P +c′y, trong đó c

là một vectơ hằng. Do tính không chệch, ta có

Ec′y = Ew−EwBLU P = 0.

Như vậy, c′y là một ước lượng không chệch của 0. Điều kiện cần và đủ để

Ec′y = 0 là c′X = 0. Bây giờ, chúng ta xét E(wBLU P +c′y −w)2 để cực tiểu sai số dự đoán bình phương trung bình trên tất cả các cách chọn của

c. Ta có

Cov(wBLU P −w, c′y) =Cov(wBLU P, y)c−Cov(w, y)c =Cov(w, y)V−1

Cov(y, y)c+ (λ′−Cov(w, y)V−1

X)

×Cov(bGLS, y)c−Cov(w, y)c =Cov(w, y)c+ (λ′−Cov(w, y)V−1

X)

×(X′V−1

X)−1

X′V−1

Cov(y, y)c−Cov(w, y)c

=(λ−Cov(w, y)V−1X)(X′V−1X)−1X′c = 0.

(2.5.3) Đẳng thức cuối cùng suy ra từ c′X = 0. Như vậy, ta có

E(wBLU P +c′y−w)2 = V ar(wBLU P −w) +V ar(c′y),

đạt giá trị nhỏ nhất khi chọnc = 0. Và ta có phương sai của wBLU P bằng

V arwBLU P = Cov(w, y)V−1

Cov(w, y)′−(λ′−Cov(w, y)V−1

2.5. Dự đoán 30 ×(X′V−1 X)−1 (λ′−Cov(w, y)V−1 X)′. 2.5.2 Dự đoán mô hình hỗn hợp

Dự đoán không chệch tuyến tính tốt nhất đối với mô hình tuyến tính hỗn hợp được biểu diễn trong phương trình (2.5.2). Từ phương trình này ta có

wBLU P = λ′bGLS+Cov(w, y)V−1(y −XbGLS) (2.5.4)

= λ′bGLS+ n X i=1 Cov(w, yi)V−1 i (yi−XibGLS).

Dự đoán cho tổ hợp tuyến tính các tham số tổng thể và hiệu quả đặc trưng đối tượng

Xét dự đoán tổ hợp tuyến tính có dạngw= c′

1αi+c′

2β, trong đóc1, c2 là những vectơ hằng đã biết. Khi đó với cách chọn w, ta có Ew = c′

2β và λ = c2. Hơn thế nữa, chúng ta có Cov(w, yi) =      c′1DZi′ với i=j, 0 với i 6=j.

Thay vào phương trình (2.5.4) ta được

wBLU P =c′1DZi′V−1

(yi−XibGLS) +c′2bGLS.

Để đơn giản biểu diễn này, chúng ta chọn c2 = 0 và có BLUP của αi bằng

ai,BLU P = DZi′V−1

i (yi−XibGLS). (2.5.5) Như vậy, ta sẽ có được BLUP của w= c′

1αi+c′

2β là

2.5. Dự đoán 31 Dự đoán phần dư

Xét dự đoán một tổ hợp tuyến tính các phần dư,w = c′

εεi, trong đó cε là vectơ các hằng số. Với sự lựa chọn này, chúng ta có Ew = 0, suy ra λ = 0. Ta có

Cov(w, yi) =      c′εRi với i=j, 0 với i6= j.

Như vậy, từ phương trình (2.5.4) chúng ta có vectơ phần dư BLUP bằng

ei,BLU P = RiV−1 i (yi−XibGLS), hay ei,BLU P = yi−(Ziai,BLU P +XibGLS). Trong trường hợp D = 0 : ei,BLU P = yi−XibGLS =ei,GLS.

Dự đoán các quan sát tương lai

Giả sử rằng đối tượng thứ i không có mặt trong tập dữ liệu và chúng ta muốn dự đoán w =yi,Ti+L =z′

i,Ti+Lαi+x′

i,Ti+Lβ+εi,Ti+L, với L là số đơn vị thời gian ở tương lai. Lại giả sử, zi,Ti+L và xi,Ti+L đã biết. Với cách chọn w này, suy ra

λ =xi,Ti+L. Hơn thế Cov(w, yi) =      z′ i,Ti+LDZ′

i +Cov(εi,Ti+L, εi) với i=j,

0 với i6=j.

Sử dụng các phương trình (2.5.4), (2.5.5) và (2.5.6) ta có

b

yi,Ti+L = wBLU P (2.5.7)

= (zi,T′ i+LDZi′+Cov(εi,Ti+L, εi))V−1

(yi−XibGLS) +x′i,Ti+LbGLS

Chương 3

Mô hình nhiều mức

Chương này mô tả khung mô hình có điều kiện, làm việc với những cấu trúc dữ liệu phân mức và dữ liệu nhóm. Dữ liệu và các mô hình nhiều mức được sử dụng rộng rãi trong khoa học giáo dục và khoa học xã hội. Và chúng ta sẽ chỉ ra rằng, mô hình nhiều mức được xem như mô hình hiệu quả hỗn hợp tuyến tính và như vậy, các phương pháp kết luận thống kê được giới thiệu trong chương 3 sẽ được áp dụng trong chương này.

Định nghĩa 7. Mô hình nhiều mức(mô hình phân mức hay mô hình lồng nhau) là mô hình thống kê mà trong đó các tham số biến đổi tại các mức lớn hơn một. Các đơn vị phân tích của mô hình thường là các cá thể (ở mức thấp hơn) được lồng thành những đơn vị ở mức cao hơn.

3.1 Mô hình nhiều mức cắt ngang

Hệ thống giáo dục thường được mô tả bằng các cấu trúc mà trong đó các đơn vị quan sát ở mức một được nhóm thành các đơn vị quan sát ở mức cao hơn. Để minh họa, giả sử rằng chúng ta muốn đánh giá thành tích của sinh viên dựa trên các bài kiểm tra đạt được. Các sinh viên được nhóm thành một lớp, các lớp được nhóm thành một trường và các trường lại được nhóm thành một khu vực. Tại mỗi mức lại có các biến mà có thể ảnh hưởng đến biến đáp ứng của mỗi sinh viên. Ví dụ, ở mức lớp học , yếu tố giáo dục của giáo viên; ở mức

3.1. Mô hình nhiều mức cắt ngang 33 trường, yếu tố quy mô, cơ sở vật chất, đều là những yếu tố quan trọng ảnh hưởng đến chất lượng của sinh viên. Và ta cũng thấy rằng, không chỉ có mối quan hệ giữa các biến trong mỗi nhóm mà còn có các mối liên quan giữa các nhóm được xét.

Thuật ngữ "nhiều mức" được dùng cho các loại dữ liệu lồng nhau. Trong ví dụ trên, mỗi sinh viên là một đơn vị quan sát cơ sở, được gọi là đơn vị quan sát mức một. Chúng ta có thể tưởng tượng dữ liệu nhiều mức được tập hợp bởi một sơ đồ mẫu chùm. Mô hình nhiều mức được xác định qua các mối quan hệ có điều kiện, trong đó các mối quan hệ được mô tả tại mức một, lấy điều kiện trên các hệ số ngẫu nhiên ở mức cao hơn.

3.1.1 Mô hình hai mức

Để minh họa những đặc điểm quan trọng của mô hình nhiều, bây giờ chúng ta đi xét mô hình hai mức. Giả sử rằng chúng ta có một mẫu gồm n trường học và đối với trường học thứ i, chúng ta chọn ngẫu nhiên ni sinh viên. Với sinh viên thứ j ở trường thứ i, chúng ta đánh giá thành tích của sinh viên trên một bài kiểm tra đạt được yij và thông tin về trạng thái kinh tế - xã hội của sinh viên, ví dụ như tổng thu nhập của gia đình. Để đánh giá kết quả dựa vào trạng thái kinh tế - xã hội, chúng ta có thể bắt đầu với một mô hình đơn giản sau

yij =β0i+β1izij +εij. (3.1.1) Phương trình (3.1.1) mô tả mối quan hệ tuyến tính giữa trạng thái kinh tế xã hội và thành tích mong đợi của sinh viên, trong đó β0i là tham số chặn đặc trưng cho trường học, β1i là tham số tổng thế. Phương trình (3.1.1) biểu diễn mô hình mức một, mô tả thành tích của sinh viên, được coi như một đơn vị quan sát.

Nếu chúng ta đồng nhất các trường học với nhau thì khi đó các tham số

β0i, β1i được coi như các đại lượng cố định. Tuy nhiên, với việc coi các trường như một mẫu ngẫu nhiên thì các tham số β0i, β1i là các đại lượng ngẫu nhiên.

3.1. Mô hình nhiều mức cắt ngang 34 Một biểu diễn cho các đại lượng này có dạng

β0i = β0+α0i và β1i = β1+α1i, (3.1.2) trong đóα0i, α1i là những biến có trung bình bằng 0. Biểu diễn này mô tả mối quan hệ giữa các trường và sơ lược về phương trình mức hai.

Phương trình (3.1.1) và (3.1.2) mô tả những mô hình hai mức. Để đánh giá, chúng ta kết hợp hai phương trình này thành

yij = (β0+α0i) + (β1+α1i)zij +εij

= α0i+α1izij +β0+β1zij +εij.

(3.1.3)

Phương trình (3.1.3) chỉ ra rằng mô hình hai mức có thể được viết như mô hình hiệu quả hỗn hợp tuyến tính. Đặc biệt, chúng ta định nghĩaαi = (α0i, α1i)′, zij = (1, zij)′, β = (β0, β1)′ và xij = zij, khi đó

yij =zij′ αi+x′ijβ+εij.

Một khía cạnh đẹp của mô hình nhiều mức là chúng ta có thể xác định mối quan hệ có điều kiện tại mỗi mức của mô hình, phụ thuộc vào từng mối quan tâm nghiên cứu. Để minh họa, chúng ta muốn hiểu về các đặc trưng của trường ảnh hưởng tới thành tích của sinh viên như thế nào. Raudenbush và Bryk đã đưa ra một ví dụ trong đó xi biểu thị một trường học Công giáo hay một trường Công lập. Một cách đơn giản để giới thiệu thông tin này là biến đổi mô hình mức hai trong phương trình (3.1.2) thành

β0i =β0+β01xi+α0i và β1i = β1+β11xi+α1i.

Đây là hai mô hình hồi quy mức hai. Kết hợp hai phương trình này với mô hình mức một trong phương trình (3.1.1), ta có

yij = (β0+β01xi+α0i) + (β11xi+α1i)zij +εij

=α0i+α1izij +β0+β01xi+β11xizij +εij.

(3.1.4)

Số hạngβ11xizij tương tác giữa biến mức một (zij) và biến mức hai (xi), được biết như một tương tác chéo mức. Với ví dụ này, chúng ta sử dụng x = 1 cho

3.1. Mô hình nhiều mức cắt ngang 35 các trường học Công giáo,x = 0 cho các trường học công lập. Khi đó,β11 biểu diễn sự khác biệt giữa sự thay đổi điểm thành tích trên một đơn vị thu nhập gia đình, giữa trường Công giáo và trường công lập. Các nhà nghiên cứu đã chứng tỏ rằng, việc nắm bắt được sự tương tác chéo mức là một thúc đẩy lớn cho việc phân tích dữ liệu nhiều mức.

3.1.2 Mô hình hai mức mở rộng

Để xét nhiều biến, chúng ta mở rộng phương trình (3.1.1) và (3.1.2). Xét mô hình mức một có dạng

yij = z1′,ijβi+x′1,ijβ1+εij, (3.1.5) trong đó z1′,ij và x′1,ij lần lượt biểu diễn tập các biến mức một được gán với các hệ số biến đổi và các hệ số cố định. Mô hình mức hai có dạng

βi = X2,iβ2+αi, (3.1.6) trong đó Eαi = 0. Với kí hiệu này, số hạng X2,iβ2 hình thành nên các hiệu quả khác với các tham số ước lượng được. Kết hợp phương trình (3.1.5) và (3.1.6) ta có

yij = z1′,ij(X2,iβ2+αi) +x′1,ijβ1+εij

= zij′ αi+x′ijβ+εij,

(3.1.7)

với kí hiệu x′ij = (x′1,ijz1′,ijX2,i);zij = z1,ij và β = (β1′β2′)′. Phương trình (3.1.7) biểu diễn mô hình nhiều mức dưới dạng mô hình hiệu quả hỗn hợp tuyến tính. Xét một số trường hợp đặc biệt của các phương trình (3.1.5) - (3.1.7). Giả sử

βi là đại lượng vô hướng và z1,ij = 1. Khi đó, mô hình (3.1.7) rút gọn thành mô hình thành phần sai số được giới thiệu ở phần 3.1. Raudenbush và Bryk đã thảo luận sâu hơn về trường hợp này, trong đó phương trình (3.1.5) không chứa hiệu quả cố định x′1,ijβ1. Trong trường hợp này, phương trình (3.1.7) rút gọn thành

3.1. Mô hình nhiều mức cắt ngang 36 Mô hình này có các biến giải thích mức hai nên có thể dùng để dự báo các giá trị trung bình của mỗi nhóm i. Một trường hợp đặc biệt khác là mô hình hệ số ngẫu nhiên. Ở đây, chúng ta bỏ qua thành phần hiệu quả cố định mức một

x′1,ijβ1 và sử dụng ma trận đồng nhất cho X2,i. Phương trình (3.1.7) rút gọn thành

yij = zij′ (β2+αi) +εij.

3.1.3 Mô hình nhiều mức

Việc mở rộng thành các mô hình mức cao về cơ bản cũng giống như các mô hình hai mức. Để thấy rõ, chúng ta đưa ra một mô hình ba mức dựa trên ví dụ của Raudenbush và Bryk. Xét mô hình về thành tích của sinh viên với đáp ứng y. Khi đó, mô hình mức một có dạng

yi,j,k = z1′,i,j,kβi,j +x′1,i,j,kβ1+ε1,i,j,k, (3.1.8) trong đó có i= 1,2,· · · , n trường, j = 1,2,· · · , J1 lớp học ở trong trường thứ i vàk = 1,2,· · · , Ki,j sinh viên ở trong lớp học thứ j. Các biến giải thíchz1,i,j,k và x1,i,j,k có thể phụ thuộc vào các đặc trưng của sinh viên(như giới tính, thu nhập gia đình,..), lớp học(như các đặc điểm của giáo viên, cơ sở vật chất,...) hay trường(như vị trí, cơ cấu quản lý,...). Các tham số phụ thuộc vào trường học i hay lớp học j đều là một phần của vectơ βi,j, trong khi đó các tham số hằng số là một phần của vectơ β1. Các nhiễu ε1,i,j,k có trung bình bằng 0 và phương sai không đổi.

Mô hình mức hai mô tả sự biến đổi tại mức lớp học và có dạng

βi,j =Z2,i,jγi+X2,i,jβ2+ε2,i,j. (3.1.9) Tương tự với mô hình mức một, các biến giải thích Z2,i,j và X2,i,j có thể phụ thuộc vào các đặc trưng của lớp hay trường học nhưng không phụ thuộc vào sinh viên. Các tham số γi được gán với các biến giải thíchZ2,i,j phụ thuộc vào trường học i, trong khi đó các tham số được gán với các biến giải thích X2,i,j

3.2. Các mô hình nhiều mức dọc 37 là hằng số. Các nhiễu ε2,i,j có trung bình bằng 0 và có phương sai không đổi theo lớp và trường học. Các tham số mức một βi,j có thể biến đổi nhưng phi ngẫu nhiên hoặc là biến ngẫu nhiên. Với điều này, chúng ta sẽ sử dụng phương sai bằng 0 với các mô hình có tham số biến đổi nhưng phi ngẫu nhiên.

Mô hình mức ba mô tả sự biến đổi tại mức trường học. Các tham số mức hai γi có thể biến đổi nhưng phi ngẫu nhiên hoặc là một biễn ngẫu nhiên. Mô hình mức ba có dạng

γi =X3,iβ3+ε3,i. (3.1.10) Các biến giải thích X3,i có thể phụ thuộc vào trường học. Các nhiễu ε3,i có trung bình bằng 0 và có phương sai không đổi theo trường.

Kết hợp các phương trình (3.1.8)-(3.1.10), ta có

yi,j,k = z1′,i,j,k(Z2,i,j(X3,i+ε3,i) +X2,i,jβ2+ε2,i,j) +x′1,i,j,kβ1+ε1,i,j,k

= x′1,i,j,kβ1+z1′,i,j,kX2,i,jβ2+z1′,i,j,kZ2,i,jX3,i+z1′,i,j,kZ2,i,jε3,i+z1′,i,j,kε2,i,j +ε1,i,j,k

= x′i,j,kβ +zi,j,k′ αi,j +ε1,i,j,k.

(3.1.11) trong đó x′ i,j,k = (x′ 1,i,j,k;z′ 1,i,j,kX2,i,j;z′ 1,i,j,kZ2,i,jX3,i);β = (β′ 1;β′ 2;β′ 3)′, z′ i,j,k = (z′ 1,i,j,k;z′

1,i,j,kZ2,i,j) và αi,j = (ε′

2,i,j;ε′

3,i)′.

Chúng ta giả thiết các ε1,i,j,k, ε2,i,j, ε3,i là không tương quan với nhau. Phương trình (3.1.11) biểu diễn mô hình ba mức có dạng như một mô hình hiệu quả

Một phần của tài liệu Thử nghiệm phân tích dữ liệu kinh tế - xã hội Việt Nam bằng thống kê toán học (Trang 34)