Giả thuyết về tỉ số xác suất trong mơ hình logit tương ứng với ý tưởng tổng quát hơn về hồi quy song song đối với cả hai mơ hình logit và probit thứ bậc. Ý tưởng về hồi quy song song có thể được xem xét bằng việc viết lại mơ hình xác suất tích lũy. Đối với mơ hình này, xác suất để biến đầu ra nhận giá trị nhỏ hơn hoặc bằng m là:
P r(y ≤ m | x) = F(τm−xβ) (1.12) Xác suất tích lũy là phân phối xác suất tích lũy được tính tại τm−xβ. Vì β
bằng nhau đối với tất cả các m, phương trình (1.12) định nghĩa một tập mơ
hình nhị phân với các hệ số chặn khác nhau. Để thấy điều này, chú ý rằng
τm−xβ = τm −β0− K X k=1 βkxk Do đó, mơ hình với y ≤ 1 là: P r(y ≤ 1) = F[(τ1−β0)− K X k=1 βkxk] với hệ số chặn τ1−β0. Mơ hình đối với y ≤ 2 là
P r(y ≤ 2) = F[(τ2−β0)−
K
X
k=1
βkxk]
Trong mơ hình này, hệ số chặn được thay đổi tới τ2− β0, nhưng hệ số dốc đối với xk không đổi. Ví dụ Hình 1.6 vẽ đường cong xác suất tích lũy khi có bốn tính trạng, kết quả ba đường cong với các hệ số chặn lần lượt là:
τ1−β0, τ2−β,τ3−β0. Để thấy tại sao các đường cong là song song. Ta chọn một giá trị xác suất của giá trị biến đầu ra. Ví dụ chọn xác suất bằng 0.5 được chỉ ra bởi đường ngang chấm chấm. Khi đó kiểm tra độ dốc của 3 đường cong tại điểm này ta thấy
∂P r(y ≤ 1 | x) ∂x = ∂P r(y ≤ 2 | x) ∂x = ∂P r(y ≤ 2 | x) ∂x
Do đó, mơ hình được gọi là hồi quy song song. Có ba điểm định thống kê thường được dùng để kiểm định giả thuyết hồi quy song song là:
Hình 1.6: Giả thuyết hồi quy song song
Chúng ta có thể kiểm tra giả thuyết hồi quy song song bằng ước lượngJ −1
hàm hồi quy nhị phân
P r(y ≤ m | x) = F(τm−xβ)
Hàm hồi quy nhị phân đầu tiên là đối với biến được định nghĩa bằng 1 nếu
y ≤ 1 và 0 trong trường hợp còn lại. Hàm hồi quy thứ hai đối với biến nhận giá trị bằng 1 nếu y ≤ 2 và 0 trong trường hợp khác. Và tiếp tục tới biến nhận giá trị bằng 1 nếu y ≤ J −1. Kết quả này cho J −1 ước lượng βmˆ .
Nếu giả thuyết hồi quy song song là đúng, khi đó
β1 = β2 = ... = βJ−1 =β
và mỗi βˆm là ước lượng vững của β trong phương trình (1.12). Kiểm tra sự
giống và khác nhau giữa βˆm từ mơ hình nhị phân logit (probit) và βˆ từ mơ
hình logit (probit) thứ bậc cung cấp thông tin để kiểm tra giả thuyết hồi quy song song.
Đối với ví dụ đang xét, ước lượng từ mơ hình logit thứ bậc được cho ở cột
đầu tiên Bảng 1.8. Ước lượng từ ba mơ hình nhị phân được cho ở cột cuối cùng. Trong khi một vài ước lượng là gần bằng nhau qua các phương trình nhưng có những hệ số khá khác nhau như đối với biến MALE. Để hiểu rõ
hơn cách kiểm định điểm được dùng để xử lí giả thuyết về hồi quy song song, ta coi mơ hình ORM như một tập gồm J −1 mơ hình logit nhị phân.
P r(y ≤ m | x) = F(τm−xβ)
ở đó, ta có ràng buộc các hệ số β qua J −1 hàm hồi quy là bằng nhau,
β1 = β2 = ... = βJ−1 =β (1.13) Do đó, chúng ta ước lượng mơ hình
P r(y ≤ m | x) = F(τm−xβ) (1.14) Tiêu chuẩn kiểm định sẽ đánh giá hàm hợp lí của mơ hình ORM sẽ thay đổi thế nào nếu các ràng buộc (1.13) được loại bỏ. Kết quả là tiêu chuẩn kiểm định thống kê có phân phối χ2 với k(J − 2) bậc tự do. Đối với ví dụ đang xét, tiêu chuẩn kiểm định có giá trị bằng 48,2 với 12 bậc tự do, ứng với xác suất ý nghĩa p < 0,001. Điều này chỉ ra rằng giả thuyết hồi quy song song
bị vi phạm.
Kiểm định Wald
Phép kiểm định trên đây không chỉ ra được giả thuyết hồi quy song song bị vi phạm đối với tất cả các biến độc lập hay chỉ với một vài biến. Kiểm định Wald được đề xuất bởi Brant (1990) cho phép kiểm định cả giả thuyết tất cả các βm bằng nhau đối với tất cả các biến và giả thuyết chỉ có một số các hệ số tương ứng với các biến độc lập phân biệt bằng nhau. Kiểm định này được xây dựng như sau:
1. Ước lượng các βm và các V ar( ˆβm)
Chạy J −1 mơ hình nhị phân logit với biến đầu ra được định nghĩa bởi
zm =
0 y > m
1 y ≤ m
Với ước lượng độ dốc βˆm và ma trận hiệp phương sai V ar( ˆb βm). Khi đó,
ước lượng xác suất khi zm = 1 với xi cho trước là
ˆ
πm(xi) =F(ˆτm −xiβˆm)
2. Ước lượng hiệp phương sai giữa β...mˆ và β...lˆ , trong đó dấu "ba chấm"
để nhấn mạnh rằng có thể bỏ đi từ mỗi vectơ hệ số một véctơ hằng số nào đó. Ta định nghĩa
và đặt Wml là ma trận chéo cỡ N × N, phần tử thứ i của nó là wiml. Đặt X là ma trận cỡ N × (K + 1) với các số 1 ở cột đầu tiên và các biến độc lập ở cột còn lại. Brant chỉ ra rằng hiệp phương sai giữa các βˆ
từ các mơ hình nhị phân khác nhau và V ar( ˆb β...m,βˆ...l) được ước lượng bằng việc bỏ đi hàng đầu tiên và cột đầu tiên của ma trận
(X0WmmX)−1(X0WmlX)(X0WllX)−1 3. Kết hợp tất cả các ước lượng Ta định nghĩa βˆ∗ = ( ˆβ...10 βˆ...20 . . .βˆ...J−10 )0 và b V ar( ˆβ∗) = d V ar(β...1) · · · V ar( ˆd β...m,βˆ...l) ... . . . ... d V ar( ˆβ...J−1,β...1)ˆ · · · V ar( ˆd β...J−1)
Các phần tử trên đường chéoV ar( ˆd β...m) là mỗi ma trận hiệp phương sai từ mơ hình hồi quy nhị phân. Các phần tử ngồi đường chéo được định nghĩa ở bước 2.
4. Xây dựng kiểm định Wald đối với giả thuyết H0 : β...1 = . . . =β...J−1.Giả thuyết này tương đương với H0 :Dβˆ∗ = 0 trong đó
D = I −I 0 . . . 0 I 0 −I . . . 0 ... ... ... ... ... I 0 0 . . . −I
với I là ma trân đơn vị cấp (K + 1)×(K + 1) và 0 là ma trận mà tất cả các phần tử bằng 0 có cấp (K + 1)×(K + 1). Dạng chuẩn của kiểm
định Wald là
W = (Dβˆ∗)0[DV ar( ˆd β∗)D0]−1(Dβˆ∗)
với bậc tự do (J −2)K
5. Xây dựng kiểm định với mỗi biến phân biệt
Giả thuyết H0 : βk1 = . . .= βk,J−1 có thể được kiểm định bằng việc chỉ chọn những hàng và cột của D,βˆ∗ và V ar( ˆd β∗) tương ứng với các hệ số được kiểm định. Kết quả là kiểm định có phân phối khi- bình phương với J −2 bậc tự do.
Đối với ví dụ của chúng ta, kiểm định Wald được chứa trong Bảng 1.9. Kiểm định Wald đối với tất cả các biến có kết quả khá gần với kiểm định điểm
(S = 48,4). Kiểm định giả thuyết các hệ số đối với các biến phân biệt là
bằng nhau của cũng được chỉ ra ở bảng trên, như được gợi ý trong Bảng 1.8, rằng đối với một số biến nào đó thì có độ tin cậy cao để bác bỏ giả thuyết nhưng với một số biến khác thì khơng có cơ sở để bác bỏ giả thuyết hồi quy song song.
1.6 Các mơ hình liên kết đối với dữ liệu tính trạng
1.6.1 Mơ hình hồi quy ghép nhóm
Trong mơ hình ORM, biến quan sát được định nghĩa bởi
y = m khi τm−1 < y∗ < τm, m = 1,2, ..., J
ở đó điểm cắt chưa được biết. Một loại biến tương tự được xác định khi biến liên tục nào đó được ghép nhiều giá trị lại thành một nhóm và xem đó như các tính trạng, trong trường hợp này điểm cắt τ đã biết. Ví dụ, thu nhập có thể được đo bởi
y = 1 khi y∗ < 10000$ 2 khi 10000$ ≤ y∗ < 20000$ ... ... J khi y∗ > 100000$
Như các biến thường được phân tích bởi việc mã hóa lại khi đó giá trị mà biến nhận là điểm giữa của khoảng biến đổi, với một vài lí do nào đó các giá trị được dùng có thể là giá trị lớn nhất hoặc nhỏ nhất trong khoảng đó. Vấn đề là có một sự điều chỉnh nhỏ với dữ liệu được mã hóa. Sau đó, biến được làm việc như biến tính trạng và mơ hình ORM được dùng. Tuy nhiên vì điểm cắt đã biết, chúng ta không cần ước lượng chúng. Hơn nữa với những điểm cắt đã biết nó có thể ước lượng V ar(ε) cái mà phải được giả thiết trong mơ hình ORM.
1.6.2 Các mơ hình khác về dữ liệu tính trạng
Mơ hình tính trạng gần kề xác định bởi
ln P r(y =m | x)
P r(y = m+ 1 |x) =τm −xβ
ở đó biến đầu ra là log của tỉ số giữa xác suất của tính trạng m với xác suất của tính trạngm+ 1; khơng giống như mơ hình ORM, mơ hình này là trường
hợp đặc biệt của mơ hình đa thức được xét ở chương sau.
Mơ hình tỉ số liên tục (continuation ration model) được đề xuất bởi Fieberg
lnP r(y =m | x)
P r(y > m | x) = τm−xβ
Biến đầu ra là log của tỉ số giữa xác suất của tính trạng m trên xác suất để biến nhận giá trị lớn hơn m. Trong mơ hình này, ước lượng sẽ khác nếu các
nhóm tính trạng gần kề được kết hợp. Anderson đề xuất mơ hình
ln P r(y = j | x)
P r(y =m | x) = τm−xβ
ở đó các ràng buộc là bắt buộc đối với các điểm cắt τ để đảm bảo thứ tự các tính trạng và các β khác nhau đối với các tính trạng đầu ra, do đó tránh được giả thuyết hồi quy song song. Mơ hình này có quan hệ chặt chẽ với mơ hình logit đa thức sẽ được thảo luận trong chương tiếp theo.
Chương 2
Mơ hình logit đa thức đối với biến đầu ra định danh và các mơ hình liên quan
Biến định danh là biến phụ thuộc mà các tính trạng khơng có thứ tự. Biến định danh được tìm thấy rất nhiều trong các lĩnh vực khoa học xã hội như: các loại nghề nghiệp, giới tính, việc lựa chọn ngơn ngữ ...
Các mơ hình đối với biến định danh cũng thường được dùng khi biến phụ thuộc là biến tính trạng có thứ tự. Đơi khi điều này được dùng để tránh giả thuyết về hồi quy song song của mơ hình hồi quy thứ tự hoặc có thể được dùng trong trường hợp khơng chắc chắn rằng biến phụ thuộc là biến có thứ tự hay chỉ đơn giản là những nhà nghiên cứu quen với mơ hình logit đa thức (multinomial logit model) hơn các mơ hình khác. Nếu biến phụ thuộc là biến có thứ tự và các mơ hình đối với biến định danh được sử dụng để phân tích thì tính hiệu quả sẽ giảm đi vì có những thơng tin đã bị bỏ qua. Mặt khác, khi các mơ hình đối với biến có thứ tự lại được áp dụng đối với biến định danh thì kết quả là ước lượng là chệch và có thể khơng hợp lí.
Chương này sẽ thảo luận về hai mơ hình có liên hệ chặt chẽ với nhau. Mơ hình logit đa thức được dùng thường xun nhất đối với biến định danh. Ảnh hưởng của biến độc lập được cho phép khác nhau đối với mỗi đầu ra. Với mơ hình logit có điều kiện, đặc trưng của biến đầu ra được dùng để dự báo sự lựa chọn được thực hiện. Trong khi những mơ hình probit có thể được xây dựng một cách lí thuyết nhưng những khó khăn trong tính tốn làm cho mơ hình trở nên phi thực tế.
2.1 Giới thiệu về mơ hình logit đa thức
Mơ hình logit đa thức (MNLM) có thể được xem như ước lượng đồng thời của nhiều mơ hình logit nhị phân. Các mơ hình logit nhị phân này là mơ hình đối với các cặp tính trạng của biến quan sát. Thật vậy, ước lượng từ mơ hình logit nhị phân cho ta ước lượng vững về tham số của mơ hình MNLM. Theo hướng này, mơ hình MNLM đơn giản là sự mở rộng của mơ hình logit nhị phân. Tuy nhiên, sự mở rộng này gặp những khó khăn bởi việc so sánh một số lớn các cặp tính trạng của biến đầu ra. Với biến đầu ra nhận ba giá trị, mơ hình MNLM nói chung tương đương với việc chạy ba mơ hình logit nhị phân để so sánh biến đầu ra nhận giá trị 1 với giá trị 2, 1 với 3 và 2 với 3. Với 4 tính trạng của biến đầu ra, ta phải bổ sung thêm các so sánh đối với các cặp giá trị của biến đầu ra: 1 với 4, 2 với 4 và 3 với 4. Để giải thích mơ hình rõ ràng hơn, ta xét mơ hình với biến đầu ra có 3 tính trạng và một biến độc lập. Mơ hình được thể hiện như một tập của ba mơ hình logit nhị phân.
Để giải thích mơ hình rõ ràng hơn, ta xét mơ hình với biến đầu ra có 3 tính trạng và một biến độc lập. Mơ hình được thể hiện như một tập của ba mơ hình logit nhị phân.
Xét biến định danh y với các tính trạng A, B và C với NA, NB, NC là số quan sát tương ứng với mỗi tính trạng. Giả sử rằng chỉ có một biến độc lập
x. Chúng ta có thể phân tích mối quan hệ giữa x và y bằng việc chạy một chuỗi mơ hình logit nhị phân. Để kiểm tra ảnh hưởng của biến x đối với tỉ số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất để biến đầu ra nhận tính trạng B, chúng ta chọn NA +NB quan sát tương ứng với biến đầu ra nhận các tính trạng A hoặc B và ước lượng mơ hình logit đối với cặp tính trạng A và B là: ln Pr (A/x) Pr (B/x) =β0,A/B +β1,A/Bx (2.1) Biến phụ thuộc là log của tỉ số giữa xác suất biến đầu ra nhận tính trạng A trên xác suất biến đầu ra nhận tính trạng B. Hệ số β được gắn chỉ số dưới
A/B để chỉ ra rằng, mơ hình logit được xây dựng với cặp tính trạng A và B. Hệ số β1,A/B có thể được giải thích như sau: nếu tăng 1 đơn vị của biến độc lập x thì tỉ số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất để biến đầu ra nhận tính trạng B thay đổi bởi thừa số exp β1,A/B.
Mơ hình đối với các cặp tính trạng cịn lại có thể được phân tích một cách tương tự. Xét mơ hình logit đối với biến đầu ra nhận cặp tính trạng B và C,
chọn NB +NC quan sát và ước lượng mơ hình logit ln Pr (B/x) Pr (C/x) = β0,B/C +β1,B/Cx (2.2)
Chọn NA +NC số quan sát đối với mơ hình gồm cặp tính trạng A và C, mơ hình là ln Pr (A/x) Pr (C/x) = β0,A/C +β1,A/Cx (2.3) Việc xây dựng cả ba mơ hình trên là khơng cần thiết vì nếu chúng ta biết ảnh hưởng của biến độc lập xđối với tỉ số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất để biến nhận tính trạng B và ảnh hưởng của biến độc lập x đối với tỉ số giữa xác suất để biến đầu ra nhận tính trạng B trên xác suất để biến đầu ra nhận tính trạng C thì ảnh hưởng của biến độc lập x
đối với tỉ số giữa xác suất để biến nhận tính trạng A trên xác suất để biến nhận tính trạng C được xác định như sau:
ln Pr (A/x) Pr (B/x) + ln Pr (B/x) Pr (C/x) = ln Pr (A/x) Pr (C/x) (2.4) Đẳng thức này được chứng minh khá đơn giản bằng dùng tính chất sau
ln (a/b) = lna−lnb.
Đẳng thức (2.4) tương đương với đẳng thức sau:
β0,A/B +β1,A/Bx+β0,B/C +β1,B/Cx =β0,A/C +β1,A/Cx
Nếu xét riêng hệ số chặn và độ dốc một cách riêng biệt, ta có
β0,A/B +β0,B/C = β0,A/C
β1,A/B +β1,B/C = β1,A/C (2.5)
Do đó, có thể một vài mơ hình là khơng cần thiết. Như ví dụ trên, ta thấy nếu biết kết quả của mơ hình logit đối với cặp tính trạng A và B, kết quả của mơ hình đối với cặp tính trạng B và C, thì ta sẽ đưa ra được kết quả của