2 Mơ hình logit đa thức đối với biến đầu ra định danh và các mơ hình
2.5 Hai kiểm định hữu dụng
Trong phần này giới thiệu hai thống kê rất hữu dụng khi dùng mơ hình MNLM. Đầu tiên là thống kê kiểm tra ảnh hưởng của biến có bằng 0 hay khơng. Thứ hai là một thống kê kiểm tra bất cứ khi nào hai tính trạng đầu ra có thể được kết hợp lại với nhau. Do đó, rất quan trọng để hiểu cách những thống kê được dùng với đầu ra trong phần mềm, những thống kê được thể hiện bằng hệ số tương phản đối với đầu ra r.
2.5.1 Kiểm tra biến khơng có ảnh hưởng
Với J tính trạng phụ thuộc, có J −1 tham số βk,m|r liên kết với mỗi biến
xk. Giả thuyết rằng biến xk không ảnh hưởng tới biến phụ thuộc được viết như sau:
H0 : βk,1|r = βk,2|r =· · · =βk,J|r = 0
Vì βk,m|r hiển nhiên bằng 0. Giả thuyết chứa J −1 rằng buộc đối với tham số. Giả thuyết này có thể được kiểm định bằng thống kê Wald hoặc thống kê LR.
Thống kê LR. Đầu tiên ước lượng mơ hình MF với đầy đủ các biến, với kết quả thơng kê LR G2F. Tiếp đó, ước lượng mơ hình MR được xây dựng bằng việc bỏ đi biếnxk, với kết quả thống kêG2R. Mơ hình này cóJ−1 tham số. Cuối cùng, ta tính hiệu G2RvsF = G2F − G2R. Thống kê này có phân phối
χ2 với J −1 bậc tự do, nếu giả thuyết biến xk không ảnh hưởng tới biến phụ thuộc là đúng. Thống kê này có tính thực hành yếu vì ta phải ước lượng hai mơ hình, một mơ hình với đầy đủ các biến và một mơ hình khuyết biến xk.
Thống kê Wald . Vì thống kê Wald chỉ u cầu ước lượng một mơ hình. Nó dễ dàng áp dụng hơn khi mơ hình có nhiều biến cần kiểm định. Đặt
b βk = b β2,k|1, . . . ,βbk,J|1 0
là ước lượng ML đối với biến xk từ mơ hình đầy đủ. Để đơn giản, ta giả sử mơ hình ước lượng hệ số liên kết với tính trạng 1. Đặt
d Var b βk
là ước lượng ma trận hiệp phương sai. Thống kê Wald đối với giả thuyết H0 :βk = 0 có dạng chuẩn như sau:
Wk = βbk0dVar b βk −1 b
βk Nếu giả thuyết đúng, Wk có phân phối Khi - bình phương với J −1 bậc tự do.
Ví dụ về kiểm định Wald và LR
Bảng 2.3 chứa kiểm định đối với mỗi biến từ ví dụ của chúng ta. Kiểm định LR đối với biến WHITE được lí giải như sau
• Nếu giả thuyết rằng biến WHITE khơng ảnh hưởng tới nghề nghiệp là đúng, chúng ta thấy xác suất ý nghĩa p=9% nên giả thuyết đó có thể bị bác bỏ ở mức ý nghĩa 10%, nhưng không bị bác bỏ ở mức 5%.
Hoặc ta có thể nói
• Ảnh hưởng của chủng tộc có ý nghĩa ở mức 9%.
Kết luận từ kiểm định Wald cũng tương tự trên. Trong khi kiểm định LR và Wald là tiệm cận tương đương tuy nhiên trong bảng sau đây chỉ ra rằng chúng có giá trị khác nhau khi các mẫu hữu hạn.
2.5.2 Kiểm định về hai đầu ra có thể được kết hợp với nhau
Nếu khơng có một biếnxk nào ảnh hưởng một cách có ý nghĩa lên số chênh (tỉ số xác suất) của đầu ra m so với đầu ra n, chúng ta sẽ nói rằng đầu ra m
và n là khơng phân biệt theo biến đó trong mơ hình. Nếu β1,m|n, . . . , βK,m|n
là hệ số từx1 qua xK đối với mơ hình logit của đầu ra m so với n, khi đó giả
thuyết đầu ra m và n khơng phân biệt tương ứng với
H0 :β1,m|n = · · · = βK,m|n = 0 (2.9) hoặc tương đương, theo nghĩa các hệ số được ước lượng từ phần mềm,
H0 : (β1,m|r −β1,n|r) =· · · = (βK,m|r−βK,n|r) = 0
Trong ví dụ của chúng ta đang xét, giả thuyết đầu ra P và đầu ra W khơng có sự phân biệt là
H0 :β1,P|W = · · · = βK,P|W = 0 (2.10) hoặc theo tham số trong Bảng 2.2
Kiểm định Wald Giả thuyết rằng đầu ra m và n là khơng phân biệt có thể được kiểm định bằng kiểm định Wald
Wm|n = h Q βb∗ i0h Q dVar b β∗ Q0 i h Q βb∗ i
Trong đó β∗ chứa ước lượng về tất cả tham số của mơ hình và Q chứa ràng buộc được chỉ ra bởi phương trình (2.10). Kiểm định này khi áp dụng gặp nhiều khó khăn trong tính tốn.
Kiểm định LR
Một kiểm định đơn giản nhưng kém hiệu quả hơn cũng có thể được dùng là kiểm định LR. Đầu tiên, chỉ chọn những quan sát mà có đầu ra là hai tính trạng đang xem xét. Thứ hai, ước lượng mơ hình logit nhị phân trên mẫu mới. Cuối cùng, tính kiểm định LR khi tất cả các hệ số dốc đối với mơ hình logit nhị phân đồng thời bằng 0. Kiểm định này rất dễ áp dụng vì nó là một phần của đầu ra chuẩn của hầu hết chương trình đối với mơ hình logit nhị phân.
Ví dụ về kiểm định Wald và LR
Giả thuyết rằng chun viên trình độ cao và cơng nhân bậc cao được ghép lại thành một tính trạng có thể được kiểm định như sau. Đầu tiên, chọn 153 người riêng biệt họ là chun viên trình độ cao hoặc cơng nhân bậc cao. Thứ hai, ước lượng mơ hình logit nhị phân
ln ΩP|W(x) =β0+β1W HIT E +β2ED +β3EXP
Thứ 3, tính kiểm định LR với giả thuyết H0 : β1 = β2 = β3 = β4 = 0. Đối
với dữ liệu của chúng ta G2P|W = 23.4, df = 3, p < 0.01. Kiểm định Wald cho
ta một kết quả tương tự WP|W = 22.2. Giả thuyết chuyên viên trình độ cao
và công nhân bậc cao là không phân biệt theo biến chủng tộc, giáo dục, kinh nghiệm làm việc bị bác bỏ ở mức 0.01.