Các mô hình khác về dữ liệu tính trạng

Một phần của tài liệu Phân tích thống kê chất lượng gỗ và các vấn đề liên quan (Trang 29)

Mô hình tính trạng gần kề xác định bởi

ln P r(y =m | x)

P r(y = m+ 1 |x) =τm −xβ

ở đó biến đầu ra là log của tỉ số giữa xác suất của tính trạng m với xác suất của tính trạngm+ 1; không giống như mô hình ORM, mô hình này là trường hợp đặc biệt của mô hình đa thức được xét ở chương sau.

Mô hình tỉ số liên tục (continuation ration model) được đề xuất bởi Fieberg

lnP r(y =m | x)

P r(y > m | x) = τm−xβ

Biến đầu ra là log của tỉ số giữa xác suất của tính trạng m trên xác suất để biến nhận giá trị lớn hơn m. Trong mô hình này, ước lượng sẽ khác nếu các nhóm tính trạng gần kề được kết hợp. Anderson đề xuất mô hình

ln P r(y = j | x)

P r(y =m | x) = τm−xβ

ở đó các ràng buộc là bắt buộc đối với các điểm cắt τ để đảm bảo thứ tự các tính trạng và các β khác nhau đối với các tính trạng đầu ra, do đó tránh được giả thuyết hồi quy song song. Mô hình này có quan hệ chặt chẽ với mô hình logit đa thức sẽ được thảo luận trong chương tiếp theo.

Chương 2

Mô hình logit đa thức đối với biến đầu ra định danh và các mô hình liên quan

Biến định danh là biến phụ thuộc mà các tính trạng không có thứ tự. Biến định danh được tìm thấy rất nhiều trong các lĩnh vực khoa học xã hội như: các loại nghề nghiệp, giới tính, việc lựa chọn ngôn ngữ ...

Các mô hình đối với biến định danh cũng thường được dùng khi biến phụ thuộc là biến tính trạng có thứ tự. Đôi khi điều này được dùng để tránh giả thuyết về hồi quy song song của mô hình hồi quy thứ tự hoặc có thể được dùng trong trường hợp không chắc chắn rằng biến phụ thuộc là biến có thứ tự hay chỉ đơn giản là những nhà nghiên cứu quen với mô hình logit đa thức (multinomial logit model) hơn các mô hình khác. Nếu biến phụ thuộc là biến có thứ tự và các mô hình đối với biến định danh được sử dụng để phân tích thì tính hiệu quả sẽ giảm đi vì có những thông tin đã bị bỏ qua. Mặt khác, khi các mô hình đối với biến có thứ tự lại được áp dụng đối với biến định danh thì kết quả là ước lượng là chệch và có thể không hợp lí.

Chương này sẽ thảo luận về hai mô hình có liên hệ chặt chẽ với nhau. Mô hình logit đa thức được dùng thường xuyên nhất đối với biến định danh. Ảnh hưởng của biến độc lập được cho phép khác nhau đối với mỗi đầu ra. Với mô hình logit có điều kiện, đặc trưng của biến đầu ra được dùng để dự báo sự lựa chọn được thực hiện. Trong khi những mô hình probit có thể được xây dựng một cách lí thuyết nhưng những khó khăn trong tính toán làm cho mô hình trở nên phi thực tế.

2.1 Giới thiệu về mô hình logit đa thức

Mô hình logit đa thức (MNLM) có thể được xem như ước lượng đồng thời của nhiều mô hình logit nhị phân. Các mô hình logit nhị phân này là mô hình đối với các cặp tính trạng của biến quan sát. Thật vậy, ước lượng từ mô hình logit nhị phân cho ta ước lượng vững về tham số của mô hình MNLM. Theo hướng này, mô hình MNLM đơn giản là sự mở rộng của mô hình logit nhị phân. Tuy nhiên, sự mở rộng này gặp những khó khăn bởi việc so sánh một số lớn các cặp tính trạng của biến đầu ra. Với biến đầu ra nhận ba giá trị, mô hình MNLM nói chung tương đương với việc chạy ba mô hình logit nhị phân để so sánh biến đầu ra nhận giá trị 1 với giá trị 2, 1 với 3 và 2 với 3. Với 4 tính trạng của biến đầu ra, ta phải bổ sung thêm các so sánh đối với các cặp giá trị của biến đầu ra: 1 với 4, 2 với 4 và 3 với 4. Để giải thích mô hình rõ ràng hơn, ta xét mô hình với biến đầu ra có 3 tính trạng và một biến độc lập. Mô hình được thể hiện như một tập của ba mô hình logit nhị phân.

Để giải thích mô hình rõ ràng hơn, ta xét mô hình với biến đầu ra có 3 tính trạng và một biến độc lập. Mô hình được thể hiện như một tập của ba mô hình logit nhị phân.

Xét biến định danh y với các tính trạng A, B và C với NA, NB, NC là số quan sát tương ứng với mỗi tính trạng. Giả sử rằng chỉ có một biến độc lập

x. Chúng ta có thể phân tích mối quan hệ giữa x và y bằng việc chạy một chuỗi mô hình logit nhị phân. Để kiểm tra ảnh hưởng của biến x đối với tỉ số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất để biến đầu ra nhận tính trạng B, chúng ta chọn NA +NB quan sát tương ứng với biến đầu ra nhận các tính trạng A hoặc B và ước lượng mô hình logit đối với cặp tính trạng A và B là: ln Pr (A/x) Pr (B/x) =β0,A/B +β1,A/Bx (2.1)

Biến phụ thuộc là log của tỉ số giữa xác suất biến đầu ra nhận tính trạng A trên xác suất biến đầu ra nhận tính trạng B. Hệ số β được gắn chỉ số dưới

A/B để chỉ ra rằng, mô hình logit được xây dựng với cặp tính trạng A và B. Hệ số β1,A/B có thể được giải thích như sau: nếu tăng 1 đơn vị của biến độc lập x thì tỉ số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất để biến đầu ra nhận tính trạng B thay đổi bởi thừa số exp β1,A/B.

Mô hình đối với các cặp tính trạng còn lại có thể được phân tích một cách tương tự. Xét mô hình logit đối với biến đầu ra nhận cặp tính trạng B và C,

chọn NB +NC quan sát và ước lượng mô hình logit ln Pr (B/x) Pr (C/x) = β0,B/C +β1,B/Cx (2.2)

Chọn NA +NC số quan sát đối với mô hình gồm cặp tính trạng A và C, mô hình là ln Pr (A/x) Pr (C/x) = β0,A/C +β1,A/Cx (2.3)

Việc xây dựng cả ba mô hình trên là không cần thiết vì nếu chúng ta biết ảnh hưởng của biến độc lập xđối với tỉ số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất để biến nhận tính trạng B và ảnh hưởng của biến độc lập x đối với tỉ số giữa xác suất để biến đầu ra nhận tính trạng B trên xác suất để biến đầu ra nhận tính trạng C thì ảnh hưởng của biến độc lập x

đối với tỉ số giữa xác suất để biến nhận tính trạng A trên xác suất để biến nhận tính trạng C được xác định như sau:

ln Pr (A/x) Pr (B/x) + ln Pr (B/x) Pr (C/x) = ln Pr (A/x) Pr (C/x) (2.4)

Đẳng thức này được chứng minh khá đơn giản bằng dùng tính chất sau ln (a/b) = lna−lnb.

Đẳng thức (2.4) tương đương với đẳng thức sau:

β0,A/B +β1,A/Bx+β0,B/C +β1,B/Cx =β0,A/C +β1,A/Cx

Nếu xét riêng hệ số chặn và độ dốc một cách riêng biệt, ta có

β0,A/B +β0,B/C = β0,A/C

β1,A/B +β1,B/C = β1,A/C (2.5)

Do đó, có thể một vài mô hình là không cần thiết. Như ví dụ trên, ta thấy nếu biết kết quả của mô hình logit đối với cặp tính trạng A và B, kết quả của mô hình đối với cặp tính trạng B và C, thì ta sẽ đưa ra được kết quả của mô hình giữa tính trạng A và C như (2.5).

Tuy nhiên, có một vấn đề là đẳng thức (2.5) mô tả mối quan hệ tất yếu giữa các tham số một cách lý thuyết. Nó sẽ không thỏa mãn với ước lượng từ mẫu của ba mô hình logit. Lí do rất đơn giản: ba mô hình dựa trên ba mẫu khác nhau. Mẫu đầu tiên có NA +NB quan sát, mẫu thứ hai có NB + NC quan sát và mẫu thứ ba có NA +NC quan sát. Trong mô hình logit đa thức, tất cả các mô hình logit nhị phân được ước lượng đồng thời, điều này làm mạnh

mối quan hệ logic giữa các tham số của các mô hình và dữ liệu được sử dụng hiệu quả hơn. Tuy nhiên, ý tưởng coi mô hình logit đa thức như sự liên kết của một tập các mô hình logit nhị phân vẫn rất đúng đắn.

2.2 Mô hình logit đa thức

Mô hình MNLM bắt đầu bằng việc xem xác suất của mỗi biến đầu ra như là một hàm phi tuyến của các biến độc lập. Sau đó, vấn đề nhận dạng được giải quyết. Mô hình xác suất phi tuyến này sẽ đưa tới một mô hình tuyến tính đối với log của tỉ số giữa xác suất của các tính trạng của biến phụ thuộc. Dạng mô hình này, ta vừa mới xem xét ở trên.

Hai phương pháp giải thích được đưa ra là: biến đổi gián đoạn về xác suất và nhân tố làm thay đổi tỉ số này được xem xét. Trong khi những phương pháp này cơ bản giống nhau đối với việc dùng các mô hình logit nhị phân, những xác suất và tỉ số liên quan đòi hỏi đưa ra các đồ thị để tóm tắt các kết quả. Cụ thể, ta dùng ví dụ về các loại nghề nghiệp.

Năm 1982, trong cuộc điều tra xã hội, mỗi người được yêu cầu trả lời câu hỏi để xác định nghề nghiệp của họ. Những nghề nghiệp được mã hóa tương ứng với những tính trạng về nghề nghiệp và sử dụng mô hình MNLM để phân tích. Trong mẫu gồm 337 người đàn ông được hỏi, nghề nghiệp của họ được chia thành các nhóm với tỉ lệ tương ứng như sau: người giúp việc gia đình (9%), công nhân bậc thấp (21%), thợ thủ công (25%), công nhân bậc cao (12%) và chuyên viên trình độ cao (33%). Có ba biến độc lập được kì vọng ảnh hưởng tới xác suất của các tính trạng phân biệt. Biến thứ nhất: chủng tộc, biến này được xem như biến giả nhận giá bằng 1 nếu câu trả lời là người da trắng và bằng 0 trong các trường hợp còn lại. Biến thứ 2 là số năm đi học và biến thứ 3 là thâm niên làm việc. Mô tả thống kê và tóm tắt đối với 3 biến đó được cho trong Bảng 2.1

2.2.1 Mô hình MNLM được xét như mô hình xác suất

Gọiy là biến phụ thuộc nhận J tính trạng định danh. Các tính trạng được đánh số từ 1 tới J, nhưng không được coi là có thứ tự. Đặt Pr (y =m/x) là xác suất của biến quan sát nhận giá trị m với điều kiện x cho trước. Một mô hình xác suất đối với biến y có thể được xây dựng như sau:

1. Giả sử rằng, Pr (y = m/x) ) là một hàm tuyến tính của các biến độc lập. Vectơ βm = (β0m, . . . , βkm, . . . , βKm)0 bao gồm hệ số chặn β0m và các hệ số dốc βkm thể hiện ảnh hưởng của xk đối với khả năng biến đầu ra nhận giá trị bằng m. Đối lập với mô hình logit thứ tự, các hệ số βm

khác nhau khi biến đầu ra nhận các giá trị khác nhau. Ví dụ, hệ số về ảnh hưởng của giáo dục đối với xác suất của tính trạng nghề nghiệp là công nhân bậc thấp khác với hệ số ảnh hưởng của giáo dục đối với tính trạng nghề nghiệp là thợ thủ công.

2. Để cho xác suất không âm, chúng ta lấy mũ cơ số e của xβm. Khi đó kết quả là không âm nhưng tổng PJj=1exp (xβj) có thể không bằng 1. 3. Để làm cho xác suất có tổng bằng 1, ta chia exp (xβm)cho PJj=1exp (xβj).

Pr (yi = m/xi) = exp (xiβm)

PJ

j=1exp (xβm) (2.6)

Với việc chuẩn hóa này, ta có PJ

j=1Pr (y = m/x) = 1.

Bây giờ xác suất có tổng bằng 1 nhưng chúng ta vẫn không xác định được mô hình vì có hơn một tập tham số mà các tập tham số này sinh ra cùng một giá trị xác suất của biến quan sát. Để thấy rõ điều này, ta có thể nhân phương trình (2.6) với exp (xτ)/exp (xτ). Vì ta nhân với 1 nên giá trị xác suất không đổi

Pr (yi = m/xi) = exp (xiβm) PJ j=1exp (xβm). exp (xiτ) exp (xiτ) = exp (xi[βm+τ]) PJ j=1exp (xi[βj +τ]) Trong khi xác suất không đổi nhưng tập tham số ban đầu βm được thay bởi tập tham số βm+τ. Như vậy, với mỗi τ khác 0, có một tập tham số khác và nó có cùng xác suất dự báo với tập tham số ban đầu. Nghĩa là, mô hình là vô định.

Để xác định mô hình, ta bắt buộc đưa vào các ràng buộc đối vớiβ. Có hai loại ràng buộc thường được dùng. Đầu tiên là ràng buộc PJj=1βj, thường được

dùng với mô hình log tuyến tính phân cấp (hierarchical log- linear model). Thứ 2, phổ biến hơn với mô hình MNLM, là ràng buộc một trong cácβ bằng 0. Ví dụ β1 = 0 hoặc βJ = 0 Việc chọn lựa ràng buộc là tùy ý và ta có thể giả sử rằng

β1 = 0 Khi thêm ràng buộc này, mô hình mới là

Pr (yi = m/xi) = exp (xiβm)

PJ

j=1exp (xβj), β1 = 0

(2.7)

Vì exp(xβ1) = 1, mô hình thường này được viết như sau

Pr (yi = 1/xi) = 1

1 +PJj=2exp (xβj)

Pr (yi =m/xi) = exp (xiβm)

1 +PJj=2exp (xβj), m > 1

2.2.2 Mô hình MNLM như một mô hình tỉ số

Mô hình MNLM có thể được thể hiện bằng mô hình tỉ số giữa xác suất của các biến đầu ra như được thể hiện trong phần 2.1. Tỉ số giữa xác suất để biến đầu ra nhận giá trị m trên xác suất để biến đầu ra nhận giá trị n với

x cho trước, được kí hiệu bởi Ωm\n(x) và bằng: Ωm\n(x) = Pr (y = m/xi) Pr (y = n/xi) = exp(xiβm) PJ j=1exp(xiβj) exp(xiβn) PJ j=1exp(xiβj) = exp (xiβm) exp (xiβn). Dùng tính chất của hàm mũ ta có kết quả sau

Ωm\n(xi) = exp (xi[βm −βn]) Lấy log của phương trình trên ta có

ln Ωm\n(xi) = xi[βm −βn].

Hiệu βm−βn được gọi là hệ số tương phản (contrast) và nó là ảnh hưởng của biến x đối với log của tỉ số giữa xác suất để biến đầu ra nhận giá trị m

Vì mô hình là tuyến tính đối với log của tỉ số xác suất nên ta có thể dễ dàng tính được đạo hàm riêng theo các biến như sau

∂ln Ωm\n(x) ∂xk = ∂x(βm−βn) ∂xk = ∂xβm ∂xk − ∂xβn ∂xk = βkm−βkn

Điều này cho phép ta lí giải như sau:

• Khi xk thay đổi một đơn vị, log của tỉ số giữa xác suất để biến đầu ra nhận giá trị m trên xác suất để biến đầu ra nhận giá trị n được kì vọng thay đổi βkm−βkn đơn vị, với các biến khác nhận giá trị không đổi nào đó.

Vì β1 = 0 nên phương trình so sánh với biến đầu ra nhận giá trị bằng 1 được đơn giản hóa như sau:

ln Ωm\n(xi) =xiβm

Do đó, với ràng buộc nhận dạng β1 = 0 thì βkm là ảnh hưởng của xk đối với log của tỉ số xác suất giữa biến đầu ra nhận giá trị m trên xác suất biến đầu ra nhận giá trị 1:

• Khi xk thay đổi một đơn vị, log của tỉ số giữa xác suất để biến đầu ra nhận giá trị m trên xác suất để biến nhận giá trị 1 được kì vọng thay đổi βkm đơn vị, với điều kiện mỗi biến khác nhận một giá trị không đổi nào đó.

Lí giải này của βkm là đơn giản vì ảnh hưởng của một đơn vị biến đổi của xk

đối với log của tỉ số xác suất không phụ thuộc vào giá trị củaxk hoặc giá trị của các biến khác.

2.2.3 Mô hình logit đa thức như mô hình lựa chọn rời rạc

Mô hình lựa chọn rời rạc dựa trên nguyên tắc là một cá thể sẽ lựa chọn giá trị của biến đầu ra sao cho cực đại hóa lợi ích thu được từ chọn lựa đó. Đơn giản, giả sử rằng có hai lựa chọn được đánh số là 1 và 2. Gọi u1 là lợi ích từ việc lựa chọn 1 và u2 là lợi ích từ việc lựa chọn 2. Một người nào đó sẽ chọn 1 nếu u1 > u2 và chọn lựa 2 khi u2 > u1, giả sử không có sự trùng lặp của các lựa chọn. Mỗi người sẽ có lí theo nghĩa lựa chọn đem lại lợi ích

Một phần của tài liệu Phân tích thống kê chất lượng gỗ và các vấn đề liên quan (Trang 29)

Tải bản đầy đủ (PDF)

(73 trang)