Mơ hình logit đa thức

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan (Trang 35 - 39)

2 Mơ hình logit đa thức đối với biến đầu ra định danh và các mơ hình

2.2 Mơ hình logit đa thức

Mơ hình MNLM bắt đầu bằng việc xem xác suất của mỗi biến đầu ra như là một hàm phi tuyến của các biến độc lập. Sau đó, vấn đề nhận dạng được giải quyết. Mơ hình xác suất phi tuyến này sẽ đưa tới một mơ hình tuyến tính đối với log của tỉ số giữa xác suất của các tính trạng của biến phụ thuộc. Dạng mơ hình này, ta vừa mới xem xét ở trên.

Hai phương pháp giải thích được đưa ra là: biến đổi gián đoạn về xác suất và nhân tố làm thay đổi tỉ số này được xem xét. Trong khi những phương pháp này cơ bản giống nhau đối với việc dùng các mơ hình logit nhị phân, những xác suất và tỉ số liên quan địi hỏi đưa ra các đồ thị để tóm tắt các kết quả. Cụ thể, ta dùng ví dụ về các loại nghề nghiệp.

Năm 1982, trong cuộc điều tra xã hội, mỗi người được yêu cầu trả lời câu hỏi để xác định nghề nghiệp của họ. Những nghề nghiệp được mã hóa tương ứng với những tính trạng về nghề nghiệp và sử dụng mơ hình MNLM để phân tích. Trong mẫu gồm 337 người đàn ơng được hỏi, nghề nghiệp của họ được chia thành các nhóm với tỉ lệ tương ứng như sau: người giúp việc gia đình (9%), cơng nhân bậc thấp (21%), thợ thủ cơng (25%), cơng nhân bậc cao (12%) và chun viên trình độ cao (33%). Có ba biến độc lập được kì vọng ảnh hưởng tới xác suất của các tính trạng phân biệt. Biến thứ nhất: chủng tộc, biến này được xem như biến giả nhận giá bằng 1 nếu câu trả lời là người

da trắng và bằng 0 trong các trường hợp còn lại. Biến thứ 2 là số năm đi học và biến thứ 3 là thâm niên làm việc. Mô tả thống kê và tóm tắt đối với

2.2.1 Mơ hình MNLM được xét như mơ hình xác suất

Gọiy là biến phụ thuộc nhận J tính trạng định danh. Các tính trạng được đánh số từ 1 tới J, nhưng khơng được coi là có thứ tự. Đặt Pr (y =m/x) là xác suất của biến quan sát nhận giá trị m với điều kiện x cho trước. Một mơ hình xác suất đối với biến y có thể được xây dựng như sau:

1. Giả sử rằng, Pr (y = m/x) ) là một hàm tuyến tính của các biến độc lập. Vectơ βm = (β0m, . . . , βkm, . . . , βKm)0 bao gồm hệ số chặn β0m và các hệ số dốc βkm thể hiện ảnh hưởng của xk đối với khả năng biến đầu ra nhận giá trị bằng m. Đối lập với mơ hình logit thứ tự, các hệ số βm

khác nhau khi biến đầu ra nhận các giá trị khác nhau. Ví dụ, hệ số về ảnh hưởng của giáo dục đối với xác suất của tính trạng nghề nghiệp là cơng nhân bậc thấp khác với hệ số ảnh hưởng của giáo dục đối với tính trạng nghề nghiệp là thợ thủ cơng.

2. Để cho xác suất không âm, chúng ta lấy mũ cơ số e của xβm. Khi đó kết quả là khơng âm nhưng tổng PJj=1exp (xβj) có thể khơng bằng 1.

3. Để làm cho xác suất có tổng bằng 1, ta chia exp (xβm)cho PJj=1exp (xβj). Pr (yi = m/xi) = PJexp (xiβm)

j=1exp (xβm) (2.6)

Với việc chuẩn hóa này, ta có PJj=1Pr (y = m/x) = 1.

Bây giờ xác suất có tổng bằng 1 nhưng chúng ta vẫn khơng xác định được mơ hình vì có hơn một tập tham số mà các tập tham số này sinh ra cùng một giá trị xác suất của biến quan sát. Để thấy rõ điều này, ta có thể nhân phương trình (2.6) với exp (xτ)/exp (xτ). Vì ta nhân với 1 nên giá trị xác

suất khơng đổi

Pr (yi = m/xi) = PJexp (xiβm)

j=1exp (xβm). exp (xiτ) exp (xiτ) = exp (xi[βm+τ]) PJ j=1exp (xi[βj +τ])

Trong khi xác suất không đổi nhưng tập tham số ban đầu βm được thay bởi tập tham số βm+τ. Như vậy, với mỗi τ khác 0, có một tập tham số khác và nó có cùng xác suất dự báo với tập tham số ban đầu. Nghĩa là, mơ hình là vơ định.

Để xác định mơ hình, ta bắt buộc đưa vào các ràng buộc đối vớiβ. Có hai loại

dùng với mơ hình log tuyến tính phân cấp (hierarchical log- linear model). Thứ 2, phổ biến hơn với mơ hình MNLM, là ràng buộc một trong cácβ bằng 0. Ví dụ β1 = 0 hoặc βJ = 0 Việc chọn lựa ràng buộc là tùy ý và ta có thể giả sử rằng

β1 = 0

Khi thêm ràng buộc này, mơ hình mới là

Pr (yi = m/xi) = PJexp (xiβm)

j=1exp (xβj), β1 = 0

(2.7)

Vì exp(xβ1) = 1, mơ hình thường này được viết như sau

Pr (yi = 1/xi) = 1

1 +PJj=2exp (xβj) Pr (yi =m/xi) = exp (xiβm)

1 +PJj=2exp (xβj), m > 1

2.2.2 Mơ hình MNLM như một mơ hình tỉ số

Mơ hình MNLM có thể được thể hiện bằng mơ hình tỉ số giữa xác suất của các biến đầu ra như được thể hiện trong phần 2.1. Tỉ số giữa xác suất để biến đầu ra nhận giá trị m trên xác suất để biến đầu ra nhận giá trị n với

x cho trước, được kí hiệu bởi Ωm\n(x) và bằng:

Ωm\n(x) = Pr (y = m/xi) Pr (y = n/xi) = exp(xiβm) PJ j=1exp(xiβj) exp(xiβn) PJ j=1exp(xiβj) = exp (xiβm) exp (xiβn).

Dùng tính chất của hàm mũ ta có kết quả sau

Ωm\n(xi) = exp (xi[βm −βn])

Lấy log của phương trình trên ta có

ln Ωm\n(xi) = xi[βm −βn].

Hiệu βm−βn được gọi là hệ số tương phản (contrast) và nó là ảnh hưởng của biến x đối với log của tỉ số giữa xác suất để biến đầu ra nhận giá trị m

Vì mơ hình là tuyến tính đối với log của tỉ số xác suất nên ta có thể dễ dàng tính được đạo hàm riêng theo các biến như sau

∂ln Ωm\n(x) ∂xk = ∂x(βm−βn) ∂xk = ∂xβm ∂xk − ∂xβn ∂xk = βkm−βkn

Điều này cho phép ta lí giải như sau:

• Khi xk thay đổi một đơn vị, log của tỉ số giữa xác suất để biến đầu ra nhận giá trị m trên xác suất để biến đầu ra nhận giá trị n được kì vọng thay đổi βkm−βkn đơn vị, với các biến khác nhận giá trị khơng đổi nào đó.

Vì β1 = 0 nên phương trình so sánh với biến đầu ra nhận giá trị bằng 1 được đơn giản hóa như sau:

ln Ωm\n(xi) =xiβm

Do đó, với ràng buộc nhận dạng β1 = 0 thì βkm là ảnh hưởng của xk đối với

log của tỉ số xác suất giữa biến đầu ra nhận giá trị m trên xác suất biến đầu ra nhận giá trị 1:

• Khi xk thay đổi một đơn vị, log của tỉ số giữa xác suất để biến đầu ra nhận giá trị m trên xác suất để biến nhận giá trị 1 được kì vọng thay đổi βkm đơn vị, với điều kiện mỗi biến khác nhận một giá trị khơng đổi nào đó.

Lí giải này của βkm là đơn giản vì ảnh hưởng của một đơn vị biến đổi của xk

đối với log của tỉ số xác suất không phụ thuộc vào giá trị củaxk hoặc giá trị của các biến khác.

2.2.3 Mơ hình logit đa thức như mơ hình lựa chọn rời rạc

Mơ hình lựa chọn rời rạc dựa trên nguyên tắc là một cá thể sẽ lựa chọn giá trị của biến đầu ra sao cho cực đại hóa lợi ích thu được từ chọn lựa đó. Đơn giản, giả sử rằng có hai lựa chọn được đánh số là 1 và 2. Gọi u1 là lợi ích từ việc lựa chọn 1 và u2 là lợi ích từ việc lựa chọn 2. Một người nào đó sẽ chọn 1 nếu u1 > u2 và chọn lựa 2 khi u2 > u1, giả sử khơng có sự trùng lặp của các lựa chọn. Mỗi người sẽ có lí theo nghĩa lựa chọn đem lại lợi ích đạt được là lớn nhất.

Lợi ích đạt được từ sự lựa chọn giá trị m với mỗi cá thể i phân biệt bằng:

Trong đó, µim là lợi ích trung bình của lựa chọn m với mỗi i phân biệt và

εim là sai số tương ứng với lựa chọn m. Xác suất để lựa chọn 1 là xác suất

để lợi ích từ lựa chọn 1 lớn hơn lợi ích từ lựa chọn 2:

Pr (yi = 1) = Pr (ui1 > ui2)

= Pr (µi1+εi1 > µi2+εi2) = Pr (εi1−εi2 > ui2−ui1)

Khi có J lựa chọn, xác suất để chọn m là

P r(y = m) = P r(um > ui), i 6= m.

Ví dụ, xác suất của việc lựa chọn công việc thủ cơng bằng xác suất lợi ích có được từ lựa chọn đó khi lợi ích này lớn hơn tất cả lợi ích của các lựa chọn nghề nghiệp khác.

Dạng cụ thể của mơ hình lựa chọn rời rạc được xác định bởi giả thiết về phân phối của sai số ε và sự xác định lợi ích trung bình µm, liên quan đến các biến được đo lường. Để đưa ra mơ hình MNLM, ta cho lợi ích trung bình là tổ hợp tuyến tính của các biến độc lập:

µim = xiβm

McFadden (1973) chứng minh rằng mơ hình MNLM có hiệu quả khi và chỉ khi các sai số là độc lập và có dạng phân phối giá trị cực trị loại 1 với hàm mật độ

f (ε) = exp [−ε−exp (−ε)]

Phân phối này trông giống như đường cong chuẩn nhưng lệch về bên phải, có đi trái mỏng hơn và có đi phải dày hơn. Phân phối này có mode bằng 0, trung bình là 0,58 và độ lệch chuẩn là 1,28.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan (Trang 35 - 39)

Tải bản đầy đủ (PDF)

(75 trang)