Dữ liệu thứ tự là loại dữ liệu thường gặp nhất trong khoa học xã hội. Dữ liệu điều tra mà người trả lời được yêu cầu bày tỏ ý kiến của họ về các phạm vi khác nhau từ “không đồng ý ” đến “rất đồng ý” là một ví dụ phổ biến của loại dữ liệu này. Việc xác định các thuộc tính của dữ liệu thứ tự có tồn tại một thứ tự rõ ràng của các loại đáp ứng. Ví dụ giả định một thứ tự có hình thức:
Rất khơng đồng ý < Khơng đồng ý < Khơng có ý kiến gì < Đồng ý < Rất đồng ý.
Tuy nhiên nếu ta gán các giá trị cụ thể cho các mức độ trên, ví dụ như gán “Rất không đồng ý ” = 1; “Không đồng ý” = 2 thì kết quả “Khơng đồng ý” –“Rất khơng đồng ý” là khơng có ý nghĩa gì.
Cách tự nhiên nhất để xem xét dữ liệu thứ tự là giả định sự tồn tại của một biến ẩn (không quan sát được) Y* liên kết với mỗi biến quan sát được Y. Các biến ẩn này thường được giả sử là rút ra từ một hàm phân phối liên tục.
Xem xét về dữ liệu thứ tự được minh họa trong chương 2 cho các kết quả thi đậu/thi trượt, chúng ta đã biểu diễn logit của xác suất thi đậu là một hàm tuyến tính của số điểm SAT-M:
Log (
) = β0 + β1 SAT-Mi .
Từ góc độ biến ẩn, trong mơ hình này chúng ta đã kết hợp một biến ẩn với mỗi sinh viên mà phân phối của biến này thuộc phân phối logistic.
Hình 3.1: Hàm mật độ logistic thể hiện phân phối của các biến ẩn.
Trong việc mơ hình hóa sự kiện một sinh viên thi đậu hay thi trượt, chúng ta giả sử rằng nếu : Y* < 0 (Y = 0) thì sinh viên đó được xem như là thi trượt; nếu Y* >0 (Y = 1) thì sinh viên đó được coi là thi đậu.
Một sự giải thích hình học giống hệt được mở rộng cho dữ liệu thứ tự khi chúng ta thêm vào các điểm cắt. Trong kiểu thi đậu/ thi trượt của mơ hình nhị phân đã xét trong chương 2, điểm 0 biểu diễn cho điểm cắt đối với mức thi đậu. Đối với 5 mức
điểm (A, B, C, D, F) của lớp học thống kê, chúng ta phải đưa vào 4 mức điểm cắt. Bởi vì các mức điểm là được sắp thứ tự, nên chúng ta phải đặt vào một ràng buộc trên các giá trị của các mức điểm cắt. Giả sử γ1 là điểm cắt trên ứng với mức điểm nhận được là F, γ2 là điểm cắt trên ứng với mức điểm nhận được là D, γ3 là điểm cắt trên ứng với mức điểm nhận được là C, γ4 là điểm cắt trên ứng với mức điểm nhận được là B, γ5 là điểm cắt trên ứng với mức điểm nhận được là A. Một ràng buộc đối với các mức điểm cắt này là:
− < γ1 ≤ γ2 ≤ γ3 ≤ γ4 ≤ γ5 ≡ . Để thuận tiện, ta kí hiệu γ0 = - .
Trên đồ thị, ta mơ hình hóa xác suất mà các sinh viên trong lớp học thống kê nhận được các mức điểm A – F như sau:
Hình 3.2: Hàm mật độ logistic biểu diễn cho phân phối của các khả năng tiềm ẩn.
Giả sử rằng một biến ngẫu nhiên được rút ra từ hàm mật độ trên, và giá trị của biến ngẫu nhiên này sẽ quyết định đến sự phân loại điểm của một sinh viên.
Từ hình 3.2 chúng ta có thể nghĩ tới một biến ẩn với hình thức:
Y* = β + ε ,
trong đó: ε là một biến ngẫu nhiên được rút ra từ một hàm phân bố logistic chuẩn. Khi γc-1 Y* γc thì Y được phân loại vào mức c.
Giả sử f biểu thị hàm mật độ của phân phối logistic chuẩn và F biểu thị hàm phân
phối logistic. Kí hiệu pic là xác suất để Yi với các đặc điểm xi rơi vào hạng mục c. Ta có: pic = Pr(Yi = c| xi) = Pr(γc-1 Yi* < γc| xi) = Pr(γc-1 β + εi < γc| xi) = Pr(γc - β εi < γc-1 - β | xi) = F(γc - β ) - F(γc-1 - β ). Vậy ta có kết quả: pic = F(γc - β) - F(γc-1 - β). (3.1) Chú ý rằng: Trong công thức (3.1): F (γ0 - β) = F (- ) = 0 và F (γC - β) = F ( ) = 1.
Như vậy, công thức biến ẩn đưa ra một mơ hình cho xác suất mà một sinh viên nhận được một mức điểm cụ thể trong lớp học thống kê.
Tuy nhiên, các mơ hình hồi quy thứ tự thường được định rõ bởi xác suất tích lũy tốt hơn là các xác suất hạng mục riêng lẻ. Nếu chúng ta định nghĩa:
là xác suất mà Yi được đặt vào hạng mục c hoặc thấp hơn, thì thành phần hồi quy của một mơ hình thứ tự (3.1) có thể được viết lại như sau:
θic = F (γ1 - β) - F(γ0 - β) + …+ F(γc - β) - F(γc - 1 - β) = F(γc - β) - F(γ0 - β)
= F(γc - β) . (3.2) Ta xem xét 3 mơ hình hồi quy thứ tự phổ biến nhất với 3 hàm phân phối F khác nhau:
a. Mơ hình logit thứ tự.
Mơ hình này sử dụng F là hàm phân phối logistic tiêu chuẩn với hình thức: F(x) =
; − ∞ < x <∞.
Khi đó phương trình (3.2) trở thành: Log (
) = γc - β . (3.3) Chú ý rằng, dấu hệ số của yếu tố dự báo tuyến tính là (-) trái ngược với dấu của số này trong thiết lập hồi quy nhị phân.
Số chênh là tỷ số giữa xác suất để biến đầu ra nhận các giá trị nhỏ hơn hoặc bằng c trên xác suất để biến đó nhận giá trị lớn hơn c với x cho trước, tức là:
Ωc =
= exp(γc - β ).
Để xác định hiệu quả của biến độc lập x, xét 2 giá trị xi và xj. Tỷ số xác suất tại xi trên xác suất tại xj bằng:
Phương trình này rất dễ giải thích ý nghĩa thực tế, khi chỉ có một biến thay đổi. Ví dụ, nếu xk thay đổi một lượng δ, khi đó:
= exp[ – . Điều này được giải thích như sau:
Khi biến xk tăng lên δ đơn vị thì tỷ số giữa xác suất để biến đầu ra nhỏ hơn hoặc bằng c trên xác suất để biến đầu ra nhận giá trị lớn hơn c thay đổi một lượng bằng exp([ ) khi các biến độc lập khác được giữ nguyên tại một giá trị cố định nào đó.
b. Mơ hình log-log thứ tự.
Mơ hình này sử dụng F là hàm phân phối giá trị cực trị: F(x) = 1 − exp(− exp(x)), − ∞ < x <∞.
Khi đó, từ (3.2) ta nhận được:
Log [-log(1 - θ ic )] = γc - β. (3.4) c. Mơ hình probit thứ tự.
Với mơ hình probit thứ tự, hàm F được sử dụng để mơ phỏng xác suất tích lũy θ ic là hàm phân phối chuẩn chuẩn tắc. Với hàm liên kết như vậy, (3.2) trở thành:
Φ-1(θ ic) = γc - β. (3.5)