3.2 Mẫu và mô tả biến
3.3.1 Mơ hình Random Effects Logistic Regression
Các mơ hình hồi quy được đề cập từ trước tới nay đều có biến phụ thuộc là biến định lượng. Tuy nhiên trong một vài trường hợp biến phụ thuộc là biến định tính, lúc này biến phụ thuộc được xem như một biến giả hay còn gọi là biến nhị phân và nhận giá trị là 0 hoặc 1.
Để phân tích các biến nhị phân, David R.Cox đã phát triển mơ hình có tên Logistic Regression Model (1970s). Mục tiêu của hồi qui Logistic là nghiên cứu mối tương quan giữa một (hay nhiều) yếu tố nguy cơ (risk factor) và đối tượng phân tích (outcome), trong đó các đối tượng nghiên cứu thường được thể hiện qua các biến số nhị phân (binary) như xảy ra/ khơng xảy ra cịn các yếu tố nguy cơ có thể được thể hiện
qua các biến số liên tục, biến nhị phân và biến thứ bậc.
Gọi p là xác suất của một sự kiện và odd là tỷ số hai giá trị của một biến số nhị phân:
odd= 𝑝 1−𝑝
Gọi x là quyết định thực hiện đầu tư và x có hai giá trị: 0 có nghĩa là xảy ra đầu tư và 1 biểu hiện cho việc thực hiện đầu tư. Mơ hình hồi qui logistic phát biểu rằng log(odd) tùy thuộc vào giá trị của x qua một hàm số tuyến tính gồm 2 thông số như sau:
log(odd)= 𝑎 + 𝑘𝑘=1𝛽kxkit + 𝜀𝑖 với 𝜀𝑖 ~ 𝑁(0,𝜎𝜀2
) hay log( 𝑝
1−𝑝) = 𝑎 + 𝑘𝑘=1𝛽kxkit + 𝜀𝑖 với 𝜀𝑖 ~ 𝑁(0,𝜎𝜀2
) Trong đó, log(odd) hay log ( 𝑝
1−𝑝) còn được gọi là logit(p) (do đó mới có tên logistic); 𝑎 và β là hai thông số cần ước tính từ dữ liệu. Lý do hoán đổi từ p thành
logit(p) là vì p có giá trị trong khoảng 0 và 1, trong khi đó logit(p) có giá trị vơ hạn và do đó thích hợp cho việc phân tích theo mơ hình hồi qui tuyến tính. Mơ hình trên giả định rằng ε là sai số ngẫu nhiên tuân theo luật phân phối chuẩn (normal distribution) với trung bình bằng 0 và phương sai không đổi (constant variance). Với giả định này, giá trị kì vọng (expected value) hay giá trị trung bình của log ( 𝑝
1−𝑝) cho bất cứ giá trị nào của x là: là 𝑎 +βx (vì giá trị trung bình của ε là 0).