Mục tiêu của hồi qui Logit là nghiên cứu mối tương quan giữa một (hay nhiều) yếu tố nguy cơ (risk factor) và đối tượng phân tích (outcome). Chẳng hạn như đối với nghiên cứu mối tương quan giữa thói quen hút thuốc lá và nguy cơ mắc ung thư phổi thì yếu tố nguy cơ ở đây là thói quen hút thuốc lá và đối tượng phân tích ở đây là nguy cơ mắc ung thư phổi. Đối với bài luận này, tác giả nghiên cứu mối tương quan giữa các đặc điểm cơng ty với đối tượng phân tích là khả năng chi trả cổ tức. Trong hồi qui logit thì các đối tượng nghiên cứu thường được thể hiện qua các biến số nhị phân (binary) như xảy ra/ không xảy ra ; chết/sống ; có/khơng,… cịn các yếu tố nguy cơ có thể được thể hiện qua các biến số liên tục (tuổi, huyết áp,…) hoặc các biến nhị phân (giới tính) hay các biến thứ bậc (thu nhập : Cao, trung bình, thấp). Vấn đề đặt ra cho nghiên cứu dạng này là làm sao để ước tính độ tương quan của các yếu tố nguy cơ và đối tượng phân tích. Các phương pháp phân tích như hồi qui tuyến tích khơng áp dụng được vì biến phụ thuộc không phải là biến liên tục mà là biến nhị phân. Nhà thống kê học David R. Cox đã phát triển mơ hình có tên Logistic Regression Model (1970s) để phân tích các biến nhị phân.
Tham số tỷ số nguy cơ (Odds Ratio - OR)
Chỉ số thống kê quan trọng trong hồi qui Logistic là tỷ số nguy cơ (Odds Ratio – OR). Trong tiếng anh odd có nghĩa là nguy cơ hay khả năng. Nói cách khác odd là tỷ số của 2 giá trị của một biến nhị phân. Do đó, OR là tỷ số của hai odds.
Công thức chung của mơ hình hồi qui logit như sau
Gọi p là xác suất của một sự kiện Khi đó odd được định nghĩa như sau :
Gọi yếu tố nguy cơ là x (ví dụ như x là tình trạng cơng ty chi trả cổ tức, x có 2 giá trị là 0 và 1. x =0 : không chi trả cổ tức và x=1 : chi trả cổ tức)
Mơ hình hồi qui logistic phát biểu rằng log(odd) phụ thuộc vào giá trị của x qua một hàm số tuyến tính sau :
log(odd) = hay log (1)
trong đó, log(odd) hay log được gọi là logit(p) (và do đó mới có tên là logistic). và là 2 tham số được ước tính từ dữ liệu, là phần dư (Residual) tức là phần khơng giải thích được bằng x. Lý do chuyển p thành logit(p) vì p là xác suất có giá trị trong khoảng 0,1 trong khi đó logit(p) có giá trị không giới hạn thích hợp cho việc phân tích theo mơ hình hồi qui tuyến tính.
Mơ hình trên giả định rằng tuân theo luật phân phối chuẩn (normal distribution) với trung bình bằng 0 và phương sai khơng đổi. Với giả định này thì giá
trị kỳ vọng (expected value) hay giá trị trung bình của log với bất cứ giá trị nào của x là
log vì giá trị trung bình của =0) Nói cách khác, odd từ phương trình (1) là
Như vậy, mơ hình hồi qui logistic phát biểu rằng odd của một sự kiện (khả năng chi trả cổ tức) tùy thuộc vào yếu tố nguy cơ x (tình trạng các đặc điểm cơng ty)
Dự đốn với logit regression
Mơ hình hồi qui logit tổng quát với k yếu tố nguy cơ x1,x2,…xk được mơ tả bởi phương trình sau:
Trong đó, z được định nghĩa như sau:
Trong đó:
α : hệ số chặn (intercept). Giá trị của z khi tất cả các biến độc lập bằng 0
β1, β2, …βk: hệ số hồi qui (regression cofficients) của các yếu tố nguy cơ (còn gọi là
biến độc lập) x1, x2,…, xk. Hệ số hồi qui cho biết độ mạnh cũng như chiều của sự ảnh hưởng của các yếu tố nguy cơ đến xác suất xảy ra sự kiện nghiên cứu. Nếu hệ số hồ qui dương thì yếu tố nguy cơ làm tăng khả năng (xác suất) xảy ra của sự kiện nghiên cứu và ngược lại.
Đồ thị của hồi qui logit có trục hồnh là giá trị của z và trục tung là giá trị của f(z) (xác suất xảy ra sự kiện). z có thể nhận giá trị bất kỳ âm hoặc dương nhưng f(z) chỉ nhận giá trị trong khoảng 0 và 1. z dùng để mô tả ảnh hưởng của tất cả các biến độc lập (yếu tố nguy cơ – risk factor) đến đối tượng nghiên cứu (outcome) và f(z) là xác suất sự kiện xảy ra.