II.1 Mô hình lôgit
1. Giới thiệu chung về mô hình logit
Hồi quy logit đƣợc đề xuất lần đầu vào những năm 1940 nhƣ là một bản sửa đổi phƣơng pháp phân lớp của Fisher đƣa ra vào năm 1936 (phƣơng pháp phân tích tuyến tính rời rạc). Hồi quy này đƣợc sử dụng rộng rãi trong nhiều lĩnh vực nghiên cứu, bao gồm các lĩnh vực y học và khoa học xã hội. Ví dụ, hệ thống TRISS (Trauma and Injury Severity Score), hệ thống này đƣợc sử dụng rộng rãi nhằm dự báo nguy cơ tử vong của các bệnh nhân, đƣợc phát triển đầu tiên bởi tổ chức Boyd và các tổ chức khác bằng cách sử dụng hồi quy logit. Hồi quy logit thƣờng đƣợc sử dụng để dự báo hoặc bệnh nhân mắc bệnh (ví dụ nhƣ là bệnh tiểu đƣờng) dựa trên các đặc điểm thu thập đƣợc từ bệnh nhân (tuổi, giới tính, chỉ số cơ thể, xét nhiệm máu,…). Một ví dụ khác nhƣ là dự báo một ngƣời Mỹ có thể bỏ phiếu cho đảng dân chủ hay đảng cộng hòa, dựa trên độ tuổi, lợi ích, giới tính, dân tộc, cƣ trú, lá phiếu của những lần bầu cử trƣớc, vvv. Kỹ thuật này còn đƣợc sử dụng trong , đặc biệt là việc dự báo xác suất không thành công của một tiến trình, một hệ thống, một biến đổi nào đó. Nó còn đƣợc sử dụng trong các ứng dụng tiếp thị nhƣ là dự báo một khách hàng tiềm năng có thể trả tiền cho một sản phẩm nào đó hoặc là ngừng một dịch vụ nào đó, … Trong lĩnh vực kinh tế nó còn đƣợc dùng để dự báo xác suất điều kiện của một ngƣời đang chọn trong lĩnh vực lao động, và một ứng dụng thƣơng mại sẽ có thể dự báo xác suất điều kiện của một chủ sở hữu nào đó vỡ nợ cùng với khoản vay có tài sản thế chấp. Trong phƣơng pháp các điều kiện ngẫu nhiên (CRFs), một mở rộng của hồi quy logit đối với dữ liệu chuỗi, đã đƣợc sửa dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Hồi quy logit có thể là nhị thức hoặc là đa thức. Nhị thức hoặc hồi quy nhị phân quan tâm đến các tình huống mà có kết quả của biến phụ thuộc chỉ có thể rơi vào một trong hai giá trị (ví dụ nhƣ: chết hoặc sống). Hồi quy đa thức quan tâm đến các tình huống mà kết quả có thể rơi vào một trong ba hoặc có thể là trong nhiều hơn ba giá trị (ví dụ nhƣ: bệnh A, bệnh B, bệnh C). Trong hồi quy nhị phân, kết quả thƣờng đƣợc đƣa ra là “0” hoặc “1”, đây thƣờng là quy ƣớc rõ ràng nhất. Nếu một kết quả quan sát cụ thể cho biến độc lập là kết quả có khả năng thu hút sự chú ý (đƣợc tham chiếu tới nhƣ là một sự thành công hoặc là
một trƣờng hợp) nó thƣờng đƣợc gán là “1” và kết quả ngƣợc lại đƣợc gán là “0”. Hồi quy logit đƣợc sử dụng để dự báo Tỷ số odds của các trƣờng hợp đƣợc xây dựng dựa trên giá trị của các biến độc lập (các thành phần dự báo). Tỷ số odds là kết quả của phép toán chia xác suất của kết quả cụ thể nào đó bằng một cho xác suất để kết quả đó bằng 0.
Cũng giống nhƣ các thành phần khác của hồi quy phân tích, hồi quy logit đƣợc hình thành nên bởi một hoặc nhiều biến dự báo có thể có kiểu liên tục hoặc là kiểu dữ liệu gán nhãn.
Không giống nhƣ hồi quy tuyến tính thông thƣờng, hồi quy logit đƣợc sử dụng để dự báo các kết quả là nhị phân chứ không phải là các kết quả liên tục. Để mang đến sự khác biệt này, có một điều cần thiết là hồi quy logit phải lấy logarit cơ số tự nhiên của Tỷ số odds của biến phụ thuộc trong trƣờng hợp (đƣợc hiểu nhƣ là logit hoặc là log-odds) để tạo ra một tiêu chuẩn liên tục nhƣ là một phiên bản biến đổi của biến phụ thuộc. Vì vậy, biến đổi logit đƣợc nói đến nhƣ là hàm liên kết trong hồi quy logit – mặc dù biến phụ thuộc trong hồi quy logit là biến đa thức, giá trị logit là chỉ tiêu liên tục dựa trên hồi quy tuyến tính của nó đã đƣợc kiểm định.
Sự thành công của logit là nó phù hợp với các thành phần dự báo sử dụng phân tích hồi quy tuyến tính. Giá trị đƣợc dự báo bởi logit đƣợc chuyển ngƣợc lại Tỷ số odds thông qua hàm nghịch của hàm logarit cơ số tự nhiên, đó chính là hàm mũ cơ số E. Vì vậy, biến phụ thuộc đƣợc quan sát trong hồi quy logit là biến nhận giá trị 0 hoặc 1, hồi quy logit ƣớc lƣợng tỷ số ODDS, nhƣ là một biến liên tục. Trong một vài ứng dụng Tỷ số odds là tất cả những gì cần thiết. Ngoài ra, một dự báo rõ ràng có hoặc không là cần thiết tƣơng ứng với việc giá trị biến phụ thuộc là hoặc không là một trƣờng hợp nào đó; việc dự báo nhãn này có thể đƣợc dựa trên Tỷ số odds đã đƣợc tính toán của một trƣờng hợp thành công, với Tỷ số odds đƣợc dự báo trên một vài lựa chọn đƣợc loại bỏ giá trị chuyển dịch trong một dự báo của trƣờng hợp thành công.