Test χ 2 có nguy cơ sai lầm cao, khi 2 biến số đang được khảo sát chịu ảnh hưởng của một biến số thứ 3, vì vậy 1 biến số riêng lẻ có vai trò quan trọng nhưng lại có thể cho ra kết quả yế
Trang 1SPSS
Hồi quy logistic cho biến số nhị phân
BS Lê Đông Nhật Nam
Tài liệu hướng dẫn thống kê y học sử dụng SPSS
1
Trang 2Có thể bạn không tin, nhưng số phận của mỗi người giống như một mô hình hồi quy…
Năm 1999 cũng như tất cả học sinh lớp 12 khác, tôi phải đối diện với một thử thách quan trọng là kì thi tuyển sinh vào đại học Kết quả đậu hay rớt thường phụ thuộc vào biến số 3 môn học ,tùy theo ngành nghề bạn chọn
Vào thời gian đó Bộ Giáo Dục lại có quy định tuyển thẳng vào đại học những học sinh giỏi toàn diện trong năm lớp 12 Mùa hè năm 1998 khi nghe tin một nữ sinh hệ bán công (trình độ kém hơn nhiều so với hệ chính quy) được tuyển thẳng vào đại học, trong khi đàn anh đàn chị lớp chuyên, trường chuyên thi rớt hàng loạt, tôi thực sự bị sốc Sau nhiều đêm suy nghĩ tôi quyết định phải chọn con đường an toàn nhất cho mình Tôi xin ra khỏi lớp chuyên vào cuối hè và chuyển sang học một lớp trung bình Trong 90 ngày sau đó tôi đã lập kế hoạch vừa luyện thi khối A bên ngoài, vừa thỏa mãn giáo viên tất cả các môn học trong lớp , kể cả những môn mà tôi chán ghét nhất
Tôi nhận ra tham vọng đưa quá nhiều tham số vào phương trình « tuyển thẳng đại học » của mình lại tạo ra áp lực còn cao hơn so với một người chỉ luyện thi đơn giản Nhiều lúc tôi gần như phát khùng khi phải theo dõi bảng điểm của mình mỗi ngày để mô phỏng bốn năm giả thuyết khác nhau trước khi quyết định tập trung chữa cháy điểm số môn học A và hy sinh để cho 1 bài thi môn học B cháy rụi Cuối cùng, tôi cũng cân bằng được tất cả những biến số để cho ra kết quả tuyển thẳng, nhưng cái giá phải trả là ước mơ trở thành giáo viên môn Vật Lý của tôi tan thành mây khói khi tôi phải chiều lòng gia đình chọn học Y khoa
2 năm sau người ta hủy bỏ mô hình tuyển sinh này vì nó hoàn toàn sai lầm, nghiên cứu cho biết đa số học sinh được tuyển thẳng chỉ có kết quả trung bình khá ở giảng đường Mỗi năm họ lại thay đổi một mô hình mới, và học sinh chúng tôi buộc phải tự thích nghi với mô hình này
Trong tài liệu này chúng ta sẽ bàn về một vấn đề tương tự, khi phải dự báo liệu một biến cố sẽ xảy ra hay không, dựa trên quan sát về nhiều yếu tố khác
Phương pháp hồi quy logistic có nguyên tắc đơn giản, nhưng rất khó khi thực hiện cụ thể ; vì vậy ít tác giả ưa chuộng, áp dụng nó trong nghiên cứu Nhiều người trong chúng ta khi phải tính Odds-ratio cho yếu tố nguy cơ, đều dựa vào test χ2 cho từng biến số riêng lẻ Khi đối diện biến định lượng họ sẽ lái sang định tính để đi theo lối mòn bảng 2x2 Tôi hy vọng tài liệu hướng dẫn này sẽ hỗ trợ cho các bạn một công cụ khác mạnh hơn và chính xác hơn
Điều thú vị là khái niệm hồi quy logistic trong thống kê có vẻ kì lạ, nhưng trên lâm sàng các bác sĩ sử dụng hằng ngày quy trình này trong đầu của mình mà không hay biết, khi phải dựa vào sinh lý bệnh, triệu chứng học,kết quả xét nghiệm để xác định chẩn đoán, dự báo tiên lượng cho mỗi bệnh nhân Làm hồi quy logistic chỉ đơn giản là vẽ lại quy trình này trên giấy bằng con số
Tôi đã cố gắng đơn giản mọi thứ đến mức tối đa để bạn thấy thoải mái, dễ chịu nhất khi bắt tay vào thực hiện, vì tự mình làm luôn thú vị và
dễ hơn học lý thuyết
Chúc các bạn thành công
Lời nói đầu
Trang 3Quy ước trình bày
Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật
Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên
BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết
Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống kê …
Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách rất hồn nhiên và sống ngây thơ như trẻ con, vì vậy cô luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Cô ấy sẽ hướng dẫn các bạn sử dụng SPSS từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện rất đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích số liệu và thiết kế nghiên cứu
3
Trang 4109 trường hợp xuất huyết não do nhiều nguyên nhân
Câu hỏi nghiên cứu chính đặt ra là làm sao dựa vào các yếu tố dịch tễ, triệu chứng lâm sàng cũng như bệnh lý nền để dự báo biến cố tử vong trong thời gian nằm viện
Phương pháp đầu tiên hiện ra trong đầu tôi lúc này, đó là Hồi quy logistic
Đây là một mô hình hồi quy đặc biệt cho phép dự báo xác suất xảy ra một sự kiện nào đó, ví
dụ như tử vong dựa vào nhiều yếu tố dự báo Phương pháp này còn cho phép ta đánh giá vai trò, mức độ ảnh hưởng của từng yếu tố dự báo nhờ vào tỉ số Odds-ratio
Tuy nhiên cần cảnh báo trước: Hồi quy logistic là một phương pháp rất khó !
Trang 51 1.2 Giới thiệu phương pháp
Thưa thầy, nếu đã biết hồi quy logistic phức tạp, tại sao ta không thể dùng test χ 2 hay test chính xác Fisher dựa vào bảng 2x2 để khảo sát từng yếu tố nguy cơ ? Những phương pháp này dễ hơn và cũng tính được Odd-ratios mà ?
Bảo thân mến, nếu ở đây em chỉ có toàn biến định tính, ta sẽ cân nhắc dùng test χ 2 hay test Fisher như em nói Tuy nhiên ta lại có quá nhiều loại biến số, như định tính, định lượng liên tục
và thứ hạng; nên test χ 2 hay test chính xác Fisher không còn hữu dụng nữa.
Ta không nên lạm dụng hồi quy Logistic chỉ để tính Odds-ratio cho từng biến số đơn lẻ Mục đích thực sự của mô hình hồi quy là để dự báo Chỉ dùng công cụ phức tạp này cho những vấn
đề thực sự phức tạp, như thí dụ trên
Công dụng chính của mô hình hồi quy là dùng để dự báo Vì vậy việc tìm ra mô hình có ý nghĩa thống kê, phù hợp với dữ kiện quan sát hiện tại thôi chưa đủ, nó còn phải dự báo chính xác trong quần thể chung, tức có giá trị phổ quát Mô hình hiệu quả phải cho phép dự báo đúng cho bất kì trường hợp nào trong tương lai
Tuy nhiên, mô hình hồi quy logistic thường được các tác giả áp dụng với mục đích diễn dịch hơn là quy nạp, ta ít khi dùng nó thuần túy để dự báo, mà để nhận diện vai trò của một yếu tố
X (nguy cơ) nào đó góp phần hình thành một sự kiện Y Sự kiện được khảo sát thường có dạng biến số nhị phân (có/không), ví dụ : chẩn đoán có bệnh, tiên lượng sự xuất hiện biến chứng, tử vong…
Tài liệu này chỉ giới hạn ở việc áp dụng cho biến số nhị phân
Dĩ nhiên mô hình logistic còn có thể áp dụng cho các biến số nhiều giá trị (ví dụ bảng xếp loại, thang điểm)
X 1 X 2
X 3
Mô hình hồi quy logistic
Giá trị
X1,X2,X3
Giá trị Y (0 hay 1)
Dùng để dự báo xác suất xảy ra 1 sự kiện
Tại sao mô hình hồi quy logistic mạnh hơn test χ 2 và test chính xác Fisher ?
1 Những test này chỉ cho phép khảo sát từng biến số riêng lẻ, và chỉ áp dụng được cho biến số định tính, hoặc thứ hạng Trong khi đó, hồi quy logistic cho phép khảo sát cùng lúc nhiều biến số, bao gồm biến số định lượng liên tục, thứ hạng, biến nhị phân, và nhất là sự tương tác giữa chúng với nhau
2 Mô hình hồi quy logistic đo lường được độ mạnh của liên hệ đã chuẩn hóa giữa các yếu tố dự báo và 1 sự kiện, vai trò cụ thể của từng biến số, cho phép diễn giải kết quả dưới dạng tỉ số nguy cơ (odds ratio) Chỉ có hồi quy cho phép tính Odds-ratio cho 1 biến số định lượng liên tục
3 Test χ 2 có nguy cơ sai lầm cao, khi 2 biến số đang được khảo sát chịu ảnh hưởng của một biến số thứ 3, vì vậy 1 biến số riêng lẻ có vai trò quan trọng
nhưng lại có thể cho ra kết quả yếu đối với test χ 2 , trong khi mô hình hồi quy logistic đa biến cho phép ta vô hiệu hóa các yếu tố gây nhầm lẫn và tìm lại được vai trò thực sự của biến số này
Trang 6𝑃 𝑌 = 1
1 + 𝑒−(𝑏𝑜+𝑏1𝑥1+𝑏2𝑥2+𝑏3𝑥3+ε)
P(Y) là xác suất xảy ra sự kiện Y, P(Y) nhận giá trị từ 0-1
Y là giá trị dự báo và là biến nhị phân, chỉ nhận 1 trong 2 giá trị: =0 hay = 1
e là cơ số của logarit tự nhiên, hay hàm Exponential
Bo là hằng số của phương trình hồi quy
X1,x2,X3 là những biến số dự báo, có thể là biến liên tục, nhị phân hay thứ hạng
b1,b2,b3 là những tham số tương ứng cho từng biến số dự báo
ε là sai số
Mô hình hồi quy logistic có thể mở rộng, gồm n biến số (bn.xn)
Bạn có thể nhận ra phần màu xanh chính là 1 phương trình hồi quy tuyến tính bình thường như ta vẫn biết
Với 1 trường hợp (cá thể) cho trước, Yi có thể nhận 1 trong 2 giá trị : 0 (không xảy ra) và 1 (có xảy ra) Còn P(Yi) là 1 giá trị
nằm giữa 0 (tuyệt đối không thể) và 1 (chắc chắn xảy ra) P(Yi=1) là xác suất xảy ra sự kiện Y=1 cho cá thể i, Yi là giá trị thực
tế quan sát được ở cá thể i Kết quả dự báo của mô hình logistic là 1 xác suất, vì vậy nó sẽ dao động từ 0-1 P(Y) càng thấp
(gần 0) thì càng có ít khả năng xảy ra sự kiện Y Ngược lại P(Y) càng cao (gần 1) thì càng có nhiều khả năng xảy ra sự kiện Y
Tham số b sẽ được xác định sao cho giá trị Y gần với giá trị quan sát nhất có thể
Như ta biết, mô hình hồi quy tổng quát có dạng:
Giá trị dự báo = hằng số + tham số∗yếu tố dự báo + sai số
Nhưng chúng ta gặp trở ngại vì qui định giá trị dự báo phải có quan hệ tuyến tính với mỗi yếu tố dự báo, trong khi đó là điều không thể xảy ra khi giá trị dự báo của ta chỉ có 2 giá trị (0 hoặc 1) Vì thế ta phải chuyển dạng giá trị dự báo Y qua thang đo logarit (Ln(Y)), để nó có biến thiên liên tục Như vậy mô hình hồi quy logistic cũng phải được biểu diễn dưới dạng logarit hóa
Điểm thứ 2 cần lưu ý, đó là trong mô hình hồi quy logistic không phải ta dự báo cho bản thân giá trị của biến số Y (0 hay 1), nhưng ta dự báo xác suất cho việc Y nhận giá trị 0 hoặc 1
Trang 7(1)
(2)
(3)
Định tính nhị phân Định lượng liên tục
(outcome) là 1 biến số nhị phân
hệ số tau của Kendall
1.2 Giới thiệu phương pháp
Trang 8Thứ hạng
Tuổi : định lượng liên tục
Cao huyết áp: Định tính nhị phân
Mã hóa giá trị: 0= không /1= có
Điểm Glasgow: Định lượng liên tục
Rối loạn tri giác: Định tính nhị phân
Mã hóa giá trị: 0= không /1= có
Lệch đường giữa: Định tính nhị phân
Mã hóa giá trị: 0= không /1= có
Thể tích xuất huyết: Thứ hạng
Mã hóa: 1= Thấp/2= Trung bình/3= Cao
Trong công đoạn đầu tiên, các bạn sẽ tạo bảng số liệu, bao gồm khai báo biến số, dán nhãn ý nghĩa, quy định giá trị mã hóa, sau đó nhập số liệu
Trong thí dụ này, chúng ta có tới 26 biến số Việc sắp xếp, khai báo và lập quy tắc mã hóa giá trị cho chúng rất quan trọng Một bảng số liệu rõ ràng, trật tự và đồng nhất sẽ giúp cho công đoạn thăm dò và xây dựng
mô hình dễ dàng hơn rất nhiều
Về cấu trúc: các bạn nên phân bố các biến số độc lập theo từng nhóm, ví dụ: Dịch tễ, triệu chứng thực thể, dấu hiệu hình ảnh học, xét nghiệm sinh hóa… Mỗi nhóm có thể chứa nhiều biến số Cùng một đại lượng
có thể được khảo sát bằng nhiều loại biến số: Định lượng, định tính, thứ hạng
Về quy tắc mã hóa: Các biến định tính nhị phân nên được mã hóa theo cùng 1 quy tắc thống nhất, ví dụ: 0=Không, 1=Có Lý tưởng nhất là luôn cho nhóm chứng
= 0, và nhóm cần quan tâm = 1 Ví dụ: Bình thường = 0;
Có triệu chứng = 1 Bạn sẽ thấy việc này ích lợi thế nào khi xây dựng mô hình hồi quy
Trang 9Biến định tính nhị phân
Tử vong Cao huyết áp Tiểu đường Rối loạn đông máu Thuốc lá
Rượu Đau đầu Buồn nôn, nôn
Co giật Rối loạn tri giác
Tất cả biến số định tính nhị phân được gán giá trị
theo cùng một quy tắc: 0= Không, 1 = Có
Biến số thứ hạng được mã hóa theo thứ tự từ thấp tới cao :
1,2,3…
Sau khi khai báo xong biến số, bạn có thể nhập dữ liệu hay cắt dán từ bảng Excel qua SPSS Trong hình là ví dụ cho 24 trường hợp đầu tiên của bộ số liệu khảo sát hiện trạng xuất huyết não tại BV Chợ Rẫy
Trang 10Để chuyển 1 biến định lượng thành định tính, ta sử dụng chức
năng Transform trogn SPSS;
Chọn Transform > Recode into different variables
Hộp thoại Recode sẽ mở ra, cho phép bạn gán giá trị cho biến
Nhấn Add để xác nhận quy tắc mã hóa này
Sau đó lại chọn: All Other values, nhập giá trị =0 rồi nhấn Add để xác nhận
Bước còn lại chỉ là khai báo định dạng cho biến số và quy định nhãn giá trị : 0=không, 1
=Có; để có thể sử dụng như biến định tính nhị phân trong quá trình phân tích
Trang 11Quy trình phân tích hồi quy logistic
I Xây dựng mô hình tối ưu
II Kiểm tra các nguy cơ sai lầm
Chuyển dạng biến số (ví dụ: Định lượng thành định tính)
Loại bỏ dần những biến số không quan trọng
Kiểm tra tương tác giữa các biến số
Phân tích hồi quy logistic đơn biến
So sánh với mô hình M0
Mô hình tối ưu
Bước I : Xây dựng mô hình tối ưu là công đoạn quan trọng nhất và cũng khó nhất Từ tập hợp nhiều biến số ban đầu, ta phải chọn lọc
ra những biến số có liên hệ mạnh nhất với xác suất xảy ra sự kiện Y Sau đó, ta phải thử tổ hợp giữa các biến số này để có một mô hình dự báo tối ưu
Tùy vào số lượng biến số và giả thuyết nghiên cứu, công đoạn này có thể đơn giản trong vài phút hoặc rất cực khổ (có thể kéo dài vài ngày) Tìm ra mô hình tối ưu cũng giống như bạn đục đẽo một tảng đá cho tới khi tìm ra viên ngọc quý là phần thưởng cuối cùng cho công sức mà bạn bỏ ra
Tin vui, đó là SPSS là một công cụ khá mạnh và hiệu quả cho phân tích hồi quy logistic, nó cho phép thực hiện tự động nhiều quy trình
để lựa chọn những biến số độc lập tối ưu, nhận ra quan hệ tương tác và đưa ra tiêu chuẩn của riêng bạn
Lõi cơ bản của mô hình Các biến số mạnh nhất
Các biến số phụ cần kiểm tra Các biến số bị loại
bỏ vì quá yếu
Quy trình phân tích hồi quy logistic gồm 4 công đoạn chính
I Xây dựng mô hình tối ưu
II Lặp lại phân tích một lần nữa cho mô hình tối ưu, kèm theo sao lưu kết quả dự báo, để kiểm tra các giả định và nguy cơ sai lầm
III Lặp lại phân tích một lần nữa cho mô hình tối ưu, với phương pháp bootstrap để xác nhận giá trị phổ quát của mô hình trong quần thể chung
IV Diễn giải kết quả sau cùng
IV Diễn giải kết quả
3
Trang 12Biến số phụ thuộc (giá trị cần dự báo: Y)
Danh sách tất cả
biến số hiện có
Hộp thoại tùy chỉnh phương pháp hồi quy
Các biến số độc lập (yếu tố dự báo)
Các tùy chỉnh thống kê
Để kích hoạt phân tích hồi quy logistic cho biến số nhị phân, ta chọn Analyze > Regression, Chọn: Binary logistic
Hộp thoại logistic Regression sẽ mở ra như bên dưới
Vì Phân tích hồi quy logistic không có quy trình nào cụ thể, nó có thể thiên biến vạn hóa tùy vào hoàn cảnh và mục đích, nên Nhi sẽ không đi theo quy trình như những tài liệu trước Trước hết, Nhi sẽ mô tả tính năng của giao diện SPSS, sau đó chính bạn sẽ áp dụng những tính năng này tùy theo hoàn cảnh và nhu cầu riêng
Trong hộp thoại Logistic regression, có 3 thành phần cần quan tâm:
- Ô Dependent: đây là nơi bạn sẽ khai báo biến số cần dự báo (Y), trong thí dụ này là Tử vong, đây bắt buộc phải là một biến định tính nhị phân Một khi biến số này được khai báo xong, bạn mới có thể đi tiếp những bước tiếp theo
- Ô Covariates là nơi nhập những biến số độc lập (hay yếu tố dự báo: X), lúc này bạn không cần quan tâm lắm đến thứ tự các Block cũng như Method, tất cả mọi thứ sẽ được giải thích rõ ràng trong những trang tiếp theo
- Danh mục các tùy chỉnh thống kê: Bao gồm 3 mục chính là: chức năng sao lưu và kiểm tra (Save), Các tùy chỉnh phụ (Option), Bootstrap (phương pháp chọn mẫu ngẫu nhiên lặp lại, để mở rộng giá trị phổ quát cho mô hình)
Trang 13Không cần phải khai báo gì thêm
Biến số này sẽ được phân tích trực tiếp dựa vào giá trị tuyệt đối của nó
1
4
Đưa 1 biến số định tính hoặc thứ hạng vào mô hình:
Để đưa 1 biến số định tính nhị phân hoặc thứ hạng vào mô hình, ta phải đi theo 2 bước:
1) Chọn biến số này từ danh sách rồi kéo vào ô Covariates
2) Nhấn Categorical để khai báo quy tắc mã hóa giá trị cho biến số định tính, hộp thoại
Define Categorical variables mở ra; trong hộp thoại này, ta sẽ làm 2 việc:
- Kéo biến định tính từ danh sách bên trái vào ô bên phải
- Phần Change contrast được kích hoạt: Ta sẽ xác định quy tắc mã hóa cho biến số định
tính nhờ vào 2 thông số: Loại tương phản, và vị trí của nhóm chứng
Sau khi khai báo xong, ta nhấn Change để xác nhận quy tắc mới
Bắt buộc phải đi theo các bước này trước khi tiến hành phân tích hồi quy
Trong trường hợp đưa nhiều biến số định tính vào mô hình cùng lúc, bạn cần khai báo
cho tất cả, không để sót biến nào
Trang 14Khi nhấn vào « Indicator », ta sẽ thấy 1 danh sách các kiểu tương phản được mở ra như hình bên
Nếu biến định tính chỉ gồm 2 giá trị (ví dụ có/không), ta dùng Indicator
Các kiểu tương phản đơn giản (Simple), Difference, Helmert, Polynomial… chỉ áp dụng cho những biến số định tính nhiều giá trị hoặc biến thứ hạng
Giá trị làm nhóm chứng thường là « không » Nếu ta mã hóa nó bằng 1 con số nhỏ hơn giá trị « Có » , ta sẽ chọn: First
Ví dụ: 1=Không, 2=Có hoặc 0=Không/1=Có
Ngược lại, nếu ta mã hóa nó bằng con số lớn, ta sẽ chọn Last
tố nguy cơ), ta có thể chọn last
Việc chọn kiểu tương phản và vị trí của giá trị làm nhóm chứng rất quan trọng, nó sẽ quyết định giá trị (dấu) của hệ số b trong phương trình hồi quy
Tuy nhiên lựa chọn này chỉ thực sự quan trọng khi biến số định tính có nhiều hơn 2 giá trị (coi như biến thứ hạng) Với biến nhị phân chỉ có 2 giá trị thì bạn có thể chọn First hay Last cũng không ảnh hưởng gì đến kết quả, chỉ lưu ý cách diễn giải mà thôi
Biến « thể tích » là biến thứ hạng, và có 3 giá trị, ta cũng
có thể khai báo tương phản = indicator
6
Sau khi khai báo, nhấn Continues để
trở lại hộp thoại Logistic regression
3 3.2 Đưa biến số vào mô hình
Trang 15Đưa yếu tố tương tác giữa 2 biến số vào
Sau đó nhấn nút >a*b
Trong danh sách biến số của mô hình sẽ xuất hiện biến số mới, là tương tác giữa 2 biến số này : Lech duong giua*The tich
Trang 16SPSS
Đây là cách làm khá thô bạo, ta sẽ đưa 1 loạt biến số vào cùng một lúc và ép buộc máy tính phải cho ra một
mô hình chứa tất cả những biến số này (mô hình bão hòa biến số)
Tất cả biến số đưa vào đều được tận dụng để xuất ra mô hình
Trừ phi chúng ta đã chọn lọc được những biến số tốt (có ý nghĩa) trước khi đưa vào phân tích, nếu không trong đa số trường hợp phương pháp cưỡng bức cho ra kết quả rất tồi tệ Bạn sẽ có 1 mô hình nhưng hoàn toàn vô giá trị, vì những biến số xấu sẽ triệt tiêu công dụng những biến số tốt, cuối cùng khả năng dự báo bị giảm sút và odds-ratio cũng bị sai sót
Làm phương pháp cưỡng bức ngay từ đầu cũng giống như bạn nấu một món ăn bằng cách đổ tất cả nguyên liệu và gia vị vào nồi cùng lúc mà không qua sơ chế Kết quả sẽ rất tồi tệ
Phương pháp cưỡng bức chỉ nên dùng ở công đoạn sau cùng, với danh sách biến số tối ưu, khi bạn đã chắc chắn về vai trò của những biến số được đưa vào mô hình
Đây là hậu quả của việc lạm dụng phương
pháp cưỡng bức với quá nhiều biến số
Phương pháp cưỡng bức (Enter method)
3.2 Các quy trình phân tích tự động
3
Trong SPSS, phương pháp cưỡng bức được thực hiện bằng cách đưa hàng loạt biến số vào chung 1 Block với Method là Enter
Trang 17Ở phương pháp Tiến triển tự động, máy tính sẽ lần lượt đưa từng biến số vào mô hình trong mỗi bước, sau đó so sánh mô hình này với
mô hình cũ (trước khi đưa biến số vào) Nếu mô hình mới tốt hơn, biến số Xi sẽ được giữ lại và máy tiếp tục đưa biến số tiếp theo vào và
so sánh… Quy trình được lặp lại cho tới biến số cuối cùng, và mỗi khi kết quả so sánh cho thấy mô hình mới không tốt hơn (ngang bằng hoặc kém hơn mô hình cũ), biến số vừa được đưa vào sẽ bị loại bỏ Cuối cùng, máy cho ta mô hình tối ưu nhất chỉ chứa những biến số thực sự có ý nghĩa quan trọng
Tuy tốt hơn nhiều so với phương pháp cưỡng bức, phương pháp tiến triển vẫn có kẽ hở: Biến số đi trước nghiễm nhiên được chấp nhận, ngay cả khi nó triệt tiêu biến số đi sau, do đó biến số đi sau có nguy cơ bị loại bỏ một cách oan uổng
Phương pháp tiến triển chỉ có ích một khi ta đã có mô hình tốt với những biến số tốt, và ta muốn kiểm tra thêm vai trò của một biến số
Phương pháp Tiến triển
Khác với phương pháp cưỡng bức, thăm dò theo thứ bậc được thực hiện qua nhiều bước với 2 loại: Tiến triển hoặc Thoái triển
3.2 Các quy trình phân tích tự động
Trang 18So sánh (dựa vào LR hay Z):
M3 tương đương với M2
So sánh (dựa vào LR hay Z):
Thoái triển là phương pháp hiệu quả và chính xác nhất trong 3 loại, ta thường dùng phương pháp thoái triển để thăm dò và lọc
bỏ những biến số xấu khỏi danh sách, hoặc để khảo sát sự tương tác, triệt tiêu lẫn nhau giữa 1 biến số mới và tập hợp biến số
cũ Cách làm này còn giúp ta lựa chọn 1 biến số tối ưu trong số nhiều biến có vai trò tương tự nhau, giữa biến định tính và biến định lượng mô tả cùng 1 hiện tượng, đại lượng (Ví dụ: Biến « Cao huyết áp » và biến « số đo Huyết áp » cùng khảo sát một vấn
đề Phương pháp thoái triển sẽ loại bỏ giùm cho ta biến số kém hiệu quả hơn
3
Phương pháp Thoái triển
3.2 Các quy trình phân tích tự động
Trang 193
Trong SPSS, khi đưa 1 loạt biến số vào cùng 1 block, tức là ta muốn phân tích tự động
Ta có thể chọn phương pháp phân tích tự động bằng cách nhấn nút Method: Một danh sách sẽ mở ra, cho phép ta chọn nhiều phương pháp
1
Enter Phương pháp cưỡng bức
Foward Conditional Phương pháp tiến triển, dựa theo điều kiện
Foward LR Phương pháp tiến triển, với tiêu chuẩn so sánh dựa vào Likelihod ratio Foward Wald Phương pháp tiến triển , với tiêu chuẩn so sánh dựa vào test Z của Wald Backward Conditional Phương pháp thoái triển , dựa theo điều kiện
Backward LR Phương pháp thoái triển với tiêu chuẩn so sánh dựa vào Likelihod ratio Backward Wald Phương pháp thoái triển với tiêu chuẩn so sánh dựa vào test Z của Wald
3.2 Các quy trình phân tích tự động
Trang 203
Nhấn Next để chuyển sang Block tiếp theo
Phương pháp thủ công có nghĩa là việc thăm dò hoàn toàn dựa vào hành vi chủ động của người sử dụng, bằng cách sử dụng nhiều Block, mỗi Block là 1 bước thăm dò, SPSS chỉ thực hiện phân tích cho từng Block nhưng không đưa ra bất cứ quyết định gì liên quan tới kết quả Chính người sử dụng phải chủ động so sánh mô hình giữa các Block với nhau một cách thủ công
Thêm 1 block mới (và thêm biến số mới) tương đương với phương pháp thăm dò tiến triển, nhưng quyết định về mô hình tối ưu hoàn toàn do
-SPSS chỉ cho phép thực hiện tối đa 9 Blocktrong một lần phân tích, tuy nhiên mỗi Block lại có thể chứa 1 hay nhiều biến số
- Phương pháp mặc định cho từng Block là Enter khi phân tích nhiều Bloc, tuy nhiên bạn có thể kết hợp thủ công và tự động, khi bạn quy định cho SPSS làm Foward hay Backward riêng cho 1 block nào đó chứa nhiều biến số
Lời khuyên của Nhi:
1) Phân tích thủ công đáng tin cậy hơn quy trình tự động do máy tính thực hiện
2) Phương pháp thoái triển đáng tin cậy hơn tiến triển
3) Tiêu chuẩn so sánh dùng Likelihood ratio đáng tin cậy hơn test Z của Wald
4) Mô hình tối ưu là mô hình cân bằng giữa sự phức tạp và chính xác, tức là nó nên chứa càng ít biến số càng tốt
nhưng đảm bảo khả năng dự báo chính xác cao nhất có thể
3.3 Quy trình phân tích thủ công
Trang 21Hộp thoại Options cho phép thiết lập thêm một số test thống kê hỗ trợ cho việc so sánh, đánh giá chất lượng mô hình
Classification plot: biểu đồ phân loại, đây là 1 histogram của giá trị thực/giá trị dự báo của Y, giúp đánh giá nhanh chóng mức độ phù hợp giữa mô hình và dữ liệu thực tế
Hosmer Lemeshow goodness: of fit : Cho phép đánh giá mức độ phù hợp giữa mô hình được chọn và dữ liệu
Casewise listing : Tạo bảng liệt kê các trường hợp, theo 2 tiêu chuẩn:
Outler ourtside 2SD: lọc ra những trường hợp có RSD > 2 SD
Cách làm này giúp nhận diện nhanh những trường hợp cá biệt (nhưng cẩn thận, tiêu chuẩn này có thể bỏ sót, một cách làm khác tốt hơn
sẽ được giới thiệu vào phần cuối tài liệu trong bước kiểm tra mô hình)
All cases: hiển thị cho tất cả case:
Iteration history: cho ta biết giá trị của – 2LL ở từng bước, ta cần giá trị này nếu muốn tính hệ số R
CI95 for Exp (B) 95%: xác định khoảng tin cậy cho odd sratio, mặc định = 95%
Display at : Each step = Hiển thị kết quả sau mỗi bước (khi làm phân tích tự động); Last step= chỉ hiển thị kết quả cho mô hình tối ưu
Probability step wise: 0.05= entry, removal: 0.1: Ngưỡng ý nghĩa thống kê khi thực hiện so sánh tự động
Classification cut-off: 0.5
Maximum iteration: 20 Quy định số bước thăm dò tối đa (trong phương pháp tự động)
Include constant in model: Lựa chọn mô hình có hay không có hằng số bo
Sau khi khai báo xong các biến số, ta
có thể nhấn nút Option để mở hộp thoại tùy chỉnh thống kê
3.4 Tùy chỉnh thống kê
3
Trang 22Bootstrap: Đây là một phương pháp thống kê mới được phát triển khoảng 40 năm nay và bắt đầu được hỗ trợ từ phiên bản SPSS 20
Nó không làm thay đổi kết quả của mô hình, nhưng cho phép xác định khoảng tin cậy và sai số của hệ số b để giúp ta hình dung về mức
độ phù hợp của mô hình trong một quần thể chung, chứ không chỉ giới hạn trong mẫu khảo sát Một cách đơn giản, bạn có thể tưởng tượng phân tích hồi quy sẽ được thực hiện cho một mẫu mô phỏng ngẫu nhiên gấp 1000 lần mẫu cơ bản hiện có Thí dụ trong trường hợp này ta sẽ có 109.000 người
Ghi nhớ
1) Chỉ áp dụng boostrap cho mô hình sau cùng (tối ưu) bằng phương pháp Enter cho tất cả biến số dự báo
2) Với cỡ mẫu ban đầu lớn, mô hình phức tạp; bootstrap chạy rất chậm, có thể bạn phải chờ từ 15-45 phút để có kết quả Hãy cân nhắc trước khi chạy Bootstrap
3) Boostrap không dùng được cho stepwise (Forward hay Backward)
4) Một khi dùng Bootstrap, không thể save residual, và ngược lại
5) Lưu ý : Mỗi lần chạy bootstrap, sẽ cho ra giá trị p, CI95% khác nhau, thường p có bootstrap sẽ cao hơn p khi không dùng bootstrap Bạn đừng lo lắng vì điều này, đó là do chọn mẫu ngẫu nhiên
3.5 Chạy Bootstrap
3