Biến định tính nhị phân Giá trị dự báo: PredY Nguyên tắc của hồi quy tuyến tính: Trong một mẫu khảo sát với n đối tượng, nghiên cứu sinh ghi nhận giá trị thực tế của Y,A,B,C,D.. Trong
Trang 1Hồi quy tuyến tính đa biến
thống kê y học sử dụng SPSS
Lê Đông Nhật Nam
Trang 2Chào các bạn, chúng ta lại có dịp gặp nhau lần này để bàn về một chủ đề khá thú vị, đó là mô hình hồi quy tuyến tính Thực ra các bạn sinh viên Y khoa chịu thiệt thòi nhiều hơn sinh viên ngành Kinh tế, vì bên đó
mô hình hồi quy được dạy rất chi tiết và sâu Tuy nhiên trong việc khám chữa bệnh hằng ngày, chúng ta lại ứng dụng mô hình hồi quy rất nhiều, để tiên lượng và dự báo Tất cả những khái niệm định lượng trong cuộc sống đều liên quan tới phương pháp này
Khi còn là học sinh lớp 7, người ta bắt trẻ con khảo sát và vẽ đồ thị hàm số bậc nhất, giải phương trình bậc
2 và 5 năm sau học sinh lại bị ép buộc phải khảo sát những hàm bậc cao hơn, giải những phương trình phức tạp hơn… nhưng chưa bao giờ trường lớp dạy cho ta biết ý nghĩa thực sự của những việc nhàm chán này Trong khi ra đời ta liên tục chịu những áp lực về sự thành/bại và trong hoàn cảnh khó khăn ta phải tự tìm giải pháp cho chính mình Một trong những tình huống đó là dự báo kết quả (1 con số) từ nhiều yếu tố khách quan, với hy vọng có thể thay đổi số phận Muốn thi vào Y khoa thì phải học 3 môn Toán, Hóa, Sinh, vào đại học rồi phải lo dự báo điểm tốt nghiệp, điểm TOIEC, IELTS…, khi đi làm thì lập kế hoạch tài chánh cho việc kết hôn, mua nhà… tất cả đều là những hàm số đa biến mà kết quả (Y) có thể đảo lộn hoàn toàn chỉ vì một thay đổi nhỏ của biến số, hệ số, tham số bên trong Ngược lại, nghiệm ra giá trị (X) cũng như giải một phương trình của chính cuộc đời mình Cuộc đời thực dạy môn toán cho chúng ta tốt hơn bất cứ ông thầy nào
Qua tập tài liệu « nhỏ » này, tác giả hy vọng giúp các bạn thực hiện phân tích hồi quy tuyến tính một cách
dễ dàng và nhanh chóng nhất Có thể bạn là 1 bác sĩ nội trú đang chạy đua với thời gian hoàn thành luận văn, hoặc một sinh viên y khoa tò mò đang vọc phá SPSS, không sao cả vì nội dung trình bày và cách tiếp cận trong tài liệu rất giản dị Như thường lệ, BS Khả Nhi sẽ đơn giản hóa tối đa những lý thuyết phức tạp
và trao cho bạn một công cụ dễ sử dụng, cho phép bạn tự mình làm mọi thứ ngay sau khi đọc xong Chúc các bạn thành công
Lời nói đầu
Trang 3Quy ước trình bày
Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật
Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và
ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống
kê …
Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách hồn nhiên và ngây thơ như trẻ con, vì vậy cô ấy luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Khả Nhi sẽ hướng dẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện còn đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu
3
Trang 4Thẩm phân phúc mạc
Khảo sát vận tốc sóng mạch
Vận tốc lan truyền sóng mạch là một chỉ số cận lâm sàng cho phép khảo sát tính đàn hồi của thành động mạch Các bệnh nhân được can thiệp bằng thẩm phân phúc mạc hay lọc thận nhân tạo kéo dài có nguy cơ tăng độ cứng thành mạch Trong nghiên cứu nhỏ này, một bác sĩ nội trú khoa ngoại niệu muốn khảo sát sự liên hệ giữa vận tốc sóng mạch cổ chân-cánh tay với những đặc điểm lâm sàng và điều trị trên 40 bệnh nhân thậm phân phúc mạc định kỳ kéo dài > 4 tháng
Vận tốc sóng mạch được đo bằng máy Omron VP-1000 Các yếu tố lâm sàng và điều trị thu thập được gồm có Tuổi, số đo huyết áp, BMI, thời gian thẩm phân phúc mạc; và các loại thuốc hạ áp khác nhau như: Ức chế men chuyển, đối kháng thụ thể Angiotensin, Beta blocker, Calci blocker
Sau khi đã hoàn tất số liệu, chúng ta phải dùng phương pháp thống kê nào để trả lời cho câu hỏi nghiên cứu đã đặt ra ban đầu ?
Bảo thân mến, đây là một trường hợp điển hình có thể áp dụng phân tích hồi quy tuyến tính đa biến Đây là phương pháp toàn diện và triệt để hơn nhiều so với phân tích tương quan Pearson rời rạc Chúng ta sẽ khởi hành nhé ?
Trang 5Biến định tính nhị phân
Giá trị dự báo: Pred(Y)
Nguyên tắc của hồi quy tuyến tính:
Trong một mẫu khảo sát với n đối tượng, nghiên cứu sinh ghi nhận giá trị thực tế của Y,A,B,C,D
Y là 1 biến số định lượng liên tục (biến phụ thuộc)
A,B,C,D là những biến độc lập hay yếu tố dự báo, hay tham số Chúng có thể là biến định lượng, định tính hoặc thứ hạng
Nghiên cứu sinh xây dựng mô hình hồi quy có dạng:
Y=Hằng số Bo +b1*A+b2*B+b3*C+ sai số ngẫu nhiên
Mô hình này cho phép dự báo giá trị Y = Pred(Y)
Nếu mô hình phù hợp tốt, Pred(Y) sẽ rất gần với Y thực tế
Ứng dụng của phân tích hồi quy tuyến tính:
1 Cho phép dự báo giá trị Y của một cá thể i bất kỳ trong quần thể chung, cũng như xác định giá trị Y trung bình, và những giới hạn trên và dưới của Y trong 1 quần thể đồng nhất Ứng dụng này rất hữu ích trong lâm sàng: xác định giá trị bình thường của 1 đại lượng sinh lý, bệnh học và ngưỡng chẩn đoán, tiên lượng kết quả điều trị…
2 Khảo sát mối liên hệ riêng và bộ phận giữa các yếu tố độc lập và 1 đại lượng Y Mô hình hồi quy cho ra cái nhìn toàn diện và chính xác hơn so với phép phân tích tương quan đơn giản, về quan hệ giữa Y và các yếu
tố này Mô hình hồi quy là giải pháp tối ưu để chứng minh 1 giả thuyết nghiên cứu phức tạp chứa nhiều biến số
3 Mô hình hồi quy tuyến tính là cơ sở của rất nhiều thiết kế nghiên cứu khảo sát, so sánh biến số định lượng; tất cả những thiết kế thông dụng như test t cho phân nhóm độc lập, ANOVA đơn biến, ANCOVA, Moderation, Mediation… đều có bản chất là mô hình hồi quy tuyến tính
Kết luận: Nên sử dụng phương pháp hồi quy tuyến tính cho: Thiết kế nghiên cứu định lượng, với nhiều biến số, và/hoặc với mục đích dự báo
Trang 6Trong trường hợp đơn giản nhất ta có:
Giá trị dự báo Y = hằng số + hệ số x biến số dự báo + sai số
Mô hình hồi quy tuyến tính đơn giản nhất chỉ có 1 biến số, gọi là hồi quy đơn biến :
Y = bo + bx + ε
Mô hình hồi quy tuyến tính tổng quát có thể chứa nhiều yếu tố
dự báo, gọi là hồi quy đa biến :
Y = bo + (b1x1)+(b2x2)+… (bi*Xi) + ε
Hàm số này cho phép dự báo giá trị y tùy theo giá trị của x cho trước
Trong phương pháp hồi quy tuyến tính :
Y gọi là biến số phụ thuộc (dependent variable) hay giá trị dự báo (predicted outcome)
X gọi là biến số độc lập (independent variable) hay yếu tố dự báo (factor, predictor)
Giá trị ε gọi là sai số hay phần bất định (residual, error)
B gọi là hệ số hồi quy (Beta) Một mô hình được xem là tốt khi nó cho ra giá trị dự báo phù hợp với giá trị thực tế quan sát được (tính phù hợp dữ liệu là một tiêu chuẩn để đánh giá chất lượng của mô hình)
Ví dụ về mô hình hồi quy 2 biến: Đồ thị của
quan hệ 3 chiều giữa vận tốc sóng mạch và
Tuổi, HA tâm thu
Trang 7Mô hình hồi quy cho phép
dự báo thu được 10,000
mũi tên ± sai số ngẫu nhiên
Mức độ phù hợp số liệu của mô hình được đánh giá bằng test F (giống như test F mà ta biết trong ANOVA)
F là tỉ số giữa giá trị trung bình phương sai hệ thống (do mô hình: MSM) và trung bình của phương sai ngẫu nhiên (MSR)
𝐹 = 𝑀𝑆𝑀 𝑀𝑆𝑅 =
( 𝑑𝑓𝑀) 𝑆𝑆𝑀 𝑆𝑆𝑅 𝑑𝑓𝑅
Trong đó MSM là trung bình bình phương sai số do mô hình, MSR là trung bình bình phương sai số không do mô hình (yếu tố ngẫu nhiên, phần bất định): SSM và SSR là tổng phương sai của do mô hình và do yếu tố ngẫu nhiên
dfM và dfR lần lượt là độ tự do của SSM và SSR Trung bình bình phương bằng tổng bình phương chia cho độ tự do df dfM = số lượng yếu tố dự báo (biến số x) có trong mô hình;
𝑑𝑓𝑀 = 𝑘
ví dụ mô hình dự báo
y = bo+b1*X1+b2*X2 có 3 yếu tố (Bo, X1, X2) do đó df =3
dfR = số trường hợp quan sát (cỡ mẫu) trừ cho số lượng tham số k (bao gồm cả hằng số bo và hệ số bi)
𝑑𝑓𝑅 = 𝑁 − 𝑘
ví dụ mô hình y = bo+b1x được thiết lập dựa vào quần thể có n = 20, thì dfR = 20 –2 = 18
Căn bậc 2 của hệ số R2 chính là hệ số tương quan r của Pearson, đo lường sự tương quan giữa Y và X
SST
SSM SSR
Mô hình này có k= 5 (tính cả hằng số Bo) Gia Cát Lượng chỉ áp dụng 1 lần duy nhất, nhưng không biết trong đầu ông ta đã làm bootstrap bao nhiêu lần ?
dfM dfR
Trang 8F khảo sát mức độ phù hợp của mô hình, tỉ lệ giữa khả năng dự báo nội tại và phần sai số do ngẫu nhiên Giá trị F > 1 được trông đợi, và F càng cao thì mô hình càng tốt (càng phù hợp tốt với dữ liệu thực tế ) vì MSR càng nhỏ thì sai biệt giữa giá trị dự báo và giá trị thực tế càng nhỏ)
F cũng có thể biểu diễn như một test thống kê kiểm tra ý nghĩa của hệ số R2
𝐹 = 𝑁 − 𝑘 − 1 𝑅2𝑘(1 − 𝑅2)Với N = số trường hợp, k là số lượng yếu tố dự báo
Với giả thuyết H0 là R2 = 0
1
Not this Fisher !
Giáo sư Ronald Aylmer Fisher (1890-1962) Nhà di truyền học và
thống kê người Anh
F for « Fisher »
Kiểm định F được GS Ronald A Fisher thiết kế năm 1920 Test F dùng để kiểm tra giá trị của các
mô hình hồi quy
1.4 Test t: kiểm tra ý nghĩa của hệ số hồi quy Beta
Cây giờ ta sẽ đánh giá ý nghĩa của mỗi yếu tố dự báo (biến số x), thông qua hệ số hồi quy Beta (B)
Một yếu tố dự báo (hay biến xi) không có ý nghĩa khi nó nhận hệ số bi=0 ; tức là dù xi thay đổi nhưng
không ảnh hưởng gì đến y Như vậy: giả thuyết H0: bi = 0
Để kiểm tra giả thuyết liệu 1 chỉ số nào đó khác 0 ?, ta lại sử dụng test t
Đầu tiên ta tính giá trị t:
Trong đó k là số lượng yếu tố dự báo (biến số)
Ví dụ mô hình hồi quy tuyến tính đơn biến có dft = (N-2)
Kiểm tra giả thuyết này bằng cách đọc bảng t, tìm giá trị p… như ta đã biết
Đến đây, chắc các bạn đã phát hiện ra điều thú vị là hầu hết những phương pháp ta thường dùng (so
sánh bằng test t, ANOVA, tương quan pearson) đều dẫn về một nguồn gốc chung là mô hình hồi quy
tuyến tính
1.3 Test F của Fisher
Trang 9Thăm dò biến số
Thăm dò các mô hình hồi quy đa biến
Kiểm tra nội dung mô hình tối ưu
Kiểm tra ý nghĩa phổ quát mô hình
Biến định tính: Kiểm tra bằng mô hình hồi quy đơn biến
Mục tiêu: Tìm ra mô hình hồi quy tối ưu với những tiêu chí: khả năng dự báo tốt nhất, sai số thấp nhất, phù hợp dữ liệu cao nhất
Phương pháp: Thăm dò từng bước tất cả khả năng tổ hợp giữa các biến số độc lập
Có thể làm thủ công, hoặc áp dụng quy trình tự động (stepwise, thoái triển, tiến triển trong SPSS)
Sau khi tìm ra mô hình tối ưu ở cuối bước 2, ta chạy phân tích hồi quy lần 2 trên chính mô hình này, có sao lưu dữ liệu
về sai số
Mục tiêu:
+ Kiểm tra những giả định về phẩm chất mô hình
+ Phát hiện điểm cá biệt và gây ảnh hưởng xấu cho mô hình + Phát hiện các vi phạm như đa cộng tuyến, tự tương quan…
Chạy phân tích hồi quy lần 3 cho cùng mô hình tối ưu, lần này có kèm Bootstrap
Mục tiêu: Kiểm tra lần cuối về ý nghĩa phổ quát của hệ số hồi quy
Không có quy trình cố định nào cho việc xây dựng mô hình hồi quy tối ưu Tài liệu này cũng sẽ không đưa
(3) Khi đã loại bỏ tất cả biến số yếu, ta sẽ có mô hình tối ưu, như thế vẫn chưa đủ, bạn còn phải kiểm tra khả năng dự báo chính xác của nó và phát hiện những case không phù hợp với mô hình này
(4) Cuối cùng, bạn sẽ áp dụng bootstrap để kiểm tra ý nghĩa phổ quát của mô hình Bootstrap còn cho phép cải thiện một số vi phạm về số liệu mà bước 3 đã phát hiện ra
Trang 10Quy trình hồi quy tuyến tính trên giao diện
1-3) Kích hoạt quy trình: Nhấn Analyze > Regression > Linear
4) Kéo biến số Y vào ô Dependent
5) Chọn phương pháp : Enter, Stepwise, Backward, Forward…
6) Kéo biến số dự báo vào ô Independent
7) Tùy chỉnh thống kê
2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.1 Kích hoạt chức năng phân tích hồi quy
Trang 11Nếu chọn Exclude case Listwise:
Case 2 và 4 sẽ không được xét trong cả 2 phân tích tương quan Y(X1) và Y(X2)
Nếu chọn Exclude case Pairwise Case 2 sẽ không được xét trong phân tích tương quan Y(X2) nhưng vẫn được xét trong tương quan Y(X1)
Case 4 dĩ nhiên không được xét trong cả 2 phân tích Nếu chọn Replace with mean: SPSS sẽ tự động lấp chỗ trống
số liệu cho case 2 bằng giá trị trung bình X2 và Case 4 bằng giá trị trung bình của X1 và X2
Nhận xét: Nên chọn Exclude cases pairwise để đạt được cỡ
lẫu tối ưu cho mỗi biến số dự báo Hai lựa chọn còn lại không nên chọn, vì sẽ gậy sai lệch cho hệ số hồi quy trong
mô hình
Nên chọn: Include constant in equation
Nên chọn sử dụng xác suất của trị số F hơn là bản thân giá trị F
Hộp thoại Option cho phép tùy chỉnh một số tiêu chuẩn như:
- Tiêu chuẩn đánh giá mô hình trong quy trình thăm dò tự động (Stepwise)
- Cách xử trí trong trường hợp sót dữ liệu (missing value)
- Mô hình có hay không có hằng số Bo?
2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.2 Tùy chỉnh thông kê
Trang 12Danh mục các tùy chỉnh thống kê:
Estimates: Tính hệ số hồi quy beta cho mỗi biến độc lập, làm test t để kiểm định giả thuyết B=0 nhằm xác
nhận vai trò của yếu tố dự báo
CI95% Xác định khoảng tin cậy 95% của mỗi hệ số hồi quy B (có hoặc không sử dụng Bootstrap)
Model fit: đây là chức năng quan trọng, bao gồm bảng ANOVA với test F nhằm kiểm tra ý nghĩa thống kê
của mô hình, tính hệ số R2 và R2 hiệu chỉnh theo Wherry
R 2 change: Chức năng này hữu ích khi thực hiện thăm dò qua nhiều bước (Blockwise, stepwise, forward
hay backward), nó cung cấp giá trị thay đổi của R2 giữa mô hình mới và mô hình cũ có trước, sau khi thêm, bớt 1 hay nhiều biến số Thay đổi R2 có ý nghĩa thống kê là một trong các tiêu chí để lựa chọn mô hình tối ưu
Descriptive: Thực hiện thống kê mô tả, cung cấp giá trị trung bình, SD và cỡ mẫu cho mỗi yếu tố dự báo
X Ngoài ra nó còn quét ma trận tương quan giữa tất cả biến số độc lập, nhằm kiểm tra vấn đề đa cộng tuyến
Part-Partial correlation: Tính hệ số tương quan riêng (Pearson) và tương quan bộ phận và bán bộ phận
(có xét đến những yếu tố khác) giữa Y và mỗi tham số X Ghi chú: Tương quan bán bộ phận khảo sát quan
hệ giữa X và 1 phần biến thiên của Y chưa được giải thích bởi những tham số khác trong mô hình
Collinearity diagnostic: Chẩn đoán đa cộng tuyến: cung cấp giá trị VIF, Tolerance, eigen value cho mỗi
yếu tố dự báo, nhằm chẩn đoán vấn đề đa cộng tuyến
Kiểm định Durbin Watson: nhằm kiểm tra giả định về tính độc lập của sai số
Case wise diagnostic: Liệt kê giá trị dự báo và thực tế của Y, kèm theo sai biệt giữa chúng (sai số thặng dư
và sai số chuẩn hóa): cho toàn bộ quần thể nghiên cứu, hay phân lập riêng những trường hợp cá biệt (RSD > 3)
Kèm theo bảng tóm tắt giá trị dự báo và Residual: Min, max, Mean và SD
Trang 13Danh mục những biến số có thể chọn để vẽ biểu đồ tương quan tuyến tính:
Dependent: Đây là giá trị dự báo hay giá trị Y được ước tính dựa vào mô hình (cần phân biệt với giá trị
Y thực tế quan sát được)
*Zpred: Standardized predicted value: Giá trị dự báo chuẩn hóa hay Z-score của giá trị dự báo
*Zresid: Standardized residual: Sai số chuẩn hóa = khác biệt giữa giá trị dự báo và giá trị thực tế, đã chuẩn hóa
*Dresid: Deleted residual
*AdjPred: Adjusted predicted value = giá trị dự báo sau hiệu chỉnh
*Sresid: Studentized residual = Sai số chuẩn hóa theo Student = Residual/ SE của nó
*SDResid: Studentized deleted residual: = Dresid/ SE của nó
Hộp thoại cho phép dựng biểu đồ tương quan tuyến tính giữa 1 đại lượng Y và 1 đại lượng X, tùy chọn Ghi chú: Trong thực hành, bạn chỉ cần dựng 2 biểu đồ như sau:
Y=Zresid và X= Zpred : nhằm kiểm tra giả định về tính độc lập của sai số, giả định homoscedasticity và giả định linearity
Y=Sresid và X=Zpred, nhằm phân lập những trường hợp vi phạm giả định về homoscedasticity
Mô tả phân phối của sai số thặng dư (Residual) bằng Histogram, kiểm tra giả định phân phối chuẩn của sai số
Vẽ các biểu đồ kiểm tra giả định phân phối chuẩn của Residual
Dựng tất cả biểu đồ tương quan tuyến tính bộ phận giữa Y= giá trị dự báo Y và X= biến số độc lập Xi Giúp phát hiện điểm cá biệt, khống chế (outliers), quan hệ phi tuyến tính, cộng tuyến…
Trang 14chất mô hình, xét về khả năng dự báo
và sai biệt so với thực tế
Những thông số nhằm phát hiện những trường hợp cá biệt, khống chế ảnh hưởng đến phẩm chất mô hình
X Các thông số cần sao lưu
Ghi chú: Nên dùng giá trị đã chuẩn
hóa (standardized hay Studentized) vì cho phép diễn giải dễ dàng hơn
B
Chức năng sao lưu những thông số của mô hình:
Đây là một chức năng hữu ích, vì nó cho phép đánh giá phẩm chất mô hình, bao gồm độ phù hợp với dữ liệu thực tế, khả năng dự báo chính xác, và phân lập những trường hợp có nguy cơ gây ảnh hưởng xấu cho mô hình Bạn sẽ thấy một hộp thoại với nhiều ô tùy chọn, mỗi ô là một thông số có thể sao lưu Khi bạn chọn những thông số này trước khi chạy 1 phân tích hồi quy, SPSS sẽ sao lưu giá trị các thông số được chọn, thẳng vào bảng số liệu dưới dạng những biến số mới Sau đó bạn có thể dùng những biến số được sao lưu này để chẩn đoán về phẩm chất của mô hình và kiểm tra các giả định
Lưu ý:
+ Điểm bất lợi thứ nhất của chức năng sao lưu, đó là tên các biến số đều viết tắt, và mỗi lần bạn chạy 1 phân tích mới, quy trình sao lưu được lặp lại và nếu cứ theo hướng này, hàng loạt biến mới lại được chèn vào database, bảng số liệu của bạn sẽ bị kéo dài và cực kì rối rắm Do đó, bạn chỉ nên kích hoạt chức năng Save 1 lần duy nhất, cho mô hình tối ưu, sau khi kiểm tra mô hình xong bạn nên xóa toàn bộ những biến số sao lưu
để dọn dẹp sạch sẽ bảng số liệu trước khi thực hiện 1 lệnh Save khác
+Điểm bất lợi thứ 2 là chức năng Save và Bootstrap triệt tiêu lẫn nhau, bạn không thể vừa làm sao lưu, vừa chạy Bootstrap Do đó với 1 mô hình hồi quy bạn phải chạy phân tích ít nhất 3 lần:
Lần thứ 1: Không kích hoạt Save và Bootstrap: Thăm dò thủ công hoặc Stepwise, nhằm tìm ra mô hình tối ưu Lần thứ 2: Bạn chạy lại phân tích lần nữa, không sử dụng bootstrap nhưng kích hoạt Save,để đánh giá phẩm
Trang 15Viết tắt Ý nghĩa Diễn giải
PRE_1 Predicted value Giá trị dự báo không chuẩn hóa
ZPR_1 Standardized Pred Giá trị dự báo đã chuẩn hóa
ADJ_1 Adjusted pred Giá trị dự báo hiệu chỉnh
SEP_1 SE of Predicted val Sai số chuẩn của giá trị dự báo
ZRE_1 Standardized Res Sai số thặng dư có chuẩn hóa
SRE_1 Studentized Res Sai số chuẩn hóa theo phân phối Student
MAH_1 Mahalanobis distance Khoảng cách giữa giá trị thực tế và trung bình
của biến số dự báo
COO_1 Cook’s distance Thông số dùng để phát hiện điểm cá biệt
LEV_1 Leverage value Thông số dùng để phát hiện điểm áp chế
SDB0_1 Standardized DfBeta for
Intercept
Trị số DfBeta cho hằng số Bo
SDB1_1 Standardized DfBeta for
predictor1
Trị số DfBeta cho biến số X1
SDB2_1 Standardized DfBeta for
predictor2
Trị số DfBeta cho biến số X2
COV_1 Covariance ratio Tỉ số hiệp phương sai: một thông số khác để
chẩn đoán điểm cá biệt và áp chế
Bảng: Danh sách tên viết tắt và ý nghĩa những biến số sao khi được sao lưu vào database:
Ghi chú: con số nằm ở cuối tên biến (Ví dụ: 1) cho biết lần sao lưu, nếu bạn lặp lại lệnh Save thì 1 loạt
biến mới sẽ được sao lưu với tên gọi mới: ví dụ sao lưu lần 2 bạn sẽ có: PRE_1, COO_2… Trên thực tế bạn nên xóa sạch những biến số cũ nếu muốn sao lưu cho mô hình mới
2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.5 Sao lưu dữ liệu
Trang 163 3 Hướng dẫn chi tiết quy trình phân tích hồi quy 3.1 Lập bảng số liệu
Nghiên cứu này có 13 biến số:
Y là biến số phụ thuộc trong mô hình hồi quy = Vận tốc sóng mạch Cổ chân-cánh tay
12 biến số độc lập: Các yếu tố lâm sàng và điều trị thu thập được gồm có Tuổi, số đo huyết áp, BMI, thời gian thẩm phân phúc mạc, thuốc lá, Cholesterol toàn phần; và các loại thuốc hạ áp khác nhau như:
Ức chế men chuyển, đối kháng thụ thể Angiotensin, Beta blocker, Calci blocker
Việc nhập số liệu thì chắc bạn dễ dàng thực hiện Chỉ lưu ý là những biến định lượng nhị phân nên được
mã hóa giá trị =0/1
Trang 17Mở file syntax: Có 2 cách, hoặc bạn đi từ màn hình chính của SPSS như sau
Cửa sổ Syntax editor sẽ mở ra, hiển thị nội dung những lệnh bên trong
Trang 181
2
Để thi hành một khối lệnh tùy chọn:
1° Đánh dấu chọn 1 khối lệnh cần thi hành 2° Click chuột phải trong syntax editor rồi chọn Run Selection, hoặc nhấn nút Run (màu xanh) trên menu
2
Lưu ý:
Tài liệu này khuyến khích sử dụng syntax thay vì thao tác trên giao diện, nhằm tiết kiệm thời gian cho chính bạn Tuy nhiên ứng với mỗi đoạn syntax tác giả cũng cung cấp screen capture về thiết kế tùy chỉnh trên giao diện
Những khối lệnh phải được thi hành riêng rẽ và tuần tự, không nên chạy hàng loạt Trong
đa số trường hợp bạn phải điều chỉnh lại nội dung cho phù hợp với nghiên cứu của bản thân Một số khối lệnh phải được chỉnh sửa và thi hành lặp lại nhiều lần, ví dụ để thăm dò biến số và thăm dò mô hình
SPSS rất mạnh trong việc thăm dò tự động, và đa số trường hợp kết quả rất chính xác, phù hợp với nhau (đường nào cũng về La Mã); nhưng tác giả không tin tưởng vào bất cứ quy trình tự động nào, chính nghiên cứu sinh phải chủ động kiểm soát mọi công đoạn
Hơn nữa, khi làm thủ công bạn có thể nhìn thấy được những mô hình trung gian, và dùng trị số R2 hiệu chỉnh, BIC hay AIC để lựa chọn, chức năng này không được hỗ trợ bởi SPSS Tác giả đã cung cấp cho các bạn 1 bảng Excel kèm theo với rất nhiều tiêu chí được lập trình sẵn, nhằm kiểm tra phẩm chất mô hình và giúp bạn lựa chọn được mô hình tối ưu và có bằng chứng xác thực cho lựa chọn này để báo cáo
Trang 19*Bước 1: Khai báo biến
* 1A Dán nhãn tên biến
X12 "Thời gian thẩm phân"
* 1B Dán nhãn giá trị cho biến định tính nhị phân
Ví dụ biến X1 (giới tính) được mã hóa: 1=Nam, 2=Nữ
Cú pháp lệnh dán nhãn giá trị là:
VALUE LABELS
Xi [Giá trị số] ‘’Nhãn’’
Mỗi giá trị cách nhau 1 khoảng trắng
Vì thí dụ này chỉ có biến nhị phân nên giá trị chỉ được mã hóa =1/0 hoặc 1,2
Nếu bạn có biến định tính nhiều giá trị, bạn có thể dán nhãn tiếp tục cho giá trị 3,4,5…
Sau khi chạy syntax, nội dung biến số trong database sẽ được thay đổi Bạn cũng có thể dùng Editor ở chế độ
Variable view để làm thủ công nếu không quen dùng Syntax, nhưng như ta thấy, dùng syntax dễ hơn…
Mục tiêu của phần này là để giúp các bạn hiểu cú pháp lệnh trong bộ syntax để có thể chỉnh sửa cho nghiên cứu của riêng bạn Phần màu đỏ có thể tùy chỉnh Những dòng bắt đầu bằng dấu * không phải là lệnh mà chỉ là chú thích kèm theo
Trang 20*Bước 2A: Thăm dò tương quan giữa Y và các biến
Sau đó áp dụng lệnh CORRELATIONS để phân tích tương quan theo phương pháp mặc định là Pearson, với giá trị p 1 bên
Trong thí dụ này ngoài Y, chỉ có 6 biến định lượng là X2,X3,X4,X6,X7 và X12
Khi áp dụng bộ syntax cho nghiên cứu của mình, bạn nên sửa lại nội dung 2 phần màu đỏ, với những biến định lượng của riêng bạn
Trong trường hợp bạn thích thao tác trên giao diện: quy trình phân tích tương quan được thực hiện như sau:
3.3.2 Thăm dò biến số
3
Trang 21
BA.PWV (cm/s) Tuổi
BMI (kg/m2)
Cholester
ol (mg/dL)
HA T.Thu (mmHg)
HA T.Trương (mmHg)
Thời gian thẩm phân BA.PWV (cm/s) Pearson Correlation 1 ,961 ** -,871 ** ,738 ** ,914 ** ,228 ,276 *
Confiden
ce Interval
Lower ,938 -,951 ,559 ,866 -,086 -,013 Upper
,980 -,772 ,873 ,950 ,487 ,533
2
3
1
Tương quan có ý nghĩa thống kê : Tốt
Khoảng tin cậy của hệ số tương quan không chứa giá trị 0: Tốt
Trường hợp nghi ngờ : nằm gần ngưỡng 0,05 nhưng tương quan yếu
Chắc chắn không có tương quan: p>0,05 hoặc CI95% của r chứa giá trị 0
Chọn vào danh sách ứng cử viên
Loại khỏi danh sách ứng cử viên
Đây là kết quả thăm dò tương quan tuyến tính giữa Y và các biến định lượng, với mục tiêu chọn ra những biến định lượng có quan hệ tuyến tính mạnh nhất với Y để đưa vào danh sách ứng cử viên yếu tố dự báo tiềm năng cho mô hình hồi quy
Bạn chỉ cần đọc kết quả hàng đầu tiên: Y (BA.PWV), và tập trung vào 2 tiêu chí:
+ Giá trị p (1 phía) : cho biết ý nghĩa thống kê của quan hệ tuyến tính giữa Y và X
+ Khoảng tin cậy của hệ số tương quan Pearson r:
Tiêu chuẩn lựa chọn:
P<0,05 VÀ CI95% của r không chứa giá trị 0 (Lower và Upper phải cùng dấu)
Loại trừ những biến số có:
P<0,05 HOẶC CI95% của r CÓ chứa giá trị 0 (Lower và Upper trái dấu)
Trong thí dụ này, ta đã tuyển chọn được 4 biến số định lượng: Tuổi, BMI, Cholesterol, HA tâm thu
để đưa vào bước thăm dò mô hình
Và loại trừ được 2 biến số: HA tâm trương và Thời gian thẩm phân
3.3.2 Thăm dò biến số
3
Trang 22*Bước 2B: Thăm dò những yếu tố định tính
bằng mô hình hồi quy đơn biến
*Thí dụ cho biến X10
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES TARGET=Y INPUT= X10
/CRITERIA CILEVEL=95 CITYPE=BCA
/CASEWISE PLOT(ZRESID) OUTLIERS(3)
Khối lệnh 2B có nội dung thực hiện 1 phân tích hồi quy tuyến tính đơn biến để khảo sát liên hệ giữa Y và 1 biến
số định tính
Khối lệnh trong bộ syntax chỉ là 1 thí dụ cho trường hợp biến X10 Chúng ta phải lặp lại quy trình này nhiều lần cho tất cả biến số định tính có trong dữ liệu
Chỉ cần thay X10 bằng Xi bất kì, rồi thi hành toàn bộ khối lệnh
Dĩ nhiên bạn cũng có thể dùng khối lệnh 2B này để kiểm tra tương quan của biến định lượng, nhưng kết quả sẽ không khác so với phương pháp Pearson Bản thân hệ số r của Pearson chính là dựa trên mô hình hồi quy đơn biến
Khối lệnh 2B tương đương với thao tác trên giao diện như hình dưới đây
3.3.2 Thăm dò biến số
3
Trang 23Model Summary b
Model R R Square
Adjusted R Square
Std Error of the Estimate Durbin-Watson
1 ,030a ,001 -,025 268,30953 ,009
a Predictors: (Constant), Giới tính
b Dependent Variable: BA.PWV (cm/s)
a Dependent Variable: BA.PWV (cm/s)
b Predictors: (Constant), Giới tính
Giá trị trông đợi: p<0,05
Trong thí dụ này: Mô hình hồi quy đơn biến với Giới tính không có ý nghĩa thống kê (p=0,853)
Kết luận: Có thể loại bỏ biến số Giới tính khỏi danh sách cần thăm dò
Sau đây là hướng dẫn cách đọc kết quả phân tích hồi quy đơn biến cho biến định tính trong bước 2B: Thí
dụ với biến số Giới tính (X1)
3.3.2 Thăm dò biến số
3
Trang 24Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
95,0% Confidence Interval for B
1 (Constant) 1777,495 130,723 13,597 ,000 1512,860 2042,130
Giới tính -15,859 85,274 -,030 -,186 ,853 -188,488 156,770
a Dependent Variable: BA.PWV (cm/s)
Bootstrap for Coefficients
Bootstrap a
Bias Std Error Sig (2-tailed)
BCa 95% Confidence Interval Lower Upper
1 (Constant) 1777,495 1,035 132,964 ,001 1517,673 2021,608
Giới tính -15,859 -1,171 87,621 ,851 -186,923 154,896
a Unless otherwise noted, bootstrap results are based on 1000 bootstrap samples
Bảng Coefficient và Coefficient với bootstrap trình bày nội dung mô hình, ở giai đoạn này bạn chỉ cần đọc nhanh 3 cột cuối cùng để biết ý nghĩa thống kê của hệ số hồi quy cho biến X1 (Giới tính)
Giá trị trông đợi: p<0,05 VÀ CI95% của hệ số B không chứa giá trị 0 (2 ngưỡng Lower và Upper phải cùng dấu); cho thấy biến số Xi có vai trò ý nghĩa trong việc dự báo giá trị Y
Trong trường hợp này: p=0,85 >0,05 và CI95% có giá trị 0 (trái dấu); chứng tỏ vai trò của biến X1 (giới tính) không
Trang 25Model Summary b
Model R R Square Adjusted R Square
Std Error of the Estimate Durbin-Watson
1 ,322 a ,104 ,080 254,16056 ,264
a Predictors: (Constant), Ức chế men chuyển
b Dependent Variable: BA.PWV (cm/s)
a Dependent Variable: BA.PWV (cm/s)
b Predictors: (Constant), Ức chế men chuyển
Coefficients a
Model
Unstandardized Coefficients
Standardize
d Coefficients
t Sig
95,0% Confidence Interval for B
B Std Error Beta
Lower Bound
Upper Bound
1 (Constant) 1722,686 42,961 40,099 ,000 1635,716 1809,656
Ức chế men chuyển 254,514 121,512 ,322 2,095 ,043 8,526 500,502
a Dependent Variable: BA.PWV (cm/s)
Bootstrap for Coefficients
Bootstrap a
Bias Std Error Sig (2-tailed)
BCa 95% Confidence Interval Lower Upper
3.3.2 Thăm dò biến số
3
Trang 26Ức chế men chuyển 0.008 0.043 0.001 Không chứa 0 Nghi ngờ
A B C D
E F G
Danh sách ứng cử viên
Biến định lượng (độ mạnh từ cao đến thấp):
Tuổi, HA tâm thu, BMI, cholesterol toàn phần
Biến định tính (độ mạnh từ cao đến thấp):
Ức chế kênh calci, Ức chế thụ thể beta, ức chế men chuyển (nghi ngờ)
Kết luận: Sau bước 2A và 2B, ta đã phân lập được danh sách những biến số mạnh nhất để đưa vào bước thăm dò
mô hình
Trong số này, 3 biến số định lượng : Tuổi, HA tâm thu và BMI có hệ số tương quan lớn nhất với BA.PWV Trong y văn, cũng có nhiều nghiên cứu đi trước khẳng định liên hệ giữa vận tốc sóng mạch và tuổi, huyết áp, nên ta xem đây là phần lõi của mô hình
Những biến còn lại trong danh sách được xem là yếu, chúng sẽ được khảo sát lại lần nữa khi ghép vào phần lõi nói trên Các bạn sẽ được hướng dẫn cụ thể cách làm trong bước 3A,3B,3C và 3D
3.3.2 Thăm dò biến số
3
Trang 27*Bước 3A: Thăm dò tự động bằng phương pháp
Stepwise
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING PAIRWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
COLLIN TOL CHANGE ZPP
/CASEWISE PLOT(ZRESID) OUTLIERS(3)
*Bước 3B: Thăm dò tự động bằng phương pháp
Thoái triển
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING PAIRWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
COLLIN TOL CHANGE ZPP
/CASEWISE PLOT(ZRESID) OUTLIERS(3)
*Bước 3C: Thăm dò tự động bằng phương pháp
tiến triển
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING PAIRWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
COLLIN TOL CHANGE ZPP
/CASEWISE PLOT(ZRESID) OUTLIERS(3)
3 khối lệnh 3A, 3B, 3C tương ứng với 3 quy trình thăm dò
mô hình tự động:
3A = phương pháp Stepwise
3B=Phương pháp Thoái triển 3C=Phương pháp tiến triển Mỗi phương pháp có ứng dụng riêng, và kết quả của nó còn tùy thuộc vào việc biến số nào được đưa vào mô hình
Thực ra 3 khối lệnh này có nội dung như nhau, chỉ khác dòng lệnh /METHOD=
STEPWISE = phương pháp thăm dò theo thứ bậc (gần giống tiến triển) Máy tính sẽ thử làm t test cho tất cả các khả năng tổ hợp để tìm ra những biến số có hệ số hồi quy cao nhất; sau đó đưa tuần tự vào mô hình cho đến khi R2 không thể cải thiện tốt hơn được nữa
FORWARD/BACKWARD tương ứng với phương pháp tiến
và thoái triển Cùng quy tắc, chỉ khác hướng đi: Thoái triển đi từ mô hình bão hòa và xóa bỏ dần dần biến số yếu; tiến triển đi từ mô hình tối giản và mở rộng dần dần bằng cách thêm biến số Cả 2 hướng sẽ gặp nhau ở mô hình tối ưu, là lúc R2 không thể tăng được nữa (F test cho thay đổi R2 không có ý nghĩa thống kê: p>0,1.)
Quan trọng nhất là những biến số (màu đỏ) nhập vào quy trình: Thông thường bạn sẽ đưa vào tất cả những ứng cử viên tốt nhất mà bạn tìm ra sau bước 2
Trong thí dụ này là X2 X6 X3 X4 X11 X10 X9 Lưu ý: Sắp xếp chúng theo thứ tự độ mạnh Trong nghiên cứu của chính mình, bạn phải thay đổi dòng lệnh này cho phù hợp
Nên chọn phương pháp Thoái triển (Backward), vì nó là cách làm ít nguy cơ sai sót nhất
Ngoài ra, khối lệnh này còn thực hiện:
+Test Durbin Watson cho mô hình tối ưu + Xác định khoảng tin cậy 95% cho hệ số hồi quy + Bảng ANOVA, cung cấp giá trị của các tổng bình phương, k và N: Bạn sẽ cần tới chúng khi tính AIC và BIC thủ công
+ Chẩn đoán sai số
3.3.3 Thăm dò mô hình bằng phương pháp tự động
3
Trang 28Đây là minh họa giao diện cho phương pháp thăm dò Stepwise
Đây là minh họa giao diện cho phương pháp thăm dò Backward
Tùy chỉnh thống kê khi thăm dò Stepwise, Backward hay Forward Lưu ý: Không kích hoạt chức năng Plots, Save và Bootstrap vào lúc này Mục đích của chúng ta chỉ là thăm dò, chưa đi vào phân tích sâu
3.3.3 Thăm dò mô hình bằng phương pháp tự động
3
Trang 29Phương pháp cưỡng bức
Phương pháp tiến triển
Phương pháp thăm dò tự động Phương pháp loại trừ
Phương pháp thoái triển
Danh sách biến số được đưa vào mô hình
Bạn có thể xây dựng mô hình hồi quy tuyến tính tối ưu một cách tự động bằng nhiều cách khác nhau SPSS cho phép lựa chọn đến 5 quy trình tự động để làm việc này Tuy nhiên ở đây tác giả chỉ giới thiệu
về 3 phương pháp thông dụng nhất Mỗi cách làm có ưu điểml và nhược điểm riêng tùy theo hoàn cảnh và mục tiêu nghiên cứu
Điểm lưu ý duy nhất là dù chọn phương pháp nào, thì đó cũng là quy trình tự động và thuần túy toán học, do máy tính thực hiện Cách làm này có thể lý tưởng với các bạn chưa có kinh nghiệm phân tích
số liệu hoặc không có nhiều thời gian
Tác giả khuyến khích việc thực hiện phân tích hồi quy thủ công, trong đó nghiên cứu sinh hoàn toàn chủ động kiểm soát mọi công đoạn, hiểu rõ ý nghĩa, vai trò của từng biến số trước khi thăm dò chúng,
và hiểu rõ vì sao mô hình này tốt hơn mô hình kia để chọn ra mô hình tối ưu Tài liệu sẽ trình bày theo hướng này Phần thăm dò tự động chỉ được trình bày ngắn gọn, trong khi những tiêu chuẩn thăm dò thủ công sẽ được hướng dẫn chi tiết hơn
Trang 30Hình: Đây là hậu quả của việc nhồi nhét hàng loạt biến số vào mô hình : Chúng
sẽ cản trở và triệt tiêu lẫn nhau, cuối cùng mô hình chung sẽ không có ý nghĩa nào cả
Phương pháp cưỡng bức (Forced entry hay Enter)
Nguyên tắc: Đưa đồng thời nhiều biến số độc lập vào mô hình, không quan tâm đến thứ tự giữa chúng Ứng dụng : Phương pháp cưỡng bức chỉ hữu ích duy nhất trong 2 trường hợp:
1 Khi đã chắc chắn về hiệu ứng, vai trò của những biến số sẽ được đưa vào mô hình Trong quy trình hồi quy đa cấp trong SPSS, phương pháp Enter chỉ được sử dụng trong bước cuối cùng, sau khi ta đã loại bỏ những biến số yếu và nắm chắc trong tay những biến số tối ưu Lúc này mục đích của việc chạy lại phân tích là để dùng Bootstrap kiểm tra ý nghĩa phổ quát của hệ số hồi quy, hoặc để sao lưu kết quả dự báo và các thông số nhằm đánh giá phẩm chất của mô hình
2 Phương pháp cưỡng bức là cách hữu hiệu nhất để kiểm tra một giả thuyết nghiên cứu, nhằm kiểm chứng 1 quy luật giả định về tương quan giữa giá trị Y và nhiều biến số X độc lập khác Trong trường hợp này mục tiêu nghiên cứu chỉ nhắm vào 1 giả thuyết này, chứ không phải nhằm tìm ra mô hình tối
ưu Nếu kết quả mô hình có ý nghĩa, giả thuyết đưa ra là đúng Ngược lại, nếu mô hình vô nghĩa, giả thuyết ban đầu là sai Trong cả 2 trường hợp ta đều có thể báo cáo kết quả mô hình tìm được và dừng lại ở đó Đây cũng là cách kiểm tra 1 mô hình có sẵn trên nhiều mẫu ngẫu nhiên để kiểm chứng Ngoài 2 công dụng này, trong đa số trường hợp khác PP Cưỡng bức cho ra kết quả rất tồi tệ, bạn đừng bao giờ hy vọng tạo ra được mô hình tốt chỉ bằng cách ném hàng loạt biến số ngẫu nhiên vào máy tính Lúc này những biến số xấu sẽ triệt tiêu hiệu ứng của những biến số tốt, cuối cùng tất cả đều tắc nghẽn bên trong mô hình và cho ra kết quả vô nghĩa
Mô hình duy nhất chứa tất
cả các biến số, không phân
…
Trang 31So sánh : Mô hình 2 tốt hơn mô hình 1
So sánh : Mô hình 3 tốt hơn mô hình 2
So sánh : Mô hình 4 tương đương với mô hình 3
So sánh : Mô hình 5 kém hơn mô hình 3
A B C Mô hình 3 là mô hình tối ưu Bo+b1*A+b2*B+b3*C+ss
Phương pháp tiến triển (Forward)
Nguyên tắc: Đây là một phân tích tự động gồm nhiều bước do máy tính thực hiện với quy trình như sau:
Bước đầu tiên (Block 0) là một mô hình tối giản chỉ chứa hằng số Bo và sai số ngẫu nhiên (hay nói cách khác: không
có mô hình nào cả) Sau đó từ một tập hợp biến số cho trước, máy tính sẽ thăm dò qua nhiều bước, theo hướng
mở rộng mô hình: Ở mỗi bước, máy tính sẽ tự động chọn ra một biến số Xi được cho là tối ưu ở thời điểm đó (dựa vào độ mạnh của tương quan tuyến tính giữa Xi với Y), để đưa vào mô hình Sau đó máy tính sẽ so sánh mô hình mới sau khi mở rộng với mô hình cũ ngay trước nó:
Nếu khả năng dự báo của mô hình mới được cải thiện tốt hơn, biến Xi sẽ được giữ lại và máy tính tiếp tục đi bước tiếp theo: đưa thêm biến số khác vào, tiếp tục mở rộng mô hình
Nếu mô hình mới không tốt hơn (tương đương hoặc kém hơn) mô hình cũ, biến số Xi sẽ bị loại bỏ; quy trình dừng lại và mô hình ngay trước nó sẽ được công nhận là mô hình tối ưu
Nhận xét: Đây là một cách làm máy móc và thuần túy toán học, tiềm ẩn rất nhiều nguy cơ sai sót:
+ Làm phức tạp hóa vấn đề: Tạo ra một mô hình chứa quá nhiều biến số, trong đó mỗi biến chỉ góp 1 phần rất nhỏ: không thích hợp để nghiên cứu tập trung 1 giả thuyết cụ thể và giảm độ chính xác tương đối của riêng mỗi hệ số hi quy Thực ra, mô hình đẹp nhất nên là 1 mô hình đơn giản chứa ít biến số
+ Nguy cơ bỏ sót oan uổng những biến số thực sự có ích: biến số đi trước nghiễm nhiên được xem là quan trọng hơn, trong khi nó có thể triệt tiêu hiệu ứng của những biến số đi sau (hiệu ứng áp chế); do đó sử dụng PP tiến triển
có thể dẫn tới một mô hình mâu thuẫn với thực tế và lý thuyết trong y văn
Ứng dụng: PP Tiến triển chỉ nên được áp dụng để thăm dò 1 biến số mới lạ, khi đã chắc chắn về phần lõi của mô
hình cơ bản