1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tài liệu hướng dẫn thống kê y học sử dụng SPSS - HỒI QUY TUYẾN TÍNH ĐA BIẾN

63 1,2K 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 3,37 MB

Nội dung

Biến định tính nhị phân Giá trị dự báo: PredY Nguyên tắc của hồi quy tuyến tính: Trong một mẫu khảo sát với n đối tượng, nghiên cứu sinh ghi nhận giá trị thực tế của Y,A,B,C,D.. Trong

Trang 1

Hồi quy tuyến tính đa biến

thống kê y học sử dụng SPSS

Lê Đông Nhật Nam

Trang 2

Chào các bạn, chúng ta lại có dịp gặp nhau lần này để bàn về một chủ đề khá thú vị, đó là mô hình hồi quy tuyến tính Thực ra các bạn sinh viên Y khoa chịu thiệt thòi nhiều hơn sinh viên ngành Kinh tế, vì bên đó

mô hình hồi quy được dạy rất chi tiết và sâu Tuy nhiên trong việc khám chữa bệnh hằng ngày, chúng ta lại ứng dụng mô hình hồi quy rất nhiều, để tiên lượng và dự báo Tất cả những khái niệm định lượng trong cuộc sống đều liên quan tới phương pháp này

Khi còn là học sinh lớp 7, người ta bắt trẻ con khảo sát và vẽ đồ thị hàm số bậc nhất, giải phương trình bậc

2 và 5 năm sau học sinh lại bị ép buộc phải khảo sát những hàm bậc cao hơn, giải những phương trình phức tạp hơn… nhưng chưa bao giờ trường lớp dạy cho ta biết ý nghĩa thực sự của những việc nhàm chán này Trong khi ra đời ta liên tục chịu những áp lực về sự thành/bại và trong hoàn cảnh khó khăn ta phải tự tìm giải pháp cho chính mình Một trong những tình huống đó là dự báo kết quả (1 con số) từ nhiều yếu tố khách quan, với hy vọng có thể thay đổi số phận Muốn thi vào Y khoa thì phải học 3 môn Toán, Hóa, Sinh, vào đại học rồi phải lo dự báo điểm tốt nghiệp, điểm TOIEC, IELTS…, khi đi làm thì lập kế hoạch tài chánh cho việc kết hôn, mua nhà… tất cả đều là những hàm số đa biến mà kết quả (Y) có thể đảo lộn hoàn toàn chỉ vì một thay đổi nhỏ của biến số, hệ số, tham số bên trong Ngược lại, nghiệm ra giá trị (X) cũng như giải một phương trình của chính cuộc đời mình Cuộc đời thực dạy môn toán cho chúng ta tốt hơn bất cứ ông thầy nào

Qua tập tài liệu « nhỏ » này, tác giả hy vọng giúp các bạn thực hiện phân tích hồi quy tuyến tính một cách

dễ dàng và nhanh chóng nhất Có thể bạn là 1 bác sĩ nội trú đang chạy đua với thời gian hoàn thành luận văn, hoặc một sinh viên y khoa tò mò đang vọc phá SPSS, không sao cả vì nội dung trình bày và cách tiếp cận trong tài liệu rất giản dị Như thường lệ, BS Khả Nhi sẽ đơn giản hóa tối đa những lý thuyết phức tạp

và trao cho bạn một công cụ dễ sử dụng, cho phép bạn tự mình làm mọi thứ ngay sau khi đọc xong Chúc các bạn thành công

Lời nói đầu

Trang 3

Quy ước trình bày

Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật

Bác sĩ Nguyễn Văn Thái

Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và

ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống

kê …

Bác sĩ Lê Ngọc Khả Nhi

Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách hồn nhiên và ngây thơ như trẻ con, vì vậy cô ấy luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Khả Nhi sẽ hướng dẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất

Sinh viên Trần Quốc Bảo

Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện còn đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích

số liệu và thiết kế nghiên cứu

3

Trang 4

Thẩm phân phúc mạc

Khảo sát vận tốc sóng mạch

Vận tốc lan truyền sóng mạch là một chỉ số cận lâm sàng cho phép khảo sát tính đàn hồi của thành động mạch Các bệnh nhân được can thiệp bằng thẩm phân phúc mạc hay lọc thận nhân tạo kéo dài có nguy cơ tăng độ cứng thành mạch Trong nghiên cứu nhỏ này, một bác sĩ nội trú khoa ngoại niệu muốn khảo sát sự liên hệ giữa vận tốc sóng mạch cổ chân-cánh tay với những đặc điểm lâm sàng và điều trị trên 40 bệnh nhân thậm phân phúc mạc định kỳ kéo dài > 4 tháng

Vận tốc sóng mạch được đo bằng máy Omron VP-1000 Các yếu tố lâm sàng và điều trị thu thập được gồm có Tuổi, số đo huyết áp, BMI, thời gian thẩm phân phúc mạc; và các loại thuốc hạ áp khác nhau như: Ức chế men chuyển, đối kháng thụ thể Angiotensin, Beta blocker, Calci blocker

Sau khi đã hoàn tất số liệu, chúng ta phải dùng phương pháp thống kê nào để trả lời cho câu hỏi nghiên cứu đã đặt ra ban đầu ?

Bảo thân mến, đây là một trường hợp điển hình có thể áp dụng phân tích hồi quy tuyến tính đa biến Đây là phương pháp toàn diện và triệt để hơn nhiều so với phân tích tương quan Pearson rời rạc Chúng ta sẽ khởi hành nhé ?

Trang 5

Biến định tính nhị phân

Giá trị dự báo: Pred(Y)

Nguyên tắc của hồi quy tuyến tính:

Trong một mẫu khảo sát với n đối tượng, nghiên cứu sinh ghi nhận giá trị thực tế của Y,A,B,C,D

Y là 1 biến số định lượng liên tục (biến phụ thuộc)

A,B,C,D là những biến độc lập hay yếu tố dự báo, hay tham số Chúng có thể là biến định lượng, định tính hoặc thứ hạng

Nghiên cứu sinh xây dựng mô hình hồi quy có dạng:

Y=Hằng số Bo +b1*A+b2*B+b3*C+ sai số ngẫu nhiên

Mô hình này cho phép dự báo giá trị Y = Pred(Y)

Nếu mô hình phù hợp tốt, Pred(Y) sẽ rất gần với Y thực tế

Ứng dụng của phân tích hồi quy tuyến tính:

1 Cho phép dự báo giá trị Y của một cá thể i bất kỳ trong quần thể chung, cũng như xác định giá trị Y trung bình, và những giới hạn trên và dưới của Y trong 1 quần thể đồng nhất Ứng dụng này rất hữu ích trong lâm sàng: xác định giá trị bình thường của 1 đại lượng sinh lý, bệnh học và ngưỡng chẩn đoán, tiên lượng kết quả điều trị…

2 Khảo sát mối liên hệ riêng và bộ phận giữa các yếu tố độc lập và 1 đại lượng Y Mô hình hồi quy cho ra cái nhìn toàn diện và chính xác hơn so với phép phân tích tương quan đơn giản, về quan hệ giữa Y và các yếu

tố này Mô hình hồi quy là giải pháp tối ưu để chứng minh 1 giả thuyết nghiên cứu phức tạp chứa nhiều biến số

3 Mô hình hồi quy tuyến tính là cơ sở của rất nhiều thiết kế nghiên cứu khảo sát, so sánh biến số định lượng; tất cả những thiết kế thông dụng như test t cho phân nhóm độc lập, ANOVA đơn biến, ANCOVA, Moderation, Mediation… đều có bản chất là mô hình hồi quy tuyến tính

Kết luận: Nên sử dụng phương pháp hồi quy tuyến tính cho: Thiết kế nghiên cứu định lượng, với nhiều biến số, và/hoặc với mục đích dự báo

Trang 6

Trong trường hợp đơn giản nhất ta có:

Giá trị dự báo Y = hằng số + hệ số x biến số dự báo + sai số

Mô hình hồi quy tuyến tính đơn giản nhất chỉ có 1 biến số, gọi là hồi quy đơn biến :

Y = bo + bx + ε

Mô hình hồi quy tuyến tính tổng quát có thể chứa nhiều yếu tố

dự báo, gọi là hồi quy đa biến :

Y = bo + (b1x1)+(b2x2)+… (bi*Xi) + ε

Hàm số này cho phép dự báo giá trị y tùy theo giá trị của x cho trước

Trong phương pháp hồi quy tuyến tính :

Y gọi là biến số phụ thuộc (dependent variable) hay giá trị dự báo (predicted outcome)

X gọi là biến số độc lập (independent variable) hay yếu tố dự báo (factor, predictor)

Giá trị ε gọi là sai số hay phần bất định (residual, error)

B gọi là hệ số hồi quy (Beta) Một mô hình được xem là tốt khi nó cho ra giá trị dự báo phù hợp với giá trị thực tế quan sát được (tính phù hợp dữ liệu là một tiêu chuẩn để đánh giá chất lượng của mô hình)

Ví dụ về mô hình hồi quy 2 biến: Đồ thị của

quan hệ 3 chiều giữa vận tốc sóng mạch và

Tuổi, HA tâm thu

Trang 7

Mô hình hồi quy cho phép

dự báo thu được 10,000

mũi tên ± sai số ngẫu nhiên

Mức độ phù hợp số liệu của mô hình được đánh giá bằng test F (giống như test F mà ta biết trong ANOVA)

F là tỉ số giữa giá trị trung bình phương sai hệ thống (do mô hình: MSM) và trung bình của phương sai ngẫu nhiên (MSR)

𝐹 = 𝑀𝑆𝑀 𝑀𝑆𝑅 =

( 𝑑𝑓𝑀) 𝑆𝑆𝑀 𝑆𝑆𝑅 𝑑𝑓𝑅

Trong đó MSM là trung bình bình phương sai số do mô hình, MSR là trung bình bình phương sai số không do mô hình (yếu tố ngẫu nhiên, phần bất định): SSM và SSR là tổng phương sai của do mô hình và do yếu tố ngẫu nhiên

dfM và dfR lần lượt là độ tự do của SSM và SSR Trung bình bình phương bằng tổng bình phương chia cho độ tự do df dfM = số lượng yếu tố dự báo (biến số x) có trong mô hình;

𝑑𝑓𝑀 = 𝑘

ví dụ mô hình dự báo

y = bo+b1*X1+b2*X2 có 3 yếu tố (Bo, X1, X2) do đó df =3

dfR = số trường hợp quan sát (cỡ mẫu) trừ cho số lượng tham số k (bao gồm cả hằng số bo và hệ số bi)

𝑑𝑓𝑅 = 𝑁 − 𝑘

ví dụ mô hình y = bo+b1x được thiết lập dựa vào quần thể có n = 20, thì dfR = 20 –2 = 18

Căn bậc 2 của hệ số R2 chính là hệ số tương quan r của Pearson, đo lường sự tương quan giữa Y và X

SST

SSM SSR

Mô hình này có k= 5 (tính cả hằng số Bo) Gia Cát Lượng chỉ áp dụng 1 lần duy nhất, nhưng không biết trong đầu ông ta đã làm bootstrap bao nhiêu lần ?

dfM dfR

Trang 8

F khảo sát mức độ phù hợp của mô hình, tỉ lệ giữa khả năng dự báo nội tại và phần sai số do ngẫu nhiên Giá trị F > 1 được trông đợi, và F càng cao thì mô hình càng tốt (càng phù hợp tốt với dữ liệu thực tế ) vì MSR càng nhỏ thì sai biệt giữa giá trị dự báo và giá trị thực tế càng nhỏ)

F cũng có thể biểu diễn như một test thống kê kiểm tra ý nghĩa của hệ số R2

𝐹 = 𝑁 − 𝑘 − 1 𝑅2𝑘(1 − 𝑅2)Với N = số trường hợp, k là số lượng yếu tố dự báo

Với giả thuyết H0 là R2 = 0

1

Not this Fisher !

Giáo sư Ronald Aylmer Fisher (1890-1962) Nhà di truyền học và

thống kê người Anh

F for « Fisher »

Kiểm định F được GS Ronald A Fisher thiết kế năm 1920 Test F dùng để kiểm tra giá trị của các

mô hình hồi quy

1.4 Test t: kiểm tra ý nghĩa của hệ số hồi quy Beta

Cây giờ ta sẽ đánh giá ý nghĩa của mỗi yếu tố dự báo (biến số x), thông qua hệ số hồi quy Beta (B)

Một yếu tố dự báo (hay biến xi) không có ý nghĩa khi nó nhận hệ số bi=0 ; tức là dù xi thay đổi nhưng

không ảnh hưởng gì đến y Như vậy: giả thuyết H0: bi = 0

Để kiểm tra giả thuyết liệu 1 chỉ số nào đó khác 0 ?, ta lại sử dụng test t

Đầu tiên ta tính giá trị t:

Trong đó k là số lượng yếu tố dự báo (biến số)

Ví dụ mô hình hồi quy tuyến tính đơn biến có dft = (N-2)

Kiểm tra giả thuyết này bằng cách đọc bảng t, tìm giá trị p… như ta đã biết

Đến đây, chắc các bạn đã phát hiện ra điều thú vị là hầu hết những phương pháp ta thường dùng (so

sánh bằng test t, ANOVA, tương quan pearson) đều dẫn về một nguồn gốc chung là mô hình hồi quy

tuyến tính

1.3 Test F của Fisher

Trang 9

Thăm dò biến số

Thăm dò các mô hình hồi quy đa biến

Kiểm tra nội dung mô hình tối ưu

Kiểm tra ý nghĩa phổ quát mô hình

Biến định tính: Kiểm tra bằng mô hình hồi quy đơn biến

Mục tiêu: Tìm ra mô hình hồi quy tối ưu với những tiêu chí: khả năng dự báo tốt nhất, sai số thấp nhất, phù hợp dữ liệu cao nhất

Phương pháp: Thăm dò từng bước tất cả khả năng tổ hợp giữa các biến số độc lập

Có thể làm thủ công, hoặc áp dụng quy trình tự động (stepwise, thoái triển, tiến triển trong SPSS)

Sau khi tìm ra mô hình tối ưu ở cuối bước 2, ta chạy phân tích hồi quy lần 2 trên chính mô hình này, có sao lưu dữ liệu

về sai số

Mục tiêu:

+ Kiểm tra những giả định về phẩm chất mô hình

+ Phát hiện điểm cá biệt và gây ảnh hưởng xấu cho mô hình + Phát hiện các vi phạm như đa cộng tuyến, tự tương quan…

Chạy phân tích hồi quy lần 3 cho cùng mô hình tối ưu, lần này có kèm Bootstrap

Mục tiêu: Kiểm tra lần cuối về ý nghĩa phổ quát của hệ số hồi quy

Không có quy trình cố định nào cho việc xây dựng mô hình hồi quy tối ưu Tài liệu này cũng sẽ không đưa

(3) Khi đã loại bỏ tất cả biến số yếu, ta sẽ có mô hình tối ưu, như thế vẫn chưa đủ, bạn còn phải kiểm tra khả năng dự báo chính xác của nó và phát hiện những case không phù hợp với mô hình này

(4) Cuối cùng, bạn sẽ áp dụng bootstrap để kiểm tra ý nghĩa phổ quát của mô hình Bootstrap còn cho phép cải thiện một số vi phạm về số liệu mà bước 3 đã phát hiện ra

Trang 10

Quy trình hồi quy tuyến tính trên giao diện

1-3) Kích hoạt quy trình: Nhấn Analyze > Regression > Linear

4) Kéo biến số Y vào ô Dependent

5) Chọn phương pháp : Enter, Stepwise, Backward, Forward…

6) Kéo biến số dự báo vào ô Independent

7) Tùy chỉnh thống kê

2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.1 Kích hoạt chức năng phân tích hồi quy

Trang 11

Nếu chọn Exclude case Listwise:

Case 2 và 4 sẽ không được xét trong cả 2 phân tích tương quan Y(X1) và Y(X2)

Nếu chọn Exclude case Pairwise Case 2 sẽ không được xét trong phân tích tương quan Y(X2) nhưng vẫn được xét trong tương quan Y(X1)

Case 4 dĩ nhiên không được xét trong cả 2 phân tích Nếu chọn Replace with mean: SPSS sẽ tự động lấp chỗ trống

số liệu cho case 2 bằng giá trị trung bình X2 và Case 4 bằng giá trị trung bình của X1 và X2

Nhận xét: Nên chọn Exclude cases pairwise để đạt được cỡ

lẫu tối ưu cho mỗi biến số dự báo Hai lựa chọn còn lại không nên chọn, vì sẽ gậy sai lệch cho hệ số hồi quy trong

mô hình

Nên chọn: Include constant in equation

Nên chọn sử dụng xác suất của trị số F hơn là bản thân giá trị F

Hộp thoại Option cho phép tùy chỉnh một số tiêu chuẩn như:

- Tiêu chuẩn đánh giá mô hình trong quy trình thăm dò tự động (Stepwise)

- Cách xử trí trong trường hợp sót dữ liệu (missing value)

- Mô hình có hay không có hằng số Bo?

2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.2 Tùy chỉnh thông kê

Trang 12

Danh mục các tùy chỉnh thống kê:

Estimates: Tính hệ số hồi quy beta cho mỗi biến độc lập, làm test t để kiểm định giả thuyết B=0 nhằm xác

nhận vai trò của yếu tố dự báo

CI95% Xác định khoảng tin cậy 95% của mỗi hệ số hồi quy B (có hoặc không sử dụng Bootstrap)

Model fit: đây là chức năng quan trọng, bao gồm bảng ANOVA với test F nhằm kiểm tra ý nghĩa thống kê

của mô hình, tính hệ số R2 và R2 hiệu chỉnh theo Wherry

R 2 change: Chức năng này hữu ích khi thực hiện thăm dò qua nhiều bước (Blockwise, stepwise, forward

hay backward), nó cung cấp giá trị thay đổi của R2 giữa mô hình mới và mô hình cũ có trước, sau khi thêm, bớt 1 hay nhiều biến số Thay đổi R2 có ý nghĩa thống kê là một trong các tiêu chí để lựa chọn mô hình tối ưu

Descriptive: Thực hiện thống kê mô tả, cung cấp giá trị trung bình, SD và cỡ mẫu cho mỗi yếu tố dự báo

X Ngoài ra nó còn quét ma trận tương quan giữa tất cả biến số độc lập, nhằm kiểm tra vấn đề đa cộng tuyến

Part-Partial correlation: Tính hệ số tương quan riêng (Pearson) và tương quan bộ phận và bán bộ phận

(có xét đến những yếu tố khác) giữa Y và mỗi tham số X Ghi chú: Tương quan bán bộ phận khảo sát quan

hệ giữa X và 1 phần biến thiên của Y chưa được giải thích bởi những tham số khác trong mô hình

Collinearity diagnostic: Chẩn đoán đa cộng tuyến: cung cấp giá trị VIF, Tolerance, eigen value cho mỗi

yếu tố dự báo, nhằm chẩn đoán vấn đề đa cộng tuyến

Kiểm định Durbin Watson: nhằm kiểm tra giả định về tính độc lập của sai số

Case wise diagnostic: Liệt kê giá trị dự báo và thực tế của Y, kèm theo sai biệt giữa chúng (sai số thặng dư

và sai số chuẩn hóa): cho toàn bộ quần thể nghiên cứu, hay phân lập riêng những trường hợp cá biệt (RSD > 3)

Kèm theo bảng tóm tắt giá trị dự báo và Residual: Min, max, Mean và SD

Trang 13

Danh mục những biến số có thể chọn để vẽ biểu đồ tương quan tuyến tính:

Dependent: Đây là giá trị dự báo hay giá trị Y được ước tính dựa vào mô hình (cần phân biệt với giá trị

Y thực tế quan sát được)

*Zpred: Standardized predicted value: Giá trị dự báo chuẩn hóa hay Z-score của giá trị dự báo

*Zresid: Standardized residual: Sai số chuẩn hóa = khác biệt giữa giá trị dự báo và giá trị thực tế, đã chuẩn hóa

*Dresid: Deleted residual

*AdjPred: Adjusted predicted value = giá trị dự báo sau hiệu chỉnh

*Sresid: Studentized residual = Sai số chuẩn hóa theo Student = Residual/ SE của nó

*SDResid: Studentized deleted residual: = Dresid/ SE của nó

Hộp thoại cho phép dựng biểu đồ tương quan tuyến tính giữa 1 đại lượng Y và 1 đại lượng X, tùy chọn Ghi chú: Trong thực hành, bạn chỉ cần dựng 2 biểu đồ như sau:

Y=Zresid và X= Zpred : nhằm kiểm tra giả định về tính độc lập của sai số, giả định homoscedasticity và giả định linearity

Y=Sresid và X=Zpred, nhằm phân lập những trường hợp vi phạm giả định về homoscedasticity

Mô tả phân phối của sai số thặng dư (Residual) bằng Histogram, kiểm tra giả định phân phối chuẩn của sai số

Vẽ các biểu đồ kiểm tra giả định phân phối chuẩn của Residual

Dựng tất cả biểu đồ tương quan tuyến tính bộ phận giữa Y= giá trị dự báo Y và X= biến số độc lập Xi Giúp phát hiện điểm cá biệt, khống chế (outliers), quan hệ phi tuyến tính, cộng tuyến…

Trang 14

chất mô hình, xét về khả năng dự báo

và sai biệt so với thực tế

Những thông số nhằm phát hiện những trường hợp cá biệt, khống chế ảnh hưởng đến phẩm chất mô hình

X Các thông số cần sao lưu

Ghi chú: Nên dùng giá trị đã chuẩn

hóa (standardized hay Studentized) vì cho phép diễn giải dễ dàng hơn

B

Chức năng sao lưu những thông số của mô hình:

Đây là một chức năng hữu ích, vì nó cho phép đánh giá phẩm chất mô hình, bao gồm độ phù hợp với dữ liệu thực tế, khả năng dự báo chính xác, và phân lập những trường hợp có nguy cơ gây ảnh hưởng xấu cho mô hình Bạn sẽ thấy một hộp thoại với nhiều ô tùy chọn, mỗi ô là một thông số có thể sao lưu Khi bạn chọn những thông số này trước khi chạy 1 phân tích hồi quy, SPSS sẽ sao lưu giá trị các thông số được chọn, thẳng vào bảng số liệu dưới dạng những biến số mới Sau đó bạn có thể dùng những biến số được sao lưu này để chẩn đoán về phẩm chất của mô hình và kiểm tra các giả định

Lưu ý:

+ Điểm bất lợi thứ nhất của chức năng sao lưu, đó là tên các biến số đều viết tắt, và mỗi lần bạn chạy 1 phân tích mới, quy trình sao lưu được lặp lại và nếu cứ theo hướng này, hàng loạt biến mới lại được chèn vào database, bảng số liệu của bạn sẽ bị kéo dài và cực kì rối rắm Do đó, bạn chỉ nên kích hoạt chức năng Save 1 lần duy nhất, cho mô hình tối ưu, sau khi kiểm tra mô hình xong bạn nên xóa toàn bộ những biến số sao lưu

để dọn dẹp sạch sẽ bảng số liệu trước khi thực hiện 1 lệnh Save khác

+Điểm bất lợi thứ 2 là chức năng Save và Bootstrap triệt tiêu lẫn nhau, bạn không thể vừa làm sao lưu, vừa chạy Bootstrap Do đó với 1 mô hình hồi quy bạn phải chạy phân tích ít nhất 3 lần:

Lần thứ 1: Không kích hoạt Save và Bootstrap: Thăm dò thủ công hoặc Stepwise, nhằm tìm ra mô hình tối ưu Lần thứ 2: Bạn chạy lại phân tích lần nữa, không sử dụng bootstrap nhưng kích hoạt Save,để đánh giá phẩm

Trang 15

Viết tắt Ý nghĩa Diễn giải

PRE_1 Predicted value Giá trị dự báo không chuẩn hóa

ZPR_1 Standardized Pred Giá trị dự báo đã chuẩn hóa

ADJ_1 Adjusted pred Giá trị dự báo hiệu chỉnh

SEP_1 SE of Predicted val Sai số chuẩn của giá trị dự báo

ZRE_1 Standardized Res Sai số thặng dư có chuẩn hóa

SRE_1 Studentized Res Sai số chuẩn hóa theo phân phối Student

MAH_1 Mahalanobis distance Khoảng cách giữa giá trị thực tế và trung bình

của biến số dự báo

COO_1 Cook’s distance Thông số dùng để phát hiện điểm cá biệt

LEV_1 Leverage value Thông số dùng để phát hiện điểm áp chế

SDB0_1 Standardized DfBeta for

Intercept

Trị số DfBeta cho hằng số Bo

SDB1_1 Standardized DfBeta for

predictor1

Trị số DfBeta cho biến số X1

SDB2_1 Standardized DfBeta for

predictor2

Trị số DfBeta cho biến số X2

COV_1 Covariance ratio Tỉ số hiệp phương sai: một thông số khác để

chẩn đoán điểm cá biệt và áp chế

Bảng: Danh sách tên viết tắt và ý nghĩa những biến số sao khi được sao lưu vào database:

Ghi chú: con số nằm ở cuối tên biến (Ví dụ: 1) cho biết lần sao lưu, nếu bạn lặp lại lệnh Save thì 1 loạt

biến mới sẽ được sao lưu với tên gọi mới: ví dụ sao lưu lần 2 bạn sẽ có: PRE_1, COO_2… Trên thực tế bạn nên xóa sạch những biến số cũ nếu muốn sao lưu cho mô hình mới

2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.5 Sao lưu dữ liệu

Trang 16

3 3 Hướng dẫn chi tiết quy trình phân tích hồi quy 3.1 Lập bảng số liệu

Nghiên cứu này có 13 biến số:

Y là biến số phụ thuộc trong mô hình hồi quy = Vận tốc sóng mạch Cổ chân-cánh tay

12 biến số độc lập: Các yếu tố lâm sàng và điều trị thu thập được gồm có Tuổi, số đo huyết áp, BMI, thời gian thẩm phân phúc mạc, thuốc lá, Cholesterol toàn phần; và các loại thuốc hạ áp khác nhau như:

Ức chế men chuyển, đối kháng thụ thể Angiotensin, Beta blocker, Calci blocker

Việc nhập số liệu thì chắc bạn dễ dàng thực hiện Chỉ lưu ý là những biến định lượng nhị phân nên được

mã hóa giá trị =0/1

Trang 17

Mở file syntax: Có 2 cách, hoặc bạn đi từ màn hình chính của SPSS như sau

Cửa sổ Syntax editor sẽ mở ra, hiển thị nội dung những lệnh bên trong

Trang 18

1

2

Để thi hành một khối lệnh tùy chọn:

1° Đánh dấu chọn 1 khối lệnh cần thi hành 2° Click chuột phải trong syntax editor rồi chọn Run Selection, hoặc nhấn nút Run (màu xanh) trên menu

2

Lưu ý:

Tài liệu này khuyến khích sử dụng syntax thay vì thao tác trên giao diện, nhằm tiết kiệm thời gian cho chính bạn Tuy nhiên ứng với mỗi đoạn syntax tác giả cũng cung cấp screen capture về thiết kế tùy chỉnh trên giao diện

Những khối lệnh phải được thi hành riêng rẽ và tuần tự, không nên chạy hàng loạt Trong

đa số trường hợp bạn phải điều chỉnh lại nội dung cho phù hợp với nghiên cứu của bản thân Một số khối lệnh phải được chỉnh sửa và thi hành lặp lại nhiều lần, ví dụ để thăm dò biến số và thăm dò mô hình

SPSS rất mạnh trong việc thăm dò tự động, và đa số trường hợp kết quả rất chính xác, phù hợp với nhau (đường nào cũng về La Mã); nhưng tác giả không tin tưởng vào bất cứ quy trình tự động nào, chính nghiên cứu sinh phải chủ động kiểm soát mọi công đoạn

Hơn nữa, khi làm thủ công bạn có thể nhìn thấy được những mô hình trung gian, và dùng trị số R2 hiệu chỉnh, BIC hay AIC để lựa chọn, chức năng này không được hỗ trợ bởi SPSS Tác giả đã cung cấp cho các bạn 1 bảng Excel kèm theo với rất nhiều tiêu chí được lập trình sẵn, nhằm kiểm tra phẩm chất mô hình và giúp bạn lựa chọn được mô hình tối ưu và có bằng chứng xác thực cho lựa chọn này để báo cáo

Trang 19

*Bước 1: Khai báo biến

* 1A Dán nhãn tên biến

X12 "Thời gian thẩm phân"

* 1B Dán nhãn giá trị cho biến định tính nhị phân

Ví dụ biến X1 (giới tính) được mã hóa: 1=Nam, 2=Nữ

Cú pháp lệnh dán nhãn giá trị là:

VALUE LABELS

Xi [Giá trị số] ‘’Nhãn’’

Mỗi giá trị cách nhau 1 khoảng trắng

Vì thí dụ này chỉ có biến nhị phân nên giá trị chỉ được mã hóa =1/0 hoặc 1,2

Nếu bạn có biến định tính nhiều giá trị, bạn có thể dán nhãn tiếp tục cho giá trị 3,4,5…

Sau khi chạy syntax, nội dung biến số trong database sẽ được thay đổi Bạn cũng có thể dùng Editor ở chế độ

Variable view để làm thủ công nếu không quen dùng Syntax, nhưng như ta thấy, dùng syntax dễ hơn…

Mục tiêu của phần này là để giúp các bạn hiểu cú pháp lệnh trong bộ syntax để có thể chỉnh sửa cho nghiên cứu của riêng bạn Phần màu đỏ có thể tùy chỉnh Những dòng bắt đầu bằng dấu * không phải là lệnh mà chỉ là chú thích kèm theo

Trang 20

*Bước 2A: Thăm dò tương quan giữa Y và các biến

Sau đó áp dụng lệnh CORRELATIONS để phân tích tương quan theo phương pháp mặc định là Pearson, với giá trị p 1 bên

Trong thí dụ này ngoài Y, chỉ có 6 biến định lượng là X2,X3,X4,X6,X7 và X12

Khi áp dụng bộ syntax cho nghiên cứu của mình, bạn nên sửa lại nội dung 2 phần màu đỏ, với những biến định lượng của riêng bạn

Trong trường hợp bạn thích thao tác trên giao diện: quy trình phân tích tương quan được thực hiện như sau:

3.3.2 Thăm dò biến số

3

Trang 21

BA.PWV (cm/s) Tuổi

BMI (kg/m2)

Cholester

ol (mg/dL)

HA T.Thu (mmHg)

HA T.Trương (mmHg)

Thời gian thẩm phân BA.PWV (cm/s) Pearson Correlation 1 ,961 ** -,871 ** ,738 ** ,914 ** ,228 ,276 *

Confiden

ce Interval

Lower ,938 -,951 ,559 ,866 -,086 -,013 Upper

,980 -,772 ,873 ,950 ,487 ,533

2

3

1

Tương quan có ý nghĩa thống kê : Tốt

Khoảng tin cậy của hệ số tương quan không chứa giá trị 0: Tốt

Trường hợp nghi ngờ : nằm gần ngưỡng 0,05 nhưng tương quan yếu

Chắc chắn không có tương quan: p>0,05 hoặc CI95% của r chứa giá trị 0

Chọn vào danh sách ứng cử viên

Loại khỏi danh sách ứng cử viên

Đây là kết quả thăm dò tương quan tuyến tính giữa Y và các biến định lượng, với mục tiêu chọn ra những biến định lượng có quan hệ tuyến tính mạnh nhất với Y để đưa vào danh sách ứng cử viên yếu tố dự báo tiềm năng cho mô hình hồi quy

Bạn chỉ cần đọc kết quả hàng đầu tiên: Y (BA.PWV), và tập trung vào 2 tiêu chí:

+ Giá trị p (1 phía) : cho biết ý nghĩa thống kê của quan hệ tuyến tính giữa Y và X

+ Khoảng tin cậy của hệ số tương quan Pearson r:

Tiêu chuẩn lựa chọn:

P<0,05 VÀ CI95% của r không chứa giá trị 0 (Lower và Upper phải cùng dấu)

Loại trừ những biến số có:

P<0,05 HOẶC CI95% của r CÓ chứa giá trị 0 (Lower và Upper trái dấu)

Trong thí dụ này, ta đã tuyển chọn được 4 biến số định lượng: Tuổi, BMI, Cholesterol, HA tâm thu

để đưa vào bước thăm dò mô hình

Và loại trừ được 2 biến số: HA tâm trương và Thời gian thẩm phân

3.3.2 Thăm dò biến số

3

Trang 22

*Bước 2B: Thăm dò những yếu tố định tính

bằng mô hình hồi quy đơn biến

*Thí dụ cho biến X10

BOOTSTRAP

/SAMPLING METHOD=SIMPLE

/VARIABLES TARGET=Y INPUT= X10

/CRITERIA CILEVEL=95 CITYPE=BCA

/CASEWISE PLOT(ZRESID) OUTLIERS(3)

Khối lệnh 2B có nội dung thực hiện 1 phân tích hồi quy tuyến tính đơn biến để khảo sát liên hệ giữa Y và 1 biến

số định tính

Khối lệnh trong bộ syntax chỉ là 1 thí dụ cho trường hợp biến X10 Chúng ta phải lặp lại quy trình này nhiều lần cho tất cả biến số định tính có trong dữ liệu

Chỉ cần thay X10 bằng Xi bất kì, rồi thi hành toàn bộ khối lệnh

Dĩ nhiên bạn cũng có thể dùng khối lệnh 2B này để kiểm tra tương quan của biến định lượng, nhưng kết quả sẽ không khác so với phương pháp Pearson Bản thân hệ số r của Pearson chính là dựa trên mô hình hồi quy đơn biến

Khối lệnh 2B tương đương với thao tác trên giao diện như hình dưới đây

3.3.2 Thăm dò biến số

3

Trang 23

Model Summary b

Model R R Square

Adjusted R Square

Std Error of the Estimate Durbin-Watson

1 ,030a ,001 -,025 268,30953 ,009

a Predictors: (Constant), Giới tính

b Dependent Variable: BA.PWV (cm/s)

a Dependent Variable: BA.PWV (cm/s)

b Predictors: (Constant), Giới tính

Giá trị trông đợi: p<0,05

Trong thí dụ này: Mô hình hồi quy đơn biến với Giới tính không có ý nghĩa thống kê (p=0,853)

Kết luận: Có thể loại bỏ biến số Giới tính khỏi danh sách cần thăm dò

Sau đây là hướng dẫn cách đọc kết quả phân tích hồi quy đơn biến cho biến định tính trong bước 2B: Thí

dụ với biến số Giới tính (X1)

3.3.2 Thăm dò biến số

3

Trang 24

Coefficients a

Model

Unstandardized Coefficients

Standardized Coefficients

t Sig

95,0% Confidence Interval for B

1 (Constant) 1777,495 130,723 13,597 ,000 1512,860 2042,130

Giới tính -15,859 85,274 -,030 -,186 ,853 -188,488 156,770

a Dependent Variable: BA.PWV (cm/s)

Bootstrap for Coefficients

Bootstrap a

Bias Std Error Sig (2-tailed)

BCa 95% Confidence Interval Lower Upper

1 (Constant) 1777,495 1,035 132,964 ,001 1517,673 2021,608

Giới tính -15,859 -1,171 87,621 ,851 -186,923 154,896

a Unless otherwise noted, bootstrap results are based on 1000 bootstrap samples

Bảng Coefficient và Coefficient với bootstrap trình bày nội dung mô hình, ở giai đoạn này bạn chỉ cần đọc nhanh 3 cột cuối cùng để biết ý nghĩa thống kê của hệ số hồi quy cho biến X1 (Giới tính)

Giá trị trông đợi: p<0,05 VÀ CI95% của hệ số B không chứa giá trị 0 (2 ngưỡng Lower và Upper phải cùng dấu); cho thấy biến số Xi có vai trò ý nghĩa trong việc dự báo giá trị Y

Trong trường hợp này: p=0,85 >0,05 và CI95% có giá trị 0 (trái dấu); chứng tỏ vai trò của biến X1 (giới tính) không

Trang 25

Model Summary b

Model R R Square Adjusted R Square

Std Error of the Estimate Durbin-Watson

1 ,322 a ,104 ,080 254,16056 ,264

a Predictors: (Constant), Ức chế men chuyển

b Dependent Variable: BA.PWV (cm/s)

a Dependent Variable: BA.PWV (cm/s)

b Predictors: (Constant), Ức chế men chuyển

Coefficients a

Model

Unstandardized Coefficients

Standardize

d Coefficients

t Sig

95,0% Confidence Interval for B

B Std Error Beta

Lower Bound

Upper Bound

1 (Constant) 1722,686 42,961 40,099 ,000 1635,716 1809,656

Ức chế men chuyển 254,514 121,512 ,322 2,095 ,043 8,526 500,502

a Dependent Variable: BA.PWV (cm/s)

Bootstrap for Coefficients

Bootstrap a

Bias Std Error Sig (2-tailed)

BCa 95% Confidence Interval Lower Upper

3.3.2 Thăm dò biến số

3

Trang 26

Ức chế men chuyển 0.008 0.043 0.001 Không chứa 0 Nghi ngờ

A B C D

E F G

Danh sách ứng cử viên

Biến định lượng (độ mạnh từ cao đến thấp):

Tuổi, HA tâm thu, BMI, cholesterol toàn phần

Biến định tính (độ mạnh từ cao đến thấp):

Ức chế kênh calci, Ức chế thụ thể beta, ức chế men chuyển (nghi ngờ)

Kết luận: Sau bước 2A và 2B, ta đã phân lập được danh sách những biến số mạnh nhất để đưa vào bước thăm dò

mô hình

Trong số này, 3 biến số định lượng : Tuổi, HA tâm thu và BMI có hệ số tương quan lớn nhất với BA.PWV Trong y văn, cũng có nhiều nghiên cứu đi trước khẳng định liên hệ giữa vận tốc sóng mạch và tuổi, huyết áp, nên ta xem đây là phần lõi của mô hình

Những biến còn lại trong danh sách được xem là yếu, chúng sẽ được khảo sát lại lần nữa khi ghép vào phần lõi nói trên Các bạn sẽ được hướng dẫn cụ thể cách làm trong bước 3A,3B,3C và 3D

3.3.2 Thăm dò biến số

3

Trang 27

*Bước 3A: Thăm dò tự động bằng phương pháp

Stepwise

REGRESSION

/DESCRIPTIVES MEAN STDDEV CORR SIG N

/MISSING PAIRWISE

/STATISTICS COEFF OUTS CI(95) R ANOVA

COLLIN TOL CHANGE ZPP

/CASEWISE PLOT(ZRESID) OUTLIERS(3)

*Bước 3B: Thăm dò tự động bằng phương pháp

Thoái triển

REGRESSION

/DESCRIPTIVES MEAN STDDEV CORR SIG N

/MISSING PAIRWISE

/STATISTICS COEFF OUTS CI(95) R ANOVA

COLLIN TOL CHANGE ZPP

/CASEWISE PLOT(ZRESID) OUTLIERS(3)

*Bước 3C: Thăm dò tự động bằng phương pháp

tiến triển

REGRESSION

/DESCRIPTIVES MEAN STDDEV CORR SIG N

/MISSING PAIRWISE

/STATISTICS COEFF OUTS CI(95) R ANOVA

COLLIN TOL CHANGE ZPP

/CASEWISE PLOT(ZRESID) OUTLIERS(3)

3 khối lệnh 3A, 3B, 3C tương ứng với 3 quy trình thăm dò

mô hình tự động:

3A = phương pháp Stepwise

3B=Phương pháp Thoái triển 3C=Phương pháp tiến triển Mỗi phương pháp có ứng dụng riêng, và kết quả của nó còn tùy thuộc vào việc biến số nào được đưa vào mô hình

Thực ra 3 khối lệnh này có nội dung như nhau, chỉ khác dòng lệnh /METHOD=

STEPWISE = phương pháp thăm dò theo thứ bậc (gần giống tiến triển) Máy tính sẽ thử làm t test cho tất cả các khả năng tổ hợp để tìm ra những biến số có hệ số hồi quy cao nhất; sau đó đưa tuần tự vào mô hình cho đến khi R2 không thể cải thiện tốt hơn được nữa

FORWARD/BACKWARD tương ứng với phương pháp tiến

và thoái triển Cùng quy tắc, chỉ khác hướng đi: Thoái triển đi từ mô hình bão hòa và xóa bỏ dần dần biến số yếu; tiến triển đi từ mô hình tối giản và mở rộng dần dần bằng cách thêm biến số Cả 2 hướng sẽ gặp nhau ở mô hình tối ưu, là lúc R2 không thể tăng được nữa (F test cho thay đổi R2 không có ý nghĩa thống kê: p>0,1.)

Quan trọng nhất là những biến số (màu đỏ) nhập vào quy trình: Thông thường bạn sẽ đưa vào tất cả những ứng cử viên tốt nhất mà bạn tìm ra sau bước 2

Trong thí dụ này là X2 X6 X3 X4 X11 X10 X9 Lưu ý: Sắp xếp chúng theo thứ tự độ mạnh Trong nghiên cứu của chính mình, bạn phải thay đổi dòng lệnh này cho phù hợp

Nên chọn phương pháp Thoái triển (Backward), vì nó là cách làm ít nguy cơ sai sót nhất

Ngoài ra, khối lệnh này còn thực hiện:

+Test Durbin Watson cho mô hình tối ưu + Xác định khoảng tin cậy 95% cho hệ số hồi quy + Bảng ANOVA, cung cấp giá trị của các tổng bình phương, k và N: Bạn sẽ cần tới chúng khi tính AIC và BIC thủ công

+ Chẩn đoán sai số

3.3.3 Thăm dò mô hình bằng phương pháp tự động

3

Trang 28

Đây là minh họa giao diện cho phương pháp thăm dò Stepwise

Đây là minh họa giao diện cho phương pháp thăm dò Backward

Tùy chỉnh thống kê khi thăm dò Stepwise, Backward hay Forward Lưu ý: Không kích hoạt chức năng Plots, Save và Bootstrap vào lúc này Mục đích của chúng ta chỉ là thăm dò, chưa đi vào phân tích sâu

3.3.3 Thăm dò mô hình bằng phương pháp tự động

3

Trang 29

Phương pháp cưỡng bức

Phương pháp tiến triển

Phương pháp thăm dò tự động Phương pháp loại trừ

Phương pháp thoái triển

Danh sách biến số được đưa vào mô hình

Bạn có thể xây dựng mô hình hồi quy tuyến tính tối ưu một cách tự động bằng nhiều cách khác nhau SPSS cho phép lựa chọn đến 5 quy trình tự động để làm việc này Tuy nhiên ở đây tác giả chỉ giới thiệu

về 3 phương pháp thông dụng nhất Mỗi cách làm có ưu điểml và nhược điểm riêng tùy theo hoàn cảnh và mục tiêu nghiên cứu

Điểm lưu ý duy nhất là dù chọn phương pháp nào, thì đó cũng là quy trình tự động và thuần túy toán học, do máy tính thực hiện Cách làm này có thể lý tưởng với các bạn chưa có kinh nghiệm phân tích

số liệu hoặc không có nhiều thời gian

Tác giả khuyến khích việc thực hiện phân tích hồi quy thủ công, trong đó nghiên cứu sinh hoàn toàn chủ động kiểm soát mọi công đoạn, hiểu rõ ý nghĩa, vai trò của từng biến số trước khi thăm dò chúng,

và hiểu rõ vì sao mô hình này tốt hơn mô hình kia để chọn ra mô hình tối ưu Tài liệu sẽ trình bày theo hướng này Phần thăm dò tự động chỉ được trình bày ngắn gọn, trong khi những tiêu chuẩn thăm dò thủ công sẽ được hướng dẫn chi tiết hơn

Trang 30

Hình: Đây là hậu quả của việc nhồi nhét hàng loạt biến số vào mô hình : Chúng

sẽ cản trở và triệt tiêu lẫn nhau, cuối cùng mô hình chung sẽ không có ý nghĩa nào cả

Phương pháp cưỡng bức (Forced entry hay Enter)

Nguyên tắc: Đưa đồng thời nhiều biến số độc lập vào mô hình, không quan tâm đến thứ tự giữa chúng Ứng dụng : Phương pháp cưỡng bức chỉ hữu ích duy nhất trong 2 trường hợp:

1 Khi đã chắc chắn về hiệu ứng, vai trò của những biến số sẽ được đưa vào mô hình Trong quy trình hồi quy đa cấp trong SPSS, phương pháp Enter chỉ được sử dụng trong bước cuối cùng, sau khi ta đã loại bỏ những biến số yếu và nắm chắc trong tay những biến số tối ưu Lúc này mục đích của việc chạy lại phân tích là để dùng Bootstrap kiểm tra ý nghĩa phổ quát của hệ số hồi quy, hoặc để sao lưu kết quả dự báo và các thông số nhằm đánh giá phẩm chất của mô hình

2 Phương pháp cưỡng bức là cách hữu hiệu nhất để kiểm tra một giả thuyết nghiên cứu, nhằm kiểm chứng 1 quy luật giả định về tương quan giữa giá trị Y và nhiều biến số X độc lập khác Trong trường hợp này mục tiêu nghiên cứu chỉ nhắm vào 1 giả thuyết này, chứ không phải nhằm tìm ra mô hình tối

ưu Nếu kết quả mô hình có ý nghĩa, giả thuyết đưa ra là đúng Ngược lại, nếu mô hình vô nghĩa, giả thuyết ban đầu là sai Trong cả 2 trường hợp ta đều có thể báo cáo kết quả mô hình tìm được và dừng lại ở đó Đây cũng là cách kiểm tra 1 mô hình có sẵn trên nhiều mẫu ngẫu nhiên để kiểm chứng Ngoài 2 công dụng này, trong đa số trường hợp khác PP Cưỡng bức cho ra kết quả rất tồi tệ, bạn đừng bao giờ hy vọng tạo ra được mô hình tốt chỉ bằng cách ném hàng loạt biến số ngẫu nhiên vào máy tính Lúc này những biến số xấu sẽ triệt tiêu hiệu ứng của những biến số tốt, cuối cùng tất cả đều tắc nghẽn bên trong mô hình và cho ra kết quả vô nghĩa

Mô hình duy nhất chứa tất

cả các biến số, không phân

Trang 31

So sánh : Mô hình 2 tốt hơn mô hình 1

So sánh : Mô hình 3 tốt hơn mô hình 2

So sánh : Mô hình 4 tương đương với mô hình 3

So sánh : Mô hình 5 kém hơn mô hình 3

A B C Mô hình 3 là mô hình tối ưu Bo+b1*A+b2*B+b3*C+ss

Phương pháp tiến triển (Forward)

Nguyên tắc: Đây là một phân tích tự động gồm nhiều bước do máy tính thực hiện với quy trình như sau:

Bước đầu tiên (Block 0) là một mô hình tối giản chỉ chứa hằng số Bo và sai số ngẫu nhiên (hay nói cách khác: không

có mô hình nào cả) Sau đó từ một tập hợp biến số cho trước, máy tính sẽ thăm dò qua nhiều bước, theo hướng

mở rộng mô hình: Ở mỗi bước, máy tính sẽ tự động chọn ra một biến số Xi được cho là tối ưu ở thời điểm đó (dựa vào độ mạnh của tương quan tuyến tính giữa Xi với Y), để đưa vào mô hình Sau đó máy tính sẽ so sánh mô hình mới sau khi mở rộng với mô hình cũ ngay trước nó:

Nếu khả năng dự báo của mô hình mới được cải thiện tốt hơn, biến Xi sẽ được giữ lại và máy tính tiếp tục đi bước tiếp theo: đưa thêm biến số khác vào, tiếp tục mở rộng mô hình

Nếu mô hình mới không tốt hơn (tương đương hoặc kém hơn) mô hình cũ, biến số Xi sẽ bị loại bỏ; quy trình dừng lại và mô hình ngay trước nó sẽ được công nhận là mô hình tối ưu

Nhận xét: Đây là một cách làm máy móc và thuần túy toán học, tiềm ẩn rất nhiều nguy cơ sai sót:

+ Làm phức tạp hóa vấn đề: Tạo ra một mô hình chứa quá nhiều biến số, trong đó mỗi biến chỉ góp 1 phần rất nhỏ: không thích hợp để nghiên cứu tập trung 1 giả thuyết cụ thể và giảm độ chính xác tương đối của riêng mỗi hệ số hi quy Thực ra, mô hình đẹp nhất nên là 1 mô hình đơn giản chứa ít biến số

+ Nguy cơ bỏ sót oan uổng những biến số thực sự có ích: biến số đi trước nghiễm nhiên được xem là quan trọng hơn, trong khi nó có thể triệt tiêu hiệu ứng của những biến số đi sau (hiệu ứng áp chế); do đó sử dụng PP tiến triển

có thể dẫn tới một mô hình mâu thuẫn với thực tế và lý thuyết trong y văn

Ứng dụng: PP Tiến triển chỉ nên được áp dụng để thăm dò 1 biến số mới lạ, khi đã chắc chắn về phần lõi của mô

hình cơ bản

Ngày đăng: 22/03/2016, 22:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w