Phân tích Hiệp phương sai Ancova, Tài liệu hướng dẫn thống kê y học sử dụng SPSS

Đó là lý do 10 năm sau, tôi muốn gửi tặng tất cả các bạn trẻ đang tập làm những nghiên cứu đầu đời, một tài liệu về phương pháp thống kê cho phép bạn chủ động sửa chữa những sai lầm tiềm

Trang 1

Tài liệu hướng dẫn thống kê y học sử dụng SPSS

Phân tích hiệp phương sai (ANCOVA)

SPSS

Trang 2

Lời nói đầu

Tôi vẫn còn nhớ kỷ niệm lần đầu tiên được làm nghiên cứu một mình, đó là báo cáo thực tập cuối năm thứ nhất Master tại Pháp Thầy giao cho tôi đề tài khảo sát một biomarker trong khí thở ở bệnh nhân tiểu đường Mọi việc suôn sẻ, chỉ trừ … kết quả; vì giả thuyết ban đầu của tôi muốn tìm thấy sự thay đổi so với nhóm chứng, trong khi kết quả lại cho thấy không hề có khác biệt ý nghĩa Quả thật báo cáo một kết quả âm tính là điều không mấy dễ chịu, nhưng điều làm tôi tiếc nuối nhất là vài năm sau đó tôi khám phá ra rằng loại biomarker ngày trước mình khảo sát là một đại lượng rất bất định, có nhiều yếu tố gây nhiễu tác động lên nó ngay trong điều kiện sinh lý bình thường Tôi không thể tha thứ cho sự ngây thơ ngày đó của mình khi không xét toàn diện tất cả yếu tố gây nhiễu.

Đó là lý do 10 năm sau, tôi muốn gửi tặng tất cả các bạn trẻ đang tập làm những nghiên cứu đầu đời, một tài liệu về phương pháp thống kê cho phép bạn chủ động sửa chữa những sai lầm tiềm

ẩn trong nghiên cứu của mình để tiếp cận với sự thật; đó là phương pháp ANCOVA hay phân tích hiệp phương sai.

Thông điệp quan trọng nhất của tài liệu này chính là sự hồ nghi và tò mò, vì nhiều lúc giá trị p, thậm chí khoảng tin cậy với Bootstrap mà bạn tìm ra được với ANOVA, test t hay 1 mô hình hồi quy nào đó vẫn có thể dối lừa chúng ta, chưa phải là sự thật Có lẽ bạn bắt đầu … tò mò muốn biết tại sao ? Mời bạn đọc thí dụ trong tài liệu này để biết nguyên nhân.

Chúc các bạn thành công và tìm ra sự thật cho mọi câu hỏi nghiên cứu của mình.

Trang 3

Quy ước trình bày

Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật

Bác sĩ Nguyễn Văn Thái

Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và

ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống

kê …

Bác sĩ Lê Ngọc Khả Nhi

Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách hồn nhiên và ngây thơ như trẻ con, vì vậy cô ấy luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Khả Nhi sẽ hướng dẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất.

Sinh viên Trần Quốc Bảo

Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện còn đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích

số liệu và thiết kế nghiên cứu.

3

Trang 4

Bề dày nội trung mô ĐM Cảnh (CIMT) đo bằng Siêu âm

Doppler

Xơ vữa ĐM CảnhDòng máu lưu thông

Siêu âm Doppler động mạch cảnh là một phương pháp đánh

giá không xâm lấn đoạn ngoài sọ của động mạch cảnh Chiều

dày nội trung mô của động mạch cảnh (CIMT) là một chỉ số

của chứng vữa xơ có thể đo được trên siêu âm Doppler

Một chị bác sĩ nội trú khoa hình ảnh học thực hiện đề tài

khảo sát hiện tượng dày hóa thành động mạch cảnh dưới tác

động của xạ trị ung thư vùng hầu họng; với CIMT là biến số

chính Thiết kế nghiên cứu bao gồm:

+ Nhóm chứng âm: 15 người bình thường không có tiền sử

cao huyết áp và xơ vữa động mạch

+ Nhóm chứng dương: 15 bệnh nhân tiểu đường type 2, là

một yếu tố nguy cơ của xơ vữa động mạch

+ Nhóm nghiên cứu: 15 bệnh nhân ung thư carcinoma hầu

họng được xạ trị trước đó từ 3-4 năm

Tuy nhiên ý đồ này bị thất bại, sau khi kết quả ANOVA cho

thấy: Dù CIMT vẫn cao ở nhóm xạ trị ung thư so với nhóm

chứng âm, tuy nhiên không có khác biệt ý nghĩa so với nhóm

chứng dương, thậm chí CIMT ở bệnh nhân tiểu đường type 2

có vẻ còn cao hơn ?

Chúng ta phải làm gì để giúp chị ta bây giờ ?

Khác biệt không có ý nghĩa với nhóm chứng dương ?

Bảo thân mến, cô bác sĩ này đã phạm sai lầm ngay từ đầu khi chỉ dùng ANOVA đơn biến để khảo sát CIMT… Theo tôi biết, quá trình lão hóa tự nhiên cũng cóthể gây tăng CIMT, như vậy có thể kết quả quan sát được ở cả 3 nhóm đều bị

gây nhiễu bởi Tuổi của bệnh nhân

Chúng ta phải hiệu chỉnh kết quả CIMT theo tuổi trước khi so sánh Tôi đề nghịdùng ANCOVA thay vì ANOVA…

Trang 5

Nghiên cứu sinh

Hoài nghi về kết quả, đặt ra hàng loạt câuhỏi:

+ Tại sao Effect size chưa được tối ưu ? + Tại sao Sum of square của sai số vẫn còn cao ?

+ Tại sao kết quả mâu thuẫn với Y văn ?

1

ANOVA và post-hoc test cho

ra kết quả âm tính: Không có

+ Đặt lại vấn đề cỡ mẫu…

+ Áp dụng Bootstrap

Hoài nghi và đặt ra hàng loạt câu hỏi:

Liệu có yếu tố gây nhầm lẫn đã làm nhiễu loạn kết quả ?

Liệu có sai sót hệ thống trong quá trình đo đạc ?

Có 1 yếu tố ngoại lai tương tác với biến số đang khảo sát ?

3 ANOVA và post-hoc test cho

ra kết quả không rõ nét (p

mấp mé ở ngưỡng ý nghĩa)

Vui mừng, thỏa mãn với giá trị p<0,05

và báo cáo kết quả ngay lập tức…

Hoặc chọn test post-hoc ít bảo thủ hơnnhằm giảm giá trị p thấp hơn nữa

* Khâu thu thập số liệu Chỉ thu thập những biến số chính cần

khảo sát

Nếu có nhiều biến số, sẽ thực hiệnhàng loạt phân tích ANOVA đơn biếncho từng biến số riêng biệt

Thu thập biến số phong phú để có nhiềuthông tin nhất có thể

Nhóm các biến số với nhau theo ý nghĩasinh lý bệnh, lâm sàng…

Chẩn bị trước những giả thuyết về quan

hệ tương tác giữa các biến số với nhau.Xác định các yếu tố có tiềm năng gâynhầm lẫn

Sẽ sử dụng Phân tích hiệp phương sai(ANCOVA) để:

+ Phân lập yếu tố gây nhầm lẫn,+ Kiểm tra giả thuyết về vai trò tươngtác giữa biến số chính và những biến

số phụ+ Giảm thiểu sai số không được giảithích trong mô hình Tối ưu hóa hiệuứng chính

> Tìm ra sự thật, loại bỏ sai lầm

ANCOVA là phương pháp thích hợp dànhcho những nhà nghiên cứu tò mò và hoàinghi

Hãy đánh giá một người qua những câu hỏi

của anh ta chứ không phải là những câu trả

lời (Il est encore plus facile de juger de l'esprit

d'un homme par ses questions que par ses

réponses)

Voltaire

BS.Bao thích điều này

Trang 6

1 1.3 Nhắc lại về ANOVA đơn biến

C B

Sai biệt giữa các nhóm

do thí nghiệm gây ra: MSM

𝑴𝑺𝑹

Chắc các bạn còn nhớ về ANOVA (phân tích phương sai) ? Chúng ta thường dùng ANOVA đơn

biến để so sánh giá trị trung bình một đại lượng giữa nhiều phân nhóm khác nhau Giả thuyết 0

của ANOVA đơn biến: Giá trị trung bình của biến số khảo sát là như nhau ở tất cả các phân nhóm

H0: µ1 = µ2 = µ3 = = µk (k= số nhóm so sánh) Để kiểm tra giả thuyết 0 này, ta sẽ tính tỉ số F = tỉ

lệ sự sai biệt giữa các nhóm (do thí nghiệm gây ra) so với sự sai biệt nội tại (ngẫu nhiên) trong

cùng một nhóm Tỉ dựa vào phân phối Fisher cho phép ta xác định giá trị p = xác suất có được một

giá trị F cao như thế nếu giả thuyết H0 là đúng Ta loại bỏ giả thuyết H0 nếu p<0,05; đồng nghĩa

với việc chấp nhận giả thuyết ngược lại: Có ít nhất một phân nhóm có giá trị khác với những phân

nhóm còn lại

3 2

Mặc khác, ANOVA sẽ gần gũi thân thiện hơn, nếu

bạn nhận ra bản chất của nó chỉ là một mô hình hồi

quy tuyến tính, cho phép dự báo giá trị Y (đại lượng)

tùy theo giá trị củ những biến số giả định tính chỉ

phân nhóm (X1, X2, X3…)

Ví dụ: CIMT = bo + b1*Nhóm chứng + b2*Nhóm tiểu

đường + b3*Nhóm xạ trị ung thư

Mô hình này dự báo giá trị của biến số Y=CIMT tùy

theo trường hợp X thuộc phân nhóm nào

X1, X2, X3 là những biến số giả chỉ phân nhóm, chỉ

nhận 1 trong 2 giá trị: =1 (đúng) hoặc =0 (sai)

Ví dụ khi bệnh nhân đưa vào nhóm chứng thì X1=1,

X2=0 và X3=0

Tham số bo chính là giá trị của Y khi tất cả X=0

Tham số b1,b2,b3 tương ứng cho X1,X2,X3; Đây

cũng chính là khoảng cách giữa Y1,Y2,Y3 và trung

bình của Y

Trang 7

1 1.4 ANCOVA dùng để hiệu chỉnh những yếu tố gây nhầm lẫn

Lúc này các bạn hẳn sẽ tò mò hỏi rằng: nếu mô hình hồi quy tuyến tính có thể chứa nhiều biến

số, cả biến định tính và định lượng; vậy liệu ta có thể kết hợp phương pháp ANOVA và phântích 1 (hay nhiều) biến định lượng khác ?

Câu trả lời là hoàn toàn có thể, và phân tích ANOVA được « mở rộng » này sẽ có tên khác làANCOVA hay phân tích phương sai với Hiệp biến số (Analysis of Covariance) Hiệp biến số (C)

là tất cả những biến định lượng độc lập với mô hình thí nghiệm (biến định tính X) nhưng cóảnh hưởng đến biến số phụ thuộc (Y)

Y

Mô hình ANCOVA

C C

Y’ = Bo + Bc * C + B1 (X1)+ B2 (X2)+ … Bn (Xn)

Biến số giả tương ứng X=1,2,…nHiệp biến số

Sauhiệu chỉnh

Trước

hiệu chỉnh

ANCOVA là một mô hình hồi quy tuyến tính chứa yếu tố X cần

khảo sát như trong ANOVA, nhưng có thêm 1 hay nhiều hiệp

biến số C Mô hình này cho phép hiệu chỉnh giá trị Y dựa theo

C

ANCOVA cho kết quả chính xác hơn ANOVA, vì nó cho phép

thu nhỏ sai số «không rõ nguyên nhân» hay SSR trong một

phân nhóm và làm tăng sức mạnh của ANOVA Vì ANOVA dựa

vào việc so sánh kích thước của sai biệt giữa nhóm này và

nhóm khác, do thí nghiệm gây ra (SSM) với kích thước của sai

số ngẫu nhiên nội tại trong cùng phân nhóm (SSR) Hiệp biến

số cho phép giải thích được 1 phần của SSR và giúp đánh giá

chính xác hơn ảnh hưởng thực sự của hiệu ứng chính (SSM)

ANCOVA còn cho phép cô lập (và loại bỏ) những yếu tố gây

nhầm lẫn C có khả năng làm sai lệch giá trị của Y trong thí

nghiệm Đa số thiết kế nghiên cứu đều chứa nguy cơ này Một

nhà nghiên cứu cẩn thận sẽ lường trước và phân lập ra các yếu

tố gây nhầm lẫn, sau đó dùng ANCOVA để phân tích ảnh

hưởng của yếu tố gây nhầm lẫn này (được xem như hiệp biến

số), nếu kết quả ANCOVA chứng thực nguy cơ gây nhầm lẫn, ta

có thể hiệu chỉnh lại mô hình để đưa ra kết luận chính xác hơn

SST SSM SSR

SST SSM

do C gây ra

Không giảithích được

Tóm lại, ANCOVA là công cụ dành cho những nhà nghiên cứu cẩn trọng, cầu toàn, nhìn vấn đề một cách tinh

tế và toàn diện chứ không mù quáng theo đuổi duy nhất một mục tiêu, một giả thuyết duy nhất Y học là lĩnhvực nhiều tiềm năng cho thiết kế nghiên cứu ANCOVA, vì cơ thể con người là một bộ máy phức tạp, đồngthời tương tác với môi trường xung quanh; nên trước bất cứ một hiệu ứng sinh lý, bệnh học, điều trị nào,cũng có nhiều yếu tố tham gia, hiệp đồng hay đối kháng lẫn nhau, nếu chỉ nhìn sự việc theo 1 chiều, X gây ra

Y thì quá đơn giản

Trang 8

1 1.5 Một số ứng dụng thực tế của ANCOVA

C Y

Y C

C là 1 yếu tố gây nhiễu

C chính là bản thân giá trị Y trong điều

kiện cơ bản, trước thí nghiệm

ANCOVA có thể ứng dụng trong 4 hoàn cảnh nghiên cứu:

và X, bạn phải hiệu chỉnh giá trị Y theo C trước…

Ví dụ: C có thể là tuổi của bệnh nhân và Y thay đổi do sự lãohóa, như trong thí dụ mà ta đang xét

2 C là một yếu tố gây nhiễu trong quá trình nghiên cứu mà bạn

đã tiên liệu trước Yếu tố này có thể gây sai lệch kết quả của

Y theo cách ngẫu nhiên Bạn cần vô hiệu hóa tác động sailệch này trước khi làm ANOVA

Ví dụ: Một nghiên cứu về khả năng gắng sức của bệnh nhântim mạch được thực hiện cùng lúc ở miền núi và vùng đồngbằng, chức năng trao đổi khí của bệnh nhân cần được hiệuchỉnh bởi độ cao C vì độ cao làm thay đổi FiO2

3 Trong các thử nghiệm lâm sàng, vấn đề thường gặp có thể là

so sánh hiệu quả điều trị đối với đại lượng Y ở nhiều liềuthuốc (hay loại thuốc) X khác nhau, tuy nhiên nhiều ngườiquên rằng trước khi thí nghiệm, bệnh nhân có thể đã có Ykhác nhau Vì thế Y trước thí nghiệm cũng là 1 loại yếu tố gâynhầm lẫn và được xem như hiệp biến số C

Ví dụ: Khảo sát huyết áp sau khi dùng 3 liều thuốc hạ áp khácnhau Y = Huyết áp, X= Liều thuốc và C = Huyết áp cơ bảntrước khi dùng thuốc

4 ANCOVA được mang ra áp dụng ngẫu nhiên,do ý đồ chủquan của người làm nghiên cứu

Ví dụ: Khi có quá nhiều biến số trong tay, nhà nghiên cứu tò

mò muốn kiểm tra 1 giả thuyết nào đó

Hoặc đơn giản chỉ vì họ chưa hài lòng với giá trị p, size… của mô hình gốc, và muốn dùng ANCOVA với hy vọnglàm cho kết quả đẹp hơn 1 chút

Trang 9

Effect-1.6 Những giả định của ANCOVA

Bản chất của ANCOVA là một mô hình hồi quy tuyến tính , nên những biến số cần phân tích phải thỏa mãn tất cả những điều kiện giả định của hồi quy tuyến tính; ngoài ra còn cần thêm một số điều kiện đặc biệt như:

Giả định về tính độc lập giữa hiệp biến số (C) và hiệu ứng chính (biến số X) Nói cách khác, nếu bạn thực hiện ANOVA của C theo X, kết quả của F-test và/hoặc post-hoc test phải cho ra kết quả âm tính (không có sự khác biệt ý nghĩa của giá trị C giữa các phân nhóm quy định bởi yếu

tố X.

Giả định về sự tương đồng hệ số góc hồi quy giữa Y và C giữa các phân nhóm quy định bởi X Như vậy: Y và C vừa phải quan hệ tuyến tính với nhau, hệ số hồi quy giữa chúng cũng phải tương đương nhau, và độc lập với X.

Bạn có thể hiểu đơn giản để kiểm tra giả định này, nếu ta dựng 3 đường thẳng hồi quy của Y theo C tương ứng với 3 giá trị của X, 3 đường này phải gần như song song với nhau và không khác biệt so với đường thẳng hồi quy cho toàn thể.

Mặc khác, nếu ta xét mô hình hồi quy tuyến tính với Y là giá trị dự báo, chứa cùng lúc X, C thì không được có tương tác ý nghĩa giữa X và C, như vậy yếu tố tương tác X*C trong mô hình không được có ý nghĩa thống kê (p>0,05).

do C gây ra

Không giảithích được

SSR

SST SSM

do C gây ra Không giảithích được

ANCOVA không lý tưởng (X và C có tương tác)

C = Bo + B1 (X1)+ B2 (X2)+ … Bn (Xn)

C phải độc lập với XHiệp biến số

1

Trang 10

Thăm dò số liệu

Kiểm tra hiệp biến số

Kiểm tra mô hình tuyến tính

Phân tích sâu

So sánh giá trị Y trước và sau hiệu chỉnh

Có giả thuyết cụ thể: phân tích tương phảnChưa có giả thuyết: Post-hoc test

Kiểm tra 2 giả định:

+ Phân phối bình thường (chuẩn) của Y và C+ Không có giá trị bất thường (điểm ngoại lai)

Kiểm tra 2 giả định:

+ Tương đồng về hệ số hồi quy giữa Y và C trong các phân nhóm X+ Tính độc lập giữa C và X

Chạy ANCOVA lần 1, kiểm tra:

+ Ý nghĩa thống kê của C + Ý nghĩa thống kê của mô hình sau hiệu chỉnh+ các giả định về phẩm chất mô hình

Chạy ANCOVA lần 2 với bootstrap và phân tích sâu

2.1 Chuẩn bị quy trình ANCOVA

Trong tài liệu lần này, tác giả hoàn toàn dựa vào Syntax thay vì sử dụng giao diện của SPSS.

Ưu điểm của việc sử dụng Syntax đó là bạn sẽ tiết kiệm rất nhiều thời gian khi thực hiện các quy trình phức tạp như trong ANCOVA, nhất là khi bạn phải thử lại nhiều lần.

Nhược điểm của Syntax, dĩ nhiên là tính phổ quát, vì để dùng được Syntax, thiết kế nghiên cứu của bạn phải tương đồng với thí dụ này; hoặc bạn phải thay đổi nội dung Syntax.

Dù sao thì ANCOVA cũng là 1 quy trình phức tạp hơn nhiều so với ANOVA, nên tác giả tập trung phân tích kỹ phần kết quả để giúp bạn có thể diễn giải kết quả của chính mình Về phần Syntax, bạn sẽ phải thay đổi 1 vài điểm nhỏ ở bước đầu tiên; tuy nhiên

kể từ khối lệnh thứ 2 trở đi mọi thứ đều đã có sẵn và chính xác, bạn có thể an tâm thi hành.

ANCOVA thực ra rất giống với ANOVA về nguyên tắc cơ bản, nên bạn có thể đọc thêm tài liệu về ANOVA đơn biến của tác giả để hiểu thêm về 1 số khái niệm như Post hoc test, phân tích tương phản, test F, hệ số ảnh hưởng v.v …

Trang 11

1) Đầu tiên, bạn tạo 1 bảng số liệu gồm 3 biến số:

X

Y C

Phân nhóm: Mã hóa giá trị:

1= bình thường (nhóm chứng âm) 2= Tiểu đường type 2 (Nhóm chứng dương) 3= Sau xạ trị ung thư (Nhóm nghiên cứu) Tuổi

Giá trị CIMT (đo bằng µm) Chú ý:

+ Bạn phải đặt tên biến là X,Y,C như trong hình, để có thể sử dụng Syntax

+ Không cần dán nhãn giá trị cho biến số, ta sẽ làm việc này bằng cách sửa nội dung syntax

0 Tạo bảng số liệu

2) Tải bộ syntax ANCOVA từ Google drive của tác giả về máy:

Trang 12

Để thi hành 1 khối lệnh tùy chọn:

Trước hết bạn đánh dấu chọn khối lệnh này Sau đó click chuột phải mở Menu

và chọn Run Selection.

Trạng thái của bộ xử lý ở góc dưới phải màn hình

Đang thi hành quy trình…

Đã thực hiện xong quy trình và xuất kết quả

Trang 13

Khối lệnh thứ 1 có mục đích khai báo tên của biến số và tênphân nhóm bằng cách dán nhãn.

Quan trọng:Các bạn bắt buộc phải sửa chữa nội dung của khốilệnh này cho phù hợp với nghiên cứu của mình, trước khi thihành bộ syntax

Quy tắc cần nhớ

X= Biến số độc lập dùng để phân nhóm trong ANOVA

Y = Đại lượng cần khảo sát, hay biến số phụ thuộc trong ANOVAC= Yếu tố cần phân tích trong ANCOVA, hay hiệp biến số

VARIABLE LABELS

X "Phân nhóm điều trị"

C «Huyết áp trước điều trị"

Y «Huyết áp sau điều trị"

* Bước 1: Dán nhãn biến số và nhãn giá trị

2 "BN Tiểu đường type 2"

3 "Sau xạ trị carcinoma mũi họng"

Khối lệnh sẽ được thi hành, bạn kiểm ra lại trongbảng số liệu: Các biến đã được dán nhãn

Trang 14

* Bước 2: Thăm dò 2 biến số C,Y và kiểm tra giả

Khối lệnh thứ 2 : Thăm dò biến số

nhằm mục đích thăm dò số liệu, nội dung của quy trình nàygồm có:

+ Thống kê mô tả cho 2 biến số Y và C cho từng phân nhómtheo X

+ Kiểm tra giả định phân phối chuẩn của C và X trong mỗiphân nhóm bằng biểu đồ QQ và test Sapiro Wilk

+ Vẽ biểu đồ Box-plot cho C và Y theo X để phát hiện điểmgiá trị ngoại lai

2 giả định này là rất quan trọng trước khi tiến hành phântích hồi quy và ANOVA

* Bước 3: ANOVA đơn biến cho Y và C

BOOTSTRAP

Khối lệnh thứ 3 : ANOVA trước hiệu chỉnh

Nội dung của khối lệnh này là thực hiện ANOVA 1 yếu tốcho Y và C theo X

Ý nghĩa của quy trình là để :

+ So sánh giá trị trước hiệu chỉnh của Y giữa các phânnhóm

+ Kiểm tra tính độc lập của C và X : Đây là 1 điều kiện đểlàm ANCOVA Lưu ý: Bước này chỉ thực sự quan trọng khi

X là 1 biến số thứ hạng và có ý nghĩa định lượng; ví dụ độnặng của bệnh, liều thuốc, thời gian…

Ngược lại nếu bản thân X không có 1 quy luật nào rõ ràng,như trong trường hợp này, thì không cần thiết phải kiểmtra quan hệ giữa C và X nữa

Chú ý:

Để khái quát hóa bộ Syntax, tác giả cho quy trình

ANOVA làm cùng lúc 2 loại post-hoc test là :

Bonferroni: nếu giả định phương sai đồng nhất thỏa

mãn (Levene test có p>0,05)

Games-Howell: khi có vi phạm giả định về phương sai

đồng nhất (Levene test có p<0,05)

Khi đọc kết quả, bạn chỉ cần diễn giải 1 trong 2, tùy theo

kết quả Levene test

Trang 15

* Bước 4: Thăm dò tương quan giữa hiệp biến số C và

DATA: C=col(source(s), name("C"))

DATA: Y=col(source(s), name("Y"))

DATA: X=col(source(s), name("X"), unit.category())

GUIDE: axis(dim(1), label("Hiệp biến số C"))

GUIDE: axis(dim(2), label("Giá trị biến số cần so

+ Lệnh GGRAPH và GPL: Vẽ biểu đồ Scatter plot để khảo

sát quan hệ tuyến tính giữa Y và C ở mỗi phân nhóm theo

X Đây là phương pháp trực quan để kiểm tra giả địnhtương đồng về hệ số hồi quy giữa Y và C

+ Lệnh CURVEFIT: Khảo sát đường thẳng hồi quy tuyến

tính giữa Y và C trong toàn bộ quần thể chung, kết quảgồm có bảng ANOVA đánh giá ý nghĩa thống kê của môhình và biểu đồ Scatter plot

Lưu ý:

Các bạn không nên cho chạy toàn bộ Syntax 1 lần duynhất, kết quả sẽ dài và rối Mặt khác mục đích của 5 khốilệnh đầu tiên là kiểm tra một số giả định trước khi tiếnhành ANCOVA chính thức; vì vậy bạn nên chạy từng khốiriêng biệt và tuần tự Thỏa giả định ở bước nào mới chạytiếp bước tiếp theo

Trong trường hợp giả định bị vi phạm, có thể bạn phải xửtrí bằng cách chỉnh sửa số liệu, chuyển dạng biến số… rồikiểm tra lại trước khi đi tiếp

*Bước 5: Kiểm tra ý nghĩa của tương tác C*X

hệ số hồi quy giữa Y và C độc lập với X

Trang 16

* Bước 6: Kiểm tra giả định Homoscedasticity

và giả định đồng nhất phương sai của giá trị thặng dư

DATA: PRE=col(source(s), name("PRE"))

DATA: RSD=col(source(s), name("RSD"))

GUIDE: axis(dim(1), label("Giá trị dự báo của Y"))

GUIDE: axis(dim(2), label("Giá trị thặng dư chuẩn hóa

Nội dung của quy trình:

Thực hiện ANCOVA lần thứ 2 với mô hình chứa 2 biến

số C và X, không kèm theo bootstrap hay phân tíchsâu

Mục đích duy nhất là để sao lưu kết quả dự báo và sai

số thặng dư, từ đó kiểm tra các giả định vềhomoscedasticity và đồng nhất phương sai của giá trịthặng dư chuẩn hóa (RSD) Các giả định này rất quantrọng để kiểm tra mức độ phù hợp (hay phẩm chất)của mô hình hồi quy tuyến tính

+ Giả định Homoscedasticity được kiểm tra bằng cáchtrực quan mối quan hệ tuyến tính giữa giá trị dự báo

và sai số thặng dư chuẩn hóa Kết quả trông đợi làkhông có quan hệ ý nghĩa (RSD phân bố ngẫu nhiên)

+ Bước tiếp theo là khảo sát phân phối chuẩn của sai

số thặng dư RSD bằng biểu đồ QQ plot và test Wilk; kết quả trông đợi là có phân phối chuẩn

Sapiro-Nếu cả 2 giả định này được thỏa mãn, bạn có thể đitiếp bước 7 là quy trình ANCOVA chính thức với phântích sâu, cũng là bước cuối cùng

Trang 17

* Bước 7: Phân tích ANCOVA dựa vào quy trình GLM-1

BOOTSTRAP

/SAMPLING METHOD=STRATIFIED(STRATA=X )

/VARIABLES TARGET=Y INPUT=X C

/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000

/PRINT=LOF TEST(LMATRIX) GEF OPOWER PARAMETER

ETASQ HOMOGENEITY DESCRIPTIVE

Nội dung quy trình gồm có:

+ Lệnh Bootstrap: lấy mẫu ngẫu nhiên lặp lại 1000 lầncho mỗi phân nhóm của X, mục đích để khảo sát các trị

số trong ANCOVA, post-hoc test, t-test và Contrast-testvới cỡ mẫu lớn hơn nhiều lần so với quần thể gốc, từ

đó tính Bca95% CI là khoảng tin cậy cho những trị sốnày

+ Quy trình ANCOVA chính thức, dựa trên chức năngGeneral linear model (GLM) univariate, dựng mô hìnhhồi quy tuyến tính chứa 2 biến số C và X

Kết quả xuất ra bao gồm:

+ Bảng ANCOVA+ Thống kê mô tả cho giá trị Y sau khi hiệu chỉnh+ Biểu đồ biến thiên của Y sau khi hiệu chỉnh+ Kết quả phân tích tương phản đơn giản với X=1 lànhóm chứng

+ kết quả Post-hoc test

Lưu ý: Thực ra bạn chỉ cần làm Post-hoc test hoặc

Contrast, tùy theo ý đồ nghiên cứu Post-hoc test kiểmtra tất cả các khả năng có thể, còn Contrast chỉ kiểm tra

1 vài giả thuyết có định hướng

Bạn chọn 1 trong 2 để báo cáo , test Post-hoc có thểdùng cho mọi trường hợp Tác giả đã chọn phươngpháp tối ưu nhất là Bonferroni

Đến đây việc thi hành bộ Syntax đã hoàn tất Các bạnchỉ còn việc đọc kết quả

Trang 18

Tests of Normality

Phân nhóm đối tượng

Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig Statistic df Sig.

Sau xạ trị carcinoma hầu

* ,961 15 ,709

Sau xạ trị carcinoma hầu

* This is a lower bound of the true significance.

a Lilliefors Significance Correction

Kiểm tra giả định phân phối chuẩn cho biến số phụ thuộc (Y) ở mỗi phân nhóm X

Kiểm tra giả định phân phối chuẩn cho hiệp biến số (C) ở mỗi phân nhóm X

Kết quả cần quan tâm: Giá trị p

Kết quả trông đợi: Giá trị p>0,05 cho test Shapiro-Wilk hoặc Kolmogorov Smirnov ở tất cả các hàngcho thấy giá trị của Y và C phân phối bình thường (chuẩn) trong mỗi phân nhóm, thỏa mãn giả địnhđầu tiên của ANOVA

Nếu có một trong các giá trị p<0,05, ta đã vi phạm giả định về phân phối chuẩn; không thể đi tiếpngay mà cần tập trung xử trí bất thường này trước

Có 2 cách kiểm tra giả định phân phối chuẩn:

1) Phương pháp toán học - Sử dụng kiểm định Shapiro-Wilk hoặc Kolmogorov-Smirnov :

tối ưu cho trường hợp cỡ mẫu không quá lớn (<50 trường hợp), nhưng lại không đáng tin cậy khi cỡ mẫu quá nhỏ)

2) Phương pháp trực quan - Sử dụng biểu đồ Q-Q plot: Thích hợp cho những cỡ mẫu lớn

(> 50 trường hợp)

Nếu bạn có cỡ mẫu lớn (> 50 trường hợp), có

thể dùng biểu đồ Q-Q để phát hiện nhanh sự

vi phạm giả định phân phối chuẩn Nếu các

điểm giá trị phân phối chuẩn, chúng sẽ nằm

rải rác gần đường thẳng (màu xanh) như

trong hình Nếu có sự phân tán (các điểm

phân bố xa khỏi đường thẳng này) tức là phân

phối không chuẩn (màu đỏ).

3 3 Diễn giải kết quả 3.1 Thăm dò số liệu

Trang 19

Nếu giả định phân phối

chuẩn bị vi phạm ta

phải xử trí thế nào ?

Để làm ANOVA đơn biến: Bạn có nhiều lựa chọn

1) Chuyển dạng biến số (ví dụ thang đo Logarit), với hy vọng sẽ có phân phối chuẩn

2) Sử dụng phương pháp khác

ví dụ mô hình hồi quy đa cấp có Bootstrap để thay thế cho GLM-ANCOVA.

3) Bỏ qua vi phạm và vẫn làm phân tích ANCOVA (Thực ra điều kiện phân phối không phải là tuyệt đối bắt buộc).

4) Làm ANCOVA song song cho 2 mẫu số liệu: nguyên thủy và đã chuyển dạng (logarit hóa), so sánh kết quả của chúng với nhau.

Lời khuyên của BS Nhi:

Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết quả, nhất là cách bạn xử lý những điểm giá trị cá biệt, lựa chọn test thống kê Nếu phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm giá trị của Skewness và Kurtosis (trong bảng kết quả Explore).

Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi ngờ về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo Người đọc sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống kê.

P<0,00001 à ? Kết quả này quá đẹp nên không thể tin được

Phải triệu hồi chuyên viên thống

kê ra làm chứng

Trang 20

Biểu đồ Box-plots cho phép phát hiện nhanh các điểm giá trị cá biệt (chênh lệch quá lớn so

với độ lệch chuẩn) Biểu đồ này cũng dùng để báo cáo kết quả

Bất cứ điểm nào có khoảng cách > 1,5 lần chiều dài của error bar được xem là điểm ngoại

lai

Nếu cách biệt lớn hơn 3 lần, đó là giá trị rất phân cực

Trong hình trên, không có điểm giá trị ngoại lai nào được phát hiện

Nếu có trường hợp giá trị cá biệt, SPSS sẽ đánh dấu bằng mã số thứ tự cho phép ta định vị

dễ dàng trường hợp đó trong bảng số liệu

Điểm giá trị cá biệt(trường hợp thứ 5 trong bảng số liệu)

Điểm giá trị chênh lệch cực độ(trường hợp thứ 4 trong bảng số liệu)

X1,5

*

X3

*

Điểm giá trị cá biệt

Điểm giá trị chênh lệch cực độ

Trang 21

Nếu có điểm giá trị ngoại

lai, ta phải xử trí thế nào

Nếu ta quyết định vẫn giữ điểm ngoại lai; ta có nhiều lựa chọn:

1) Sử dụng Bootstrap để tăng sức mạnh thống kê.

2) Thay đổi giá trị cá biệt bằng 1 giá trị khác gần với nó nhất có thể (ví dụ: nếu giá trị x = 10 được xem là quá khác biệt, ta có thể thử giá trị x=8 , vẫn là giá trị cao nhất nhưng còn nằm trong giới hạn cho phép) (Lưu ý: giá trị thay thế có thể là giả hay thật đều được)

3) Chuyển dạng biến số (ví dụ đổi sang thang đo logarit)

4) Cầu kì hơn: Ta tiến hành làm ANCOVA song song cho 2 trường hợp: Có và không

có điểm giá trị ngoại lai, nếu kết quả tương tự nhau, ta giữ, ngược lại ta bỏ.

Loại bỏ giá trị luôn là lựa chọn cuối cùng:

Nếu ta quyết định bỏ điểm ngoại lai này, effect size và giá trị phổ quát của mô hình

có thể sẽ bị ảnh hưởng.

Định dạng
Số trang	42
Dung lượng	2,46 MB