Đó là lý do 10 năm sau, tôi muốn gửi tặng tất cả các bạn trẻ đang tập làm những nghiên cứu đầu đời, một tài liệu về phương pháp thống kê cho phép bạn chủ động sửa chữa những sai lầm tiềm
Trang 1Tài liệu hướng dẫn thống kê y học sử dụng SPSS
Phân tích hiệp phương sai (ANCOVA)
SPSS
Trang 2Lời nói đầu
Tôi vẫn còn nhớ kỷ niệm lần đầu tiên được làm nghiên cứu một mình, đó là báo cáo thực tập cuối năm thứ nhất Master tại Pháp Thầy giao cho tôi đề tài khảo sát một biomarker trong khí thở ở bệnh nhân tiểu đường Mọi việc suôn sẻ, chỉ trừ … kết quả; vì giả thuyết ban đầu của tôi muốn tìm thấy sự thay đổi so với nhóm chứng, trong khi kết quả lại cho thấy không hề có khác biệt ý nghĩa Quả thật báo cáo một kết quả âm tính là điều không mấy dễ chịu, nhưng điều làm tôi tiếc nuối nhất là vài năm sau đó tôi khám phá ra rằng loại biomarker ngày trước mình khảo sát là một đại lượng rất bất định, có nhiều yếu tố gây nhiễu tác động lên nó ngay trong điều kiện sinh lý bình thường Tôi không thể tha thứ cho sự ngây thơ ngày đó của mình khi không xét toàn diện tất cả yếu tố gây nhiễu.
Đó là lý do 10 năm sau, tôi muốn gửi tặng tất cả các bạn trẻ đang tập làm những nghiên cứu đầu đời, một tài liệu về phương pháp thống kê cho phép bạn chủ động sửa chữa những sai lầm tiềm
ẩn trong nghiên cứu của mình để tiếp cận với sự thật; đó là phương pháp ANCOVA hay phân tích hiệp phương sai.
Thông điệp quan trọng nhất của tài liệu này chính là sự hồ nghi và tò mò, vì nhiều lúc giá trị p, thậm chí khoảng tin cậy với Bootstrap mà bạn tìm ra được với ANOVA, test t hay 1 mô hình hồi quy nào đó vẫn có thể dối lừa chúng ta, chưa phải là sự thật Có lẽ bạn bắt đầu … tò mò muốn biết tại sao ? Mời bạn đọc thí dụ trong tài liệu này để biết nguyên nhân.
Chúc các bạn thành công và tìm ra sự thật cho mọi câu hỏi nghiên cứu của mình.
Trang 3Quy ước trình bày
Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật
Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và
ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống
kê …
Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách hồn nhiên và ngây thơ như trẻ con, vì vậy cô ấy luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Khả Nhi sẽ hướng dẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất.
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện còn đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu.
3
Trang 4Bề dày nội trung mô ĐM Cảnh (CIMT) đo bằng Siêu âm
Doppler
Xơ vữa ĐM CảnhDòng máu lưu thông
Siêu âm Doppler động mạch cảnh là một phương pháp đánh
giá không xâm lấn đoạn ngoài sọ của động mạch cảnh Chiều
dày nội trung mô của động mạch cảnh (CIMT) là một chỉ số
của chứng vữa xơ có thể đo được trên siêu âm Doppler
Một chị bác sĩ nội trú khoa hình ảnh học thực hiện đề tài
khảo sát hiện tượng dày hóa thành động mạch cảnh dưới tác
động của xạ trị ung thư vùng hầu họng; với CIMT là biến số
chính Thiết kế nghiên cứu bao gồm:
+ Nhóm chứng âm: 15 người bình thường không có tiền sử
cao huyết áp và xơ vữa động mạch
+ Nhóm chứng dương: 15 bệnh nhân tiểu đường type 2, là
một yếu tố nguy cơ của xơ vữa động mạch
+ Nhóm nghiên cứu: 15 bệnh nhân ung thư carcinoma hầu
họng được xạ trị trước đó từ 3-4 năm
Tuy nhiên ý đồ này bị thất bại, sau khi kết quả ANOVA cho
thấy: Dù CIMT vẫn cao ở nhóm xạ trị ung thư so với nhóm
chứng âm, tuy nhiên không có khác biệt ý nghĩa so với nhóm
chứng dương, thậm chí CIMT ở bệnh nhân tiểu đường type 2
có vẻ còn cao hơn ?
Chúng ta phải làm gì để giúp chị ta bây giờ ?
Khác biệt không có ý nghĩa với nhóm chứng dương ?
Bảo thân mến, cô bác sĩ này đã phạm sai lầm ngay từ đầu khi chỉ dùng ANOVA đơn biến để khảo sát CIMT… Theo tôi biết, quá trình lão hóa tự nhiên cũng cóthể gây tăng CIMT, như vậy có thể kết quả quan sát được ở cả 3 nhóm đều bị
gây nhiễu bởi Tuổi của bệnh nhân
Chúng ta phải hiệu chỉnh kết quả CIMT theo tuổi trước khi so sánh Tôi đề nghịdùng ANCOVA thay vì ANOVA…
Trang 5Nghiên cứu sinh
Hoài nghi về kết quả, đặt ra hàng loạt câuhỏi:
+ Tại sao Effect size chưa được tối ưu ? + Tại sao Sum of square của sai số vẫn còn cao ?
+ Tại sao kết quả mâu thuẫn với Y văn ?
1
ANOVA và post-hoc test cho
ra kết quả âm tính: Không có
+ Đặt lại vấn đề cỡ mẫu…
+ Áp dụng Bootstrap
Hoài nghi và đặt ra hàng loạt câu hỏi:
Liệu có yếu tố gây nhầm lẫn đã làm nhiễu loạn kết quả ?
Liệu có sai sót hệ thống trong quá trình đo đạc ?
Có 1 yếu tố ngoại lai tương tác với biến số đang khảo sát ?
3 ANOVA và post-hoc test cho
ra kết quả không rõ nét (p
mấp mé ở ngưỡng ý nghĩa)
Vui mừng, thỏa mãn với giá trị p<0,05
và báo cáo kết quả ngay lập tức…
Hoặc chọn test post-hoc ít bảo thủ hơnnhằm giảm giá trị p thấp hơn nữa
* Khâu thu thập số liệu Chỉ thu thập những biến số chính cần
khảo sát
Nếu có nhiều biến số, sẽ thực hiệnhàng loạt phân tích ANOVA đơn biếncho từng biến số riêng biệt
Thu thập biến số phong phú để có nhiềuthông tin nhất có thể
Nhóm các biến số với nhau theo ý nghĩasinh lý bệnh, lâm sàng…
Chẩn bị trước những giả thuyết về quan
hệ tương tác giữa các biến số với nhau.Xác định các yếu tố có tiềm năng gâynhầm lẫn
Sẽ sử dụng Phân tích hiệp phương sai(ANCOVA) để:
+ Phân lập yếu tố gây nhầm lẫn,+ Kiểm tra giả thuyết về vai trò tươngtác giữa biến số chính và những biến
số phụ+ Giảm thiểu sai số không được giảithích trong mô hình Tối ưu hóa hiệuứng chính
> Tìm ra sự thật, loại bỏ sai lầm
ANCOVA là phương pháp thích hợp dànhcho những nhà nghiên cứu tò mò và hoàinghi
Hãy đánh giá một người qua những câu hỏi
của anh ta chứ không phải là những câu trả
lời (Il est encore plus facile de juger de l'esprit
d'un homme par ses questions que par ses
réponses)
Voltaire
BS.Bao thích điều này
Trang 61 1.3 Nhắc lại về ANOVA đơn biến
C B
Sai biệt giữa các nhóm
do thí nghiệm gây ra: MSM
𝑴𝑺𝑹
Chắc các bạn còn nhớ về ANOVA (phân tích phương sai) ? Chúng ta thường dùng ANOVA đơn
biến để so sánh giá trị trung bình một đại lượng giữa nhiều phân nhóm khác nhau Giả thuyết 0
của ANOVA đơn biến: Giá trị trung bình của biến số khảo sát là như nhau ở tất cả các phân nhóm
H0: µ1 = µ2 = µ3 = = µk (k= số nhóm so sánh) Để kiểm tra giả thuyết 0 này, ta sẽ tính tỉ số F = tỉ
lệ sự sai biệt giữa các nhóm (do thí nghiệm gây ra) so với sự sai biệt nội tại (ngẫu nhiên) trong
cùng một nhóm Tỉ dựa vào phân phối Fisher cho phép ta xác định giá trị p = xác suất có được một
giá trị F cao như thế nếu giả thuyết H0 là đúng Ta loại bỏ giả thuyết H0 nếu p<0,05; đồng nghĩa
với việc chấp nhận giả thuyết ngược lại: Có ít nhất một phân nhóm có giá trị khác với những phân
nhóm còn lại
3 2
Mặc khác, ANOVA sẽ gần gũi thân thiện hơn, nếu
bạn nhận ra bản chất của nó chỉ là một mô hình hồi
quy tuyến tính, cho phép dự báo giá trị Y (đại lượng)
tùy theo giá trị củ những biến số giả định tính chỉ
phân nhóm (X1, X2, X3…)
Ví dụ: CIMT = bo + b1*Nhóm chứng + b2*Nhóm tiểu
đường + b3*Nhóm xạ trị ung thư
Mô hình này dự báo giá trị của biến số Y=CIMT tùy
theo trường hợp X thuộc phân nhóm nào
X1, X2, X3 là những biến số giả chỉ phân nhóm, chỉ
nhận 1 trong 2 giá trị: =1 (đúng) hoặc =0 (sai)
Ví dụ khi bệnh nhân đưa vào nhóm chứng thì X1=1,
X2=0 và X3=0
Tham số bo chính là giá trị của Y khi tất cả X=0
Tham số b1,b2,b3 tương ứng cho X1,X2,X3; Đây
cũng chính là khoảng cách giữa Y1,Y2,Y3 và trung
bình của Y
Trang 71 1.4 ANCOVA dùng để hiệu chỉnh những yếu tố gây nhầm lẫn
Lúc này các bạn hẳn sẽ tò mò hỏi rằng: nếu mô hình hồi quy tuyến tính có thể chứa nhiều biến
số, cả biến định tính và định lượng; vậy liệu ta có thể kết hợp phương pháp ANOVA và phântích 1 (hay nhiều) biến định lượng khác ?
Câu trả lời là hoàn toàn có thể, và phân tích ANOVA được « mở rộng » này sẽ có tên khác làANCOVA hay phân tích phương sai với Hiệp biến số (Analysis of Covariance) Hiệp biến số (C)
là tất cả những biến định lượng độc lập với mô hình thí nghiệm (biến định tính X) nhưng cóảnh hưởng đến biến số phụ thuộc (Y)
Y
Mô hình ANCOVA
C C
Y’ = Bo + Bc * C + B1 (X1)+ B2 (X2)+ … Bn (Xn)
Biến số giả tương ứng X=1,2,…nHiệp biến số
Sauhiệu chỉnh
Trước
hiệu chỉnh
ANCOVA là một mô hình hồi quy tuyến tính chứa yếu tố X cần
khảo sát như trong ANOVA, nhưng có thêm 1 hay nhiều hiệp
biến số C Mô hình này cho phép hiệu chỉnh giá trị Y dựa theo
C
ANCOVA cho kết quả chính xác hơn ANOVA, vì nó cho phép
thu nhỏ sai số «không rõ nguyên nhân» hay SSR trong một
phân nhóm và làm tăng sức mạnh của ANOVA Vì ANOVA dựa
vào việc so sánh kích thước của sai biệt giữa nhóm này và
nhóm khác, do thí nghiệm gây ra (SSM) với kích thước của sai
số ngẫu nhiên nội tại trong cùng phân nhóm (SSR) Hiệp biến
số cho phép giải thích được 1 phần của SSR và giúp đánh giá
chính xác hơn ảnh hưởng thực sự của hiệu ứng chính (SSM)
ANCOVA còn cho phép cô lập (và loại bỏ) những yếu tố gây
nhầm lẫn C có khả năng làm sai lệch giá trị của Y trong thí
nghiệm Đa số thiết kế nghiên cứu đều chứa nguy cơ này Một
nhà nghiên cứu cẩn thận sẽ lường trước và phân lập ra các yếu
tố gây nhầm lẫn, sau đó dùng ANCOVA để phân tích ảnh
hưởng của yếu tố gây nhầm lẫn này (được xem như hiệp biến
số), nếu kết quả ANCOVA chứng thực nguy cơ gây nhầm lẫn, ta
có thể hiệu chỉnh lại mô hình để đưa ra kết luận chính xác hơn
SST SSM SSR
SST SSM
do C gây ra
Không giảithích được
Tóm lại, ANCOVA là công cụ dành cho những nhà nghiên cứu cẩn trọng, cầu toàn, nhìn vấn đề một cách tinh
tế và toàn diện chứ không mù quáng theo đuổi duy nhất một mục tiêu, một giả thuyết duy nhất Y học là lĩnhvực nhiều tiềm năng cho thiết kế nghiên cứu ANCOVA, vì cơ thể con người là một bộ máy phức tạp, đồngthời tương tác với môi trường xung quanh; nên trước bất cứ một hiệu ứng sinh lý, bệnh học, điều trị nào,cũng có nhiều yếu tố tham gia, hiệp đồng hay đối kháng lẫn nhau, nếu chỉ nhìn sự việc theo 1 chiều, X gây ra
Y thì quá đơn giản
Trang 81 1.5 Một số ứng dụng thực tế của ANCOVA
C Y
Y C
C là 1 yếu tố gây nhiễu
C chính là bản thân giá trị Y trong điều
kiện cơ bản, trước thí nghiệm
ANCOVA có thể ứng dụng trong 4 hoàn cảnh nghiên cứu:
và X, bạn phải hiệu chỉnh giá trị Y theo C trước…
Ví dụ: C có thể là tuổi của bệnh nhân và Y thay đổi do sự lãohóa, như trong thí dụ mà ta đang xét
2 C là một yếu tố gây nhiễu trong quá trình nghiên cứu mà bạn
đã tiên liệu trước Yếu tố này có thể gây sai lệch kết quả của
Y theo cách ngẫu nhiên Bạn cần vô hiệu hóa tác động sailệch này trước khi làm ANOVA
Ví dụ: Một nghiên cứu về khả năng gắng sức của bệnh nhântim mạch được thực hiện cùng lúc ở miền núi và vùng đồngbằng, chức năng trao đổi khí của bệnh nhân cần được hiệuchỉnh bởi độ cao C vì độ cao làm thay đổi FiO2
3 Trong các thử nghiệm lâm sàng, vấn đề thường gặp có thể là
so sánh hiệu quả điều trị đối với đại lượng Y ở nhiều liềuthuốc (hay loại thuốc) X khác nhau, tuy nhiên nhiều ngườiquên rằng trước khi thí nghiệm, bệnh nhân có thể đã có Ykhác nhau Vì thế Y trước thí nghiệm cũng là 1 loại yếu tố gâynhầm lẫn và được xem như hiệp biến số C
Ví dụ: Khảo sát huyết áp sau khi dùng 3 liều thuốc hạ áp khácnhau Y = Huyết áp, X= Liều thuốc và C = Huyết áp cơ bảntrước khi dùng thuốc
4 ANCOVA được mang ra áp dụng ngẫu nhiên,do ý đồ chủquan của người làm nghiên cứu
Ví dụ: Khi có quá nhiều biến số trong tay, nhà nghiên cứu tò
mò muốn kiểm tra 1 giả thuyết nào đó
Hoặc đơn giản chỉ vì họ chưa hài lòng với giá trị p, size… của mô hình gốc, và muốn dùng ANCOVA với hy vọnglàm cho kết quả đẹp hơn 1 chút
Trang 9Effect-1.6 Những giả định của ANCOVA
Bản chất của ANCOVA là một mô hình hồi quy tuyến tính , nên những biến số cần phân tích phải thỏa mãn tất cả những điều kiện giả định của hồi quy tuyến tính; ngoài ra còn cần thêm một số điều kiện đặc biệt như:
Giả định về tính độc lập giữa hiệp biến số (C) và hiệu ứng chính (biến số X) Nói cách khác, nếu bạn thực hiện ANOVA của C theo X, kết quả của F-test và/hoặc post-hoc test phải cho ra kết quả âm tính (không có sự khác biệt ý nghĩa của giá trị C giữa các phân nhóm quy định bởi yếu
tố X.
Giả định về sự tương đồng hệ số góc hồi quy giữa Y và C giữa các phân nhóm quy định bởi X Như vậy: Y và C vừa phải quan hệ tuyến tính với nhau, hệ số hồi quy giữa chúng cũng phải tương đương nhau, và độc lập với X.
Bạn có thể hiểu đơn giản để kiểm tra giả định này, nếu ta dựng 3 đường thẳng hồi quy của Y theo C tương ứng với 3 giá trị của X, 3 đường này phải gần như song song với nhau và không khác biệt so với đường thẳng hồi quy cho toàn thể.
Mặc khác, nếu ta xét mô hình hồi quy tuyến tính với Y là giá trị dự báo, chứa cùng lúc X, C thì không được có tương tác ý nghĩa giữa X và C, như vậy yếu tố tương tác X*C trong mô hình không được có ý nghĩa thống kê (p>0,05).
do C gây ra
Không giảithích được
SSR
SST SSM
do C gây ra Không giảithích được
ANCOVA không lý tưởng (X và C có tương tác)
C = Bo + B1 (X1)+ B2 (X2)+ … Bn (Xn)
C phải độc lập với XHiệp biến số
1
Trang 10Thăm dò số liệu
Kiểm tra hiệp biến số
Kiểm tra mô hình tuyến tính
Phân tích sâu
So sánh giá trị Y trước và sau hiệu chỉnh
Có giả thuyết cụ thể: phân tích tương phảnChưa có giả thuyết: Post-hoc test
Kiểm tra 2 giả định:
+ Phân phối bình thường (chuẩn) của Y và C+ Không có giá trị bất thường (điểm ngoại lai)
Kiểm tra 2 giả định:
+ Tương đồng về hệ số hồi quy giữa Y và C trong các phân nhóm X+ Tính độc lập giữa C và X
Chạy ANCOVA lần 1, kiểm tra:
+ Ý nghĩa thống kê của C + Ý nghĩa thống kê của mô hình sau hiệu chỉnh+ các giả định về phẩm chất mô hình
Chạy ANCOVA lần 2 với bootstrap và phân tích sâu
2.1 Chuẩn bị quy trình ANCOVA
Trong tài liệu lần này, tác giả hoàn toàn dựa vào Syntax thay vì sử dụng giao diện của SPSS.
Ưu điểm của việc sử dụng Syntax đó là bạn sẽ tiết kiệm rất nhiều thời gian khi thực hiện các quy trình phức tạp như trong ANCOVA, nhất là khi bạn phải thử lại nhiều lần.
Nhược điểm của Syntax, dĩ nhiên là tính phổ quát, vì để dùng được Syntax, thiết kế nghiên cứu của bạn phải tương đồng với thí dụ này; hoặc bạn phải thay đổi nội dung Syntax.
Dù sao thì ANCOVA cũng là 1 quy trình phức tạp hơn nhiều so với ANOVA, nên tác giả tập trung phân tích kỹ phần kết quả để giúp bạn có thể diễn giải kết quả của chính mình Về phần Syntax, bạn sẽ phải thay đổi 1 vài điểm nhỏ ở bước đầu tiên; tuy nhiên
kể từ khối lệnh thứ 2 trở đi mọi thứ đều đã có sẵn và chính xác, bạn có thể an tâm thi hành.
ANCOVA thực ra rất giống với ANOVA về nguyên tắc cơ bản, nên bạn có thể đọc thêm tài liệu về ANOVA đơn biến của tác giả để hiểu thêm về 1 số khái niệm như Post hoc test, phân tích tương phản, test F, hệ số ảnh hưởng v.v …
Trang 111) Đầu tiên, bạn tạo 1 bảng số liệu gồm 3 biến số:
X
Y C
Phân nhóm: Mã hóa giá trị:
1= bình thường (nhóm chứng âm) 2= Tiểu đường type 2 (Nhóm chứng dương) 3= Sau xạ trị ung thư (Nhóm nghiên cứu) Tuổi
Giá trị CIMT (đo bằng µm) Chú ý:
+ Bạn phải đặt tên biến là X,Y,C như trong hình, để có thể sử dụng Syntax
+ Không cần dán nhãn giá trị cho biến số, ta sẽ làm việc này bằng cách sửa nội dung syntax
0 Tạo bảng số liệu
2) Tải bộ syntax ANCOVA từ Google drive của tác giả về máy:
Trang 12Để thi hành 1 khối lệnh tùy chọn:
Trước hết bạn đánh dấu chọn khối lệnh này Sau đó click chuột phải mở Menu
và chọn Run Selection.
Trạng thái của bộ xử lý ở góc dưới phải màn hình
Đang thi hành quy trình…
Đã thực hiện xong quy trình và xuất kết quả
Trang 13Khối lệnh thứ 1 có mục đích khai báo tên của biến số và tênphân nhóm bằng cách dán nhãn.
Quan trọng:Các bạn bắt buộc phải sửa chữa nội dung của khốilệnh này cho phù hợp với nghiên cứu của mình, trước khi thihành bộ syntax
Quy tắc cần nhớ
X= Biến số độc lập dùng để phân nhóm trong ANOVA
Y = Đại lượng cần khảo sát, hay biến số phụ thuộc trong ANOVAC= Yếu tố cần phân tích trong ANCOVA, hay hiệp biến số
VARIABLE LABELS
X "Phân nhóm điều trị"
C «Huyết áp trước điều trị"
Y «Huyết áp sau điều trị"
* Bước 1: Dán nhãn biến số và nhãn giá trị
2 "BN Tiểu đường type 2"
3 "Sau xạ trị carcinoma mũi họng"
Khối lệnh sẽ được thi hành, bạn kiểm ra lại trongbảng số liệu: Các biến đã được dán nhãn
Trang 14* Bước 2: Thăm dò 2 biến số C,Y và kiểm tra giả
Khối lệnh thứ 2 : Thăm dò biến số
nhằm mục đích thăm dò số liệu, nội dung của quy trình nàygồm có:
+ Thống kê mô tả cho 2 biến số Y và C cho từng phân nhómtheo X
+ Kiểm tra giả định phân phối chuẩn của C và X trong mỗiphân nhóm bằng biểu đồ QQ và test Sapiro Wilk
+ Vẽ biểu đồ Box-plot cho C và Y theo X để phát hiện điểmgiá trị ngoại lai
2 giả định này là rất quan trọng trước khi tiến hành phântích hồi quy và ANOVA
* Bước 3: ANOVA đơn biến cho Y và C
BOOTSTRAP
Khối lệnh thứ 3 : ANOVA trước hiệu chỉnh
Nội dung của khối lệnh này là thực hiện ANOVA 1 yếu tốcho Y và C theo X
Ý nghĩa của quy trình là để :
+ So sánh giá trị trước hiệu chỉnh của Y giữa các phânnhóm
+ Kiểm tra tính độc lập của C và X : Đây là 1 điều kiện đểlàm ANCOVA Lưu ý: Bước này chỉ thực sự quan trọng khi
X là 1 biến số thứ hạng và có ý nghĩa định lượng; ví dụ độnặng của bệnh, liều thuốc, thời gian…
Ngược lại nếu bản thân X không có 1 quy luật nào rõ ràng,như trong trường hợp này, thì không cần thiết phải kiểmtra quan hệ giữa C và X nữa
Chú ý:
Để khái quát hóa bộ Syntax, tác giả cho quy trình
ANOVA làm cùng lúc 2 loại post-hoc test là :
Bonferroni: nếu giả định phương sai đồng nhất thỏa
mãn (Levene test có p>0,05)
Games-Howell: khi có vi phạm giả định về phương sai
đồng nhất (Levene test có p<0,05)
Khi đọc kết quả, bạn chỉ cần diễn giải 1 trong 2, tùy theo
kết quả Levene test
Trang 15* Bước 4: Thăm dò tương quan giữa hiệp biến số C và
DATA: C=col(source(s), name("C"))
DATA: Y=col(source(s), name("Y"))
DATA: X=col(source(s), name("X"), unit.category())
GUIDE: axis(dim(1), label("Hiệp biến số C"))
GUIDE: axis(dim(2), label("Giá trị biến số cần so
+ Lệnh GGRAPH và GPL: Vẽ biểu đồ Scatter plot để khảo
sát quan hệ tuyến tính giữa Y và C ở mỗi phân nhóm theo
X Đây là phương pháp trực quan để kiểm tra giả địnhtương đồng về hệ số hồi quy giữa Y và C
+ Lệnh CURVEFIT: Khảo sát đường thẳng hồi quy tuyến
tính giữa Y và C trong toàn bộ quần thể chung, kết quảgồm có bảng ANOVA đánh giá ý nghĩa thống kê của môhình và biểu đồ Scatter plot
Lưu ý:
Các bạn không nên cho chạy toàn bộ Syntax 1 lần duynhất, kết quả sẽ dài và rối Mặt khác mục đích của 5 khốilệnh đầu tiên là kiểm tra một số giả định trước khi tiếnhành ANCOVA chính thức; vì vậy bạn nên chạy từng khốiriêng biệt và tuần tự Thỏa giả định ở bước nào mới chạytiếp bước tiếp theo
Trong trường hợp giả định bị vi phạm, có thể bạn phải xửtrí bằng cách chỉnh sửa số liệu, chuyển dạng biến số… rồikiểm tra lại trước khi đi tiếp
*Bước 5: Kiểm tra ý nghĩa của tương tác C*X
hệ số hồi quy giữa Y và C độc lập với X
Trang 16* Bước 6: Kiểm tra giả định Homoscedasticity
và giả định đồng nhất phương sai của giá trị thặng dư
DATA: PRE=col(source(s), name("PRE"))
DATA: RSD=col(source(s), name("RSD"))
GUIDE: axis(dim(1), label("Giá trị dự báo của Y"))
GUIDE: axis(dim(2), label("Giá trị thặng dư chuẩn hóa
Nội dung của quy trình:
Thực hiện ANCOVA lần thứ 2 với mô hình chứa 2 biến
số C và X, không kèm theo bootstrap hay phân tíchsâu
Mục đích duy nhất là để sao lưu kết quả dự báo và sai
số thặng dư, từ đó kiểm tra các giả định vềhomoscedasticity và đồng nhất phương sai của giá trịthặng dư chuẩn hóa (RSD) Các giả định này rất quantrọng để kiểm tra mức độ phù hợp (hay phẩm chất)của mô hình hồi quy tuyến tính
+ Giả định Homoscedasticity được kiểm tra bằng cáchtrực quan mối quan hệ tuyến tính giữa giá trị dự báo
và sai số thặng dư chuẩn hóa Kết quả trông đợi làkhông có quan hệ ý nghĩa (RSD phân bố ngẫu nhiên)
+ Bước tiếp theo là khảo sát phân phối chuẩn của sai
số thặng dư RSD bằng biểu đồ QQ plot và test Wilk; kết quả trông đợi là có phân phối chuẩn
Sapiro-Nếu cả 2 giả định này được thỏa mãn, bạn có thể đitiếp bước 7 là quy trình ANCOVA chính thức với phântích sâu, cũng là bước cuối cùng
Trang 17* Bước 7: Phân tích ANCOVA dựa vào quy trình GLM-1
BOOTSTRAP
/SAMPLING METHOD=STRATIFIED(STRATA=X )
/VARIABLES TARGET=Y INPUT=X C
/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000
/PRINT=LOF TEST(LMATRIX) GEF OPOWER PARAMETER
ETASQ HOMOGENEITY DESCRIPTIVE
Nội dung quy trình gồm có:
+ Lệnh Bootstrap: lấy mẫu ngẫu nhiên lặp lại 1000 lầncho mỗi phân nhóm của X, mục đích để khảo sát các trị
số trong ANCOVA, post-hoc test, t-test và Contrast-testvới cỡ mẫu lớn hơn nhiều lần so với quần thể gốc, từ
đó tính Bca95% CI là khoảng tin cậy cho những trị sốnày
+ Quy trình ANCOVA chính thức, dựa trên chức năngGeneral linear model (GLM) univariate, dựng mô hìnhhồi quy tuyến tính chứa 2 biến số C và X
Kết quả xuất ra bao gồm:
+ Bảng ANCOVA+ Thống kê mô tả cho giá trị Y sau khi hiệu chỉnh+ Biểu đồ biến thiên của Y sau khi hiệu chỉnh+ Kết quả phân tích tương phản đơn giản với X=1 lànhóm chứng
+ kết quả Post-hoc test
Lưu ý: Thực ra bạn chỉ cần làm Post-hoc test hoặc
Contrast, tùy theo ý đồ nghiên cứu Post-hoc test kiểmtra tất cả các khả năng có thể, còn Contrast chỉ kiểm tra
1 vài giả thuyết có định hướng
Bạn chọn 1 trong 2 để báo cáo , test Post-hoc có thểdùng cho mọi trường hợp Tác giả đã chọn phươngpháp tối ưu nhất là Bonferroni
Đến đây việc thi hành bộ Syntax đã hoàn tất Các bạnchỉ còn việc đọc kết quả
Trang 18Tests of Normality
Phân nhóm đối tượng
Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig Statistic df Sig.
Sau xạ trị carcinoma hầu
* ,961 15 ,709
Sau xạ trị carcinoma hầu
* This is a lower bound of the true significance.
a Lilliefors Significance Correction
Kiểm tra giả định phân phối chuẩn cho biến số phụ thuộc (Y) ở mỗi phân nhóm X
Kiểm tra giả định phân phối chuẩn cho hiệp biến số (C) ở mỗi phân nhóm X
Kết quả cần quan tâm: Giá trị p
Kết quả trông đợi: Giá trị p>0,05 cho test Shapiro-Wilk hoặc Kolmogorov Smirnov ở tất cả các hàngcho thấy giá trị của Y và C phân phối bình thường (chuẩn) trong mỗi phân nhóm, thỏa mãn giả địnhđầu tiên của ANOVA
Nếu có một trong các giá trị p<0,05, ta đã vi phạm giả định về phân phối chuẩn; không thể đi tiếpngay mà cần tập trung xử trí bất thường này trước
Có 2 cách kiểm tra giả định phân phối chuẩn:
1) Phương pháp toán học - Sử dụng kiểm định Shapiro-Wilk hoặc Kolmogorov-Smirnov :
tối ưu cho trường hợp cỡ mẫu không quá lớn (<50 trường hợp), nhưng lại không đáng tin cậy khi cỡ mẫu quá nhỏ)
2) Phương pháp trực quan - Sử dụng biểu đồ Q-Q plot: Thích hợp cho những cỡ mẫu lớn
(> 50 trường hợp)
Nếu bạn có cỡ mẫu lớn (> 50 trường hợp), có
thể dùng biểu đồ Q-Q để phát hiện nhanh sự
vi phạm giả định phân phối chuẩn Nếu các
điểm giá trị phân phối chuẩn, chúng sẽ nằm
rải rác gần đường thẳng (màu xanh) như
trong hình Nếu có sự phân tán (các điểm
phân bố xa khỏi đường thẳng này) tức là phân
phối không chuẩn (màu đỏ).
3 3 Diễn giải kết quả 3.1 Thăm dò số liệu
Trang 19Nếu giả định phân phối
chuẩn bị vi phạm ta
phải xử trí thế nào ?
Để làm ANOVA đơn biến: Bạn có nhiều lựa chọn
1) Chuyển dạng biến số (ví dụ thang đo Logarit), với hy vọng sẽ có phân phối chuẩn
2) Sử dụng phương pháp khác
ví dụ mô hình hồi quy đa cấp có Bootstrap để thay thế cho GLM-ANCOVA.
3) Bỏ qua vi phạm và vẫn làm phân tích ANCOVA (Thực ra điều kiện phân phối không phải là tuyệt đối bắt buộc).
4) Làm ANCOVA song song cho 2 mẫu số liệu: nguyên thủy và đã chuyển dạng (logarit hóa), so sánh kết quả của chúng với nhau.
Lời khuyên của BS Nhi:
Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết quả, nhất là cách bạn xử lý những điểm giá trị cá biệt, lựa chọn test thống kê Nếu phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm giá trị của Skewness và Kurtosis (trong bảng kết quả Explore).
Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi ngờ về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo Người đọc sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống kê.
P<0,00001 à ? Kết quả này quá đẹp nên không thể tin được
Phải triệu hồi chuyên viên thống
kê ra làm chứng
3 3 Diễn giải kết quả 3.1 Thăm dò số liệu
Trang 20Biểu đồ Box-plots cho phép phát hiện nhanh các điểm giá trị cá biệt (chênh lệch quá lớn so
với độ lệch chuẩn) Biểu đồ này cũng dùng để báo cáo kết quả
Bất cứ điểm nào có khoảng cách > 1,5 lần chiều dài của error bar được xem là điểm ngoại
lai
Nếu cách biệt lớn hơn 3 lần, đó là giá trị rất phân cực
Trong hình trên, không có điểm giá trị ngoại lai nào được phát hiện
Nếu có trường hợp giá trị cá biệt, SPSS sẽ đánh dấu bằng mã số thứ tự cho phép ta định vị
dễ dàng trường hợp đó trong bảng số liệu
Điểm giá trị cá biệt(trường hợp thứ 5 trong bảng số liệu)
Điểm giá trị chênh lệch cực độ(trường hợp thứ 4 trong bảng số liệu)
X1,5
*
X3
*
Điểm giá trị cá biệt
Điểm giá trị chênh lệch cực độ
3 3 Diễn giải kết quả 3.1 Thăm dò số liệu
Trang 21Nếu có điểm giá trị ngoại
lai, ta phải xử trí thế nào
Nếu ta quyết định vẫn giữ điểm ngoại lai; ta có nhiều lựa chọn:
1) Sử dụng Bootstrap để tăng sức mạnh thống kê.
2) Thay đổi giá trị cá biệt bằng 1 giá trị khác gần với nó nhất có thể (ví dụ: nếu giá trị x = 10 được xem là quá khác biệt, ta có thể thử giá trị x=8 , vẫn là giá trị cao nhất nhưng còn nằm trong giới hạn cho phép) (Lưu ý: giá trị thay thế có thể là giả hay thật đều được)
3) Chuyển dạng biến số (ví dụ đổi sang thang đo logarit)
4) Cầu kì hơn: Ta tiến hành làm ANCOVA song song cho 2 trường hợp: Có và không
có điểm giá trị ngoại lai, nếu kết quả tương tự nhau, ta giữ, ngược lại ta bỏ.
Loại bỏ giá trị luôn là lựa chọn cuối cùng:
Nếu ta quyết định bỏ điểm ngoại lai này, effect size và giá trị phổ quát của mô hình
có thể sẽ bị ảnh hưởng.
3 3 Diễn giải kết quả 3.1 Thăm dò số liệu