Phương pháp thống kê thích hợp trong trường hợp này là «Phân tích phương sai ANOVA đơn biến cho thí nghiệm lặp lại còn gọi là ANOVA 1 yếu tố cho các nhóm phụ thuộc hay ANOVA 1 yếu tố cùn
Trang 1SPSS
ANOVA đơn biến cho phép đo lặp lại
BS Lê Đông Nhật Nam
1
Trang 2và kết quả tất yếu là trong kì thi xếp lớp tôi lãnh một điểm zéro tròn vo Người ta tập hợp tất cả những học sinh « siêu cấp » như tôi vào chung một lớp do thầy Vũ Cao Thắng quản nhiệm (đây là một trong những thầy giáo tuyệt vời nhất mà từng gặp) Chỉ sau 3 tháng lớp của thầy không chỉ lấy lại căn bản mà còn xuất sắc vượt qua kì thi cuối khóa, và 9 tháng sau 100% học sinh trong lớp đều trở thành học sinh giỏi toán và hầu hết thi đậu vào lớp 10 với điểm số rất cao Nhiều bạn bè tôi còn thi đậu vào khối A trường chuyên
Câu chuyện này là bài học đầu tiên trong đời tôi về ý nghĩa thực sự của điểm số và những kì thi, từ
đó tôi hiểu rằng mọi vật trên đời đều thay đổi theo thời gian do tự bản thân hay dưới sự tác động của một yếu tố bên ngoài
Trong nghiên cứu y học, nếu chỉ khảo sát cắt ngang tại một thời điểm duy nhất ta có nguy cơ đưa ra kết luận sai lầm về bản chất của một hiện tượng Để nhìn thấy quy luật diễn tiến của một bệnh lý, đánh giá hiệu quả của một phương pháp điểu trị, ta thường theo dõi cùng 1 bệnh nhân ở nhiều thời điểm khác nhau, khảo sát 1 yếu tố ở các điều kiện khác nhau Từ đó đặt ra vấn đề so sánh những giá trị này để tìm sự khác biệt
Phương pháp thống kê cho phép giải quyết bài toán này là phân tích phương sai cho phép đo lặp lại (ANOVA for repeated measure) hay còn gọi là ANOVA cùng đối tượng (within subject)
Tài liệu này sẽ hướng dẫn chi tiết cách thực hiện ANOVA cho phép đo lặp lại bằng phần mềm SPSS Nội dung tài liệu có lẽ nhiều bạn đã biết, nhưng lần này chúng sẽ được trình bày dưới một hình thức hoàn toàn mới Mục đích của tôi là viết ra một tài liệu thống kê để người đọc cảm thấy
IBM-« dễ chịu và thú vị» khi theo dõi thay cho cảm giác bất an và khó chịu do sự khô khan của môn học này
2
Trang 3Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và
ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống
kê …
Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách rất hồn nhiên và sống ngây thơ như trẻ con, vì vậy cô luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Cô ấy sẽ hướng dẫn các bạn sử dụng SPSS từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện rất đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu
3
Trang 4Rối loạn chuyển hóa phosphat là một yếu tố nguy cơ tử vong ở bệnh nhân bỏng nặng
Một bác sĩ tại khoa Bỏng thực hiện đề tài khảo sát sự thay đổi nồng độ Phosphat trong huyết thanh ở bệnh nhân bỏng Nghiên cứu được thực hiện trên 20 bệnh nhân người lớn bị bỏng độ 2 hơn 30% tổng diện tích cơ thể hoặc độ 3 quá 15% tổng diện tích cơ thể
Biến số cần khảo sát là nồng độ phosphat trong huyết thanh (đơn vị mg/dl) Bệnh nhân được lấy 2 mL máu tĩnh mạch vào buổi sáng ở thời điểm 3-6-9 ngày sau khi nhập viện Mẫu máu sau đó sẽ được quay ly tâm để tách huyết thanh và định lượng nồng độ phosphate bằng máy phân tích sinh hóa tự động Hitachi-Boehringer-Mannheim
Câu hỏi nghiên cứu của Bảo là tìm ra quy luật biến đổi của nồng độ serum phosphat trong thời gian nằm viện, liệu nó sẽ tiếp tục giảm, dao động ngẫu nhiên hay được cải thiện ?
Phương pháp thống kê thích hợp trong trường hợp này là «Phân tích phương sai (ANOVA) đơn biến cho thí nghiệm lặp lại (còn gọi là ANOVA 1 yếu tố cho các nhóm phụ thuộc hay ANOVA 1 yếu tố cùng đối tượng) »
Phương pháp này cho phép bạn phân tích sự biến đổi giá trị của 1 biến số định lượng qua nhiều lần khảo sát (≥3 lần đo) trên cùng một đối tượng
Giả thuyết 0: giá trị trung bình là như nhau ở mỗi lần đo:
Trang 5Biến thiên được khảo sát bằng Sum of square (SS), gồm nhiều loại:
SST : total variability : Thay đổi chung
SSB: khác biệt giữa đối tượng này so với với đối tượng khác (between subject)
SSw: Thay đổi giữa 2 lần đo khác nhau trên cùng 1 đối tượng (within subject)
SSw lại được chia ra thành 2 loại:
SSM: Model, thay đổi gây ra do điều kiện thí nghiệm (hiệu ứng của nhân tố can thiệp)
SSR: residual: Thay đổi do sai sót trong quá trình đo, hoàn toàn ngẫu nhiên
SST = S2*(N-1); với S= phương sai tổng quát của tất cả giá trị xét chung, không phân biệt lần đo, có độ tự do
df = (N-1)
𝑆𝑆𝑅 = 𝑛 𝑥𝑖 − 𝑥𝑖 2
𝑖=1 = 𝑠2 𝑛 − 1 với s = phương sai tính cho từng lần đo (n như nhau cho mỗi lần đo) 𝑆𝑆𝑤 = 𝑆12∗ 𝑛1− 1 + ⋯ + 𝑆12∗ 𝑛𝑘− 1
= biến thiên giá trị ở từng cá thể, rồi cộng tất cả lại; số lần đo = k
Mỗi cá thể có độ tự do dFi=(n-1) nên dF tổng cộng = tổng các dFi
𝑆𝑆𝑀 = 𝑘 𝑛𝑘 𝑥𝑘− 𝑥𝑔𝑟𝑎𝑛𝑑 2
𝑘=1 và có độ tự do dFM = (k-1)
SSR = (SSW-SSM) = residual sum of square và có độ tự do dfR = dfW – dfM
Sau đó ta ước tính Mean square, để trung hòa ảnh hưởng sai lầm gây ra do số lần đo; gồm 2 loại:
Mean square chính hay của « mô hình »: MSM = SSM/dfM
Mean square của sai số: Residual (error) mean square: MSR=SSR/dFR
Từ đó, ta tính hệ số F: F = MSM/MSR
Nếu F>1: hiệu ứng của yếu tố khảo sát lớn hơn sai biệt do ngẫu nhiên
5
Trang 6Qui trình phân tích phương sai đơn biến cho phép đo lặp lại
Bước 1: Thăm dò dữ liệu :
Kiểm tra điểm ngoại lai (giá trị cá biệt)
Kiểm tra giả định phân phối bình thường (chuẩn) của giá trị ở mỗi lần đo
Bằng các công cụ: Boxplots, QQ plot, thống kê mô tả, kiểm định Sapiro-Wilk…
Sau đó: Nếu có Outliers: Ta phải xử trí Nếu Phân phối không chuẩn: xứ trí hoặc bỏ qua
Bước 2: Tiến hành phân tích ANOVA 1 yếu tố cho phép đo lặp lại
2-1) Kiểm tra giả định sphericity (đồng nhất về phương sai) bằng test Mauchly
2-2) Thực hiện F-test, có hoặc không có hiệu chỉnh tùy theo kết quả Mauchly test
Bước 3: Phân tích sâu
3A) Không có giả thuyết: Post-hoc (multivariate test)
3B) Có giả thuyết: phân tích tương phản (contrast )
Bước 4: Tính Effect size
Phân tích sâu
Thực hiện phân tích ANOVA
cho phép đo lặp lại
Kiểm tra các giả định
Tính hệ số ảnh
hưởng/tương phản
Sử dụng chức năng Explore của SPSS
Có giả thuyết rõ ràng Phân tích khuynh hướng
Độ tự do (dF)
Mean of square (MS)
Trang 7Phân tích phương sai (ANOVA) đơn biến cho thí
nghiệm lặp lại có thể ứng dụng cho nhiều thiết kế
nghiên cứu như
1 Khảo sát sự biến thiên của 1 đại lượng theo
thời gian :
- Diễn tiến của một bệnh lý trong khoảng thời gian
nằm viện
- Đánh giá hiệu quả trị liệu: So sánh sự thay đổi của
triệu chứng (định lượng) trước và sau khi điều trị
- Nghiên cứu dược động học, sinh hóa học: khảo sát
nổng độ của một chất trong cơ thể theo thời gian
2 So sánh giá trị 1 đại lượng giữa những điều
kiện khảo sát khác nhau:
- Nghiên cứu sự dao động của giá trị một đại lượng
ở các thời điểm khác nhau trong ngày
- Ảnh hưởng của môi trường (nhiệt độ, độ cao…),
chế độ ăn, tư thế… lên kết quả xét nghiệm
- So sánh những phương pháp đo, thiết bị đo khác
nhau
ANOVA còn có thể được hiểu như một mô hình hồi
quy khảo sát sự biến thiên của biến số định lượng
theo thời gian (ở những lần đo khác nhau)
Bạn cần có:
1 biến số định lượng liên tục biểu thị cho đại lượng
cần nghiên cứu ; ví dụ: nồng độ 1 chất trong máu
1 biến số định tính để phân loại điều kiện đo (≥3
Trang 8Cột cho phép bạn mô tả ý nghĩa của biến số, điều này rất có ích nếu sau này bạn muốn chuyển số liệu cho một đồng nghiệp khác sử dụng
Với ANOVA cho phép đo lặp lại, bạn không cần
tạo biến số định tính để phân nhóm mà chỉ cần
tạo 3 biến số định lượng riêng biệt tương ứng cho
mỗi lần đo
Khi tạo bảng số liệu trong SPSS, bạn nên sắp xếp
các biến số (lần đo) theo thứ tự thời gian, thứ tự
này sẽ giúp tránh nhầm lẫn khi thiết kế cấu hình
của phân tích ANOVA
8
Trang 10Thực hiện kiểm định phân
Trang 12Case Processing Summary
Cases
Lower Bound 2,30068 Upper Bound 2,69178
Kiểm tra việc thiếu sót dữ liệu
Thông tin cần quan tâm: Giá trị trung bình và độ lệch chuẩn
12
Trang 13Phân phối chuẩn
Phân phối không chuẩn
* This is a lower bound of the true significance
a Lilliefors Significance Correction
Kết quả kiểm định Sapiro-Wilk
1) Phương pháp toán học - Sử dụng kiểm định Shapiro-Wilk hoặc Kolmogorov-Smirnov :
tối ưu cho trường hợp cỡ mẫu không quá lớn (<50 trường hợp), nhưng lại không đáng tin cậy khi cỡ mẫu quá nhỏ)
2) Phương pháp trực quan - Sử dụng biểu đồ Q-Q plot: Thích hợp cho những cỡ mẫu lớn
(> 50 trường hợp)
Với kiểm định Kolmogorov Smirnov hoặc Shapiro-Wilk, kết quả ta trông đợi là p > 0.05
Nếu p<0.05 tức là giả định phân phối chuẩn đã bị vi phạm
Trong thí dụ này, phân phối của giá trị nồng độ phosphate.serum là bình thường cho cả 3 lần đo (p> 0.05)
Nếu bạn có cỡ mẫu lớn (> 50 trường hợp), có thể dùng biểu đồ Q-Q để phát hiện nhanh sự vi phạm giả định phân phối chuẩn Nếu các điểm giá trị phân phối chuẩn, chúng sẽ nằm rải rác gần đường thẳng (màu xanh) như trong hình Nếu có sự phân tán (các điểm phân bố xa khỏi đường thẳng này) tức là phân phối không chuẩn (màu đỏ)
13
Trang 14Biểu đồ Box-plots cho phép phát hiện nhanh các điểm giá trị cá biệt (chênh lệch quá
lớn so với độ lệch chuẩn) Biểu đồ này cũng dùng để báo cáo kết quả
Bất cứ điểm nào có khoảng cách > 1,5 lần chiều dài của error bar được xem là điểm
ngoại lai
Nếu cách biệt lớn hơn 3 lần, đó là giá trị rất phân cực
Trong hình trên, không có điểm giá trị ngoại lai nào được phát hiện
Nếu có trường hợp giá trị cá biệt, SPSS sẽ đánh dấu bằng mã số thứ tự cho phép ta
định vị dễ dàng trường hợp đó trong bảng số liệu
Trang 15Nếu có điểm giá trị ngoại lai, ta phải xử trí thế nào
?
+ Đầu tiên, cần tìm hiểu nguyên nhân của giá trị cá biệt này: Có thể do nhập số liệu
sai ? Có thể do sai sót trong quá trình đo (đa số trường hợp) Sau khi đã loại trừ tất
cả nguyên nhân chủ quan, ta buộc phải kết luận rằng giá trị đó có thực và hoàn
toàn ngẫu nhiên (rất hiếm gặp, đồng nghĩa với việc đối tượng thực sự là một ngoại
lệ)
Nếu ta quyết định vẫn giữ điểm ngoại lai; ta có nhiều lựa chọn:
1) Sử dụng phương pháp phi tham số (kiểm định Friedman, là giải pháp thay thế
cho ANOVA trong phép đo lặp lại)
2) Thay đổi giá trị cá biệt bằng 1 giá trị khác gần với nó nhất có thể (ví dụ: nếu giá
trị x = 10 được xem là quá khác biệt, ta có thể thử giá trị x=8 , vẫn là giá trị cao nhất
nhưng còn nằm trong giới hạn cho phép) (Lưu ý: giá trị thay thế có thể là giả hay
thật đều được)
3) Chuyển dạng biến số (ví dụ đổi sang thang đo logarit)
4) Cầu kì hơn: Ta tiến hành làm ANOVA song song cho 2 trường hợp: Có và không
có điểm giá trị ngoại lai, nếu kết quả tương tự nhau, ta giữ, ngược lại ta bỏ
Loại bỏ giá trị luôn là lựa chọn cuối cùng:
Nếu ta quyết định bỏ điểm ngoại lai này, cỡ mẫu sẽ bị giảm đi một số trường hợp
tương ứng cho cả những lần đo khác và effect size sẽ bị ảnh hưởng
15
Trang 16Nếu giả định phân phối chuẩn bị vi phạm ta phải xử trí thế nào ?
Lời khuyên của BS Nhi:
Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết quả, nhất là cách bạn xử lý những điểm giá trị cá biệt
Nếu phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm giá trị của Skewness và Kurtosis (trong bảng kết quả Explore)
Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi ngờ về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo Người đọc sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống
kê
16
Trang 17Tên của biến số định tính phân nhóm điều kiện (thường là thời gian)
Số lần đo
Tên của biến số định lượng
ANOVA cho phép đo lặp lại nằm trong mục GLM repeated measure (Mô hình tuyến tính
tổng quát cho phép đo lặp lại)
1
2
3
17
Trang 18Với phép đo lặp lại, SPSS sẽ tạo 1 biến số ảo để chỉ điều kiện, trong đa số trường hợp biến số này được xem là “Thời gian”, bạn có thể đặt tên cho nó tùy ý, ví dụ: Lần đo, Điều kiện, can thiệp, thiết bị…
sau đó nhập giá trị cho thứ bậc “level” (số lần đo=k), ví dụ bạn khảo sát 3 lần thì nhập vào số 3
Sau khi làm xong, bạn nhấn nút để xác nhận
Biến số phân nhóm « Thoigian(3) » đã được xác nhận Tiếp theo bạn sẽ quy định biến số định lượng cần khảo sát Tên của nó có thể đặt tùy ý, ví dụ: « SerumP »
Sau khi đặt tên, bạn nhấn nút để xác nhận
Cuối cùng, bạn nhấn để ghép 3 biến số rời trong bảng số liệu vào bảng Within-subject variables
4
5
6
18
Trang 19lượng với 3 điều kiện khảo sát Nếu bạn làm theo lời khuyên ở trên
là sắp xếp các biến số theo thứ tự thời gian (cùng tên, phân biệt bằng thứ tự lần đo:1,2,3…), bạn chỉ cần chọn tất cả rồi nhấn nút hay kéo vào ô bên phải
7
Nhấn nút để mở hộp thoại vẽ biểu đồ
8
19
Trang 209
Kéo biến số phân nhóm « Thoigian » vào ô
« Horizontal axis » Lựa chọn này cho phép
vẽ 1 biểu đồ duy nhất khảo sát sự biến thiên của serum Phosphat (trục tung) theo thời gian ở « Trục hoành
Biểu đồ này rất hữu ích vì cho ta thấy khuynh hướng thay đổi, từ đó hình thành giả thuyết tương phản
Sau khi chọn xong, nhấn nút để xác nhận
Nhấn để trở về hộp thoại chính
10
11
20
Trang 2112
Nhấn để mở hộp thoại tùy chọn phân tích thống kê
Hộp thoại Option này cho phép chúng ta làm thêm các loại phân tích thống kê phụ; trong đó quan trọng nhất là:
- Mô tả (Descriptive statistic)
- Ước tính hệ số ảnh hưởng Các chức năng khác không cần thiết cho phân tích ANOVA nên ta không cần chọn
Ngoài ra ta cũng có thể hiệu chỉnh ngưỡng giá trị p (Significant level), mặc định là 0.05
Sau khi chọn xong, bạn nhấn
Trang 22Kiểm tra lần cuối sự bắt cặp giữa biến số khảo sát (dependent variable)
và biến số phân nhóm điều kiện (Thời gian)
Nếu bạn đã sắp thứ tự đúng thì không có gì phải bận tâm
Within-Subjects Factors
Measure: SerumP
Thoigian
Dependent Variable
3 nhóm, ngược lại tức là có trường hợp sót số liệu
Nếu bạn muốn làm thêm post-hoc test hay phân tích tương phản, xin đọc phần tiếp theo
Sau đây là phần kết quả của phân tích phương sai cơ bản
22
Trang 23Mauchly's Test of Sphericity a
Dif = Giá trị Lần đo sau – Giá trị Lần đo trước
Ví dụ với k=3 , ta sẽ có 3 cặp tổ hợp (2-1) ; (3-1) ; (3-2) Sau đó , tính phương sai của khác biệt cho mỗi cặp + Kiểm định Mauchly kiểm tra giả thuyết 0 : phương sai của sự khác biệt là như nhau giữa các cặp tổ hợp
H0 : S dif(2-1)=S dif(3-1) = S dif(3-2) + Nếu test dương tính (chấp nhận giả thuyết H0), p<0.05 thì phương sai khác biệt không đồng nhất, giả định sphericity bị vi phạm
+ Test Mauchly âm tính, p>0.05 thì kết luận là số liệu thỏa mãn giả định Sphericity
+ Một cách đơn giản, ta có thể hiểu giả định Sphericity tương đương với
giả định về phương sai đồng nhất của test trong ANOVA 1 yếu tố cho các
nhóm độc lập
- Ta trông đợi p>0.05 cho test Mauchly
- Kết quả test Mauchly phụ thuộc vào cỡ mẫu: Cỡ mẫu lớn thì sai lệch dù
nhỏ cũng trở thành có ý nghĩa; cỡ mẫu nhỏ thì có nguy cơ bỏ sót vi
phạm
- Thực ra giả định Sphericity bị vi phạm không ảnh hưởng đến phân phối
của F, chỉ giảm sức mạnh thống kê của test post-hoc
- Sphericity thỏa: có thể dùng test Tukey, tuy nhiên trong bất cứ trường
hợp nào, post hoc test tối ưu vẫn là phương pháp Bonferonni
Kết quả kiểm định Mauchly cần được báo cáo, với các thông tin : giá trị χ2, độ tự do, giá trị p
Trong thí dụ này, ta có thể diễn giải như sau:
Kiểm định Mauchly cho thấy có sự đồng nhất về phương sai (thỏa giả định về sphericity) với χ2(2) = 2.623 (p=0.269)
23