Lần này ta bàn về phương pháp phi tham số khảo sát sự thay đổi 1 đại lượng trên cùngđối tượng theo dòng thời gian, đó là test Friedman.. Bảo thân mến, thí nghiệm này có tất cả những đặc
Trang 1Tài liệu hướng dẫn
Trang 2Phố St-Michel ở Paris là nơi để lại trong tôi nhiều kỉ niệm Lần đầu tiên tôi đặt chân lên con đường này vàonăm 2003, một chiếc xe bus chạy thẳng từ phi trường CDG đến trụ sở của hội AUF nằm gần đại họcSorbonne Chiều hôm đó tôi biết đến nhà sách Gibert, những rạp cinéma cổ xưa và những con phố nhộnnhịp Hai năm sau tôi quay trở lại chốn cũ, và ngạc nhiên khi thấy mọi thứ vẫn như cũ, ngỡ như mới ngày hômqua Liên tục 6 năm nối tiếp, tôi đi trên con đường này không biết bao nhiêu lần, trong những tâm trạng khácnhau, niềm hân hoan những ngày hè, nỗi lo trước kì thi, những đêm trắng lang thang cùng bè bạn, niềm hạnhphúc khi nắm tay người yêu dạo phố Mùa thu nối tiếp mùa đông… cho đến ngày tôi phải rời xa tất cả nhữngcửa hàng, rạp hát, trạm xe bus quen thuộc đó, để đến 1 thành phố khác, bắt đầu một cuộc sống mới.
Lần cuối cùng tôi ghé lại khu St-Michel chỉ mới mùa đông năm ngoái, chỉ sau 2 năm nhưng tôi bỗng cảm nhậnmột điều khác lạ: tất cả đều thay đổi, cảnh và tình… Người ta đặt trạm bus mới, một kiosque bán báo lạ mọclên, một vài quán ăn đóng cửa Tự nhiên một cảm giác buồn man mác, khó diễn tả chợt lan tỏa trong tôi.Cảm giác này làm tôi chợt nhớ về những câu thơ mình từng đọc của nhà thơ Nguyên Sa:
« Mai tôi đi chắc Paris sẽ buồn
Paris sẽ nhìn theo
Nhưng nhìn thì nhìn đời trăm nghìn góc phố
Con đường dài thẳng mãi có bao nhiêu »
Dường như trong lòng tôi có sự thất vọng sâu sắc, khi biết nơi này không còn là thành phố CỦA tôi nữa, tôitrở thành một kẻ xa lạ như hàng triệu du khách khác đi trên con đường này mỗi năm
Vào buổi chiều đó tôi bắt đầu sợ thời gian, cảm giác mà cách đó chỉ vài năm tôi chưa bao giờ nghĩ tới Thờigian làm thay đổi tất cả mọi thứ… niềm vui thành nỗi buồn, đúng thành sai, quen thành lạ…
Nói về thời gian, thì hôm nay là lần thứ 5 chúng ta ngồi với nhau để kể câu chuyện về biến số thời gian trongphân tích thống kê Lần này ta bàn về phương pháp phi tham số khảo sát sự thay đổi 1 đại lượng trên cùngđối tượng theo dòng thời gian, đó là test Friedman Đây là 1 giải pháp thay thế cho ANOVA, và trong vàitrường hợp nó là giải pháp duy nhất…
Như thường lệ, BS Khả Nhi sẽ dẫn các bạn đi từ bảng số liệu đến văn bản khoa học, bằng con đường ngắnnhất
Chúc các bạn thành công
Lời nói đầu
Trang 3Quy ước trình bày
Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật
Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trướcmọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và ôn lại cho bạn nhữngkiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lạirất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng haytrình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấygần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống kê
…
Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên
gọi của mình, BS Nhi có tính cách hồn nhiên và ngây thơ như trẻ con, vì vậy
cô ấy luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Khả Nhi sẽ
hướng dẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻ những mẹo
vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoahọc Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quanđến thống kê Mặc dù những đế tài do Bảo thực hiện còn đơn giản, nhưngđồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệmtrong công việc phân tích số liệu và thiết kế nghiên cứu
3
Trang 4Trong thí nghiệm, 11 cá thể chuột nhắt sơ sinh được gây nhiễmkhuẩn Clostridium ramosum Sau đó những con chuột này đượctheo dõi cân nặng mỗi 6 ngày trong vòng 1 tháng (6 lần đo) BạnNCS muốn xác định sự tương phản về cân nặng giữa các thời điểm.
Ta phải dùng phương pháp thống kê nào ?
Bảo thân mến, thí nghiệm này có tất cả những đặc tính bất lợi ngăn cản chúng
ta làm phân tích ANOVA: cỡ mẫu thấp, đại lượng cần khảo sát phân phốikhông chuẩn và biến thiên thấp, do đó ta phải thay ANOVA bằng phươngpháp phi tham số là kiểm định Friedman và 1 post-hoc test cũng thuộc loại phitham số
Milton Friedman(1912 –2006)Nhà kinh tế, thống kê học người Mỹ Tác giả của phương pháp phitham số so sánh nhiều phân nhóm đồng đối tượng
F
Trang 52 >2
Cùng đối tượng ?
ANOVA phép đo lặp lại
Test t cho 2 mẫu độc lập
Khác đối tượng ?
ANOVA đơn biến
Số phân nhóm (k)
Friedman test
Wilcoxon sign rank test
Whitney test
Mann- Wallis test
Kruskal-Thỏa giả định
Phương pháp
phi tham số thay thế
Test t bắt cặp
1 1.2 Công dụng của Friedman test
Kiểm định Friedman có thể ứng dụng cho những thiết kếnghiên cứu có nội dung khảo sát một đại lượng trên cùng đốitượng qua nhiều lần khác nhau, nhằm mục đích:
A Thay thế cho ANOVA trong trường hợp giả định về phân phối chuẩn bị vi phạm hoặc cỡ mẫu quá thấp
1 Khảo sát sự biến thiên của 1 đại lượng theo thời gian :
- Ví dụ: khảo sát sự thay đổi triệu chứng của một bệnh lý ởcác giai đoạn tiến triển khác nhau
- Đánh giá hiệu quả trị liệu: So sánh sự thay đổi của triệuchứng (định lượng) trước và sau một can thiệp điều trị
- Nghiên cứu dược động học, sinh hóa học: khảo sát nổng độcủa một chất trong cơ thể theo thời gian
2 So sánh giá trị 1 đại lượng giữa những điều kiện khảo sát khác nhau:
- Nghiên cứu sự dao động của giá trị một đại lượng giữanhiều thời điểm khác nhau trong ngày
- Ảnh hưởng của điều kiện bên ngoài (nhiệt độ, độ cao…),chế độ ăn, tư thế… lên 1 đại lượng sinh lý, sinh hóa
- So sánh 1 đại lượng được đo đạc bởi nhiều phương pháp,thiết bị khác nhau
B Một cách bắt buộc, khi : Đại lượng cần khảo sát là mộtbiến số thứ hạng (giả định lượng, không liên tục), ví dụ thangđiểm lâm sàng, một số chuyên khoa như giải phẫu bệnh lý,chẩn đoán hình ảnh, …
Trang 61 1.2 Công dụng của Friedman test
Bản thân test Friedman dựa trên giả thuyết 0 về đặc tính phân phối, nên cho ra kết luận phổ quát hơn mô hìnhANOVA chỉ cho phép chứng minh hiệu ứng ý nghĩa của yếu tố T lên giá trị trung bình của Y Trong trường hợpANOVA cho ra kết quả không rõ nét, bạn có thể cân nhắc dùng test Friedman với hy vọng tìm ra sự khác biệt (vì ítbảo thủ hơn)
Ý nghĩa của test phi tham số và ANOVA là hoàn toàn khác nhau, nên cách diễn giải sẽ khác nhau ANOVA dựa vào môhình hồi quy tuyến tính và so sánh nhiều giá trị trung bình; test phi tham số dựa vào thứ hạng và so sánh đặc tínhphân phối (hay trung vị) Một khi đã dùng test phi tham số, bạn cần phải mô tả đặc tính phân phối của 2 phân nhóm(Trung vị, Skewness, Kurtosis, bách phân vị, tứ phân vị…) thay vì dùng trung bình và độ lệch chuẩn, sai số chuẩn nhưthường lệ
Trang 71 1.3 Friedman test là một dạng ANOVA phi tham số
ANOVA đơn biến
cho phép đo lặp lại
Chắc bạn còn nhớ : Chúng ta từng dùng phân tích phương saiđơn biến (ANOVA) trong phép đo lặp lại, để khảo sát sự thayđổi giá trị của đại lượng Y trên cùng 1 cá thể tại những thờiđiểm khác nhau ?
Cách làm này dựa vào 1 mô hình hồi quy tuyến tính, khảo sáthiệu ứng của 1 biến số T (thời gian, điều kiện…) lên giá trịtrung bình của Y Nó cho phép ta so sánh giá trị trung bìnhcủa Y giữa các thời điểm
Tuy nhiên để làm được ANOVA như thế này, Y phải có phânphối chuẩn tại mỗi thời điểm, khi đó ta mới dùng được trungbình, phương sai
Trong nhiều trường hợp, giả định này bị vi phạm: cỡ mẫuthấp, Y không liên tục, phân phối không bình thường Khi đó,
ta phải chuyển dạng Y sao cho nó có phân phối chuẩn
Như vậy Yij đã biến thành Rij
Phép kiểm thống kê áp dụng trên Rij gọi là phân tích phi tham
số Mục tiêu là so sánh thứ hạng trung bình giữa các phânnhóm Với thiết kế phép đo lặp lại cùng đối tượng, phươngpháp sẽ là test Friedman
Nếu thực sự có khác biệt ý nghĩa, lúc này những thứ hạng Rijcao sẽ dồn hết về 1 phân nhóm, thứ hạng thấp sẽ dồn vềphân nhóm còn lại
Trang 81 1.4 Thực hiện thủ công Friedman test
Phân nhóm J (thời gian hoặc điều kiện khảo sát)
Xếp hạng Rij theo hàng ngang cho từng trường hợp i
Tính tổng thứ hạng cho từng phân nhóm
Bảng n hàng x k cộti= 1 trường hợp khảo sátj= số phân nhóm khảo sát
1
So sánh thứ hạng trung bình
Để dễ hiểu hơn, chúng ta sẽ dùng bảng thay vì biểu đồ Nếu
bạn muốn làm thủ công test Friedman với cỡ mẫu n≤ 5,
chúng ta sẽ dựng bảng như sau:
Mỗi hàng tương ứng với 1 trường hợp (cá thể i)
Mỗi cột tương ứng với 1 thời điểm (điều kiện) khảo sát
(phân nhóm j)
Như vậy bảng sẽ có n hàng và k cột (k= tổng số phân nhóm,
n= tổng số trường hợp)
Việc xếp hạng Rij được thực hiện như sau:
Cho mỗi hàng ngang, xếp hạng Yij theo thứ tự từ thấp đến
cao, Rij min = 1, Rij max = k
Nếu 2 phân nhóm có Yij bằng nhau, chúng sẽ cùng mang thứ
Trang 9Phân nhóm j (thời gian hoặc điều kiện khảo sát)
2
4
6
J=1k
k
J=1
3Trong công thức này:
Rj2là bình phương của tổng thứ hạng cho 1 phân nhóm j (j=1,2,3…k)
k là số lượng phân nhóm (= số lần hay điều kiện khảo sát)µ
n là tổng số trường hợp khảo sát
Trị số F này có phân phối χ2, và nó có hàm ý 1 tỉ lệ giữa phần biến thiên GIỮA các phân nhóm và phần biếnthiên nội tại trong cùng 1 phân nhóm
Iman và Davenport (1980) cho rằng trị số F như trên là quá bảo thủ
(khuynh hướng cho ra kết quả âm tính) nên đề nghị dùng :
𝐹′= (𝑛 − 1)𝐹
2
𝑛 𝑘 − 1 − 𝐹2Lúc này F’ có phân phối F như trong test Fisher, ở độ tự do = k-1 và (k-1)(n-1)
1 1.4 Thực hiện thủ công Friedman test
Bước tiếp theo, ta sẽ tính trị số thống kê (F) cho test Friedman như sau:
Trang 10rj = 1 ni=1
n
rij
Bảng n hàng x k cộti= 1 trường hợp khảo sátj= số phân nhóm khảo sát
Phân nhóm J (thời gian hoặc điều kiện khảo sát)
Quy tắc xếp hạng: giá trịthấp nhất : R=1
Giá trị cao nhất: k
2 giá trị = nhau: R trungbình
r = 1 nk𝑖=1
𝑛
𝑗=1
𝑘𝑟𝑖𝑗
1 1.4 Thực hiện thủ công Friedman test
Trị số F còn có thể được tính bằng 1 con đường khác, và lần này không cần hiệu chỉnh
Trang 11Với cỡ mẫu và k đủ lớn (n>15, k>4), F có phânphối tương đồng với phân phối χ2 Khi n và kthấp, giá trị ngưỡng thống kê của F có thể xácđịnh nhờ đối chiếu với bảng kiểm địnhFriedman Từ đó ta tính được giá trị p chính
là xác suất có F ≤ χ2 ở độ tự do df = (k-1) nếugiả thuyết 0 là đúng Ta phủ định giả thuyết 0(hay khẳng định sự khác biệt có ý nghĩa vềphân phối của Y theo thời gian) với nguy cơsai lầm quy ước = 5%)
Nếu Friedman test cho thấy khác biệt có ýnghĩa thống kê (p<0,05), ta phải làm thêmtest post-hoc để định vị sự tương phản NếuFriedman test cho kết quả âm tính (p>0,05)thì không cần làm post-hoc test Có 2 phươngpháp post_hoc test cho Freidman test, chúng
ta sẽ tìm hiểu về chúng ở trang tiếp theo
1.4 Thực hiện thủ công Friedman test
Giả thuyết 0 cho kiểm định Friedman có thể được phát biểu :
H0: Giá trị của Y có cùng đặc điểm phân phối ở mỗi nhóm
Hoặc: Y được phân phối như nhau ở mỗi nhóm
(Khi nói về đặc điểm phân phối tương đồng, người đọc sẽ ngầm hiểu là ta đang muốn so sánh giá trị trung vị của mẫukhảo sát, hoặc so sánh các giá trị trung bình trong 1 quần thể tổng quát)
Một cách cụ thể hơn, H0 có thể được phát biểu :
H0: Yếu tố can thiệp (C) không gây tác động ý nghĩa làm thay đổi đặc tính phân phối (trung vị) của giá trị Y tại mỗi thờiđiểm khảo sát
Hoặc:
H0: Giá trị Y không thay đổi theo điều kiện khảo sát
H0: Giá trị Y không thay đổi theo thời gian
Còn giả thuyết thay thế có nội dung ngược lại (và chính là điều ta mong muốn chứng thực)
HA: Có ít nhất 2 phân nhóm khác biệt về đặc tính phân phối của Y
Hoặc:
HA: Có sự thay đổi ý nghĩa của Y giữa ít nhất 2 điều kiện khảo sát (thời điểm)
HA: Yếu tố can thiệp (C) gây hiệu ứng làm thay đổi Y theo thời gian
Trang 12Có 2 loại test post-hoc phi tham số cho thiết kế khảo sát lặp lại nhiều lần trên cùng đối tượng.
Phương pháp đơn giản nhất là test Nemenyi (1963) : Test này tương đương với post-hoc test Tukeytrong ANOVA, chỉ sử dụng khi bạn muốn so sánh bắt cặp ngẫu nhiên 1 phân nhóm này với 1 phânnhóm khác
Test Nemenyi dựa vào giá trị khác biệt chuẩn hóa (Z socre) về thứ hạng,
𝑍 = 𝑅𝑎 − 𝑅𝑏𝑘(𝑘 + 1)6𝑛Sau đó Z sẽ được so sánh với 1 giá trị ngưỡng ý nghĩa thống kê ở α=0,05, gọi là q0,05 Giá trị q0,05được tính từ phân phối chuẩn theo Student chia cho 2
Nếu Z > q0,05 thì khác biệt thứ hạng có ý nghĩa thống kê (p<0,05)
Phương pháp thứ 2, chính xác hơn là test Dunn-Bonferroni Test này bắt buộc phải sử dụng nếu bạnmuốn so sánh bắt cặp hàng loạt phân nhóm với 1 phân nhóm làm chứng (ví dụ: so sánh T2,T3,T4… vớiT1) vì có hiệu chỉnh theo Bonferroni, giảm nguy cơ sai lầm Hiệu chỉnh Bonferroni tức là giảm ngưỡng ýnghĩa của alpha xuống theo số phân nhóm :
𝛼′ ℎ𝑖ệ𝑢 𝑐ℎỉ𝑛ℎ = 𝛼
𝑘 − 1Một cách đơn giản, ta cũng có thể làm test Dunn-Bonferroni dựa trị số Z và so sánh với q0,05 như testNemenyi, chỉ khác là ngưỡng q0,05 này đã được hiệu chỉnh theo Bonferroni
Ghi chú: Những phiên bản cũ (SPSS 16.0 trở về trước) chỉ thực hiện test Friedman tổng quát chứ không
hỗ trợ Post-hoc test Do đó bạn phải thực hiện thủ công
Những phiên bản mới (từ 17-23) hỗ trợ duy nhất test post hoc theo Dunn-Bonferroni Đây là 1 giảipháp mạnh và chính xác nhất Tuy nhiên nếu bạn đang mong muốn tìm ra khác biệt ý nghĩa bằng mọigiá giữa 2 phân nhóm bất kì, bạn có thể thực hiện thủ công test Nemenyi
Trang 132 2 Quy trình Friedman test trong SPSS
Thăm dò số liệu
Thực hiện kiểm định Friedman
Kiểm tra giả định phân phối chuẩn bằng test Wilk hoặc Kolmogorow-Smirnov Nếu vi phạm giả định,phải dùng test phi tham số thay cho ANOVA
Shapiro-Tính Effect size
Thực hiện post-hoc test
Quy trình bao gồm xếp thứ hạng cho từng cá thể i theophân nhóm j, tính thứ hạng trung bình, trị số F và kiểmđịnh giả thuyết 0 dựa vào phân phối χ2
Nếu test Friedman dương tính (p<0,05), ta sẽ làm tiếppost-hoc test (Dunn-Bonferroni hoặc Nemenyi) để phântích sâu hơn về tương phản giữa các phân nhóm
Effect-size (kích thước hiệu ứng) được tính cho từngcặp tương phản, theo phương pháp Dunn Ta cũng cóthể dùng chính giá trị Z của post-hoc test như effectsize
Vẽ biểu đồ tuyến ký
Trang 142 2 Quy trình Friedman test trong SPSS
Theo quy ước của SPSS, với phép đo lặp lại nhiềulần trên cùng đối tượng, mỗi lần khảo sát là 1biến số riêng, và đánh số theo thứ tự thời gian
Trong thí dụ này, trước hết chúng ta tạo base gồm 6 biến số như trong hình vẽ: BiếnY1,Y2,Y3,Y4,Y5,Y6 lần lượt chỉ cân nặng củachuột tính bằng gram tại các thời điểm0,6,12,18,24,30 ngày
data-Sau khi nhập số liệu, bạn tải file Syntax về máy
và mở nó lên:
Click chuột trái 2 lần vào icon
của file syntax, cửa sổ Syntax
editor sẽ mở ra cho phép đọc
nội dung syntax và thi hành các
lệnh này
Không nên thi hành toàn bộ các lệnh cùng một lúc
Để thực hiện riêng 1 khối lệnh bất kì:
1° Đánh dấu chọn nội dung khối lệnh cần thi hành
2° Nhấp chuột phải để mở Menu, chọn Run Selection
2.1 Tạo bảng số liệu và sử dụng syntax
Trang 15* Bước 1A: Khai báo biến số
* This is a lower bound of the true significance.
a Lilliefors Significance Correction
Khối lệnh 1A có nội dung dán nhãn tên gọi cho từngbiến số Bằng cách này, bạn có thể đặt cho chúngtên gọi rõ nghĩa hơn Trong thí dụ này, tác giả dùngthời điểm (ngày khảo sát) làm tên gọi Lý do vì khi vẽbiểu đồ tuyến ký, bạn sẽ có trục hoành chỉ ngày(T=0-6-12-18-24 và 30)
Tiếp theo, khối lệnh 1B có mục đích thăm dò số liệu,
nó sẽ cung cấp bảng thống kê mô tả để bạn có thểbáo cáo giá trị trung bình, độ lệch chuẩn… vv nếucần
Kết quả thăm dò số liệu, còn bao gồm kết quả test Kolmogorov Smirnov và Shapiro-Wilk nhằm kiểm tra giảđịnh về phân phối chuẩn Nếu Y là 1 biến định lượng liên tục và cỡ mẫu đủ lớn (>15), giả định này có khảnăng được thỏa mãn (p>0,05) cho phép bạn làm ANOVA Nhưng trong thí dụ này, ngay cả khi p>0,05 ta cũng không thể tin tưởng được là phân phối thực sự bình thường, vì cỡ mẫu quá thấp (n=11) Do đó bảngkết quả dưới đây chỉ có giá trị minh họa
2 2 Quy trình Friedman test trong SPSS 2.2 Nội dung syntax