Câu chuyện này chỉ nhằm đề cao thuật hùng biện của một kẻ mưu sĩ; nhưng quả thực trong nghiêncứu khoa học có loại thiết kế dùng chính đối tượng làm nhóm chứng và khảo sát một đại lượng t
Trang 1thống kê y học sử dụng SPSS
Kiểm định t cặp đôi
Lê Đông Nhật Nam
IBM.SPSS
Trang 2Thời Chiến quốc, có giai thoại Yến Anh là đại phu nước Tề đi sứ nước Sở, Sở vương muốn làm mất mặtnước Tề nên đã bày nhiều trò để hạ nhục nhưng Yến Anh bằng tài trí của mình đã vượt qua tất cả đểgiữ vững quốc thể Chuyện kể rằng Sở vương đang tiếp Yến Anh thì có mấy tên lính dắt một người tù
đi ngang qua, Sở vương liền kêu lại hỏi người kia là người nước nào, bị tội gì, thì một tên lính cho biếtngười này nguyên là người nước Tề, bị bắt vì phạm tội ăn trộm ngựa Sở vương cho lui rồi quay sanghỏi Yến Anh: Người nước Tề hay trộm cắp vậy sao? Yến Anh đáp: "Cây quýt trồng ở phương bắcthường cho quả ngọt, trái sai, nhưng khi đem trồng ở phương Nam thì quả đã chua, lại còn ít nữa Tạisao thế? Đó là do phong thổ vậy Người nước Tề giữ đạo luân thường, xưa nay vốn không trộm cắp,nhưng khi sang làm dân nước Sở lại sanh tật xấu Tại sao thế? Âu cũng là do phong thổ vậy"
Câu chuyện này chỉ nhằm đề cao thuật hùng biện của một kẻ mưu sĩ; nhưng quả thực trong nghiêncứu khoa học có loại thiết kế dùng chính đối tượng làm nhóm chứng và khảo sát một đại lượng trêncùng đối tượng đó tại nhiều (k) thời điểm hay điều kiện khác nhau
Trong trường hợp đơn giản nhất, ta quan tâm đến sự thay đổi của đại lượng Trước và Sau khi áp dụngmột thí nghiệm nào đó Phương pháp thống kê giúp trả lời câu hỏi này là test t cặp đôi
BS Khả Nhi sẽ hướng dẫn các bạn tiếp cận loại kiểm định này theo cách mới, khi chỉ ra nguồn gốc củatest t chính là một mô hình hồi quy tuyến tính Thông qua 1 ví dụ đơn giản, bạn không chỉ biết cáchthực hiện, diễn giải test t, mà còn có thể mở rộng phương pháp bằng cách phân tích thêm hiệp biến sốnhư một mô hình ANCOVA thực sự
Chúc các bạn thành công
Lời nói đầu
Trang 3Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật
Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuấthiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và
ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lýthuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thờigian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyếtthuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũivới sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống
kê …
Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thànhthạo SPSS Như tên gọi của mình, BS Nhi có tính cách hồnnhiên và ngây thơ như trẻ con, vì vậy cô ấy luôn có khuynhhướng đơn giản hóa tối đa mọi vấn đề Khả Nhi sẽ hướngdẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻnhững mẹo vặt, thủ thuật để giúp các bạn đi đến kết quảnhanh và dễ dàng nhất
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiêncứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ranhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảothực hiện còn đơn giản, nhưng đồng hành với cậu ta, các bạn có cơhội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu
3
Trang 4Đa ký giấc ngủ (PSG)
Thiết bị điều chỉnh nha khoa
Cải thiện khả năng thông khí
số là TST (thời gian ngủ) và RDI (chỉ số rối loạn hô hấp) Hai thông số này được khảosát trên cùng bệnh nhân bằng đa ký giấc ngủ tại 2 thời điểm: Trước và sau 6 tháng sửdụng thiết bị chỉnh răng
Để khảo sát sự thay đổi của TST và RDI trên cùng bệnh nhân giữa 2 thời điểm khácnhau, chúng ta sẽ sử dụng phương pháp thống kê nào ?
Bảo thân mến, ở đây em muốn so sánh giá trị trungbình của một biến số định lượng giữa 2 lần đo khácnhau trên cùng một đối tượng; nên ta sẽ áp dụng test
t bắt cặp
Trang 52 1.2.1 Test t cặp đôi như bạn từng biết
Có 2 loại kiểm định t:
Loại thứ 1 là test t cho mẫu độc lập (Independent
samples t test) dùng để so sánh giữa 2 phân nhóm
độc lập, biến số định lượng Y được khảo sát 1 lần duy
nhất trên n1 và n2 cá thể khác nhau
Loại thứ 2 là test t cặp đôi (paired samples t test),
dùng để so sánh giá trị Y giữa 2 lần đo lặp lại trên
cùng 1 phân nhóm, Y được đo 2 lần trên cùng 1 đối
tượng
Trong tài liệu này, ta sẽ áp dụng loại thứ 2
Ghi chú: Nhiều bạn hiểu sai về công dụng test t, ví dụ
dùng test t độc lập cho thiết kế so sánh cùng đối
tượng, hoặc dùng test t hàng loạt khi có nhiều hơn 2
phân nhóm (thay vì phải dùng ANOVA) Lưu đồ đơn
giản dưới đây sẽ giúp bạn chọn đúng phương pháp
Cùng đối tượng ?
ANOVA phép đo lặp lại
Test t cho 2 mẫu độc lập
Khác đối tượng ?
ANOVA đơn biến
Số phân nhóm (k)
Friedman test
Wilcoxon sign rank test
Whitney test
Mann- Wallis test
Kruskal-Thỏa giả định phân phối chuẩn
Phương pháp phi tham số thay thế
Test t bắt cặp
William Sealy Gosset (1876 –1937)
Nhà thống kê học người Anh.
Student là 1 tên giả (bút danh) của W Gosset khiông công bố phương pháp kiểm định t vào năm
1908 trên tờ báo Biometrika, vì công ty biaGuinness nơi ông làm việc không cho phép nhânviên tiết lộ bí mật công nghệ
So sánh
Trang 61.2 Giới thiệu
1.2.1 Test t cặp đôi như bạn từng biết
µdlà khác biệt giữa 2 giá trị trung bình của Y1, Y2 :
Sự khác biệt giữa Y1 và Y2 còn có thể xét cho từng cá thể, rồi lấy bình quân, gọi là Trung bình khác biệt (𝒅)
𝐝 = i=1
n di n
𝛍𝐝 = Y2 − Y1
Trị số t được tính theo công thức:
𝐭 = d − μdsd n
Trang 71.2.2 Test t dựa vào mô hình hồi quy tuyến tính
Để giúp các bạn khái quát hóa quy trình phân tích biến số định lượng, chúng ta sẽ tiếp cận vấn đềbằng khái niệm mô hình hồi quy
Trên thực tế, việc so sánh chỉ là mong muốn chủ quan của nghiên cứu sinh, chứ không phải là mộtphương pháp Để trả lời câu hỏi liệu có sự khác biệt ý nghĩa giữa 2 phân nhóm, thực chất ta đang
áp dụng 1 mô hình hồi quy cho phép dự báo kết quả đại lượng Y (Y= biến phụ thuộc) tùy theo 1biến số phân nhóm X (X có thể là một can thiệp bên ngoài, hay thời gian, hay điều kiện …)
Mô hình hồi quy này có dạng :
Y = B*TTrong đó B gọi là hệ số hồi quy, và T là một biến định tính nhị phân cho phép chia ra 2 phân nhóm Khi diễngiải kết quả hồi quy tuyến tính, ta thường xem B như một hệ số biểu thị cho sự tương quan giữa Y và T, nhưng B còn biểu thị cho sự khác biệt của Y giữa 2 phân nhóm nữa
Giả sử ta chọn T=0 làm mốc để so sánh với T=1, mô hình có thể viết dưới dạng :
Y = Bo + B*TiTrong đó Bo là 1 hằng số tương ứng với Ti=0 ;
Khi Ti=0, ta có : Y = Bo + B1*0 = Bo, do đó Bo có giá trị = 𝑌𝑜 (trung bình của tất cả Yi khi Ti=0)
Ngược lại : khi Ti=1 thì : Y = Bo + B*1
Y= 𝑌𝑜 + B = 𝑌1Vậy ta có : B = 𝑌1 - 𝑌𝑜Như vậy B chính là sự khác biệt giữa trung bình Y1( tương ứng với Ti=1) và trung bình Y0 (tương ứng T=0)
Do đó Test t có bản chất là kiểm tra giả thuyết B=0 ;
1
Trang 8Do ta đang thực hiện 1 thí nghiệm khảo sát vai trò của yếu tố T làm thay đổi Y, nên thay vì chỉphát biểu đơn giản rằng : Y khác nhau giữa 2 trường hợp T=1 và T=0, ta nên phát biểu rằng: Tgây ra hiệu ứng ý nghĩa làm thay đổi Y.
Vì vậy, khi diễn giải mô hình hồi quy, giá trị B sẽ biểu thị cho kích thước của hiệu ứng do Tgây ra Như vậy khi kiểm tra giả thuyết 0: B=0, không phải ta đang dùng test t để so sánh giữaY1 và Y2 nữa, mà thực chất là dùng test t để kiểm tra về độ lớn và ý nghĩa của hiệu ứng,thông qua giá trị B
Ý nghĩa của test t cặp đôi thực sự là như sau :
Trên cùng một quần thể n đối tượng, ta khảo sát giá trị Yi tại 2 thời điểm khác nhau T=1, T=2 cho mỗi đốitượng Từ đó ta có thể xác định giá trị trung bình 𝑌1 và 𝑌2
Do cùng 1 đối tượng, nên theo giả định, 𝑌1 sẽ bằng 𝑌2, đó là giả thuyết 0 của chúng ta, hay nói cách khác nếubiểu diễn Yi theo Ti thì hệ số hồi quy B của mô hình này sẽ = 0 (Yi không thay đổi theo thời gian T) Mô hình giảthuyết 0 này sẽ cho ra giá trị trung bình dự báo của Yi
Nhưng trên thực tế, có thể có sự khác biệt giữa 𝑌1 và 𝑌2 (có thể do ngẫu nhiên, do sự biến đổi nội tại theothời gian, hoặc dưới tác động của 1 can thiêp bên ngoài), do đó ta sẽ đối chiếu d’=( 𝑌2 - 𝑌2) thực tế với d=( 𝑌2
- 𝑌2) giả định (=0) Ta dùng sai số chuẩn (SE) để đánh giá sự khác biệt SE sẽ thấp nếu 𝑌1 gần bằng với 𝑌2 và
SE sẽ cao nếu có sự khác biệt đáng kể giữa 𝑌1 và 𝑌2
Cách làm này đưa đến việc xác định trị số t :
𝑡 = d
′− dSE
t = Khác biệt trung bình thực tế − Khác biệt trung bình giả định
Sai số chuẩn của khác biệt
Nhắc lại: Trong trường hợp so sánh cùng đối tượng tại 2 thời điểm khác nhau hay còn gọi là phép đo lặp lại 2 lần, trị
số t được tính :
𝑡 = 𝑑 − 𝜇𝑑𝑠𝑑𝑛Với : 𝑑 là giá trị trung bình thực tế của khác biệt giữa 2 lần đo ; 𝜇𝑑là giá trị trung bình giả định của khác biệt giữa 2 lần đo và 𝑠𝑑
𝑛là sai số chuẩn của khác biệt giữa 2 lần đo với sd là độ lệch chuẩn :
Trang 9Với độ tự do cho trước: df= (n-1) = v
ta có thể tìm được xác suất P(t = x) với x là giá
trị t tối đa ước tính được nếu giả thuyết H0 là
đúng (không có khác biệt giữa 2 giá trị trung
bình µ)
Nếu t > t max : Ta phủ nhận giả thuyết H0, tức
là công nhận có sự khác biệt ý nghĩa giữa 2 giá
trĩ trung bình.(việc phân nhóm theo biến số
định tính nhị phân X thực sự gây ra sự khác biệt
về trung bình giữa 2 phân nhóm A, B)
Giả thuyết 0 có thể được phát biểu một cách tổng quát như sau : không có sự khác biệt về giá trị
trung bình của đại lượng Y trong quần thể (n) tại 2 thời điểm T1 và T2 (H0 : µd =0)
Giả thuyết ngược lại là : Có sự khác biệt về giá trị trung bình của Y giữa 2 lần khảo sát (Ha : µd≠0)
Dễ thấy: Nếu giả thuyết 0 là đúng (𝜇𝑑 đúng =0) thì giá trị tuyệt đối của t sẽ thấp hơn so với t trongtrường hợp 𝜇𝑑 ≠ 0 Nói cách khác, để phủ nhận giả thuyết 0 (đồng nghĩa với việc chứng minh có sựkhác biệt thực sự giữa Y1 và Y2), giá trị t tính được phải CÀNG CAO càng tốt Vấn đề là cao đến mứcnào ? Lúc này ta phải xét đến phân phối lý thuyết của t: t được phân phối theo một quy luật gọi làStudent t Ta sẽ so sánh giá trị t tính được với giá trị lý thuyết ở 1 độ tự do df = (n-1) và ngưỡng ýnghĩa alpha/2 = 0,05
Giá trị p của test t là xác suất để có giá trị 𝑡 thấp hơn giá trị t ở ngưỡng ý nghĩa α
Trang 10Khoảng tin cậy 100(1-α)% cho µd được xác định như sau:
𝑑 ± 𝑡(𝑑𝑓)𝛼/2(𝑆𝐸𝑑)Với độ df là tự do = (n-1)
Chú ý:
1 So sánh cặp đôi làm sai số chuẩn nhỏ hơn, vì hạn chế tối đa phần sai số do ngẫu nhiên (vốn cao hơn nếu so sánh giữa 2 nhóm)
2 Phương pháp so sánh t cặp đôi đòi hỏi 2 điều kiện giả định sau :
+Đại lượng Y là một biến số định lượng liên tục
+Có phân phối chuẩn của khác biệt giữa 2 lần khảo sát (d=Y2-Y1)
Tính hệ số ảnh hưởng (effect size)
Hệ số này cho phép đo lường mức độ ảnh hưởng của mô hình thí nghiệm lên sự biến thiên của đạilượng Y cần khảo sát Ví dụ trong 1 nghiên cứu bệnh chứng, effect size cho biết ảnh hưởng của bệnh
lý (làm thay đổi 1 đại lượng ) lớn đến mức nào
Một điều thú vị: Ngay cả khi p>0,05 (không có sự khác biệt ý nghĩa), yếu tố X vẫn có ảnh hưởng đến Y
ở một mức độ nào đó Vì vậy ngay cả khi test t âm tính, bằng hệ số ảnh hưởng bạn vẫn có thể kếtluận về ảnh hưởng (dù nhỏ) của bệnh lý hay can thiệp lên yếu tố cần khảo sát
r<0,3 : mức độ ảnh hưởng thấp
r khoảng 0,3 : mức độ ảnh hưởng trung bình
r từ 0,3-0,5: mức độ ảnh hưởng cao
Hoặc d theo Cohen cho test t cặp đôi
Dựa vào 2 giá trị trung bình của 2 phân nhóm và SD của nhóm Chứng (control)
𝐒𝐃𝒀𝒐Diễn giải kết quả d:
d từ 0,2-0,5 ; mức độ ảnh hưởng thấp
d khoảng 0,5 : mức độ ảnh hưởng trung bình
d từ 0,8 trở lên: mức độ ảnh hưởng cao (d có thể tăng tới vô cực)
Hay: Nhóm khảo sát cho thấy khác biệt (d) đơn vị độ lệch chuẩn
1.2 Giới thiệu
1.2.3 Khoảng tin cậy và kích thước hiệu ứng
1
Trang 11Kiểm định t cặp đôi có thể ứng dụng cho nhiều thiết
kế nghiên cứu như
1 Khảo sát sự biến thiên của 1 đại lượng theo thời
gian :
- Ví dụ: Khác biệt về độ nặng triệu chứng giữa 2 giái
đoạn bệnh lý khác nhau
- Đánh giá hiệu quả trị liệu: So sánh sự thay đổi của
triệu chứng (định lượng) trước và sau khi điều trị
- Nghiên cứu dược động học, sinh hóa học: khảo sát
nổng độ của một chất trong cơ thể theo thời gian
2 So sánh giá trị 1 đại lượng giữa những điều kiện
khảo sát khác nhau:
- Nghiên cứu sự dao động của giá trị một đại lượng
giữa 2 thời điểm khác nhau trong ngày
- Ảnh hưởng của điều kiện bên ngoài (nhiệt độ, độ
cao…), chế độ ăn, tư thế… lên 1 đại lượng sinh lý,
sinh hóa
- So sánh 2 phương pháp đo, thiết bị đo khác nhau
Bạn cần có:
1 biến số định lượng liên tục biểu thị cho đại lượng
cần nghiên cứu ; ví dụ: nồng độ 1 chất trong máu
1 biến số định tính nhị phân để phân loại điều kiện
đo (chỉ có 2 giá trị) Ví dụ: Thời gian t1 và t2
Phát hiện giá trị cá biệt và điểm ngoại lai
Thực hiện kiểm định t cặp đôi có hoặc không cóBootstrap
1.2.4 Ứng dụng của test t cặp đôi
1
Trang 12Đầu tiên ta sẽ lập bảng số liệu có nội dung như sau:
Trong SPSS, thiết kế nghiên cứu so sánh giữa nhiều thờiđiểm đòi hỏi mỗi thời điểm tương ứng với 1 biến số riêng(cũng như ANOVA cho phép đo lặp lại) Do đó, chúng tatạo ra các biến:
YA cho RDI (YA1 =RDI trước, YA2 = RDI sau)
YB cho TST (YA1=TST trước, YA2=TST sau)C1 = hiệp biến số (covariate) tuổi
Tất cả đều là biến liên tục (Scale)Việc dán nhãn cho biến só có thể làm thủ công trongVariable view hoặc dùng Syntax
Sau đó ta nhập số liệu cho 23 trường hợp
mở cửa sổ Syntax editor
Nội dung file syntax được phân ra thành nhiều khối lệnh
Để thi hành 1 khối lệnh riêng biệt nào đó, bạn đánh dấuchọn nó, sau đó nhấp chuột phải vào vùng đã chọ, để mởmenu như hình bên, chọn Run selection
Phần tiếp theo sẽ giải thích nội dung bộ syntax này
Quy trình thực hiện test t cặp đôi trong IBM-SPSS
2.1 Tạo bảng số liệu
2
Trang 13* Bước 1A: Khai báo biến số
dYA " dRDI " dYB " dTST ".
* Bước 1C: Thăm dò số liệu
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES INPUT= dYA dYB
/CRITERIA CILEVEL=95 CITYPE=BCA
NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
EXAMINEVARIABLES= dYA dYB
/PLOT BOXPLOT HISTOGRAM NPPLOT
DATA: dYA=col(source(s), name(" dYA "))
DATA: id=col(source(s), name("$CASENUM"),
unit.category())
COORD: rect(dim(1), transpose())
GUIDE: axis(dim(1), label(" dRDI "))
Biến số C1 chỉ Tuổi của bệnh nhân, là 1 hiệp biến trong môhình mở rộng mà ta sẽ bàn tới sau này
Khối lệnh 1Bcó mục đích tạo ra 1 biến số trung gian sẽđược sử dụng trong phân tích so sánh giữa 2 lần đo, đó làbiến số dYA và dYB Biến số này nhằm đo sự khác biệt giátrị YA và YB giữa 2 thời điểm trước/sau can thiệp trị liệu.Biến số được tạo ra bằng lệnh Compute, sau đó được dánnhãn: dYA = khác biệt TDI, dYB = khác biệt TST
Khối lệnh 1C:có mục đích thăm dò đặc tính phân phối củakhác biệt Trước/sau của YA và YB (tức là ta khảo sát 2 biến
số trung gian vừa tạo ra là dYA và dYB)
Mục tiêu quan trọng nhất là kiểm tra giả định phân phốichuẩn
Sau đó, quy trình thăm dò cũng sẽ ước tính giá trị trungbình, trung vị, độ lệch chuẩn, min, max và khoảng tin cậy95% của khác biệt Những thông tin này có thể sử dụng khibáo cáo kết quả
Sau đó vẽ biểu đồ Box_plot để phát hiện giá trị cá biệt(nếu có)
Chú ý:
Bạn cần thay đổi nội dung những nội dung màu đỏ chophù hợp với nghiên cứu của mình
Bước 1C rất quan trọng, nếu giả định phân phối chuẩn của
dY bị vi phạm, bạn không thể sử dụng test t cặp đôi, màphải thử chuyển dạng biến số hoặc sử dụng phương phápthay thế là test Wilcoxon sign-rank
Giá trị cá biệt không phải là trở ngại cho test t cặp, nhưng
nó có nguy cơ làm sai lệch kết quả Cách đối phó với vấn
đề này sẽ được trình bày sau
2.2 Nội dung bộ syntax 2
Trang 14* Bước 2: So sánh bằng test t cặp đôi
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES INPUT=YA1 YB1 YA2 YB2
/CRITERIA CILEVEL=95 CITYPE=BCA
Tiếp theo là lệnh T-TEST với cấu trúc so sánh bắt cặp là:Lần đo trước : YA1, YB1, lần đo sau: YA2, YB2
Ban chú ý cú pháp WITH, trong trường hợp bạn muốn thực hiện test t bắt cặp cho biến số YC,YD,YE thì lần đo trước (1) sẽ nằm bên trái, lần đo sau (2) nằm bên phải, và phải theo đúng trình tự
Ví dụ: 2 lệnh : (I)T-TESTPAIRS= A B WITH C D (PAIRED) và (II)T-TESTPAIRS= B A WITH C D (PAIRED)
có ý nghĩa hoàn toàn khác nhau.
Lệnh (I) sẽ bắt cặp: A so với C, B so với D;
trong khi lệnh (II) sẽ bắt cặp B so với C và A so với D
Quy trình thực hiện test t cặp đôi trong IBM-SPSS 2.2 Nội dung bộ syntax
2