Nhóm 1 Gây tê tại chỗ Nhóm 2 Gây tê tủy sống Bảo thân mến, ở đây em muốn so sánh giá trị trung bình của một biến số định lượng giữa 2 phân nhóm độc lập; nên ta sẽ áp dụng test t Stude
Trang 1Tài liệu hướng dẫn thống kê y học sử dụng SPSS
So sánh 2 mẫu độc lập bằng test t
SPSS
BS Lê Đông Nhật Nam
Trang 2Lời mở đầu
Tôi không biết vì sao người ta thích so sánh đến mức như vậy, chúng ta so sánh bản thân mình và người khác, so sánh người này với kẻ nọ So sánh là nguồn gốc của mọi vấn đề mà tôi phải gánh chịu thời học sinh Năm tôi 13-14 tuổi, học sinh trong lớp tôi có thể phân chia thành 2 nhóm tương phản với nhau rất rõ rệt, nhóm « Elite » và những kẻ tầm thường Những đứa trẻ trong nhóm Elite
có trí tuệ tuyệt vời, nói tiếng Anh thành thạo và rất giỏi về khoa học; trong khi đó nhóm tầm thường có trí nhớ kém, tiếp thu bài học một cách chậm chạp và luôn bị điểm kém Người ta dùng điểm số làm thước đo để dễ so sánh Bản thân tôi có lẽ là đứa tệ nhất trong số những đứa trẻ thuộc nhóm thứ 2 Đôi khi sự so sánh trở nên cực đoan, ví dụ cha mẹ một đứa bạn yêu cầu cô giáo không cho tôi ngồi gần con của họ Tôi bị đổi chỗ ngồi liên tục
Lên năm lớp 9, tôi được xếp ngồi gần 1 cậu bé thiên tài, và thật kì lạ là số phận khiến chúng tôi gắn
bó với nhau, trở thành bạn thân nhiều năm sau đó Cậu ta có thể ghi nhớ mọi thứ kể cả những con
số vô nghĩa, có thể kể hàng giờ về lịch sử và thần thoại Hy Lạp, La Mã, giỏi Toán và luôn đứng nhất nhì trong lớp Tôi thì ngược lại, học cái gì hôm trước hôm sau quên ngay, mất căn bản toàn bộ 3 môn Toán, Lý, Hóa và gần như đội sổ
5 năm sau chúng tôi tình cờ gặp lại nhau, và thật bất ngờ cả 2 đều học Y khoa Nó và tôi bắt đầu ngày tháng vui vẻ bên nhau, chúng tôi chơi game chung, xem phim chung, đi thực tập lâm sàng chung Càng sống gần nhau, tôi càng thấy rõ giữa chúng tôi không có gì khác biệt Bên trong cái vỏ thiên tài đó là một đứa trẻ bình thường, cũng mê chơi Playstation, biết hồi hộp lo sợ trước kì thi, biết sống lãng mạn Khi đó tôi nhận ra rằng thật vô nghĩa khi so sánh học sinh bằng điểm số, xem người này giỏi hơn người kia bao nhiêu Tôi và nó đều là những con chuột Wild-type từ khi sinh ra, nhưng sau đó người lớn đã ném chúng tôi vào mô hình thí nghiệm với hoài bão là 1 ngày nào đó nó
sẽ thành bác sĩ ngoại khoa xuất sắc như cha mình, một giáo sư đầu ngành, còn tôi phải tự mình mò mẫm trong nhóm chứng để tìm lối thoát
Trong tài liệu lần này chúng ta sẽ bàn về vấn đề so sánh giá trị trung bình giữa 2 nhóm độc lập bằng test t Hầu như tất cả các bạn đều biết về test t và có thể thực hiện nó dễ dàng, nhưng nếu bạn dành 10 phút đọc tài liệu hướng dẫn này, tôi tin rằng có thể giúp bạn giải trí trong chốc lát
Trong trường hợp bạn chưa biết gì về thống kê và đang chạy đua với thời gian để hoàn thành luận văn, hy vọng tài liệu hướng dẫn này đã giúp bạn tiết kiệm được nhiều tiền điện cho việc mày mò vọc phá SPSS và tiền cà phê
Chúc các bạn thành công
2
Trang 3Quy ước trình bày
Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật
Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và
ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống
kê …
Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách hồn nhiên và ngây thơ như trẻ con, vì vậy cô ấy luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Khả Nhi sẽ hướng dẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất
Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện còn đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu
Trang 4Student chỉ là 1 tên giả (bút danh) của W Gosset khi ông công bố phương pháp kiểm định t vào năm 1908 trên tờ báo Biometrika, vì công ty bia Guinness nơi ông làm việc không cho phép nhân viên tiết lộ bí mật công nghệ
William Sealy Gosset (1876 –1937) Nhà thống kê học người Anh
Trong phẫu thuật thoát vị bẹn, ngoài việc chọn lựa kỹ thuật mổ, người ta còn bàn luận về vai trò của phương pháp vô cảm, theo đó phương pháp gây tê tại chỗ được đánh giá tích cực so với những phương pháp khác Một nhóm bác sĩ khoa ngoại tại BV Nhân Dân Gia Định đã thực hiện nghiên cứu đánh giá hiệu quả của phương pháp
tê tại chỗ so vớitê tuỷ sống trong phẫu thuật thoát vị bẹn
50 bệnh nhân được phân bố ngẫu nhiên vào một trong hai nhóm: nhóm 1 được tê tại chỗ (n=24), nhóm 2 được tê tủy sống (n=26) Các bác sĩ sử dụng bupivacain 0,25% để tê tại chỗ, có tiền mê bằng Midazolam 2 mL
Các bác sĩ muốn so sánh hiệu quả của 2 phương pháp vô cảm dựa trên thời gian tái vận động sau mổ (giờ) và số ngày nằm viện
Nhóm 1 Gây tê tại chỗ
Nhóm 2
Gây tê tủy sống
Bảo thân mến, ở đây em muốn so sánh giá trị trung bình của một biến số định lượng giữa 2 phân nhóm độc lập; nên ta sẽ áp dụng test t Student
Trang 51 1.2 Giới thiệu về test t
Kiểm định t rất hữu dụng trong các nghiên cứu mô tả cắt ngang với thiết kế Control
Case-Bạn có thể dùng test t để:
+ So sánh 1 đại lượng Y giữa bệnh nhân và người bình thường + So sánh hiệu quả của 2 phương pháp điều trị, can thiệp khác nhau (ví dụ phẫu thuật)
+ Khảo sát vai trò của một yếu tố định lượng trong 1 bệnh lý bằng cách chứng minh khác biệt của nó giữa bệnh nhân và nhóm chứng
+ Thăm dò liên hệ giữa 1 biến định lượng và 1 biến định tính nhị phân, ví dụ để phát hiện 1 biomarker mới
+ So sánh ngẫu nhiên giá trị Y giữa 2 quần thể khác nhau (ví dụ: giới tính, địa phương, nghề nghiệp)
+ Khảo sát vai trò của một yếu tố dịch tễ (là biến nhị phân) đối với 1 yếu tố (định lượng)
Loại thứ 2 là test t cặp đôi (paired samples t test), dùng để so sánh giá trị Y giữa 2 lần đo lặp lại trên cùng 1 phân nhóm, Y được đo 2 lần trên cùng 1 đối tượng
Trong tài liệu này, ta sẽ áp dụng loại thứ 1
Rất nhiều bác sĩ sử dụng test t để so sánh giữa 3-4 phân nhóm khác nhau Như Maslow đã nói: Khi một người chỉ có công cụ duy nhất trong tay là cây búa, trong mắt họ mọi thứ đều là những cây đinh
Không nên lạm dụng test t để so sánh bắt cặp tự hàng loạt trong trường hợp bạn có nhiều phân nhóm cần khảo sát, lúc này bạn nên dùng ANOVA
và post-hoc test có hiệu chỉnh để kiểm soát tốt
Trang 61 1.3 Test t như bạn vẫn thường nghĩ…
Ta có: Sai số chuẩn (SE) của khác biệt giữa 2 nhóm
Trang 7Với độ tự do cho trước:
df= (nA+nB-2) = v
ta có thể tìm được xác suất P(t = x) với x là giá trị t tối đa ước tính được nếu giả thuyết H0 là đúng (không có khác biệt giữa 2 giá trị trung bình µ)
Nếu t > t max : Ta phủ nhận giả thuyết H0, tức
là công nhận có sự khác biệt ý nghĩa giữa 2 giá trĩ trung bình.(việc phân nhóm theo biến số định tính nhị phân X thực sự gây ra sự khác biệt về trung bình giữa 2 phân nhóm A, B) Trị số này có phân phối Student t
Trang 81 1.4 Có thể bạn chưa biết điều này…
0 1
Ý nghĩa thực sự của test t không phải để so sánh, mà nó dùng để chứng minh tác động có ý nghĩa của một yếu tố X (ví dụ bệnh tật, can thiệp) làm thay đổi giá trị của đại lượng Y trên đối tượng
Các bạn sẽ được giải thích rõ hơn điều này tiếpo theo đây…
Ta có thể nhìn vấn đề theo một cách khác, đó là quan hệ giữa biến số định lượng Y và biến số định tính nhị phân X Biến số X nhận 1 trong 2 giá trị 0 hoặc 1 và cho phép phân chia thành 2 phân nhóm X=0 tương ứng với phân nhóm A, X=1 tương ứng với phân nhóm B
Quan hệ này được biểu thị bằng phương trình hồi quy tuyến tính như sau:
Y = bo + b1*X + ε
(Giá trị Y = hằng số bo + b1*phân nhóm + sai số ε)
Mô hình hồi quy tuyến tính này cho phép ước tính giá trị Y khi biết giá trị X hay nói cách khác khi đưa cá thể vào phân nhóm A (X=0) hay B (X=1) ta có thể đoán trước giá trị của Y
Thí nghiệm của chúng ta cũng như mô hình này, ta gán cho mỗi bệnh nhân 1 giá trị X=0 hay X=1 khi xếp
họ vào mỗi phân nhóm A hay B và khảo sát giá trị Y giữa 2 phân nhóm
Phương trình hồi quy
Khác biệt giữa 2 giá trị trung bình của 2 phân nhóm A,B chính là hệ số b tương ứng với biến X
Trang 9𝑡 = B − A − (𝜇2 − 𝜇1)
𝑆𝐸 Khi H0 đúng: 𝜇2 − 𝜇1 = 0, 𝑡 =𝑆𝐸 𝑐ủ𝑎𝑑𝜇B −A
Phương trình hồi quy tương ứng với b1= 𝐁 − 𝐀
Sự dao động (sai số ngẫu nhiên) của b1= 𝐁 − 𝐀
Hằng số bo của
phương trình
Như vậy bản chất của test t không phải để so sánh, mà để kiểm tra vai trò của hệ số b1 hay nói cách khác là vai trò của biến số X, hay ý nghĩa của mô hình thí nghiệm Giả thuyết 0:𝜇2 − 𝜇1 cũng có nghĩa là b1=0 hay biến số độc lập X không có vai trò gì cả, mô hình vô nghĩa Khi phủ định giả thuyết này, đồng nghĩa với việc ta khẳng định về ý nghĩa của X và của mô hình hồi quy Y=bo+b1*X Mô hình thí nghiệm có ý nghĩa tức là yếu tố X thực sự gây ảnh hưởng lên giá trị của Y
Như vậy không có sự so sánh nào cả, tất cả bệnh nhân đều như nhau trước khi được đưa vào mô hình thí nghiệm (phân thành 2 nhóm), kết quả ta đang khảo sát chính là hậu quả
do thí nghiệm gây ra
Mô hình này có thể do ta chủ động làm ra (như trong thí dụ này), hoặc để mô phỏng một quy luật của tạo hóa (bệnh tật) Trong nghiên cứu bệnh/chứng, biến số X chính là căn bệnh, đã, đang và sẽ thay đổi giá trị của Y trong quần thể chung
Trang 10Kiểm tra giả định phương sai đồng nhất Tính giá trị khác biệt trung bình
Thực hiện kiểm định t có hoặc không có Bootstrap
Quy trình so sánh giá trị trung bình giữa 2 phân nhóm độc lập
1) Thống kê mô tả: Tính giá trị trung bình, khoảng tin cậy 95%, độ lệch chuẩn SD
2) Kiểm tra giả định phân phối chuẩn bằng test Shapiro-Wilk hoặc Smirnov
Kolmogorow-3) Kiểm tra giá trị cá biệt và điểm ngoại lai
4) Kiểm tra giả định phương sai đồng nhất
5) Thực hiện kiểm định t Student cho 2 mẫu độc lập
6) Chạy Bootstrap nếu nghi ngờ về tính phổ quát (cỡ mẫu nhỏ, có điểm ngoại lai…)
7) Tính hệ số ảnh hưởng (Effect size)
10
Quy trình làm test t
Trang 112
1
Phương pháp vô cảm = biến định tính nhi phân
Thời gian nằm viện
Thời gian tái vận động = Biến định lượng liên tục
Trong cửa sổ Variable View, bạn tạo 2 biến số:
1 biến số định tính (Nominal) kiểu số (numeric) dùng để phân nhóm phương pháp
gây tê
Biến này được dán nhãn giá trị như sau:
1= Gây tê tại chỗ
2= Gây tê tủy sống
2 biến số định lượng (Scale) kiểu số (numeric)
Cột Label cho phép bạn mô tả ý nghĩa của biến số, điều này rất có ích nếu sau này bạn muốn chuyển số liệu cho một đồng nghiệp khác sử dụng
Trang 122
Sau đó bạn nhập dữ liệu vào bảng, chỉ cần nhập giá trị 1,2 cho biến số Phuongphap, sau đó kích hoạt chế
độ hiển thị nhãn giá trị để có tên đầy đủ của mỗi nhóm điều trị
Ghi chú: Biến số Maso không có vai trò gì trong xử lý số liệu, nó chỉ dùng để mã hóa cho hồ sơ bệnh nhân
Thực ra khi báo cáo kết quả nghiên cứu so sánh, ta cần 2 thông tin:
+ Kết quả thống kê mô tả ở 2 phân nhóm
+ Kết quả về ý nghĩa thống kê của khác biệt (nếu có)
Thống kê mô tả được thực hiện ngay trong bước thăm dò số liệu như dưới đây
4
12
Quy trình làm test t
Trang 13Kích hoạt chức năng thăm dò dữ liệu
Trong hộp thoại Explore, bạn kéo biến phuongphap vào ô Factor list và những biến định lượng cần thăm dò vào ô Dependent list
4
5
2
Trang 14Nhấn nút « Statistic » để tùy chọn kiểu phân tích trong hộp thoại Statistic, quan trọng nhất là phương pháp thống kê mô tả
6
7
8
Nhấn Continue để trở lại hộp Explore
Công đoạn thăm dò số liệu bao gồm 2 mục đích chính:
+ Thống kê mô tả cho từng phân nhóm
+ Kiểm tra các giả định về phân phối và phát hiện điểm ngoại lai, giá trị cá biệt
14
2.2Thăm dò số liệu
Trang 152
9
Chọn chức năng kiểm tra giả định phân phối chuẩn bằng biểu đồ QQ, test Kolmogorov-Smirnov và Shapiro-Wilk
Nhấn Continue để trở lại hộp Explore
Sau đó nhấn OK để chạy thăm dò
Trang 16Có 2 cách kiểm tra giả định phân phối chuẩn:
1) Phương pháp toán học - Sử dụng kiểm định Shapiro-Wilk hoặc
Kolmogorov-Smirnov : tối ưu cho trường hợp cỡ mẫu không quá lớn (<50 trường hợp), nhưng lại không đáng tin cậy khi cỡ mẫu quá nhỏ)
2) Phương pháp trực quan - Sử dụng biểu đồ Q-Q plot: Thích hợp cho những cỡ
Thời gian nằm viện Gây tê tại chỗ ,135 24 ,200 * ,920 24 ,059
Thời gian tái vận động Gây tê tại chỗ ,144 24 ,200 * ,941 24 ,172
* This is a lower bound of the true significance.
a Lilliefors Significance Correction
Đầu tiên, chúng ta kiểm tra giả định: Phân phối bình thường, dựa vào bảng kiểm định Smirnov và Shapiro-Wilk Chú ý cột giá trị p (Sig) Nếu p<0,05 tức là số liệu phân phối KHÔNG bình thường
Như vậy để thỏa giả định phân phối bình thường, kết quả ta trông đợi là p>0,05
Nếu bạn có cỡ mẫu lớn hơn 50 trường hợp cho mỗi phân nhóm, có thể kiểm tra phân phối chuẩn nhanh chóng bằng trực quan dựa vào biểu đồ QQ
Nếu giá trị của Y phân phối bình thường, bạn sẽ thấy các điểm giá trị « ước tính » phân bố rải rác dọc theo đường thẳng (vùng màu xanh) Nếu Y phân phối không bình thường, những điểm giá trị này sẽ bị phân tán và lệch xa khỏi đường thẳng (màu đỏ)
16
2.3 Kiểm tra các giả định
Trang 17Nếu giả định phân phối chuẩn bị vi phạm ta phải xử trí thế nào ?
3) Bỏ qua vi phạm và vẫn làm kiểm định t kèm theo Bootstrap để kiểm tra ý nghĩa phổ quát của mô hình thí nghiệm
4) Làm kiểm định t song song cho 2 mẫu số liệu: nguyên thủy và đã chuyển dạng (logarit hóa), so sánh kết quả của chúng với nhau
Lời khuyên của BS Nhi:
Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết quả thay vì che dấu, nhất là cách bạn xử lý những điểm giá trị cá biệt, lựa chọn test thống
kê Nếu phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm giá trị của Skewness và Kurtosis (trong bảng kết quả Explore)
Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi ngờ về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo Người đọc sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống
kê
Khác biệt vối P<0,00001 à ? Kết quả này đẹp tới mức
không thể tin được
Nghiên cứu sinh
2.3 Kiểm tra các giả định
2
Phải triệu hồi chuyên viên thống kê ra làm chứng
Trang 18X1,5
*
X3
* Điểm giá trị ngoại lai Điểm giá trị chênh lệch cực độ
Biểu đồ Box-plots cho phép phát hiện nhanh các điểm giá trị cá biệt (chênh lệch quá lớn
so với độ lệch chuẩn) Biểu đồ này cũng dùng để báo cáo kết quả
Bất cứ điểm nào có khoảng cách > 1,5 lần chiều dài của error bar được xem là điểm ngoại lai Nếu cách biệt lớn hơn 3 lần, đó là giá trị rất phân cực
Trong hình trên, không có điểm giá trị ngoại lai nào được phát hiện
Nếu có trường hợp giá trị cá biệt, SPSS sẽ đánh dấu bằng mã số thứ tự cho phép ta định
vị dễ dàng trường hợp đó trong bảng số liệu
Điểm giá trị cá biệt (trường hợp thứ 5 trong bảng số liệu)
Điểm giá trị chênh lệch cực độ (trường hợp thứ 4 trong bảng số liệu)
2.3 Kiểm tra các giả định
1
18