Dữ liệu ghi nhận được tóm tắt bằng 2 bảng 2x2 như sau: Đối với mô tả thông thường ta có thể dừng lại ở đây, tuy nhiên dựa trên bảng 2x2 này, chúng ta có thể phân tích sâu hơn theo 2 hướ
Trang 1Hướng dẫn khảo sát quan hệ giữa Triệu chứng và Bệnh (bảng 2x2)
Dr Nhat Nam Le Dong
Version 22.0
Trang 2Trong thời gian rảnh rỗi, tôi thường đọc những nghiên cứu y khoa làm tại Việt Nam đăng trên tạp chí Y học Tôi phát hiện một số điều khá thú vị là:
- Đa số những nghiên cứu lâm sàng ở Việt Nam thuộc dạng mô tả, cắt ngang, và hơn 90% trường hợp là mô tả đặc điểm (triệu chứng) của một loại bệnh lý nào đó
- Đa số bài báo (> 90%) trình bày không chuẩn, thiếu sót và/hoặc tối nghĩa, mơ hồ về kêt quả nghiên cứu Khoảng 42 % bài báo chỉ dừng lại ở mức liệt kê triệu chứng trong bảng 2x2 nhưng không kèm bất cứ kiểm định nào Khoảng một nửa (54%) tác giả hiểu sai về phương pháp thống kê, nhất là test χ2 dẫn đến phát biểu sai lầm, ví dụ như: « Các biến số định tính được so sánh bằng Test χ2 » Hầu như không có tác giả nào phân tích sâu giá trị chẩn đoán của các triệu chứng
Vì vậy tôi giới thiệu với các bạn tài liệu nhỏ này, với hy vọng nó sẽ giúp các bạn sinh viên và đồng nghiệp phân tích kết quả nghiên cứu mô tả bệnh lý/triệu chứng đầy đủ hơn và dễ dàng hơn Tài liệu dựa trên phần mềm SPSS, vì đây là công cụ thống kê phổ biến nhất tại Việt Nam
Tôi sẽ không làm các bạn bị nhức đầu với những công thức tính toán thống kê phức tạp như những thầy cô dạy môn học này (bản thân tôi cũng ghét những thứ đó khi còn đi học), nhưng trao cho các bạn một công cụ đơn giản và dễ sử dụng, có thể dùng ngay khi bạn cần Tài liệu này được viết chi tiết vừa đủ để ngay cả khi bạn chưa biết gì về thống kê vẫn có thể dùng nó để chữa cháy vào giờ chót khi làm luận văn, bác cáo thực tập
Số liệu trong tài liệu hoàn toàn giả, được tôi tạo ra chỉ với mục đích làm thí dụ, nhưng thông qua thí dụ này tôi muốn chia sẻ một thông điệp : « Không cần phải đợi đến khi làm luận văn tốt nghiệp hay đi học cao học, nội trú chúng ta mới làm nghiên cứu khoa học »
Ngay từ năm thứ hai, bất cứ sinh viên y khoa nào cũng có thể bắt đầu tự mình làm những nghiên cứu, dù rất nhỏ, nhưng qua đó sẽ giúp các bạn trẻ học được nhiều điều thú vị, những thứ mà thầy
cô bộ môn Thống kê – Dịch tễ học không bao giờ có thời gian chỉ dạy các bạn
Trang 3Trong kì thực tập lâm sàng nội khoa, các bạn sinh viên Y3 làm một nghiên cứu mô
tả cắt ngang với mục tiêu khảo sát 2 triệu chứng: (1) khó thở khi gắng sức và (2)
Âm thổi S3 trên các bệnh nhân mắc bệnh suy tim trái
3 nhóm sinh viên đã hỏi bệnh sử và nghe tim của 259 bệnh nhân Chẩn đoán suy tim được xác định dựa theo hồ sơ bệnh án Dữ liệu ghi nhận được tóm tắt bằng 2 bảng 2x2 như sau:
Đối với mô tả thông thường ta có thể dừng lại ở đây, tuy nhiên dựa trên bảng 2x2 này, chúng ta có thể phân tích sâu hơn theo 2 hướng
1) Kiểm tra mối liên hệ giữa Triệu chứng/Bệnh bằng kiểm định χ2(*)
2) Xác định độ nhạy, độ đặc hiệu, giá trị tiên đoán, tỉ số khả dĩ (Likelihood ratio) và Odd ratio dựa vào bảng 2x2 (ta xem triệu chứng như 1 dạng test chẩn đoán…) Những con số này sẽ cho biết mức độ chính xác của chẩn đoán suy tim dựa trên triệu chứng mà ta đang nghiên cứu
Bước 1: Tạo bảng số liệu
1 Thiết lập biến số
(*) Ghi chú: kiểm định χ2 có mục đích xác nhận hay phủ nhận sự liên hệ giữa 2 biến định tính, nó
không phải là một test so sánh đi tìm sự khác biệt như nhiều người ngộ nhận)
Trang 4Bước 1: Tạo bảng số liệu (tiếp theo)
Bạn nhập vào con số
Nhưng SPSS sẽ gán cho con số giá trị phân loại tương ứng mà bạn đã xác định ở bước 2
Chỉ cần kích hoạt chức năng hiển thị nhãn giá trị, bảng số liệu của bạn sẽ trở nên rõ ràng như thế này
4
Trang 52 Bước 2: Khảo sát mối liên hệ Triệu chứng/Bệnh bằng kiểm định χ2
Qui trình làm test χ2
1
2
3
Nhấn tab Analyze > Chọn loại khảo sát mô tả (Descriptive) > chọn Crosstabs để mở chức năng tạo bảng 2x2
Trang 64
3
Trong hộp « Crosstab », ta đưa biến số « Bệnh suy tim » vào Rows (Hàng) và đưa 2 biến số định tính của triệu chứng (khó thở và Tiếng tim S3) vào Column (cột)
(Ghi chú: Bạn cũng có thể đặt 2 biến ở vị trí ngược lại, kết quả test sẽ không thay đổi, tuy nhiên cách trình bày bảng 2x2 như trên đây sẽ giúp ta nhận diện thông số về test chẩn đoán (độ nhạy, đặc hiệu…) một cách
dễ dàng hơn so với qui ước trong sách giáo khoa
Qui trình làm test χ2 là như nhau, tuy nhiên một số bước phân tích sâu và cách diễn giải kết quả test χ 2 sẽ thay
đổitùy vào câu hỏi nghiên cứu ban đầu; trong trường hợp này tôi giới thiệu cấu hình test χ 2 dành cho phân tích Bệnh/Triệu chứng
Trang 72
Qui trình làm test χ2 (tiếp theo)
5
Nhấn nút để mở hộp thoại lựa chọn phương pháp thống kê
Bạn thiết lập cấu hình phân tích
như hình bên
Nhấn để trở về hộp
Crosstable
6
Thực hiện test χ2
Tính hệ số Phi và V để
đánh giá độ mạnh
của mối liên hệ
Tính Odd-ratio để biết
« nguy cơ » của sự tồn tại bệnh suy tim
7
Trang 8Qui trình làm test χ2 (tiếp theo)
8
Nhấn để mở hộp thoại Cell display
Chức năng này cho phép phân tích sâu các tỉ lệ
9
Chọn hiển thị giá trị %
theo hàng/ cột và tổng
cộng Độnt tác này sẽ
giúp bạn tính nhanh độ
nhạy và độ đặc hiệu …
10
Trang 92
Qui trình làm test χ2 (tiếp theo)
11
Nhấn để bắt đầu thực hiện test
Trang 10Case Processing Summary
Cases
N Percent N Percent N Percent Bệnh suy tim * Tiếng tim S3 259 100,0% 0 0,0% 259 100,0%
Bệnh suy tim * Khó thở 259 100,0% 0 0,0% 259 100,0%
Crosstab
Tiếng tim S3
Total Không Có
Bệnh suy tim Không Count 215a 3b 218
Expected Count 207,1 10,9 218,0
% within Bệnh suy tim 98,6% 1,4% 100,0%
% within Tiếng tim S3 87,4% 23,1% 84,2%
% of Total 83,0% 1,2% 84,2%
Std Residual ,6 -2,4
Expected Count 38,9 2,1 41,0
% within Bệnh suy tim 75,6% 24,4% 100,0%
% within Tiếng tim S3 12,6% 76,9% 15,8%
% of Total 12,0% 3,9% 15,8%
Std Residual -1,3 5,5
Expected Count 246,0 13,0 259,0
% within Bệnh suy tim 95,0% 5,0% 100,0%
% within Tiếng tim S3 100,0% 100,0% 100,0%
% of Total 95,0% 5,0% 100,0%
Each subscript letter denotes a subset of Tiếng tim S3 categories whose column proportions do not differ
significantly from each other at the ,05 level.
Đọc kết quả kiểm định χ2 cho triệu chứng « âm thổi S3 »
Bàng đầu tiên : Case Processing Summary cho phép phát hiện những case bị mất dữ liệu
hoặc bị nhập sai Ở đây dữ liệu của chúng ta đầy đủ 259 ca
Bảng thứ hai là « Crosstabulation » có dạng một ma trận 2 hàng x 2 cột (Bảng 2x2)
Trước hết, chúng ta nhìn vào mục « Count » cho biết tần số quan sát được ở mỗi ô, và
kiểm tra xem có ô nào ít hơn 5 trường hợp ? Nếu có, ta cần sử dụng test chính xác của
Fisher
< 5
Trang 113
Đọc kết quả kiểm định χ2 cho triệu chứng « âm thổi S3 » (tiếp)
Crosstab
Tiếng tim S3
Total Không Có
Bệnh suy tim Không Count 215a 3b 218
Expected Count 207,1 10,9 218,0
% within Bệnh suy tim 98,6% 1,4% 100,0%
% within Tiếng tim S3 87,4% 23,1% 84,2%
% of Total 83,0% 1,2% 84,2%
Std Residual ,6 -2,4
Expected Count 38,9 2,1 41,0
% within Bệnh suy tim 75,6% 24,4% 100,0%
% within Tiếng tim S3 12,6% 76,9% 15,8%
% of Total 12,0% 3,9% 15,8%
Std Residual -1,3 5,5
Expected Count 246,0 13,0 259,0
% within Bệnh suy tim 95,0% 5,0% 100,0%
% within Tiếng tim S3 100,0% 100,0% 100,0%
% of Total 95,0% 5,0% 100,0%
Each subscript letter denotes a subset of Tiếng tim S3 categories whose column proportions do not differ
significantly from each other at the ,05 level
Thực tế
> dự đoán
Tiếp theo ta chú ý đến ô giao nhau giữa « có triệu chứng » và « có bệnh » (hoặc không
triệu chứng/không bệnh) , rồi so sánh giữa tần số thực tế (count) và tần số dự đoán
(Expected count) Nếu Thực tế > dự đoán, có thể thấy trước rất nhiều khả năng là có liên
hệ giữa Triệu chứng và bệnh, nhưng dù sao ta vẫn phải xác nhận bằng giá trị p của test
Fisher
Chúng ta sẽ quay trở lại bảng crosstab vào phần sau khi khảo sát độ chính xác của test chẩn
đoán…
Trang 12Symmetric Measures
Nominal by Nominal Phi ,385 ,000
Cramer's V ,385 ,000 Contingency Coefficient ,359 ,000
Chi-Square Tests
Value df
Asymp Sig (2-sided)
Exact Sig (2-sided)
Exact Sig (1-sided) Pearson Chi-Square 38,340 a 1 ,000
Continuity Correction b 33,664 1 ,000
Likelihood Ratio 25,897 1 ,000
Fisher's Exact Test ,000 ,000
Linear-by-Linear Association 38,192 1 ,000
N of Valid Cases 259
a 1 cells (25,0%) have expected count less than 5 The minimum expected count is 2,06.
b Computed only for a 2x2 table
Đọc kết quả kiểm định χ2 cho triệu chứng « âm thổi S3 » (tiếp)
Tiếp theo là bảng Chi-Square
Kiểm định Pearson Chi-Square áp dụng cho trường hợp tổng quát
Kiểm định Fisher's Exact áp dụng cho bảng 2x2 có 1 hay nhiều ô < 5 trường hợp., nhưng không áp dụng được nếu biến số định tính nhiều hơn 2 giá trị (bảng 3x2 hoặc phức tạp hơn)
Ở đây kết quả cho thấy quan hệ giữa âm thổi S3 và bệnh suy tim là có ý nghĩa thống kê (p<0,01)
Bảng Symmetric Measures cung cấp cho ta giá trị của hệ số V (Cramer) hay còn gọi là số Phi (φ) hiệu chỉnh Hệ số này cho biết độ mạnh của quan hệ giữa 2 biến số định tính đang được khảo sát (trong trường hợp này là quan hệ giữa triệu chứng và bệnh)
Các bạn nên dùng V để báo cáo vì Phi (φ) chỉ áp dụng được cho trường hợp bảng 2x2
Giá trị của V từ 0 +1 Giá trị P của V bằng giá trị P của test χ2
Khi bạn có nhiều biến số B1, B2, B3… (nhiều triệu chứng) và muốn so sánh mức độ quan hệ giứa chúng và biến số A (bệnh), giá trị V1, V2, V3 sẽ cho phép bạn lập luận so sánh về quan hệ mạnh/yếu hơn của từng triệu chứng
𝑉 =
χ 2 𝑇ổ𝑛𝑔 𝑛 min (𝑐ộ𝑡 − 1, ℎà𝑛𝑔 − 1)
Trang 133
Đọc kết quả kiểm định χ2 cho triệu chứng « khó thở khi gắng sức »
Crosstab
Khó thở
Total Không Có
Bệnh suy tim Không Count 34a 184a 218
Expected Count 30,3 187,7 218,0
% within Bệnh suy tim 15,6% 84,4% 100,0%
% within Khó thở 94,4% 82,5% 84,2%
% of Total 13,1% 71,0% 84,2% Std Residual ,7 -,3
Expected Count 5,7 35,3 41,0
% within Bệnh suy tim 4,9% 95,1% 100,0%
% within Khó thở 5,6% 17,5% 15,8%
% of Total 0,8% 15,1% 15,8% Std Residual -1,5 ,6
Expected Count 36,0 223,0 259,0
% within Bệnh suy tim 13,9% 86,1% 100,0%
% within Khó thở 100,0% 100,0% 100,0%
% of Total 13,9% 86,1% 100,0% Each subscript letter denotes a subset of Khó thở categories whose column proportions do not differ significantly from each other at the ,05 level.
Chi-Square Tests
Asymp Sig (2-sided)
Exact Sig (2-sided)
Exact Sig (1-sided) Pearson Chi-Square 3,313 a 1 ,069
Continuity Correction b 2,478 1 ,115
Fisher's Exact Test ,084 ,048
Linear-by-Linear Association 3,300 1 ,069
a 0 cells (0,0%) have expected count less than 5 The minimum expected count is 5,70.
b Computed only for a 2x2 table
Symmetric Measures
Nominal by Nominal Phi ,113 ,069
Cramer's V ,113 ,069 Contingency Coefficient ,112 ,069
Sau đây là bảng kết quả cho triệu chứng còn lại, các bạn có thể tự diễn giải; kết quả kiểm định
âm tính (không có quan hệ ý nghĩa giữa triệu chứng khó thở và bệnh suy tim)
Trang 14Độ nhạy : SE = TP/P = TP/(TP+FN)
Độ đặc hiệu SP = TN/N = TN/(FP+TN) Giá trị tiên đoán dương : PPV = TP/(TP+FP) Giá trị tiên đoán âm : NPV = TN/(TN+FN)
Độ chính xác : Accuracy : ACC = (TP+TN)/(P+N)
F score = 2TP/(2TP+FP+FN)
Tỉ số khả dĩ (+) : Likelihood ratio(+) LLR+= SE/(1-SP)
Tỉ số khả dĩ (-) : Likelihood ratio(-) LLR- = (1-SE)/SP
Tỉ số Odd chẩn đoán: DOR = LLR+/LLR-
Độ đặc hiệu NPV
Độ nhạy
PPV
Odd ratio chẩn đoán
Hướng dẫn xác định nhanh các tỉ số này từ bảng 2x2 và Bảng Risk estimate trong SPSS:
Nhược điểm quan trọng nhất của SPSS là nó không thỏa mãn tất cả yêu cầu thống kê trong y học, điển hình là khảo sát test chẩn đoán, như ta thấy, SPSS không bao giờ chỉ rõ độ nhạy, độ đặc hiệu Vì vậy người dùng phải tự mình tính những giá trị này dựa theo định nghĩa Dưới đây là cách xác định nhanh các thông số đánh giá test chẩn đoán dựa vào bảng 2x2 và bảng Risk estimate
Trong trường hợp triệu chứng có thể dùng trong chẩn đoán lâm sàng, bạn có thể làm thêm phân tích sâu về giá trị của mỗi triệu chứng (Điều này không có nghĩa là bạn chẩn đoán bệnh suy tim chỉ dựa vào duy nhất 1 triệu chứng)
Trang 153
Khảo sát giá trị chẩn đoán của triệu chứng
https://drive.google.com/file/d/0B1vaOU1uB8DPREI5LURhUEVkZkU/view?usp=sharing
Nhược điểm thứ hai của SPSS là không cho phép xác định khoảng tin cậy (CI) 95% của các tỉ số mà ta
vừa đề cập Có ít người quan tâm đến CI95%, nhất là đối với phân phối giá trị của 1 tỉ số Trên thực tế
CI95% rất quan trọng vì nó cho phép so sánh giá trị chẩn đoán giữa 2 phương pháp chẩn đoán (hay 2
triệu chứng) khác nhau một cách chính xác
Các bạn có thể tải công cụ tính các tỉ số giá trị chẩn đoán và CI95% do tôi thực hiện trên Excel tại địa chỉ sau đây
Nhập 4 giá trị vào bảng 2x2
Chương trình sẽ tự tính ra giá trị của
độ nhạy, độ đặc hiệu, tỷ số khả dĩ, PPV, NPV, Odd ratio, Accuracy, kèm theo CI% (mức độ tin cậy do bạn xác định, từ 90% tới 99%)
Triệu chứng
Giá trị Ngưỡng dưới KTC Ngưỡng trên KTC
Triệu chứng
Giá trị Ngưỡng dưới KTC Ngưỡng trên KTC
Ví dụ: kết quả cho triệu chứng
Âm thổi S3
Ví dụ: kết quả cho triệu chứng Khó thở khi gắng sức
Trang 16Âm thổi S3 Khó thở khi gắng sức Hiện diện ở BN suy tim trái (%) 10/41 (24,4%) 39/41 (95,1%)
Liên hệ giữa triệu chứng/bệnh
(Test chính xác Fisher )
Có ý nghĩa thống kê (p<0,005)
Không có ý nghĩa thống kê
(p=0,084)
Mức độ liên hệ
(Cramer’s V)
Độ nhạy (CI95%) 0,24 (0,14-0,39) 0,95 (0,84-0,99)
Độ đặc hiệu (CI95%) 0,99 (0,96-0,99) 0,16 (0,11-0,21)
Giá trị tiên đoán (+); CI95% 0,77 (0,49-0,92) 0,17 (0,13-0,23)
Giá trị tiên đoán (-); CI95% 0,87 (0,83-0,91) 0,94 (0,82-0,98)
Độ chính xác chẩn đoán (ACC), CI95% 0,87 (0,82-0,90) 0,28 (0,23-0,34)
Tỷ số khả dĩ (+); CI95% 17,72 (5,10-61,63) 1,13 (1,03-1,23)
Tỷ số khả dĩ (-); CI95% 0,77 (0,64-0,91) 0,31 (0,08-1,25)
Odd-ratio (95%) 23,12 (6,03-88,65) 3,60 (0,83-15,63)
Bước 5: Diễn đạt văn bản khoa học
Bảng 1: Khảo sát triệu chứng âm thổi S3 và khó thở khi gắng sức ở bệnh nhân bị suy tim trái
Phương pháp xứ lý số liệu
Số liệu được phân tích bằng phần mềm IBM SPSS 22.0 Liên hệ giữa mỗi triệu chứng với bệnh suy tim được kiểm tra bằng Test chính xác Fisher và chỉ số V của Cramer Mức độ phù hợp chẩn đoán của mỗi triệu chứng được khảo sát dựa vào bảng 2x2, cho phép ước tính các tỉ số:
Độ nhạy, độ đặc hiệu, PPV, NPV, Likelihood ratio -/+, độ chính xác, Odd ratio và khoảng tin cậy 95% của các giá trị này
Kết quả và bàn luận
Có liên hệ ý nghĩa giữa âm thổi S3 và sự hiện diện của bệnh lý suy tim trái (p<0,005, Fisher exact test; V=0,39), đây là một triệu chứng không thường gặp (chỉ nghe được trong 24% trường hợp suy tim) nhưng rất đặc hiệu (99%) và cho phép chẩn đoán bệnh suy tim với độ chính xác từ 82%-90%
Khó thở khi gắng sức là triệu chứng cơ năng phổ biến (hiện diện ở 95% bệnh nhân suy tim), tuy nhiên liên hệ giữa khó thở và bệnh suy tim không có ý nghĩa thống kê (p=0,08); triệu chứng này cũng không đặc hiệu (16%) và kém chính xác (ACC=28%) hơn so với âm thổi S3