Tạo một biến mới từ các biến đã có Trong quá trình phân tích số liệu, nhiều khi số liệu ban đầu nhập vào chưa đáp ứng với yêu cầu của phương pháp phân tích đư ợc sử dụng, mà cần phải th
Trang 1NGUYỄN HỮU SƠN
SỬ DỤNG PHẦN MỀM
MedCalc TRONG THỐNG KÊ Y HỌC
Hu , 11-2010
Trang 2LỜI NÓI ĐẦU
Thống kê và phân tích số liệu là một khâu rất quan trọng trong tiến trình thực hiện các công trình nghiên cứu y học Người làm công tác nghiên cứu khoa học bên cạnh kiến thức chuyên môn giỏi, cần có những hiểu biết về phương pháp thống kê y học
Thống kê y học được thực hiện qua các thuật toán thống kê (test thống kê) với những công thức tính toán khá phức tạp Các phần mềm thống kê chạy trên máy vi tính là công cụ hữu ích để thực hiện các test thống kê này nhanh chóng, thuận tiện và chính xác Đối với người làm nghiên cứu khoa học, điều quan trọng là phải nắm được thuật toán nào phù hợp với mô hình nghiên cứu của mình, còn việc tính toán sẽ tiến hành trên máy tính với các phần mềm tùy chọn
Hiện nay, có rất nhiều phần mềm thống kê đang được sử dụng như: Epi, Stata, Medcalc, Spss trong đó phần mềm Medcalc được ứng dụng đặc thù trong nghiên cứu y học Medcalc có dung lượng nhỏ, dễ cài đặt Việc thực hiện các lệnh bằng con chuột (Epi và Stata thực hiện bằng câu lệnh) với cửa sổ thao tác trực quan, dễ hiểu Kết quả phân tích số liệu cho ra các bảng, biểu đồ
rõ ràng, màu sắc đẹp, có thể cắt dán dễ dàng vào các trang nghiên cứu khoa học hoặc luận văn, luận
án Chương trình Medcalc còn cho phép thực hiện các test thống kê trực tiếp từ các bảng trình bày
, rất hữu ích cho các nhà phản biện muốn kiểm tra tính chính xác của các kết quả này Đây là một tiện ích của chương trình medcalc mà không phải phần mềm xử lý số liệu nào cũng có được
Trong phạm vi cuốn sách này, chúng tôi giới thiệu những thuật toán thống kê cơ bản nhất thường được sử dụng khi viết luận văn, luận án y khoa
ọa, hy vọng rằng các bạn sinh viên Y6, học viên sau đại học và quý đồng nghiệp có thể ứng dụng chương trình Medcalc vào phân tích số liệu khi thực hiện các đề tài nghiên cứu
Rất mong nhận được sự góp ý của quý bạn đọc, của học viên và đồng nghiệp để tập sách ngày càng hoàn chỉnh và hữu ích hơn Các ý kiến đóng góp xin gửi qua hộp thư điện tử nghuuson@gmail.com
Huế, tháng 11 năm 2010 Tác giả
Ths.Bs
Trang 3
-Chương 1 GIỚI THIỆU CHƯƠNG TRÌNH MEDCALC
Sách hướng dẫn này dựa trên phiên bản Medcalc 11.3.1.0 (updated 8/2010) Bạn đọc có thể download phần mềm từ website http://www.medcalc.be để có được phiên bản cập nhật sau cùng
Phần mềm Medcalc được cài đặt tương thích với Window 7, Vista, XP
1.1 Cửa sổ chính
Cửa sổ làm việc của chương trình như sau:
Thanh thực đơn (menu) bao gồm:
+ File: để tạo file mới (new), mở file đã có (open); lưu (save/ save as)
+ Edit: để thực hiện lệnh copy, cắt (cut), dán (paste)
+ Statistics : chứa các lệnh để thực hiện tất cả các test thống kê
+ Graphs : vào menu này để vẽ các biểu đồ
+ Test: vào menu này để thực hiện các test thống kê trực tiếp từ các bảng trình bày trong
luận văn, luận án Phần này rất hữu ích để tính "giá trị p" mà không cần có số liệu gốc
1.2 Cửa sổ số liệu (data)
Kích chuột vào nút (data) để mở cửa sổ số liệu
Cửa sổ số liệu có hình thức giống một bảng tính excel (microsoft excel) Hàng trên cùng (ngay trên hàng số 1) để ghi tên biến Từ hàng số 1 trở đi nhập giá trị của biến
Cửa sổ sổ liệu (Data)
Kích đôi chuột vào
Data để mở cửa sổ
nhập số liệu
Trang 4Các thao tác chính trong cửa sổ số liệu:
+ Chèn thêm hàng (cột): Kích chuột phải vào vị trí cần chèn thêm hàng (cột), chọn Insert
> Rows (Columns) Hàng mới chèn thêm vào bên trên hàng được chọn, cột mới chèn thêm vào bên trái cột được chọn
- Biên tập số liệu: copy, cắt (cut), dán (paste) vùng được chọn Tại các ô của cửa sổ số liệu,
có thể thực hiện các phép tính từ đơn giản đến phức tạp Ví dụ: nhập 3*12 sẽ hiển thị kết quả 36
Ghi chú: Trong quá trình biên tập số liệu, muốn quay lại những thao tác trước đó (ví dụ xóa nhầm, nhập sai ), kích chuột vào nút Undo trên thanh công cụ
Có thể thay đổi độ rộng của cột bằng cách giữ và rê chuột ở vị trí đường phân cách giữa 2 cột (lúc này con trỏ chuột có hình 2 mũi tên):
Trang 5- Select: Để chọn một đặc tính nào đó của biến Dùng chức năng này khi muốn chọn một
nhóm để đưa vào phân tích Ví dụ sau sẽ tính tuổi trung bình của những người có HATT > 140 mmHg
- More Options: Các tùy chọn Khi bấm chuột vào nút này sẽ mở ra một hộp thoại phụ
1.4 Mở một bảng số liệu đã có
- Vào menu File Open
Giữ và rê chuột ở đây để giãn độ rộng của cột
Trang 6- Tìm đến vị trí lưu file số liệu trong ổ đĩa máy tính, chọn file cần mở và kích vào nút Open
- Chương trình Medcalc sử dụng được file số liệu được tạo ra từ các chương trình Excel,
Stata, Spss Khi đó tại mục File of type ta chọn kiểu file là Excel, Stata, Spss hoặc All file để
hiển thị file cần mở trong hộp thoại
1.5 Lưu số liệu
- Vào File Save
- Đặt tên file cần lưu và nhấn nút Save
- Nếu muốn lưu bằng một tên file khác, vào menu File Save As (thao tác tương tự)
- File số liệu mặc định của medcalc có phần mở rộng mc1 (ví dụ solieu.mc1) Nếu cần lưu thành file excel, spss kích chuột vào mục Save as type để chọn kiểu file tương ứng
Trang 7Chương 2 NHẬP SỐ LIỆU
2.1 Kích hoạt cửa sổ nhập số liệu
Kích chuột (double click) vào nút Data trên thanh công cụ để mở cửa sổ nhập số liệu
Hàng trên cùng (ngay trên hàng số 1) dùng để ghi tên biến (variable name) Từ hàng số 1 trở
đi nhập giá trị của biến (variable value)
Chú ý:
- Tên biến không giới hạn số ký tự 11.0) Nếu khi nhập tên biến nếu
có khoảng cách giữa 2 chữ, phần mềm sẽ tự động thêm dấu gạch ngang ( _ ) giữa hai chữ đó (ví dụ
nhập ho va ten sẽ tự động chuyển thành ho_va_ten) Không nên dùng 2 tên biến giống nhau, không
nên đánh tiếng việt có dấu
Ví dụ: ho_va_ten, tuoi, gioi, ngay_vao_vien, chan_doan,
- Cần phân biệt tên biến (variable name) với giá trị trị của biến (variable value) Có thể hiểu
tên biến là tên của mỗi cột trong bảng Trong ví dụ trên: tên biến tuổi có giá trị là tuổi thực của từng người; tên biến giới có 2 giá trị được mã hóa là 1=nam, 2=nữ
2.2 Nhập số liệu
Thao tác nhập số liệu tương tự trong excel Để thuận tiện cho việc xử lý số liệu, khi nhập số liệu cần chú ý:
Đối với biến chuổi (string) như họ tên hoặc biến số thực (numeric) như tuổi, huyết áp :
nhập trực tiếp giá trị của biến Không cần phân chia thành các nhóm (nhóm tuổi, phân độ tăng huyết áp ) từ lúc này Phần mềm có các công cụ để thực hiện công việc đó một cách nhanh chóng, chính xác (xem phần tạo biến mới)
Đối với các biến định tính:
- Mã hóa các giá trị của biến định tính bằng số:
Ghi tên biến vào hàng này (ngay
trên hàng số 1)
Trang 8này, câu hỏi được chia ra như sau:
Tiền sử đái đường: 0=không; 1=có
Tiền sử tăng huyết áp: 0=không; 1=có
Như vậy, những câu hỏi mà kết quả có thể nhiều hơn 1 sự lựa chọn thì mỗi sự lựa chọn
đó là một tên biến (variable name) mang 2 giá trị "không" hoặc "có"
Chú ý: các phần tiếp theo, chúng tôi qui ước mã hóa 0=không; 1=có cho tất cả các biến định
tính xác định hai trạng thái: có / không
hot_ten Ts_THA Ts_DTD Ts_B eoPhi
Phần mềm sẽ dễ dàng chọn ra được những bệnh nhân có 1, 2 hoặc 3 tiền sử bằng thuật toán AND (xem phần tạo biến mới) Ví dụ: để chọn những bệnh nhân có tiền sử ĐTĐ + THA (và không béo phì), dùng thuật toán sau:
AND(Ts_DTD=1, Ts_THA=1, Ts_BeoPhi=0)
- Đối với câu hỏi mở:
Ví dụ: Lý do vào viện:
Chẩn đoán:
Nên mã hóa các kết quả khi số lượng các câu trả lời có giới hạn, chẳng hạn:
Chẩn đoán: 1= Thông liên thất + Thông liên nhĩ
2= Còn ống động mạch + hẹp ĐM phổi 3= Thông sàn nhĩ thất +
4=
Tất nhiên có những câu hỏi mở mà sự trả lời không thể mã hóa được thì nhập trực tiếp các kết quả từ bàn phím
Đối với biến ngày tháng (date) như ngày vào viện, ngày ra viện ban đầu nhập vào có thể
không hiển thị ngày tháng, ví dụ nhập 1/2/2009 nhưng hiển thị 0,00049776 (tức là kết quả của một phép chia) Vì vậy phải định dạng lại cột chứa biến ngày tháng Thao tác như sau:
- Chọn (highlight) cột có chứa biến ngày tháng
- Thao tác lệnh:
Format
Spreadsheet
Trang 9- Tại bảng Column: chọn vào Text format, có nghĩa định dạng cột kiểu text (ký tự)
Ghi chú: Nếu không chọn Text format sẽ định dạng cột kiểu số (numeric): chọn tiếp
Column with (số ký tự tối đa), Decimals (số thập phân: bao nhiêu số sau dấu phẩy)
2.3 Tạo một biến mới từ các biến đã có
Trong quá trình phân tích số liệu, nhiều khi số liệu ban đầu nhập vào chưa đáp ứng với yêu cầu của phương pháp phân tích đư ợc sử dụng, mà cần phải thực hiện các phép biến đổi để tạo ra các
biến mới thích hợp Ví dụ: từ biến ban đầu nhập vào là huyết áp tạo ra biến mới phân độ tăng huyết
áp, từ 2 biến chiều cao và cân nặng tạo ra biến BMI
2.3.1 Từ biến định lượng, tạo ra các nhóm định tính
Thủ tục này sẽ định tính hóa biến định lượng bằng cách chia biến định lượng thành các khoảng (hay nhóm)
Ví dụ: từ số liệu ban đầu nhập vào là tuổi bệnh nhân, muốn lập bảng sau:
< 20 (nhóm 1)
20 - 40 (nhóm 2)
> 40 (nhóm 3) Thao tác lệnh:
Tool
Create Groups
User Defined Groups
Tùy chọn:
Column: cột chứa biến mới Phần mềm tự động chọn cột trống cuối cùng của bảng (không
cần chọn lại nếu không cần thiết)
Variable: (tuổi) (dùng chuột kích vào mũi tên sổ xuống để chọn biến)
Ope rator: Chọn dấu thích hợp: >, <
Crite rion value:
Trang 10Group/category: : 1, 2, 3,
Diễn giải thuật toán if else if (nếu không thì nếu ):
Nếu tuổi < 20 > qui ƣớc nhóm 1,
Nếu không (tức chỉ còn lại tuổi ≥ 20) thì:
Nếu tuổi ≤ 40 (tức 20 - 40) > qui ƣớc nhóm 2, Nếu không (tức chỉ còn lại tuổi > 40) thì:
Nếu tuổi > 40 > qui ƣớc nhóm 3
Kết quả: Biến nhóm tuổi đƣợc tự động thêm vào cột cuối cùng của bảng số liệu, có giá trị đƣợc mã hóa theo các độ tuổi nói trên
2.3.2 Tạo ra biến mới bằng các thuật toán
Ví dụ 1: từ 2 biến đã có là chiều cao và cân nặng, tạo ra biến BMI bằng thuật toán:
BMI=
Nhập tên biến mới BMI vào cột thích hợp Đặt con trỏ vào cột chứa biến đó (ở hàng nào
cũng đƣợc)
Trang 11A B C D E hot_ten cannang chieucao BMI beo_phi
Hộp thoại Format Spreadsheet mở ra, kích chuột vào nút sẽ mở ra hộp thoại Formula editor
Thực hiện công thức tính toán tại khung Formula: chọn biến cần đƣa vào công thức tính toán, kích đôi chuột vào biến đó để đƣa vào khung Formula
Kích
đôi
chuột
Trang 12Nhấn OK để kết thúc Các giá trị của biến BMI sẽ đƣợc tạo ra và điền vào cột chứa biến đó
Ví dụ 2: Đánh giá béo phì dựa vào BMI (theo từng giới): nam béo phì nếu BMI>24; nữ béo phì nếu BMI>22
giới = 1 và BMI>24 Thuật toán: Béo phì =
giới = 2 và BMI>22
(mã hóa: giới=1: nam; giới=2: nữ)
Nhập tên biến mới béo phì vào cột thích hợp, đặt con trỏ vào cột chứa biến đó
Thao tác lệnh:
Format
Spread Sheet
Chọn Tab Column, kích chuột vào nút fx
Thực hiện thuật toán tại ô Formula: Tại khung Functions có chứa sẵn các loại hàm số, chọn hàm số thích hợp và kích chuột đôi để đƣa hàm đó vào khung Formula Trên cơ sở đó chèn thêm các biến vào hàm số
Nhấn OK để kết thúc
Kết quả: Biến mới béo phì sẽ có 2 giá trị: 0=không; 1=có
Ví dụ 3: Tiền sử bệnh nhân, muốn lập bảng sau
Trang 13Từ bảng số liệu ban đầu:
Nhập tên biến mới Tiền sử ĐTĐ + THA vào cột thích hợp, đặt con trỏ tại vị trí cột chứa biến
mới tạo ra Sử dụng thuật toán sau:
Ts_DTD=1 và Ts_THA=1 và Ts_Beophi=0
Thao tác lệnh:
Format
SpreadSheet
Chọn Tab Column, kích chuột vào fx
Thực hiện thuật toán tại ô Formula:
Nhấn OK để kết thúc
Kết quả: Tiền sử ĐTĐ + THA sẽ có 2 giá trị: 0=không; 1=có
Thực hiện tương tự đối với các tổ hợp còn lại (ĐTĐ+Béo phì; THA+Béo phì )
Trang 14Chọn Tab Column, kích chuột vào fx
Nhấn OK để kết thúc
2.4 Kiểm soát bảng số liệu
Sắp xếp số liệu (sort): nhằm dễ dàng phát hiện những giá trị bất thường như: giá trị
khuyết (missing value), giá trị nhập sai (quá lớn hoặc quá nhỏ)
Thao tác lệnh:
Tool
Sort rows
Tùy chọn:
Sort by column: Xác định sắp xếp số liệu theo cột (biến) nào
Sort from row - To row: mặc định từ hàng số 1 đến hàng cuối cùng của bảng số liệu Sort options: Ascending (tăng dần); Descending (giảm dần)
Nhấn OK để kết thúc
Trang 15Column: Chọn cột cần điền giá trị khuyết
Sort from row - To row: mặc định từ hàng số 1 đến hàng cuối cùng của bảng số liệu Fill with: nhập giá trị cần thay thế hoặc thực hiện các công thức tính toán bằng cách nhấn
chuột vào nút fx để mở hộp thoại formula editor
Để thực hiện thủ tục này, ở tất cả các hộp thoại đều có mục Select, sử dụng mục này để lọc
số liệu Trong mục Select không chứa sẵn danh sách các biến mà phải đánh vào từ bàn phím Vì
vậy cần phải nhập chính xác tên biến
Ví dụ sau sẽ tính tỉ lệ giới ở nhóm chứng:
Trang 16Hình 2.15 Chọn nhóm nghiên cứu
Ví dụ này sẽ tính tỉ lệ giới ở nhóm bệnh nhân > 40 tuổi:
Hình 2.16 Chọn tuổi > 40
Trang 17Chương 3 THỐNG KÊ MÔ TẢ
Thống kê mô tả là bước cơ bản và cũng là bước khởi đầu của một nghiên cứu y học Thống
kê mô tả là phương pháp thống kê giúp mô tả những đặc tính (giá trị trung bình, độ phân tán, tỉ lệ ) của một mẫu nghiên cứu xác định, trên cơ sở những số liệu thu thập được từ mẫu ấy
Như vậy, thống kê mô tả xử lý những thông tin trên mẫu (sample) Những kết quả đạt được
hiển nhiên đúng và tin cậy 100% đối với mẫu đó (nhưng chưa hẳn đúng khi áp dụng cho mẫu khác
hoặc quần thể), vì thế khi đưa ra những kết luận trên mẫu nghiên cứu không cần phải xác định độ tin cậy (hoặc giá trị p) là bao nhiêu
Ví dụ: trong ngày có 100 bệnh nhân sốt xuất huyết vào viện, phát hiện 20 trường hợp bị choáng Kết luận 20/100 bệnh nhân sốt xuất huyết vào viện trong ngày hôm đó bị choáng (chiếm tỉ
lệ 20%, không thể hiện giá trị p ở đây)
3.1 Thống kê mô tả biến định tính
3.1.1 Một số khái niệm
Khi giá trị khảo sát không phải là một đại lượng có thể cân, đong, đo, đếm được mà chỉ thể hiện một đặc tính nào đó của đối tượng khảo sát (ví dụ đặc tính giới tính của đối tượng khảo sát là nam, nữ) Tùy theo tính chất các giá trị, biến số định tính có thể phân thành 2 loại:
- Biến số định danh: Biến số có 2 hay nhiều giá trị, mỗi giá trị được gọi bằng một tên, không
có ý nghĩa về độ lớn của sự đo dường và cũng không có ý nghĩa so sánh với nhau Ví dụ giới tính của một người (nam, nữ), hay nhóm máu (A, B, AB, 0)
- Biến số định tính nhiều giá trị thứ tự: Biến số có nhiều giá trị Các giá trị của biến số thể hiện một mức độ tăng dần hoặc giảm dần Ví dụ mức độ tăng huyết áp: độ I, độ II, độ III, độ IV; xét nghiệm định tính hồng cầu niệu: +, ++, +++
3.1.2 Lập bảng phân phối tần số
Đối với biến định tính, kết quả thường trình bày dưới dạng bảng phân phối tần số (từ đó có thể vẽ các biểu đồ)
* Bảng phân phối tần số một chiều:
Sử dụng bảng phân phối tần số một chiều để mô tả sự phân phối của một đặc tính nào đó Yêu cầu thiết kế: có một biến định tính chứa các đặc điểm cần khảo sát
Trang 19Để copy biểu đồ: kích chuột phải vào biểu đồ, chọn Copy graph Sau đó có thể dán (paste)
vào trang Word
* Bảng phân phối tần số 2 chiều:
Dùng để trình bày sự phân phối của một đặc tính khảo sát liên quan với một đặc tính khác Yêu cầu thiết kế: gồm hai biến định tính
Codes Y: chọn biến định tính thứ hai
Ví dụ: Thống kê số bệnh nhân tử vong theo giới
90
Trang 20Kích chuôt vào Frequency chart sẽ cho ra biểu đồ
05101520253035
0= khong; 1= co (tu vong)
* Bảng phân phối nhiều chiều
Sử dụng bảng phân phối nhiều chiều để trình bày sự phân phối của một đặc tính khảo sát liên quan với một đặc tính khác và có xem xét đến sự ảnh hưởng của một yếu tố thứ 3 K ỹ thuật này còn được gọi là phân tích tầng
Yêu cầu thiết kế: gồm 3 biến định tính
Đầu tiên chọn beo_phi=1 (nhóm có béo phì)
Trang 21Kết quả sẽ cho bảng 2 chiều giữa hút thuốc lá và tăng huyết áp ở nhóm có béo phì
Sau đó chọn beo_phi=0 (nhóm không béo phì)
Kết quả sẽ cho bảng 2 chiều giữa hút thuốc lá và tăng huyết áp ở nhóm không béo phì
3.2 Thống kê mô tả biến định lượng
3.2.1 Một số khái niệm
Biến định lượng:
Khi giá trị của đặc tính, sự kiện nghiên cứu được thu thập bằng một sự đo lường (cân, đong,
đo, đếm) Thí dụ: chiều cao, đường huyết, nhịp tim của một người
- Biến định lượng liên tục: Ví dụ: chiều cao, huyết áp, số lượng nước tiểu
- Biến định lượng rời rạc: nếu giá trị của đặc tính nghiên cứu chỉ có thể biểu thị bằng những
số nguyên, thường là kết quả của sự đếm Ví dụ: số con trong gia đình, số lần tái khám
Ghi chú: nếu biến định lượng được chia thành các nhóm định tính (ví dụ nhóm tuổi, mức độ tăng huyết áp), việc xử lý số liệu như một biến định tính
Phân phối chuẩn:
Khi xử lý số liệu biến định lượng trước hết phải xem sự phân phối của biến đó có theo luật chuẩn hay không, điều này sẽ quyết định việc lựa chọn giá trị đặc trưng và các test thống kê thích hợp
Trang 22Một dãy số được coi là phân bố chuẩn nếu trung bình cộng, trung vị và mode cùng ở vị trí chính giữa Đồ thị biểu diễn phân phối chuẩn có dạng hình chuông úp, đối xứng qua trục x = µ (giá trị trung bình) 50% giá trị quan sát nằm một bên giá trị trung bình và 50% còn lại nằm phía bên kia
Chương trình medcalc sẽ kiểm tra tính chuẩn của một biến định lượng bằng thủ tục
Summary statistic (xem phần thống kê tóm tắt)
Trung bình hay trung vị:
Trong các tập san nghiên cứu khoa học, chúng ta thường thấy những cột số dưới hình thức X±SD: X là trung bình, SD là độ lệch chuẩn Cách trình bày thông dụng như thế đến nỗi một số chuyên gia và các ban biên tập tập san y học phải lên tiếng khuyến cáo
Theo khuyến cáo chung cũng là qui ư ớc nghiên cứu y học:
- Để mô tả một biến số lâm sàng theo luật phân phối chuẩn: nên trình bày trung bình kèm
độ lệch chuẩn (không phải sai số chuẩn SE)
- Để mô tả một biến số lâm sàng không theo luật phân phối chuẩn: nên trình trung vị (median) và tứ phân vị (số ở vị trí 25% và 75%)
Nếu một phân phối không theo luật phân phối chuẩn SD có thể lớn hơn X Một số người hiểu nhầm "giá trị trung bình âm" (X-SD < 0), thực chất đây không phải là một phép trừ
Bách phân vị:
Trong một số nghiên cứu y học thực hiện trên quần thể lớn (quần thể tham chiếu), các đặc tính định lượng thường được trình bày dư ới dạng bách phân vị Thường gặp trong các nghiên cứu xác định chỉ số nhân trắc, các hằng số sinh lý bình thường như huyết áp, lượng nước tiểu
Giá trị bách phân vị thứ 50 chính là trung vị
Giá trị bách phân vị thứ 75 còn được gọi là tứ phân vị trên
Trang 233.2.2 Thống kê tóm tắt (Summary Statistic)
Thủ tục thống kê tóm tắt dùng để xác định các giá trị đặc trƣng của một biến định lƣợng bao gồm: trị trung bình, trung vị, độ lệch chuẩn, các giá trị cực tiểu, cực đại, test phân phối (chuẩn hay không chuẩn), bách phân vị
Test for Normal distribution: test phân phối (xem phân phối có chuẩn hay không):
Chi-square test, Kolmogorov-Smirnov test hoặc D'Agostino Pearson test
More Options: kích vào nút này sẽ mở ra hộp thoại phụ
Trang 24Variable tuoi (B ảng này thống kê chung)
Standard deviation (độ lệch chuẩn)
20.9165
D'Agostino-Pearson test for Normal distribution
accept Normality (P=0.1732) Phân phối chuẩn
Nếu phân phối k hông chuẩn sẽ hiển thị:
Trang 2525 42.2500 29.6841 to 58.9209
3.2.3 Vẽ biểu đồ thể hiện trung vị, tứ phân vị, giá trị cực tiểu, cực đại
Ví dụ 1: Tiến hành đo huyết áp 90 bệnh nhân (45 nam, 45 nữ) Vẽ biểu đồ hộp whisker) thể hiện huyết áp tâm thu của toàn bộ 90 bệnh nhân
(box-and-Yêu cầu thiết kế: có một biến định lƣợng
Thao tác lệnh:
Multiple variables graphs
Tùy chọn:
Variables: chọn biến định lƣợng cần vẽ biểu đồ (HATT)
Graph: chọn kiểu biểu đồ Box-and-whisher
Nhấn OK để kết thúc:
Box-and-whisker
40 60 80 100 120 140 160 180 200
Trang 26Chú thích biểu đồ:
- Đường ngang giữa hộp: giá trị trung vị (median)
- Cạnh dưới và trên của hộp: tứ phân vị dưới (con số ở vị trí 25%) và tứ phân vị trên (con số
ở vị trí 75%)
- Gạch ngang dưới cùng và trên cùng: giá trị nhỏ nhất và lớn nhất
Ví dụ 2: Vẽ biểu đồ thể hiện huyết áp tối đa của nam và nữ
Yêu cầu thiết kế: có một biến định lượng (HATT) và một biến định tính (giới)
Thao tác lệnh:
Multiple comparison graphs
Tùy chọn:
Data: chọn biến định lượng cần vẽ biểu đồ (HATT)
Factor codes: chọn biến định tính phân nhóm (giới)
Graphs : chọn kiểu biểu đồ Box-and-whisher
Nhấn OK để kết thúc
40 60 80 100 120 140 160 180 200
Gioi: 1=nam; 2=nu
Trang 27Chương 4 THỐNG KÊ SUY DIỄN
Thống kê suy diễn là phương pháp suy luận thống kê theo kiểu qui nạp Từ kết quả nghiên cứu trên một mẫu xác định (thống kê mô tả), suy luận áp dụng cho cả một quần thể lớn
Ví dụ 1: trở lại ví dụ 100 bệnh nhân sốt xuất huyết vào viện có 20 trường hợp bị sốc (chiếm
tỉ lệ 20%, thống kê mô tả) Bằng phương pháp suy diễn, ta ước lượng được tỉ lệ sốc sốt xuất huyết trong quần thể dao động từ 12,2 - 30,9% (với độ tin cậy 95%)
Ví dụ 2: đo huyết áp của 85 người trưởng thành khỏe mạnh có kết quả: huyết áp tâm thu trung bình 117 mmHg, độ lệch chuẩn 4 mmHg (đây là phạm vi của thống kê mô tả) Từ đó ước lượng huyết áp tâm thu trung bình của người trưởng thành trong quân thể là 113 - 121 mmHg (với
độ tin cậy 95%)
Khi suy diễn từ mẫu nghiên cứu ra quần thể thì không dùng số trung bình (hay tỉ lệ) mà chỉ nêu từ mức thấp đến mức cao của giới hạn tin cậy 95%
4.1 Khoảng tin cậy (CI95%)
Khoảng tin cậy được dùng để mô tả mối quan hệ giữa chỉ số đo lường của mẫu (trung bình, trung vị, tỉ lệ, OR, RR ) với các chỉ số tương ứng của quần thể nghiên, tức diễn tả giới hạn sai số chọn mẫu
Trong y học thường dùng khoảng tin cậy 95% (viết tắt CI95%) Khoảng tin cậy của một số trung bình (hoặc tỉ lệ) có nghĩa là có 95% hy vọng là giá trị thật của số trung bình (hoặc tỉ lệ) của quần thể nằm trong khoảng này
Ví dụ: glucose máu trung bình ở nhóm 76 bệnh nhân là 5,13 mmol/l (CI 95%: 4,76 - 5,50)
Có nghĩa glucose máu trung bình trong quần thể được ước tính từ 4,76 - 5,50 mmol/l với độ tin cậy 95% (chấp nhận sai số 5%)
4.2 Ước lượng khoảng tin cậy 95% cho một tỉ lệ
Denominator: mẫu số (cỡ mẫu)
Ví dụ: ước lượng tỉ lệ sốc sốt xuất huyết dựa trên kết quả điều tra mẫu 100 bệnh nhân sốt xuất huyết nói trên
Thao tác lệnh như trên, xuất hiện hộp thoại sau:
Trang 28Kết quả: Incidence rate: tỉ lệ hiện mắc = 20%; 95% CI: tỉ lệ ƣớc lƣợng = 12,217 - 30,888% (với độ tin cậy 95%)
4.3 Ƣớc lƣợng khoảng tin cậy 95% cho một số trung bình, trung vị
Thao tác lệnh và đọc kết quả: xem phần thống kê tóm tắt
4.4 Vẽ biểu đồ thể hiện giá trị trung bình, trung vị và 95%CI
Ví dụ 1: Trở lại ví dụ vẽ biểu đồ thể hiện huyết áp tâm thu của 90 bệnh nhân đƣợc đề cập trong phần thống kê mô tả Ở đây, thống kê suy diễn sẽ diễn tả khoảng tin cậy 95% CI của giá trị trung bình hoặc trung vị trên biểu đồ
Thao tác lệnh:
Graph
Multiple variables graph
Tùy chọn:
Variables: chọn biến định lƣợng HATT
Graphs: chọn kiểu biểu đồ Bars:
for means: biểu thị giá trị trung bình for medians: biểu thị trung vị
Error bars: chọn 95% CI for mean (hoặc for median)
Trang 29Nhấn OK để kết thúc
Mean (error bars: 95% CI for mean)
0 20 40 60 80 100 120
- Cạnh trên của hộp: giá trị trung bình
- Hai đường gạch ngang: khoảng tin cậy 95%CI của giá trị trung bình
Trang 30Chương 5 THỐNG KÊ SO SÁNH
Thống kê so sánh là loại thống kê được ứng dụng rộng rãi trong y học, nhằm so sánh một mẫu này với một mẫu hoặc nhiều mẫu khác, so sánh một mẫu nghiên cứu với một chuẩn, nghiên cứu những mối tương quan giữa các mẫu
Thống kê so sánh sử dụng các test thống kê tùy theo từng kiểu mô hình nghiên cứu Việc lựa chọn các test thống kê phải dựa vào các điều kiện khá chặt chẽ Phần này sẽ lần lượt giới thiệu các test thống kê thường được sử dụng trong nghiên cứu y học
Để lựa chọn một test so sánh thích hợp, phải dựa vào các yếu tố sau:
- Loại biến số khảo sát: định tính hai giá trị, hoặc định danh nhiều giá trị, hoặc định tính có
thứ bậc, hoặc định lượng
- Số nhóm khảo sát:
+ Một nhóm: nhằm so sánh giá trị đặc trưng của mẫu khảo sát với một giá trị đã có
+ Nhiều nhóm (≥ 2 nhóm): có hai tình huống sau:
(1) Các nhóm do một biến định tính tạo ra Ví dụ biến giới phân ra nhóm nam và nữ
(2) Mỗi nhóm tương ứng với một biến Ví dụ: để so sánh tỉ lệ nhiễm giun trước và sau khi
dùng thuốc xổ giun, ta lập 2 biến nhiễm giun trước điều trị và nhiễm giun sau điều trị
- Tính chất của mẫu khảo sát:
+ Mẫu độc lập: Hai hay nhiều mẫu khảo sát độc lập với nhau, giá trị của mỗi cá thể của mẫu này không có mối liên hệ đặc biệt nào với những cá thể của mẫu khác
+ Mẫu phụ thuộc: gồm có 2 biến: biến độc lập và biến phụ thuộc
Biến độc lập: Là biến để mô tả hoặc đo lường các yếu tố mà người nghiên cứu cho rằng nó
là nguyên nhân hoặc là yếu tố ảnh hưởng đến các vấn đề đang được nghiên cứu Biến độ lập là yếu
tố "nhân", biến này không phụ thuộc vào sự biến đổi của yếu tố "quả"
Biến phụ thuộc: là biến được sử dụng để mô tả hoặc đo lường các vấn đề nghiên cứu
Ví dụ: Nghiên cứu mối liên quan giữa hút thuốc lá và ung thư phổi thì khoảng thời gian hút thuốc lá và số điều thuốc lá hút mỗi ngày là biến độc lập, trong khi đó ung thư phổi là biến phụ thuộc
Dùng các test này để khẳng định sự khác biệt giữa các tỉ lệ quan sát được có ý nghĩa thống
kê hay không (đối với bảng phân phối tần số một chiều) hoặc sự liên quan giữa các đặc tính định tính có ý nghĩa thống kê hay không (đối với bảng phân phối tần số 2 chiều)
TEST CHI BÌNH PHƯƠNG (χ2
)
Điều kiện: Test χ 2
là một test phi tham số rất thông dụng để so sánh 2 hay nhiều tỉ lệ của 2
hay nhiều nhóm độc lập (các nhóm độc lập do một biến định tính phân ra) Điều kiện để có thể sử
Trang 31dụng test là các tần số lý thuyết phải > 4
Yêu cầu thiết kế: gồm một hoặc hai biến định tính
Thao tác lệnh:
Statistics
Categorical data
Frequency table & Chi-square test
Ví dụ: So sánh tỉ lệ tăng huyết áp ở nhóm có và không có rối loạn lipid máu
Hai nhóm này độc lập với nhau do một biến địnhh tính tạo ra Vì vậy ta sử dụng test χ2
Trang 32Codes X Codes Y 0 (không) 1 (THA )
740
Điều kiện: Hai nhóm khảo sát có quan hệ cặp đôi với nhau
Yêu cầu thiết kế: gồm 2 biến định tính là biến nhị phân và có mối quan hệ bắt cặp với nhau Thao tác lệnh:
Statistics
Trang 33Hai nhóm xuất huyết trước điều trị và xuất huyết sau điều trị có quan hệ cặp đôi với nhau
Vì vậy sử dụng test Mc Nemar để kiểm định sự khác biệt giữa 2 tỉ lệ đó
Thực hiện các thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:
Nhấn OK để kết thúc
Classification A Xuat_huyet_truoc_DT Classification B Xuat_huyet_sau_DT
Trang 34Bảng 5.1 Lựa chọn test thống kê so sánh các tỉ lệ
Số nhóm
khảo sát
Số giá trị của biến khảo sát
Tính chất nhóm khảo sát
Tính chất phân phối
5.2 Test khảo sát mức độ liên quan giữa các biến định tính
Các test χ 2, Fisher, Mc Nemar chỉ cho biết có hay không sự liên quan giữa các biến định tính
mà không thể hiện được mức độ (hay độ mạnh) của mối liên quan đó Để diễn tả mức độ mạnh của các mối liên quan ta sử dụng tỉ suất chênh (OR) và nguy cơ tương đối (RR)
TỈ SUẤT CHÊNH (OR)
Tỉ suất chênh (Odd ratio) đo lường mối liên quan giữa 2 biến nhị phân có cân nhắc tới mức
độ mạnh yếu của mối liên quan đó Trong nghiên cứu sinh y học, tỉ suất chênh cũng dùng để đánh giá mối liên quan giữa yếu tố phơi nhiễm và bệnh
Tỉ suất chênh sử dụng cho nghiên cứu bệnh chứng, nghiên cứu cắt ngang sử dụng tỉ lệ
Trang 35Nhấn nút Test để kết thúc (hoặc Enter)
Kết quả: OR=4,52, có nghĩa là ở nhóm phơi nhiễm với yếu tố nguy cơ, tỉ lệ bệnh cao gấp 4,52 lần so với nhóm không phơi nhiễm, sự chênh lệch là đáng tin cậy (p<0,01)
Ghi chú: nếu p >0,05 sự liên quan không có ý nghĩa thống kê (dù OR lớn hay nhỏ)
NGUY CƠ TƯƠNG ĐỐI (RR)
Nguy cơ tương đối (Relative Risk) đo lường mối liên quan giữa 2 biến nhị phân có cân nhắc
tới mức độ mạnh yếu của mối liên quan đó Trong nghiên cứu sinh y học, RR đư ợc dùng để đánh giá độ mạnh của mối liên quan giữa yếu tố phơi nhiễm và bệnh Nó nói lên khả năng phát triển bệnh
ở nhóm có phơi nhiễm so với nhóm không phơi nhiễm với yếu tố nguy cơ
Sử dụng cho nghiên cứu thuần tập (nghiên cứu tương lai)
Yêu cầu thiết kế: được tính trực tiếp từ bảng 2 x 2
Ví dụ: Theo dõi bệnh mạch vành ở hai nhóm người: nhóm hút thuốc lá và nhóm không hút thuốc lá Theo dõi liên tục trong 3 năm, thu được kết quả như sau
Trang 36Nhấn nút Test để kết thúc (hoặc Enter)
Kết quả: Tỉ số nguy cơ RR=1,82, có nghĩa nguy cơ bệnh mạch vành ở nhóm hút thuốc lá cao gấp 1,82 lần so với nhóm không hút thuốc lá Sự khác biệt có ý nghĩa thống kê (p=0,0002)
Ghi chú: nếu p >0,05 sự liên quan không có ý nghĩa thống kê (dù RR lớn hay nhỏ)
Bảng 5.2 Diễn giải ý nghĩa của OR và RR
OR>1 Khả năng mắc bệnh cao hơn khả
năng không mắc bệnh
RR>1 Yếu tố phơi nhiễm làm tăng khả năng
mắc bệnh OR=1 Khả năng mắc bệnh bằng khả năng
không mắc bệnh
RR=1 Không có mối liên hệ nào giữa yếu tố
phơi nhiễm và khả năng mắc bệnh OR<1 Khả năng mắc bệnh thấp hơn khả
Yêu cầu của thiết kế: Cần phân rõ hai đối tượng A và B (hai cán bộ hoặc 2 phương pháp khác nhau cần đối chiếu) và 2 dạng thức: có bệnh hoặc không bệnh, bệnh nặng hoặc bệnh nhẹ Không yêu cầu cần phải có tiêu chuẩn vàng
Trang 370.81 - 1.00 Hầu nhƣ hoàn toàn
Ví dụ: K hảo sát mức độ phù hợp giữa chẩn đoán lâm sàng và siêu âm ruột thừa viêm
(+) (-)
(Mã hóa: 0=âm tính; 1=dương tính)
Ghi chú: các giá trị mã hóa của 2 biến tính phải giống nhau Chẳng hạn biến thứ nhất mã hóa: 1, 2, 3 thì biến thứ hai cũng phải mã hóa: 1, 2, 3 (mã hóa nhƣ sau sẽ không sẽ cho kết quả sai:
Data for observer A: Chọn biến định tính thứ nhất
Data for observer B : Chọn biến định tính thứ hai
Weighted Kappa: chọn test Kappa
Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:
Nhấn OK để kết thúc:
Observer A chandoanLS
Trang 38Observer B sieuam