CÁCH HIỆU CHỈNH CÁC YẾU TỐ GÂY NHIỄU TRONG NGHIÊN CỨU Trong phân tích kết quả nghiên cứu, đặc biệt các nghiên cứu hồi cứu hoặc các nghiên cúu tiến cứu mà 2 nhóm không được phân bổ ngẫ
Trang 1CÁCH HIỆU CHỈNH CÁC YẾU TỐ GÂY NHIỄU TRONG NGHIÊN CỨU
Trong phân tích kết quả nghiên cứu, đặc biệt các nghiên cứu hồi cứu
hoặc các nghiên cúu tiến cứu mà 2 nhóm không được phân bổ ngẫu nhiên
(randomization) sẽ có nhiểu biến gây nhiễu (confounders) như giới, tuổi, độ
nặng của bệnh sẽ không được phân đều giữa 2 nhóm, do vậy khi phân tích
số liệu cần phải được hiệu chỉnh các yếu tố gây nhiễu này
Tùy theo biến kết cục (biến phụ thuộc) là biến số hoặc biến nhị phân ta sử
dụng các thuật thống kê khác nhau để hiệu chỉnh
1 Biến phụ thuộc là biến số:
Nếu biến phụ thuộc là biến số (lượng cholesterol máu chẳng hạn), sử
dụng phép phân tích hiệp biến (Analysis of covariance) trong mô hình tuyến
tính tổng quát (General linear model) để hiệu chỉnh Các ví dụ sau đây đều
dùng phần mềm SPSS 13.0 để thực hiện hiệu chỉnh
Ví dụ 1: Một nghiên cứu về lượng cholesterol máu ở đối tượng bị nhiễm viêm
gan virus C mạn tính và đối tượng không bị nhiễm Các dữ liệu thu thập
được như sau:
Doituong Gioi Tuoi Nhom Cholesterol Doituong Gioi Tuoi Nhom Cholesterol
Trang 221 1 46 0 4.3 51 2 41 1 3.8
Ghi chú: Giới 1 (Nam); 2 (Nữ)- Nhóm 0 (đối tượng không mắc viêm gan C); 1
(đối tượng mắc viêm gan C)
Nhập số liệu vào SPSS
Dùng phép kiểm T ta có:
Group Statistics
Kết quả phép kiểm T cho thấy :
-Có sự khác biệt về tuổi giữa 2 nhóm: 43.1 ± 3.3 so với 47.0 ± 5.3 (
p=0.001)
Trang 3- Không có sự khác biệt lượng cholesterol giữa 2 nhóm: 4.7 ± 0.6 so với 4.3 ± 0.7 (p=0.069)
Theo sinh học, nồng độ cholesterol tăng theo tuổi Trong nghiên cứu này, nhóm không nhiễm viêm gan C có tuổi trung bình nhỏ hơn (43.1 ± 3.3 so với 47.0 ± 5.3), vì vậy nếu không hiệu chỉnh theo tuổi thì sự so sánh này không hợp lý
Để hiệu chỉnh tuổi dùng phép phân tích hiệp biến (Analysis of covariance) trong SPSS như sau
Vào Menu>Analyze>General Linear Model>Univariate
Vào màn hình Univariate:
Trang 4Nhắp Cholesterol chuyển vào ô Dependent Variable
Nhắp Group (Viem gan c) chuyển vào ô Fixed Factor(s)
Nhắp Tuoi chuyển vào ô Covariate(s)
Nhấn vào nút Options, đánh dấu vào ô Descriptive statistics (Thống kê mô tả)
và ô Homogeneity tests để kiểm tra sự đồng nhất về phương sai giữa 2 nhóm, nhắp Continue
Cuối cùng nhấn OK, kết quả như sau :
Trang 5Kết quả test Levene với p=0.75 (>0.05) chấp nhận giả thuyết không phương sai giữa 2 nhóm không khác biệt hoặc 2 phương sai đồng nhất
Kiểm định sự khác biệt giữa 2 nhóm (đọc Group ở hàng 4) cho kết quả tổng bình phương cùa phương sai típ 3 là 3,080, với bậc tự do=1 và phương sai trung bình là 3,080, chia cho trung bình phương sai của phần dư (error) là 0,414, ta có F=7,440 và p=0,008 : Có sự khác biệt rõ lượng cholesterol giữa 2 nhóm với p=0.008
Nếu so sánh với phép kiểm T trên đây (khi chưa hiệu chỉnh) thì p=0.069
Kết luận : Sau khi đã hiệu chỉnh tuổi, nhóm đối tượng nhiễm viêm gan
virus C mạn tính có lượng cholesterol thấp hơn so với đối tượng không
bị nhiễm viêm gan virus C
2 Biến phụ thuộc là biến phân loại (nhị phân) :
Nếu biến kết cục (biến phụ thuộc) là biến nhị phân (chỉ có 2 trạng thái như sống-chết, có nhiễm trùng-không nhiẽm trùng ), sử dụng phép hồi qui logistic để hiệu chỉnh
Ví dụ 2: Một nghiên cứu về liên hệ giữa hạ đường máu và tử vong sơ sinh Các dữ liệu thu thập được như sau:
Trang 6Id gender weight hypoglycemia Death
Ghi chú: Weight : cân nặng (gam) ; hypoglycemia (1= có hạ đường; 0= không
hạ đường);
death (1: chết, 0=sống)
Trước hết thử dùng phép kiểm 2 cho 2 biến phân loại (death và hypoglycemia)
Vào menu: Analyze> Descriptive Statistics> Crosstabs
Trang 7Vào màn hình Crosstabs, nhắp death vào ô Row(s) và hypoglycemia vào ô Column(s)
Nhắp vào nút statistics, nhắp vào ô Chi-square (kiểm định chi bình phương) và
ô
Risk (tính odds ratio)
Trang 8Nhắp vào nút cells, chọn Observed trong ô Counts và Column trong ô Percentages
Nhắp Continue và cuối cùng nhắp OK
Trang 9
Risk Estimate
95% Confidence Interval
Odds Ratio for
death (0 / 1) 35.000 2.977 411.466
For cohort
hypoglycemia
= 0
2.545 1.036 6.256
For cohort
hypoglycemia
= 1
.073 010 531
N of Valid
Kết quả: Nhóm hạ đường máu, tỉ lệ tử vong là 5/6 (83,3%)
Nhóm không hạ đường, tỉ lệ tử vong là 3/24 (12,5%)
Tỉ lệ tử vong khác nhau giữa 2 nhóm có ý nghĩa thống kê với p=0,002 (Fisher’s Exact Test) và Odds Ratio= 35,0 (KTC 95% :2,9-411,4)
Như vậy nếu chưa hiệu chỉnh theo cân nặng (trẻ sơ sinh nhẹ cân) thì hạ đường máu có ý nghĩa tiên lượng tử vong trẻ sơ sinh :
Muốn hiệu chỉnh biến gây nhiễu này (trẻ nhẹ cân), sử dụng mô hình hồi qui logistic
như sau :
Vào menu: Analyze> Regression > Binary Logistic
Trang 10
Vào màn hình Logistic Regression, nhắp death chuyển vào ô dependent Nhắp lần lượt hypoglycemia và biến weight (cân nặng trẻ sơ sinh) chuyển vào
ô Covariate(s)
Trang 11Nhắp nút Options, Nhắp vào ô CI for exp (B) 95% (tính odds ratio và khoảng
tin cậy 95%)
Nhắp Continue sau đó nhắp OK, xem kết quả ở bảng cuối cùng (ý nghĩa của
-2 Log likelihood và test Hosmer- Lemeshow sẽ đề cập ở các bài khác)
Như vậy odds ratio của chết/sống ở trẻ sơ sinh có hạ đường máu là 115,70
(KTC 95% : 0,22- 58438,47) và p=0,135
Kết luận: Sau khi đã hiệu chỉnh theo cân nặng, yếu tố hạ đường máu
không có ý nghĩa tiên lượng tử vong ở trẻ sơ sinh
TS Nguyễn Ngọc Rạng, bsrang.blogspot.com
Tài liệu tham khảo:
1 Müllner M, Matthews H, Altman DG Reporting on statistical methods to
adjust for confounding: a cross-sectional survey Ann Intern Med
2002,136:122-6
2 Wuensch K.L Multivariate Analysis with SPSS, website:
http://core.ecu.edu/psyc/wuenschk/SPSS/SPSS-Lessons.htm