2.8.1 Kế hoạch phân tích dữ liệu
Hình 2.9 Tóm tắt kế hoạch phân tích dữ liệu
Kế hoạch phân tích dữ liệu gồm 2 phần, tương ứng với 2 mục tiêu trong nghiên cứu và ứng dụng thực tiễn của kết quả:
Phần thứ nhất (mục tiêu nghiên cứu 1 và 2): khảo sát tương quan giữa các thông số NO trong hơi thở và trong máu với độ nặng OSA. Phần này gồm có 3 bước:
Bước 1: Mô tả đặc điểm của dân số nghiên cứu: các biến số định tính được trình bày dưới dạng tần suất và tỷ lệ %; các biến liên tục được mô tả bằng trung bình ± độ lệch chuẩn nếu phân bố chuẩn, hoặc trung vị cùng bách phân vị thứ 5 và 95 (95% KTC).
Đặc tính phân bố của các biến định lượng quan trọng, cũng như khác biệt về phân bố giữa 2 phân nhóm độ nặng OSA được mô tả bằng biểu đồ mật độ xác suất (Kernel density plot).
Bước 2: So sánh trung bình của các biến định lượng giữa các nhóm OSA nhẹ/trung bình và OSA nặng bằng kiểm định T nếu thỏa phân bố chuẩn, hoặc giải pháp phi tham số Mann-Whitney U nếu không phân bố chuẩn; so sánh các biến định tính bằng kiểm định ꭓ2
Bước 3: Khảo sát mối tương quan giữa những thông số về NO trong hơi thở, và máu với độ nặng của OSA bằng hệ số tương quan rho của Spearman.
Đánh giá mối tương quan này độc lập bằng hồi quy đa biến.
Phần thứ 2 (ứng dụng thực tiễn của nghiên cứu) ứng dụng lâm sàng của các mối tương quan đã phân tích ở các bước trên.
Mục tiêu đặt ra là xây dựng và kiểm định một quy luật cho phép phát hiện/sàng lọc những trường hợp có nguy cơ cao mắc hội chứng OSA nặng, dựa vào giá trị của 16 thông số có thể thu thập một cách đơn giản trên lâm sàng: gồm 4 chỉ số nhân trắc (tuổi, BMI, chu vi vòng cổ, vòng bụng), điểm số bảng câu hỏi Epworth, huyết áp tâm thu/tâm trương, 3 thông số hô hấp ký (FEV1, FVC, FEV1/FVC) và nhóm 6 chỉ số liên quan đến NO trong khí thở ra. Do đó, chúng tôi sẽ sử dụng thuật toán thống kê mô hình cây quyết định.
Hình 2.10 Nguyên lý hoạt động của thuật toán cây quyết định
Chúng tôi sẽ lần lượt thử 2 mô hình dựa trên 2 bộ dữ liệu đầu vào khác nhau :
+ Mô hình A: Không sử dụng đến xét nghiệm NO.
+ Mô hình B: Có sử dụng thông số NO.
Mỗi mô hình sẽ được dựng trên cùng tập dữ liệu gồm 123 bệnh nhân.
Những quy luật chẩn đoán hình cây này sẽ được kiểm định một cách độc lập trên tập dữ liệu 30 bệnh nhân (tỉ lệ âm/dương tính là 50%).
Hiệu quả của mô hình sẽ được đánh giá dựa trên những tiêu chí sau:
Độ nhạy và độ đặc hiệu : Độ nhạy hay tỉ lệ dương tính thật, là tỉ lệ chẩn đoán đúng trên tổng số trường hợp mắc OSA nặng. Độ đặc hiệu hay tỉ lệ âm tính thật là tỉ lệ loại trừ chính xác trên tổng số bệnh nhân không bị OSA nặng.
Tỉ lệ dự báo chính xác đánh giá độ chính xác tổng quát của mô hình, được ước tính = (tỉ lệ dương thật + tỉ lệ âm thật)/2
Positive predictive value (PPV): giá trị tiên đoán dương = TP/(TP + FP) đo lường khả năng phát hiện các trường hợp OSA nặng của quy luật.
Negative predictive value (NPV) đo lường khả năng loại trừ chính xác của quy luật: NPV = TN/(TN+FN)
Tỉ số khả dĩ (Likelihood ratios): LR+ được xác định bằng độ nhạy (của test chẩn đoán) chia cho (1-độ đặc hiệu). LR- được tính bằng (1-độ nhạy) chia cho độ đặc hiệu. LR đo lường mức liên hệ giữa quy luật chẩn đoán vàbệnh lý OSA nặng. Khi LR+ càng cao (>1) cho thấy kết quả xét nghiệm dương tính có mối liên quan chặt chẽ với nguy cơ hiện diện của hội chứng OSA nặng.
Diện tích đường cong ROC được thực hiện trên thang đo xác suất dự báo của 2 quy luật A, B (mô hình cây có khả năng cho kết quả là xác suất mắc OSA nặng, với ngưỡng cắt cho chẩn đoán dương tính là >0,5).
2.8.2 Công cụ và phương pháp suy luận
Số liệu được nhập, mã hóa và làm sạch bằng phần mềm Microsoft Excel 2010.
Phân tích và xử lý số liệu thống kê được thực hiện bằng ngôn ngữ lập trình thống kê R.
Suy luận thống kê dựa vào phủ nhận giả thuyết vô hiệu, với ngưỡng ý nghĩa thống kê p < 0,05.