Nhập số liệu nghiên cứu
Nhập số liệu nghiên cứu Nguyễn Văn Tuấn Nguyễn Đình Nguyên Các thông số trong dữ liệu • Các ký hiệu nhận dạng: số mã nghiên cứu, số thứ tự, các mã số xét nghiệm. • Biến phụ thuộc chính: Yếu tố kết cục được đặc ra trong thiết kế nghiên cứu. • Các biến phụ thuộc thứ yếu: Cũng là các yếu tố kết cục cần quan tâm nhưng không phải là yếu tố chính. • Các yếu tố dự đoán hay là yếu tố nguy cơ. Ký hiệu nhận dạng • Cần phải có một mã số nhận dạng duy nhất cho mỗi bệnh nhân, nhất là khi có nhiều bảng số liệu cho cùng một nghiên cứu. • Chỉ nên sử dụng mã bằng số. • Mã số nhận dạng phải dưới dạng “mã” để không tiết lộ chi tiết bệnh nhân để có thể nhận dạng. • Hồ sơ chi tiết liên hệ với cá nhân bệnh nhân (tên, địa chỉ, số điện thoại…) không để cùng trong dữ liệu dùng để phân tích; vì có thể phải trao đổi số liệu với đồng nghiệp. Ký hiệu nhận dạng: ví dụ Hồ sơ dùng để phân tích id gioitinh noio vung 1 nam rach gia 2 nu ba ria 3 nam soc trang Hồ sơ dùng để theo dõi id gioitinh ho ten diachi dienthoai 1 nam nguyen A thon 2 ap 4 xa… 894347 2 nu tran B so 3 duong… 439845 3 nam phan C ap 5 xa… 945709 Cần tách biệt với Dữ liệu phân tích • Bất luận dữ liệu để phân tích là kết cục (outcome) hay là yếu tố nguy cơ, dự đoán đều có thể sắp xếp thành hai nhóm số liệu chính: – Biến số liên tục (huyết áp, chiều cao, cân nặng, tuổi, cholesterol…) – Biến số rời rạc: gồm biến số nhị phân (có, không) biến số phân nhóm theo định tính (tốt, vừa, xấu) Dữ liệu phân tích 1. Dữ liệu phân tích phải được nghiên cứu kỹ lưỡng trước khi bắt tay vào thu thập số liệu đầu tiên. 2. Các dữ liệu sau khi đã thu thập phải được lưu trữ trong dạng bảng vi tính hóa, tùy theo quy mô của nghiên cứu (micro- access, hoặc với số liệu nhỏ, đơn giản và hiệu quả là file xcel) 3. Mã số của dữ liệu nên thiết kế trước từ khi lập bộ câu hỏi nghiên cứu và để đi kèm với bộ câu hỏi nghiên cứu. 4. Cần nhập số liệu mới thu thập được sớm để có thể nhận dạng các yếu tố bất hợp lý phát sinh trong quá trình mã hóa và nhập dữ liệu. 5. Kiểm tra chéo số liệu đã nhập, đảm bảo chính xác trước khi bắt tay vào phân tích. 6. Cần phải có những phân tích nhanh (interim) tạm thời để xem số liệu thu thập được có tin cậy và hợp lý không. Nghiên cứu kỹ số liệu trước • Tham khảo y văn về chủ đề liên quan, xem cách thức thu thập số liệu như thế nào, cách trình bày số liệu như thế nào. • Thí dụ: Tuổi: trẻ nhỏ dưới 5 tuổi, tính bằng tháng, từ 5 tuổi trở lên tính bằng năm cho đến ngày thu thập số liệu. • Do đó “khôn ngoan” nhất là nên hỏi ngày tháng năm sinh của đối tượng chứ không nên hỏi bao nhiêu tuổi là cách để giảm thiểu sai số qua nhiều giai đoạn. • Và khi đó ngày ghi nhận số liệu (ngày phỏng vấn, hoặc ngày xuất hiện bệnh, hoặc ngày chết…) có khi là một dữ kiện “phụ” nhưng lại đóng một vai trò quan trọng phải để vào trong bộ câu hỏi thu thập số liệu. Ghi nhận và nhập số liệu • Các số liệu ghi nhận và nhập luôn luôn phải giữ ở dạng số liệu thô, như trong bộ câu hỏi. • Không nhập số liệu cần phải thông qua quá trình tính toán vào trong bảng dữ liệu gốc. Thí dụ: chỉ số trọng lượng cơ thể (BMI) là được ước tính là cân nặng (kg)/ chiều cao bình phương (m 2) , do đó chỉ nhập số liệu cân nặng (kg) và chiều cao (cm); BMI sẽ được ước tính sau, chứ không nên tính BMI rồi nhập vào bảng số liệu để đảm bảo tính nhất quán trong tính toán tránh error và bias. Dữ kiện cần thu thập và lưu trữ id ngaysinh (1) ngaychet (2) ngaypvan (3) phatbenh (4) 1 03/11/82 12/03/07 12/07/06 04/01/07 2 09/02/80 12/05/07 12/06/06 05/02/07 3 23/04/90 05/06/06 4 05/03/91 18/10/06 14/07/06 Số liệu thu thập và nhập bảng lưu trữ id phantich (5) tuoi (6) chet (7) benh (8) tgtheodoi (7) 1 30/06/07 (3) - (1) 1 1 (4) - (3) 2 30/06/07 (3) - (1) 1 1 (4) - (3) 3 30/06/07 (3) - (1) 0 0 (5) - (3) 4 30/06/07 (3) - (1) 1 0 (2) – (3) Số liệu tính toán Ví dụ thực hành trên R Hồ sơ dữ liệu “hoso” save ở dạng file hoso.csv, các trường ngày tháng được định dạng trong cvs là “yyyy-mm-dd” (tức là năm-tháng-ngày) Để đọc dữ liệu hoso này trên R thì dùng lệnh ‘read.csv’ như sau: hoso <- read.csv("C:/DOES/NGUYEN/LECTURES/VN Epi workshop 2007/Data/Kien Giang/hoso.csv", header=T, na.strings=‘NA') hoso id ngaysinh ngaychet ngaypvan phatbenh 1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 3 3 1990-04-23 2006-06-05 4 4 1991-03-05 2006-10-18 2006-07-14 #Kiem tra ngay thang library(date) is.date(hoso$ngaysinh) [1] FALSE # Định dạng lại ngảy tháng [...]... Tran Tuan 3/03/2001 sadec Nghiên cứu kỹ số liệu trước • Một ví dụ khác: Xác định chiều cao của đối tượng, nếu mô tả trong phương pháp là sai số đến 0.1cm thì khi thu thập số liệu nên lấy chỉ số đến 1 số thập phân (155.5cm) • Trong khi đó BMI thì được tính toán không có số thập phân, nên cần phải làm tròn số liệu • Cần cân nhắc mã hóa hoặc câu trả lời của đối tượng nghiên cứu phải phủ hết vùng (spectrum)... days 15 1 0 243 days Từ các thông số “thô” ban đâu, chúng ta có thể tính toán được các biến cần thiết dùng để phân tích mà không bị lỗi do quá trình nhập số liệu Tiêu đề, ‘text’ của bảng số liệu • Ngắn, không có dấu cách, dễ nhớ, dễ gõ bằng bàn phím, không có dấu tiếng việt, hạn chế chữ IN HOA • Hint: nên sử dụng ba chữ cái đầu hoặc hai chữ cái đầu và cuối – stt: số thứ tự – hatth: huyết áp tâm thu;... nên lưu bằng file đuôi ‘.csv’ Dùng lệnh: write.table(hoso,file="C:/duong dan/hosoluu.csv") Vài điểm quan trọng • Thiết kế bộ câu hỏi đi kèm với các mã cần thiết • Nhập toàn bộ số liệu thu thập được ngay vào hồ sơ điện tử, chỉ nhập các số liệu thô có trong bộ câu hỏi, không tính toán • Lưu file hồ sơ gốc bằng ‘.csv’ và luôn luôn phải có một file dự trữ • Nếu chưa quen, chỉ làm việc trên file copy Lời... nhóm, có thể đặt mã trước cùng với bộ câu hỏi Mã số nên đặt: cho biến nhị phân: không (0), và có (1) cho biến biểu thị mức độ: 0,1,2,3…tuỳ theo tình huống Nhưng không cần thiết Nhập số liệu thô, và có thể mã hoá lại sau Mã hoá số liệu hoso3 id gioitinh dausaumo 1 1 nam rat dau 2 2 nu dau it 3 3 nu khong dau 4 4 nam dau vua 5 5 nam rat dau hoso3$gioitinh.1 . thập số liệu. Ghi nhận và nhập số liệu • Các số liệu ghi nhận và nhập luôn luôn phải giữ ở dạng số liệu thô, như trong bộ câu hỏi. • Không nhập số. Nhập số liệu nghiên cứu Nguyễn Văn Tuấn Nguyễn Đình Nguyên Các thông số trong dữ liệu • Các ký hiệu nhận dạng: số mã nghiên cứu, số thứ