Bộ môn Thống kê - Tin học Trường ĐH Y tế Công Cộng 1 Nghiên c u 1 ứ Một số nhà khoa học muốn đánh giá tác động của phòng ngừa bệnh lây truyền qua đường tình dục lên tỉ lệ mắc mới của H
Trang 1Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
1
Nghiên c u 1 ứ
Một số nhà khoa học muốn đánh giá tác động của phòng ngừa bệnh lây
truyền qua đường tình dục lên tỉ lệ
mắc mới của HIV ở Mwanza, Tanzania Một điều tra nền được tiến hành ở 12
xã về tỉ lệ hiện nhiễm của HIV.
Trang 2Nghiên c u 2 ứ
Tất cả những phụ nữ có HIV dương (từ 15
tuổi trở lên) được người điều tra phỏng vấn bằng một bộ câu hỏi chuẩn về các yếu tố
nguy cơ của HIV Ngoài việc hỏi những
người phụ nữ có HIV dương, người ta cũng chọn ngẫu nhiên một số người phụ nữ HIV
âm từ danh sách dân số được chuẩn bị khi tiến hành điều tra Những phụ này sẽ được nhân viên điều tra thăm viếng và nếu có thể
sẽ phỏng vấn.
Trang 3B môn Th ng kê - Tin h c Tr ộ ố ọ ườ ng ĐH Y
t Công C ng ế ộ 3
Qu n lý s li u ả ố ệ
Lê Thị Kim Ánh
BM Thống kê - Tin học
Trang 5Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 6Nghiên c u ch n th ứ ấ ươ ng
Mẫu nghiên cứu đại diện cho toàn
quốc
Nghiên cứu nhiều loại chấn thương
Sử dụng bộ câu hỏi tự điền
Chọn các chấn thương liên quan
đến giao thông
Trang 7Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
7
Các bi n s ế ố
Biến dân số - xã hội: tuổi, giới, vùng, học vấn, nghề nghiệp
Biến về CTGT: loại phương tiện
Biến về hậu quả CTGT: vị trí
chấn thương, số ngày nằm
viện, chất lượng cuộc sống
Trang 8Đi u tra ch n th ề ấ ươ ng giao thông qu c gia năm 2003 ố
Mã hộ: _ _ _ _ _ _ _ _
Vùng :
Ngày phỏng vấn: _
Thông tin về người trả lời
1 Anh/chị bao nhiêu tuổi (tính tròn năm)?
2 Anh/chị là nam hay nữ (khoanh vào lựa chọn phù hợp)?
3 Anh/chị sống ở đâu? (Khoanh vào lựa chọn phù hợp)
Thành phố Nông thôn
4 Anh/chị đã học đến lớp mấy (Khoanh vào lựa chọn phù hợp)?
Không đi học Tiểu học Dưới THCS Trên THCSHọc nghề Đại học Trên đại học Trẻ nhỏ
5 Anh/chị làm nghề gì (Khoanh vào lựa chọn phù hợp)?
Làm ruộng CBCNVC Buôn bán nhỏ Làm chủHọc sinh Nghề thủ công Nghỉ hưu Mất sứcThất nghiệp Trẻ nhỏ Other
Trang 9Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
9
B ướ c 1
MÃ HOÁ SỐ LIỆU
Trang 10Mã hoá s li u ố ệ
Là quá trình chuyển đổi các
số liệu thu thập được (vd từ
các bộ câu hỏi) thành các
dạng dữ kiện phù hợp với các
phần mềm phân tích thống kê
(v.d SPSS)
Trang 11Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
bị trước cho các mã khác nhau
Trang 13Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 145 = Ven biển miền Trung
6 = Cao Nguyên trung bộ
Trang 15Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 16Quá trình mã hoá
Nội dung từ bộ câu hỏi Dữ kiện số/chữ để nhập liệu
Trang 17Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 18Nh p s li u ậ ố ệ
Nhập số liệu sử dụng các phần mềm phân tích thống kê ví dụ: SPSS
Câu trả lời của đối tượng được nhập vào từng ô của tệp số liệu
1 ô = 1 trả lời
Trang 19Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 21Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
21
Địa chỉ hòm thư của bạn là bao nhiêu? _4350 _
Bạn là (khoanh tròn)
Nam Nữ (ghi chú: hỏi về giới tính)
Bạn có sẵn lòng trả lời hết bộ câu hỏi này không?
Nếu có, bắt đầu bằng câu 1, nếu không thì cảm ơn người trả lời và kết thúc
Câu 1:
Tôi luôn chủ động trong quá trình ra quyết định
Rất đồng ý Đồng ý Bình thường Không đồng ý Rất không đồng ý
Trang 22idnumber postcode age gender refused quest1
Trang 23Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 24Gán nhãn và g n giá tr cho b s li u ắ ị ộ ố ệ
Chú ý: Type, Width, Label, Missing và
Values
Gán nhãn: Label (tên của biến số)
Gắn giá trị: Values (các giá trị của biến
số)
1 Các giá trị này đã được mã hoá trước khi
nhập
2 Gắn vào các số đã nhập để có được
Trang 25Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 27Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
27
Quá trình nh p li u ậ ệ
1
2 3
4 5
thống kê
Bộ số liệu (data)
Trang 28B ướ c 3
LÀM SẠCH SỐ LIỆU
Trang 29Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
29
B s li u ộ ố ệ
Sản phẩm sau khi nhập liệu là bộ số liệu
Bộ số liệu có thể bị lỗi do:
Mã hoá (nhà nghiên cứu)
Nhập số liệu (nhà nghiên cứu)
Tính thống nhất (người trả lời)
Trước khi phân tích, phải làm sạch
số liệu
Trang 31Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
1 Xem toàn bộ số liệu bằng bảng grid
2 Dùng mô tả số tối đa, tối thiểu
3 Dùng histogram
Trang 32idnumber postcode age gender refused bp_sys
Trang 33Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
33
Sai s do mã hoá ố
Sai số mã hoá thể hiện trong bảng phân phối tần số
Trang 35Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 36Dùng histogram
Xem phân phối của biến số
Có thể vẽ đường cong phân phối bình thường
N = 1,721
Trang 37Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Nhập 2 lần, kiểm tra kết quả
Kiểm tra ngẫu nhiên 10 – 20% số
liệu
Trang 39Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
39
DATA SHEET idnumber postcode age gender refused quest1
Tôi luôn chủ động trong quá trình ra quyết định
Rất đồng ý Đồng ý Bình thường Không đồng ý Rất không đồng ý
Trang 40 S ửa chữa số liệu trong tệp 1
Ph ù hợp với bộ số liệu nhỏ/vừa
Trang 41Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
41
DATA SHEET 2 idnumber postcode age gender refused quest1
DATA SHEET 1 idnumber postcode age gender refused quest1
Tôi luôn chủ động trong quá trình ra quyết định
Rất đồng ý Đồng ý Bình thường Không đồng ý Rất không đồng ý
Trang 42 N ếu phát hiện có sự khác biệt, so sánh với số liệu gốc
S ửa chữa số liệu trong tệp 1
Ph ù hợp với bộ số liệu lớn
Trang 43Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 44Tốt nhất là có 2 người nhập
cùng một số liệu.
Tại sao không dùng 1 người
nhập số liệu 2 lần?
Trang 45Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
45
Ki m tra tính đ ng nh t ể ồ ấ
Các câu trả lời không đồng nhất trong nằm trong tệp số liệu.
So sánh câu trả lời với bộ câu
hỏi/công cụ thu thập số liệu.
số liệu không đồng nhất có thể do mã hoá sai, lỗi đánh máy, hoặc trả lời sai
Trang 47Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Trang 48T i sao đ ạ ượ c phát hi n? ệ
tần số
Vd: tỷ lệ có mang cao hơn dự tính
tỷ lệ học đại học cao hơn cấp 3
Vd: tuổi của đối tượng có giá trị âm
Trang 49Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
49
S a ch a ử ữ
Dùng select cases trong data để liệt kê những trường hợp không nhất quán
Kiểm tra mã hoá
Kiểm tra trên bộ số liệu gốc
Trang 50Ví dụ
Phân tích trẻ nhỏ dưới 6 tuổi, có trường hợp học vấn là “cấp 2” Tại sao?
Xem lại bảng mã hoá, “cấp 2” = 3
Trang 51Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
51
Chúng ta nên làm th nào…?? ế
Ghi ch ép lại toàn bộ các mã đã dùng
Trang 52thiểu lỗi hoặc sự không thống nhất
Trang 53Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
53
Th c hành ự
Thực hiện bảng phân phối tần
suất để kiểm tra kết quả
Nhận diện các kết quả bất
thường (nếu có)
Sửa chữa các kết quả này
Trang 54B ướ c 4
TẠO BIẾN MỚI
Trang 55Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
55
Khi nào c n t o các bi n m i? ầ ạ ế ớ
Khi câu hỏi nghiên cứu (phân tích)
không dựa trên những số liệu có sẵn
Trang 56C n t o ra các bi n m i ầ ạ ế ớ
Biến đã có: tuổi (biến định lượng)
Biến cần: nhóm tuổi (biến định tính)
Trang 57Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
Mã hoá các biến số mới
Mã hoá lại các biến đã có
Trang 59Bộ môn Thống kê - Tin họ
c Trường ĐH Y tế Công Cộng
59
Tóm t t (tt) ắ
Quá trình nghiên cứu bao gồm
Thiết kế nghiên cứu
Thu thập số liệu
Chuẩn bị và quản lý số liệu
Phân tích và phiên giải
Trang 60Tóm t t (tt) ắ
Trước khi phân tích số liệu, cần thực hiện quá trình chuẩn bị và quản lý số liệu
Quản lý số liệu để kiểm tra tính chính xác và đầy đủ của số liệu
Bao gồm:
Mã hoá số liệu
Nhập liệu
Làm sạch số liệu