1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tổ chức dữ liệu

28 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 2,01 MB

Nội dung

Bài giảng Tổ chức dữ liệu; lưu trữ dữ liệu; dữ liệu gốc; phần mềm để lưu trữ dữ liệu điện tử; nguyên tắc chuẩn bị dữ liệu cho phân tích; dữ liệu polytomous...

Tuan V Nguyen Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích liệu ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V Nguyen Dữ liệu, thơng tin, tri thức • Data = liệu • Information = thơng tin • Knowledge = tri thức Dữ liệu Thông tin Tri thức Phân tích Bàn luận Dữ liệu vàng • Dữ liệu khoa học vàng • Cần phải trân q liệu • Dữ liệu phải lưu giữ 10 năm • Dữ liệu phải chia sẻ (khi yêu cầu) Lưu trữ liệu • Lưu trữ liệu vấn đề nan giải • Sắp xếp liệu thô (raw data) tốt giúp cho việc phân tích tiện lợi • Sắp xếp liệu khơng tốt làm tốn nhiều để chỉnh sửa Dữ liệu gốc (thô) Data: Likert scale • Likert scale: dùng để đánh giá mức độ đồng thuận phát biểu / kiện Mức độ mà bạn đồng ý hay không đồng với phát biểu sau đây: ☐ Rất đồng ý ☐ Đồng ý ☐ Trung dung ☐ Không đồng ý ☐ Rất khơng đồng ý Dữ liệu (data) • Dữ liệu khoa học vàng, kim cương • Một phần quan trọng nghiên cứu khoa học • Là chứng từ nghiên cứu • Có thể sử dụng nhiều lần sau • Có thể phải chia sẻ với đồng nghiệp quốc tế (data sharing) • Ý nghĩa đạo đức khoa học Hai loại liệu • Bản gốc (giấy) • Bản điện tử • (Có thể kể đến số output) Phần mềm để lưu trữ liệu điện tử • Microsoft Access • Epi Info • Excel • Oracle Có nhập liệu lần Nguyên tắc chuẩn bị liệu cho phân tích • Ngun tắc 1: Dòng cột (dòng quan sát, cột biến số) • Nguyên tắc 2: Mỗi biến cột • Nguyên tắc 3: Tất cột phải có số liệu, kể missing data • Ngun tắc 4: Nhập liệu gốc, khơng phải tính tốn • Nguyên tắc 5: Dữ liệu trống (missing data) phải mã hố thích hợp Khi có nhiều files • Nếu có nhiều file, khơng nên dựa vào tên file để lưu trữ thơng tin • Thay dùng nhiều files, cần thêm cột để thông tin SubjID Time Response HeartRate ADJ 183 120 ADJ 177 115 ADJ 192 101 BDR 186 112 BDR 183 115 BDR 169 135 Dữ liệu polytomous Nếu liệu có nhiều nhóm hay classes, khơng giảm xuống phần trăm hay tỉ lệ, mà phải nhập liệu gốc: 61- Ấn 62- Ấn 63- Ấn tượng - tượng - tượng 64- Ngành học 08 09 10 0 Điện - Điện tử 1 Điện - Điện tử 0 Điện - Điện tử Kỹ thuật Điện 1 Điện tử 0 Điện - Điện tử Điện - Điện tử 0 0 0 0 0 0 0 Điện tử 1 0 0 điện 67- Lý 68- Lý 65- Lý 66- Lý chọn chọn chọn chọn ngành:tri ngành:tri 69- Lý 70- Lý 71- Lý 72- Lý 73- Lý 74- Lý chọn chọn chọn chọn chọn ngành- ngành- ển vọng ển vọng chọn Dư luận- Dư luận- thu thu ngành- ngành- ngành- ngành- ngành- ngành01 02 06 07 08 09 10 nhập-03 nhập-04 05 1 0 0 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 1 1 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 Nguyên tắc 3: Nhập liệu gốc • Khơng nhập tỉ lệ, mà nhập tử số mẫu số • Tử số mẫu số cần phải có cột riêng để dễ tính tốn Ngun tắc 5: Missing data phải mã hố • Tất cột phải có số dịng (kể missing data (số khống) • Dùng "blank space" "." "NA" để missing data - Tuyệt đối không dùng hay 999 cho missing data! Tạo liệu: điều quan trọng cần biết • Không dùng header, trailer, subtotals, hay thông tin "ngoại biên" • Tên biến số có ý nghĩa dễ đọc XET NGHIEM Nguồn liệu Năm 2015 2014 2015 2015 2015 2015 2014 2015 2015 2015 2014 2015 2014 2014 phiếu thu XN sinh STT Số BA hóa phiếu thu 38 166 202 289 382 409 460 167 478 -99 568 613 629 168 691 759 169 871 170 949 XN XN sinh XN huyết glucoz Máu HbA1c hóa sinh học a máu lắng bệnh hóa phiếu án thu 1 2 0 5 1 -99 4 0 1 1 1 3 -99 -99 1 1 0 2 1 1 1 0 2 1 1 1 1 1 0 phiếu thu XN XN Định huyết XN Cross test procal Khí đườn anti HBsA nhóm coom citoni học huyết máu g giấy HCV g máu n bệnh học Matc bs án h 1 1 3 0 1 3 1 1 0 1 0 5 1 2 2 0 1 0 2 1 1 0 1 0 5 0 1 0 1 1 4 4 0 1 0 0 1 2 3 0 1 0 0 1 2 Chuẩn bị liệu tốn thời gian Qui luật chung: • 90% chuẩn bị liệu • 10% phân tích Phải cẩn thận với liệu! Áp dụng qui tắc phịng lab • Qui tắc lab: Có sổ ghi liệu (red book) • Mỗi thay đổi số liệu, phải có ghi giải thích • Trong phân tích liệu có qui tắc – Tất sửa đổi phải có thích + giải thích + kí tên – Mã hố (coding) phải có tích – Dùng LabArchive (nếu có) Tóm lại: ngun tắc • Ngun tắc 1: Dòng cột (dòng quan sát, cột biến số) • Nguyên tắc 2: Mỗi biến cột • Ngun tắc 3: Tất cột phải có số liệu, kể missing data • Nguyên tắc 4: Nhập liệu gốc, khơng phải tính tốn • Ngun tắc 5: Dữ liệu trống (missing data) phải mã hố thích hợp Đến phiên bạn Dữ liệu theo nhóm ID Nhóm WT BMD ID Nhóm WT BMD 101 102 A A 15 21 1.15 0.98 201 202 B B 15 1.50 1.21 103 104 105 A A A 11 25 0.97 1.10 1.06 203 B 31 204 B 21 205 B 29 Bạn thiết kế lại số liệu tiện206 cho phânBtích thống kê 1.09 1.15 1.25 Dữ liệu theo thời gian ID Nhóm Tuần Tuần 101 A 15 17 102 A 21 26 103 B 17 104 B 11 10 105 A 25 20 Bạn thiết kế lại số liệu tiện cho phân tích thống kê Tuần 29 31 21 18 Dữ liệu theo thời gian hai biến số id 37 39 age 20 32 27 29 22 50 20 21 23 sex Male Male Male Female Female Female Female Female Female wc1 101 88.5 97 93 86.5 96 84.5 88 87.5 wc2 97 89 93 94 88.5 102 88.5 90 85 wc3 95 87 90 90 84 96 82 88 83.5 wc4 94.5 85 88 85 82 90 80 82.5 78 wc5 94 84.5 87 84 81 92.5 79.5 81 75 hip1 95 89.5 90.5 89.5 83 95 79 85.5 80.5 hip2 hip3 95 89.5 88.5 87.5 80.4 94.6 82 86.5 80 hip4 hip5 93 90.5 90.5 88 86 85 88 86 85 87 80 80 79 78 76.5 90.5 92 91 78 76.5 77 83 80 79.5 75 77 73 Bạn thiết kế lại số liệu tiện cho phân tích thống kê .. .Dữ liệu, thơng tin, tri thức • Data = liệu • Information = thơng tin • Knowledge = tri thức Dữ liệu Thông tin Tri thức Phân tích Bàn luận Dữ liệu vàng • Dữ liệu khoa học vàng... khoa học vàng • Cần phải trân q liệu • Dữ liệu phải lưu giữ 10 năm • Dữ liệu phải chia sẻ (khi yêu cầu) Lưu trữ liệu • Lưu trữ liệu vấn đề nan giải • Sắp xếp liệu thô (raw data) tốt giúp cho... Tất cột phải có số liệu, kể missing data • Nguyên tắc 4: Nhập liệu gốc, khơng phải tính tốn • Ngun tắc 5: Dữ liệu trống (missing data) phải mã hố thích hợp Đến phiên bạn Dữ liệu theo nhóm ID

Ngày đăng: 24/10/2020, 00:15