Nguyễn Văn Tuấn Garvan Ins)tute of Medical Research, Australia University of Technology Sydney (UTS) and UNSW Australia Ton Duc Thang University, Vietnam TDTU Machine Learning Workshop 3/1/2017 – 12/1/2017 © Tuan V Nguyen Dữ liệu gốc (thơ) Data: Likert scale • Likert scale: dùng để đánh giá mức độ đồng thuận của một phát biểu / sự kiện Mức độ mà bạn đồng ý hay khơng đồng như với phát biểu sau đây: ☐ Rất đồng ý ☐ Đồng ý ☐ Trung dung ☐ Khơng đồng ý ☐ Rất khơng đồng ý Dữ liệu (data) • Dữ liệu khoa học là vàng, là kim cương • Một phần rất quan trọng của nghiên cứu khoa học • Là chứng từ của nghiên cứu • Có thể sử dụng nhiều lần sau này • Có thể phải chia sẻ với đồng nghiệp quốc tế (data sharing) • Ý nghĩa đạo đức khoa học Hai loại liệu • Bản gốc (giấy) • Bản điện tử • (Có thể kể đến một số output) Phần mềm để lưu trữ liệu điện tử • Microsow Access • Epi Info • Excel • Oracle Có khi nhập dữ liệu 2 lần Ngun tắc chuẩn bị liệu cho phân tích • Ngun tắc 1: Dịng và cột (dịng là quan sát, cột là biến số) • Ngun tắc 2: Mỗi biến là mỗi cột • Ngun tắc 3: Tất cả cột phải có số liệu, kể cả missing data • Ngun tắc 4: Nhập dữ liệu gốc, khơng phải |nh tốn • Ngun tắc 5: Dữ liệu trống (missing data) phải được mã hố thích hợp Ngun tắc 1: dịng = observation, cột=variable • Tất cả các chương trình máy |nh dùng cho phân |ch đều dùng dữ liệu theo dạng tabular hay ma trận (dịng và cột) • Với các dữ liệu điều tra, cột thường thể hiện một biến đơn hay một câu hỏi, dịng thể hiện id của đối tượng Id Age Gender Service employed Case 1 27 Case 2 19 2 Case 3 24 Nguyên tắc 2: biến cột Nguyên tắc 3: Cột phải có số liệu! Khi có nhiều files • Nếu có nhiều file, khơng nên dựa vào tên của file để lưu trữ thơng )n • Thay vì dùng nhiều files, có thể chỉ cần thêm cột để chỉ thơng )n mới SubjID Time Response HeartRate ADJ 183 120 ADJ 177 115 ADJ 192 101 BDR 186 112 BDR 183 115 BDR 169 135 Dữ liệu polytomous Nếu dữ liệu có nhiều nhóm hay classes, khơng bao giờ giảm xuống phần trăm hay tỉ lệ, mà phải nhập dữ liệu gốc: 61- Ấn tượng -08 62- Ấn tượng -09 1 0 63- Ấn tượng -10 0 1 0 0 1 1 1 0 0 64- Ngành học 0 Điện - Điện tử 1 Điện - Điện tử 0 Điện - Điện tử Kỹ thuật Điện - 0 Điện tử 0 Điện - Điện tử 0 Điện - Điện tử 0 0 0 Điện tử 0 điện 67- Lý do 68- Lý do chọn 65- Lý do 66- Lý do chọn chọn chọn ngành:tri ngành:tri 69- Lý do 70- Lý do 71- Lý do 72- Lý do 73- Lý do 74- Lý do chọn chọn chọn chọn chọn ngành- ngành- ển vọng ển vọng chọn ngành-0 ngành-0 ngành-0 ngành-0 ngành-0 ngành-1 Dư Dư thu thu luận-01 luận-02 nhập-03 nhập-04 1 0 0 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 1 1 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 Ngun tắc 3: Nhập liệu gốc • Khơng nhập tỉ lệ, mà chỉ nhập tử số và mẫu số • Tử số và mẫu số cần phải có cột riêng để dễ |nh tốn Ngun tắc 5: Missing data phải mã hố • Tất cả các cột phải có cùng số dịng (kể cả missing data (số khống) • Dùng "blank space" hoặc "." hoặc "NA" để chỉ missing data - Tuyệt đối khơng dùng 0 hay 999 cho missing data! Tạo liệu: điều quan trọng cần biết • Khơng dùng header, trailer, subtotals, hay những thơng )n "ngoại biên" • Tên biến số có ý nghĩa và dễ đọc Nguồn dữ liệu Năm 2015 2014 2015 2015 2015 2015 2014 2015 2015 2015 2014 2015 2014 2014 XET NGHIEM phiếu thu XN XN sinh sinh XN glucoz Máu STT Số BA hóa hóa sinh HbA1c a máu lắng phiếu bệnh hóa án thu 38 1 166 202 2 0 289 5 1 382 -99 409 4 0 460 1 1 167 478 -99 3 -99 -99 568 1 0 613 2 1 629 2 1 168 691 2 1 759 1 169 871 1 1 170 949 1 0 phiếu thu XN XN XN huyết huyết XN Định test procal Khí đường anti HBsA Crosshọc huyết nhóm coom citoni học máu giấy HCV g Matc máu bs n phiếu bệnh học h án thu 1 1 1 3 0 1 3 1 1 0 1 0 5 1 2 2 0 1 0 2 1 1 0 1 0 5 0 1 0 1 1 4 4 0 1 0 3 0 1 2 3 0 1 0 2 0 1 2 Chuẩn bị liệu tốn thời gian Qui luật chung: • 90% chuẩn bị dữ liệu • 10% phân |ch Phải hết sức cẩn thận với dữ liệu! Áp dụng qui tắc phịng lab • Qui tắc lab: Có sổ ghi dữ liệu (red book) • Mỗi khi thay đổi số liệu, phải có ghi chú và giải thích • Trong phân |ch dữ liệu cũng có qui tắc – Tất cả sửa đổi phải có chú thích + giải thích + kí tên – Mã hố (coding) phải có chú |ch – Dùng LabArchive (nếu có) Tóm lại: ngun tắc • Ngun tắc 1: Dịng và cột (dịng là quan sát, cột là biến số) • Ngun tắc 2: Mỗi biến là mỗi cột • Ngun tắc 3: Tất cả cột phải có số liệu, kể cả missing data • Ngun tắc 4: Nhập dữ liệu gốc, khơng phải |nh tốn • Ngun tắc 5: Dữ liệu trống (missing data) phải được mã hố thích hợp ... biểu sau đây: ☐ Rất đồng ý ☐ Đồng ý ☐ Trung dung ☐ Khơng đồng ý ☐ Rất khơng đồng ý Dữ li? ??u (data) • Dữ li? ??u khoa học là vàng, là kim cương • Một phần rất quan trọng của nghiên cứu khoa học • Là chứng từ của nghiên cứu... 2 Chuẩn bị li? ??u tốn thời gian Qui luật chung: • 90% chuẩn bị dữ li? ??u • 10% phân |ch Phải hết sức cẩn thận với dữ li? ??u! Áp dụng qui tắc phịng lab • Qui tắc lab: Có sổ ghi dữ li? ??u (red book)... Ý nghĩa đạo đức khoa học Hai loại li? ??u • Bản gốc (giấy) • Bản điện tử • (Có thể kể đến một số output) Phần mềm để lưu trữ li? ??u điện tử • Microsow Access • Epi Info • Excel • Oracle Có khi nhập dữ li? ??u 2 lần