Nguyễn Văn Tuấn Garvan Ins)tute of Medical Research, Australia University of Technology Sydney (UTS) and UNSW Australia Ton Duc Thang University, Vietnam TDTU Machine Learning Workshop 3/1/2017 – 12/1/2017 © Tuan V Nguyen Số liệu, số liệu, số liệu Garvanid age 10 27 28 33 34 36 37 38 40 41 42 47 49 51 53 56 57 58 60 61 62 64 65 gender 67.4 Female 68.5 Male 62.1 Female 64.6 Female 76.2 Female 74.1 Female 75.3 Female 62.2 Male 59.8 Female 66.4 Male 67.7 Male 65.1 Male 62.1 Female 72.5 Female 72.2 Female 68.7 Female 80.4 Male 69.3 Female 63 Male 60.9 Female 58.6 Female 59.8 Male 59 Female 71.5 Female 69.3 Male actn3 RX XX RR RX RX RX RR XX XX RR RX RR XX RX RR RX RR RX RR RX RX RX RR XX XX weight height 72 87 72 85 48 52 70 97 60 64 82 101 82 56 46 65 76 55 86 58 64 86 75 55 114 fnbmd 166 184 173 167 153 156 160 171 161 170 179 174 151 150 154 163 178 162 160 161 151 184 169 155 177 lsbmd 0.97 1.01 0.84 0.86 0.65 0.83 0.79 1.16 0.79 0.85 0.75 0.94 0.99 0.62 0.58 0.79 0.99 0.75 0.59 0.94 1.17 0.95 0.63 1.19 trbmd 1.33 1.49 1.21 1.07 0.87 0.85 1.19 1.44 0.91 1.12 1.07 1.22 1.42 0.75 0.79 1.28 1.23 0.73 1.49 0.76 0.94 1.46 1.05 0.94 1.38 wtbmd 0.85 0.87 0.62 0.78 0.5 0.71 0.7 1.16 0.61 0.83 0.96 0.88 0.96 0.56 0.49 0.8 0.99 0.52 0.5 0.73 1.1 0.64 0.57 1.25 lean 0.85 0.84 0.71 0.68 0.46 0.61 0.51 0.94 0.63 0.71 0.44 0.65 0.94 0.42 0.38 0.66 0.78 0.58 0.5 0.68 1.01 0.78 0.46 0.96 fat 32.61 quadstrengt h 18 36 14 27 20 22.35 22 31 35 30 41 45 22 12 19 18 26 30 32 21 46 26 46 Chromosom e start end promoter genes ensembl_ids 147_met 1 12990440 23656456 23656490 12990440 NO 23656456 NO 23656490 NO Slco5a1 ENSMUSG00 000025938 36828786 36828786 NO Tmem131 38210579 38210579 NO 38210636 163_met 164_met 165_met 173_met 205_met 243_met 244_met 245_met 41.1765 29.5455 43.1818 21.4286 48.7805 51.2195 26.9231 37.931 48.2759 32.1429 45.4545 42.8571 36.3636 33.3333 35.5556 22.7273 37.7778 42.2222 4.16667 7.69231 23.0769 4.16667 11.7647 21.5686 6.06061 15.1515 ENSMUSG00 000026116 40.7407 64.7059 66.6667 50 66.6667 71.4286 100 94.4444 100 Aff3 ENSMUSG00 000037138 51.4286 64.1026 50 52.6316 56 60.6061 3.57143 14.2857 38210636 NO Aff3 ENSMUSG00 000037138 66.6667 75 50 57.8947 52 60.6061 17.8571 6.89655 22.8571 38210644 38210644 NO Aff3 ENSMUSG00 000037138 61.1111 80 54.5455 57.8947 56 54.5455 10.7143 3.44828 20 38210645 38210645 NO Aff3 ENSMUSG00 000037138 71.4286 69.2308 66.6667 61.5385 63.6364 46.1538 0 14.2857 38830154 38830154 NO Lonrf2 ENSMUSG00 000048814 51.0638 44.0476 75 68.6567 42.8571 59.6244 93.9759 85.124 79.8479 1 1 38830168 39012738 39012812 39012885 41157209 38830168 NO 39012738 NO 39012812 NO 39012885 NO 41157209 NO Lonrf2 ENSMUSG00 000048814 46.5241 45.8333 40.8163 50 88.8889 50 50 46.4286 42.8571 92.8571 63.8889 35.7143 48.2759 55.1724 80 73.1343 45.6522 40.8163 48.9796 72.4138 50.4464 49.2537 48.5294 52.9412 86.1111 64.3193 47.9167 45.8333 46.8085 82 86.747 87.8049 82.9268 85 7.69231 92.8375 90.3614 78.3133 90.3614 14 88.5932 88 85.5263 84 28.3333 59484325 59484325 NO Fzd7 ENSMUSG00 000041075 57.5758 50.9434 50 44.8276 31.5789 42.8571 3.22581 2.7027 59484440 59484440 NO Fzd7 ENSMUSG00 000041075 91.3043 89.1892 68 95.1219 63.1579 81.1321 33.3333 16.129 28.9474 59484455 59484455 NO Fzd7 ENSMUSG00 000041075 91.3043 83.7838 68 85.3659 63.1579 84.9057 33.3333 16.129 15.7895 ENSMUSG00 Câu hỏi • Làm sao hình dung dữ liệu bằng hình ảnh? • Làm sao cm qui luật trong rừng dữ liệu? • Làm sao định lượng hóa các mối tương quan? • v.v Biểu đồ khoa học quan trọng • "A picture is worth a thousand words" • Dễ gây ấn tượng ở người đọc • Biểu đồ có giá trị lâu dài, có thể đi vào lịch sử • Địi hỏi phải suy nghĩ trong thiết kế biểu đồ Ngun tắc soạn biểu đồ • Nói lên sự thật • Tối đa hố tỉ lệ dữ liệu trên mực in • Tối đa hố mật độ dữ liệu • Nghiêm chỉnh! (Tránh hoa h) 0.8 1.0 Femoral neck BMD 0.6 25 30 35 Lean mass (kg) 30 40 35 45 10 r = 0.34 25 15 20 30 25 35 Lean mass (kg) 30 r = 0.37 40 1.2 25 0.8 1.0 Femoral neck BMD 0.6 0.6 45 0.7 0.8 0.9 1.0 Whole body BMD 1.2 1.1 1.2 r = 0.20 1.0 1.1 20 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.4 A 0.8 0.9 15 0.6 0.7 10 Whole body BMD 1.2 Lumbar spine BMD r = 0.20 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.4 Lumbar spine BMD Tối đa hoá liệu B C 35 r = 0.07 25 25 30 30 35 Fat mass (kg) Fat mass (kg) Fat mass (kg) D E F 35 Lean mass (kg) 40 40 45 r = 0.36 45 Một số biểu đồ khoa học • Biểu đồ phân bố (histogram) • Biểu đồ hộp (box plot) • Biểu đồ thanh (bar plot) • Biểu đồ tương quan (sca†er plot) pch • R có 25 plo—ng characters • pch = định hình character • Characters 19 – 20 can be filled with selected color o 19 Solid circle o 20 Bullet circle ã Characters 21: 25 can have selected ll and border colors Đ bg = Controls Border color Đ col= Controls fill lty= Line Type Graphic Parameter • R has 6 line types • lty = specifies the line type • lty= can be specified as integer or character string: 0 – "blank" 1 – "solid" 2 – "dashed" 3 – "do†ed" 4 – "dotdash" 5 – "longdash" 6 – "twodash" Làm quen với ngôn ngữ biểu đồ trong R Các biến số fnbmd: mật độ xương đo ở cổ xương đùi (g/cm2) lsbmd: mật độ xương đo ở cột sống thắt lưng (g/cm2) age: tuổi lúc tham gia nghiên cứu (năm) weight: trọng lượng (kg) lúc tham gia nghiên cứu height: chiều cao (cm) lúc tham gia nghiên cứu sex Femoral neck BMD and age F M 0.6 0.8 BMD 1.0 1.2 1.4 ylim main 0.4 xlim 60 65 70 75 Age 80 85 90 95 sex Femoral neck BMD and age F M 1.2 1.4 ylim main 0.6 0.8 BMD 1.0 ylab 0.4 xlim 60 65 70 75 Age 80 85 90 95 xlab sex Femoral neck BMD and age F M 1.0 pch abline 0.6 BMD ylab 0.8 1.2 1.4 ylim main 0.4 xlim 60 65 70 75 Age 80 85 90 95 xlab Kí hiệu điểm vẽ: pch Tác động pch 1.0 0.4 0.6 0.8 fnbmd 0.8 0.6 0.4 fnbmd 1.0 1.2 plot(fnbmd ~ age, pch=16) 1.2 plot(fnbmd ~ age, pch=6) 60 70 80 age 90 60 70 80 age 90 Tác động col plot(fnbmd ~ age, pch=16, col="blue") col= 1.0 0.8 0.6 0.4 fnbmd 1.2 1.4 "black" "blue" "green" "red" "yellow" "pink" "orange" 60 70 80 age 90 Tác động xlim ylim 0.6 0.4 0.2 0.0 fnbmd 0.8 1.0 1.2 plot(fnbmd ~ age, pch=16, ylim=c(0, 1.2), xlim=c(60,100)) 60 70 80 age 90 100 ... Female 59.8 Male 59 Female 71.5 Female 69.3 Male actn3 RX XX RR RX RX RX RR XX XX RR RX RR XX RX RR RX RR RX RR RX RX RX RR XX XX weight height 72 87 72 85 48 52 70 97 60 64 82 101 82 56 46 65... 20 Bullet circle ã Characters 21: 25 can have selected ll and border colors Đ bg = Controls Border color Đ col= Controls ll lty= Line Type Graphic Parameter • R has 6 line types • lty = specifies the line type... Trang trí grid(nx, ny) Thêm grid lines axis(side n,) Thêm axis box(which=, ) Thêm box chung quanh biểu đồ legend Thêm legend arrows(x,y) lines(x, y) points(x,y) Thêm m? ?i tên, đường thẳng, ? ?i? ??m type = ("p","b", "l",