1. Trang chủ
  2. » Khoa Học Tự Nhiên

Phân tích dữ liệu và biểu đồ bằng R Bản Latex

120 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 120
Dung lượng 1,45 MB

Nội dung

Phân tích sô lieu và bieu ô th÷íng ÷ñc tiên hành bang các phân mêm thông döng nh÷ SAS, SPSS, Stata, Statistica, và SPlus. ây là nhúng phân mêm ÷ñc các công ti phân mêm phát trien và giîi thieu trên thà tr÷íng kho£ng ba thap niên qua, và ã ÷ñc các tr÷íng ¤i håc, các trung tâm nghiên cùu và công ti ki nghe trên toàn thê giîi sû döng cho gi£ng d¤y và nghiên cùu. Nh÷ng vì chi phí e sû döng các phân mêm này tuìng ôi at tiên (có khi lên ên hàng tram ngàn ôla moi nam), mot sô tr÷íng ¤i håc ð các n÷îc ang phát trien (và ngay c£ ð mot sô n÷îc ã phát trien) không có kh£ nang tài chính e sû döng chúng mot cách lâu dài. Do ó, các nhà nghiên cùu thông kê trên thê giîi ã hñp tác vîi nhau e phát trien mot phân mêm mîi, vîi chõ tr÷ìng mã nguôn mð, sao cho tât c£ các thành viên trong ngành thông kê håc và toán håc trên thê giîi có the sû döng mot cách thông nhât và hoàn toàn mien phí. Nam 1996, trong mot bài báo quan trång vê tính toán thông kê, hai nhà thông kê håc Ross Ihaka và Robert Gentleman lúc ó thuoc Tr÷íng ¤i håc Auckland, New Zealand phát ho¤ mot ngôn ngú mîi cho phân tích thông kê mà hå at tên là R. Sáng kiên này ÷ñc rât nhiêu nhà thông kê håc trên thê giîi tán thành và tham gia vào viec phát trien R. Cho ên nay, qua ch÷a ây 10 nam phát trien, càng ngày càng có nhiêu nhà thông kê håc, toán håc, nghiên cùu trong måi linh vüc ã chuyen sang sû döng R e phân tích dú lieu khoa håc. Trên toàn câu, ã có mot m¤ng l÷îi hìn mot trieu ng÷íi sû döng R, và con sô này ang tang rât nhanh. Có the nói trong vòng 10 nam núa, vai trò cõa các phân mêm thông kê th÷ìng m¤i se không còn lîn nh÷ trong thíi gian qua núa. Vay R là gì? Nói mot cách ngan gån, R là mot phân mêm sû döng cho phân tích thông kê và ve bieu ô. That ra, vê b£n chât, R là ngôn ngú máy tính a nang, có the sû döng cho nhiêu möc tiêu khác nhau, tø tính toán ìn gi£n, toán håc gi£i trí (recreational mathematics), tính toán ma tran (matrix), ên các phân tích thông kê phùc t¤p. Vì là mot ngôn ngú, cho nên ng÷íi ta có the sû döng R e phát trien thành các phân mêm chuyên môn cho mot vân ê tính toán cá biet. Vì thê, nhúng ai làm nghiên cùu khoa håc, nhât là ð các n÷îc còn nghèo khó nh÷ n÷îc ta, cân ph£i håc cách sû döng R cho phân tích thông kê và ô thà. Bài viêt ngan này se h÷îng dan b¤n åc cách sû döng R. Tôi gi£ ành rang b¤n åc không biêt gì vê R, nh÷ng tôi kì vång b¤n åc biêt qua vê cách sû döng máy tính.

PHÂN TÍCH SỐ LIỆU VÀ BIỂU ĐỒ BẰNG R Nguyễn Văn Tuấn Copyright © 2006 Nguyễn Văn Tuấn LATEX by Đinh Thế Huy https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf First printing, November 2019 Mục lục GIỚI THIỆU R 1.1 TẢI XUỐNG VÀ CÀI ĐẶT R 1.2 TẢI R PACKAGE VÀ CÀI ĐẶT VÀO MÁY TÍNH VĂN PHẠM TRONG R 11 2.1 CÁCH ĐẶT TÊN TRONG R 12 2.2 HỖ TRỢ TRONG R 13 CÁCH NHẬP DỮ LIỆU VÀO R 15 3.1 NHẬP SỐ LIỆU TRỰC TIẾP: c() 15 3.2 NHẬP SỐ LIỆU TRỰC TIẾP: edit(data.frame()) 16 3.3 NHẬP SỐ LIỆU TỪ MỘT TEXT FILE: read.table 17 3.4 NHẬP SỐ LIỆU TỪ EXCEL: read.csv 19 3.5 NHẬP SỐ LIỆU TỪ MỘT SPSS: read.spss 20 3.6 THÔNG TIN VỀ DỮ LIỆU 20 3.7 TẠO DÃY SỐ BẰNG HÀM seq, rep VÀ gl 21 3.7.1 Áp dụng seq 21 3.7.2 Áp dụng rep 22 3.7.3 Áp dụng gl 23 BIÊN TẬP SỐ LIỆU 25 4.1 TÁCH RỜI DỮ LIỆU: subset 25 4.2 CHIẾT SỐ LIỆU TỪ MỘT DATA.FRAME 26 4.3 NHẬP HAI DATA.FRAME THÀNH MỘT: merge 26 4.4 BIẾN ĐỔI SỐ LIỆU (DATA CODING) 27 4.5 BIẾN ĐỔI SỐ LIỆU BẰNG CÁCH DÙNG replace 28 4.6 BIẾN ĐỔI THÀNH YẾU TỐ (factor) 28 4.7 PHÂN NHÓM SỐ LIỆU BẰNG cut2 (Hmisc) 29 SỬ DỤNG R CHO TÍNH TỐN ĐƠN GIẢN 31 5.1 TÍNH TỐN ĐƠN GIẢN 31 5.2 SỬ DỤNG R CHO CÁC PHÉP MA TRẬN 34 5.2.1 Chiết phần tử từ ma trận 35 5.2.2 Tính tốn với ma trận 36 SỬ DỤNG R CHO TÍNH TỐN XÁC SUẤT 41 6.1 PHÉP HOÁN VỊ (PERMUTATION) 41 6.2 TỔ HỢP (COMBINATION) 42 6.3 BIẾN SỐ NGẪU NHIÊN VÀ HÀM PHÂN PHỐI 42 6.3.1 Hàm phân phối nhị phân (Binomial distribution) 42 6.3.2 Hàm phân phối Poisson (Poisson distribution) 44 6.3.3 Hàm phân phối chuẩn (Normal distribution) 45 6.3.4 Hàm phân phối chuẩn chuẩn hóa (Standardized Normal distribution) 47 6.4 CHỌN MẪU NGẪU NHIÊN (RANDOM SAMPLING) BIỂU ĐỒ 51 7.1 SỐ LIỆU CHO PHÂN TÍCH BIỂU ĐỒ 51 7.2 BIỂU ĐỒ CHO MỘT BIẾN SỐ RỜI RẠC: barplot 52 7.3 BIỂU ĐỒ CHO HAI BIẾN SỐ RỜI RẠC: barplot 53 7.4 BIỂU ĐỒ HÌNH TRỊN 54 49 7.5 BIỂU ĐỒ CHO MỘT BIẾN SỐ LIÊN TỤC: stripchart VÀ hist 56 7.5.1 Stripchart 56 7.5.2 Histogram 57 7.6 BIỂU ĐỒ HÌNH HỘP boxplot 58 7.7 PHÂN TÍCH BIỂU ĐỒ CHO HAI BIẾN LIÊN TỤC 58 7.7.1 Biểu đồ tán xạ (scatter plot) 58 7.8 PHÂN TÍCH BIỂU ĐỒ CHO NHIỀU BIẾN: pairs 61 7.9 BIỂU ĐỒ VỚI SAI SỐ CHUẨN (STANDARD ERROR) 62 PHÂN TÍCH THỐNG KÊ MƠ TẢ 65 8.1 THỐNG KÊ MÔ TẢ (DESCRIPTIVE STATISTICS, summary) 65 8.2 THỐNG KÊ MÔ TẢ THEO TỪNG NHÓM 70 8.3 KIỂM ĐỊNH t (t.test) 71 8.3.1 Kiểm định t mẫu 71 8.3.2 Kiểm định t hai mẫu 72 8.4 KIỂM ĐỊNH WILCOXON CHO HAI MẪU (wilcox.test) 74 8.5 KIỂM ĐỊNH t CHO CÁC BIẾN SỐ THEO CẶP (PAIRED TEST, t.test) 74 8.6 KIỂM ĐỊNH WILCOXON CHO CÁC BIẾN SỐ THEO CẶP (wilcox.test) 75 8.7 TẦN SỐ (FREQUENCY) 75 8.8 KIỂM ĐỊNH TỈ LỆ (PROPORTION TEST, prop.test, binom.test) 77 8.9 SO SÁNH HAI TỈ LỆ (prop.test, binom.test) 78 8.10 SO SÁNH NHIỀU TỈ LỆ (prop.test, chisq.test) 79 8.10.1 Kiểm định Chi bình phương (Chi squared test, chisq.test) 79 8.10.2 Kiểm định Fisher (Fisher’s exact test, fisher.test) 80 PHÂN TÍCH HỒI QUY TUYẾN TÍNH 81 9.1 HỆ SỐ TƯƠNG QUAN 9.1.1 Hệ số tương quan Pearson 83 9.1.2 Hệ số tương quan Spearman ρ 83 9.1.3 Hệ số tương quan Kendall τ 9.2 MƠ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN GIẢN 84 9.3 MƠ HÌNH HỒI QUY TUYẾN TÍNH ĐA BIẾN 89 82 84 10 PHÂN TÍCH PHƯƠNG SAI 93 10.1 PHÂN TÍCH PHƯƠNG SAI ĐƠN GIẢN 93 10.2 SO SÁNH NHIỀU NHÓM VÀ ĐIỀU CHỈNH TRỊ SỐ P 95 10.3 PHÂN TÍCH BẰNG PHƯƠNG PHÁP PHI THAM SỐ 97 10.4 PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU 97 11 PHÂN TÍCH HỒI QUY LOGISTIC 101 11.1 MƠ HÌNH HỒI QUY LOGISTIC 101 11.2 PHÂN TÍCH HỒI QUY LOGISTIC BẰNG R 103 11.3 ƯỚC TÍNH XÁC SUẤT BẰNG R 106 12 ƯỚC TÍNH CỠ MẪU 109 12.1 KHÁI NIỆM VỀ "POWER" 109 12.2 SỐ LIỆU ĐỂ ƯỚC TÍNH CỠ MẪU 111 12.3 ƯỚC TÍNH CỠ MẪU 111 12.3.1 Ước tính cỡ mẫu cho số trung bình 12.3.2 Ước tính cỡ mẫu cho so sánh hai số trung bình 113 12.3.3 Ước tính cỡ mẫu cho phân tích phương sai 114 12.3.4 Ước tính cỡ mẫu để ước tính tỉ lệ 115 12.3.5 Ước tính cỡ mẫu cho so sánh hai tỉ lệ 115 13 TÀI LIỆU THAM KHẢO 119 111 GIỚI THIỆU R Phân tích số liệu biểu đồ thường tiến hành phần mềm thông dụng SAS, SPSS, Stata, Statistica, S-Plus Đây phần mềm công ti phần mềm phát triển giới thiệu thị trường khoảng ba thập niên qua, trường đại học, trung tâm nghiên cứu cơng ti kĩ nghệ tồn giới sử dụng cho giảng dạy nghiên cứu Nhưng chi phí để sử dụng phần mềm tuơng đối đắt tiền (có lên đến hàng trăm ngàn đô-la năm), số trường đại học nước phát triển (và số nước phát triển) khơng có khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm mới, với chủ trương mã nguồn mở, cho tất thành viên ngành thống kê học tốn học giới sử dụng cách thống hồn tồn miễn phí Năm 1996, báo quan trọng tính tốn thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman [lúc đó] thuộc Trường đại học Auckland, New Zealand phát hoạ ngơn ngữ cho phân tích thống kê mà họ đặt tên R Sáng kiến nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến nay, qua chưa đầy 10 năm phát triển, ngày có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lưới triệu người sử dụng R, số tăng nhanh Có thể nói vịng 10 năm nữa, vai trò phần mềm thống kê thương mại khơng cịn lớn thời gian qua Vậy R gì? Nói cách ngắn gọn, R phần mềm sử dụng cho phân tích thống kê vẽ biểu đồ Thật ra, chất, R ngơn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn cho vấn đề tính tốn cá biệt Vì thế, làm nghiên cứu khoa học, nước nghèo khó nước ta, cần phải học cách sử dụng R cho phân tích thống kê đồ thị Bài viết ngắn hướng dẫn bạn đọc cách sử dụng R Tôi giả định bạn đọc R, tơi kì vọng bạn đọc biết qua cách sử dụng máy tính 1.1 Chương GIỚI THIỆU R TẢI XUỐNG VÀ CÀI ĐẶT R Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Tài liệu cần tải về, tùy theo phiên bản, thường có tên bắt đầu mẫu tự R số phiên (version) Chẳng hạn phiên sử dụng vào cuối năm 2005 2.2.1, nên tên tài liệu cần tải là: R-2.2.1-win32.zip Tài liệu khoảng 26 MB, địa cụ thể để tải là: http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Khi tải R xuống máy tính, bước cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình Đây bước đơn giản, cần phút việc cài đặt R hồn tất Sau hoàn tất việc cài đặt, icon xuất desktop máy tính Đến sẵn sàng sử dụng R Có thể nhấp chuột vào icon có window sau: (hình 1.1) Hình 1.1: Giao diện phần mềm R 1.2 TẢI R PACKAGE VÀ CÀI ĐẶT VÀO MÁY TÍNH R cung cấp cho “ngơn ngữ” máy tính số function để làm phân tích đơn giản Nếu muốn làm phân tích phức tạp hơn, cần phải tải máy tính số package khác Package phần mềm nhỏ nhà thống kê phát triển để giải vấn đề cụ thể, chạy hệ thống R Chẳng hạn để phân tích hồi qui tuyến tính, R có function lm để sử dụng cho mục đích này, để làm phân tích sâu phức tạp hơn, cần đến package lme4 Các package cần phải tải cài đặt vào máy tính 1.2 TẢI R PACKAGE VÀ CÀI ĐẶT VÀO MÁY TÍNH Địa để tải package là: http://cran.r-project.org, bấm vào phần “Packages” xuất bên trái mục lục trang web Theo tôi, số package cần tải máy tính để sử dụng cho phân tích dịch tễ học (bảng 1.1) : TÊN PACKAGE trellis lattice Hmisc Design Epi epitools Foreign Rmeta meta survival Zelig Genetics BMA CHỨC NĂNG Dùng để vẽ đồ thị làm cho đồ thị đẹp Dùng để vẽ đồ thị làm cho đồ thị đẹp Một số phương pháp mơ hình liệu F Harrell Một số mơ hình thiết kế nghiên cứu F Harrell Dùng cho phân tích dịch tễ học Một package khác chuyên cho phân tích dịch tễ học Dùng để nhập liệu từ phần mềm khác SPSS, Stata, SAS, v.v Dùng cho phân tích tổng hợp (meta-analysis) Một package khác cho phân tích tổng hợp Chuyên dùng cho phân tích theo mơ hình Cox (Cox’s proportional hazard model) Package dùng cho phân tích thống kê lĩnh vực xã hội học Package dùng cho phân tích số liệu di truyền học Bayesian Model Average Bảng 1.1: Một số package cần tải máy tính cho phân tích dịch tễ Các package cài đặt trực tuyến cách chọn Install packages phần packages R hình Ngồi ra, package tải xuống máy tính cá nhân, việc cài đặt nhanh cách chọn Install package(s) from local zip file phần packages (xem hình 1.2) Hình 1.2: Cài đặt package R 106 Chương 11 PHÂN TÍCH HỒI QUY LOGISTIC hai số này, thấy bmd ảnh hưởng thấp đến việc tiên đoán gãy xương, làm giảm deviance từ 157.8 xuống 155.27, mức độ giảm khơng có ý nghĩa thống kê Ngồi ra, R cịn cung cấp giá trị AIC (Akaike Information Criterion) tính từ deviance bậc tự Tôi quay lại ý nghĩa AIC phần đến so sánh mô hình 11.3 ƯỚC TÍNH XÁC SUẤT BẰNG R Xin nhắc lại phân tích trên, cho kết vào đối tượng logistic Trong đối tượng có nhiều thơng tin có ích, muốn xem thông tin phải dùng đến lệnh summary chẳng hạn Trong phần này, tơi trình bày vài hàm để xem xét thông tin liên quan đến việc tiên đốn xác suất • predict dùng để liệt kê giá trị ước tính (predicted values) mơ hình log p 1−p = α + βx cho bệnh nhân predict(logistic) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## -0.7938733 -1.1774994 17 -1.2909983 25 -0.9119121 33 -0.9005622 41 -1.4158470 49 -1.0571907 57 -1.3500177 65 -1.2751084 73 -0.6440548 81 -1.2001992 89 -1.3250479 97 -1.0776204 105 -1.3250479 113 -0.8960223 121 -1.3023482 129 -1.0798904 137 -1.1684195 -0.9141821 10 -0.8960223 18 -0.9641216 26 -0.7779835 34 -0.7711736 42 -0.6599447 50 -1.1366398 58 -1.4135770 66 -0.9709315 74 -1.7767734 82 -0.8143031 90 -1.0458408 98 -1.3772574 106 -1.4022272 114 -0.7507438 122 -1.1525297 130 -1.7631535 -2.0196609 11 -0.9550417 19 -0.8665126 27 -0.8869424 35 -1.1048602 43 -0.6554047 51 -0.7393939 59 -0.6190851 67 -1.4476267 75 -0.8415428 83 -1.2592186 91 -1.1003202 99 -1.3363978 107 -0.7938733 115 -1.1366398 123 -0.6735645 131 -1.5293459 -0.5577957 12 -0.9482318 20 -0.7303140 28 -0.9051022 36 -1.0072512 44 -0.4601867 52 -0.8211131 60 -1.3091581 68 -0.9096422 76 -0.4397569 84 -1.3568276 92 -0.7166941 100 -1.4294669 108 -1.3568276 116 -1.0503807 124 -1.8357928 132 -0.8892124 -0.6349749 13 -0.9550417 21 -0.2922084 29 -0.5646057 37 -0.8824024 45 -0.7847934 53 -1.3363978 61 -1.3568276 69 -0.8370029 77 -0.8528927 85 -0.9209920 93 -1.4794064 101 -1.2387888 109 -1.6564646 117 -1.3681775 125 -1.4271969 133 -1.1071301 -1.0594606 14 -0.7303140 22 -0.9550417 30 -0.8029532 38 -0.8778625 46 -1.4362768 54 -1.5702054 62 -0.8460828 70 -1.0276810 78 -0.8710525 86 -0.9391519 94 -1.2978082 102 -1.2024692 110 -1.0390308 118 -1.5724754 126 -0.7371239 134 -1.0208710 -1.2978082 15 -1.1797694 23 -0.7598237 31 -1.2160890 39 -1.1139401 47 -0.7938733 55 -0.7779835 63 -1.2410588 71 -1.4748664 79 -0.7416639 87 -0.5668756 95 -1.2705685 103 -0.9913613 111 -1.6451147 119 -0.7212341 127 -1.1820394 135 -1.4022272 -1.2115491 16 -1.4771364 24 -1.0231410 32 -0.6122752 40 -1.2887283 48 -1.4067671 56 -1.1547997 64 -1.4998362 72 -0.6735645 80 -0.9051022 88 -0.8801325 96 -0.9436918 104 -0.3603077 112 -1.0662706 120 -0.8415428 128 -0.8029532 136 -0.9232620 p , tức log odds, khơng có ý nghĩa hực tế Chúng ta muốn biết 1−p giá trị tiên đoán xác suất p tính từ phương trình 11.1 Để có giá trị cho bệnh nhân, cho thông số type="response" vào hàm predict sau: Các số log 11.3 ƯỚC TÍNH XÁC SUẤT BẰNG R 107 > predict(logistic, type="response") ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## 0.3113376 0.2355021 17 0.2156839 25 0.2866087 33 0.2889350 41 0.1953135 49 0.2578467 57 0.2058675 65 0.2183840 73 0.3443305 81 0.2314398 89 0.2099797 97 0.2539566 105 0.2099797 113 0.2898686 121 0.2137701 129 0.2535268 137 0.2371408 0.2861448 10 0.2898686 18 0.2760537 26 0.3147547 34 0.3162253 42 0.3407520 50 0.2429378 58 0.1956705 66 0.2746949 74 0.1447020 82 0.3069743 90 0.2600246 98 0.2014498 106 0.1974629 114 0.3206593 122 0.2400273 130 0.1463958 0.1171541 11 0.2778720 19 0.2959805 27 0.2917412 35 0.2488304 43 0.3417726 51 0.3231367 59 0.3499896 67 0.1903671 75 0.3012099 83 0.2211084 91 0.2496799 99 0.2081031 107 0.3113376 115 0.2429378 123 0.3376991 131 0.1780894 0.3640576 12 0.2792406 20 0.3251258 28 0.2880031 36 0.2675181 44 0.3869415 52 0.3055274 60 0.2126278 68 0.2870731 76 0.3917989 84 0.2047564 92 0.3281214 100 0.1931818 108 0.2047564 116 0.2591520 124 0.1375496 132 0.2912724 0.3463833 13 0.2778720 21 0.4274633 29 0.3624825 37 0.2926802 45 0.3132877 53 0.2081031 61 0.2047564 69 0.3021664 77 0.2988264 85 0.2847558 93 0.1855171 101 0.2246469 109 0.1602372 117 0.2029145 125 0.1935358 133 0.2484063 0.2574125 14 0.3251258 22 0.2778720 30 0.3093941 38 0.2936209 46 0.1921226 54 0.1721871 62 0.3002552 70 0.2635339 78 0.2950353 86 0.2810717 94 0.2145341 102 0.2310363 110 0.2613370 118 0.1718638 126 0.3236334 134 0.2648578 0.2145341 15 0.2350937 23 0.3186845 31 0.2286254 39 0.2471371 47 0.3113376 55 0.3147547 63 0.2242517 71 0.1862041 79 0.3226404 87 0.3619581 95 0.2191600 103 0.2706433 111 0.1617703 119 0.3271213 127 0.2346857 135 0.1974629 0.2294271 16 0.1858603 24 0.2644160 32 0.3515404 40 0.2160681 48 0.1967445 56 0.2396135 64 0.1824500 72 0.3376991 80 0.2880031 88 0.2931503 96 0.2801552 104 0.4108851 112 0.2561130 120 0.3012099 128 0.3093941 136 0.2842937 • Chúng ta xem xét giá trị tiên đoán với độ bmd cách dùng hàm plot thơng thường (hình 11.1): plot(fulldata$bmd, fitted(glm(fulldata$fx ~ fulldata$bmd, family="binomial")), ylab="") 108 Chương 11 PHÂN TÍCH HỒI QUY LOGISTIC 0.15 0.20 0.25 0.30 0.35 0.40 ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● 0.6 0.8 1.0 1.2 fulldata$bmd Hình 11.1: Xác suất tiên đốn gãy xương độ bmd qua mơ hình hồi qui logistic 12 ƯỚC TÍNH CỠ MẪU Một cơng trình nghiên cứu thường dựa vào mẫu (sample) Một câu hỏi quan trọng trước tiến hành nghiên cứu cần mẫu hay đối tượng cho nghiên cứu “Đối tượng” đơn vị nghiên cứu, số bệnh nhân, số tình nguyện viên, số mẫu ruộng, trồng, thiết bị, v.v Ước tính số lượng đối tượng cần thiết cho cơng trình nghiên cứu đóng vai trị quan trọng, yếu tố định thành công hay thất bại nghiên cứu Nếu số lượng đối tượng khơng đủ kết luận rút từ cơng trình nghiên cứu khơng có độ xác cao, chí khơng thể kết luận Ngược lại, số lượng đối tượng nhiều số cần thiết tài nguyên, tiền bạc thời gian bị hao phí Do đó, vấn đề then chốt trước nghiên cứu phải ước tính cho số đối tượng vừa đủ cho mục tiêu nghiên cứu Số lượng đối tượng “vừa đủ” tùy thuộc vào ba yếu tố chính: • Sai sót mà nhà nghiên cứu chấp nhận, cụ thể sai sót loại I II; • Độ dao động (variability) đo lường, mà cụ thể độ lệch chuẩn; • Mức độ khác biệt hay ảnh hưởng mà nhà nghiên cứu muốn phát Khơng có số liệu ba yếu tố khơng thể ước tính cỡ mẫu Kinh nghiệm người viết cho thấy nhiều người tiến hành nghiên cứu thường ý niệm số liệu này, đến tham vấn chuyên gia thống kê học, họ nhận câu trả lời: “không thể tính được”! Trong chương tơi bàn qua ba yếu tố 12.1 KHÁI NIỆM VỀ "POWER" Thống kê học phương pháp khoa học có mục đích phát hiện, hay tìm gộp chung lại cụm từ “chưa biết” (unknown) Cái chưa biết tượng không quan sát được, hay quan sát khơng đầy đủ “Cái chưa biết” ẩn số (như chiều cao trung bình người Việt Nam, hay trọng lượng phần tử), hiệu thuật điều trị, gen có chức làm cho có màu xanh, sở thích người, v.v Chúng ta đo chiều cao, hay tiến hành xét nghiệm để biết hiệu thuốc, nghiên cứu tiến hành nhóm đối tượng, khơng phải tồn quần thể dân số 110 Chương 12 ƯỚC TÍNH CỠ MẪU Ở mức độ đơn giản nhất, chưa biết xuất hai hình thức: có, khơng Chẳng hạn thuật điều trị có hay khơng có hiệu chống gãy xương, khách hàng thích hay khơng thích loại nước giải khát Bởi khơng biết tượng cách đầy đủ, phải đặt giả thiết Giả thiết đơn giản giả thiết đảo (hiện tượng khơng tồn tại, kí hiệu H−) giả thiết (hiện tượng tồn tại, kí hiệu H+) Chúng ta sử dụng phương pháp kiểm định thống kê (statistical test) kiểm định t, F , z, χ2 , v.v để đánh giá khả giả thiết Kết kiểm định thống kê đơn giản chia thành hai giá trị: có ý nghĩa thống kê (statistical significance), khơng có ý nghĩa thống kê (non-significance) Có ý nghĩa thống kê đây, đề cập Chương 7, thường dựa vào trị số P : P < 0.05, phát biểu kết có ý nghĩa thống kê; P > 0.05 nói kết khơng có ý nghĩa thống kê Cũng xem có ý nghĩa thống kê hay khơng có ý nghĩa thống kê có tín hiệu hay khơng có tín hiệu Hãy tạm đặt kí hiệu T + kết có ý nghĩa thống kê, T − kết kiểm định ý nghĩa thống kê Hãy xem xét ví dụ cụ thể: để biết thuốc risedronate có hiệu hay khơng việc điều trị lỗng xương, tiến hành nghiên cứu gồm nhóm bệnh nhân (một nhóm điều trị risedronate nhóm sử dụng giả dược placebo) Chúng ta theo dõi thu thập số liệu gãy xương, ước tính tỉ lệ gãy xương cho nhóm, so sánh hai tỉ lệ kiểm định thống kê Kết kiểm định thống kê có ý nghĩa thống kê (P < 0.05) hay khơng có ý nghĩa thống kê (P > 0.05) Xin nhắc lại khơng biết risedronate thật có hiệu nghiệm chống gãy xương hay khơng; đặt giả thiết H Do đó, xem xét giả thiết kết kiểm định thống kê, có bốn tình huống: (a) Giả thuyết H (thuốc risedronate có hiệu nghiệm) kết kiểm định thống kê P < 0.05 (b) Giả thuyết H đúng, kết kiểm định thống kê khơng có ý nghĩa thống kê; (c) Giả thuyết H sai (thuốc risedronate khơng có hiệu nghiệm) kết kiểm định thống kê có ý nghĩa thống kê; (d) Giả thuyết H sai kết kiểm định thống kê khơng có ý nghĩa thống kê Ở đây, trường hợp (a) (d) vấn đề, kết kiểm định thống kê quán với thực tế tượng Nhưng trường hợp (b) (c), phạm sai lầm, kết kiểm định thống kê khơng phù hợp với giả thiết Trong ngôn ngữ thống kê học, có vài thuật ngữ: • Xác suất tình (b) xảy gọi sai sót loại II (type II error), thường kí hiệu β • Xác suất tình (a) gọi Power Nói cách khác, power xác suất mà kết kiểm định thống cho kết p < 0.05 với điều kiện giả thiết H thật Nói cách khác: power = − β; • Xác suất tình (c) gọi sai sót loại I (type I error, hay significance level), thường kí hiệu α Nói cách khác, α xác suất mà kết kiểm định thống cho kết p < 0.05 với điều kiện giả thiết H sai; • Xác suất tình hống (d) khơng phải vấn đề cần quan tâm, bảng có thuật ngữ, dù gọi kết âm tính thật (hay true negative) Có thể tóm lược tình bảng 12.1 sau Chú thích: s bảng có nghĩa significant; ns non-significant; H+ giả thuyết đúng; H− giả thuyết sai Do đó, mơ tả tình ngơn ngữ xác suất có điều kiện sau: P ower = − β = P (s|H+); β = P (ns|H+); α = P (s|H−) 12.2 SỐ LIỆU ĐỂ ƯỚC TÍNH CỠ MẪU KẾT QUẢ KIỂM ĐỊNH THỐNG KÊ Có ý nghĩa thống kê (p < 0.05) Khơng có ý nghĩa thống kê (p > 0.05) 111 GIẢ THUYẾT H ĐÚNG Dương tính thật (power) − β = P(s|H+) Sai sót loại II (type II error) β = P(ns|H+) GIẢ THUYẾT H SAI Sai sót loại I (type I error) α = P(s|H−) Âm tính thật (true negative) − α = P(ns|H−) Bảng 12.1: Các tình việc thử nghiệm giả thiết khoa học 12.2 SỐ LIỆU ĐỂ ƯỚC TÍNH CỠ MẪU Như đề cập phần đầu chương này, để ước tính số đối tượng cần thiết cho cơng trình nghiên cứu, cần phải có số liệu: xác suất sai sót loại I II, độ dao động đo lường, độ ảnh hưởng • Về xác suất sai sót, thơng thường nghiên cứu chấp nhận sai sót loại I khoảng 1% hay 5% (tức α = 0.01 hay 0.05), xác suất sai sót loại II khoảng β = 0.1 đến β = 0.2 (tức power phải từ 0.8 đến 0.9) • Độ dao động độc lệch chuẩn (standard deviation) đo lường mà cơng trình nghiên cứu dựa vào để phân tích Chẳng hạn nghiên cứu cao huyết áp, nhà nghiên cứu cần phải có độ lệch chuẩn áp suất máu Chúng ta tạm gọi độ dao động σ • Độ ảnh hưởng, cơng trình nghiên cứu so sánh hai nhóm, độ khác biệt trung bình hai nhóm mà nhà nghiên cứu muốn phát Chẳng hạn nhà nghiên cứu giả thiết bệnh nhân điều trị thuốc A có áp suất máu giảm 10 mmHg so với nhóm giả Ở đây, 10 mmHg xem độ ảnh hưởng Chúng ta tạm gọi độ ảnh hưởng ∆ Một nghiên cứu có nhóm đối tượng hay hai (và có 2) nhóm đối tượng Và ước tính cỡ mẫu tùy thuộc vào trường hợp Trong trường hợp nhóm đối tượng, số lượng đối tượng (n) cần thiết cho nghiên cứu tính tốn cách “thủ công” sau: C n= (12.1) (∆/σ)2 Trong trường hợp có hai nhóm đối tượng, số lượng đối tượng (n) cần thiết cho nghiên cứu tính tốn sau: C n=2× (12.2) (∆/σ)2 Trong đó, số C xác định từ xác suất sai sót loại I II (hay power) sau: β = 0.20 (Power = 0.80) 6.15 7.85 13.33 α= 0.10 0.05 0.01 β = 0.10 (Power = 0.90) 8.53 10.51 16.74 β = 0.05 (Power = 0.85) 10.79 13.00 19.84 Bảng 12.2: Hằng số C liên quan đến sai sót loại I II 12.3 ƯỚC TÍNH CỠ MẪU 12.3.1 Ước tính cỡ mẫu cho số trung bình Ví dụ 23 Chúng ta muốn ước tính chiều cao đàn ông người Việt, chấp nhận sai số vịng cm 112 Chương 12 ƯỚC TÍNH CỠ MẪU (d = 1) với khoảng tin cậy 0.95 (tức α = 0.05) power = 0.8 (hay β = 0.2) Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao người Việt khoảng 4.6 cm Chúng ta áp dụng cơng thức 12.1 để ước tính cỡ mẫu cần thiết cho nghiên cứu: n= C 7.85 = = 166 (∆/σ) (1/4.6)2 Nói cách khác, cần phải đo chiều cao 166 đối tượng để ước tính chiều cao đàn ơng Việt với sai số vòng cm 7.85 Nếu sai số chấp nhận 0.5 cm (thay cm), số lượng đối tượng cần thiết là: n = = 664 (0.5/4.6)2 Nếu độ sai số mà chấp nhận 0.1 cm số lượng đối tượng nghiên cứu lên đến 16610 người! Qua ước tính này, dễ dàng thấy cỡ mẫu tùy thuộc lớn vào độ sai số mà chấp nhận Muốn có ước tính xác, cần nhiều đối tượng nghiên cứu Trong R có hàm power.t.test áp dụng để ước tính cỡ mẫu cho ví dụ sau Chú ý cho R biết vấn đề nhóm tức type="one.sample": # sai số cm, độc lệch chuẩn 4.6, a=0.05, power=0.8 power.t.test(delta=1, sd=4.6, sig.level=.05, power=.80, type="one.sample") ## ## ## ## ## ## ## ## ## One-sample t test power calculation n delta sd sig.level power alternative = = = = = = 168.0131 4.6 0.05 0.8 two.sided kết tính tốn từ R 168, khác với cách tính thủ cơng đối tượng, cố nhiên R sử dụng nhiều số lẻ xác cách tính thủ công Với sai số 0.5 cm: # sai số 0.5 cm, độc lệch chuẩn 4.6, a=0.05, power=0.8 power.t.test(delta=0.5, sd=4.6, sig.level=.05, power=.80, type="one.sample") ## ## ## ## ## ## ## ## ## One-sample t test power calculation n delta sd sig.level power alternative = = = = = = 666.2525 0.5 4.6 0.05 0.8 two.sided Ví dụ 24 Một loại thuốc điều trị có khả tăng độ alkaline phosphatase bệnh nhân loãng xương Độ lệch chuẩn alkaline phosphatase 15 U/l Một nghiên cứu tiến hành quần thể bệnh nhân Việt Nam, nhà nghiên cứu muốn biết bệnh nhân cần tuyển để chứng minh thuốc alkaline phosphatase từ 60 đến 65 U/l sau tháng điều trị, với sai số I α = 0.05 power = 0.8 Đây loại nghiên cứu “trước – sau” (before-after study); có nghĩa trước sau điều trị Ở đây, có nhóm bệnh nhân, đo hai lần (trước dùng thuốc sau dùng thuốc) Chỉ tiêu lâm sàng để đánh giá hiệu nghiệm thuốc độ thay đổi alkaline phosphatase 12.3 ƯỚC TÍNH CỠ MẪU 113 Trong trường hợp này, có trị số tăng trung bình U/l độ lệch chuẩn 15 U/l, hay nói theo ngơn ngữ R, delta=5, sd=15, sig.level=.05, power=.80, lệnh: > power.t.test(delta=3, sd=15, sig.level=.05, power=.80, type="one.sample") ## ## ## ## ## ## ## ## ## One-sample t test power calculation n delta sd sig.level power alternative = = = = = = 198.1513 15 0.05 0.8 two.sided Như vậy, cần phải có 198 bệnh nhân để đạt mục tiêu 12.3.2 Ước tính cỡ mẫu cho so sánh hai số trung bình Trong thực tế, nhiều nghiên cứu nhằm so sánh hai nhóm với Cách ước tính cỡ mẫu cho nghiên cứu chủ yếu dựa vào công thức (12.2) Ví dụ 25 Một nghiên cứu thiết kế để thử nghiệm thuốc alendronate việc điều trị lỗng xương phụ nữ sau thời kì mãn kinh Có hai nhóm bệnh nhân tuyền: nhóm nhóm can thiệp (được điều trị alendronate), nhóm nhóm đối chứng (tức khơng điều trị) Tiêu chí để đánh giá hiệu thuốc mật độ xương (bone mineral density – BMD) Số liệu từ nghiên cứu dịch tễ học cho thấy giá trị trung bình BMD phụ nữ sau thời kì mãn kinh 0.80 g/cm2 , với độ lệch chuẩn 0.12 g/cm2 Vấn đề đặt cần phải nghiên cứu đối tượng để “chứng minh” sau 12 tháng điều trị BMD nhóm tăng khoảng 5% so với nhóm 2? Trong ví dụ trên, tạm gọi trị số trung bình nhóm µ2 nhóm µ1 , chỳng ta cú: à1 = 0.8 ì 1.05 = 0.84 g/cm2 (tức tăng 5% so với nhóm 1), đó, ∆ = 0.84 − 0.80 = 0.04 g/cm2 Độ lệch chuẩn σ = 0.12 g/cm2 Với power = 0.90 α = 0.05, cỡ mẫu cần thiết là: n= × 10.51 2C = = 189 (∆/σ) (0.04/0.12)2 Và lời giải từ R qua hàm power.t.test sau: > power.t.test(delta=0.04, sd=0.12, sig.level=0.05, power=0.90, type="two.sample") ## ## Two-sample t ## ## n = ## delta = ## sd = ## sig.level = ## power = ## alternative = ## ## NOTE: n is number test power calculation 190.0991 0.04 0.12 0.05 0.9 two.sided in *each* group Chú ý hàm power.t.test, ngồi thơng số thông thường delta (độ ảnh hưởng hay khác biệt theo giả thiết), sd (độ lệch chuẩn), sig.level xác suất sai sót loại I, power, cịn phải cụ thể nghiên cứu gồm có hai nhóm với thơng số type="two.sample"$.} Kết cho biết cần 190 bệnh nhân cho nhóm (hay 380 bệnh nhân cho cơng trình nghiên cứu) Trong trường hợp này, power = 0.90 α = 0.05 có nghĩa ? Trả lời: hai thơng số 114 Chương 12 ƯỚC TÍNH CỠ MẪU có nghĩa tiến hành thật nhiều nghiên cứu (ví dụ 1000) nghiên cứu với 380 bệnh nhân, có 90% (hay 900) nghiên cứu cho kết với trị số p < 0.05 12.3.3 Ước tính cỡ mẫu cho phân tích phương sai Phương pháp ước tính cỡ mẫu cho so sánh hai nhóm khai triển thêm để ước tính cỡ mẫu cho trường hợp so sánh hai nhóm Trong trường hợp có nhiều nhóm, đề cập Chương 10, phương pháp so sánh phân tích phương sai Theo phương pháp này, số trung bình bình phương phần dư (residual mean square, RMS) ước tính độ dao động đo lường nhóm, số quan trọng việc ước tính cỡ mẫu Chi tiết lí thuyết đằng sau cách ước tính cỡ mẫu cho phân tích phương sai phức tạp, không nằm phạm vi chương Nhưng nguyên lí chủ yếu khơng khác so với lí thuyết so sánh hai nhóm Gọi số trung bình k nhóm µ1 , µ2 , µ3 , , µk , tính tổng bình phương k k µ SS i nhóm SS SS = (µi − µ) , đó, µ = Cho λ = , vấn đề đặt (k − 1) RM S i=1 i=1 k tìm cố lượng cỡ mẫu n cho zβ đáp ứng yêu cầu power = 0.80 hay 0.90, mà zβ = (k − 1) (1 + nλ) F + k (n − 1) (1 + 2nλ) × k (n − 1) (k − 1) (1 + nλ) − (1|2nλ) − F (k − 1) (1 + nλ) (2k (n − 1) − 1) (12.3) Trong F kiểm định F (Xem J Fleiss, “The Design and Analysis of Clinical Experiments”, John Wiley Sons, New York 1986, trang 373) Ví dụ 26 Để so sánh độ loại nước uống nhóm đối tượng khác giới tính độ tuổi (tạm gọi nhóm A, B, C D), nhà nghiên cứu giả thiết độ nhóm A, B C D lần lược 4.5, 3.0, 5.6, 1.3 Qua xem xét nhiều nghiên cứu trước, nhà nghiên cứu biết RMS độ nhóm khoảng 8.7 Vấn đề đặt đối tượng cần nghiên cứu để phát khác biệt có ý nghĩa thống kê mức độ α = 0.05 power = 0.9 Hàm power.anova.test R ứng dụng để giải vấn đề Chúng ta cần đơn giản cung cấp số trung bình theo giả thiết số RMS sau: # trước hết cho số trung bình vào vector groupmeans

Ngày đăng: 29/07/2022, 13:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w