Stata cơ bản cho người mới học

13 1.2K 4
Stata cơ bản cho người mới học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Baøi (STATA) SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ TRONG NGHIÊN CỨU KHOA HỌC PHÂN TÍCH PHƯƠNG SAI (ONE-WAY ANOVA), TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH TS BS Tăng Kim Hồng Phân tích phương sai - Mở file “PULSE” để phân tích - Lệnh sử dụng STATA sau: + Statistics -> Linear models and related -> ANOVA/MANOVA -> One-way ANOVA -> Chọn biến số cần kiểm định (response variable) biến số phân nhóm (factor variable) -> Chọn loại test so sánh nhóm (Multiple-comparison tests) -> Submit (Giả sử giả định phân phối bình thường biến số thỏa) Lớp Phương pháp NCKH – Chương trình CUD UPNT03 oneway weight activity, bonferroni scheffe tab | Summary of weight activity | Mean Std Dev Freq + -0 | 66 1 | 65.888889 12.830086 | 63.360656 10.773475 61 | 65.047619 9.2977212 21 + -Total | 64.021739 10.53198 92 Analysis of Variance Source SS df MS F Prob > F -Between groups 84.0496781 28.0165594 0.25 0.8638 Within groups 10009.9068 88 113.748941 -Total 10093.9565 91 110.922599 Bartlett's test for equal variances: 0.527 chi2(2) = 1.2830 Prob>chi2 = note: Bartlett's test performed on cells with positive variance: single-observation cells not used Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Comparison of weight by activity (Bonferroni) Row Mean-| Col Mean | -+ | -.111111 | 1.000 | | -2.63934 -2.52823 | 1.000 1.000 | | -.952381 -.84127 1.68696 | 1.000 1.000 1.000 Comparison of weight by activity (Scheffe) Row Mean-| Col Mean | -+ | -.111111 | 1.000 | | -2.63934 -2.52823 | 0.996 0.931 | | -.952381 -.84127 1.68696 | 1.000 0.998 0.942 Giá trị p Bartlett’s test (test chứng minh phương sai nhau) = 0.527 tức lớn giá trị 0.05 nhiều, cho thấy phương sai nhóm vận động thể lực tương tự Giá trị p F test = 0.8638, chứng tỏ trung bình cân nặng nhóm vận động thể lực không khác Kết test so sánh nhóm với Bonferroni hay Scheffe cho kết tương tự Điều gợi ý khác biệt cách có ý nghĩa trung bình cân nặng nhóm có hoạt động thể lực khác Tương quan - Mở file “PULSE” để phân tích - Trước tính hệ số tương quan, nên vẽ đồ thị scatterplot để khảo sát mắt liên quan giũa biến số - Lệnh sử dụng STATA: scatter y x, biến số y tạo thành trục tung biến số x tạo thành trục hoành Giả sử ta khảo sát liên quan biến số pulse1 pulse2 twoway (scatter pulse2 pulse1) 40 60 pulse2 80 100 120 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 50 60 70 80 90 100 pulse1 Đồ thị scatter plots cho thấy có liên quan tuyến tính biến số pulse1 pulse2 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Như phần lý thuyết biết: biến số x y phân phối bình thường tương quan biến số tính hệ số tương quan r – hay gọi hệ số tương quan Pearson, hay gọi product moment correlation coeficient Nếu biến số x y phân phối không bình thường tương quan tính hệ số tương quan Spearman - Để tính hệ số tương quan Pearson, lệnh STATA sau: + Statistics -> Summaries, tables, and tests -> Summary and descriptive statistics -> Correlations and covariances -> Chọn biến số cần tính tương quan -> Submit Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết có sau: correlate pulse1 pulse2 (obs=90) | pulse1 pulse2 -+ -pulse1 | 1.0000 pulse2 | 0.5999 1.0000 Không giống nhiều phần mềm khác, STATA không cho biết giá trị p phép kiểm chứng minh hệ số tương quan khác không, ta phải dùng cách khác để tính giá trị p Trong trường hợp p Summaries, tables, and tests -> Non-parametric tests of hypotheses -> Spearman’s rank correlation -> Chọn biến số cần tính tương quan -> Submit Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết có sau: spearman pulse1 pulse2, stats(rho) Number of obs = Spearman's rho = 90 0.6393 Test of Ho: pulse1 and pulse2 are independent Prob > |t| = 0.0000 Trong trường hợp này, STATA cho biết giá trị p phép kiểm chứng minh hệ số tương quan khác không, ta phải dùng cách khác để tính giá trị p Trong trường hợp p Linear model and related -> Linear regression -> Chọn biến số cần làm regression -> Submit Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết có sau: regress weight height Source | SS df MS -+ -Model | 6180.73703 6180.73703 Residual | 3913.21949 90 43.4802166 -+ -Total | 10093.9565 91 110.922599 Number of obs F( 1, 90) Prob > F R-squared Adj R-squared Root MSE = = = = = = 92 142.15 0.0000 0.6123 0.6080 6.594 -weight | Coef Std Err t P>|t| [95% Conf Interval] -+ -height | 9015106 075613 11.92 0.000 7512921 1.051729 _cons | -90.59713 12.98666 -6.98 0.000 -116.3974 -64.79685 Phần bảng cho ta kết sum of square (thường không sử dụng) Chúng ta biết số đối tượng khảo sát 92 Kết R-squared = 0.6123, cho biết 61% cân nặng giải thích mối liên quan tuyến tính với chiều cao Phần bảng kết cho ta số ước lượng Y intercept - (a) (trong bảng kết quả, hiểu “_cons”) độ dốc - β Phương trình hồi qui sau: cân nặng = -90.6 + 0.9 × chiều cao Với phép kiểm H0: β = 0, số thống kê tính t = 11.9, có p < 0.001, ta loại bỏ giả thiết H0 cho độ dốc 0, kết luận thật có mối liên quan tuyến tính cách có ý nghĩa chiều cao cân nặng 3.2 Tiên đoán kết sau chạy lệnh regression Sau chạy lệnh regress, STATA lưu trữ hệ số ước lượng sai số chuẩn biến số gọi “biến số hệ thống” Các biến số hệ thống 10 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 lưu lại nhớ chạy lệnh regression khác Các “biến số hệ thống” sử dụng lệnh “predict” để tính: • giá trị tiên đoán (predicted values), • số dư (residuals), • sai số chuẩn giá trị trung bình ước lượng Y, • sai số chuẩn giá trị ước lượng Y Ví dụ để tạo biến số gọi “pweigh” có chứa giá trị tiên đoán cân nặng dựa chiều cao số liệu, ta dùng lệnh sau: predict pweight * Lưu ý: Lệnh predict không tạo kết hết, để thấy kết việc tạo pweight ta dùng lệnh sum sum weight pweight sum weight pweight Variable | Obs Mean Std Dev Min Max -+ -weight | 92 64.02174 10.53198 42 95 pweight | 92 64.02174 8.24137 46.43248 77.98535 Hồi qui tuyến tính đa biến Bài tập: Giả sử muốn khảo sát cân nặng trẻ em suy dinh dưỡng thay đổi theo chiều cao tuổi Biến số kết (outcome) y = wgt biến số giải thích x1 = hgt x2 = age Một mẫu ngẫu nhiên 12 trẻ rút từ số trẻ bệnh trại A Cân nặng (wgt), chiều cao (hgt) tuổi (age) sau: Cân nặng (wgt) Chiều cao (hgt) Tuổi (age) 64 57 71 59 10 53 49 67 62 11 55 51 58 50 77 55 10 57 48 56 42 10 51 42 76 61 12 68 57 - Lệnh sử dụng STATA: + Statistics -> Multivariate analysis -> MANOVA, multivariate regression and related -> Multivariate regression -> Nhập biến số cần chạy regression -> Submit regress wgt hgt age 11 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết có sau: regress wgt hgt age Source | SS df MS Number of obs = 12 -+ -F( 2, 9) = 15.95 Model | 692.822607 346.411303 Prob > F = 0.0011 Residual | 195.427393 21.7141548 R-squared = 0.7800 -+ -Adj R-squared = 0.7311 Total | 888.25 11 80.75 Root MSE = 4.6598 -wgt | Coef Std Err t P>|t| [95% Conf Interval] -+ -hgt | 722038 2608051 2.77 0.022 1320559 1.31202 age | 2.050126 9372256 2.19 0.056 -.0700253 4.170278 _cons | 6.553048 10.94483 0.60 0.564 -18.20587 31.31197 Kết cho thấy F = 346.41/21.71 = 15.96 với (2,9) độ tự Giá trị p F-test = 0.0011 gợi ý nên loại bỏ H0 kết luận có tỉ lệ đáng kể thay đổi cân nặng giải thích chiều cao tuổi R-squared = 0.78, cho biết chiều cao tuổi giải thích 78% thay đổi cân nặng giải thích mối liên quan tuyến tính với chiều cao Adjusted R-square tỉ lệ thay đổi y giải thích phương trình hồi qui Ở đây, adjusted R-square = 0.73, cho thấy sau hiệu chỉnh R cho biến số đưa vào mô hình, giải thích khoảng 73% thay đổi y Phương trình hồi qui có a= 6.55, b1 = 0.72, b2 = 2.05 Điều có nghĩa chiều cao = 0, tuổi = cân nặng 6.55 pounds Hoặc chiều cao tăng 1cm cân nặng tăng 0.72 pounds (nếu tuổi giữ nguyên), tuổi tăng năm cân nặng tăng 2.95 pounds (nếu chiều cao giữ nguyên) 12 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 BÀI TẬP THỰC HÀNH Bài tập Sử dụng file “lowbwt” để trả lời câu hỏi sau đây: a) Tạo đồ thị two-way scatter plot biến số sbp (HA tâm thu) gestage (tuổi thai) b) Đồ thị có đưa gợi ý mối liên quan biến số không? c) Giả sử sbp biến số kết quả, viết phương trình hồi qui thể mối liên quan sbp tuổi thai Diễn giải the slope and the y-intercept of the line d) Ở mức ý nghĩa 0.05, kiểm định giả thiết H0: β = e) Hãy tiên đoán HA tâm thu thai phụ có tuổi thai 31 tuần Bài tập 1) Hãy dùng STATA để nhập số liệu sau, đó: Y = Trung bình huyết áp động mạch (mm Hg) X1 = Tuổi (năm) X2 = Cân nặng (kg) X3 = Diện tích bề mặt thể (m2) X4 = Thời gian bị CHA (năm) X5 = Mạch (lần/phút) X6 = Số đo mức độ tress 2) Những biến số liên quan cách có ý nghĩa với trung bình huyết áp động mạch 13 [...]... trình CUD UPNT03 được lưu lại trong bộ nhớ cho đến khi chúng ta chạy lệnh regression khác Các “biến số hệ thống” này sẽ được sử dụng bởi các lệnh “predict” để tính: • giá trị tiên đoán (predicted values), • số dư (residuals), • sai số chuẩn của giá trị trung bình được ước lượng của Y, • sai số chuẩn của giá trị được ước lượng của Y Ví dụ để tạo ra một biến số mới được gọi là “pweigh” có chứa các giá... 10.94483 0.60 0.564 -18.20587 31.31197 Kết quả cho thấy F = 346.41/21.71 = 15.96 với (2,9) độ tự do Giá trị p của F-test = 0.0011 gợi ý rằng chúng ta nên loại bỏ H0 và kết luận là có 1 tỉ lệ đáng kể thay đổi của cân nặng được giải thích bởi chiều cao và tuổi R-squared = 0.78, cho chúng ta biết chiều cao và tuổi giải thích được 78% sự thay đổi của cân nặng được... cân nặng được giải thích bằng mối liên quan tuyến tính với chiều cao Adjusted R-square là tỉ lệ thay đổi của y được giải thích bằng phương trình hồi qui Ở đây, adjusted R-square = 0.73, cho thấy sau khi hiệu chỉnh R cho 2 biến số được đưa vào mô hình, chúng ta có thể giải thích được khoảng 73% sự thay đổi của y Phương trình hồi qui sẽ có a= 6.55, b1 = 0.72, b2 = 2.05 Điều này có nghĩa là nếu chiều cao... nghĩa 0.05, hãy kiểm định giả thiết H0: β = 0 e) Hãy tiên đoán HA tâm thu của thai phụ có tuổi thai là 31 tuần Bài tập 2 1) Hãy dùng STATA để nhập số liệu sau, trong đó: Y = Trung bình huyết áp động mạch (mm Hg) X1 = Tuổi (năm) X2 = Cân nặng (kg) X3 = Diện tích bề mặt cơ thể (m2) X4 = Thời gian bị CHA (năm) X5 = Mạch (lần/phút) X6 = Số đo mức độ tress 2) Những biến số nào liên quan một cách có ý nghĩa... chiều cao (hgt) và tuổi (age) như sau: Cân nặng (wgt) Chiều cao (hgt) Tuổi (age) 64 57 8 71 59 10 53 49 6 67 62 11 55 51 8 58 50 7 77 55 10 57 48 9 56 42 10 51 42 6 76 61 12 68 57 9 - Lệnh sử dụng trong STATA: + Statistics -> Multivariate analysis -> MANOVA, multivariate regression and related -> Multivariate regression -> Nhập biến số cần chạy regression -> Submit regress wgt hgt age 11 Lớp Phương pháp ... Phần bảng cho ta kết sum of square (thường không sử dụng) Chúng ta biết số đối tượng khảo sát 92 Kết R-squared = 0.6123, cho biết 61% cân nặng giải thích mối liên... 61% cân nặng giải thích mối liên quan tuyến tính với chiều cao Phần bảng kết cho ta số ước lượng Y intercept - (a) (trong bảng kết quả, hiểu “_cons”) độ dốc - β Phương trình hồi qui sau: cân... 0.6393 Test of Ho: pulse1 and pulse2 are independent Prob > |t| = 0.0000 Trong trường hợp này, STATA cho biết giá trị p phép kiểm chứng minh hệ số tương quan khác không, ta phải dùng cách khác để

Ngày đăng: 03/12/2015, 09:55

Từ khóa liên quan

Mục lục

  • TS. BS Tăng Kim Hồng

Tài liệu cùng người dùng

Tài liệu liên quan