1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các câu lệnh phổ biến trong R

14 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

 Cách 1: nhập từng biến rồi sau đó nhập chung các biến thành 1 tập tin số liệu var is.data.frame(chol) tập tin có phải là [1] TRUE data.frame hay không Muốn biết tập tin dim(tên tập tin) > dim(chol) số liệu có bao [1] 50 8 nhiêu hàng và bao nhiêu cột Liệt kê tên các names(tập tin) > names(chol) biến (các cột) [1] "id" "sex" "age" "bmi" "hdl" "ldl" "tc" "tg" trong tập tin số liệu summary(tập tin) > summary(ivf) Mô tả tập tin số summ(tập tin) > summ(ivf) liệu > describe(ivf) describe(tập tin) > des(ivf) Loại bỏ số des(tập tin) > ivf liệu trống (missing tập tin value) > chol.new table (gioi) biến số định tính tab1(var) > barplot(sex.freq, horiz = TRUE, col = Mô tả 01 biến số tab1(var,bar.values=”pervent”) rainbow(length(sex.freq)), định lượng table (var)  Dùng biểu đồ thanh main=”Frequency of males and females”) Mô tả 02 biến định newvar pie(table(ageg)) barplot(newvar,horiz=…,col=….,main=”tên biểu đồ”)  Dùng biểu đồ hình tròn pie(var)  Dùng các số tập trung và phân tán summary(tangha) summary(var) > stripchart(tg, main=”Strip chart for triglycerides”, describe(var) xlab=”mg/L”) > hist(age, main="Frequency distribution by age  Dùng biểu đồ stripchart để tìm hiểu tính liên tục group", xlab="Age stripchart(var,mai=”tên biểu đồ”,xlab=”tựa trục hoành”) group", ylab="No of patients") > plot(density(age),add=TRUE)  Dùng biểu đồ histogram > boxplot(tc, main="Box plot of total cholesterol", hist(var,main=”tên biểu đồ”,xlab=”tên trục ylab="mg/L") hoành”,ylab=”tên trục tung”) > table(gioi,tuoi)  Biến đổi biểu đồ histogram thành phân phối xác suất > tabpct(gioi,nghenghiep,percent=”col”) plot(density(var),add=TRUE)  Dùng biểu đồ hộp boxplot(var,main=”tên biểu đồ”,xlab=”tên trục hoành”,ylab=”tên trục tung”)  Dùng biểu đồ stem stem(var)  Dùng biểu đồ chấm dotplot(var)  Sử dụng bảng tần suất tính table(var1,var2) > age.sex barplot(age.sex, main=”Number of males and  Sử dụng biểu đồ thanh females in each age var1 plot(tc, hdl) lượng plot(biến trục hoành,biến trục tung) > plot(hdl ~ tc, pch=16, main="Total cholesterol and Mô tả nhiều biến  Vẽ đường thẳng hồi quy tuyến tính HDL cholesterol", định lượng plot(biến trục tung ~biến trục hoành, phc=16, xlab="Total cholesterol", ylab="HDL cholesterol", Mô tả 01 biến định bty=”l”) lượng và 01 biến main=”tên biểu đồ”,xlab=”tên trục hoành”,ylab=”tên > reg abline(reg) reg tapply(igfi, list(sex), mean) tapply(biến định lượng, biến định tính, mean) Female Male 167.9741 160.2903 Kiểm định t một t.test(var,mu=giá Thống kê phân tích mẫu trị) > t.test(age, mu=30) Kiểm định t bắt One Sample t-test cặp data: age t = -27.6563, df = 99, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 30 95 percent confidence interval: 18.39300 19.94700 sample estimates: mean of x 19.17 Trong lệnh trên age là biến số chúng ta cần kiểm định, và mu=30 là giá trị giả thiết R trình bày trị số t = -27.66, với 99 bậc tự do, và trị số p < 2.2e-16 (tức rất thấp) R cũng cho biết độ tin cậy 95% của age là từ 18.4 tuổi đến 19.9 tuổi (30 tuổi nằm quá ngoài khoảng tin cậy này) Nói cách khác, chúng ta có lí do để phát biểu rằng độ tuổi trung bình trong mẫu này thật sự thấp hơn độ tuổi trung bình của quần thể  Dùng kiểm định t bắt cặp > t.test(before, after, paired=TRUE) in means is not t.test(before,after,paired=TRUE) Paired t-test máu giảm 10.5 mmHg, data: before and after  Dùng kiểm định Wilcoxon t = 2.7924, df = 9, p-value = 0.02097 wilcox.test(before,after,paired=TRUE) alternative hypothesis: true difference equal to 0 95 percent confidence interval: 1.993901 19.006099 sample estimates: mean of the differences 10.5 Kết quả trên cho thấy sau khi điều trị áp suất Biến phụ thuộc là  Kiểm tra phân phối bình thường của biến và khoảng tin cậy biến định lượng- phụ thuộc 95% là từ 2.0 mmHg đến 19 mmHg, với trị số p = 0.0209 Như vậy, biến độc lập là shapiro.test(biến phụ thuộc) chúng ta có bằng biến nhị giá chứng để phát biểu rằng mức độ giảm huyết áp có ý nghĩa thống kê  Nếu biến phụ thuộc không có phân phối > wilcox.test(before, after, paired=TRUE) bình thường:dùng phép kiểm Wilcoxon Wilcoxon signed rank test with continuity correction wilcox.test(biến phụ thuộc~biến độc lập) data: before and after V = 42, p-value = 0.02291  Nếu biến định lượng có phân phối bình alternative hypothesis: true mu is not equal to 0 thường, hai nhóm có cùng phương sai Kết quả trên một lần nữa khẳng định rằng độ giảm áp suất máu có ý t.test(biến phụ thuộc ~ biến độc nghĩa thống kê với trị số (p=0.023) chẳng khác mấy so với kiểm lập,var.equal=TRUE) định t cho từng cặp > shapiro.test(igfi) Shapiro-Wilk normality test data: igfi W = 0.8528, p-value = 1.504e-08 > wilcox.test(igfi ~ sex) Wilcoxon rank sum test with continuity correction data: igfi by sex W = 1125, p-value = 0.6819 alternative hypothesis: true mu is not equal to 0 > t.test(igfi~ sex, var.equal=TRUE) Two Sample t-test data: igfi by sex t = 0.7071, df = 98, p-value = 0.4812 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -13.88137 29.24909 sample estimates: mean in group Female mean in group Male 167.9741 160.2903  Nếu biến định lượng có phân phối bình > t.test(igfi~ sex) thường, hai nhóm khác phương sai Welch Two Sample t-test t.test((biến phụ thuộc~biến độc lập) data: igfi by sex t = 0.8412, df = 88.329, p-value = 0.4025 Một biến phụ Dùng anova một chiều alternative hypothesis: true difference in means is not equal to 0 thuộc là biến định  Dùng anova hai chiều 95 percent confidence interval: lượng-một biến  Dùng phép kiểm chi bình phương -10.46855 25.83627 độc lập trên hai sample estimates: giá trị prop.test(số giá trị,n,tỷ lệ giả thuyết) mean in group Female mean in group Male Một biến phụ 167.9741 160.2903 thuộc là biến định lượng-hai biến độc > prop.test(69, 100, 0.50) lập là biến định 1-sample proportions test with continuity correction tính data: 69 out of 100, null probability 0.5 Kiểm định tỷ lệ X-squared = 13.69, df = 1, p-value = 0.0002156 một mẫu alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval:  Hoặc dùng phép kiểm nhị phân 0.5885509 0.7766330 binom.test(x,n,giá trị giả thuyết) sample estimates: p 0.69 > binom.test(69, 100, 0.50) Exact binomial test data: 69 and 100 Một biến phụ prop.test(biến phụ thuộc,biến độc lập) number of successes = 69, number of trials = 100, p-value = thuộc là biến nhị prop.test(biến phụ thuộc,biến độc lập) 0.0001831 giá-một biến độc alternative hypothesis: true probability of success is not equal to lập là biến nhị giá 0.5 95 percent confidence interval: Một biến phụ 0.5896854 0.7787112 thuộc là biến nhị sample estimates: giá-một biến độc probability of success lập là biến định 0.69 tính nhiều giá trị > prop.test(fracture, total) 2-sample test for equality of proportions with continuity correction data: fracture out of total X-squared = 4.8901, df = 1, p-value = 0.02701 alternative hypothesis: two.sided 95 percent confidence interval: -0.20908963 -0.01454673 sample estimates: prop 1 prop 2 0.0700000 0.1818182 > female total prop.test(female, total) 4-sample test for equality of proportions without continuity correction data: female out of total X-squared = 6.2646, df = 3, p-value = 0.09942 alternative hypothesis: two.sided sample estimates: prop 1 prop 2 prop 3 prop 4 0.5000000 0.7166667 0.7333333 0.0000000 Warning message: Chi-squared approximation may be incorrect in: prop.test(female, chisq.test(biến phụ thuộc,biến độc lập) total) chisq.test(sex, Nếu giá trị trong ô nhỏ cần sử dụng kiểm định > chisq.test(sex, ethnicity) fisher exact Pearson's Chi-squared test data: sex and ethnicity fisher.test(biến phụ thuộc,biến độc lập) X-squared = 6.2646, df = 3, p-value = 0.09942  Kiểm tra mối liên hệ giữa hai biến định Warning message: Chi-squared approximation may be incorrect in: lượng ethnicity) plot(var1~var2,phc=16) > fisher.test(sex, ethnicity) Fisher's Exact Test for Count Data  Tínhhệ số tương quan pearson data: sex and ethnicity cor(var1,var2) p-value = 0.1048 alternative hypothesis: two.sided  Kiểm định hệ số pearson Mối liên hệ giữa cor.test(var1,var2) > plot(chol ~ age, pch=16) hai biến định > cor(age, chol) lượng  Tính hệ số tương quan spearman [1] 0.936726 co.test(var1,var,method=”spearman”) > cor.test(age, chol) Mối liên hệ giữa Pearson's product-moment correlation một biến định data: age and chol lượng và định tính t = 10.7035, df = 16, p-value = 1.058e-08 (hay giữa hai biến alternative hypothesis: true correlation is not equal to 0 định lượng không 95 percent confidence interval: có phân phối 0.8350463 0.9765306 chuẩn sample estimates: cor 0.936726 > cor.test(age, chol, method="spearman") Spearman's rank correlation rho data: age and chol S = 51.1584, p-value = 2.57e-09 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.947205  Tính hệ số tương quan kendall Warning message: cor.test(var1,var2,method=”kendall”) Cannot compute exact p-values with ties in: cor.test.default(age, Lập phương trình newvar cor.test(age, chol, method="kendall") Kendall's rank correlation tau data: age and chol z = 4.755, p-value = 1.984e-06 alternative hypothesis: true tau is not equal to 0 sample estimates: tau 0.8333333 Warning message: Cannot compute exact p-value with ties in: cor.test.default(age, chol, method = "kendall") > reg summary(reg) Call: lm(formula = chol ~ age) Residuals: Min 1Q Median 3Q Max -0.40729 -0.24133 -0.04522 0.17939 0.63040 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 1.089218 0.221466 4.918 0.000154 *** age 0.057788 0.005399 10.704 1.06e-08 *** - Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.3027 on 16 degrees of freedom Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698 F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08 Biểu diễn phương > plot(chol ~ age, pch=16) trình hồi quy > abline(reg) tuyến tính  

Ngày đăng: 19/03/2024, 16:37

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w