Cách làm các dạng bài phân tích số liệu và biểu đồ trên R Studio: nhập, thao tác dữ liệu; tính các giá trị của dữ liệu; vẽ biểu đồ cho một hoặc hai biến số rời rạc; vẽ biểu đồ cột, biểu đồ tán xạ, biểu đồ box plot
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN- ĐHQGHN -֍֍֍֍֍ - ĐỀ TÀI: “ Phân tích số liệu biểu đồ R Studio” Sinh viên thực hiện: TTKT Mã sinh viên: ******** Lớp: ******** Giáo viên hướng dẫn: TVC Môn: Nhập mơn phân tích liệu MỤC LỤC NHẬP DỮ LIỆU VÀ CÁC THAO TÁC DỮ LIỆU a LOẠI BỎ DỮ LIỆU TRỐNG b XEM DỮ LIỆU .1 c TRÍCH RA MỘT DỮ LIỆU d TÍNH GIÁ TRI TRUNG BÌNH, TRUNG VỊ, MIN,MAX ( “data1“) VẼ BIỂU ĐỒ CHO MỘT BIẾN SỐ RỜI RẠC .1 VẼ BIỂU ĐỒ CHO HAI BIẾN SỐ RỜI RẠC .3 VẼ BIỂU ĐỒ QUẠT .5 VẼ BIỂU ĐỒ TÁN XẠ BIỂU ĐỒ BOX- PLOT MƠ HÌNH 12 NHẬP DỮ LIỆU VÀ CÁC THAO TÁC DỮ LIỆU - Nhập: setwd("C:\\Users\\Lenovo\\Desktop\\KIM THU") data= read.csv("100-Sales-Records.csv", header = T) Kết quả: a LOẠI BỎ DỮ LIỆU TRỐNG - Nhập: data= na.omit(data) b XEM DỮ LIỆU - Sử dụng hàm “ View” “ Sumary” View ( data) - Hoặc: Summary.data.frame(data) c TRÍCH RA MỘT DỮ LIỆU data1 = subset(data,data$Item.Type=="Baby Food") d TÍNH GIÁ TRI TRUNG BÌNH, TRUNG VỊ, MIN,MAX ( “data1“) max(data1$Total.Profit) [1] 951410.5 min(data1$Total.Profit) [1] 122029.8 mean(data1$Total.Profit) [1] 555234.8 median(data1$Total.Profit) [1] 532885.7 VẼ BIỂU ĐỒ CHO MỘT BIẾN SỐ RỜI RẠC Đề bài: Vẽ biểu đồ cột để so sánh số lượt mua mặt hàng “Baby Food” hình thức online offline liệu “data1” Trước hết, cần dùng hàm table để biết tần số: table(data1$ Sales.Channel) Offline Online - Sau dùng hàm barplot để thể tần số sau: barplot(table(data1$Sales.Channel), main = "Biểu đồ phương thức mua mặt hàng Baby Food ", ylab = "Lượt mua", ylim= c(0,5)) - Thay thể nhiều cột, thể nhiều dịng thơng số “ horiz = TRUE”, sau: barplot(table(data1$Sales.Channel), main = "Biểu đồ phương thức mua mặt hàng Baby Food ", xlab = "Lượt mua", xlim= c(0,5), horiz = T ) Nhận xét: Qua biểu đồ cho thấy lượt khách hàng mua “Baby Food” bảng thống kê đặt hàng online nhiều offline lượt VẼ BIỂU ĐỒ CHO HAI BIẾN SỐ RỜI RẠC Đề bài: Vễ biểu đồ cột cho biết khu vực ưa chuộng hình thức mua “online” hay “offline” mặt hàng “Baby Food” Ta sử dụng lệnh table để tìm tần số table(data1$Region , data1$Sales.Channel) Australia and Oceania Europe Sub-Saharan Africa Offline Online 1 Để thể tần số hai biến này, dùng barplot: barplot(table(data1$Region , data1$Sales.Channel), main = "Biểu đồ phương thức mua mặt hàng Baby Food khu vực", ylim= c(0,5), ylab ="Lượt mua", col = 1:3) - Thay thể tần số nam nữ cột, thể cột với “ beside=T” sau barplot(table(data1$Region , data1$Sales.Channel), main = "Biểu đồ phương thức mua mặt hàng Baby Food khu vực", ylim= c(0,5), ylab ="Lượt mua", col = 1:3, beside=T ) - Đồng thời tạo thích vùng cho biểu đồ legend (4.9, c("Australia and Oceania","Europe","Sub-Saharan Africa"), pch = 15,col = 1:3) Nhận xét: qua biểu đồ cho thấy bảng thống kê, mặt hàng “Baby Food” + Ở "Australia and Oceania" có lượt mua online lượt offline + Ở "Europe", lượt mua online lượt nhiều lượt mua offline lượt + Ở "Sub- Saharan Africa" có lượt mua offline khơng có lượt mua online VẼ BIỂU ĐỒ QUẠT Đề : Vẽ biểu đồ quạt cho biến thể tỉ suất người mua đồ onl off trong liệu “data” pie(table(data$Sales.Channel), main = "BIỂU ĐỒ QUẠT THỂ HIỆN TỈ SUẤT NGƯỜI MUA ĐỒ ONLINE VÀ OFFLINE" , col = 3:2) Và tạo thích cho biểu đồ: legend (1.1, c("Online","Offline"), pch = 15,col = 3:2) Đề bài: Hãy phân loại đơn hàng chia theo lợi nhuận (Total.Profit): lợi nhuận < = 500000 thuộc nhóm “A”, 500000< lợi nhuận1000000 thuộc nhóm “C” Đặt tên liệu (Gồm liệu cũ phân loại) data2 Vẽ biểu đồ quạt thêm thích cho biến liệu vừa phân loại NHOM= data$Total.Profit data2=data.frame(data,NHOM) NHOM= replace(NHOM,data2$Total.Profit < 500000,"A") NHOM=replace(NHOM, data2$Total.Profit >= 500000 & data2$Total.Profit 1000000,"C") data2=data.frame(data,NHOM) - Vẽ biểu đồ quạt: pie(table(data2$NHOM ), main = "BIỂU ĐỒ CÁC NHÓM LỢI NHUẬN" , col = 2:4) legend (1.1, c("NHÓM A","NHÓM B","NHÓM C"), pch = 17,col = 2:4) VẼ BIỂU ĐỒ TÁN XẠ Đề bài: Vẽ biểu đồ tán xạ đơn giá bán ( Unit.Price) đơn giá gốc (Unit.Cost) plot(data$Unit.Price , data$Unit.Cost, main = "BIỂU ĐỒ TÁN XẠ CỦA Unit.Price ĐỐI VỚI Unit.Cost ", xlab = "Unit.Cost", ylab = "Unit.Price") - Chúng ta dùng hàm trơn để biểu diễn mối liên hệ hai biến số - lines(lowess(data$Unit.Price , data$Unit.Cost, f=2/3, iter=3), col="red") Có thể thí nghiệm với nhiều thơng số f=2/5 f=1/10 BIỂU ĐỒ BOX- PLOT Đề bài: Vẽ biểu đồ hộp box- plot cho mặt hàng có số lượt khách mua hàng “Clothes” “Cosmetics" sau so sánh tổng lợi nhuận thu từ chúng table(data$Item.Type=="Clothes",data$Item.Type=="Clothes") FALSE TRUE FALSE 87 TRUE 13 clothes = subset(data,data$Item.Type=="Clothes") cosmetics = subset(data,data$Item.Type=="Cosmetics") boxplot(cosmetics$Total.Profit,clothes$Total.Profit,ylab="Total.Profit",ylim = c(0,2000000), main= "so sánh tổng lợi nhuận thu từ mặt hàng Clothes Cosmetics", col=7, horizontal=T ) sum(cosmetics$Units.Sold) [1] 83718 sum(clothes$Units.Sold) [1] 71260 Nhận xét: Như dù có lượt đặt hàng số lượng mặt hàng đơn bán “Cosmetics” nhiều “Clothes” Theo biểu đồ ta thấy +) “Clothes” có median (trung vị) khoảng 400000, 25% Total.Profit khoảng 300000 75% Total.Profit thấp 600000 Total.Profit thấp < 100000 cao khoảng 750000 +) “Cosmetics” có median ( trung vị) khoảng 1250000, 25% Total.Profit khoảng 800000 75% Total.Profit 300000 cao khoảng 1700000 Đề bài: Sử dụng quy tắc 3Q để loại bỏ liệu bất thường lợi nhuận (Profit) a=data$Total.Profit Q2= median(a) Q1= quantile(a,0.25) Q3= quantile(a,0.75) Khoảng tứ phân vị IQR= Q3-Q1 - Sử dụng quy tắc 3Q để loại bỏ liệu bất thường Q1-3*IQR < a & a < Q3+3*IQR b=subset(data,Q1-3*IQR < a & a < Q3+3*IQR) boxplot(a,b$Total.Profit,main="Biểu đồ Box- plot cho tổng lợi nhuận ",col = 7, horizontal = T) 10 Nhận xét: Vậy khơng có giá trị bất thường liệu cho Đề bài: - Tìm phương sai độ lệch chuẩn “a” + tìm phương sai var(a) [1] 192315495928 + tìm độ lệch chuẩn sd(a) [1] 438537.9 người ta thường sử dụng độ lệch chuẩn để đo độ biến thiên độ lệch tiêu chuẩn có đơn vị đo với biến - Tìm khoảng biến thiên “a” range=max(a)-min(a) range [1] 1718664 - Tìm midrange “a” 11 +) midhin=(Q3-Q1)/2 midhin 75% 257192.6 +) midra=(max(a)+min(a))/2 midra [1] 860590 MƠ HÌNH Giả sử tổng lợi nhuận trung bình µ0= 450000 Để kiểm tra ta đặt T= x−µ √ n (với n cỡ mẫu (length)) s x= mean(a) s=sd(a) n= length(a) T= (x-u0)*sqrt(n)/s 12