(Tiểu luận) tiểu luận môn học thống kê trong khoa học sự sống

1 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG TIỂU LUẬN GIỮA KỲ MÔN HỌC: THỐNG KÊ TRONG KHOA HỌC SỰ SỐNG Mã môn học: C01145 TP HỒ CHÍ MINH, THÁNG 03 NĂM 2022 0 h TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG TIỂU LUẬN GIỮA KỲ MÔN HỌC: THỐNG KÊ TRONG KHOA HỌC SỰ SỐNG Mã môn học: C01145 H v tên sinh viên: Nguyễn Hải Trung Mã số sinh viên: 62101070 Ngnh hc: Kỹ thuật hóa hc Email: 62101070@student.tdtu.edu.vn TP HỒ CHÍ MINH, THÁNG 03 NĂM 2022 0 h MSSV:62101070 (a=0,b=1,c=0,d=7,e=0) BÀI LÀM Câu 1: a) > No = c(1:10) > No [1] 10 > Name = c('Anh','Dat','Hong','Huong','Khoa','Lành','Linh','Thoai','Trung','Ngoc') > Name [1] "Anh" "Dat" "Hong" "Huong" "Khoa" "Lành" "Linh" "Thoai" "Trung" [10] "Ngoc" > Gender = c('Female','Male','Female','Female','Male','Female','Female','Male','Male','Female') > Gender [1] "Female" "Male" "Female" "Female" "Male" "Female" "Female" "Male" [9] "Male" "Female" > YOB = c(2001,2001,1992,1978,2004,1993,1994,1989,2002,2002) > YOB [1] 2001 2001 1992 1978 2004 1993 1994 1989 2002 2002 0 h > Subject = c('Student','Student',NA,'Officer','Other','Officer','Officer','Other','Student','Student') > Subject [1] "Student" "Student" NA "Officer" "Other" "Officer" "Officer" [8] "Other" "Student" "Student" > Class = c('English','Chinese','Chinese','English','English','Chinese','Chinese','English','Chinese',' English') > Class [1] "English" "Chinese" "Chinese" "English" "English" "Chinese" [7] "Chinese" "English" "Chinese" "English" > data.cau1 = data.frame(No.,Name,Gender,YOB,Subject,Class) > data.cau1 ➔ Diễn giải kết quả: Dữ liệu nhập tên data.cau1 có 11 hàng cột b) > is.na(data.cau1) 0 h ➔ Diễn giải kết quả: Dữ liệu nhập tên data.cau1 có “missing value” cột dòng > data.cau1[is.na(data.cau1)]='Student' > data.cau1 c) > a=0 > b=1 > c=0 > d=7 > e=0 >data.cau1$Fee[data.cau1$Class=='English']=(a+1)*100000+(b+1)*10000+(c+1)*100 0 h >data.cau1$Fee[data.cau1$Class=='Chinese']=(c+1)*100000+(d+1)*10000+(e+1)*100 > data.cau1 ➔ Diễn giải kết quả: Dữ liệu data.cau1 có Class “English” với Fee 121000 có Class “Chinese” với Fee 181000 d) > data.cau1$Discount[data.cau1$Subject=='Student']=data.cau1$Fee*0.1 In data.cau1$Discount[data.cau1$Subject == "Student"] = data.cau1$Fee * : number of items to replace is not a multiple of replacement length > data.cau1$Discount[data.cau1$Subject=='Officer']=data.cau1$Fee*0.05 In data.cau1$Discount[data.cau1$Subject == "Officer"] = data.cau1$Fee * : number of items to replace is not a multiple of replacement length > data.cau1$Discount[data.cau1$Subject=='Other']=0 > data.cau1 0 h ➔ Diễn giải kết quả: Dữ liệu data.cau1 có Subject “Student” -> Discount=Fee*0.1; Subject “Officer” -> Discount=Fee*0.05; Subject “Other” -> Discount=Fee*0 e) > data.cau1$pile.fees=data.cau1$Fee-data.cau1$Discount > data.cau1 ➔ Diễn giải kết quả: Dữ liệu nhập tên data.cau1 có tổng cộng 11 dịng v cột f) > data.cau1[order(YOB),] 0 h ➔ Diễn giải kết quả: Dữ liệu data.cau1 xắp xếp theo chiều năm tăng dần từ 1978 đến 2004 g) >with(data.cau1,Name[data.cau1$Gander=='Female'&data.cau1$Discount==0 ]) → Diễn giải kết quả: Dữ liệu data.cau1 học viên Female giảm học phí h) > with(data.cau1,Name[data.cau1$Class=='English'&data.cau1$Discount>0]) → Diễn giải kết quả: Dữ liệu data.cau1 có học viên lớp English “Anh”, “Huong”, “Ngoc” giảm học phí i) > sum(data.cau1$pile.fees[data.cau1$Subject=='Student']) [1] 712500 > sum(data.cau1$pile.fees[data.cau1$Subject=='Officer']) [1] 458850 > sum(data.cau1$pile.fees[data.cau1$Subject=='Other']) [1] 242000 0 h → Diễn giải kết quả: Tổng số tiền học “Student” 712500; tổng số tiền học “Officer” 458850 tổng số tiền học “Other” 242000 j) >Solieu=c(sum(data.cau1$pile.fees[data.cau1$Subject=='Student']),sum(data.cau1$pile fees[data.cau1$Subject=='Officer']),sum(data.cau1$pile.fees[data.cau1$Subject=='Oth er'])) > Ten=c('Student','Officer','Other') > Nhandan=paste(Ten,Solieu,sep='=') > pie(Solieu,col=c('pink','lightblue','lightyellow'),labels=Nhandan,main='Statis of tuition according to "Subject"') 0 h 10 → Nhận xét: Nhìn biểu đồ ta thấy tổng tiền theo Subject có “Student” có tổng số tiền lớn chiếm 50% biểu đồ “Other” có tổng số tiền thấp chiếm chưa đến 20% biểu đồ oficer chiếm khoảng 30% Câu (4,0 điểm) a) > data.cau2=read.csv(file.choose(),header=TRUE) 0 h 11 > data.cau2 ➔ Diễn giải kết quả: Dữ liệu nhập tên data.cau2 có tổng cộng 27 hàng cột b) a l số chẵn (a=0): tính giá trị trung bình dân số Việt Nam theo vùng > DBSH TDMNPB BTBDHMT TN DNB DBSCL mean(DBSH) [1] 19667.4 > mean(TDMNPB) [1] 11046.13 > mean (BTBDHMT) [1] 18855.28 > mean(TN) [1] 4888.593 > mean(DNB) [1] 13552.89 > mean(DBSCL) [1] 16808.9 → Diễn giải kết quả: Dữ liệu data.cau2 có ❖ Trung bình dân số Đông sông Hồng 19667.4 ❖ Trung bình dân số Trung du miền núi phía Bắc 11046.13 ❖ Trung bình dân số Bắc Trung Bộ Duyên hải miền Trung 18855.28 ❖ Trung bình dân số Tây Nguyên 4888.593 ❖ Trung bình dân số Đơng Nam Bộ 13552.89 ❖ Trung bình dân số Đồng sông Cửu Long 16808.9 c) b l số lẻ (b=1): độ trải giữa, độ lệch chuẩn dân số Việt Nam theo vùng Độ trải giữa: 0 h 13 > IQR(DBSH) [1] 2711.2 > IQR(TDMNPB) [1] 1346.68 > IQR(BTBDHMT) [1] 1156.48 > IQR(TN) [1] 1099.635 > IQR(DNB) [1] 4965.57 > IQR(DBSCL) [1] 820.5075 → Diễn giải kết quả: Dữ liệu data.cau2 có Đơng Nam Bộ có độ trải cao 4965.57 có Đồng Sơng Cửu Long có độ trải thaaos nhấ 820.5075 Độ lệch chuẩn: > sd(DBSH) [1] 1742.074 > sd(TDMNPB) [1] 917.3197 > sd(BTBDHMT) 0 h 14 [1] 851.8149 > sd(TN) [1] 743.1504 > sd(DNB) [1] 2897.522 > sd(DBSCL) [1] 563.4787 → Diễn giải kết quả: Dữ liệu data.cau2 có Đơng Nam có độ lệch chuẩn cao 2897.522 có đồng song Cửu Long có độ lệch chuẩn thấp 563.4787 d) Vẽ biểu đồ thích hợp miêu tả liệu v đưa số nhận xét kết > data.cau2 *Đồng sông Hồng > DBSH=ts(data.cau2$DBSH, start = 1995, end = 2020, frequency = 1) > plot.ts(DBSH, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn người",xlab="Năm", main ="Đồng sông Hồng ") 0 h 15 → Nhận xét: Từ đồ ta thấy Đồng sông Hồng dân số đông tăng từ năm 1995 đến 2020 *Trung du miền núi phía Bắc 0 h 16 > TDMNPB=ts(data.cau2$ TDMNPB, start = 1995, end = 2020, frequency = 1) > plot.ts(TDMNPB, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn người",xlab="Năm", main ="Trung du v miền núi phía Bắc") → Nhận xét: Từ bẳn đồ ta thấy Trung du miền núi phía Bắc từ năm 1995 đến 2020 dân số tăng đồng Nhưng Từ năm 2007 đến 2008 dân số giảm nhẹ *Bắc Trung Bộ duyên hải miền Trung >BTBDHMT =ts(data.cau2$ BTBDHMT, start = 1995, end = 2020, frequency = 1) > plot.ts(BTBDHMT, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn người",xlab="Năm", main ="Bắc Trung Bộ v duyên hải miền Trung") 0 h 17 → Nhận xét: từ đồ ta thấy Bắc trung duyên hải miền Trung từ năm 1995 đến 2020 dân số có tăng khơng đồng *Tây Ngun > TN=ts(data.cau2$TN, start = 1995, end = 2020, frequency = 1) > plot.ts(TN, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn người",xlab="Năm", main ="Tây Nguyên") 0 h 18 →Nhận xét: Từ đồ ta thấy dân số Tây Nguyên từ năm 1995 đến năm 2020 dân số không đông hàng năm tăng đồng *Đông Nam Bộ > DNB=ts(data.cau2$DNB, start = 1995, end = 2020, frequency = 1) > plot.ts(DNB, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn người",xlab="Năm", main ="Đơng Nam Bộ") →Nhận xét: Từ đồ ta thấy dân số Đông Nam Bộ tăng đồng v nhanh Năm 1995 dân số mức 10000 nghìn người đến năm 202 dân số 18000 nghìn người *Đồng sông Cửu Long > DBSCL=ts(data.cau2$DBSCL, start = 1995, end = 2020, frequency = 1) > plot.ts(DBSCL, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn người",xlab="Năm", main ="Đồng sông Cửu Long") 0 h 19 →Nhận xét: Từ đồ ta thấy dân số Đồng sông Cửu Long tăng theo hng năm bắt đâu từ năm 2010 dân số tăng chậm v dường không đáng kể 0 h