1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập thực hành thống kê tính toán

74 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhập và xuất dữ liệu
Tác giả Bùi Thùy Trang
Trường học Trường Đại Học Tôn Đức Thắng
Chuyên ngành Thống kê tính toán
Thể loại Bài tập thực hành
Năm xuất bản 2023
Định dạng
Số trang 74
Dung lượng 6,4 MB

Cấu trúc

  • 1.1 Bài tập (4)
  • 2.1 Bài tập các phân phối rồi rạc (9)
  • 2.2 Bài tập các phân phối liên tục (12)
  • 3.1 Mô tả dữ liệu (15)
    • 3.1.1 Mô tả dữ liệu biến liên tục (15)
    • 3.1.2 Biểu đồ hộp - box-whisker plot (16)
    • 3.1.3 Phân tích mô tả biến phân nhóm (17)
  • 3.2 Biểu đồ (17)
  • 3.3 Bài tập (23)
  • 4.1 Kiểm định tham số (một mẫu) (29)
    • 4.1.1 So sánh trung bình với một số (30)
    • 4.1.2 So sánh tỷ lệ với một số (33)
    • 4.1.3 So sánh phương sai với một số (35)
  • 4.2 Bài tập (35)
  • 4.3 Kiểm định tham số (hai mẫu) (40)
    • 4.3.1 So sánh hai trung bình (40)
    • 4.3.2 So sánh hai tỷ lệ (42)
    • 4.3.3 So sánh hai phương sai (43)
  • 4.4 Bài tập (44)
  • 4.5 Kiểm định phi tham số (51)
    • 4.5.1 Kiểm định dấu một mẫu (51)
    • 4.5.2 Kiểm định dấu với các quan trắc cặp (2 mẫu phụ thuộc) (51)
    • 4.5.3 Kiểm định Wilcoxon một mẫu (52)
    • 4.5.4 Kiểm định Wilcoxon các quan trắc cặp (2 mẫu phụ thuộc) (52)
    • 4.5.5 Kiểm định tổng hạng Wilcoxon dựa trên 2 mẫu độc lập (53)
    • 4.5.6 Kiểm định Chi-bình phương (53)
  • 4.6 Bài tập (54)
  • 5.1 Phân tích phương sai một yếu tố (60)
  • 5.2 Phân tích phương sai hai yếu tố (61)
  • 5.3 Bài tập (63)
  • 6.1 Phân tích tương quan (67)
    • 6.1.1 Phân tích tương quan đơn biến (67)
    • 6.1.2 Phân tích tương quan đa biến (68)
  • 6.2 Phân tích hồi quy (68)
    • 6.2.1 Phân tích hồi quy đơn biến (68)
    • 6.2.2 Phân tích hồi quy đa biến (69)
  • 6.3 Bài tập (71)

Nội dung

f Rút ra các phần tử ở các vị trí từ dòng 1 đến dòng 5, từ cột 2 đến cột 4 trong dữliệu hk1 g Rút ra một tập con dữ liệu với điều kiện giới tính là nữ h Rút ra một tập con dữ liệu với đi

Bài tập

Bài tập1.1.1.Nhập bảng số liệu sau vào R theo 2 cách a) Sử dụng hàmc()vàdata.frame();edit(). b) Xuất dữ liệu đã nhập và lưu dưới dạng file text và file excel.

STT Gioi.tinh Chieu.cao Can.nang Trinh.do

Bài tập1.1.2.Đọc các file dữ liệu sau vào R a) Lượng các sản phẩm tiêu thụ ở một số tp lớn:citysale.xls b) Lượng mưa ở một số thành phố lớn:cityrain.txt c) Lượng bán của một loại hàng hóa , thu nhập của người tiêu dùng ( ) và giáY X1 bán của loại hàng này (X2):hanghoa.sav d) Lượng tiền tiêu thụ cho rượu bia trong ngày Tết:alcolholbeer expenditure for Tet.dta

Bài tập1.1.3.Cho bảng số liệu về điểm thi học kỳ 1 của 10 học sinh như sau: id name gender diem.hk1

10 Ngoc female 9.5 a) Nhập dữ liệu trên vào R bằng lệnhc(), rep()vàdata.frame()và đặt tên là hk1. b) Sắp xếp điểm theo thứ tự tăng dần. c) Rút ra cột 4, tức là cột điểm trong dữ liệuhk1. d) Rút ra dòng 3 trong dữ liệuhk1. e) Rút ra phần tử ở vị trí dòng 3, cột 2 trong dữ liệuhk1. f) Rút ra các phần tử ở các vị trí từ dòng 1 đến dòng 5, từ cột 2 đến cột 4 trong dữ liệuhk1 g) Rút ra một tập con dữ liệu với điều kiện giới tính là nữ h) Rút ra một tập con dữ liệu với điều kiện giới tính là nữ và có điểm lớn hoặc bằng8.0 i) Rút ra một tập con dữ liệu với điều kiện giới tính là nữ hoặc có điểm lớn hoặc bằng 8.0 j) Mã hóa female là 0, male là 1 và lưu vào cột tên là Gioi.tinh. k) Xếp loại học lực trung bình, khá, giỏi và lưu vào cột tên là Xep.loai, trong đó trung bình khi điểm thuộc [5;6.5), khá khi điểm thuộc [6.5;8), giỏi khi điểm thuộc [8;10].

Bài tập1.1.4.Đọc dữ liệu dưới dạng excel có tên là“Obesity.csv”trong thư mục Datafiles) vào R, rồi gọi tên là“data” Đây là dữ liệu lúc ban đầu của một nghiên cứu theo thời gian.

1 Xác định số dòng và số cột trongdata.

2 Tạo ra một biến mới gọi là“osteo”, thỏa điều kiện sau đây: nếutscore1 5),P(−1< X ≤3), P(X≤ −2)vàP(|X−E( )X| ≤3Sd X( )).

Bài tập2.2.11.Vẽ các đường cong mật độ của các phân phối sau trong cùng một mặt phẳng:χ 2 (n)vớin= 5,15 30, Yêu cầu có bảng chú thích các đường cong.

Lưu ý: Để tạo bảng chú thích, ta có thể dùng câu lệnh sau: legend("topright", legend = c("chi^2(5)", "chi^2(15)", "chi^2(30)"), col = c("blue", "red", "yellow"), pch = c(16,15,14), cex = 0.7, lty = 1, lwd = 3, inset = 0.02)

Bài tập 2.2.12.Hãy phát sinh một bộ số liệu, gọi tên làdata, với kích thước 500 từ phân phốiχ 2 (5) Sau đó, hãy phát sinh 5 bộ số liệu, gọi tên làdata1, data2, data3, data4và data5, với kích thước 500 từ phân phốiN(0 1), Sau đó, lập ra bộ số liệu mới, gọi tên làdata6, theo công thức sau:data6 = (data1) 2 + +(data5) 2 Hãy vẽ các histogram củadatavàdata6trên cùng một mặt phẳng và cho nhận xét.

Bài tập2.2.13.ChoX∼χ 2 (10) Tìmasao choP(X≤a) =pvớip= 0.1 0 25 0 5 0 75 0 9, , , , Bài tập2.2.14.ChoX∼χ 2 (3) Tìm Mode( ) và Median( ).X X

Bài tập2.2.15.ChoX∼χ 2 (n) Dùng mô phỏng, chứng tỏ rằngY≡(X−n /)p n

Bài tập2.2.16.ChoX∼χ 2 (n),Y ∼χ 2 (m)vàX, Y độc lập Dùng mô phỏng chứng tỏ rằngZ≡X+Y∼χ 2 (n+m).

Bài tập2.2.18.Vẽ đường cong hàm mật độ xác suất của các phân phối sau trong cùng một mặt phẳng:t n( )vớin= 5,10 20 30, , Yêu cầu có bảng chú thích các đường cong.

Bài tập2.2.19.Vẽ đường cong hàm mật độ xác suất của các phân phối sau trong cùng một mặt phẳng:t(30), t(40)vàN(0 1), Yêu cầu có bảng chú thích các đường cong.

Bài tập2.2.20.Hãy phát sinh một bộ số liệu, gọi tên làdatavới kích thước 1000 từ phân phốit(15) Sau đó, hãy phát sinh 2 bộ số liệu, gọi tên lần lượt làdata1, data2, với kích thước 1000 lần lượt từ phân phốiN(0,1)vàχ 2 (15), lập ra bộ số liệu mới, gọi tên làdata3, theo công thức sau:data3 = data1/p(data2)/15 Hãy vẽ các histogram củadatavàdata3trên cùng một mặt phẳng và cho nhận xét.

Bài tập2.2.21.ChoX∼t(15) Tìmasao choP(X≤a) =pvớip= 0.1 0 25 0 5 0 75 0 9, , , ,

PHÂN TÍCH MÔ TẢ VÀ BIỂU ĐỒ

Mô tả dữ liệu

Mô tả dữ liệu biến liên tục

Đặc trưng thống kê Hàm

Phương sai var() Độ lệch chuẩn sd()

Phân vị thứ nhất Q1 quantile(x, probs = 0.25, type) Phân vị thứ hai Q2 quantile(x, probs = 0.5, type)

Phân vị thứ ba Q3 quantile(x, probs = 0.75, type) Độ trải giữa IQR IQR()

Giá trị nhỏ nhất min()

Giá trị lớn nhất max()

Tóm lược(min, max, Q1, median, Q2, Q3) summary()

Lưu ý: Yếu vị của một bộ dữ liệu là giá trị xuất hiện nhiều nhất trong bộ dữ liệu đó. Câu lệnh: freq=table() names(freq)[freq==max(freq)]

Lưu ý: Trong R cung cấp tới 9 phương pháp để ước lượng các phân vị thông qua đối sốtype Mặc địnhtype =7, trong khi phương pháp tính toán phân vị được giảng trên lớp thì tương ứng vớitype = 2.

Ví dụ3.1.Here are the scores on the first exam in an introductory statistics course for

80 75 92 85 75 98 90 75 80 90 a) Find the mean, median, variance, standard deviation, Q1, Q3, IQR and summary for these firstexam scores. b) Make a table of frequency and relative frequency for the data above

Biểu đồ hộp - box-whisker plot

Biểu đồ hộp được tạo ra từ năm đặc trưng bao gồm Min, Q1, Median, Q3, Max. Trong đó, Min và Max lần lượt là giá trị nhỏ nhất và giá trị lớn nhất khi đã loại bỏ các outliers (các giá trị ngoại vi) ra khỏi số liệu Outliers là các phần tử bất thường quá lớn hoặc quá bé và chúng được xác định bằng nguyên tắc sau:

Outlier > Q3 + 1.5*IQR hoặc outlier < Q1 - 1.5*IQR

Hàm sử dụng:boxplot(x, col, main, xlab, ylab, xlim, ylim, ) Ngoài ra, ta có thể xuất các đặc trưngMin, Q1, Median, Q3, Max, khoảng ước lượng cho trung vị và các outliers (nếu có) qua hàmboxplot.stats().

Ví dụ3.2.Vẽ biểu đồ hộp cho dữ liệuscoreở ví dụ trên.

> boxplot(score, col ="blue", xlab = "First Score", ylab = "Score", main = "The scores on the first exam in an introductory statistics")

$stats # lan luot la Min, Q1, Median, Q3, Max

$conf # Khoang uoc luong cho trung vi

$out # outliers (neu co) numeric(0)

Nhận xét:Biểu đồ hộp cho thấy không có outliers nào và biểu đồ không có râu dưới vì Min trùng với Q1 Biểu đồ hộp cân xứng với trung vị nằm ngay chính giữa, chứng tỏ số liệu không bị lệch.

Ví dụ3.3.Vẽ biểu đồ hộp cho dữ liệu sau:

Nhận xét:ta thấy có một giá trị outlier là 72.8 Sau khi loại bỏ giá trị oulier này thìmax = 26.0, min = 0.1, Q1 = 1.45, median = 5.4, Q3 = 12.9 Số liệu bị lệch phải do bên phải có ít số liệu hơn bên trái.

Phân tích mô tả biến phân nhóm

Câu lệnh trong R install.packages(“gmodels”) library(gmodels)

CrossTable(X)# X là biến phân loại

CrossTable(X,Y)# X, Y là 2 biến phân loại

Biểu đồ

Trong R, để vẽ biểu đồ cột ta dùng lệnhbarplot() barplot(height, names.arg, legend.text, beside, horiz, density, col, main, xlab, ylab, xlim, ylim, ) trong đó,

- height: là một vector hay một ma trận số liệu cần vẽ.

- names.agr: đặt tên dưới các cột hoặc nhóm.

- legend.text:(TRUEhoặcFALSE) tạo chú thích cho biểu đồ.

- beside:TRUEhoặcFALSE(mặc định làFALSE) Vẽ các cột chồng lên nhau hay là xếp bên cạnh nhau.

- horiz:TRUEhoặcFALSE(mặc định làFALSE): Vẽ các cột nằm ngang hay là thẳng đứng (mặc định là thẳng đứng).

- density: tạo mật độ cho các cột bằng các nét gạch chéo.

- main: đặt tên biểu đồ;xlab, ylab: tên trục hoành, trục tung;

- xlim, ylim: đặt giới hạn các trục;

- col: thêm các màu sắc, .

Ví dụ3.4.Bảng số liệu sau đây là phân phối mức độ giáo dục cao nhất cho những người từ 25 đến 34 tuổi Vẽ biểu đồ thanh để mô tả biếnPercent.

Education Count Percent Less than high school 4.6 12.1 High school graduate 11.6 30.5 Some college 7.4 19.5 Associate degree 3.3 8.7 Bachelor’s degree 8.6 22.6 Advanced degree 2.5 6.6

> Education = c(’NotHS’, ’HS’, ’College’, ’Associate’, ’Bachelor’,

> level.edu = data.frame(Education, Count, Percent)

> barplot(Percent,col=c(’red’,’blue’,’yellow’,’orange’,’green’,’brown’))

> barplot(Percent,col=rainbow(6),names.argcation)

> barplot(Percent,col=rainbow(6),names.argcation,xlab=’Education Degree’)

> barplot(Percent,col=rainbow(6),names.argcation,xlab=’Education Degree’,ylab=’Percent (%)’)

# Them ten cho bieu do

> barplot(Percent,col=rainbow(6),names.argcation,xlab=’Education Degree’,ylab=’Percent (%)’,main=’The distribution of the highest level of education’)

> barplot(Percent,col=rainbow(6),names.argcation,xlab=’Education Degree’,ylab=’Percent (%)’,main=’The distribution of the highest level of education’,ylim=c(0,40))

> barplot(Percent,col=rainbow(6),names.argcation,xlab=’Education Degree’,ylab=’Percent (%)’,main=’The distribution of the highest level of education’,ylim=c(0,40),legend.text = Education)

> x = barplot(Percent,col=rainbow(6),names.argcation,xlab’Education Degree’,ylab=’Percent (%)’,main=’The distribution of the highest level of education’,ylim=c(0,40),legend.text = Education)

Tương tự các bạn vẽ biểu đồ cột cho biếncount.

Sử dụng lệnhpie(x, labels, density, col, main, )

Ví dụ 3.5.Vẽ biểu đồ tròn cho biếnPercent

> pie(Percent, col = rainbow(6),labels = Education, main = ’The distribution of the highest level of education’)

> phantram = paste(Education, Percent, sep = " ")

> pie(Percent, col = rainbow(6), labels = phantram, main ’The distribution of the highest level of education’)

• Biểu đồ phân bố thân lá

Biểu đồ thân lá thường được dùng để mô tả phân bố của số liệu có kích thước nhỏ Hàm sử dụng:stem(x, scale)hoặcstem.leaf(data, unit)trong package

- x, data: vector số liệu cần vẽ.

- scale: điều chỉnh đồ dài của phần thân.

Ví dụ 3.6.Cho số liệu về tỷ lệ biết chữ của một số quốc gia Hồi giáo, đọc file literacy rates.csv, thực hiện các yêu cầu sau: a) Vẽ biểu đồ thân lá mô tả biếnFemale(tỷ lệ biết chữ của nữ). b) Vẽ biểu đồ thân lá mô tả biếnMale(tỷ lệ biết chữ của nam) c) Vẽ biểu đồ thân lá cho cả hai biến trên cùng một thân để so sánh biếnMale và biếnFemale Biểu đồ này được gọi là back to back stem plot (dùng hàm stem.leaf.backback(x,y))

> literacy = read.csv(file.choose(), header = TRUE)

> stem.leaf(literacy$Female, unit = 1)

> stem.leaf.backback(literacy$Female, literacy$Male, m = 1, unit = 1)

• Biểu đồ phân bố histogram

Khác với biểu đồ thân lá, biểu đồ histogram thường được dùng để mô tả bộ số liệu cókích thước lớn Để vẽ histogram, ta dùng lệnhhist() hist(x, breaks,freq,include.lowest,right,labels, ) trong đó, x: dữ liệu cần vẽ histogram. breaks: thiết lập cách phân tổ dữ liệu. freq:TRUEhoặcFALSE(mặc định làTRUE) Nếufreq=Tvẽ histogram tần số (mặc định) Nếufreq=Fthì vẽ histogram tần suất. right:TRUEhoặcFALSE(mặc định làTRUE) Nếuright =TRUEchia tổ theo kiểu (a;b] Ngược lại nếuright=Fthì phân tổ có dạng[a, b). include.lowest: TRUE hoặc FALSE (mặc định là TRUE),bao gồm giá trị nhỏ nhất nếuright=T Ngược lại, có bao gồm giá trị lớn nhất nếuright=F. labels:TRUEhoặcFALSE(mặc định làFALSE) hiện thị các tần số hoặc tần suất lên phía trên các cột của histogram.

Ví dụ 3.7.Cho số liệu về lợi nhuận của các cửa hàng bán lẻ của một công ty như sau Đơn vị tính : Triệu đồng

Vẽ biểu đồ histogram minh họa cho câu a).

> hist(x, breaks=4, right=F, include.lowest=T, labels=T, ylim=c(0,25), col="lightblue", main=c("Histogram of profit"), xlab="Profit")

> # Histogram cho tan suat va them duong mat do xac suat

> hist(x,breaks=4,freq=F,right=F,labels=T,ylim=c(0,0.05),col="lightblue", main=c("Histogram of profit"),xlab="Profit")

Tự thực hành ví dụ sau: Cho số liệu về chỉ số IQ của 60 học sinh lớp 5 như sau:

102 108 110 128 114 112 114 102 82 101 a) Vẽ biểu đồ phân bố tần số histogram b) Vẽ biểu đồ phân bố tần suất histogram và gắn thêm đường mật độ Nhận xét thông tin nhận được.

• Biểu đồ chuỗi thời gian

Biểu đồ chuỗi thời gian thường mô tả sự biến động của số liệu theo thời gian, phát hiện ra xu hướng cũng như tính mùa vị của dữ liệu.

Hàm sử dụng:ts(data, start, end, frequency )và hàmplot.ts(ts, col, type,lwd, lty, pch, main, xlab, ylab, xlim, ylim, ).

Trong đó, hàmts() dùng để định nghĩa chuỗi thời gian với thời điểm bắt đầu bằngstartvà thời điểm kết thúc bằngendvàfrequency= 1 (chuỗi thời gian là

1 năm), 12 (chuỗi thời gian là 12 tháng), 4 (chuỗi thời gian là quý).ts: các số liệu chuỗi thời gian được định nghĩa hàmts(). type: loại đồ thị cần vẽ. type = "p":point(vẽ điểm); type = "l":lines(vẽ đường); type= "b":both(vẽ cả đường và điểm); type= "o":overplotted(đường điểm dính liền); type= "h":histogram(có dạng gậy thẳng đứng); type= "s":step(dạng bước nhảy); type= "n":no(không vẽ gì hết); lty:lines type(nét đường): nét liền, nét đứt, nét chấm chấm, nét gạch gạch, . lwd:lines width(độ dày của đường); pch:plot character(kiểu ký tự điểm): tròn, tam giác, vuông, kim cương, .

Ví dụ3.8.Cho số liệu về nhiệt độ trung bình hằng năm tại hai thành phố Pasadena và Redding của bang California (Mỹ) Vẽ biểu đồ chuỗi thời gian cho các biến này. Đọc filetemperature.txt.

> temperature=read.table(file.choose(), header = T)

> california = ts(temperature, start = 1951, end = 2000, frequency = 1)

> plot.ts(california[, -1], col = "red", type = "l", lty = 2, lwd = 3, xlab = "Year", main = "Average Temperature in California")

Biểu đồ tán xạ dùng để thể hiện mối quan hệ của hai biến định lượng.

Hàm sử dụng:plot(x, y, type, lty, lwd, pch, main, xlab, ylab, xlim, ylim, col, )

Ví dụ 3.9.Trongpackage MASS, có một dataset tên làcats, bao gồm các biến Sex, Bwt(đơn vị kg),Hwt(g).

> plot(cats$Bwt, cats$Hwt, cols$Sex)

> abline(lm(cats$Hwt~cats$Bwt), col = ’blue’) # Duong hoi quy tuyen tinh

> plot(cats$Bwt, cats$Hwt, cols$Sex, pch)

> abline(lm(cats$Hwt~cats$Bwt), col = ’blue’)

Bài tập

Bài tập3.3.1.Đọc dữ liệuGarbage.csv, số liệu một số loại chất thải rắn ở Mỹ.

1 Hãy vẽ biểu đồ cột mô tả về số lượng các loại chất thải và nhận xét thông tin nhận được.

2 Tính tỉ lệ % các loại chất thất thải.

Bài tập3.3.2.Đọc dữ liệuSpamTpye, số liệu một số loại thư rác được tổng hợp.

1 Hãy vẽ biểu đồ cột của biếnPercent, với các cột được xếp như trong bảng và nhận xét thông tin nhận được.

2 Hãy vẽ biểu đồ cột của biếnPercent, với các cột được xếp từ cao đến thấp.

3 Vẽ biểu đồ tròn thể hiện các loại thư rác có dán số liệu và %.

Bài tập3.3.3.Favorite colors.What is your favorite color? One survey produced the following summary of responses to that question: blue, 42%; green, 14%; purple, 14%; red, 8%; black, 7%; orange, 5%; yellow, 3%; brown, 3%; gray, 2%; and white, 2% Make a pei chart of the percents and write a short summary of the major features of your graph.

Bài tập3.3.4.Least-favorite colors.Refer to the previous exercise The same study also asked people about their least-favorite color Here are the results: orange, 30%; brown, 23%; purple, 13%; yellow, 13%; gray, 12%; green, 4%; white, 4%; red, 1%; black, 0%; and blue, 0% Make a pie chart of these percents and write a summary of the results.

Bài tập3.3.5.Bệnh tiểu đường và glucose Người mắc bệnh tiểu đường phải theo dõi và kiểm soát mức đường huyết của họ Mục tiêu là duy trì glucose huyết tương trong khoảng 90 đến 130 miligam mỗi decilit (mg/dl) Dưới đây là mức glucose huyết tương lúc đói cho 18 bệnh nhân tiểu đường đăng ký vào lớp kiểm soát bệnh tiểu đường, năm tháng sau khi kết thúc lớp học:

Vẽ biểu đồ thân lá cho dữ liệu trên, và mô tả các đặc trưng chính của phân phối. Nghiên cứu được mô tả trong bài về việc đo đường huyết lúc đói là 16 bệnh nhân tiểu đường được hướng dẫn cá nhân về kiểm soát bệnh tiểu đường Dưới đây là dữ liệu:

Tạo một thân lá back-to-back để so sánh các bệnh nhân lớp hướng dẫn và cá nhân.

Bài tập3.3.6.Đọc dữ liệuTonado damagethống kê về thiệt hại tài sản trung bình trên năm của các tiểu bang ở Mỹ do lốc xoáy gây ra.

1 Liệt kê top 5 tiểu bang bị thiệt hại nhiều nhất, và top 5 tiểu bang bị thiệt hại ít nhất.

2 Vẽ biểu đồ histogram cho data trên, với khoảng của cột là [0-10), [10-20), Và viết vài dòng nhận xét Hint: breaks = c(0,10,20,30,40, ,90).

Bài tập 3.3.7.Đốt nhiên liệu trong các nhà máy điện hoặc xe cơ giới thải ra carbon điôxít (CO2), góp phần vào sự nóng lên toàn cầu Đọc fileCarbon dioxide_co2cung cấp thông tin về lượng khí thải CO2 trên mỗi người từ các quốc gia có dân số ít nhất 20 triệu người Vẽ biểu đồ histogram với khoảng của cột là [0,2.5), [2.5,5), Hint: breaks

Bài tập 3.3.8.Thay đổi lựa chọn các lớp có thể thay đổi diện mạo của một biểu đồ. Dưới đây là một ví dụ trong đó một sự thay đổi nhỏ trong các lớp, không có thay đổi về số lượng lớp, có ảnh hưởng quan trọng đến biểu đồ Dữ liệu là mức độ axit (được đo bằng pH) trong 105 mẫu nước mưa Nước cất có pH 7.00 Khi nước trở nên axit hơn, độ pH giảm xuống Độ pH của nước mưa rất quan trọng đối với các nhà môi trường vì vấn đề mưa axit Đọc fileAcidity of rainwatervà thực hiện các thao tác sau:

1 Vẽ biểu đồ histogram cho pH với 14 khoảng bằng cách dùng giới hạn của các lớp 4.2, 4.4, , 7.0.

2 Vẽ biểu đồ histogram cho pH với 14 khoảng bằng cách dùng giới hạn của các lớp 4.14, 4.34, , 6.94.

Bài tập3.3.9.Phụ nữ học nhiều hơn nam giới? Chúng tôi đã hỏi các sinh viên trong một lớp đại học năm thứ nhất, họ đã học bao nhiêu phút trong một tuần thông thường. Dưới đây là câu trả lời của các mẫu ngẫu nhiên của 30 phụ nữ và 30 nam giới trong lớp

Vẽ biểu đồ thân lá back-to-back cho dữ liệu.

Bài tập3.3.10.Bảng số liệu đưa ra thời gian sống sót sau 72 ngày chuột (guinea pigs) sau khi chúng được tiêm trực khuẩn lao trong một thí nghiệm y tế Tạo một biểu đồ hộp và mô tả hình dạng, trung tâm và sự lan truyền của sự phân bố thời gian sống sót.

Có giá trị ngoại lai hay không?

Bài tập3.3.11.Tàu lượn siêu tốc Mania.Báo cáo Tổng điều tra Tàu lượn siêu tốc Thế giới liệt kê số lượng tàu lượn siêu tốc sau đây trên mỗi lục địa Biểu diễn dữ liệu bằng đồ thị, sử dụng biểu đồ Pareto và biểu đồ thanh ngang.

Quốc gia Số tàu lượn

Bài tập3.3.12.Sử dụng năng lượng thế giới.Các tỷ lệ phần trăm sau đây biểu thị nguồn năng lượng được sử dụng trên toàn thế giới Xây dựng biểu đồ Pareto và biểu đồ thanh dọc cho năng lượng được sử dụng.

Bài tập3.3.13.Các thành phần của Lớp vỏ Trái đất.Các yếu tố sau đây bao gồm vỏ trái đất, lớp rắn ngoài cùng Minh họa thành phần của vỏ trái đất với một biểu đồ hình tròn.

Bài tập3.3.14.Vẽ biểu đồ chuỗi thời gian để biểu thị dữ liệu về số chuyến khởi hành của các hãng hàng không (tính bằng triệu) trong những năm nhất định Trong những năm qua, số lượng các chuyến khởi hành tăng, giảm hay là như nhau?

Bài tập 3.3.15.Các cuộc tranh luận của Tổng thống.Dữ liệu cho biết số lượng (tính bằng triệu) người xem đã xem các cuộc tranh luận Tổng thống đầu tiên và thứ hai Xây dựng hai biểu đồ chuỗi thời gian và so sánh kết quả.

Năm 1992 1996 2000 2004 Thứ nhất 62.4 36.1 46.6 62.5 Thứ hai 69.9 36.3 37.6 46.7

Bài tập 3.3.16.Những số liệu sau đây đại diện cho nhiệt độ cao kỷ lục tính bằng độ Fahrenheit ( ) cho mỗi trong số 50 tiểu bang Vẽ biểu đồ histogram o F

Bài tập 3.3.17.Chúng ta thu thập số liệu về độ tuổi vàcholesteroltừ một nghiên cứu ở 50 bệnh nhân mắc bệnh cao huyết áp Các số liệu này được lưu trong một text file có tên làchol.txt.

Số liệu này như sau: cột 1 là mã số của bệnh nhân, cột 2 là giới tính, cột 3 là body mass index (tỉ số trọng lượng) (viết tắt là bmi), cột 4 là high density cholesterol (cholesterol mật độ cao) (viết tắt là hdl), kế đến là low density cholesterol (cholesterol mật độ thấp)

(viết tắt là ldl), total cholesterol (tổng số cholesterol) (viết tắt là tc) và triglycerides (chất béo trung tính) (viết tắt là tg).

1 Cho biết tần số của giới tính (bao nhiêu nam và bao nhiêu nữ) (dùng hàmtable()), vẽ biểu đồ thể hiện tần số bằng cột và bằng dòng.

Kiểm định tham số (một mẫu)

So sánh trung bình với một số

a) TH1:Biếtσ 2 -Phương pháp dùng p-value:

• Nếu giả thuyếtH0đúng thì thống kê

• Ứng với mẫu cụ thể(x1, , xn), ta xác định giá trị thống kê zx¯−à0 σ

• Tínhp-value=P(|Z|>|z|)(Kiểm định hai phía).

Chú ý:Phương pháp kiểm định này được gọi làkiểm định z (z-test). b)TH2:Không biếtσ 2 -Phương pháp dùng p-value:

• Nếu giả thuyếtH0đúng thì thống kê

• Ứng với mẫu cụ thể(x1, , xn), ta xác định giá trị thống kê tx¯−à0 s

• Tínhp-value=P(|T|> t)(Kiểm định hai phía).

• Phương pháp kiểm định này được gọi làkiểm định t (t-test).

• Trong trường hợp phương saiσ 2 chưa được biết nhưng cỡ mẫunlớn(n≥30), ta có thể sử dụng kiểm định z thay thế cho kiểm định t.

Ví dụ 4.2.Tiệm bánh cung cấp bánh cho siêu thị Khối lượng bánh được khẳng định làà= 2kg, và đõy cũng là khối lượng tối thiểu được mong đợi Tuy nhiờn, không phải mọi gói bánh đều có đúng 2 g bởi vì có sự sai lệnh trong khối lượngk mỗi cái bánh Do đó điều quan trọng là phải kiểm tra xem khối lượng trung bình có dấu hiệu nhỏ hơn 2kghay không Khối lượngX(đo bằngkg) của bánh được giả sử là có phân phối chuẩn Giả sử phương saiσ 2 = 0.1 2 là được biết từ kinh nghiệm từ trước Siêu thị lấy mẫun= 20cái bánh và cân khối lượng bánh Khối lượng trung bình được tính làx¯= 1.97kg Bởi vì siêu thị muốn chắc chắn là khối lượng trung bình không cao hơn2kg, giả thuyết một phía sẽ là phù hợp, tức là

Ví dụ4.3.Một tổ kiểm tra muốn xác định thời gian trung bình từ lúc công ty A nhận được đơn khiếu nại của khách hàng đến lúc giải quyết là bao nhiêu ngày Họ chọn ngẫu nhiên 15 trường hợp khiếu nại trong năm thì có kết quả (đơn vị: ngày):

Giả sử số ngày giải quyết khiếu nại của công ty A là biến ngẫu nhiên có phân phối chuẩn Ở mức ý nghĩa 1%, có thể cho rằng số ngày bình quân khiếu nại được giải quyết bởi công ty A là 90 ngày không?

Thực hành trong R t.test(x, mu = 0, alternative = c("two.sided", "less", "greater"), conf.level = 0.95, )

Nếu dùng z-test thì cần cài đặt package “BSDA”: install.packages(’BSDA’) library(BSDA) z.test(x, mu = , sigma.x = , alternative = c(“two.sided”, “greater”,

Bài tập4.1.1.Một nhà sản xuất chocolate cho rằng quá trình sản xuất đã không tuân thủ đúng khối lượng chuẩn là 100 Để đo đạt kiểm soát chất lượng, nhà sảng xuất cân 15 thanh chocolate và được dữ liệu sau (tính bằnggam):

Hãy kiểm tra xem sự nghi ngờ của nhà sản xuất có đúng hay không với mức ý nghĩa 0.05?

Bài tập 4.1.2.Một bài viết về Tăng trưởng: tạp chí dành cho các vấn đề tăng trưởng bình thường và bất thường: “So sánh tỉ lệ béo và chất béo ước tính được đo lường, chất béo, kali và nito của lợn”, báo cáo kết quả của một nghiên cứu đo trọng lượng cơ thể của lợn guinea khi sinh (tính bằnggam):

Kiểm tra giả thuyết trọng lượng trung bình là 300 với mức ý nghĩa =0.05 Tínhg α giá trị p-value.

Bài tập4.1.3.Một bài báo năm 1992 trên tạp chí Hiệp hội Y khoa Hoa Kỳ ( Thẩm định quan trọng98 6 o F, giới hạn trên của nhiệt độ cơ thể bình thường và các di sản khác của Carl Reinhold August Wunderlich), đã báo cáo nhiệt độ cơ thể, giới tính, nhịp tim cho một số đối tượng Nhiệt độ cơ thể của 25 đối tượng nữ theo sau:

Báo cáo cho rằng nhiệt độ trung bình của nữ là 98.6, với mức ý nghĩa =0.05, bạnα có nhận xét gì về kết luận của báo cáo.

So sánh tỷ lệ với một số

Phương pháp dùng p-value:Trong một tổng thể lớn, ta quan tâm đến nhóm phần tử mang tính chất A, chiếm tỷ lệ chưa biết Từ tổng thể, ta chọn ngẫu nhiên một mẫup cụ thể có kích thước đủ lớn.n

• GọiY là tỷ lệ phần tử mang tính chất A trong mẫu,

• Nếu giả thuyếtH0đúng thì thống kê

• Ứng với mẫu cụ thể, ta xác định giá trị thống kê z= y−p0 pp0(1−p0)

• Tínhp-value=P(|Z|> z)(Kiểm định hai phía).

Ví dụ4.4.Một máy sản xuất tự động với tỷ lệ chính phẩm 98% Sau một thời gian hoạt động, người ta nghi ngờ tỷ lệ trên bị giảm Kiểm tra ngẫu nhiên 500 sản phẩm thấy có 28 phế phẩm Vớiα= 0.05, hãy kiểm tra xem chất lượng của máy có còn được như trước hay không?

H1:p |z|)(Kiểm định hai phía).

Thực hành trong R library(BSDA) z.test(x,y, mu = 0, sigma.x = , sigma.y = , alternative = c(“two.sided”,

∗ Trường hợp 2: Chưa biếtσ1 2 , σ 2 2 nhưng biếtσ 2 1=σ 2 2

–Ứng với các mẫu cụ thể, ta tính được t≡ x¯−¯y s s 2

–Tínhp-value=P(|T|>|t|)(Kiểm định hai phía).

Thực hành trong R t.test(x, y, mu = 0, alternative = c(“two.sided”, “greater”, “less”),var.equal = T, conf.level = )

So sánh hai tỷ lệ

• Xét hai tổng thể lớn Tỷ lệ phần tử mang đặc điểm A trong tổng thể thứ nhất và tổng thể thứ hai tương ứng làp1vàp2(chưa được biết).

• Ở mức ý nghĩaαcho trước, xét bài toán kiểm định giả thuyết so sánhp1vàp2ở các dạng sau:

• Từ tổng thể thứ nhất, ta chọn ngẫu nhiên ra một mẫu kích thướcn1 GọiX1là số phần tử mang đặc điểm A trong mẫu này.

• Từ tổng thể thứ hai, ta chọn ngẫu nhiên ra một mẫu kích thướcn2 GọiX2là số phần tử mang đặc điểm A trong mẫu này.

• Ứng với các mẫu cụ thể, ta tính được z≡ y1−y2 s y(1−y)

• Tínhp-value=P(|Z|>| |z)(Kiểm định hai phía).

Thực hành trong R prop.test(x = c(x1, x2), n = c(n1, n2), alternative = c(“two.sided”,

So sánh hai phương sai

• ChoX∼ N(à1;σ1 2 ),Y ∼ N(à2;σ2 2 )là hai biến ngẫu nhiờn được lập, trong đúσ1 vàσ2là chưa biết.

• Ở mức ý nghĩa cho trước, xét bài toán kiểm định giả thuyết ở các dạng sau:α

• Xét(X1, , Xn 1)là một mẫu ngẫu nhiên kích thướcn1vềXvà(Y1, , Yn 2)là một mẫu ngẫu nhiên kích thướcn2về Y

• Ứng với các mẫu cụ thể, ta tính đượcg=s 2 1 s 2 2

• Tínhp-value=P(|G|>|g|)(Kiểm định hai phía).

Thực hành trong R var.test(x, y, ratio = 1, alternative = c(“two.sided”, “greater”, “less”),conf.level = )

Bài tập

Bài tập4.4.1.(Kiểm nghiệm thuốc)

Người ta cho 10 bệnh nhân uống thuốc hạ cholesterol, đồng thời cho 10 bệnh nhân khác uống giả dược (placebo), rồi xét nghiệm về nồng độ cholesterol trong máu (g/l) của cả hai nhóm thì được số liệu:

Hãy đánh giá hiệu quả làm giảm cholesterol của thuốc trên ở mức ý nghĩa 5%?

Bài tập4.4.2.(So sánh độ bền của 2 hiệu xe) Để kiểm tra độ bền của 2 hiệu xe A và B, người ta chọn một cách ngẫu nhiên 5 xe hiệu

A và 7 xe hiệu B để thử nghiệm độ bền cả động cơ (tính bằng số km đến khi bị hỏng). Kết quả như sau:

Hãy so sánh độ bền trung bình của hai hiệu xe trên với mức ý nghĩa 5%?

Bài tập4.4.3.Giả sử dùng thuốc A cho 10 người Bảng sau ghi lại nhịp tim/phút của từng người trước và sau khi dùng thuốc:

Hỏi rằng thuốc A có làm thay đổi nhịp tim hay không? Kết luận vớiα= 0.05.

Bài tập4.4.4.Kiểm tra 500 đứa trẻ ở trường tiểu học A thì phát hiện 120 đứa trẻ mắc bệnh sâu răng Kiểm tra 1000 đứa trẻ ở trường tiểu học B ta phát hiện 300 đứa trẻ mắc bệnh sâu răng Một kết luận cho rằng: tỉ lệ sâu răng ở trường A ít hơn trường B Ở mức ý nghĩa 1%, bạn hãy đánh giá về kết luận này.

Bài tập4.4.5.Kiểm tra chất lượng sản phẩm về một loại hàng do hai máy A và B sản xuất cho kết quả: trong 500 sản phẩm do máy A sản xuất có 50 phế phẩm; trong 400 sản phẩm của B có 60 phế phẩm Ở mức ý nghĩa 5%, hãy kiểm định xem chất lượng sản phẩm của máy A và máy B có khác nhau không?

Bài tập4.4.6.Một mẫu trái cây được phân tích 8 lần bởi hai phương pháp I và II để xác định hàm lượng đường, với kết quả (đơn vị mmg):

Phương pháp II 2.6 3.5 3.4 3.2 3.4 2.8 2.9 2.8 Ở mức ý nghĩa 5%, cho biết phương pháp nào có kết quả ổn định hơn? Biết số liệu có phân phối chuẩn.

Bài tập4.4.7.Hai máy cùng gia công một loại chi tiết máy Để kiểm tra độ chính xác của hai máy, người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết đem đo và được kết quả sau:

Máy I 135 138 136 140 138 135 139 Máy II 140 135 140 138 135 138 140 Ở mức ý nghĩa 5%, có thể cho rằng hai máy có độ chính xác như nhau không? Biết kích thước chi tiết có phân phối chuẩn.

Bài tập4.4.8.Vào ngày 7/1/1992, một ống dẫn dầu dưới mặt đất bị vỡ, dầu tràn ra đã làm ô nhiễm một vùng đầm lầy dọc theo bờ sông Chitipin, bang Texas Chính quyền đã xử lý bằng cách cho đốt vùng bị ô nhiễm ở đầm lầy này Một năm sau, để đánh giá ảnh hưởng của sự tràn dầu lên hệ thực vật, các nhà nghiên cứu đã tiến hành trồng cây Distichlisspicata ở vùng ô nhiểm và vùng đối chứng (không ô nhiểm) tại 40 điểm mỗi vùng Mật độ cây tại mỗi điểm được ghi nhận như sau:

4 27 31 29 19 24 52 34 24 34 Ở mức ý nghĩa 5%, hãy kiểm tra nhận định: mật độ trung bình cây ở vùng bị đối chứng nhiều hơn vùng ô nhiễm.

Bài tập4.4.9.(So sánh hai phương pháp quản lý) Để so sánh hai phương pháp quản lý, người ta áp dụng thử cả hai phương pháp vào 10 công ty, kết quả quản lý được cho điểm tương ứng như sau:

Với mức ý nghĩa 5% hãy kiểm định xem có sự khác biệt về hiệu quả của hai phương pháp quản lý nói trên hay không?

Bài tập4.4.10.(So sánh khả năng thu nhận nước của loài cóc và ếch) Một thí nghiệm về sinh lý động vật được tiến hành nhằm nghiên cứu sự thu nhận nước của hai loài lưỡng thê Cóc và ếch được nhúng nhập nước sau hai giờ Tỉ lệ phần trăm tăng trọng của chúng được ghi nhận như sau:

Cóc 2.31 25.23 28.37 14.16 28 39 27.94 17.68 Ếch 0.85 2.90 2.47 17.72 3.82 2.86 13.71 7.38 Ở mức ý nghĩa 5%, hãy đánh giá xem loài cóc có khả năng thu nhận nước nhiều hơn loài ếch không?

Bài tập4.4.11.(So sánh năng suất lao động) Để so sánh năng suất lao động trước khi nghỉ và sau khi nghỉ phép của công nhân, một mẫu được lựa chọn để theo dõi năng suất lao động của họ trước và sau khi nghỉ 1 tuần. Kết quả ghi lại như sau:

Trước khi nghỉ Sau khi nghỉ Trước khi nghỉ Sau khi nghỉ

83 82 80 81 a) Ước lượng năng suất lao động của công nhân trước và sau khi nghỉ phép với độ tin cậy 95%? b) Với mức ý nghĩa 5%, có thể nói rằng năng suất lao động của công nhân trước và sau khi nghỉ phép có sự thay đổi hay không?

Bài tập4.4.12.Đo chiều ngang xương càm (cm) của 15 bé gái lúc 5 tuổi và lúc 6 tuổi, ta có số liệu:

6 tuổi 7.53 7.70 7.46 8.21 7.81 8.01 7.72 7.13 7.68 7.66 8.11 7.66 7.20 7.25 7.79 Ở mức ý nghĩa 1%, hãy xác định xem giá trị trung bình của chiều ngang xương càm có thay đổi theo độ tuổi không?

Bài tập4.4.13.Có hai lô hạt giống đang được kiểm tra Lô I có 42 hạt giống hỏng trong tổng số 100 hạt được kiểm tra Lô II có 92 hạt giống hỏng trong 200 hạt giống được kiểm tra Ở mức ý nghĩa 5%, có thể xem tỉ lệ hạt giống hỏng ở hai lô là như nhau được không?

Bài tập4.4.14.10 người đang thực hiện chế độ ăn kiêng để giảm cân Mỗi người có cân nặng trước và sau khi ăn kiêng được ghi nhận lại trong bảng sau đây:

Hãy chọn kiểm định và khoảng tin cậy phù hợp để kiểm tra xem có sự khác biệt giữa cân nặng trước và sau khi thực hiện chế độ giảm cân hay không ?(α= 0.05).

Bài tập4.4.15.Tạp chí Y học New England đã báo cáo một thử nghiệm để đánh góa hiệu quả của phẫu thuật trên những người đàn ông được chẩn đoán mắc bệnh ung thue tuyến tiền liệt Một nữa số mẫu ngẫu nhiên của 695 (là 347) nam giới trong nghiên cứu đã phẩu thuật và 18 người trong số họ cuối cùng cũng chết vì ung thư tuyến tiền liệt so với 31 người trong 348 người không phẫu thuật Có bằng chứng nào cho thấy rằng phẫu thuật giảm tỷ lệ những người chết vì ung thư tuyến tiền liệt hay không? (mức ý nghĩa 5%)

Bài tập4.4.16.Ô nhiễm không khí có liên quan đến việc giảm cân nặng ở trẻ sơ sinh. Trong một nghiên cứu được công bố trên Tạp chí của Hiệp hội Y khoa Hoa Kỳ, các nhà nghiên cứu đã kiểm tra tỷ lệ trẻ sơ sinh nhẹ cân được sinh ra từ các bà mẹ tiếp xúc với lượng bồ hóng và tro nặng trong vụ tấn công của Trung tâm Thương mại Thế giới ngày 11/09/2001 Có 182 đứa bé sinh ra từ những bà mẹ này, 15 đứa được xếp vào loại có trọng lượng thấp Trong số 2300 đứa trẻ sơ sinh trong cùng một khoảng thời gian ở New York ở một bệnh viện khác, 92 đứa được phân loại là có trọng lượng thấp Có bằng chứng cho thấy rằng các bà mẹ tiếp xúc ô nhiễm có tỷ lệ trẻ sơ sinh nhẹ cân cao hơn không?

Bài tập 4.4.17.Tỷ lệ titan trong một hợp kim được sử dụng trong đúc các bộ phận hàng không vũ trụ được đo bằng 51 mẫu được chọn ngẫu nhiên Độ lệch chuẩn mẫu là s= 0.37 Kiểm định giả thuyếtH0:σ= 0.35với đối thuyếtH1:σ= 0.35vớiα= 0.05. Bài tập4.4.18.Một dây chuyền sản xuất chi tiết máy quy định đường kính của chi tiết máy có phương sai là 36mm 2 Người ta tiến hành kiểm tra 25 chi tiết, thấy phương sai đường kính của mẫu là 35.266mm 2 Với mức ý nghĩa 5%, ta có thể kết luận như thế nào về dây chuyền sản xuất trên?

Kiểm định phi tham số

Kiểm định dấu một mẫu

• Là kiểm định được dùng để test các giả thuyết liên quan đến trung vị (median) của tổng thể.

• ChoXlà một biến ngẫu nhiên vàmdlà trung vị (chưa biết) của X

• Cho(x1, , xn)là mẫu quan trắc cụ thể của X

• Ở mức ý nghĩa0< α

Ngày đăng: 27/09/2024, 19:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w