DAI HOC THAI NGUYEN
TRUONG DAI HOC NONG LAM
KHOA KHOA HOC CO BAN
BAO CAO TONG KET
DE TAI KHOA HQC VA CONG NGHE CAP TRUONG
TEN DE TAI:
XAY DUNG BAI GIANG THONG KE TOAN CHUYEN SAU CHO NGANH CHAN NUO}I THU Y VA THU Y
Mó số: T2016-05
Chủ nhiệm đề tài: Mai Thị Ngọc Hà
Thỏi Nguyờn, thang 3 năm 2017
Trang 2
DAI HOC THAI NGUYEN
TRUONG DAI HOC NONG LAM KHOA KHOA HOC CO BAN
BAO CAO TONG KET
DE TAI KHOA HOC VA CONG NGHE CAP TRUONG |
TEN DE TAI: |
XÂY ĐỰNG BÀI GIANG THONG KE TOAN CHUYEN SAU CHO NGANH CHAN NUOI THU Y VA THU Y
Mó số: T2016-05
Xỏc nhận của cơ quan chủ trỡ đề tài Chủ nhiệm đề tài
(Ký, họ tờn) (Ký họ tờn)
Trang 3
DAI HOC THAI NGUYEN TRUONG DAI HOC NONG LAM
KHOA KHOA HOC CO BAN
BAO CAO TONG KET
DE TAI KHOA HỌC VÀ CONG NGHE CAP TRUONG
TEN DE TAI: |
XAY DUNG BAI GIANG THONG KE TOAN CHUYEN SAU CHO NGANH CHAN NUOI THU Y VA THU Y
Mó số: T2016-05
Chỳ nhiệm đề tài Xỏc nhận Hội đồng nghiệm thu
(Ký, họ tờn) (Ky, ho tờn)
i - Chi tich HD: 202 Puro U
Moor Hee - Phản biộn 1: 9999096 "”0 0600009090920 0606 6260666696666 e66e66° 9996980000 0606609009 2029606600066 0660 6066666
Trang 4Muc luc
Thụng tin kột qua nghiờn cứu đề tài khoa hoc va cụng nghệ cấp trường
Information on research results Mở đầu 1 Một số kiến thức cơ bản về phần mềm R 1.1 Một số hướng dẫn mở đầuvềR 1.1.1 Tải và cài đặtR Q Q Q Q Q Q Q Q Q LH Quà và 1.12 Khởi động và ngừngchạyR cu 11.3 "Vanpham"R 2 2 ee eee 1.1.4 Đối tượng và cỏc thao tỏc với đối tượngtrongR 1.15 Định dạng trờn củasổR ẶQ Q Q.0 Q Q V 1.1.6 Cài đặt thờm cỏc gối cụng cụmới - 117 HỗtrợtroneR Q Q Q Quy y2 1.1.8 Thanh tiờu đề trong củasổR 1.2 CachnhapditliộuvaoR 0.0.0.0 0000000000 eee
1.2.1 Nhap so liộu truc ti€p: cQ we ee 1.2.2 Nhập số liệu trực tiếp: edi(dataframeQ)
Trang 53_ Ước lượng bằng khoảng tin cậy cho tham số một tổng thể và cỏc lệnh trong R 19
3.1 Ước lượng kỳ vọng của biến ngẫu nhiờn tuõn theo quy luật phõn phối chuẩn 20
3.1.1 Đó biết phương sai ứˆ của biến ngẫu nhiờn gốc Ÿ 20
3.1.2 Chưa biết phương sai của biến ngẫu nhiờn gốc à 23
3.2 Ước lượng của kỡ vọng toỏn của biến ngẫu nhiờn khụng theo quy luật phõn phối chuẩn .- ee 31 3.3 Ước lượng khoảng cho ẽlỆ Ặ Ặ XS SH he 31 3.3.1 Co sộ ly thuyột vộ udc luong khoang chotylộ 31
3.3.2 Dựng cỏc lệnh trong phõn mềm R để ước lượng tỷ lệ của tổng thể 35
4_ Kiểm định giả thuyết thống kờ và cỏc lệnh trong R 38 4.1 Khỏi nệm chung ee eee 38 4.1.1 Giả thuyết thống kờ : Ặ Ặ QẶ Q Q Q Q H H h Ủ 38 4.1.2 Cỏc bước tiến hành bài toỏn kiểm định giả thuyết thống kờ 39
4.1.3 Quy trỡnh làm một bài toỏn thống kờ trongR cee ee 3G 4.2 Kiộm dinh gia thuyột vộ gid trị trung bỡnh sử dụng phần mềm R 39
4.2.1 Trong trường hợp đó biết phương sai ứ” .- 40
4.2.2 Trong trường hợp chưa biết phương saiứ? .- 42
4.3 Kiểm định sự bằng nhau của hai kỳ vọng của hai biến ngẫu nhiờn cú phõn phối chuẩn trờn phần mềmR - - {SẺ nà 45 4.4 Kiộm định giả thuyết của xỏc suất trờn phần mềmR - - 50 4.4.1 Trường hợp một tổng thể -ẶẶẶẶ TS 50 44.2 Trường hợp hai tổng thỂ ẶẶ ẶQQ So 52 5_ Tương quan và hồi quy và cỏc lệnh trong R 55 5.1 Hệ số tương quan - SH ha 55 5.1.1 Phõn tớch ý nghĩa hệ số tương quan . -ô 55
5.1.2 Hệ số tương quan mẫu Se mm 56 5.1.3 CaAch tinh hộ s6 tuong quan mau bang phn mộmR 61
5.2 Hồi quy tuyến tớnh đơn giản - - Ÿ Ặ S SS h ee 62 5.2.1 Mụ hỡnh hồi quy tuyến tớnh đơn giản . - 62
5.2.2 Phương trỡnh hồi quy tuyến tớnh đơn giản của tổng thể 63
5.2.3 Phương trỡnh đường hồi quy tuyến tớnh mẫu 65
5.2.4 Sử dụng phần mờm R viết phương trỡnh hồi quy tuyến tớnh mẫu 66
5.2.5 Những sai lõm cần trỏnh khi phan tich twong quan va hdi quy - 66
Kết luận 68
Trang 6_ THONG TIN KET QUA NGHIấN CÚU
DE TAI KHOA HOC VA CễNG NGHỆ CẤP TRƯỜNG
1 Thụng tin chung
Tờn đề tài: Xõy dựng bài giảng thống kờ toỏn chuyờn sõu cho ngành CNTY - TY Mó số: T2016 -05
Chủ nhiệm đề tài: Mai Thị Ngọc Hà
Cơ quan chủ trỡ: Khoa khoa học cơ bản - Đại học Nụng lõm Thỏi Nguyờn Cơ quan va cỏ nhõn phối hợp thực hiện: Bựi Linh Phượng
Thời gian thực hiện: Thỏng Í năm 2016 đến thỏng 12 năm 2016
2 Mục tiờu
- Cung cấp hệ thống bài tập, vớ dụ minh họa của học phần thống kờ toỏn cho ngành CNTY
và TY
- Giỳp sinh viờn ngành CNYY và TY học tập mụn thống kờ vừa cú kiến thức khoa học, vừa biết vận dụng thực tiễn nhằm nõng cao chất lượng đào tạo chung của nhà trường
3 Nội dung chớnh
- Xõy dựng hệ thống vớ dụ, bài tập liờn quan đến ngành chăn nuụi thỳ y và thỳ y theo kết cấu chương của nội dung thống kờ trong học phần xỏc suất thống kờ
- Đưa ra cỏc vớ dụ minh họa sử dụng phần mềm R xử lý số liệu thống kờ tương ứng với mỗi chương của phần thống kờ của mụn học
- Hoàn thiện nội dung bài giảng của phần trờn để giảng dạy cho ngành chăn nuụi thỳ y và thỳ y
4 Kết quả nghiờn cứu đó đạt được: Bài giảng thống kờ của học phần xỏc suất thống kờ cho ngành CNYY và TY dựng cho sinh viờn trường Đại học Nụng lõm Thỏi Nguyờn
5 San phẩm: 01 bài bỏo cấp Đại học
Trang 7INFORMATION ON RESEARCH RESULTS 1 General information:
- Project title: Develop intensive mathematical lecture for animal and veterinary industry - Code number: 72016 — 05
- Coordinator: Mai Thi Ngoc Ha Tel: 0962586083 Email: maiha.bomontoan@ gmail.com - Implementing institution: Thai Nguyen University of Agriculture and Forestry
- Cooperating Institution(s):
- Duration: From 1/ 2016 to 12/2016 2 Objective(s):
- Provide an exercise system, illustrative example of a statistical probability module for the animal and veterinary industry
- Helping students in animal health and veterinary medicine to study statistical probability and have scientific knowledge and practical use to improve the quality of general education of the school
3 Main contents:
- Develop a system of example, exercises related to the animal and veterinary industry, based on the chapter structure of statistical content in the statistical probability module
- Complete the content of the lecture above to teach the animal health and veterinary in- dustry
- Provide illustrative example using R software or a statistical processing minitab corre- sponding to teach chapter of the course statistic
4 Results obtained: Statistic section of statistical probability module used for animal and veterinary industry for students of Thai Nguyen University of Agriculture and Forestry 5 Products: | article published in college magazines
Trang 8MỞ ĐẦU
1 Tớnh cấp thiết của đề tài
Thống kờ toỏn học mà mụn khoa học cú vai trũ quan trọng và là một cụng cụ tớnh toỏn khụng thể thiếu trong nhiều lĩnh vực nghiờn cứu như dõn số, y tế, chăn nuụi, thỳ y, Để sinh
viờn cú khả năng vận dụng tốt hơn cụng cụ thống kờ toỏn học trong nghiờn cứu và thực tiễn
nghề nghiệp, hiện nay ở nhiều trường đại học trong nước và trờn thế giới đó xõy dựng giỏo
trỡnh, bài giảng thống kờ riờng cho từng ngành đào tạo Nhờ hệ thống giỏo trỡnh, bài giảng thống kờ chuyờn biệt cho từng ngành như thống kờ toỏn cho khoa học cõy trồng, thống kờ toỏn cho mụi trường, mà sinh viờn gắn kết được lý thuyết với thực tiễn nghề nghiệp, sinh viờn hiểu và dễ dàng tiếp cận với cỏc mụn học phương phỏp thớ nghiệm chuyờn ngành
Ở trường Đại học Nụng lõm Thỏi Nguyờn hiện nay, nõng cao chất lượng đào tạo cỏc mụn
khoa học cơ bản đang được nhà trường quan tõm.Nhiều hội nghị, hội thảo nhằm tỡm ra cỏc giải phỏp đó diễn ra và một trong cỏc giải phỏp cơ bản là phải gắn mụn học với ngành nghề đào
tạo, gắn với thực tiễn cuộc sống và nghề nghiệp từ đú tăng cường tớnh hứng thỳ học tập cho
người học Với chủ trương, chớnh sỏch chung của nhà trường để nõng cao chất lượng đào tạo, chỳng tụi đề xuất đề tài: "Xõy dựng bài giảng thống kờ toỏn chuyờn sõu cho ngành chăn nuụi
thỳ y và thỳ y" để nghiờn cứu 2 Mục tiờu của đề tài
- Cung cấp hệ thống bài tập, vớ dụ minh họa của học phần xỏc suất thống kờ chuyờn sõu cho ngành chăn nuụi thỳ y và thỳ y
- Giỳp sinh viờn ngành chăn nuụi thỳ y và thỳ y học tập phần thống kờ vừa cú kiến thức khoa học, vừa biết vận dụng thực tiễn nhằm nõng cao chất lượng đào tạo chung của nhà trường 3 Tổng quan fỡnh hỡnh nghiờn cứu thuộc lĩnh vực của đề tài
a Trờn thế giới: Hiện nay ở hầu hết cỏc trường Đại học trờn thế giới, mụn học thống kờ toỏn học đều được quan tõm, chỳ trọng và mỗi ngành đào tạo đều cú giỏo trỡnh thống kờ chuyờn biệt nhu Engineering Statistics (Lincoln - University of Nebraska), Environmental and Ecological Statistics (P.Dutileul; B.F.J Manly), nhờ hệ thống giỏo trỡnh cú tớnh chuyờn biệt như vậy mà sinh viờn cú năng lực ỏp dụng kiến thức thống kờ trong chuyờn ngành đào tạo
b Trong nước: Hiện nay trong nước, giỏo trỡnh thống kờ chuyờn biệt cho từng ngành đào tạo cũn hạn chế, chủ yếu ở cỏc trường Đại học hiện nay, thống kệ chuyờn ngành được dạy ghộp trong cỏc học phần như phương phỏp thớ nghiệm đồng ruộng, phương phỏp thớ nghiệm trong chăn nuụi và thỳ y Thống kờ toỏn được dạy trong học phần xỏc suất thống kờ cũn mang nặng
lý thuyết hàn lõm, khụng cú ứng dụng cụ thể cho việc nghiờn cứu
4 Nội dung nghiờn cứu của đề tài
- Xõy dựng hệ thống vớ dụ, bài tập liờn quan đến ngành chăn nuụi thỳ y và thỳ y theo kết cấu chương của nội dung thống kờ trong học phần xỏc suất thống kờ
- Đưa ra cỏc vớ dụ sử dụng phần mềm R xử lý số liệu thống kờ tương ứng với mỗi chương của phần thống kờ mụn học
- Hoàn thiện nội dung bài giảng của phần trờn để giảng dạy cho ngành chăn nuụi thỳ y và
thỳ y :
5 Phương phỏp nghiờn cứu
Trang 9Chuong 1
Một số kiến thức cơ bản về phần mềm R
1.1 Một số hướng dẫn mở đầu về R
1.1.1 Tai va cài đặt R
Tải bộ cài R về mỏy ta vào trang chủ của R là "The comprehensive R Archive Network (CRAN)” theo địa chi sau: Attp:// cran r - project.org - lựa chọn phiờn bản R tương ứng cho hệ điều hành, giả sử mỏy tớnh dựng hệ điều hành windows chon: Download R for window - install R for the first time - Download R 3.2.3 for windows
Sau khi tải bộ cài R về mỏy ta chỉ cần làm theo hướng dẫn đơn giản là cú thể cài xong và sử dụng trờn mỏy tớnh của mỡnh
1.1.2 Khởi động và ngừng chạy R
Sau khi cài đặt R xong, trờn màn hỡnh sẽ xuất hiện biểu tượng của R Để khởi động R ta
cú thể làm theo những cỏch sau:
e Kớch đỳp vào biểu tượng của R trờn màn hỡnh
e Vao Start —> R —> Ri386 3.3.1
khi đú ta sẽ cú một cửa sổ dũng lệnh R (R console) và cú thể thực hiện trờn cửa số dũng lệnh để đưa ra cỏc kết quả cần thiết
Để ngừng hoạt động R, tại cửa sổ dũng lệnh ta kớch đỳp vào nỳt chộo (x) ở gúc bờn phải
của mà hỡnh hoặc vào File —> Exifs hoặc gừ lệnh qQ Khi thực hiện thao tỏc này, trờn cửa SỐ đũng lệnh sẽ hiện ra cõu hỏi cú ghi lại khụng gian làm việc này khụng
Chỳ ý 1.1.1 Ă) Nếu chọn ”“Yứs” thỡ cửa sổ sẽ lưu lại những lệnh của lần thực hiện này trong lan thuc hiộn sau duội dang RData va Rhistory, con nộu chon “No” thỡ lệnh sẽ khụng được lưu lại và lần thực hiện sau cửa sổ dũng lệnh sẽ hoàn toàn mới
1) Trong trường hợp đó lưu file nhưng khụng muốn dựng lại những lệnh này, ta cú thể thực
hiện theo một trong cỏc cỏch sau:
e Vao thu muc RData va Rhistory xúa hai file này đi Nếu thư mục này chưa bị thay đổi, hai file này được lưu ở thư mục mặc định của R
Trang 1011.3 "Van pham" R
R là một ngụn ngữ tương tỏc (mteractive language) cú nghĩa là khi ta ra một lệnh đú đỳng
"văn phạm” thỡ R sẽ cho ra một kết quả Văn phạm chung của R là lệnh (command) hay cỏc
function Mà đó là cỏc functiion thỡ phải cú cỏc thụng số, cho nờn theo sau hàm là cỏc thụng số mà chỳng ta cần cung cấp Cỳ phỏp chung của R như sau:
DoiTuong = function(Thongsol, Thongso2, ., Thongson)
Chẳng hạn như, một lệnh là một phộp toỏn với cỏc kớ hiệu phộp toỏn cơ bản như +, —, *, /,"
hoặc cũng cú thể một hàm được minh họa như sau: >2+2 [1]4 > 2 HỆ > (1 —2)*3 IH =3 > DaySo = seq(0, 10, by = 2) fl] 02468 10 Khi dũng lệnh quỏ dài ta cú thể dựng phớm "ENTER" để xuống dũng, phớm này cũng dựng để kết thỳc lệnh Khi fa muốn đưa một lời chỳ thớch cho những lệnh cần làm ta để dấu # ở đầu cõu: > # Hàm khai căn bậc 2 > sqrt(2) [1| 1.414
R là một ngụn ngữ "đối tượng” nghĩa là cỏc dữ liệu trong R được chứa trong cỏc Object
1.1.4 Đối tượng và cỏc thao tỏc với đối tượng trong R
Một trong những ưu điểm nổi bật của R là kết quả khụng nhất thiết phải hiển thị ra mà cú thể ghi trong cỏc đối tượng (Objects) Tựy theo kết quả của từng đối tượng mà ta cú thể dựng
cho cỏc phõn tớch tiếp theo hoặc thực hiện cỏc phộp toỏn trờn cỏc đối tượng > DaySo = seq(0, 10, bụ = 2)
Để hiển thị nội dung của một đối tượng, ta đỏnh tờn đối tuong va g6 enter: > DaySo
[1] 0246 8 10
Trường hợp này đối tượng "DaySo”" là một vectơ gồm cỏc số nờn cú thể thực hiện một số phộp
toỏn phự hợp trờn "DaySo"
Đặt tờn một đối tượng trong R khỏ linh hoạt Tờn một đối tượng trong R phải bắt đõu bằng
chữ cỏi (A — Z) hoặc (a — z), chỉ bao gồm cỏc chữ cỏi, chữ số (0 — 9), đấu chấm (.) và dấu gạch dưới (_) được viết liền nhau Một chỳ y là R phõn biệt chữ hoa và chữ thường, nghĩa là đối
tượng "DaySo" khỏc hoàn toàn với đối tượng "dayso" Do tờn của đối tượng khụng chứa dấu
cỏch nờn để dộ đọc tờn, ta cú thể viết hoa cỏc chữ cỏi đầu trong mỗi từ của tờn như "DaySo"
hoặc dựng dấu chấm phõn biệt giữa cỏc từ, chẳng hạn "day.so"
Xúa đối tượng trong R ta dựng hầm rm (remove):
> z‡ Xúa đối tượng DaySo
Trang 11
1.1.5 Dinh dang trộn cita s6 R
Để kiểm tra thư mục làm việc hiện tại của R là gỡ, ta gừ lệnh: > getwd()
[1]’C': /Users /Administrator / Documents”
Trong trường hợp muốn thay đổi thư mục làm việc của R, ta cú thể làm một trong cỏc cỏch Sau:
e Tại cửa số dũng lệnh, gừ lệnh
> sehud(Đ : /Quanlukhoahoec/deta¿Ha2016”)
e Hoặc tại cửa số dũng lệnh vào File —› Change dir và chọn đến thư mục (”1 :
/Quanlykhoahoc/ detai Ha2016” )
1.1.6 Cài đặt thờm cỏc gúi cụng cụ mới
Phõn mềm R cung cấp cho chỳng ta một "ngụn ngữ” mỏy tớnh và một số ƒwcfion để làm cỏc phõn tớch căn bản và đơn giản Tuy nhiờn để làm cỏc phõn tớch phức tạp hơn chỳng ta cần cài đặt thờm cỏc package Package là một phần mềm nhỏ được cỏc nhà thống kờ phỏt triển để giải quyết cỏc vấn đề cụ thể, và cú thể chạy trong hệ thống R Chẳng hạn như để phõn tớch hồi quy tuyến tớnh, R cú function / để sử dụng cho mục đớch này, tuy nhiờn để làm cỏc phõn tớch sõu hơn và phức tạp hơn chỳng ta dựng đến cỏc package me4 Cỏc package này cần được tải về mỏy và cài đặt
Cài đặt gúi mới từ gúi được tải về mỏy
Để cài theo cỏch này chỳng ta làm theo thứ tự sau
e Vào trang chủ CRAN của R p: // cran.r - project.org, chọn mục packages xuất hiện
bờn trỏi của mục lục trang web;
*đ Chọn sắp xếp cỏc gúi theo tờn Table oƒavailable packases, sorted by name để thuận tiện
_ cho việc tỡm kiếm;
e Chọn đến gúi đang cần tải về mỏy
e Trờn thanh cộng cụ chọn Packages —> Insfall package(s) from local zip files và tại hộp thoai R Select files chọn thư mục chứa gúi lệnh muốn cài đặt mà đó tải về mỏy Nếu mỏy tớnh được kết nốt mạng thỡ việc cài đặt gúi mới từ trờn mạng sẽ nhanh và thuận tiện hơn „
Cài đặt gúi mới (rực tiếp từ trờn mạng
e Trờn thanh cụng cụ chọn Packages =——> Install package(s)
e Chọn mot ban sao cla CRAN, chang han 0 - Cloud [https]
e Chọn đến gúi cần cai, giả sử cài BSDA |
Chỳ ý I.1.2 Trước khi sử dụng những hàm trong một gúi mới, ta phải gọi gúi nay ra qua ham _ library, chang han library(BSDA ) hoặc tại cửa số dũng lệnh của R, vao package -—> Load
package và chọn đến gúi cần dựng
Để phõn tớch thống kờ và tớnh xỏc suất, ta nờn sử dụng thờm một số gúi lệnh Sau:
Trang 12Tờn gúi | Chức năng
joreian Nhập dữ liệu từ phần mềm khỏc nhau SPSS, STATA,
Vẽ một số biểu đồ kiểm soỏt
chất lượng (quality control charts), e707/ | Tớnh một số hàm thống kờ Cung cấp những hàm tớnh xỏc suất gcc prob trộn khong gian hitu han ơ Cung cấp những hàm tớnh xỏc suất và distriEx Š CộP Š 1 tớnh những đặc trưng quan trọng của một biến ngẫu nhiờn Bảng 1.1: Một số gúi lệnh dựng trong phõn tớch xỏc suất và thống kờ 1.1.7 Hỗ trợ trong R Trờn cửa sổ dũng lệnh, gừ lệnh >?seq
Khi dũng lệnh kết thỳc, R sẽ cung cấp một tài liệu giới thiệu đầy đủ và chỉ tiết về hầm seg Ngoài ra tài liệu cũn cung cấp thờm cỏc cỏch dựng khỏc của hàm se cựng với cỏc vớ dụ minh
họa Chỳng ta cú thể học cỏch dựng của một hàm nhanh hơn bằng cỏch đọc cỏc vớ dụ và sao chộp cỏc vớ dụ này vào cửa số R để xem cỏc kết quả
Để tỡm hiểu "văn phạm" của từng hàm, R cũn hỗ trợ bằng hàm help(), chẳng hạn muốn
biết thụng tin của hàm /m ta gừ lệnh > help(m)
Trong trường hợp muốn biết thụng tin một hàm, chẳng hạn hàm /szn.fÊsf nằm cụ thể ở gúi nào frong cỏc gúi đó cài, ta cú thể dựng thờm tham số /ry.2ll.packages = TRUE trong hàm
help, chang han:
> help("tsum.test” , try.all.packages = TRU E)
Help for topic "tsum.test" is not in any loaded package but can be found in the following packages: Package — Library BSDA — C:/ Programe Files/RIR - 3.3 1/library hoac >??tsum.test Khi da biột duoc ham tsum.test thuộc gúi BSDA, thụng tin về hầm tsum.test duoc tỡm hiểu như sau: > library(BSDA) > help(tsum.test) hoac
> help(’tsum.test” , package = ” BSD A”)
Thụng tin về một hầm trong một gúi bất kỡ cập nhật đến thời điểm tra cứu được tỡm hiểu
tại trang tỡm kiếm của R ở địa chỉ: http : // finzi.psych.upenn.edu/search.html
Những trợ giỳp khỏc trong R cú thể được tra cứu tại mục heip trờn thanh tiờu đề của cửa sổ
dong lệnh
Hàm heùp chỉ được thực hiện khi tờn hàm được nhớ chớnh xỏc Trong trường hợp tờn hàm
Trang 13> apropos(” test” )
Ngoai ham apropos ra, ta c6 thộ diing ham help.search dộ tim tộn và những túm tắt sơ lược về cỏc hàm trong cỏc gúi cơ bản và những gúi đó được cài thờm chứa một cụm kớ tự dang quan tam
> help.search(” test” )
1.1.8 Thanh (tiờu đề trong cửa số R
Thanh tiờu đề cung cấp một số chức năng cho người dựng khi thao tỏc trờn đú Cỏc bảng
sau giới thiệu chỉ tiết cỏc mục con trong cỏc mục trờn thanh tiờu đề File
Muc con Lộnh tuong ting Chức năng Source R code Source("File.txt") Tả , file (dang zie oui ma nguon
của những hàm cần dựng
New script Tạo cửa số biờn soạn Eile lệnh
; Mở file lệnh đó được biờn soạn Open script và lưu ở trong mỏy ô 2 4
Display Files _ Mở đến những file cần sử dụng
Load workSpace load ( "File.RData") Tải lại khụng gian làm việc của R đó được lưu trong lần thực hành trước Save workSpace | save.image ("File.RData") Lưu lại khụng gian làm việc của R đang thực hành để dựng cho những lần sau | Tải lại cỏc lệnh được lưu lại của R
Load History load ("File.Rhistory") trong những lần thực hành trước
wo " Lưu lại cỏc lệnh của R đang
Save History history(""File.Rhistory") thực hành để dựng cho những lần sau
Change dir Thay đổi thư mục đang làm việc của R Print In ra những cửa số đang làm việc của R
Save to Files Luu lại dạng (text file) toàn bộ lệnh và kết quả trong cửa số dũng lệnh của R
ExIt Thoỏt khỏi R
Bảng 1.2: Cỏc chức năng của mục File trờn thanh tiờu đề
Chỳ ý 1.1.3 e Khi đó tạo được một file lệnh và lưu lại thỡ trong những lần sử dụng sau bằng cỏch mở qua Open script ta sẽ được một file chứa cỏc tập lệnh Cỏc lệnh này cú
thể sao chộp và dỏn vào trong cửa sổ R Cỏc lệnh này cũng cú thể được đưa vào cửa số
lệnh R bằng cỏch bụi đen những lệnh cần và ấn chuột phải chọn Run line or selecfion e Phõn biệt giita cdc kiộu luu qua Save WorkSpace, Save History, Save to Files:
- Save WorkSpace: Lưu lại cả khụng gian làm việc của R, kết quả lưu lại là dạng cửa số dũng lệnh;
- Save History: Lưu lại những lệnh trong R, kết quả lưu lại là file dạng RHISTORY File
mở bằng WordPad;
Trang 14Edit
Muc con Phớm tất | Chức nang
Cony Chl +C soe chộp một dean kớ tự trờn cửa số dũng lệnh Đỏn mồ : Paste Ctrl + V trờn cửa số dũng lệnh an un down Ki tự Dỏn cỏc lệnh của một đoạn kớ tự Paste commands only trong cửa số dũng lệnh i he ea ` S ộp và dỏn một đ ớ tự Copy and Paste Chỉ +5 | 250 EHBP Yó đấm (uậi đuạn ka te trờn cửa số dũng lệnh 5a cỏc kớ Clear console Ctrl + L Kiba cic kớ ty trờn cửa sổ dũng lệnh Data editor Biờn tập những bảng dữ liệu hoặc ma trận đó cú GUI preferences Thay đổi những định dạng trờn cửa sổ hướng dẫn R (RGui) Bảng 1.3: Cỏc chức năng mục Edit trờn thanh tiờu đề View Mục con | Chức năng Toolbar | Hiện thanh cụng cụ trờn cửa số RGui Statusbar | Hiện thanh trạng thỏi trờn cửa số RGui Bảng 1.4: Cỏc chức năng của mục View! 1 trờn thanh tiờu dộ Misc (Miscellaneous)
Mục con hước len Chức năng
Stop current computation | ESC, qQ) Đừng tớnh toỏn, lệnh hiện hành Stop all computation Dong tat cả cỏc Tinh Loan, lệnh hiện hành Bufferred output Ctrl +W Cho kết quả ra cựng một lỳc Word completion Hoan thành từ Pilename completion Hoàn thành tờn đối tượng List objects IsQ, objectsO 1 lệt kờ tất cả cỏc đối tượng đó cú Remove all objects rm(list =IsQ) | Xúa tất cả cỏc đối tượng đó cú
List search path searchQ Liệt kờ cỏc đường dẫn tỡm kiếm
Trang 15Packages
Muc con Lệnh tương ứng Chức năng
- Tai những gúi đó cài Load packages library; require m để sĩ đựng
Set CRAN mirror | chooseCRANmirrorQ | Chọn bản sao CRAN của R
Select repositories setRepositories() Chọn nguồn chứa R Install package(s) install.packages từ trờn mạng Cài một hoặc một số gúi Update packages update.packages Cập nhật gúi mới Install package(s)
from local zip files install.packages
( repos =NULL) Cài đặt một hoặc một số gúi mới đó tải về trong mỏy Bảng 1.6: Cỏc chức năng của mục packages trờn thanh tiờu dộ" Windows Mục con Chức năng Cascade Xếp cỏc cửa sổ đạng tầng
Tile Horizontally | Xếp cỏc cửa sổ theo chiều ngang
Tile Vertically | Xếp cỏc cửa số theo chiều dọc
Arrange lcons Sắp xếp cỏc biểu tượng
Trang 16
Help
Muc con Lệnh tương ứng | Chức năng
Console Cung cấp những hướng dẫn trờn cửa sổ dũng lệnh
Cung cấp những tài liệu đưa ra những
FAQ onR cõu hỏi thường xuyờn về R
TFAO on R for windows Cung cấp tài liệu đưa ra những cõu hỏi
thường xuyờn về R trờn windows
Cung cấp một số tài liệu dạng PDE hướng dẫn sử dụng trờn R
R functions (text) help Tra cứu cỏch dựng một hàm trờn R Cung cấp những tài liệu hướng dẫn Manuals (in PDF) Html help sử dụng R dạng html Tỡm những hàm trờn R chứa eat help help.search mit cưa Kỷ trpehp bước search.r - proJecf.Org RSiteSearch Dua thong un ve những tài liệu chứa cụm từ cho trước Apropos apropos Tỡm kiếm những hàm chứa
PrOP93 PrOP cụm từ cho trước
R project home page Liờn kết đến trang dự ỏn R CRAN home page Liờn kết đến trang chủ R About Đưa thụng tin về phiờn bản R
Bang 1.8: Cỏc chức năng của mục windows trờn thanh tiờu đề
1.2 Cỏch nhập đữ liệu vào R
Muốn làm phõn tớch dữ liệu bằng R, chỳng ta phải cú sẵn dữ liệu ở đạng mà R cú thể hiểu
duoc dộ xt ly Dit ligu ma R c6 thộ hiộu duoc 1a dit liộu trong mot data frame C6 nhiộu cach
dộ nhap di liÂu vao mot dare frame trong R, tit nhap truc tiộp dộn nhap từ cỏc nguồn khỏc nhau Sau đõy là những cỏch thụng dụng nhất 1.2.1 Nhập số liệu trực tiếp: cQ Vớ dụ 1.2.1 Giả sử ta cõn thử 100 quả trứng gà cú số liệu như bảng sau và muốn nhập vào R: X(g) | 150 | 160 | 165 | 170 | 180 | 185 S6qua} 4 | 20 | 25 | 30 |] 15 | 6
Để nhập bảng trờn vào R, đầu tiờn ta nhập số liộu cia timg cột bang ham c/ , .), m6i so
liệu được nhập vào hàm c() cỏch nhau bởi dấu phẩy:
> X = c(150, 160, 165, 170, 180, 185)
> SoQua = c(4, 20, 25, 30, 15, 6)
Sau đú chỳng ta dựng hàm data,frame dộ ghộp ching thanh mot bang, cau lộnh nhu sau: > TLTGa = data frame(X, SoQua)
Trong lệnh này chỳng ta muốn cho R biết rằng nhập 2 cột (hay 2 đối tượng) vào một đối tượng
cú tờn là TƯTGa, để kiểm tra số liệu trong đối tượng T7Ga ta chỉ cần gừ lệnh
Trang 17X | SoQua 150 4 160} 20 165} 25 170} 30 180 15 185 6
Để lưu lại cỏc số liệu này trong một file theo dạng R, chỳng ta cần dựng lệnh szwe Giả sử chỳng ta muốn lưu file số liệu trong thư mục: E : /Quanlykhoahoc — KHCB/detaiHa — 2016, chỳng ta làm như sau:
Vào File - Change dir - Chọn đến địa chỉ cẩn lưu Sau đú gừ lệnh:
> save(TLTGa, file =” TLTGa.rda”)
khi đú mot file s6 liộu c6 tộn TLTGa.rda được lưu trong thư mục trờn
Ta cũng cú thể lưu nhiều dữ liệu trong cựng một tệp bằng lệnh: save(DuLieul, DuLieu2, „ fle= "Nhiờu dữ liệu.rda”)
Khi cần lấy đữ liệu được lưu trong một tệp ở một thư mục nào đú, ta làm như sau: > z# Truy cập vào thư mục chứa tệp dữ liệu: Vào Chznge dir - chọn đến địa chỉ đó lưu > # Tai va xem dữ liệu
> print(load(T LTGa))
1.2.2 Nhap sộ liộu truc tiộp: edit(data.frame())
Ham edi1(dafa,frame()) cung cấp cho chỳng ta một window giống như trong excel để chỳng ta nhập số liệu Vớ dụ 1.2.2 Do chỉ số mỡ sữa của 100 con bũ lai Hà - Ấn F1 ta thu được bảng số liệu sau và muốn nhập vào R: Chỉ số mỡ sữa Œ) [ 3,3 [3.9 [4,5 | 5,1] 5/7 | 63 | 69 Số bũ lai 218 |30|35|15|7 |3
Ta dựng lệnh như sau để nhập vào R: > ChiSoMoSua = edit(data frame())
Ta thu được bảng cho phộp ta nhập số liệu vào và nhấn nỳt chộo tắt bang ta sẽ cú 1 file dữ liệu ChiSoMoSua
1.2.3 Nhập số liộu tir Excel (File.csv)
Để nhập số liệu từ phần mềm Excel, chỳng ta cần tiến hành 2 bước:
e Dựng lệnh Szve as trong excel và lưu số liệu dưới dạng ".csv" (Chon Save as type "CSV (comma dilimited)");
e Dựng R (lệnh rezd.csv) để nhập dữ liệu dạng cứv read.csv(file, header)
trong d6
file: Tập dữ liệu dạng file.csv
Trang 18Giả sử trong thư mục E : /Quanlykhoahoc — KHCB/detatH A — 2016, cú lưu tệp đữ liệu TLBE.csv Tại cửa số R console ta tải dữ liệu này ra như sau:
> ## Truy cập vào thư mục chứa đữ liệu
> sehud(°E: /Qunlkhoahc — KHCBdeta¿H A — 2016”)
> # Doc đữ liệu trong tệp TLBE.csv và lưu vào đối tượng 7LBE
> TLBE = read.csv(? TLBE.csv” , header = TRUE)
> # Lưu lại với đuụi “.rđz” để dựng cho những phõn tớch tiếp theo > save(TLBE, file =”TLBE.rda”)
13 Tao di liộu trong R
1.3.1 Tao day sộ cach dộu bang ham seq
seq(from, to, by), seq(length, from, by),
seq(length, from, to) trong đú
from — giỏ trị bắt đầu của đấy số
fo — giỏ trị cuối cựng của dóy số
by khoảng cỏch giữa cỏc số trong dóy length — Số phần tử của dóy số
Vớ dụ 1.3.1 > # Tạo một dóy số từ 150 đến 185 cỏch nhau 5 : > seq(150, 185, bụ = 5) hoặc > seq(150, 185, 5) > # Tạo một dóy số cú độ dài 5, bat dau bằng 150, cỏch nhau 5 > seq(length = 5, from = 150, by = 5) > # Tao một dóy số cú độ dài 5, bắt đầu bằng số 150, đến số cuối cựng 180 > seq(length = 5, from = 150, to = 180) 1.3.2 Tao day lap bang ham rep rep(x, times) trong đú
x — Vec tơ cỏc giỏ trị được lặp lại
times Vec tơ chỉ số lần lặp lại
Trang 20Chuong 2
Cơ sở lý thuyết mẫu
Trong chương này chỳng ta sẽ nghiờn cứu một phương phỏp được sử dụng rộng rói trong thực tế là phương phỏp nghiờn cứu mẫu Phương phỏp này chủ trương từ tập hợp nghiờn cứu, chọn ngẫu nhiờn một số đủ lớn cỏc phần tử đại diện trong tập hợp cỏc phần tử cần nghiờn cứu để điều tra rồi dựng kết quả thu thập được tớnh toỏn, suy rộng ra cỏc kết luận về tập hợp cần nghiờn cứu Vớ dụ, để ước lượng năng suất và sản lượng lỳa của một huyện nào đú người ta chỉ tiến hành thu thập số liệu về năng suất và sản lượng lỳa thu trờn điện tớch của một số hộ gia đỡnh được chọn vào mẫu của huyện để điều tra thực tế, sau đú đựng kết quả thu được tớnh toỏn và suy rộng cho năng suất và sản lượng lỳa của toàn huyện Nếu mẫu được chọn ra một cỏch ngẫu nhiờn và xử lý bằng phương phỏp xỏc suất thỡ vừa thu được cỏc kết luận một cỏch nhanh chúng, đỡ tốn kộm mà vẫn đảm bảo độ chớnh xỏc cần thiết
2.1 Tổng thể và mẫu
2.1.1 Tổng thể
Định nghĩa 2.1.1 Toàn bộ tập hợp cỏc phần tử đồng nhất theo một dấu hiệu nghiờn cứu định
tớnh hoặc định lượng nào đú được gọi là tổng thể nghiờn cứu (population) (hay tổng thể hoặc tập chớnh) Số lượng cỏc cỏ thể (hay cỏc phần tử) của tổng thể được gọi là kớch thước của tổng thể (size of population), thường được kớ hiệu là N Lấy từng cỏ thể ra đo lường một dấu hiệu
nghiờn cứu X, chỳng ta được một biến ngẫu nhiờn X Tập hợp tất cả cỏc giỏ trị của X được
gọi là một tổng thể
Đấu hiệu nghiờn cứu chớnh là một hay một số dấu hiệu đặc trưng của tổng thể Cỏc dấu
hiệu nghiờn cứu này cú thể mang tớnh định tớnh hoặc định lượng (ta cũng cú thể gọi là biến
định tớnh hoặc biến định lượng) Dấu hiệu nghiờn cứu mang tớnh định tớnh là cỏc dấu hiệu nghiờn cứu khụng cõn đong đo đếm được mà chỉ đỏnh giỏ bằng giỏc quan (cảm tớnh) như màu sắc của lỏ, mựi vị của thịt lợn hộp, mức độ nhiễm bệnh của vật nuụi, mầu lụng của cỏc giống
Trang 21đo đếm được như năng suất của lỳa (tạ/ha), chiều cao của cõy (một), trọng lượng của 1 con lợn (kg), số con lợn sinh ra trờn lứa, tỷ lệ thịt lạc
2.1.2 Mau va cỏch chọn mẫu ngẫu nhiờn bằng phần mềm R
a Định nghĩa mẫu
Định nghĩa 2.1.2 Một tập hợp cỏc cỏ thể được lấy ra từ tổng thể được gọi là mẫu (sample) Số
lượng cỏ thể trong một mẫu gọi là kớch thước mẫu (size ứƒ sample), thường kớ hiệu là ứ Những
kết quả đo lường về đặc điểm của cỏc cỏ thể trong mẫu được gọi là số liệu thực nghiệm hay số
liệu thống kờ
Chỳ ý rằng kớch thước của mẫu thường nhỏ hơn rất nhiều so với kớch thước tổng thể Từ tổng thể đó cho ta cú thể lấy ra nhiều mẫu khỏc nhau với cựng một kớch thước 0 Tập hợp tất
cả cỏc mẫu cú thể lấy ra được từ tổng thể được gọi là khụng gian mẫu (sample space) Thống kờ theo phương phỏp mẫu tức là dựng cỏc kết quả thu được từ mẫu đề suy diễn, kết luận cho
tổng thể Khi đú những số liệu thống kờ của mẫu được dựng để ước lượng, kiểm định, đỏnh giỏ những tham số của tổng thể Sở đĩ phải lấy mẫu vỡ tham số của tổng thể quỏ nhiều khụng thộ đo lường trực tiếp được, cú nhiều trường hợp do phương phỏp thu thập mà cỏc cỏ thộ trong mẫu bị biến đổi hoặc phỏ hủy, như khi nghiờn cứu rễ cõy Hơn nữa, mẫu nhỏ hơn tổng thể nờn việc thu thập, xử lý, tổng hợp nhanh và ớt tốn kộm hơn
Như đó núi ở trờn, chỳng ta lấy mẫu để cú cỏc số liệu thống kờ và sử dụng cỏc số liệu thống
kờ này để ước lượng, kiểm định, so sỏnh, đỏnh giỏ những tham số của tổng thể Do đú, yờu cầu lấy mẫu là mẫu phải đại điện một cỏch khỏch quan nhất cho tổng thể, cũng vỡ thế mà việc
lấy mẫu theo phương phỏp nào, cỡ mẫu bao nhiờu là rất quan trọng đối với phõn tớch thống kờ và nú phụ thuộc vào từng lĩnh vực, từng ngành nghề, từng thớ nghiệm cụ thể Lưu ý là để mẫu
đại điện cho tổng thể thỡ việc lấy mẫu theo phương phỏp nào cũng vẫn phải đảm bảo yờu cầu là lấy mẫu ngẫu nhiờn Ngẫu nhiờn cú nghĩa là bất kỡ cỏ thể nào trong tổng thể đều cú cơ hội
được chọn làm mẫu như nhau Dộ dam bảo tớnh đại diện của mẫu và tiện cho việc mụ hỡnh húa, mẫu được tạo lập với những giả thiết sau:
- Lấy lần lượt từng phần tử vào mẫu Phương phỏp này gọi là phương phỏp đơn giản để phõn biệt với cỏch lấy cựng một lỳc nhiều phần tử vào mẫu
- Mỗi phần tử được lấy vào mẫu một cỏch hoàn toàn ngẫu nhiờn, tức là mợi phần tử của
tổng thể đều được lấy vào mẫu với khả năng như nhau
- Cỏc phần tử được lấy vào mẫu theo phương thức hoàn lại, tức là trước khi lấy phần tử thứ
k thỡ trả lại tổng thể phần tử thứ k — 1 mà ta đó nghiờn cứu xong
Trong thực tế nếu kớch thước của tổng thể khỏ lớn cũn mẫu chỉ chiếm một phần rất nhỏ
Trang 22khụng đỏng kể Đặc biệt khi kớch thước của tổng thể là vụ hạn, kớch thước của mẫu lại là hữu
hạn thỡ khụng cũn sự khỏc biệt giữa hai phương thức lấy mẫu núi trờn nữa Lỳc đú cú thể chọn mẫu theo phương thức khụng hoàn lại và vẫn cú thể giả thiết mẫu được chọn theo phương thức
hoàn lại
b Cỏch chọn mẫu ngẫu nhiờn bằng phần mềm R
Khi muốn thực hiện phộp chọn mẫu ngẫu nhiờn, ta ding him sample vội những tham số
chớnh như sau:
sample(x, size, replace, prob)
trong đú:
x vectơ gồm những phần tử dựng để chọn mẫu,
size số nguyờn dương chỉ số phần tử trong mẫu,
replace tham số logic, TRUE chỉ việc chọn mẫu cú hoàn lại, FALSE chỉ việc chọn mẫu
khụng hoàn lại, mặc định replace = FALSE
prob vecto cho biết xỏc suất được chọn của những phần tử trong z
Vi du 2.1.3 i) Giả sử ta cú tổng thể gồm 100 con lợn lỏi múng cỏi được đỏnh số ngẫu nhiờn từ 1 đến 100 Giả sử chỳng ta muốn chọn ngẫu nhiờn ra 10 con để nghiờn cứu về khả năng sinh
sản, chỳng ta cú thể dựng lệnh szpie để chọn như sau: > sample(1 : 100, 10)
[1]6 28 62 36 83 100 97 5 99 94
Kết quả trờn cho biết những con lợn mang số [1] 6, 28, 62, 36, 83, 100, 97, 5, 99, 94 sẽ được chọn vào mẫu Mỗi lần ra một lệnh này, R sẽ chọn một mẫu khỏc, chứ khụng hoàn toàn giống như mẫu trờn
> sample(1 : 100, 10)
[1J80 49 8 1 47 4 94 93 61 64
Trờn đõy là lệnh dộ chỳng ta chọn mẫu ngẫu nhiờn khụng hoàn lại, tức là mỗi lần chọn mẫu,
chỳng ta khụng bỏ lại cỏc mẫu đó chọn vào tổng thể
ii) Nhung nếu chỳng ta muốn chọn mẫu cú hoàn lại, tức là mỗi lần chọn ra một cỏ thể,
chỳng fa lại bỏ vào lại tổng thể để chọn lần tiếp theo, thỡ chỳng ta dựng lệnh như sau:
> sample(1 : 100, 10,zeplace = T'RU E)
[2l 5 40 56 34 94 73 34 94 77
Hay tung một đồng xu cõn đối đồng chất 10 lần, mỗi lần tung chỉ xảy ra hai khả năng hoặc là xuất hiện mặt sấp (HJ), hoặc là xuất hiện mặt ngửa 7) và kết quả 10 lần cú thể là:
> sample(c(? H”,”T”), 10, replace = TRU E)
Trang 231i) Ngoài ra, chỳng ta cũn cú thể lấy mẫu với một xỏc suất cho trước Giả sử cần chọn ra 5
phần tử từ tổng thể gồm 3 phần tử được đỏnh số thứ tự ngẫu nhiờn từ 1 đến 3, mà xỏc suất được
chọn của chỳng lần lượt là 0.5, 0.3, 0.2
> sample(3,5, prob = c(0.5, 0.3, 0.2), replace = TRUE)
(ijl 2211
Chi y 2.1.4 e_ Vỡ việc chọn mẫu là ngẫu nhiờn nờn cú thể cựng một lệnh chọn mẫu nhưng với những lần chọn khỏc nhau cho ta kết quả là khỏc nhau Trong trường hợp muốn cố định mẫu được chọn để dựng lại trong cỏc lần sau, ta dựng hàm se/.seeđ(n), trong đú n là một số nguyờn dương dựng để cố định mẫu > # Đặt tờn mẫu > set.seed(201102) > sample(1 : 100, 10) [(1]63 6 21 80 37 88 54 S51 24 65 _ > # Khụng gọi lại mẫu, kết quả là một mẫu khỏc > sample(1 : 100, 10) [1]32 10 33 88 57 100 4 63 44 3 > 3# Gọi lại mẫu và được mẫu như cũ > set.seed(201102) > sample(1 : 100, 10) [1]63 6 21 80 37 88 54 51 24 65
e Ham sample cho ta cdch chon mau tit một vecto Trong truộng hop mudộn chọn mẫu từ một nhúm đối tượng cú dữ liệu cú trong một bảng dữ liệu, đầu tiờn ta ỏp dụng hàm sample cho vectơ chỉ số thứ tự của cỏc đối tượng, sau đú lấy từ bảng ra những quan sỏt
cú thứ tự đó chọn được
Trang 248 3.8 4.0 9 3.1 3.4 10 3.0 3.1 > # Chọn thứ tự cỏc cặp trong mẫu > Mau = sample(1 : 10, 3) > Mau [1]413
> + Lấy ra những cặp với thứ tự trong mẫu
> DIM = TụLeMoSual Mau, | > DIM Me Con 4 3.0 3.3 1 3.4 3.5 3 4.0 3.9
2.2 Cac phuong phap sap xếp số liệu thực nghiệm
Sau khi thu thập xong số liệu liờn quan đến việc nghiờn cứu, để khai thỏc và xử lý cỏc thụng tin chứa dung trong day s6 liệu ta cần sắp xếp số liệu nhằm nhận ra cỏc đặc trưng của dóy số liệu đú Thụng thường ta sắp xếp số liệu theo thứ tự tăng dõn Một số phương phỏp thường
được dựng để sắp xếp số liệu như sau
a Phuong phỏp sắp xếp số liệu dựng bảng tần số và bảng tần suất Giả sử từ tổng thể của
biến ngẫu nhiờn gốc X rỳt ra một mẫu cụ thể cú kớch thước n, trong đú giỏ trị zĂ xuất hiện với tan sO nz, giỏ trị z› xuất hiện với tần số n¿, , giỏ trị z„ xuất hiện với tần số n;, lỳc đú sau
khi cỏc z;Ă đó được sắp xếp theo trỡnh tự tăng dõn giỏ trị cụ thể của mẫu, ta cú thể mụ tả mẫu
cụ thể bằng bảng phõn phối tõn số thực nghiệm (Frequence distribution table) sau Li | Ly | Va] | Ue] | Lp Ne | Ty | Ta | | Mg | | Mp
VỚI ?ị + nạ + + nạ = n Dũng trờn phi cỏc giỏ trị cú thể cú của mẫu theo thứ tu tang dan,
đũng dưới ghi tần số tương ứng Tõn số mẫu là số cỏ thể cú đặc tớnh X = z; trong mẫu Bảng tần số cho ta nhiều thụng tin hơn dóy số liệu được sắp xếp theo thứ tự tăng dần Ngoài những thụng tin cú được như dóy số liệu sắp xếp theo thứ tự tăng dõn, qua bảng tần số ta cú thể biết được số liệu nào cú mặt nhiều nhất, số liệu nào cú mặt ớt nhất trong mẫu
Phần mềm R hỗ trợ việc tỡm tần số của đữ liệu thụng qua hàm sau:
Trang 25trong đú:
x vecto dir 1iộu can tinh tan s6;
exclude tham số chỉ những phần tử khụng tham gia vào quỏ trỡnh tớnh tần số, mặc định exclude = e(N A, NaN), tức là khụng tớnh tõn số những dữ liệu trống và những dữ liệu khụng phải dạng số
Vớ dụ 2.2.1 Để kiểm tra hiệu quả của việc sử dụng men Lactos 4% trong khẩu phần thức ăn
cho gà, người ta bố trớ thớ nghiệm trờn hai lụ gà thớ nghiệm: Lụ đối chứng (DC) và lụ thớ nghiệm
cú bổ sung men Lactos 4% (TN), mỗi lụ 30 con, cú độ đồng đều về khối lượng, sức khỏe, và
chăm súc với chế độ như nhau Sau 10 tuần người ta cõn thử trọng lượng gà ở mỗi lụ và thu được số liệu sau: DC : (2000; 2000; 1900; 2400; 2000; 2100; 2000; 2000; 2000; 2200; 2000; 2100; 2300; 2400; 1900; 2100; 2100; 2300; 2000; 2000; 2100; 2200; 2000; 2000; 2200; 2200; 2100; 2200; 2150; 2000) 7N : (2500; 2200; 2000; 2100; 2300; 2300; 2000; 2200; 2100; 2000; 2400; 2200; 2000; 2300; 2100; 2300; 2000; 2200; 2300; 2200; 2150; 2200; 2200; 2200; 2100; 2300; 2100; 2300; 2400; 2300) Ta thực hiện việc tớnh tần số cho trọng lượng gà ở lụ DC và TN trờn R như sau: > DC = c(2000, 2000, 1900, 2400, 2000, 2100, 2000, 2000, 2000, 2200, 2000, 2100, 2300, 2400, 1900, 2100, 2100, 2300, 2000, 2000, 2100, 2200, 2000, 2000, 2200, 2200, 2100, 2200, 2150, 2000) > TN = c(2500, 2200, 2000, 2100, 2300, 2300, 2000, 2200, 2100, 2000, 2400, 2200, 2000, 2300, 2100, 2300, 2000, 2200, 2300, 2200, 2150, 2200, 2200, 2200, 2100, 2300, 2100, 2300, 2400, 2300) > table(DC) DC 1900 2000 2100 2150 2200 2300 2400 2 12 6 1 5 2 2 > table(TN) TN 2000 2100 2150 2200 2300 2400 2500 5 5 1 8 8 2 1
Goi f; = = (i = 1, , k) là tần suất của cỏ thể cú đặc tinh x; trong mau, ta cú bảng phõn
phội tan sudt thuc nghiộm (Relative -frequence distribution table) nhu sau Uj, | Ly | Loaf | Ly | 1 Up fil At fe | | fi | | fe với ƒị + ƒs +- + ƒ = 1 Ngoài những thụng tin cú được như bảng tần số mẫu, ta cũn biết
Trang 26prop.table(table(x))
trong đú
xz vecto di liệu hoặc bảng dữ liệu cần tớnh tần suất của cỏc phần tử;
Vớ dụ 2.2.2 Quay trở lại vớ dụ (2.2.1) ta cú thể tớnh tần suất của cỏc trọng lượng của lụ DC như sau:
> prop.table(table(DC))
DC 1900 2000 2100 2150 2200 2300 2400 0.06666667 0.40000000 0.20000000 0.03333333 0.16666667 0.06666667 0.06666667 b Phương phỏp phan khoảng Phõn chia số liệu theo khoảng (lớp) với cựng một độ rộng để thuận tiện cho việc phõn tớch và xử lý số liệu Giả sử #„Ăn là giỏ trị nhỏ nhất, zmạ„ là giỏ trị
lớn nhất của số liệu Chia khoảng (mi, Zmax) thành & khoảng cỏch đều nhau, ta cú bảng sau (gọi là bảng ghộp lớp) Khoảng #0 — đị | đỡị — Z2 |.- | Ley — Lp Tần số dữ liệu trong khoảng ny nạ Les Nk
trong đú n; là số cỏ thể cú đặc tớnh X cú trong mẫu thỏa món z;_Ă < X < #;, Ă = 1,2, ,m Vớ dụ 2.2.3 Đo chỉ số mỡ sữa của 100 con bũ lai Hà - Ấn F, ta thu được kết quả sau:
3.1,3.4, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.2, 3.7,4.3,4.4,4.5,4.3, 4.5, 4.4, 4.6, 4.6, 4.5,4.8,4.3,4.3,46,4.6,4.7 4.3, 4.4, 4.4, 4.6, 4.7, 4.6, 4.7, 44, 4.6, 4.7, 4.7, 4.6,4.4,4.4,4.9, 4.9, 5.1, 5.1, 5-1, 5.1,5.0,5.0,5.0,5.2, 5.2 5.4,5.4,5.4, 4.9, 4.9, 5.3, 5.3, 5.1, 5.1, 5.4, 5.3, 5.3, 5.2, 5.2, 5.0, 5.1, 5.3, 5.2, 5.1, 5.0, 4.9, 5.2, 5.7,5.7,5.9 6.0, 5.8, 5.7, 5.6, 5.5, 5.6, 5.8, 6.0, 5.9, 5.7, 5.5, 5.8, 6.1, 6.4, 6.5, 6.3, 6.4, 6.2, 6.5, 6.8, 7.2, 6.9
Trang 27ta phõn thành 7 khoảng với độ dài mỗi khoảng là 0.6 là: (3.0, 3.6]; (3.6, 4.2], (4.2, 4.8], (4.8, 5.4], (5.4, 6.0], (6.0, 6.6 Trong R, hàm cu được dựng để phõn khoảng dữ liệu:
cut(x, breaks, labels, right, include.lowest, dig.lab)
trong đú:
z vectơ đữ liệu dạng số cần được phõn tổ
breaks vectơ số gồm cỏc điểm chia (ớt nhất 2 tọa độ) hoặc là một số nguyờn dương chỉ số khoảng (lớn hơn hoặc bằng 2)
labels nhan của cỏc khoảng, theo mặc định /zbels = NŨLL, cỏc nhón được xõy dựng dưới đạng nửa khoảng (a, 8]
right — dang logic, nộu right = TRU E thi khoang c6 dang (a,b), nộu right = FALSE thi khoang cộ dang [a, b), mac dinh 1a right = TRUE
include.lowest — dang logic, nộu include.lowest = TRUE thi khoang dau chia gid tri nhỏ nhất của điểm chia (khi right = TRU E),hoac khoang cui chia gia tri 16n nhat của điểm chia (khi righ#‡ = FALSE), mac dinh include.lowest = FALSE
dig.lab Số nguyờn dương chỉ số chữ số trong điểm chia (trong trường hợp khụng gỏn nhón cho cỏc khoảng chia), mặc định đ¿g.iab = 3
Sử dụng hàm này để phõn khoảng dữ liệu cho chỉ số mỡ sữa như sau:
> PKDLChiSoMoSua = cut(DLTChiSoMoSua, breaks = c(3.0, 3.6, 4.2, 4.8, 5.4, 6.0, 6.6, 7.2)) > table(PK DLChiSoMoSua) PhK DLChiSoMoSua (3.0, 3.6] (3.6, 4.2] (4.2,4.8] (4.8, 5.4] (5.4, 6.0] (6.0,6.6] (6.6, 7.2] 3 Â 30 35 15 7 3 Từ kết quả trờn, ta cú bảng tần số thu gọn như sau: Ơ | 30,36] | 36,49] | (42,48) |] (48,5.4 | 4,6.0 | (6.0, 6.6] | (6.6, 7.2] ni | 3 7 30 35 15 7 3 2.3 Cac tham sộ mau cia mau ngẫu nhiờn 2.3.1 Hàm thống kờ
Trang 28đú của cỏc giỏ trị X, Xa, , Ä„ của mẫu được gọi la hdm thdng kộ (statistical function) hay tham số mẫu, ký hiệu là
G = F(X, Xo, ae 5 inde
Với mẫu cụ thộ (a1, %2, ,%,) thi g = f(x1,22, ,2p,) là giỏ trị cụ thể ma thong kộ G =
ƒ(X:,X›, , X„) nhận tương ứng với mẫu đó cho
Như vậy, về thực chất hàm thống kờ là một hàm của cỏc biến ngẫu nhiờn, do đú nú cũng là một biến ngẫu nhiờn tuõn theo một quy luật phõn phối xỏc suất nhất định và cũng cú cỏc tham số đặc trưng như kỳ vọng, phương sai, Cỏc hàm thống kờ cựng với quy luật phõn phối xỏc
suất của chỳng là cơ sở để suy rộng cỏc thụng tin của mẫu cho dấu hiệu nghiờn cứu tổng thể
Cỏc hàm thống kờ hay cũn gọi là cỏc tham số của mẫu được chia thành 2 nhúm: -1) Cỏc tham số về vị trớ gồm: trung bỡnh mẫu; trung vị, mode
11) Cỏc tham số về độ phõn tỏn gồm: phương sai mẫu, độ lệch chuẩn (độ lệch tiờu chuẩn) mẫu,
sai số mẫu, khoảng biến động và hệ số biến động
2.3.2 Trung bỡnh mẫu
Giả sử từ tổng thể của biến ngẫu nhiờn gốc X, ta lập một mẫu ngẫu nhiờn (XI,X¿, , X„)
cú kớch thước 7
Định nghĩa 2.3.1 Một hàm thống kờ, kớ hiệu là X, được gọi là một trung bỡnh mẫu (sample mean) nếu nú là trung bỡnh số học của cỏc giỏ trị mẫu, tức là X được xỏc định bởi
Chỳ ý 2.3.2 () Khi thực hiện một phộp thử đối với mẫu ngẫu nhiờn thỡ mẫu ngẫu nhiờn sẽ nhận một bộ số liệu thực nghiệm (bộ đữ liệu) (+, za, , z„) thỡ trung bỡnh mẫu cũng nhận một
giỏ trị cụ thể kớ hiệu là Z
Œè) Trung bỡnh mẫu phản ỏnh giỏ trị trung tõm của dóy số liệu thực nghiệm của mẫu hay núi
cỏch khỏc nú mụ tả vị trớ tập trung của mẫu cụ thể
(iii) Trung binh mẫu là một hàm thống kờ do đú nú là một biến ngẫu nhiờn nờn nú cú cỏc tham số đặc trưng tương ứng như kỡ vọng toỏn, phương sai Nếu biến ngẫu nhiờn gốc X cú kỡ vong
toỏn #⁄(X) và phương sai V(X) thỡ
E(X) = E(X);V(X) = — (2.1) Vay bat kỡ biến ngẫu nhiờn gốc phõn phối theo quy luật nào, trung bỡnh mẫn X cũng cú kỳ vọng toỏn bằng kỳ vọng toỏn của biến ngẫu nhiờn gốc, cũn phương sai V(Ä) của nú nhỏ hơn
Trang 292.3.3 Độ lệch bỡnh phương trung bỡnh
Giả sử từ tổng thể của biến ngẫu nhiờn gốc X, ta lập một ngẫu nhiờn (XÃ, Xa, , X„) cú kớch thước ứœ Lỳc đú tổng bỡnh phương cỏc sai lệch (Sum squares of variation) giữa cỏc giỏ tri của mẫu và trung bỡnh mẫu được kớ hiệu là SSV và được tớnh bằng cụng thức
n
SSV =À (XĂ - X)
i=1
Nếu đem chia S'SV cho kớch thước mẫu ta thu được trung bỡnh số học của tổng bỡnh phương sai lệch giữa cỏc giỏ trị của mẫu và trung bỡnh mẫu
Định nghia 2.3.3 Dộ lộch binh phuong trung binh (Mean squares of variation) hay con được gọi là phương sai mẫu chưa điờu chỉnh, kớ hiệu S2, là một hàm thống kờ xỏc định bởi
=F xy =F Xf =( C5x” = X?— (X)*
¿=1
Chỳ y 2.3.4 (i) Hoàn toàn tương tự như trung bỡnh mẫu, khi mẫu ngẫu nhiờn nhận một bộ số
liệu thực nghiệm thỡ độ lệch bỡnh phương trung bỡnh sẽ nhận một giỏ trị cụ thể, kớ hiệu là s”
(1ủ) Độ lệch bỡnh phương trung bỡnh mụ tả sự phõn tỏn của mẫu cụ thể xung quanh giỏ trị trung bỡnh mẫu
(1) Độ lệch bỡnh nhượng trung bỡnh cũng là một hàm thống kờ nờn nú cũng là một biến ngẫu nhiờn cú cỏc tham số đặc trưng xỏc định Nếu biến ngẫu nhiờn gốc X cú kỡ vọng toỏn #(X) và phương sai V(X) thi
B(S) =" ) (2.2)
2.3.4 Phuong sai mau
Dinh nghia 2.3.5 Phuong sai mdu da diộu chinh (sample standard variance) hay gọi tắt là
phương sai mẫu (sample variance), kớ hiệu S2, là một hàm thống kờ xỏc định bởi
g2=— S (xX; mđ%— ] — XP = — 8" m—
+=]
Chỳ ý 2.3.6 (1) Phương sai mẫu Š? là một hàm thống kờ, khi mẫu ngẫu nhiờn nhận một bộ số liệu thực nghiệm thỡ phương sai mẫu cũng là một số xỏc định, kớ hiệu s2,
(ii) Phuong sai m4u mụ tả sự phõn tỏn của mẫu cụ thể xung quanh giỏ trị trung bỡnh mẫu
(iii) Cling giống như phương sai mẫu chưa điều chỉnh S?, phương sai mẫu Š' cũng là một biến
ngẫu nhiờn và nú cú tớnh chất sau:
Trang 30(iv) Tir (2.2) va (2.3) ta thấy với bất kỡ biến ngẫu nhiờn gốc X phõn phối theo quy luật nào
n —
thỡ phương sai mẫu chưa điều chỉnh S2 cũng cú kỡ vọng toỏn bằng lần phương sai của
biến ngẫu nhiờn gốc X, và phương sai mẫu Š” cú kỡ vọng toỏn đỳng bằng phương sai của biến ngẫu nhiờn gốc X
2.3.5 Độ lệch chuẩn mẫu
Do đơn vị của phương sai mẫu là bỡnh phương, vỡ thế đơn vị này khụng cú ý nghĩa thực tiễn Căn bậc hai của phương sai mẫu cú ý nghĩa thực tiễn vỡ cú đơn vị giống như đơn vị của gid tri quan sat
Định nghĩa 2.3.7 Độ lệch chuẩn của mẫu (sample standard deviation), ki hiộu S’, 1a căn bậc hai của phương sai mẫu, S’ = v92
Chỳ ý 2.3.8 () Khi mẫu ngẫu nhiờn nhận bộ số liệu thực nghiệm thỡ độ lệch chuẩn mẫu cũng là giỏ trị xỏc định, kớ hiệu s7
(Ă) Độ lệch chuẩn mẫu mụ tả sự phõn tỏn (sự biến động) của dóy số liệu thực nghiệm so với giỏ trị trung bỡnh mẫu của chỳng
(i1) Người ta cũng dựng độ lệch chuẩn để xỏc định độ chớnh xỏc của mẫu Nếu độ lệch chuẩn càng lớn thỡ độ tin cậy của mẫu càng kộm, cú nghĩa là mẫu khụng đại diện cho tổng thể Nếu độ lệch chuẩn mẫu nhỏ thỡ mẫu đại diện cho tổng thể
Người ta chứng mỡnh được rằng với n lớn thỡ số lượng cỏc giỏ trị của biến ngẫu nhiờn nằm trong khoảng:
X + 1s chiộm 68.26% dung lượng mẫu; X +2s chiếm 95.45% dung lượng mẫu; X +3s chiếm 99.74% dung lượng mẫu
2.3.6 Hệ số biến động
Như chỳng ta đó biết, độ lệch chuẩn mẫu dựng để xỏc định mức độ biến động của một tổng thể, đú đú nú dựng để so sỏnh mức độ biến động của 2 tổng thể cú cựng đơn vị đo, cựng bản
chất và cú trung bỡnh mẫu như nhau hoặc khụng khỏc nhau nhiều Trong trường hợp ngược lại
để so sỏnh mức độ biến động của cỏc tổng thể cú bản chất và đơn vị đo khỏc nhau, trung bỡnh
mẫu khỏc nhau thỡ cần đựng một tham số thống kờ mới gọi là hệ số biến động
Định nghĩa 2.3.9 Hệ số biến động, kớ hiệu Ở,, là tỷ lệ phần trăm giữa độ lệch tiờu chuẩn mẫu
với trung bỡnh mẫu và được xỏc định bởi cụng thức Ở, = ==-1005
Trang 312.3.7 Sai số chuẩn
Định nghĩa 2.3.10 Szi số chuẩn (standard error) hay cũn gọi là sai số của số trung bỡnh, kớ
hiệu 2, dựng để biểu thi mức độ đại biểu của tham số mẫu đối với tham số tổng thể và được
i
xỏc định bởi cụng thức 5 = —= Jn
Nhỡn vào cụng thức ta thấy sai số chuẩn càng lớn biểu thị mức độ đại biểu của tham số mẫu đối với tham số tổng thể càng nhỏ và ngược lại sai số chuẩn càng nhỏ biểu thị mức độ đại biểu của tham số mẫu với tham số tổng thể càng lớn Núi một cỏch khỏc cú thể đựng sai số chuẩn để biểu thị mức độ tin cậy của tham số mẫu
Cõn chỳ ý rằng sai số chuẩn được trỡnh bày ở đõy là sai số chọn mẫu (do bản thõn việc
chon mẫu gõy ra) chứ khụng phải sai số do dụng cụ quan sỏt, đo lường sai hay do ghi chộp sai,
tớnh toỏn sai
2.3.8 Cỏch tớnh cỏc tham số mẫu và cỏc hàm tớnh tham số mẫu trong R
Qua cỏc mục trờn, ta thấy khi thực hiện một phộp thử với mẫu ngẫu nhiờn sẽ nhận được một bộ dữ liệu là cỏc số thực, khi đú chỳng ta sẽ tớnh được cỏc giỏ trị trung bỡnh mẫu, phương sai mẫu và độ lệch chuẩn mẫu tương ứng Ta cũng dễ nhận thấy rằng ta chỉ cần tớnh trung bỡnh mẫu và độ lệch bỡnh phương trung bỡnh mẫu ta sẽ tớnh được cỏc đặc trưng cũn lại thụng qua hai đặc trưng trờn
Trang 325 ny +1 T121 m2 Tựy Lk NEL Nyx k k k 2 d= mị >3 * a)) - #=k đạn] t=1 223 = x2 = = sau đú thay vào cụng Ă 1 -
thức (2.8) ta tớnh được sŸ rồi thay vào cụng thức (2.6) ta tớnh được phương sai mẫu s
Nhỡn vào bảng và dựa vào cụng thức (2.7) ta cú: # =
Vớ dụ 2.3.11 Mức tăng giỏ cỏm chăn gà của 30 thỏng qua cho ở bảng sau: Mức tăng gia (nghin/bao) x; | 2/4] 6 | 8 | 10 Số thỏng n; 2|15112|714
Hóy tớnh cỏc đặc trưng mẫu Z; s2; s; s2; s”
Gidi: Ta lap bang tinh sau day: 2 2 4 8 5) 4 20 80 12 6 72 432 7 8 56 448 4 10 40 400 = 30 Ss) = 192 | 35, = 1368 192 —= 1386 gi? _ 64, pe — 1308 _ a5 6 30 : 30 s? = x? — (Z)? = 45,6 -6,4 = 4,64; s= V2 =9, 1541; , 30 tao n—-1 2 29 G4 = 4,8: g = Vs2 = 9 19 c Số liệu thực nghiệm được cho ở đạng bảng tần số mà cỏc giỏ trị z; cỏch đều nhau một khoảng h: Để làm giảm độ phức tạp của số liệu tớnh toỏn ta dựng phương phỏp đổi biến số Đặt 1 Lo h 2 (2.9) t¿ —
trong đú z cú thể chọn là một giỏ trị z; bất kỡ nhưng với mục đớch làm giảm số liệu tớnh toỏn
người fa thường chọn là giỏ trị mà tại đú tần số đạt giỏ trị lớn nhất Khi đú
# = Lo + hu, (2.10)
2
Trang 33trong đú Z= 2S nan we = LY na 2 vom (2.12) Ta cú thể lập bảng tớnh như sau Tử L5 tụ NU; TT Ny 1 Ut MU, mịu2 Nr Lk ủy NEUE In E R E 5 dat = Da 3= Da Mit Vs = De Ui Sa, n= Xs | va v1
thức (2.10); (2.11) ta thu được 7; s2 rồi thay vào cụng thức (2.6) ta tớnh được S
Dựa vào bảng tớnh và cụng thức (2.12) ta tớnh được: tư = và thay vào cỏc cụng
Vớ dụ 2.3.12 Cõn thử 100 quả trứng gà ta cú kết quả sau: z;() 150 160 165 170 180 [| 185 ny 4 16 25 30 15 10 Hóy tớnh cỏc đặc trưng mẫu: Z; s°; s; s”; s' ous ea as , - ;— 170 Giải: Ta thấy cỏc giỏ trị z; cỏch đều nhau một khoảng h = ð nờn đặt: u¿ = _ Ta cú bảng sau: 4 150 —4 —16 64 16 160 —2 —32 64 25 165 —1 —25 25 30 170 0 0 0 15 180 3 30 60 10 185 3 30 90 Ss, = 100 5, = —18 | 3, = 303 —13 —=_ 303 _ #” 100 a u2= Tạp = 393: # = #ạ + hũ = 170 +- 5.(—0, 13) = 169, 35 sf = ue — = = 3,03 — (—0,13)? = 3,0131; s2 = h2s? = 52.(3,0131) = 75,3975;- 3 = 1/82 = 8,679; m 8 = Gy (75, 8275) = 76, 088; sl = Vs? = 8,723 tN Sot
Chỳ Ơ 2.3.13 i) Trong trường hợp cỏc z; cỏch đều nhau một khoảng h, đổi biến số chỉ cú ý nghĩa làm giảm độ phức tạp tớnh toỏn nờn nếu khụng đổi biến ta vẫn tớnh bỡnh thường như trường hợp b) Ngay cả khi cỏc z¿ khụng cỏch đều nhau mà số liệu tớnh toỏn phức tạp thỡ nếu
Trang 341) Nếu mẫu cho dưới dạng bảng ghộp lớp (phương phỏp phõn khoảng) thỡ ta chọn mỗi lớp một giỏ trị đại diện, thụng thường là giỏ trị chớnh giữa lớp, khi đú ta thu được bảng tần số và tớnh được cỏc đặc trưng mẫu như cỏch tớnh ở trờn
Vớ dụ 2.3.14 Trong cuộc điều tra Glucoza trong mỏu ở 100 con trõu ta thu được kết quả như sau (mg %): x, | 65 | 70] 75 | 80 | 85 | 90 | 95 | 100 | 105 | 110 | 115 | 120 | 125 70 | 75 | 80 | 85 | 90 | 95 | 100 | 105 | 110 | 115 | 120 | 125 | 130 ne | 1} 0}; 2)]5 |] 8 | 16) 18) 17 | 16 9 5 2 1
Hóy tớnh cỏc đặc trưng mẫu Z; s`; s; s2; s”,
Giải: Chọn 2; là điểm giữa ở mỗi lớp, dộ thấy cỏc z; cỏch đều nhau một khoảng h = 5, dat Ta cú bảng tớnh sau Khoảng Glucoza | x; Ni tị Ng thy In 65 — 70 67,5 1 —6 —6 36 70 — 75 72,5 0 - 0 0 75 — 80 77,5 3 —4 me: 32 80 — 85 82,5 5 —8 —15 45 85 — 90 87,5 8 = —16 32 90 — 95 92,5 16 =] —16 16 95 — 100 97,5 18 0 0 0 100 — 105 102, 5 17 1 17 17 105 — 110 107, 5 16 2 32 64 110 — 115 112,5 9 3 27 81 115 — 120 117, 5 5 4 20 80 120 — 125 122,5 2 5 10 50 125 — 130 127,5 1 6 6 36 33, = 100 3), = 51 | S34 = 489 ee 55 = MBs ee — 489 + = ng = S89 vỡ E = 2 + hu =97,54+5 x (0,51) 2 100,05 s2 =u2— (ữ)2= 4,89 — 0,512 ~ 4,63; s2 = h?s? — 5 x (4,63) = 115, 75; 5s = ⁄s$ = 10,76; aig n—1 99 (115, 75) = 116, 92: s = Vs = 10,81
d Cỏc hàm tớnh cỏc tham số mẫu frong phần mềm R
R hỗ trợ nhiều hàm để tớnh cỏc tham số mẫu, bảng sau cho chỳng ta một số hàm phổ biến: Vớ dụ 2.3.15 Quay trở lại vi du (2.3.12) ta cú thể tớnh cỏc tham số mẫu như sau:
> # Nhập số liệu vào R
Trang 35Ham Cụng dụng
mean(x) Tớnh trung bỡnh cụng của cỏc giỏ trị cho trong vecto x
var(x) Tinh phuong sai cla cac gia tri cho trong vecto x sd(x) Tớnh độ lệch chuẩn của cỏc giỏ tri cho trong vecto x median(x) Tinh trung vi cua cac gia tri cho trong vecto x summary (x) | Tinh giỏ trị nhỏ nhất, lớn nhất, trung bỡnh mẫu, median Bang 2.1: Một số hàm tớnh cỏc tham số mẫu trong R > TSQua = c(4, 16, 25, 30, 15, 10) > TGa2310 = rep(TLG5, TSQua) > mean(T'Ga2310) [1] 169.35 > var(T'Ga2310) [1| 76.08838 > sd(TGa2310) [1] 8.722866 Đặc biệt R cú lệnh szznary cú thể cho chỳng ta cỏc thụng tin thụng kờ về một biến số: > summary(T Ga2310) Min 1stQu Median Mean 3rdQu Maz 150.0 165.0 170.0 169.4 172.5 185.0
Ở đõy cú 2 chi sộ "Ist Qu." va "3rd Qu." c6 nghia 1a first quartile (tương đương với vị tri 25%) va third quartile (tương đương với vị trớ 75%) của 1 biến số 1s/Qu = 165 cú nghĩa là 25% đối tượng nghiờn cứu cú trọng lượng bằng hoặc nhỏ hơn lúố g
Chi y 2.3.16 i) R khong cú hàm tớnh sai số chuẩn, và trong hàm summary, R cũng khụng
cung cấp độ lệch chuẩn Để cú cỏc thụng tin này, chỳng ta cú thể tự viết một hàm đơn giản (đặt tờn là ham desc) nhu sau: > desc = ƒunecHiơn(z) { av = mean(x) sd = sd(#) se = sd/sqrt(length(x)) cu = sd/av * 100;
c(Mean = av, sd = sd(x), SE = se,CV = cv) }
Chẳng hạn, chỳng fa đựng hàm vừa lập để tớnh trung bỡnh mẫu, độ lệch chuẩn mẫu, sai số
chuẩn, hệ số biến động cho dữ liệu ở vớ dụ (2.3.12) như sau:
> desc(TGa2310)
Trang 36169.3500000 8.7228656 0.8722866 5.1507916
Vớ dụ 2.3.17 Ba trại sử dụng cỏc phương phỏp chăn nuụi lợn khỏc nhau Sử dụng cỏc giống lợn tương tự nhau Thời gian từ lỳc cai sữa đến lỳc xuất bỏn được ghi lại như sau: Tra¿l(g) Trai2 Trai3 105 105 100 112 108 107 99 104 100 97 112 113 104 101 103 117 103 115 113 105 98 109 108 110 110 110 105
Tớnh cỏc tham số mẫu cho bộ đữ liệu trờn
Trong R, ta thực hiện lệnh như sau: > Trail = e(105, 112, 99, 97, 104, 117, 113, 109, 110) > Trai2 = e(107, 108, 104, 112, 101, 103, 105, 108, 110) > Trai3 = e(100, 107, 100, 113, 103, 115, 98, 110, 105) > TraiLon = data.frame(Trail, Trai2, Trai3) > summary(TraiLon)
Trail Trai2 Trai3
Min.: 97.0 Min : 101.0 Min : 98.0 lstQu.: 104.0 1s¿Qu : 104.0 IstQu : 100.0 Median :109.0 Median : 107.0 Median : 105.0 Mean : 107.3 Mean : 106.4 Mean : 105.7 3rdQu : 112.0 3srdQu : 108.0 3rdQu : 110.0 Maz : 117.0 Maz : 112.0 Maz : 115.0
2.3.9 Tõn suất mẫu
Giả sử từ tổng thể kớch thước Ấ trong đú cú Ä⁄ phần tử mang dấu hiệu nghiờn cứu, lấy ra
một mẫu ngẫu nhiờn kớch thước +ằ và trong đú thấy cú rn phần tử mang dấu hiệu nghiờn cứu
ô ~ a a, x “ ^^ 1m ` 2 nf ow
Dinh nghia 2.3.18 Tdn sudt mdu (sample relative frequency), ky hiộu f = —, 1A ty số giữa n số phần tử mang dấu hiệu nghiờn cứu trong một mẫu và kớch thước mẫu Tần suất mẫu phản
ỏnh giỏ trị trung bỡnh của dữ liệu định tớnh
Vớ dụ 2.3.19 Xỏc định trung bỡnh số lợn đực được sinh ra (tỷ lệ lợn đực được sinh ra so với
Trang 371200
—— = 0.6 2000 0.6 Núi cỏc Noi cach
Trang 38Chuong 3
Ưúc lượng bằng khoảng tin cay cho tham
số một tổng thể và cỏc lệnh trong R
Ước lượng tham số là một trong những bài toỏn cơ bản của thống kờ toỏn học Khi
nghiờn cứu một dấu hiệu đặc trưng dưới dạng cỏc đặc tớnh định lượng (chẳng hạn như chiều
cao, cõn nặng, độ dài, .) của tổng thể thụng qua biến ngẫu nhiờn gốc X, nếu xỏc định được quy luật phõn phối xỏc suất của X thỡ việc đưa ra cỏc đỏnh giỏ cũng như cỏc dự bỏo về sự biến động của tổng thể liờn quan đến đặc tớnh này sẽ chớnh xỏc và khỏch quan Tuy nhiờn khụng phải lỳc nào chỳng ta cũng xỏc định được quy luật phõn phối xỏc suất của X Trong một số trường hợp, bằng phương phỏp phõn tớch lý thuyết ta cú thể biết được dạng toỏn học của hàm phõn phối hoặc hàm mật độ của biến định lượng X Tuy nhiờn cỏc tham số đặc trưng của nú như kỳ vọng, phương sai, mà ta gọi chung là tham số lý thuyết ỉ lại chưa biết nờn ta cần phải xỏc định 0 Việc tớnh chớnh xỏc ỉ là khú cú thể thực hiện được mà ta chỉ cú thể tớnh gần đỳng Việc tớnh gần đỳng thụng qua mẫu thực nghiệm đó cú gọi là ước lượng tham số (estimate for
parameters) ỉ Ta cú thể túm tắt bài toỏn như sau
Bài toỏn, Cho X là biến ngõu nhiờn gốc của một tổng thể cõn nghiờn cứu mà ta đó biết quy luật phõn phối xỏc suất nhưng chưa biết tham số đặc trưng 0 của X Hóy ưúc lượng tham số 8
Phương phỏp chung Từ tổng thể cần nghiờn cứu rỳt ra một mẫu ngẫu nhiờn kớch thước ứ và dựa vào mẫu đú mà xõy dựng một thống kờ G dựng để ước lượng 6
Cú hai phương phỏp sử dụng Œ để ước lượng 9 là phương phỏp ước lượng điểm và phương phỏp ước lượng bằng khoảng tin cậy Trong phần này chỳ trọng giới thiệu một số hàm trong R giỳp fỡm khoảng tin cậy của những tham số như giỏ trị trung bỡnh, phương sai, tỷ lệ, Những hàm này khụng chỉ hỗ trợ tỡm khoảng tin cậy cho tham số một tổng thể mà cồn giỳp tỡm khoảng
tin cậy cho hiệu cỏc tham số của 2 tổng thể và đồng thời được sử dụng trong bài toỏn kiểm
Trang 393.1 Ước lượng kỳ vọng của biến ngẫu nhiờn tuõn theo quy luật phõn phối chuẩn
3.1.1 Đó biết phương sai ứŸ của biến ngẫu nhiờn gốc X
a) Cơ sở lý thuyết ước lượng kỡ vọng và cỏch xử lý số liệu bằng mỏy tớnh bỏ tỳi
Bài toỏn Cho biến ngẫu nhiờn gốc Ä cú phõn phối chuẩn N{(a, ứ3) Hóy ước lượng tham số
kỳ vọng 9 = a
Xỏc định khoảng tin cậy của a, người ta thường xột cỏc trường hợp đặc biệt của khoảng tin cậy như sau
Khoảng tin cậy đối xứng Nếu ơi = ơœ¿ = Š thỡ khoảng tin cậy của ứ là:
— ỉ meee ỉ
(Xx — vnex + vals)
Trong (3.1), nếu đặt e = M.U thỡ biểu thức cú dạng (X —e; X +Ê), e được gọi là độ chớnh 3.1)
xỏc của ước lượng, nú phản ỏnh mức độ sai lệch của trung bỡnh mẫu so với trung bỡnh tổng thể với xỏc suất (1 — œ) cho trước
Khoảng tin cậy bờn phải (đựng để ước lượng giỏ trị tối thiểu của a) Nếu œi = 0, œa = œ thỡ
Ứ_„„ = +oo Do đú khoảng tin cậy bờn phải của ứ là: _ vn Khoảng tin cậy bờn trỏi (dựng để ước lượng giỏ trị tối đa của a) Nếu a¿ = 0,ai = œ thỡ (x Ui_o3 +00) (3.2) U1—ay = +00 Do dộ khoang tin cay bộn trai của ứ là: (—co; X+ TnU-a): (3.3)
Vớ dụ 3.1.1 Trọng lượng cỏ hồi trưởng thành tại một khu vực ấp trứng là biến ngẫu nhiờn phõn phối chuẩn với độ lệch tiờu chuẩn 0,544 kg Người ta chọn ngẫu nhiờn ra 16 con cỏ và thấy trọng lượng trung bỡnh của chỳng là 3, 266 kg Với độ tin cậy 95%, hóy ước lượng trọng lượng trung bỡnh của giống cỏ hồi tại vựng này
Giải Sử dụng cụng thức (3.1) và thay số: # = 3, 266,0 = 0,544,n = 16,U œ = 1,96 cú
s 1——
trọng lượng trung bỡnh của cỏ hồi nằm trong khoảng (2, 99944; 3, 53256) (kg)
Trang 4095% hóy ước lượng độ PH trung bỡnh của dung dịch này nằm trong khoảng nào? Theo anh
(chị) dung dịch trờn cú được dựng để vệ sinh chuồng trại hay ko, hóy đưa ra kết luật với mức ý nghĩa 5% Giải Ta cú o = 0,02;n = 10; v a = 1,96 va 3 _ 8,18+8,17+8,16+8,15 t= +8, 17+ 8,21-+8,22 + 8, 16 + 8, 19 + 8,18 3 179 = ` 10
Thay vào (3.1) cú độ PH của dung dịch nằm trong khoảng (8, 17508; Đ, 18292) Chỳng ta thấy 8,2 khụng nằm trong khoảng ước lượng nờn cú thể sơ bộ nhận định đung dịch trờn khụng nờn
dựng để vệ sinh chuồng trại Để cú kết luận khoa học hơn chỳng ta phải tiến hành bài toỏn
kiểm định giả thiết thống kờ
b) Ước lượng kỡ vọng toỏn trong trường hợp biến ngẫu nhiờn phõn phối chuẩn và đó biết
phương sai bang cach sir dung ham z.test va zsum.test
Trước hết chỳng ta phải hiểu cỏc khỏi niệm Dữ liệu sơ cấp và Dữ liệu thứ cấp trong R Trong R Đế liệu sơ cấp là dữ liệu thụ cho ta biết toàn bộ thụng tin về dữ liệu Đữ liệu thứ cấp là dữ liệu khụng cho ta biết toàn bộ thụng tin về dữ liệu mà chỉ biết một số đặc trưng như ứ, ứ e Su dung ham z.test
Ta sử dụng hàm z./es để ước lượng khoảng tin cậy trung bỡnh cho tổng thể khi phương sai
đó biết, dữ liệu dạng sơ cấp với cỏc tham số như sau:
z.test(œ, sigma.#, alt = ”†”, cơn Ƒ.leuel) (3.4) trong đú
x vộc fơ đữ liệu mẫu,
ơ.z _ độ lệch chuẩn của tổng thể,
alt="t" Tỡm khoảng tin cậy hai phớa, muốn tỡm khoảng tin cậy bờn trỏi thỡ thay “?” bởi "7", bờn phải thay / bởi ứ
conflevel Độ tin cậy của khoảng ước lượng
Vi du 3.1.3 Quay trở lại vớ dụ (3.1.2) ta thực hiện ước lượng khoảng tin cậy cho độ PH trung bỡnh bằng đoạn lệnh sau trong R:
> # Hàm sử dụng để ước lượng là hàm z.Êes¿ vỡ đữ liệu cho là đữ liệu sơ cấp, biến ngẫu nhiờn
phõn phối chuẩn, biết phương sai
> # Ham z.test nằm trong gúi BSDA nờn phải cài gúi này về mỏy, nếu mỏy đó cú gúi này thỡ ta dựng lệnh gọi BSDA ra như sau:
> library(BSDA)
> # Nhập dữ liệu vào R qua đối tượng PH