Nội dung của giáo trình bao gồm 4 chương: xác định cách tính toán các đại lượng cơ bản của xử lý thống kê; xác định phương pháp so sánh hai tổng thể; phân tích hồi qui và tương quan tuyến tính; ứng dụng các kiểu bố trí thí nghiệm.
Trang 6Chương 3 PHÂN TÍCH HỒI QUI VÀ TƯƠNG QUAN TUYẾN TÍNH 38
3.1 PHÂN TÍCH HỒI QUI (Regression analysis) 38
3.1.2 Kiểm định giả thuyết về mối quan hệ tuyến tính (kiểm định t) 39
3.1.4 Thực hành sử dụng phần mềm Minitab để xác định phương trình
3.1.5 Th ực hành sử dụng phần mềm Minitab để xác định phương trình
3.2 PHÂN TÍCH TƯƠNG QUAN (Correlation analysis) 47 3.2.1 Hệ số tương quan (correlation coefficient) 47 3.2.2 Kiểm định giả thuyết về mối tương quan 48
3.2.4 Thực hành sử dụng phần mềm Minitab để xác định hệ số xác định
Chương 4 ỨNG DỤNG CÁC KIỂU BỐ TRÍ THÍ NGHIỆM 52
4.1 XÁC ĐỊNH CÁC THUẬT NGỮ THỐNG KÊ VÀ BỐ TRÍ THÍ NGHIỆM 52
4.1.2 Một số khái niệm về thống kê cơ bản 52
Trang 8Phân tích mẫu có thể suy ra các đặc tính của tổng thể với một mức độ tin cậy xác định nào đó
Biến ngẫu nhiên (random variance)
Là đại lượng bằng số mà giá trị của nó tùy thuộc vào sự lấy mẫu ngẫu nhiên Biến ngẫu nhiên gồm 2 loại là biến ngẫu nhiên liên tục và biến ngẫu nhiên rời rạc
Biến ngẫu nhiên liên tục là biến ngẫu nhiên mà giá trị của nó có được từ các số liên tục Biến liên tục có thể nhận giá trị bất kỳ trong khoảng số thực
Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà giá trị của nó có được
từ số liệu rời rạc, thường nó là những số nguyên dương
1.1.2 Các số đo mô tả
Là những số được dùng để mô tả số liệu, các thuật ngữ thường được
sử dụng cho các số đo mô tả là tham số (mô tả của tập hợp) và số thống kê (mô tả của một mẫu)
Đo khoảng cách (range)
Là số đo khoảng cách giữa số lớn nhất và nhỏ nhất của mẫu Đại lượng này cho biết thông tin về khoảng cách của số liệu
Ví dụ 2: Một vùng có nhiệt độ từ -20oC đến 50oC => Range = 50- (-20) = 70oC
Trung bình là một số mà các giá trị của mẫu có xu hướng quy tụ quanh nó, trung bình của mẫu có n phần tử được tính như sau:
1
1 n i i
Trang 10Trong đó: t là giá trị của tiêu chuẩn Student cho trong bảng phân phối
Student Sai số được tính như sau: SE = s / n
Ví dụ 6: Đo chiều dài của heo (45 kg) với số lượng mẫu n = 30, độ tin cậy 95% thì giá trị t cho trong bảng phân bố là: t (0,05; 30) = 2,045 Nếu giá trị trung bình 70 cm và phương sai 2,5 cm của mẫu thí nghiệm thì giá trị trung bình của tổng thể được đánh giá như sau:
µ = x ± 2,045 (SE) = 70 ± 2,045 (2,5/ 30 ) = 70 ± 0,93
= 69,07-70,93 Hay nói cách khác, thí nghiệm cho số trung bình 70 cm, ta đánh giá được chiều dài thực của heo nằm trong khoảng 69,07 cm đến 70,93 cm với
độ tin cậy 95%
Chú ý: Khi số lượng mẫu n > 30 thì ta thay t bằng Z (là giá trị xác suất của phân phối chuẩn cho sẵn trong bảng)
Hệ số biến động (coefficient of variation)
Hệ số biến động dùng để đánh giá sự biến thiên của độ lệch chuẩn so với số trung bình mẫu, nó giúp ta so sánh sự biến thiên giữa hai mẫu độc lập với đơn vị đo lường
Hệ số biến động được tính bằng công thức CV( )% s 100
Vậy máy A đóng gói ổn định về trọng lượng hơn máy B
1.1.3 Ước lượng cỡ mẫu
Để ước lượng các tham số của tập hợp ta dựa vào đặc trưng của mẫu, mẫu càng nhỏ thì giá trị ước lượng của tập hợp càng bị sai lệch, ngược lại mẫu càng lớn thì giá trị ước lượng các tham số của tập hợp càng chính xác
Trang 121.1.5 Th ực hành sử dụng phần mềm Minitab để tính đặc trưng của mẫu
Ví dụ 9: khối lượng sơ sinh của heo (kg) được cân 11 con như sau: 1,6; 1,7; 1,65; 1,67; 1,89; 1,79; 1,78; 1,75; 1,68; 1,84; 1,87 Tính đặc trưng của mẫu?
Xác định các đặc trưng của mẫu bằng phần mềm Minitab, cần thực hiện các bước sau:
Bước 1: Nhập các dữ liệu vào worksheet theo cột đứng hoặc theo hàng ngang
Bước 2: Dùng lệch stat\basic statistics\display descriptive statistics, sau đó chuyển biến vào variables và chọn các đặc trưng của mẫu
Bước 3: Đọc kết quả ở phần session mà Minitab vừa tính xong
Có thể tính đặc trưng mẫu cùng lúc nhiều biến
Trang 141.2.2 Đường cong chuẩn
Hàm mật độ của đường cong chuẩn
Cho tổng thể biết trung bình µ và độ lệch chuẩn σ, hàm mật độ xác
Tính chất của phân phối chuẩn
- Tổng diện tích dưới đường cong chuẩn bằng 1
- Đường cong chuẩn kéo dài vô hạn về hai phía và tiệm cận với trục hoành
- Đường cong chuẩn có tham số µ và σ đối xứng qua µ, nên µ vừa là trung bình, vừa là trung vị và vừa là mode
Hình 1.1 Đồ thị của phân phối chuẩn
- Độ lệch chuẩn của biến x bằng σ, đặc trưng cho độ rộng của đường cong
- Hơn 99% diện tích dưới đường cong chuẩn có tham số µ và σ nằm giữa µ-3σ và µ+3σ
- Điểm uốn tại µ-σ và µ+σ
Trang 16Định lý giới hạn trung tâm
Đối với cỡ mẫu tương đối lớn, biến ngẫu nhiên X gần bằng phân phối, bất chấp phân phối của tập hợp như thế nào Cỡ mẫu càng gia tăng thì biến X càng tiến gần đến phân phối
Từ tổng thể theo phần phối bất kỳ với trung bình µ và phương sai σ2,
ta lấy mẫu cỡ n Trung bình mẫu sẽ tiếp cận với phần phối chuẩn với trung bình µ và phương sai σ2/n Khi mẫu càng lớn thì phương sai mẫu càng nhỏ, phân phối trung bình mẫu càng gần phần phối chuẩn Thông thường khi
n ≥ 30 ta sẽ được xem trung bình mẫu theo phân phối chuẩn
1.2.3 Phân phối nhị thức (binomial distribution)
Một biến ngẫu nhiên được gọi là theo phân phối nhị thức nếu nó là biến ngẫu nhiên rời rạc có hàm mật độ xác suất như sau:
f(x, n, p) = x
n
C px.(1-p)n-x nếu x = 0, 1,…n
x n
n C
=
− ; n và p là 2 thông số của biến ngẫu nhiên, với n là số lần xuất hiện của một sự kiện nào đó và p là xác suất xuất hiện của một sự kiện
Khi n > 30, phân phối nhị thức gần với phân phối chuẩn hoặc khi
q = p = 0,5 phân phối nhị thức trở thành phân phối chuẩn
Ví dụ 11: Theo dõi heo đẻ, tổng số heo đẻ được 9 con, xác suất để heo
đẻ được con đực là 0,5 Tìm số trung bình, phương sai và độ lệch chuẩn của lần đẻ được heo đực
Trang 18Định lý: Gọi x1, x2, …, xn là mẫu ngẫu nhiên từ tổng thể theo phân phối chuẩn với trung bình µ và phương sai σ2 thì:
Tóm lại: Có biến ngẫu nhiên X ~ N (µ , σ2)
Nếu biết được phương sai tổng thể thì:
σ
− ~ N (0, 1)
Nếu không biết được phương sai tổng thể mà chỉ biết phương sai của mẫu thì t x
Trang 20So sánh hai phân phối F và t: nếu độ tự do tử số của phân phối F bằng
1 và độ tự do mẫu số bằng n thì phân phối này tương đương với phân phối t
độ tự do n: ( )
2 21
1.2.6 Phân ph ối χ 2 – phân ph ối của phương sai (chi-square distribution)
Phân phối χ2 là phân phối có giá trị từ 0 đến + ∞, lệ thuộc vào độ
∫ , trong đó Γ( )x =∫t x 1−e−t dt
Trang 22Tính các số đo mô tả của mẫu?
2 Cân trọng lượng heo lúc 2 tháng tuổi được chọn ngẫu nhiên từ trại thu được kết quả như sau: 21; 20; 19; 22; 21; 20; 19; 20; 22; 23; 20; 24; 19; 20; 21; 22 Tính trung bình, phương sai, độ lệch chuẩn và sai số chuẩn
của trọng lượng heo trên?
3 Tính trung bình, phương sai, độ lệch chuẩn, sai số chuẩn và hệ số biến động của các số liệu sau: 6,13; 7,05; 7,48; 7,53; 7,58; 7,9; 8,08; 8,09; 8,11; 8,4; 10,15; 10,88; 7,48; 8,79; 9,19; 9,21
4 Cho X là biến ngẫu nhiên có phân phối chuẩn với µ = 2000 và σ = 200 Tính:
a P(X>2300)
b P(1600<X<2200)
5 Chiều cao nam giới khi trưởng thành ở một vùng dân cư là đại lượng
ngẫu nhiên có phân phối chuẩn với µ = 161 và σ = 6 Thanh niên được coi là cao nếu có chiều cao lớn hơn 166 cm Tìm tỉ lệ thanh niên cao ở vùng đó
6 Trong lượng heo cai sữa theo phân phối chuẩn với trung bình µ = 11 kg
và phương sai là 4 kg Trong đàn có 60 heo cai sữa, xác suất để tìm được heo trên 13 kg là bao nhiêu? Và có bao nhiêu con có trọng lượng trên 13 kg?
Trang 24tìm xác suất để Ho được bao nhiêu (chấp nhận Ho nếu đúng bao nhiêu; ngược lại bác bỏ Ho)
Giả thiết lựa chọn
Là giả thiết ngược lại với Ho: nghĩa là khi bác bỏ Hothì chấp nhận H1
Sai lầm loại I (type I error): α, là sai lầm khi bác bỏ giả thiết đúng
α là mức sai số cho phép khi bác bỏ giả thiết đúng α = 0,05 hoặc α = 0,01 Xác suất để sai lầm khi bác bỏ giả thiết đúng < 0,05 hoặc < 0,01 với mức α còn gọi là mức ý nghĩa (significant level)
Sai lầm loại II (type II error): β, khi bác bỏ giả thiết Ho thì ta chấp nhận H1(giả thiết lựa chọn) Tuy nhiên không hẳn H1đúng 100% Như vậy khi chấp nhận H1, nếu H1sai thì ta phạm sai lầm khi chấp nhận giả thiết sai Đây là sai lầm loại II: β
Quyết định Giả thuyết H o
Thực sự đúng Thực sự sai Chấp nhận Quyết định đúng Sai lầm loại II
2.1.4 Các bước thực hiện kiểm định giả thiết
Bước 1: Đặt Ho(giả thuyết không) hoặc Ho và H1(giả thuyết lựa chọn) Bước 2: Chọn α
Bước 3: Tìm số thống kê mà giá trị của nó tương quan đến xác suất đúng của Ho
Bước 4: Thế các giá trị của mẫu (x1, x2, …, xn) vào công thức của thống kê
Bước 5: Dựa vào phân phối xác suất của số thống kê và giá trị của nó tương ứng với mẫu vừa nêu ở bước 4 để tìm xác suất để Hođúng
Bước 6: Kết luận dựa vào xác suất tìm được ở bước 5 để kết luận theo tiêu chuẩn:
+ Bác bỏ Honếu P (Hođúng) < α
+ Chấp nhận Honếu (Hođúng) > α
2.1.5 So sánh số trung bình (mean testing)
So sánh số trung bình và một số cho trước (µ o )
Vấn đề là ta chỉ biết được Χ là trung bình mẫu; là ước lượng của µ, trung bình của tổng thể (Χ thay đổi tùy theo mẫu) Ta so sánh số trung bình này và một số cho trước Ta thấy có 3 trường hợp:
Trang 26n i i
x x
1 1
n i i
2
2
n
i i
x x
2 1
n i i
Zc sẽ ở khoảng giữa của đường phân phối chuẩn tắc
Nếu Ho sai, Zc có khuynh hướng ở về 2 phía đường phân phối chuẩn tắc Vậy:
Trang 28Trong trường hợp hai phương sai không bằng nhau, thì độ tự do được tính bằng công thức n1 + n2 – 2
n
χ − , và ( ) 2
2 2
n
χ −
=>
2 1 2 2
c
s F
s
= ~ F(n1-1),(n2-1)bác bỏ Honếu Fc > Fα, (n1-1), (n2-1)
(Lưu ý: trong công thức tính Fc, s 2nào lớn sẽ được dùng làm tử số)
2.1.6 So sánh 2 t ỉ lệ (proportion testing)
So sánh tỉ lệ quan sát P với tỉ lệ lý thuyết P o
So sánh tỉ lệ qian sát P với tỉ lệ lý thuyết Po của tổng thể mà từ đó mẫu được rút ra, được tiến hành khi khảo sát sự thay đổi tỉ lệ của một đặc tính nào đó trên mẫu do sự tác động của điều kiện nào đó
Ví dụ 14: tỉ lệ bò lai sind bị nhiễm sán lá gan (G) được xác định nhiều
lần là po = 7% Sau một thời gian được khuyến cáo dùng thuốc tẩy sán lá gan, 100 mẫu được lấy để kiểm tra thấy có 4 con bị nhiễm Hỏi với mức ý nghĩa α = 5% thì thuốc tẩy này có hiệu quả không?
Trang 30So sánh 2 t ỉ lệ quan sát (trường hợp mẫu lớn)
Ví dụ 16: trong điều trị bệnh cho bò, ta dùng thuốc A điều trị cho 60 con, khỏi bệnh 42 con Dùng thuốc B điều trị 42 con, khỏi bệnh 22 con Hỏi thuốc A có tốt hơn thuốc B hay không?
Đặt giả thiết: tỉ lệ khỏi bệnh chung của hai phương pháp không khác
biệt tỉ lệ khỏi bệnh của mỗi phương pháp Nói cách khác, hiệu lực điều trị của 2 phương pháp này là như nhau (Ho)
Tỉ lệ khỏi bệnh chung của 2 loại thuốc là 64/102 (0,627)
2 loại thuốc khác nhau không ý nghĩa
Trang 32Giả sử 2 sự kiện độc lập (Ho) Từ giả thuyết này, ta tính các tần số lý thuyết và lập tổng χ2
bỏ Ho Như vậy có sự phụ thuộc giữa màu mắt và màu tóc
c So sánh nhi ều tỉ lệ (hay xác suất)
Ví dụ 20: so sánh tác dụng của 6 mẫu của 1 loại thuốc (6 mẫu do xí nghiệp được sản xuất) Sau một thời gian dài theo dõi tác dụng trên 6 lô chuột song song với 1 lô đối chứng (không điều trị thuốc), ta có kết quả như sau:
Hỏi tác dụng của 6 loại thuốc trên có khác nhau không?
Ta thực hiện các bước sau:
+ So sánh t ỉ lệ chết của 6 lô thuốc có khác biệt nhau không?
Ho: tỉ lệ chết như nhau
Trang 34Bước 1: nhập số liệu vào worksheet
Bước 2: dùng lệnh stat\basic statistics\1-sample Z
Sau đó chuyển biến vào samples in columns, nhập độ lệch chuẩn vào
ô standard deviation, nh ập số cần so sánh vào ô test mean và cuối cùng chọn nút ok
Bước 3: đọc kết quả ở phần session
Đọc kết quả căn cứ vào giá trị P: nếu P>0,05 thì trung bình của tổng
thể và số cho trước không khác biệt ý nghĩa và ngược lại P<0,05 thì trung bình của tổng thể và số cho trước khác biệt có ý nghĩa
2.2.2 So sánh trung bình c ủa tổng thể với một số cho trước và không
bi ết độ lệch chuẩn
Ví dụ 22: Trọng lượng chuẩn của giống heo A là 12 kg/con lúc
32 ngày tuổi Cân trọng lượng của 15 con được nuôi đến 32 ngày tuổi thu
Trang 36Tháng tuổi Red sind Lai sind
Bước 1: nhập số liệu vào worksheet
Bước 2: kiểm tra phương sai của 2 tổng thể bằng lệnh stat\basic statistics\display descriptive statistics\2 variances
Sau đó chuyển 2 biến của tổng thể vào bằng cách nhấp chọn samples
in different columns, chuy ển vào First và Second và cuối cùng chon ok
Bước 3: Đọc kết quả của 2 phương sai bằng cách căn cứ vào giá trị P:
nếu P>0,05 thì phương sai của 2 tổng thể không khác biệt ý nghĩa và ngược lại P<0,05 thì phương sai của 2 tổng thể khác biệt ý nghĩa
Bước 4: Tiến hành so sánh trung bình của 2 tổng thể bằng lệnh stat\basic statistics\2-sample t (trường hợp phương sai của 2 tổng thể không khác biệt ý nghĩa)
Trang 382.2.4 So sánh c ặp
Ví dụ 24: Thí nghiệm được tiến hành ở 9 nông hộ nhằm so sánh
2 khẩu phần vỗ béo cho heo (A và B) Mỗi nông hộ bố trí hai chuồng heo giống nhau, hai khẩu phần ăn được phân bố ngẫu nhiên và đồng đều vào hai chuồng Tăng trọng trung bình (lb/ngày) của heo ở mỗi chuồng được ghi nhận trong bảng Như vậy 2 khẩu phần ăn có khác nhau đến tăng trọng trung bình của heo hay không?
Tăng trọng trung bình của lợn nuôi bằng hai khẩu phần khác nhau
A 0,93 1,16 1,05 1,1 0,93 1,11 0,98 0,99 1,17
B 1,17 1,03 1,23 1,29 1,04 1,15 0,96 1,02 1,3 Bước 1: nhập số liệu vào worksheet
Bước 2: dùng lệnh stat\basic statistics\paired t
Tiếp tục chuyển 2 biến của cặp vào first sample và second sample ở
phần samples in columns và sau đó chọn ok
Trang 40Bước 3: đọc kết quả sự khác biệt của 2 tỉ lệ được đọc căn cứ vào giá trị P: nếu P>0,05 thì 2 tỉ lệ không khác biệt ý nghĩa và ngược lại P<0,05 thì
của Định luật phân ly độc lập Mendel hay không?
Bước 1: nhập số liệu vào worksheet
Bước 2: dùng lệnh stat\tables\chi - square test
Trang 42BÀI TẬP CỦNG CỐ
1 Kiểm tra 102 heo hậu bị ở trại A thấy có 6 con được tuyển, kiểm tra
204 heo hậu bị ở trại B thấy có 14 con được chọn Với mức ý nghĩa 5%,
tỉ lệ heo hậu bị được chọn của 2 trại này có giống nhau hay không?
2 Trọng lượng chuẩn của heo lúc 2 tháng tuổi là 22 kg Lấy ngẫu nhiên trọng lượng 20 heo lúc 2 tháng tuổi ở 1 trại thu được số liệu sau:
Với mức ý nghĩa 5%, hãy cho biết trọng lượng heo ở trại có giống với
trọng lượng chuẩn của heo hay không?
3 Trọng lượng chuẩn của heo lúc 2 tháng tuổi là 22 kg Lấy ngẫu nhiên trọng lượng 20 heo lúc 2 tháng tuổi ở 1 trại thu được số liệu sau:
Với mức ý nghĩa 5%, hãy cho biết trọng lượng heo ở trại có giống với
trọng lượng chuẩn của heo hay không, biết rằng phương sai của tính trạng này là 3?
4 Để kiểm tra độc lực của 2 chủng vi khuẩn (A và B) vào chuột thí nghiệm, người ta đã tiêm vi khuẩn chủng A và B lần lượt 138 và
197 con Kết quả ghi nhận số con chết khi tiêm chủng A và B lần lượt
là 7 và 13 con Độc lực của 2 chủng vi khuẩn nói trên có khác nhau hay không? Tại sao?
5 Năng lượng tiêu thụ (MJ/ngày) của 2 nhóm heo ốm và mập được quan sát như sau:
Heo ốm (n=12): 6,13; 7,05; 7,48; 7,53; 7,58; 7,9; 8,08; 8,09; 8,11; 8,4; 10,15; 7,48
Heo mập (n=9): 8,79; 9,19; 9,21; 9,68; 9,97; 11,51; 11,85; 12,79; 9,69 Hãy so sánh và kết luận sự khác biệt trung bình về năng lượng tiêu thụ
của 2 nhóm?
6 Theo dõi sự di truyền của hai tính trạng chiều cao thân và dạng lá ở cà chua Người ta thực hiện phép lai và thu được kết quả F2 như sau: Thân cao, lá chẻ: 926; thân cao lá nguyên 288; thân thấp lá chẻ 293; thân thấp lá nguyên 104 Hỏi kết quả thu được có phù hợp với tỉ lệ (9:3:3:1) của Định luật phân ly độc lập Mendel hay không?