1. Trang chủ
  2. » Giáo án - Bài giảng

Thống kê sinh học phần 2

104 583 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 104
Dung lượng 2,1 MB

Nội dung

THỐNG KÊ SINH HỌC 55 Chương 4 . KIỂM ĐỊNH GIẢ THUYẾT I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA) Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu. Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và chuyển dạng theo hàm logarit. Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển dạng tối ưu nhất. Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu (hematocytometer) (Fisher, 1990). Dữ liệu Số tế bào máu: 0 1 2 3 4 5 6 7 8 9 10 11 12 Tần số: 0 20 43 53 86 70 54 37 18 10 5 2 2 (1) Nhập dữ liệu vào Minitab Cách 1. Dùng các lệnh từ thanh Menu C alc > Make Patterned Data > Arbitrary Set of Numbers Store patterned data in: C1 Arbitrary set of numbers: 1 (số tế bào máu) Numbers of times to list each value: 20 (tần số) Number of times to list the sequence: 1 Lặp lại Calc > Make Patterned Data > Arbitrary Set of Numbers Store patterned data in: C2 Arbitrary set of numbers: 2 (số tế bào máu) Numbers of times to list each value: 43 (tần số) Number of times to list the sequence: 1 Tiến hành tương tự với các giá trị còn lại từ 3 đến 12. Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12. Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13). Đặt tên cột này là Count Data > Stack >/Column Stack the following columns: C1 – C12 Store stacked data in:  Column of current worksheet: C13  OK Data > Display data Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com BÙI TẤN ANH 56 Cách 2. Gõ lệnh vào Session Window Ed itor > Enable commands MTB > SET C1 DATA> (1)20 (2)43 (3)53 (4)86 (5)70 (6)54 (7)37 (8)18 (9)10 DATA> (10)5 (11)2 (12)2 DATA> END MTB> NAME C1 ‘Count’ MTB > PRINT C1 Kết quả dữ liệu xuất ra trên cửa sổ session như sau Data Display Count 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 11 11 12 12 (2) Mô tả dữ liệu S tat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: Count Variable N Mean SE Mean StDev Minimum Q1 Median Count 400 4.680 0.106 2.114 1.000 3.000 4.000 Variable Q3 Maximum Count 6.000 12.000 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com THỐNG KÊ SINH HỌC 57 12.09.67.24.82.4 Median Mean 5.04.84.64.44.24.0 A nderson-D arling N ormality T est V ariance 4.4688 S kew ness 0.531363 K urtosis 0.311605 N 400 M inimum 1.0000 A -S quared 1st Q uartile 3.0000 M edian 4.0000 3rd Q uartile 6.0000 M aximum 12.0000 95% C onfidence Interv al for M ean 4.4722 4.94 4.8878 95% C onfidence I nterv al for M edian 4.0000 5.0000 95% C onfidence Interv al for S tD ev 1.9769 2.2716 P -V alue < 0.005 M ean 4.6800 S tD ev 2.1139 9 5 % C o nfidence I nte r vals Summary for Count Counts Probability 129630 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 4.68 StDev 2.114 N 400 A D 4.938 P-Value Probability Plot of Counts  Dữ liệu có phân bố lệch dương Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com BÙI TẤN ANH 58 Chuyển dạng căn bậc 2 Minitab output Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công cụ Calculator. Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là SqrtCnt. Calc > Calculator Mô tả dữ liệu trong cột SqrtCnt S tat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: SqrtCnt Variable N Mean SE Mean StDev Minimum Q1 SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321 Variable Median Q3 Maximum SqrtCnt 2.0000 2.4495 3.4641 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com THỐNG KÊ SINH HỌC 59 3.22.82.42.01.61.2 Median Mean 2.252.202.152.102.052.00 A nderson-D arling N ormality T est V ariance 0.2540 S kew ness -0.137839 K urtosis -0.132102 N 400 M inimum 1.0000 A -S quared 1st Q uartile 1.7321 M edian 2.0000 3rd Q uartile 2.4495 M axim um 3.4641 95% C onfidence Interv al for M ean 2.0544 4.50 2.1535 95% C onfidence I nterv al for M edian 2.0000 2.2361 95% C onfidence Interv al for S tD ev 0.4713 0.5415 P -V alue < 0.005 M ean 2.1040 S tD ev 0.5040 9 5 % C o nfidence I nte r vals Summary for SqrtCnt SqrtCnt Probability 4.03.53.02.52.01.51.00.5 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 2.104 StDev 0.5040 N 400 A D 4.497 P-Value Probability Plot for Square Root Count Mặc dù kiểm tra Anderson-Darling cho thấy phân bố này khác biệt có ý nghĩa đối với phân bố chuẩn (P < 0.05) nhưng biểu đồ xác suất có dạng tuyến tính và histogram có đối xứng.  Chuyển dạng thành công. Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com BÙI TẤN ANH 60 Chuyển dạng Log Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount. Có thể chọn hàm Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô Expression. Minitab output Calc > Calculator Mô tả dữ liệu trong cột LogCnt Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: LogCount Variable N Mean SE Mean StDev Minimum Q1 LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986 Variable Median Q3 Maximum LogCount 1.3863 1.7918 2.4849 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com THỐNG KÊ SINH HỌC 61 2.42.01.61.20.80.40.0 Median Mean 1.601.551.501.451.40 A nderson-D arling N ormality T est V ariance 0.2776 S kew ness -0.868773 K urtosis 0.707780 N 400 M inimum 0.0000 A -S quared 1st Q uartile 1.0986 M edian 1.3863 3rd Q uartile 1.7918 M axim um 2.4849 95% C onfidence Interv al for M ean 1.3716 9.39 1.4752 95% C onfidence I nterv al for M edian 1.3863 1.6094 95% C onfidence Interv al for S tD ev 0.4927 0.5662 P -V alue < 0.005 M ean 1.4234 S tD ev 0.5269 9 5 % C o nfidence I nte r vals Summary for LogCount LogCount Probability 3.02.52.01.51.00.50.0 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 1.423 StDev 0.5269 N 400 A D 9.388 P-Value Probability Plot of LogCount Chuyển dạng không phù hợp (quá mạnh). Biên trái (Left hand tail) có số lạ (outlier) Thí dụ 2. Số nang trứng trong các mẫu phân của 100 con dê Dữ liệu có phân bố lệch dương (trang 30) Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com BÙI TẤN ANH 62 Chuyển dạng căn bậc hai Calc > Calculator Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: SqrtOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29 140120100806040 Median Mean 75.072.570.067.565.0 A nderson-D arling N ormality T est V ariance 490.039 S kew ness 0.806398 K urtosis 0.471601 N 100 M inimum 34.641 A -S quared 1st Q uartile 53.852 M edian 67.082 3rd Q uartile 81.700 M aximum 146.287 95% C onfidence Interv al for M ean 66.782 1.30 75.567 95% C onfidence I nterv al for M edian 63.624 73.659 95% C onfidence Interv al for S tD ev 19.436 25.716 P -V alue < 0.005 M ean 71.175 S tD ev 22.137 9 5 % C o nfidence I nte r vals Summary for SqrtOocy SqrtOocy Probability 160140120100806040200 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 71.17 StDev 22.14 N 100 A D 1.299 P-Value Probability Plot of SqrtOocy Chuyển dạng chưa đủ mạnh - dữ liệu vẫn còn phân bố lệch dương Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com THỐNG KÊ SINH HỌC 63 Chuyển dạng Log Calc > Calculator Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: LogOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061 Variable Maximum LogOocy 9.9711 9.69.08.47.87.2 Median Mean 8.608.558.508.458.408.358.30 A nderson-D arling N ormality T est V ariance 0.3688 S kew ness 0.099690 K urtosis -0.459615 N 100 M inimum 7.0901 A -S quared 1st Q uartile 7.9725 M edian 8.4118 3rd Q uartile 8.8061 M axim um 9.9711 95% C onfidence Interv al for M ean 8.3180 0.24 8.5590 95% C onfidence I nterv al for M edian 8.3059 8.5989 95% C onfidence Interv al for S tD ev 0.5332 0.7055 P -V alue 0.757 M ean 8.4385 S tD ev 0.6073 9 5 % C o nfidence I nte r vals Summary for LogOocy LogOocy Probability 109876 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean 0.757 8.438 StDev 0.6073 N 100 A D 0.244 P-Value Probability Plot of LogOocy Normal Chuyển dạng thành công – Phân bố đối xứng Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com BÙI TẤN ANH 64 II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay sai. Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm định giả thuyết (hypothesis testing). Giả thuyết đưa ra kiểm định được ký hiệu là H 0 và được gọi là giả thuyết không (null hypothesis). Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ. Ngoài ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate hypothesis), ký hiệu là H 1 . H 1 sẽ được chấp nhận khi H 0 bị bác bỏ. Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách nào?. Các nhà thống kê đều nhất trí nguyên lý sau: “Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ không xảy ra” Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H 0 nếu xác suất xuất hiện của một sự kiện quan sát được là “nhỏ” Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 10 2 ). Ở một giống bò mới người ta xác định được thời gian mang thai là 295 ngày. Liệu giá trị quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác? Cách giải: Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày. Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc <275 ngày (nghĩa là m  10 ngày). Xác suất của biến cố này là: P(X < 275 hoặc X>295) = 275 285 295 285 or 10 10 P Z Z           = P (Z < -1 hoặc Z > 1) = 2 * P(Z < - 1) = 2 * 0.1587 = 0.3174 275 0.159 0.159 295 Đây là một xác suất lớn (1/3) vì vậy không có lý do gì để bác bỏ giả thuyết trung bình tổng thể là 285 ngày. Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com [...]... x 2 2 2 ( s1 / n1  s 2 / n 2 ) (s 2 1 / n1 )  2 ( s1 / n1 ) 2 n1  1 2 (s 2 / n2 )   2 2 (s 2 / n2 ) 2 n2  1 (làm tròn) 2 khoảng tin cậy x1  x 2  t / 2 ( s 12 / n1 )  ( s 2 / n2 ) b Dùng Minitab : Bước 1 Nhập liệu Nhập dữ liệu vào bảng tính Cột C1 chứa dữ liệu, tên nhãn là %Change, cột C2 chứa nhóm, tên nhãn là Species Data Display Row 1 2 3 4 5 6 7 %Change 2. 31 25 .23 28 .37 14.16 28 .39 27 .94... confidence interval = CI) được xác định như sau: 1 1 ( (0. 025 ) x1  x2  tdf / 2) * s 2     x1  x2  tn1  n2  2 *se  n1 n2  (0. 025 ) trong đó tn  n  2 là đuôi bên phải (2. 5%) của phân bố t với độ tự do là n1 + n2 – 2 1 2 vì n1 + n2 -2 = 25 , t 2 = 2. 06 và se = 134.33 * ( 1 1  ) = 4.489 kg nên: 12 15 95% CI = 42. 5 kg  2. 06 x 4.498 = (33 .2 , 51.7) kg Như vậy có đến 95% cơ hội đúng khi cho rằng... đều giống hệt nhau X m1 Giả thiết: H0 : m1 = m2 H1 : m1  m2 72 m2 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Công thức tính t : t x1  x2 x x  1 2 se 1 1 s2 (  ) p n1 n2 trong đó s p  2 2 ( n1  1) s1  (n 2  1) s 2 n1  n 2  2 sp là độ lệch chuẩn gộp (p = pool) df  (n1  1)  (n 2  1)  n1  n 2  2 df = độ tự do (degree of freedom) Như vậy trong... 17 19.55 0.3 32 195 3 149 1 32. 50 2. 054 28 41.15 4 .20 1 16 19.35 0.580 193 4 146 137.31 37 42. 64 17 20 .05 20 0 1 88 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com 0.550 Total 541 0.746 168 0.464 79 788 Chi-Sq = 45 .22 4, DF = 6, P-Value = 0.000 2 Với độ tự do df = ( 4 - 1)( 3 -1 ) = 6, giá trị χ 2 = 12. 59158 và P (  TN ) = 0.000 b¶ng 2 2 Vì  TN > χ 2 hay P(  TN... x2  196 .2  153.7  42. 5 kg 11*(10. 62) 2  14*( 12. 30) 2 s   134.33 kg 25 s p  134.33  11.59 kg 2 p Cần lưu ý rằng sp phải luôn luôn nằm trong khoảng giữa s1 và s2 10. 62 kg Basic Statistics > Display Descriptive Statistics…/ Variables:... 4.1 Trọng lượng (kg) của hai giống bò (Peter, 20 01) Giống thứ nhất: 187.6 190 .2 180.3 20 1.0 198.6 194.7 190.7 22 1.1 196.3 186.7 20 3.8 20 3.1 Giống thứ hai: 148.1 163.5 165.1 146 .2 146.6 165.0 1 52. 8 1 62. 4 141.6 135.3 140 .2 151 .2 159.4 146.3 181.8 Dữ liệu thống kê mô tả cho thấy: Trung bình mẫu (kg) Độ lệch chuẩn mẫu (kg) Giống 1 196 .2 10. 62 Giống 2 153.7 12. 3 Liệu có sự sai khác về trọng lượng giữa hai... giống bò mới là khác với 28 5 ngày? Cách giải: Giả định  = 10 ngày dùng z-test Giả thuyết không: H0 : m = 28 5 ngày Giả thuyết đối: H1 : m  28 5 ngày với m = trung bình thời gian mang thai của giống bò mới x = (307 +29 3 +29 3 +28 3 +29 4 +29 7)/6 = 29 4.5 ngày Kiểm định: (x  m) (x  m) z  se( x ) 2 /n Trong thí dụ trên z 29 4.5  28 5 1 02 / 6  2. 33 Nếu giả thuyết H0 là đúng thì z = 2. 33 là một quan sát từ... tiếp liên 2 x 2 cho phép so sánh với tần suất thực nghiệm: Chết Sống  Có kháng huyết thanh 13 (19.514) 44 (37.486) 57.000 Không có 25 (18.486) 29 (35.514) 54.000 38.000 73.000 111.000  Tính 2 2  (ad  bc) 2 n [(13 x29)  (44 x 25 ) ]2 x111   6.796 (a  b)(c  d )(a  c)(b  d ) 57 x54 x38 x73 Cách 2 Áp dụng Minitab Bước 1 Nhập các dữ liệu trong bảng 4.5 vào bảng tính: 86 THỐNG KÊ SINH HỌC Simpo . Count 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3. http://www.simpopdf.com THỐNG KÊ SINH HỌC 59 3 .22 . 82. 42. 01.61 .2 Median Mean 2. 2 52. 2 02. 1 52. 1 02. 0 52. 00 A nderson-D arling N ormality T est V ariance 0 .25 40 S kew ness -0.137839 K urtosis -0.1 321 02 N 400 M inimum. (307 +29 3 +29 3 +28 3 +29 4 +29 7)/6 = 29 4.5 ngày Kiểm định: 2 ( ) ( ) ( ) / x x z se x n m m      Trong thí dụ trên 2 294.5 28 5 2. 33 10 / 6 z    Nếu giả thuyết H 0 là đúng thì z = 2. 33

Ngày đăng: 27/05/2015, 15:19

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w