Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,48 MB
Nội dung
THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com MỤC LỤC Chương GIỚI THIỆU VỀ THỐNG KÊ SINH HỌC I MỘT SỐ KHÁI NIỆM 1 Thống kê Thống kê sinh học Mẫu tổng thể II DỮ LIỆU TRONG SINH HỌC Dữ liệu 2 Các quan sát biến số Các loại thang đo Các loại biến số sinh học Độ độ xác liệu III GIỚI THIỆU PHẦN MỀM THỐNG KÊ MINITAB Chương MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU I MƠ TẢ VÀ TRÌNH BÀY DỮ LIỆU BẰNG BẢNG Bảng tần số chiều Bảng tần số hai chiều II MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ 10 Pie Chart 10 Time Series Plot 11 Line Graph 12 Bar Chart 13 Interval Plot 17 Histogram 18 Stem and Leaf Plots 21 Dotplot 22 Scatterplots 23 III CÁC SỐ ĐO ĐỊNH TÂM 24 Số trung bình 24 Số trung vị 26 Số yếu vị 26 IV CÁC SỐ ĐO ĐỘ PHÂN TÁN 27 Khoảng biến thiên 27 Khoảng tứ vị 27 i BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Độ lệch trung bình 27 Phương sai 28 Độ lệch chuẩn 28 Hệ số biến thiên 28 Boxplot 29 Chương PHÂN BỐ XÁC SUẤT I CÁC DẠNG PHÂN BỐ 31 Phân bố đối xứng 31 Phân bố lệch dương 32 Phân bố lệch âm 33 II PHÂN BỐ NHỊ THỨC 34 Xác suất nhị thức 34 Trung bình phương sai phân bố nhị thức 38 Hình dạng phân bố nhị thức 38 Các thí dụ 38 III PHÂN BỐ POISSON 39 Xác suất Poisson 40 Trung bình phương sai phân bố Poisson 41 Hình dạng phân bố Poisson 41 Các tìm xác suất Poisson 41 IV PHÂN BỐ CHUẨN 43 Xác suất chuẩn 43 Hình dạng phân bố chuẩn 44 Cách tính xác suất phân bố chuẩn tắc 46 Kiểm tra phân bố chuẩn 51 V PHÂN BỐ MẪU 52 Phân bố trung bình mẫu 52 Sai số mẫu 53 Định lý giới hạn trung tâm 53 Chương KIỂM ĐỊNH GIẢ THUYẾT I CHUYỂN DẠNG DỮ LIỆU 55 II TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT 64 III KIỂM ĐỊNH MỘT MẪU 65 Kiểm định Z 65 Kiểm định t 68 ii THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Khoảng tin cậy trung bình tổng thể 69 IV KIỂM ĐỊNH HAI MẪU 70 Hai mẫu độc lập, phương sai 71 Hai mẫu độc lập, phương sai không 75 Hai mẫu liên hệ - So sánh cặp 80 V KIỂM ĐỊNH SỰ PHÙ HỢP GIỮA LÝ THUYẾT VÀ THỰC NGHIỆM 83 VI KIỂM ĐỊNH TÍNH ĐỘC LẬP 85 Chương BỐ TRÍ THÍ NGHIỆM & PHÂN TÍCH PHƯƠNG SAI I ĐẠI CƯƠNG VỀ BỐ TRÍ THÍ NGHIỆM 91 Mục đích 91 Một số khái niệm thường dùng 91 Hai nguyên tắc bố trí thí nghiệm 91 Kỹ thuật ngẫu nhiên hoá 91 II CÁC KIÊU BỐ TRÍ THÍ NGHIỆM PHỔ BIẾN 92 Bố trí ngẫu nhiên hoàn toàn 92 Bố trí khối hồntồn ngẫu nhiên 94 Bố trí vng La tin 95 III PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ 96 Các bước tổng quát 96 So sánh nghiệm thức .105 IV PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ 110 Hai nhân tố không lặp lại .110 Hai nhân tố có lặp lại .117 Chương PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN I PHÂN TÍCH HỒI QUY 121 Hồi quy đơn 121 Hồi quy bội 129 Hồi quy đa thức .131 II PHÂN TÍCH TƯƠNG QUAN .135 Tính hệ số tương quan 135 Thiết lập biểu đồ tương quan 136 Phụ lục CÁC BẢNG THỐNG KÊ .137 TÀI LIỆU THAM KHẢO 144 BÀI TẬP 145 iii THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com CHƯƠNG GIỚI THIỆU VỀ THỐNG KÊ SINH HỌC I MỘT SỐ KHÁI NIỆM Thống kê (Statistics) Thuật ngữ hiểu theo hai nghĩa: Thứ nhất: thống kê số liệu thu thập để phản ánh tượng kinh tế - xã hội, tự nhiên, kỹ thuật Thứ hai: thống kê hệ thống phương pháp sử dụng để mô tả tượng kinh tế - xã hội, tự nhiên, kỹ thuật Nói cách tổng quát thống kê hệ thống phương pháp dùng để thu thập, xử lý phân tích số (mặt lượng) tượng để tìm hiểu chất tính qui luật vốn có chúng (mặt chất) điều kiện thời gian không gian cụ thể Thống kê thường chia thành hai lãnh vực: - Thống kê mô tả (Descriptive Statistics): bao gồm phương pháp thu thập số liệu, mơ tả trình bày số liệu, tính tốn đặc trưng đo lường - Thống kê suy diễn (Inferential Statistics): bao gồm phương pháp ước lượng, kiểm định, phân tích mối liên hệ, dự đốn sở thông tin thu thập từ mẫu Thống kê sinh học (Biometry) Theo nghĩa hẹp, biometry bắt nguồn từ tiếng Hy Lạp bios = sống metron = đo đạc nên có người gọi sinh trắc (biological measurement) Theo nghĩa rộng thống kê sinh học khoa học ứng dụng phương pháp thống kê để giải vấn đề sinh học biometry cịn gọi biological statistics đơn giản biostatistics Các phương pháp thống kê bao gồm bước (1) bố trí thí nghiệm, (2) thu thập liệu, (3) trình bày tóm tắt liệu, (4) từ liệu mẫu suy rộng tổng thể Trong giáo trình tập trung vào hai lãnh vực có liên quan mật thiết với thống kê sinh học Đó bố trí thí nghiệm (experimental design) phân tích thống kê (statistical analysis) Mẫu Tổng thể Trong thống kê sinh học nghiên cứu thường dựa quan sát riêng rẽ (individual observation), quan sát đo đạc tiến hành đơn vị mẫu nhỏ (smallest sampling unit) Trong sinh học, đơn vị mẫu nhỏ thường cá thể Nếu ta đo trọng lượng 100 chuột trọng lượng chuột quan sát 100 trọng lượng chuột đo đại diện cho mẫu quan sát (sample of observations) Nếu nghiên cứu thay đổi trọng lượng chuột thời kỳ xác định mẫu tất số đo trọng lượng chuột suốt thời kỳ nghiên cứu Tuy nhiên, thuật ngữ “quan sát riêng rẽ” “mẫu quan sát” nêu cấu trúc mà không nêu chất liệu nghiên cứu Giá trị thật đo thật quan sát riêng rẽ biến số (variable) Trong đơn vị mẫu nhỏ có nhiều biến Tập hợp tất liệu mà ta quan tâm nghiên cứu lãnh vực gọi tổng thể (population) hay cịn gọi tập hợp Nếu ta chọn BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com người để nghiên cứu số lượng bạch cầu máu họ từ rút kết luận số lượng bạch cầu máu tồn lồi người tổng thể tồn lồi người Thơng thường kích thước tổng thể (N) lớn, chí vơ hạn Tổng thể mơ tả thơng số (parameters) thường giá trị xác định xác II DỮ LIỆU TRONG SINH HỌC (DATA IN BIOLOGY) Dữ liệu (Data) Các ghi nhận, mơ tả thuộc tính, kiện, q trình hình thành khối liệu Các liệu thường được đo dạng thang số (numerical scale) phân loại thành nhóm (category) sau mã hố dạng số Dưới số thí dụ liệu: (1) Huyết áp tối thiểu tất học sinh trường trung học đo để xác định xem có phần trăm học sinh có huyết áp tối thiểu 90 mm Hg Trong trường hợp liệu số đo huyết áp (2) Tất cán viên chức công ty yêu cầu báo cáo thể trọng hàng tháng để đánh giá hiệu chương trình kiểm sốt thể trọng Dữ liệu là? (3) Trong nghiên cứu giáo dục, tất tài xế trường đại học yêu cầu trả lời câu hỏi “ bạn có lái xe thể có rượu, bia hay khơng?” Dữ liệu gì? Việc thu thập đủ liệu quan trọng Bạn khơng thể có nghiên cứu tốt khơng có liệu tốt Các quan sát (Observations) biến số (Variables) Trong thống kê, đối tượng nghiên cứu gọi đơn vị quan sát (observational units) Trên đơn vị này, đặc tính quan sát đo đạc gọi biến số (variables) Trong đối tượng nghiên cứu, giá trị số gán cho biến số gọi quan sát (observations) hay biến (variate) Thí dụ: để nghiên cứu huyết áp sinh viên trường đại học, nhà nghiên cứu đo huyết áp tối đa tối thiểu cho sinh viên Huyết áp tối đa tối thiểu biến số, số đo huyết áp quan sát, sinh viên đơn vị quan sát Trong đơn vị, thường quan sát nhiều biến Chẳng hạn, sinh viên nêu trên, người ta nghiên cứu bệnh cao huyết áp 500 người Ngoài số đo huyết áp tối đa tối thiểu, nhà nghiên cứu cịn ghi nhận tuổi, chiều cao, giới tính, trọng lượng thể Trong trường hợp này, có liệu 500 sinh viên với quan sát ghi nhận cho biến sáu biến đơn vị quan sát Các loại thang đo (scale) Có bốn loại thang đo dùng với biến số: thang đo định danh (nominal scale), thang đo thứ bậc (ordinal scale), thang đo khoảng (interval scale), thang đo tỉ lệ (ratio scale) Các thang đo xác định dựa vào thông tin giá trị gán cho biến số a Thang đo định danh Được dùng để thuộc tính Các thuộc tính mã hố số dùng để phân loại đối tượng, số giá trị THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Thí dụ: khảo sát giới tính, dùng để nữ, dùng để nam b Thang đo thứ bậc Được dùng để thứ bậc đơn vị quan sát Sự chênh lệch biểu khơng thiết phải Thí dụ: khảo sát điều kiện làm việc công nhân, người ta ước lượng mức độ độc hại chất amiăng (asbestos) công nhân: (1) thấp, (2) trung bình, (3) cao c Thang đo khoảng thang đo tỉ lệ Dùng biến đo khoảng cách nhau, chẳng hạn nhiệt độ tính theo độ Celsius (thang đo khoảng) chiều cao tính theo cm (thang đo tỉ lệ) Giữa hai loại thang đo có điểm khác biệt: - Thang đo tỉ lệ có giá trị zero thật Thí dụ chiều cao nghĩa khơng có chiều cao, nhiệt độ 00C khơng có nghĩa khơng có nhiệt độ - Khi biến đo thang đo tỉ lệ, so sánh tỉ lệ hai số có ý nghĩa Thí dụ 140cm cao gấp đơi 70cm lị nung 3000C khơng nóng gấp đơi lị nung 1500C Việc sử dụng thang đo thường phụ thuộc vào phương pháp công cụ đo thuộc tính Cùng thuộc tính đo thang khác Chẳng hạn tuổi đo theo năm (thang tỉ lệ), chia thành nhóm trẻ, trung niên, già (thang thứ bậc) Các loại biến số sinh học (Variables in Biology) Quan sát đo lường tượng điều cho tất nghiên cứu khoa học Các tượng mà ta muốn quan sát gọi biến số (variables), lĩnh vực nghiên cứu có biến số riêng Biến (Variate) đại lượng mang giá trị khác Có thể phân loại biến số sau: Biến số (Variable) Biến định lượng (Measurement Variable) Biến liên tục (Continuous Variable) Biến rời rạc (Discrete Variable) Biến định tính (Categorical Variable) Biến xếp hạng (Ranked Variable) Biến thuộc tính (Attribute Variable) a Biến định lượng (Measurement Variable) Là biến mà giá trị chúng biểu dạng số đo đạc Có hai loại biến định lượng biến liên tục (Continuous Variable) biến không liên tục (Discontinuous Variable) - Biến liên tục biến (về lý thuyết) có số giá trị xác định nằm hai điểm cố định Chẳng hạn hai chiều dài 1,5 cm 1,6 cm có vơ số giá trị đo Rất nhiều biến nghiên cứu sinh học biến liên tục Thí dụ chiều cao (cm), trọng lượng thể (kg) pH đất - Biến không liên tục gọi biến rời rạc (Discrete Variable = Meristic Variable) biến có giá trị xác định, khơng có giá trị trung gian Chẳng hạn số đốt phần phụ lồi trùng 4, khơng 4,3 ½ Các thí dụ biến rời rạc số lượng cây, số cá thể lứa đẻ BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com b Biến định danh/định tính (Categorical Variable) Là biến mà giá trị chúng biểu dạng số thực xếp theo loại - Biến xếp hạng (Ranked Variable): Trong thí nghiệm, người ta ghi nhận thứ tự nở 10 nhộng mà không lưu ý đến thời điểm nở Trong trường hợp liệu mã hoá dạng biến xếp hạng Thí dụ: chấm điểm mức độ dễ đẻ bị = khơng cần can thiệp, = cần can thiệp ít, = cần bác sĩ thú y; đánh giá mức độ nghiêm trọng bệnh từ – Trong trường hợp này, số gán cho loại thang đo số liệu khác biệt điểm không thiết giống với khác biệt điểm - Biến thuộc tính (Attribute Variable = Nominal Variable): Các biến khơng thể đo đạc, xếp hạng biểu tính chất gọi biến thuộc tính Các thuộc tính đặc điểm trắng đen, sống chết, kiểu gen, loại tế bào bạch cầu Khi biến thuộc tính kết hợp với tần số, chúng gọi liệu liệt kê (enumeration data) xử lý thống kê Thí dụ: khảo sát 80 chuột người ta thấy có lơng đen, số cịn lại có lơng xám Dữ liệu liệt kê màu lơng chuột xếp sau: Màu lơng chuột Đen Xám Tổng số chuột Tần số (Frequency) 76 80 Độ (Accuracy) độ xác (Precision) liệu Độ trường hợp giá trị tính tốn đo đạc gần với giá trị thực Độ xác trường hợp giá trị đo đạc lần lặp lại gần giống Một cân bị lệch nhạy cho số đo khơng có độ xác Ngược lại, cân khơng nhạy cho số đo khơng xác Nếu khơng có sai lệch dụng cụ đo, độ xác dẫn đến độ đúng, ta cần tập trung vào độ xác III GIỚI THIỆU PHẦN MỀM THỐNG KÊ MINITAB Minitab phần mềm thống kê dùng rộng rãi giảng dạy nghiên cứu Đặc điểm bật phần mềm chúng có dung lượng ít, cấu trúc đơn giản dễ sử dụng Cửa sổ Minitab gồm phần: (1) Các Tiêu đề (Title Bar), Trình đơn (Menu Bar), Công cụ (Tool Bar) tương tự chương trình Microsoft (2) Session Screen: nơi xuất tất giá trị thống kê phiên làm việc Nội dung hình lưu lại (save) dạng TXT RTF chép (copy) dán (past) vào chương trình MS Word (3) Worksheet: nơi để nhập lưu trữ liệu Các liệu Minitab xếp cột, có nhãn C1, C2, C3 Nếu liệu nhập vào cột dạng số (numeric data) nhãn khơng đổi; cột có liệu dạng text, nhãn cột gán thêm “-T”; liệu cột dạng ngày giờ, nhãn gán thêm “-D” Ta đặt tên cho cột (ơ nằm bên nhãn cột) Ngoài giá trị khác THỐNG KÊ SINH HỌC lưu trữ Minitab số (constants) K1, K2, K3 ma trận (Matrices) M1, M2, M3 (4) Thêm vào cịn có cửa sổ thu nhỏ Project Manager Cửa sổ cung cấp menu để ta xem lại nội dung tất worksheet, đồ thị, lịch sử (History) tất output phiên làm việc Hình bên minh hoạ cho thành phần cửa sổ chương trình Minitab (1) (2) (3) (4) Các file liệu Minitab có riêng *.MTW, ta nhập liệu từ nguồn khác bao gồm file Excel ASCII Ngồi Minitab cịn có thêm file project (* MPJ) Trong chương trình Minitab ta thực công việc: (1) Quản lý liệu: trình đơn Data – Tách (Unstack) nhập (Stack) liệu cột – Chuyển đổi từ cột thành hàng ngược lại – Xếp hạng liệu – Mã hố liệu (2) Tính tốn hàm: trình đơn Calc (3) Phân tích thống kê: trình đơn Stat BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com – Thống kê (Basic Statistics) – Phân tích hồi quy (Regression) – Phân tích phương sai (ANOVA) – Bố trí thí nghiệm DOE ( Design of Experiments) (4) Vẽ biểu đồ: trình đơn Graph – Scatterplot – Matriceplot – Histogram – Dotplot – Boxplot – Bar chart THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Chương MƠ TẢ VÀ TRÌNH BÀY DỮ LIỆU Giai đoạn sớm khoa học giai đoạn mô tả Nếu kiện không mơ tả xác ta khơng thể phân tích chúng Việc ứng dụng thống kê sinh học theo xu hướng Nếu muốn tìm hiểu mối liên hệ chiều cao bố mẹ người trước tiên ta phải có cơng cụ thích hợp để đo xác định chiều cao thành viên gia đình Sau thực quan sát thu thập liệu cho nghiên cứu, công việc thiết lập bảng liệu dùng để phân tích thống kê Tiếp trình bày mơ tả tóm tắt liệu thu thập, bảng biểu, loại đồ thị, cho người đọc rút thơng tin cần thiết I MƠ TẢ & TRÌNH BÀY DỮ LIỆU BẰNG BẢNG Trong phần liệu dùng để minh hoạ trích từ Digitalis Investigation Group (DIG 1997) Trong bảng 2.1 liệu 40 bệnh nhân điều trị thử Digoxin để đánh giá hiệu mức độ an toàn thuốc điều trị bệnh rối loạn nhịp tim (DIG40) Bảng 2.1 Dữ liệu thử nghiệm lâm sàng Digoxin 40 bệnh nhân ID 2289 6745 1322 538 999 3103 1954 5750 1109 4787 666 6396 5753 1882 5663 6719 4995 4055 4554 2217 896 5368 3403 Treatment 0 1 1 1 0 0 0 1 Age Race Sex 76 45 45 31 47 60 77 76 68 46 65 83 75 50 59 34 55 71 58 65 50 38 55 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 BMI SCr SBP 30.586 22.85 43.269 27.025 30.506 29.867 26.545 39.837 27.532 28.662 28.058 26.156 37.59 25.712 27.406 20.426 19.435 22.229 28.192 23.739 27.406 30.853 21.79 1.7 1.398 0.9 1.159 1.386 1.091 1.307 1.455 1.534 1.307 1.489 1.3 1.034 1.705 1.886 1.6 1.261 1.352 1.614 1.3 0.9 1.17 130 130 115 120 120 140 140 140 144 140 120 116 138 140 152 116 150 100 130 170 140 134 130 BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Xác suất Poisson Có hai mơ hình phân bố Poisson: (1) Mơ hình khơng gian Thí dụ: vi khuẩn phân bố ngẫu nhiên môi trường với mật độ đơn vị diện tích Số khuẩn lạc xác định khơng gian mẫu có kích cỡ A tn theo phân bố Poisson với thông số m = * A (2) Mơ hình thời gian: Thí dụ: Giả sử xác suất biến cố khoảng thời gian t1 tỉ lệ với t1, nghĩa P{X=x} xấp xỉ * t1 Một giả định khác khoảng thời gian t1 ngắn đến mức xác suất nhiều biến cố xảy la khoảng thời gian gần Chúng ta giả định biến cố xảy khoảng thời gian khác độc lập Trên sở giả định này, số lần xuất biến cố khoảng thời gian t tuân theo phân bố Poisson với thông số m = * t Hàm xác suất phân bố Poisson có dạng là: P( X = x ) = e m m x với x = 0, 1, 2, x! e 2.71828 số m thông số Thông thường biết m nên chúng ước lượng từ liệu mẫu Áp dụng Minitab Calc > Probability Distributions > Poisson Các tuỳ chọn: Probability Cummulative probability Inverse cummulative probability Cần lưu ý phân bố Poisson xác định dựa giá trị thơng số m Thí dụ dùng hàm xác suất phân bố Poisson để tính xác suất m = m = 2, ta thu kết bảng 3.3 Bảng 3.3 Kết tính xác suất Poisson với m = = x Tổng 40 m=1 P{X = x} = (e-1 * x)/x! (0.3679 * 1) / = 0.3679 (0.3679 * 1) / = 0.3679 (0.3679 * 1) / = 0.1839 (0.3679 * 1) / = 0.0613 (0.3679 * 1) / 24 = 0.0153 (0.3679 * 1) / 120 = 0.0031 (0.3679 * 1) / 720 = 0.0005 (0.3679 * 1) / 5040 = 0.0001 m=2 P{X = x} = (e-2 * x)/x! (0.1353 * 1) / = 0.1353 (0.1353 * 2) / = 0.2707 (0.1353 * 4) / = 0.2707 (0.1353 * 8) / = 0.1804 (0.1353 * 16) / 24 = 0.0902 (0.1353 * 32) / 120 = 0.0361 (0.1353 * 64) / 720 = 0.0120 (0.1353 * 128) / 5040 = 0.0034 (0.1353 * 256) / 40320 = 0.0009 (0.1353 * 512) / 362880 = 0.0002 1.0000 0.9999 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Trung bình phương sai phân bố Poisson Trung bình Phương sai phân bố Poisson m Thí dụ: phân bố Poisson với m = (xem bảng 3.1) trung bình = x P{ X = x} x =0 = 0(0.3679) + 1(0.3679) + 2(0.1839) + 3(0.0613) + 4(0.0153) + 6(0.0005) + 7(0.0001) = 1.0000 Hình dạng phân bố Poisson Đồ thị hình 3.4 cho thấy dạng hàm xác suất phân bố Poisson với giá trị m khác Hình dạng hàm xác suất phân bố Poisson tương tự hàm xác suất phân bố nhị thức 0.20 m=5 Probability 0.15 m = 10 0.10 m = 0 0.05 0.00 10 20 30 40 X Hình 3.4 Hàm xác suất phân bố Poisson (m = 2) Cách tìm xác suất Poisson Thí dụ: Gosset nghiên cứu phân bố tế bào nấm men 400 ô vuông buồng đếm (Student 1907) Kết bốn liệu trình bày bảng 3.4 Bảng 3.4 Tần số quan sát tế bào nấm men 400 ô vuông Tần số 103 143 Tỉ lệ 0.258 0.358 Xác suất Poisson 0.267 0.352 98 0.245 0.233 X 42 0.105 0.103 0.020 0.034 0.010 0.009 0.005 0.002 Những liệu có tuân theo phân bố Poisson hay không? Trong trường hợp ta khơng biết giá trị trung bình tổng thể nên ta phải ước lượng trung bình mẫu: Mean = (103*0) (143*1) (98* 2) (42*3) (8* 4) (4*5) (2*6) 529 = = 1.3225 400 400 41 BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Dùng giá trị trung bình để tính xác suất Poisson chương trình Minitab, ta kết hàng thứ ba bảng 3.4 Mặc dù tỉ lệ lý thuyết (xác suất Poisson) phù hợp với tỉ lệ thu được, ta chưa thể kết luận liêu tuân theo phân bố Poisson Một phương pháp để xác định xem liệu có phân bố Poisson hay không dùng biểu đồ Poisson (Poissoness plot), đề nghị Hoaglin (1980) dựa cơng thức tính phân bố xác suất Poisson Nếu liệu có phân bố Poisson đồ thị tổng loga tự nhiên tần số loga tự nhiên x! đường thẳng Dùng Minitab tính tổng dựa liệu bảng 3.4, sau vẽ biểu đồ từ kết thu được, ta có hình 3.5 Calc > Calculator Lưu ý: Natural Log = LOGE; Gamma (x+1) = x! Y x Hình 3.5 Biểu đồ Poissoness từ liệu Gosset bảng 3.4 42 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Biểu đồ có dạng đường thẳng chứng tỏ liệu có phân bố Poisson (trừ ngoại lệ điểm x = ta thấy bảng 3.4) Thí dụ: Trong quần thể chuột có 2% mắc bệnh ung thư Trong mẫu 100 chuột, xác suất có nhiều chuột mắc bệnh ung thư bao nhiêu? Giải: m = 100 (0.02) = e m m x e2 x P( X = x ) = x! = x! P(x > 1) = – P(x = 0) – P(x = 1) = – 0.1353 – 0.2706 = 0.5941 IV PHÂN BỐ CHUẨN (NORMAL DISTRIBUTION) Còn gọi phân bố Gauss (Gaussian distrubion) theo tên nhà toán học người Đức Carl Gauss Phân bố chuẩn sử dụng rộng rãi vì: (1) xảy phổ biến tự nhiên, (2) trung bình mẫu nhiều loại phân bố khơng chuẩn tuân theo chúng, (3) chúng ước lượng tốt cho số phân bố không chuẩn Xác suất chuẩn (Normal Probabilities) Như nêu phần trên, phân bố xác suất biến ngẫu nhiên liên tục thường biểu dạng hàm qua tính xác suất mà biến nằm khoảng xác định Điều hoàn toàn khác với phân bố xác suất biến rời rạc Hàm mật độ xác suất (pdf = probability density function) biến ngẫu nhiên liên tục hàm cho phép ta tìm xác suất X khoảng xác định Hàm mật độ xác suất chuẩn là: f ( x) = 2p e( xm ) / 2 , - x m trung bình, độ lệch chuẩn p số xấp xỉ 3.14159 Hàm biểu diễn đồ thị Đồ thị có dạng đường cong mà tổng diện tích tạo đường cong trục hồnh 1(hay 100%), diện tích điểm x1 x2 với xác suất mà biến ngẫu nhiên X nằm khoảng x1 x2 Tung độ điểm đường cong gọi mật độ xác suất Theo tính chất tốn học phân bố mẫu thí nghiệm có: - 68,26% liệu nằm khoảng m 1 - 95,46% liệu nằm khoảng m - 99,73% liệu nằm khoảng m Hàm phân bố tích luỹ (CDF = Cumulative Distribution Function) hay gọi hàm phân bố xác suất thể xác suất để X không vượt giá trị x Hàm phân bố xác suất là: P( X x ) = x 2p e ( x m )2 2 dx 43 BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Hình dạng phân bố chuẩn Hàm mật độ xác suất phân bố chuẩn có dạng hình chng (bell-shape), thấy hình 3.6 Đường cong phân bố chuẩn có tính đối xứng hai (tail) đường cong xa trung tâm tiến sát trục hồnh khơng gặp trục hồnh Hình 3.6 Hàm mật độ xác suất phân bố chuẩn Hình 3.7 đồ thị hàm phân bố xác suất phân bố chuẩn Các giá trị trục tung xác suất tương ứng với giá trị z trục hoành CDF 1.0 0.8 0.6 0.4 0.2 0.0 -4 -3 -2 -1 Z Hình 3.7 Hàm phân bố xác suất phân bố chuẩn 44 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Phân bố N(0,1) gọi phân bố chuẩn tắc (standard normal distribution) nghĩa pdf chuẩn với trung bình = phương sai = Phân bố chuẩn tắc thường ký hiệu Z Các giá trị Z nhận cách tính giá trị chuẩn hố (standardised value): Z= xm Nếu x ~ N (m,2) Z ~ N (0, 1) Hình 3.8 cho thấy ảnh hưởng việc tăng từ lên pdf chuẩn Cả hai có dạng hình chng diện tích miền bên đường cong Tuy nhiên phân bố chuẩn chuẩn hố có độ biến thiên nhỏ Hình 3.9 trình bày hai hàm mật độ phân bố chuẩn cho thấy ảnh hưởng việc thay đổi giá trị trung bình Khi trung bình tăng thêm đơn vị đường cong pdf dịch chuyển phía bên phải đơn vị Như việc thay đổi số trung bình làm dịch chuyển đường cong phân bố phía phải trái việc thay đổi độ lệch chuẩn làm tăng giảm phân tán liệu Distribution Plot Pdf 0.4 N (0, 1) 0.3 0.2 0.1 0.0 N(0, 2) -5.0 -2.5 0.0 X 2.5 5.0 7.5 Hình 3.8 pdf chuẩn với N (0, 1) N(0, 2) 45 BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Distribution Plot Pdf 0.4 0.3 0.2 0.1 0.0 -4 -2 X Hình 3.9 pdf chuẩn với N(0,1) N(3,1) Cách tính xác suất phân bố chuẩn tắc Z~N(0,1): Để tính xác suất phân bố chuẩn tắc, cần nhớ giá trị trình bày bảng phân bố chuẩn tắc phần phụ lục xác suất biến z nằm giá trị xác định Chẳng hạn xem bảng phụ lục ta thấy xác suất z = 0.5000 Điều có nghĩa 50% giá trị z nhỏ Nếu ta muốn tính xác suất biến lớn giá trị xác định, ta cần lấy trừ giá trị xác định Cách dễ dàng vẽ đường cong phân bố cho thấy vùng cần xác định pdf P (Z < 0) -3 46 -2 -1 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com pdf P(Z>0) -3 -2 -1 a Một số thí dụ: Thí dụ P (Z < 1.85) Z ~ N(0, 1) P (Z < 1.85) = 0.9713 (xem bảng phụ lục) pdf P (Z < 1.85) 0.9713 -3 -2 -1 Thí dụ P (Z > 1.85) P (Z > 1.85) = – 0.9713 = 0.0287 47 BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com pdf P (Z > 1.85) -3 -2 -1 Thí dụ P (–1 < Z < 2) Z ~ N(0, 1) P (Z < 2) = 0.9772 (bảng phụ lục) P (Z > –1) = 0.1587 (bảng phụ lục) P (–1 < Z < 2) = 0.9772 – 0.1587 = 0.8185 pdf P (-1 < Z < 2) 0.819 -3 -2 -1 b Cách tính MiniTab (1) P(Z < 0) Z~N (0, 1) Calc > Probability Distribution > /Normal Cumulative probability Mean: 0, Standard deviation: 1.0 Input constant: Optional storage: K1 OK Data > Display data >/Columns, constants and matrices to display: K1 OK 48 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com (2) P (Z < 1.83) Calc > Probability Distribution > /Normal Cumulative probability Mean: 0, Standard deviation: 1.0 Input constant: 1.83 Optional storage: K2 OK Data > Display data >/Columns, constants and matrices to display: K2 OK (3) P (–1 < Z < 2) Calc > Probability Distribution > /Normal Cumulative probability Mean: 0, Standard deviation: 1.0 Input constant: –1 Optional storage: K1 OK Lặp lại tương tự với Input constant: Optional storage: K2 OK Calc > Calculator Store result in: C1 Expression: K2 – K1 OK c Trường hợp giá trị chưa chuẩn hoá X~N(m ≠ 0, ≠ 1) Giả sử trọng lượng bò tháng tuổi tuân theo phân bố chuẩn với trung bình m = 200 kg độ lệch chuẩn = 20 kg – Có 68.3% liệu nằm khoảng m 1 tức 200 20 = 180 kg đến 220 kg Như chọn ngẫu nhiên bị xác suất để có trọng lượng khoảng 180 kg – 220 kg 0.683 – Có 95,4% liệu nằm khoảng m 2 tức 200 40 = 160 kg đến 240 kg Như chọn ngẫu nhiên bị xác suất để có trọng lượng khoảng 160 kg đến 240 kg 0.954 0.683 180 200 0.954 220 160 200 240 X 49 BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Calc > Probability Distribution > /Normal Cumulative probability mean = m, standard deviation = Thí dụ: Xét phân bố chuẩn với m = 20 = Hãy tính xác suất để số đo có giá trị nhỏ 23 Giải: x m 23 20 (1) Tính z = = = 1.5 Tra bảng ta có P (Z < 1.5) = 0.9332 (2) Dùng MiniTab Calc > Probability Distribution > /Normal Cumulative probability Mean: 20, Standard deviation: 2.0 Input constant: 23 Optional storage: K1 OK Data > Display data >/Columns, constants, and matrices to display: K1 pdf 0.9332 20 23 d Tính X biết giá trị P Thí dụ: Giả sử sản lượng bắp cải biết có phân bố chuẩn với m = 1.4 kg/cây = 0.2 kg/cây Tính 5% 95% sản lượng bắp cải Nhập vào cột C1 giá trị 0.05 0.95 Calc > Probability Distribution > /Normal Inverse cumulative probability mean = 1.4, standard deviation = 0.2 Input column: C1 Optional storage: C2 OK 50 THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Kiểm tra phân bố chuẩn Để kiểm tra xem liệu mẫu có phân bố chuẩn hay khơng, ta quan sát histogram Số trung bình trung vị liệu phân bố chuẩn phải gần Tuy nhiên để xác định xác hơn, Minitab cung cấp cho ba phương pháp kiểm tra, thông qua: Stat > Basic Statistics > Normality Test Graph > Probability Plot Anderson-Darling: phương pháp kiểm tra dựa sở ECDF (emperical cumulative distribution function) Đây phương pháp thường dùng Ryan-Joiner (tương tự Shapiro-Wilk): phương pháp kiểm tra dựa sở tương quan (correlation) Kolmogorov-Smirnov: phương pháp kiểm tra dựa sở bình phương (2) Qua biểu đồ xác suất (probability plot), liệu có phân bố chuẩn khi: – Các điểm biểu đồ có dạng đường thẳng – Các điểm biểu đồ tập trung sát đường thẳng – Giá trị thống kê Anderson-Darling (AD) nhỏ, giá trị P (P-value) lớn mức chọn (thông thường mức chọn = 0.05 0.1) Hình 3.10, 3.11 3.12 biểu đồ xác suất cho liệu có phân bố chuẩn, liệu có phân bố lệch âm lệch dương Probability Plot for Normal Distributed Data 99.9 Mean StDev N AD P-Value 99 95 Percent 90 170.1 4.213 100 0.394 0.369 80 70 60 50 40 30 20 10 0.1 160 165 170 175 Male Height 180 185 Hình 3.10 Biểu đồ xác suất liệu có phân bố chuẩn 51 BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com Probability Plot for Negatively Skewed Data 99.9 Mean StDev N AD P-Value 99 95 Percent 90 47 68 1.563 100 2.323