1. Trang chủ
  2. » Luận Văn - Báo Cáo

ước lượng và kiểm định tham số thống kê bằng phương pháp bayes

62 679 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,52 MB

Nội dung

TRƢỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN ------------ LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC ƢỚC LƢỢNG VÀ KIỂM ĐỊNH THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES Giáo viên hƣớng dẫn Sinh viên thực hiện ThS. Dƣơng Thị Bé Ba Danh Đảnh MSSV: 1100164 Ngành: Toán Ứng Dụng CẦN THƠ – 5/2014 LỜI CẢM ƠN ---------Trong suốt quá trình học tập và thực hiện luận văn tôi đã nhận đƣợc sự giúp đỡ, động viên và sự hƣớng dẫn tận tình của quý Thầy, quý Cô, Cha, Mẹ, bạn bè cũng nhƣ sự nổ lực, cố gắng của bản thân để hoàn thành luận văn này. Tôi xin chân thành gửi lời cảm ơn đến: Cô Dƣơng Thị Bé Ba ngƣời đã tận tình hƣớng dẫn và dành nhiều thời gian quý báu của mình để truyền đạt kiến thức, giúp đỡ tôi hoàn thành luận văn này. Toàn thể quý thầy cô bộ môn Toán – Khoa Khoa học Tự nhiên của trƣờng Đại học Cần thơ đã trang bị cho tôi những kiến thức cơ bản, những kỹ năng cần thiết trong suốt quá trình học tập tại trƣờng, đó là hành trang quý báu không chỉ giúp tôi hoàn thành tốt luận văn mà còn giúp tôi tự tin hơn trên con đƣờng sự nghiệp phía trƣớc. Quý Thầy, quý Cô trong Hội đồng bảo vệ luận văn đã dành nhiều thời gian để xem xét và đóng góp những ý kiến quý báu để bài luận văn đƣợc hoàn thiện hơn. Toàn thể các bạn sinh viên chuyên ngành Toán Ứng Dụng khóa 36, những ngƣời bạn luôn sát cánh và tận tình giúp đỡ tôi trong suốt quá trình vừa qua. Cuối cùng, tôi xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc nhất đến Cha, Mẹ và các anh, chị em trong gia đình đã luôn ủng hộ tôi về mọi phƣơng diện, đây là nguồn sức mạnh tinh thần lớn nhất giúp tôi vƣơn lên trong cuộc sống. Tôi xin chân thành cám ơn! Cần Thơ, tháng 5 năm 2014 Danh Đảnh i PHẦN MỞ ĐẦU Lý do chọn đề tài I. Thống kê là khoa học về thu thập, trình bày, phân tích các dữ liệu để từ đó tìm ra bản chất và tính quy luật của các hiện tƣợng ngẫu nhiên trong kinh tế, xã hội và tự nhiên. Nó dựa vào lý thuyết xác suất thống kê để tìm ra thông tin thống kê trung thực, khách quan, chính xác, đầy đủ và kịp thời trong việc đánh giá, dự báo tình hình, hoạch định chiến lƣợc, chính sách, xây dựng kế hoạch phát triển kinh tế xã hội và đáp ứng nhu cầu thông tin thống kê của các tổ chức, cá nhân,… Do đó, thống kê có tính ứng dụng rất cao trong thực tế trong đó có hai bài toán cơ bản là ƣớc lƣợng và kiểm định giả thiết thống kê. Trong khoa học có hai trƣờng phái thống kê: Trƣờng phái thống kê cổ điển và trƣờng phái thống kê Bayes. Hai trƣờng phái thống kê này khác nhau về triết lý khoa học và nhất là cách hiểu về khái niệm xác suất. Thống kê cổ điển dựa vào những kết quả quan sát mẫu của hiện tại mà không quan tâm đến những thông tin liên quan về số liệu đã biết trƣớc. Các kết luận trong thống kê cổ điển đều dựa trên dữ liệu mẫu. Trong khi đó, thống kê Bayes dựa trên những thông tin dữ liệu đã biết trƣớc về vấn đề đã quan sát để suy luận cho thống kê hiện tại. Trong thống kê Bayes, thông tin tiền nghiệm cấu thành nên cơ sở lý thuyết, các kết luận dựa trên cơ sở đã biết kết hợp với dữ liệu quan sát. Do đó, các kết luận trong thống kê Bayes có độ chính xác cao hơn. Đặc biệt, trƣớc sự phát triển mạnh mẽ của công nghệ thông tin cũng những phần mềm toán học, việc lƣu trữ thông tin rất thuận lợi. Do đó, thống kê Bayes ngày càng có điều kiện phát triển hơn. Với các lý do nêu trên em chọn đề tài “Ước lượng và kiểm định tham số thống kê bằng phương pháp Bayes” để làm luận văn tốt nghiệp cuối khóa. II. Mục đích nghiên cứu Luận văn đƣợc nghiên cứu với mục đích  Tổng kết một cách có hệ thống các vấn đề có liên quan đến thống kê Bayes. ii  Nghiên cứu một số ứng dụng của thống kê Bayes trong kinh tế và xã hội. III. Phƣơng pháp nghiên cứu  Sƣu tầm, tham khảo các tài liệu có liên quan đến đề tài.  Tổng hợp, hệ thống hóa kiến thức đƣợc trình bày trong tài liệu để từ đó trình bài lại các vấn đề có liên quan một cách logic, có hệ thống. IV. Đối tƣợng và phạm vi nghiên cứu  Đối tƣợng nghiên cứu: Các vấn đề lý thuyết có liên quan đến thống kê Bayes.  Phạm vi nghiên cứu: Vì thời gian và kiến thức có hạn nên đề tài của em chỉ nghiên cứu hai bài toán cơ bản là ƣớc lƣợng và kiểm định tham số thống kê bằng phƣơng pháp Bayes. V. Bố cục luận văn Cấu trúc luận văn bao gồm phần mở đầu, phần nội dung và phần kết luận. Trong đó, phần nội dung gồm 4 chƣơng:  Chƣơng 1: Kiến thức chuẩn bị Trong chƣơng này trình bày một số vấn đề cơ bản về thống kê Bayes nhƣ: thông tin tiền nghiệm, thông tin hậu nghiệm và một số hàm mật độ xác suất thông dụng. Đây là cơ sở lý thuyết cho việc xây dựng bài toán ƣớc lƣợng và kiểm định đƣợc trình bày trong chƣơng 2 và chƣơng 3.  Chƣơng 2: Ƣớc lƣợng tham số bằng phƣơng pháp Bayes Trong chƣơng này trình bày bài toán ƣớc lƣợng tham số thống kê bằng phƣơng pháp Bayes.  Chƣơng 3: Kiểm định tham số bằng phƣơng pháp Bayes Trong chương này trình bày bài toán kiểm định tham số thống kê bằng phương pháp Bayes.  Chƣơng 4: Bài tập áp dụng Trình bày hệ thống bài tập ứng dụng một số vấn đề đã thực hiện trong lý thuyết. iii MỤC LỤC LỜI CẢM ƠN ..............................................................................................................................i PHẦN MỞ ĐẦU ........................................................................................................................ ii I. Lý do chọn đề tài .......................................................................................................... ii II. Mục đích nghiên cứu .................................................................................................... ii III. Phƣơng pháp nghiên cứu............................................................................................. iii IV. Đối tƣợng và phạm vi nghiên cứu .............................................................................. iii V. Bố cục luận văn ........................................................................................................... iii MỤC LỤC ................................................................................................................................. iv CHƢƠNG 1: KIẾN THỨC CHUẨN BỊ ...................................................................................1 1.1. ĐỊNH LÝ BAYES.........................................................................................................1 1.1.1. Định lý Bayes cho đại lƣợng ngẫu nhiên rời rạc ............................................... 1 1.1.2. Định lý Bayes cho đại lƣợng ngẫu nhiên liên tục ............................................. 4 1.2. PHÂN PHỐI TIỀN NGHIỆM VÀ PHÂN PHỐI HẬU NGHIỆM ............................5 1.2.1 Phân phối tiền nghiệm......................................................................................... 5 1.2.2 Phân phối hậu nghiệm ......................................................................................... 5 1.2.3 Hàm mật độ xác suất hậu nghiệm cho tham số ............................................... 10 CHƢƠNG 2: ƢỚC LƢỢNG THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES ....................................................................................................................................................16 2.1. ƢỚC LƢỢNG ĐIỂM THAM SỐ THỐNG KÊ ........................................................16 2.2. ƢỚC LƢỢNG KHOẢNG THAM SỐ THỐNG KÊ ................................................16 2.2.1. Một số bài toán ƣớc lƣợng liên quan đến trung bình ...................................... 17 2.2.2. Một số bài toán ƣớc lƣợng liên quan đến tỷ lệ ................................................ 21 CHƢƠNG 3: KIỂM ĐỊNH THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES...24 3.1. TỔNG QUAN VỀ BÀI TOÁN KIỂM ĐỊNH THỐNG KÊ .....................................24 3.2. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TRUNG BÌNH ...............25 3.2.1. Kiểm định trung bình ........................................................................................ 25 3.2.2. So sánh hai trung bình ....................................................................................... 26 3.3. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TỶ LỆ .............................31 3.3.1. Kiểm định một tỷ lệ ........................................................................................... 31 3.3.2. So sánh hai tỷ lệ ................................................................................................. 33 CHƢƠNG 4: BÀI TẬP ÁP DỤNG .........................................................................................36 PHẦN KẾT LUẬN ...................................................................................................................52 TÀI LIỆU THAM KHẢO ........................................................................................................53 PHỤ LỤC ..................................................................................................................................54 iv Phụ lục 1. Bảng phân vị chuẩn tắc z  ..............................................................................54 Phụ lục 2. Bảng phân vị Student .......................................................................................55 Phụ lục 3. Bảng giá trị tích phân Laplace ........................................................................56 v CHƢƠNG 1: KIẾN THỨC CHUẨN BỊ Nhƣ ta đã biết, xác suất và thống kê có mối liên hệ rất mật thiết với nhau. Xác suất nhƣ là công cụ để các nhà thống kê sử dụng thông tin trên một mẫu để đƣa ra những suy luận hay mô tả tổng thể từ mẫu đƣợc lấy ra. Định lý Bayes là định lý có vai trò rất quan trọng trong xác suất và thống kê bởi ý tƣởng của định lý Bayes trong xác suất là việc tính xác suất hậu nghiệm của một biến cố dựa trên việc biết đƣợc xác suất của biến cố tiền nghiệm, hầu nhƣ trong thực tế đa số các biến cố luôn chịu tác động của nhiều biến cố khác nhau. Chính vì vậy nên định lý Bayes có tính ứng dụng rất cao. Nền tảng của thống kê Bayes là việc mở rộng định lý Bayes đối với đại lƣợng ngẫu nhiên rời rạc cho đại lƣợng ngẫu nhiên liên tục. Trong xác suất, sử dụng định lý Bayes để thiết lập hàm mật độ xác suất hậu nghiệm cho một giai đoạn và mở rộng cho nhiều giai đoạn nhằm để xem xét cho các tham số cụ thể của phân phối nhị thức và phân phối chuẩn. Trong thống kê, định lý Bayes đƣợc sử dụng để giải quyết các bài toán ƣớc lƣợng, kiểm định tham số. Trong chƣơng này sẽ trình bày kiến thức nền tảng của thống kê Bayes. 1.1. ĐỊNH LÝ BAYES 1.1.1. Định lý Bayes cho đại lƣợng ngẫu nhiên rời rạc a. Định nghĩa hệ biến cố đầy đủ Gọi 𝛺 là không gian mẫu của một phép thử. Một hệ các biến cố 𝐴1 , 𝐴2 , … , 𝐴𝑛 được gọi là một hệ biến cố đầy đủ hay là một hình thức chia của Ω nếu thỏa mãn hai tính chất sau 𝐴1 + 𝐴2 +, … , +𝐴𝑛 = Ω 𝐴𝑖 𝐴𝑗 = ∅ ∀ 𝑖 ≠ 𝑗 A1 An A2 𝐴  Hình vẽ minh họa hình thức chia của 𝐴𝑖 𝐴𝑗 trong không gian mẫu Ω. 1 Nhận xét: Gọi B là một biến cố bất kỳ của 𝛺. Nếu 𝐴1 , 𝐴2 , … , 𝐴𝑛 là hình thức chia của 𝛺 thì 𝐴1 𝐵, 𝐴2 𝐵, … , 𝐴𝑛 𝐵 sẽ là một hình thức chia của B. b. Công thức xác suất toàn phần Cho 𝐴𝑖 , 𝑖 = 1, 𝑛 là một hệ biến cố đầy đủ. Khi đó với A là một biến cố bất kỳ, ta có 𝑛 𝑃 𝐴 = 𝑃 𝐴𝑖 . 𝑃(𝐴|𝐴𝑖 ) 𝑖=1 Chứng minh Ta có 𝐴1 + 𝐴2 +, … , +𝐴𝑛 = Ω ⟺ 𝐴1 + 𝐴2 +, … , +𝐴𝑛 . A = Ω. A ⟺ 𝐴1 𝐴 + 𝐴2 𝐴+, … , +𝐴𝑛 A = A ⟺ 𝑃 𝐴 = 𝑃(𝐴1 𝐴 + 𝐴2 𝐴+, … , +𝐴𝑛 A) Vì 𝐴𝑖 , 𝑖 = 1, 𝑛 là hệ các biến cố xung khắc từng đôi nên hệ 𝐴𝑖 𝐴 , 𝑖 = 1, 𝑛 cũng là hệ các biến cố xung khắc từng đôi. Do đó 𝑃 𝐴 = 𝑃 𝐴1 𝐴 + 𝐴2 𝐴+, … , +𝐴𝑛 A = 𝑃 𝐴1 𝐴 + 𝑃 𝐴2 𝐴 + ⋯ + 𝑃 𝐴𝑛 𝐴 = 𝑃 𝐴1 . 𝑃 𝐴|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐴|𝐴2 + ⋯ + 𝑃 𝐴𝑖 . 𝑃 𝐴|𝐴𝑛 𝑛 = 𝑃 𝐴𝑖 . 𝑃(𝐴|𝐴𝑖 ) (đ𝑝𝑐𝑚) 𝑖=1 c. Định lý Bayes ( công thức xác suất Bayes) Giả sử 𝐴1 , 𝐴2 , … , 𝐴𝑛 là một hệ các biến cố đầy đủ, B là một biến cố đã xảy ra. Khi đó 𝑃( 𝐴𝑖 𝐵) = 𝑃 𝐴𝑖 𝑃(𝐵|𝐴𝑖 ) 𝐴𝑖 𝑃(𝐵|𝐴𝑖 ) 𝑛 𝑖=1 𝑃 Chứng minh Theo công thức nhân xác suất, ta có 𝑃 𝐵. 𝐴𝑖 = 𝑃 𝐵 . 𝑃 𝐴𝑖 |𝐵 = 𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖 ⟺ 𝑃 𝐴𝑖 |𝐵 = 𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖 𝑃 𝐵 Theo công thức xác suất toàn phần, ta có 2 𝑛 𝑃 𝐵 = 𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖 𝑖=1 Do đó 𝑃 𝐴𝑖 𝐵 = 𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖 đ𝑝𝑐𝑚 . 𝑛 𝑖=1 𝑃 Ví dụ 1.1: Có 2 lô sản phẩm. Lô 1 có 20 sản phẩm trong đó có 15 sản phẩm tốt. Lô 2 có 20 sản phẩm trong đó có 10 sản phẩm tốt. Lấy ngẫu nhiên một lô và trong lô đó lấy ra ngẫu nhiên một sản phẩm. Giả sử sản phẩm lấy ra là sản phẩm tốt, tính xác suất sản phẩm đó thuộc lô thứ nhất? Giải Gọi A là biến cố lấy ra 1 sản phẩm tốt và 𝐿1 , 𝐿2 lần lƣợt là biến cố chọn đƣợc sản phẩm thuộc lô 1 và lô 2 ⇒ 𝐿1 , 𝐿2 là hệ biến cố đầy đủ Xác suất đƣợc chọn của hai lô là: 𝑃 𝐿1 = 1 2 = 𝑃(𝐿2 ) Theo công thức xác suất toàn phần, xác suất lấy đƣợc sản phẩm tốt là 1 15 1 10 5 . + . = 2 20 2 20 8 Nếu sản phẩm lấy ra là sản phẩm tốt, theo công thức Bayes ta có xác suất sản phẩm thuộc L1 là 𝑃 𝐴 = 𝑃 𝐿1 𝑃 𝐴|𝐿1 + 𝑃 𝐿2 𝑃 𝐴|𝐿2 = 1 15 𝑃 𝐿1 𝑃(𝐴|𝐿1 ) 2 . 20 3 𝑃 𝐿1 |𝐴 = = = 5 𝑃(𝐴) 5 8 Ví dụ 1.2: Một hộp đựng 2 đồng xu, trong đó có 1 đồng xu cân đối, đồng chất và 1 đồng xu luôn xuất hiện mặt sấp khi tung. Chọn ngẫu nhiên một đồng xu từ hộp và khi tung đồng xu này lên 2 lần điều thấy nó xuất hiện mặt sấp. Tính xác xuất đồng xu đã chọn là đồng xu cân đối, đồng chất. Giải Gọi A là biến cố khi tung 2 lần đồng xu điều xuất hiện mặt sấp. B là đồng xu đƣợc chọn là đồng xu cân đối, đồng chất. Theo công thức xác suất toàn phần, xác suất tung 2 lần đồng xu đều xuất hiện mặt sấp là 𝑃 𝐴 = 𝑃 𝐵 .𝑃 𝐴 𝐵 + 𝑃 𝐵 .𝑃 𝐴 𝐵 = 3 1 1 1 1 5 . . + . 1.1 = 2 2 2 2 8 Nếu trong 2 lần đều xuất hiện mặt sấp. Khi đó, theo công thức Bayes ta đƣợc xác suất đồng xu đã chọn là đồng xu cân đối và đồng chất là 𝑃 𝐵𝐴 = 𝑃 𝐵 .𝑃 𝐴 𝐵 1 8 1 = = 𝑃(𝐴) 5 8 5 Ví dụ 1.3: Cho hai hộp đựng bi, hộp một có 6 bi vàng và 4 bi đỏ, hộp hai có 7 bi vàng và 3 bi đỏ. Lấy ngẫu nhiên từ hộp một 1 viên bi và bỏ vào hộp hai, sau đó lấy từ hộp hai ra 2 viên bi. Tính xác suất 2 viên bi lấy ra có màu đỏ? Giải Gọi 𝐴1 là biến cố lấy đƣợc bi vàng từ hộp thứ nhất, 𝐴2 là biến cố lấy đƣợc bi đỏ từ hộp thứ nhất và B là biến cố lấy đƣợc hai bi đỏ từ hộp thứ hai. Ta có 𝐴1 , 𝐴2 là hệ biến cố đầy đủ nên: 𝑃 𝐵 = 𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2 6 𝐶32 4 𝐶24 = . 2 + . 2 = 0,076 10 𝐶11 10 𝐶11 1.1.2. Định lý Bayes cho đại lƣợng ngẫu nhiên liên tục Cho 𝑋 là đại lƣợng ngẫu nhiên liên tục. Khi đó, hàm phân phối xác suất có điều kiện 𝑋 khi biến cố 𝐴𝑖 đã xảy ra đƣợc xác định nhƣ sau 𝐹 𝑥 𝐴𝑖 = 𝑃( 𝑋 ≤ 𝑥 , 𝐴𝑖 ) 𝑃(𝐴𝑖 ) Trong đó 𝐹 +∞|𝐴𝑖 = 1 và 𝐹 −∞ 𝐴𝑖 = 0. Hàm mật độ xác suất có điều kiện của X khi biến cố 𝐴𝑖 xảy ra đƣợc xác định nhƣ sau 𝑓 𝑥 𝐴𝑖 = 𝑑𝐹 𝑃(𝑥 ≤ 𝑋 ≤ 𝑥 + ∆𝑥|𝐴𝑖 ) = lim 𝑑𝑥 ∆𝑥→0 ∆𝑥 Giả sử quan sát biến ngẫu nhiên 𝑋 trên k tổng thể 𝑤1 , 𝑤2 , … , 𝑤𝑛 có hàm mật độ xác suất 𝑓𝑖 (𝑥) và xác suất tiên nghiệm 𝑞𝑖 , 𝑖 = 1,2, … , 𝑛. Khi đó kết quả đƣợc mở rộng cho trƣờng hợp liên tục nhƣ sau 𝑘 𝑘 𝑓 𝑥 = 𝑃 𝑤𝑖 𝑓 𝑥 𝑤𝑖 = 𝑖=1 𝑃 𝑤𝑖 𝑥 = 𝑞𝑖 𝑓𝑖 (𝑥) 𝑖=1 𝑃 𝑤𝑖 𝑓(𝑥|𝑤𝑖 ) = 𝑓(𝑥) 𝑞𝑖 𝑓𝑖 (𝑥) 𝑘 𝑖=1 𝑞𝑖 𝑓𝑖 (𝑥) Trong đó 𝑓(𝑥) đƣợc gọi là hàm mật độ xác suất kết hợp của tổng thể. Khi 𝑋 và 𝑌 là 2 đại lƣợng ngẫu nhiên liên tục, định lý Bayes cho trƣờng hợp này là hàm mật độ xác suất có điều kiện 𝑓(𝑥|𝑦) đƣợc xác định nhƣ sau 𝑓 𝑥𝑦 = 𝑓 𝑥 𝑓(𝑦|𝑥) 𝑓 𝑥 𝑓 𝑦 𝑥 𝑑𝑥 4 1.2. PHÂN PHỐI TIỀN NGHIỆM VÀ PHÂN PHỐI HẬU NGHIỆM 1.2.1 Phân phối tiền nghiệm Phân phối tiền nghiệm theo định lý Bayes còn đƣợc gọi là xác suất tiền nghiệm là xác suất xảy ra của biến cố 𝐴 mà không quan tâm đến những biến cố khác. Thông tin tiền nghiệm của các tham số là nhân tố quan trọng trong quá trình suy luận Bayes. Phân phối tiền nghiệm chứa đựng đầy đủ thông tin và nếu lƣợng dữ liệu quan sát đƣợc càng nhiều sẽ ảnh hƣởng càng lớn lên phân phối hậu nghiệm. Ngƣợc lại, khi lƣợng dữ liệu quá ít thì thông tin trong phân phối tiền nghiệm sẽ đóng vai trò quan trọng trong phân phối hậu nghiệm. a. Tiền nghiệm mang thông tin và không mang thông tin Tiền nghiệm mang thông tin là tiền nghiệm làm thay đổi về cơ bản những thông tin chứa trong dữ liệu. Phƣơng pháp phổ biến để thể hiện thông tin tiền nghiệm là đƣa ra phân phối cho tham số chƣa biết mà tham số đó phản ánh đƣợc thông tin tiền nghiệm. Trong nhiều trƣờng hợp niềm tin tiền nghiệm của ta rất mơ hồ và vì thế rất khó để chuyển thành tiền nghiệm mang thông tin. Đây là trƣờng hợp mà ta gọi là tiền nghiệm không mang thông tin hay tiền nghiệm mơ hồ và phân phối đƣợc lựa chọn để thể hiện phân phối này là phân phối đều xác định trên các giá trị mà tham số có thể có. Chẳng hạn, tham số chỉ trung bình 𝜇 nhận giá trị (−∞; +∞) có phân phối tiền nghiệm không mang thông tin. Tham số độ lệch chuẩn 𝜎 nhận giá trị trên (0; +∞) có phân phối tiền nghiệm không mang thông tin. b. Phân phối tiền nghiệm liên hợp Trong nhiều trƣờng hợp, ta mong muốn chọn đƣợc phân phối tiền nghiệm sao cho việc phân tích và tìm ra phân phối hậu nghiệm đƣợc thuận lợi nhất. Giả sử dữ liệu đƣợc sinh ra từ một phân phối xác định nào đó, khi đó ta gọi phân phối tiền nghiệm liên hợp để chỉ phân phối hậu nghiệm và phân phối tiền nghiệm cùng thuộc một lớp phân phối. Mặc dù có cùng dạng phân phối nhƣng chúng có tham số khác nhau, tham số của phân phối hậu nghiệm phản ánh sự kết hợp giữa thông tin tiền nghiệm và dữ liệu quan sát. 1.2.2 Phân phối hậu nghiệm Phân phối hậu nghiệm hay còn gọi là xác suất có điều kiện là xác suất xảy ra biến cố 𝐴 khi biết biến cố 𝐵 đã xảy ra. a. Bảng phân phối xác suất hậu nghiệm  Bảng phân phối xác suất hậu nghiệm qua một giai đoạn Tƣơng tự nhƣ bảng phân phối xác suất, bảng phân phối xác suất hậu nghiệm dùng để thiết lập phân phối xác suất hậu nghiệm cho biến ngẫu nhiên rời rạc mà nó cung cấp xác suất 𝑝 với mỗi các giá trị của x. Yêu cầu của một bảng phân phối xác suất hậu nghiệm là 0 ≤ 𝑝 ≤ 1 và 𝑛𝑖=1 𝑝𝑖 = 1. Đồng thời ta có thể dựa vào bảng để tính xác suất hậu nghiệm một cách trực quan, hay nhìn vào bảng ta có thể tính xác suất hậu nghiệm đơn giản hơn. 5 Không gian Bayes Cho hai đại lƣợng ngẫu nhiên rời rạc 𝑋 và 𝑌. Gọi 𝑥𝑖 , 𝑖 = 1,2, … , 𝑛 là các giá trị có thể có của 𝑋 và 𝑦𝑗 , 𝑗 = 1,2, … , 𝑚 là các giá trị có thể có của 𝑌. Tập hợp các bộ giá trị trong ma trận hình chữ nhật cỡ 𝑛 × 𝑚 với phần tử thứ 𝑖 cột 𝑗 trong ma trận 𝑥𝑖 , 𝑦𝑗 đƣợc gọi là không gian Bayes của hai biến 𝑋 và 𝑌. Bảng 1: Không gian Bayes 𝑦1 𝑥1 𝑥2 𝑦2 … (𝑥1 , 𝑦1 ) (𝑥1 , 𝑦2 ) 𝑦𝑗 … 𝑦𝑚 (𝑥1 , 𝑦𝑗 ) (𝑥1 , 𝑦𝑚 ) 𝑥2 , 𝑦1 𝑥2 , 𝑦2 𝑥2 , 𝑦𝑗 𝑥2 , 𝑦𝑚 𝑥𝑖 , 𝑦1 𝑥𝑖 , 𝑦2 𝑥𝑖 , 𝑦𝑗 𝑥𝑖 , 𝑦𝑚 𝑥𝑛 , 𝑦1 𝑥𝑛 , 𝑦2 𝑥𝑛 , 𝑦𝑗 𝑥𝑛 , 𝑦𝑚 ⋮ 𝑥𝑖 ⋮ 𝑥𝑛 Bài toán: Giả sử đại lƣợng ngẫu nhiên 𝑋 có thể có các giá trị 𝑥1 , 𝑥2 , … , 𝑥𝑛 với xác suất chƣa biết, đại lƣợng ngẫu nhiên 𝑌 nhận giá trị cụ thể 𝑌 = 𝑦0 đã biết. Dựa vào giá trị đã biết của 𝑌 ta lập bảng phân phối xác suất cho đại lƣợng ngẫu nhiên 𝑋. Phƣơng pháp: Gọi 𝑃 𝑥𝑖 , 𝑦0 là xác suất đồng thời để đại lƣợng ngẫu nhiên 𝑋 nhận giá trị 𝑥𝑖 và đại lƣợng ngẫu nhiên 𝑌 nhận giá trị 𝑦0 , ta có 𝑃 𝑥𝑖 , 𝑦0 = 𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦0 |𝑋 = 𝑥𝑖 ) Trong đó 𝑃 𝑋 = 𝑥𝑖 là xác suất tiền nghiệm của 𝑋 = 𝑥𝑖 Theo công thức Bayes thì xác suất hậu nghiệm của 𝑋 = 𝑥𝑖 và 𝑌 = 𝑦0 đƣợc xác định nhƣ sau (1) 𝑝𝑖 = 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦0 = 𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦0 |𝑋 = 𝑥𝑖 ) 𝑛 𝑖=1 𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦0 |𝑋 = 𝑥𝑖 ) Khi đó ta lập đƣợc bảng phân phối xác suất hậu nghiệm của 𝑋 khi 𝑌 = 𝑦0 là Bảng 2: Bảng phân phối xác suất hậu nghiệm của X qua một giai đoạn 𝑋 𝑃 𝑥1 (1) 𝑝1 𝑥2 (1) 𝑝2 … 𝑥𝑛 … 𝑝3 (1) Ví dụ 1.4: Trong một hộp có 5 viên bi, trong đó có 2 loại bi là bi đỏ và bi đen (số lƣợng bi đỏ và bi đen không đƣợc xác định). Chọn ngẫu nhiên 1 viên bi từ hộp, 6 nếu ta chọn đƣợc bi đỏ kí hiệu là 𝑌 = 1 và nếu ta chọn đƣợc bi đen thì kí hiệu là 𝑌 = 0. Gọi X là số lƣợng bi đỏ trong hộp. a. Tìm không gian Bayes của (𝑋, 𝑌). b. Tìm bảng phân phối xác suất hậu nghiệm của 𝑋 khi 𝑌 = 1. Giải a. Không gian Bayes của (𝑋, 𝑌) đƣợc xác định nhƣ bảng sau X\Y 0 1 2 3 4 5 0 0,0 0,1 0,2 0,3 0,4 0,5 1 1,0 1,1 1,2 1,3 1,4 1,5 b. Số lƣợng bi đỏ không đƣợc xác định nên ta xem xác suất tiên nghiệm của 𝑋 = 𝑥𝑖 , (𝑖 = 0,5) bằng nhau 𝑃 𝑋=0 =𝑃 𝑋=1 =𝑃 𝑋=2 =𝑃 𝑋=3 =𝑃 𝑋=4 1 =𝑃 𝑋=5 = 6 Ta có: 𝑃 𝑌 = 1 𝑋 = 𝑥𝑖 = 𝑖 5 Lập bảng tính nhƣ sau 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 ) 𝑃 𝑌 = 1 𝑋 = 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 |𝑌 = 1) (1) (2) (1).(2) 0 1 6 0 0 0 1 1 6 1 5 1 30 1/15 2 1 6 2 5 2 30 2/15 3 1 6 3 5 3 30 3/15 4 1 6 4 5 4/30 4/15 5 1 6 1 5 30 5/15  1 2 Bảng phân phối xác suất hậu nghiệm của 𝑋 với 𝑌 = 1 là 𝑋 0 1 2 3 4 5 𝑃 0 1/15 2/15 3/15 4/15 5/15  Bảng phân phối xác suất qua nhiều giai đoạn 7 Bài toán: Giả sử đại lƣợng ngẫu nhiên X có thể nhận giá trị 𝑥1 , 𝑥2 , … , 𝑥𝑛 với xác suất chƣa biết. Tiến hành m lần phép thử, lần thứ nhất ta nhận đƣợc kết quả 𝑌 = 𝑦1 , lần thứ hai ta nhận đƣợc kết quả 𝑌 = 𝑦2 ,…, và lần thứ m ta nhận đƣợc kết quả 𝑌 = 𝑦𝑚 . Vấn đề đặt ra là ta cần lập bảng phân phối xác suất hậu nghiệm cho X. Phƣơng pháp: Mở rộng cho trƣờng hợp một giai đoạn, bảng phân phối xác suất hậu nghiệm của X qua m giai đoạn nhƣ sau: Bảng 3: Bảng phân phối xác suất hậu nghiệm của X qua nhiều giai đoạn 𝑋 𝑥1 (𝑚 ) 𝑃 (𝑚 ) Trong đó 𝑝𝑖 𝑝1 𝑥2 … (𝑚 ) … 𝑝2 𝑥𝑛 (𝑚 ) 𝑝3 đƣợc xác định nhƣ sau (𝑚 ) 𝑝𝑖 = 𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦1 , 𝑦2 , … , 𝑦𝑚 𝑥𝑖 ) 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦1 , 𝑦2 , … , 𝑦𝑚 𝑥𝑖 ) 𝑚 𝑖=1 𝑃 Với 𝑃 𝑌 = 𝑦1 , 𝑦2 , … , 𝑦𝑚 𝑥𝑖 = 𝑃 𝑌 = 𝑦1 𝑋 = 𝑥𝑖 . 𝑃 𝑌 = 𝑦2 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦1 … … 𝑃(𝑌 = 𝑦𝑚 |𝑋 = 𝑥𝑖 , 𝑌 = 𝑦1 , 𝑌 = 𝑦2 , … , 𝑌 = 𝑦𝑚 −1 ) Ví dụ 1.5: Trở lại ví dụ 1.4, giả sử ta chọn lần lƣợt 2 viên bi từ hộp, lần đầu ta chọn đƣợc 1 viên bi đỏ, lần 2 ta chọn tiếp 1 viên bi thì thấy kết quả là viên bi đen. Gọi X là viên bi đỏ trong hộp. Lập bảng phân phối xác suất hậu nghiệm của 𝑋. Giải Ta có 𝑃 𝑌 = 0 𝑋 = 𝑥𝑖 , 𝑌 = 1 = 4−𝑖 4 Lập bảng tính sau: 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 1|𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 0|𝑋 = 𝑥𝑖 , 𝑌 = 1) (1)(2)(3) 𝑃(𝑋 = 𝑥𝑖 |𝑌 = 1, 𝑌 = 0) (1) (2) (3) 0 1/6 0 0 0 0 1 1/6 1/5 ¼ 1/120 0,034 2 1/6 2/5 2/4 4/120 0,133 3 1/6 3/5 ¾ 9/120 0,300 4 1/6 4/5 1 4/30 0,533 5 1/6 5/5 0 0 0 8  1/4 1 Từ bảng tính trên ta nhận đƣợc bảng phân phối xác suất hậu nghiệm của X là X 0 1 2 3 4 5 P 0 0,034 0,133 0,3 0,533 0 b. Bảng phân phối xác suất hậu nghiệm tham số của một số phân phối đặc biệt  Tham số tỷ lệ trong phân phối nhị thức Bài toán: Giả sử đại lƣợng ngẫu nhiên có phân phối nhị thức với xác suất thành công là 𝑝 với 𝑝 là đại lƣợng ngẫu nhiên có thể nhận các giá trị: 𝑝1 , 𝑝2 , … , 𝑝𝑚 với xác suất tiên nghiệm tƣơng ứng 𝑞1 , 𝑞2 , … , 𝑞𝑚 . Chọn một mẫu gồm n phần tử và gọi Y là số lần thành công. Ta cần tìm bảng phân phối xác suất hậu nghiệm của p khi Y nhận giá trị cụ thể 𝑌 = 𝑘. Bảng phân phối xác suất hậu nghiệm Theo công thức Bayes, bảng phân phối xác suất hậu nghiệm của tham số p nhƣ sau Bảng 4: Bảng phân phối xác suất hậu nghiệm trong phân phối nhị thức 𝑝 𝑃 𝑝1 (𝐵) 𝑝1 𝑝2 (𝐵) 𝑝2 … 𝑝𝑚 … 𝑝𝑚 (𝐵) Trong đó (𝐵) 𝑝𝑖 = 𝑃 𝑝 = 𝑝𝑖 𝑌 = 𝑘 = 𝑃 𝑝 = 𝑝𝑖 𝑃(𝑌 = 𝑘|𝑝 = 𝑝𝑖 ) 𝑚 𝑖=1 𝑃 𝑝 = 𝑝𝑖 𝑃(𝑌 = 𝑘|𝑝 = 𝑝𝑖 ) Và 𝑃 𝑝 = 𝑝𝑖 = 𝑞𝑖 , 𝑃 𝑌 = 𝑘 𝑝 = 𝑝𝑖 = 𝐶𝑛𝑘 𝑝𝑖𝑘 1 − 𝑝𝑖 𝑛−𝑘  Tham số trung bình của phân phối chuẩn  Mẫu quan sát qua một giai đoạn Cho đại lƣợng ngẫu nhiên X có phân phối chuẩn 𝑁(𝜇, 𝜎 2 ) với 𝜎 2 đã biết và 𝜇 chƣa biết. Giả sử 𝜇 nhận đƣợc các giá trị 𝜇1 , 𝜇2 , … , 𝜇𝑛 với xác suất tiên nghiệm 𝑃 𝜇 = 𝜇𝑖 = 𝑝𝑖 . Chọn một mẫu ngẫu nhiên đƣợc một giá trị cụ thể của 𝑋 là 𝑥0 . Cần tìm xác suất hậu nghiệm cho các giá trị của 𝜇𝑖 , 𝑖 = 1,2, … , 𝑛. Bảng phân phối xác suất hậu nghiệm của 𝝁 Áp dụng công thức Bayes ta đƣợc bảng phân phối xác suất hậu nghiệm của 𝜇 nhƣ sau 9 Bảng 5: Bảng phân phối xác suất hậu nghiệm của 𝝁 qua một gia đoạn 𝜇 𝑃 𝜇1 𝜇2 (𝑁) ⋯ (𝑁) 𝑝1 ⋯ 𝑝2 𝜇𝑛 (𝑁) 𝑝𝑛 Trong đó (𝑁) 𝑝𝑖 = 𝑃 𝜇 = 𝜇𝑖 𝑋 = 𝑥0 ) = 𝑃 𝜇 = 𝜇𝑖 𝑓(𝑥0 |𝜇𝑖 ) 𝑛 𝑖=1 𝑃 𝜇 = 𝜇𝑖 𝑓(𝑥0 |𝜇𝑖 ) Với 𝑓 𝑥0 𝜇𝑖 = 1 𝜎 2𝜋 𝑒𝑥𝑝 − (𝑥0 − 𝜇𝑖 )2 2𝜎 2  Mẫu quan sát qua nhiều giai đoạn Cho đại lƣợng ngẫu nhiên X có phân phối chuẩn 𝑁(𝜇, 𝜎 2 ) với 𝜎 2 đã biết nhƣng 𝜇 thì chƣa biết. Giả sử 𝜇 có thể nhận các giá trị 𝜇1 , 𝜇2 , … , 𝜇𝑛 với xác suất tiên nghiệm 𝑃 𝜇 = 𝜇𝑖 = 𝑝𝑖 . Thực hiện phép thử 𝑚 lần ta đƣợc các giá trị của 𝑋 lần lƣợt là 𝑥1 , 𝑥2 , … , 𝑥𝑚 . Ta lập bảng phân phối xác suất hậu nghiệm cho 𝜇. Bảng phân phối xác suất hậu nghiệm của 𝝁 qua nhiều giai đoạn Khi có nhiều giai đoạn ta lần lƣợt tìm xác suất hậu nghiệm của 𝜇 qua từng giai đoạn một và xác suất hậu nghiệm của giai đoạn trƣớc chính là xác suất tiên nghiệm cho giai đoạn sau. Bảng phân phối xác suất hậu nghiệm của 𝜇 là dựa vào xác suất hậu nghiệm của giai đoạn cuối cùng. 1.2.3 Hàm mật độ xác suất hậu nghiệm cho tham số a. Hàm mật độ xác suất hậu nghiệm khi có một quan sát Xét đại lƣợng ngẫu nhiên 𝑋 với hàm mật độ xác suất 𝑓(𝑥) có tham số 𝜃 chƣa biết. Giả sử 𝜃 có hàm mật độ xác suất tiên nghiệm 𝑔(𝜃). Thực hiện một quan sát, ta đƣợc giá trị cụ thể của 𝑋 là 𝑥0 . Khi đó hàm mật độ xác suất hậu nghiệm của 𝜃 đƣợc xác định nhƣ sau 𝑔 𝜃 𝑥0 = 𝑔 𝜃 𝑓(𝑥0 |𝜃) 𝑔 𝜃 𝑓 𝑥0 𝜃 𝑑𝑥 b. Hàm mật độ xác suất khi có nhiều quan sát Trong trƣờng hợp X nhận nhiều giá trị quan sát 𝑥1 , 𝑥2 , … , 𝑥𝑛 thì hàm mật độ xác suất hậu nghiệm của 𝜃 trở thành nhƣ sau 𝑔 𝜃 𝑥1 , 𝑥2 , … , 𝑥𝑛 = 𝑔 𝜃 𝑓(𝑥 |𝜃) 𝑔 𝜃 𝑓 𝑥 𝜃 𝑑𝑥 Trong đó 1 𝑥= 𝑛 𝑛 𝑥𝑖 𝑖=1 10 c. Hàm mật độ xác suất hậu nghiệm cho tham số của phân phối đặc biệt  Hàm mật độ xác suất phân phối nhị thức Đại lƣợng ngẫu nhiên rời rạc X đƣợc gọi là có phân phối nhị thức với hai tham số 𝑛 và 𝑝. Kí hiệu: 𝑋~𝐵(𝑛, 𝑝). Hàm mật độ của nó đƣợc xác định nhƣ sau 𝑓 𝑥 𝑛, 𝑝 = Các tham số đặc trưng 𝐶𝑛𝑥 𝑝𝑥 𝑞1−𝑥 𝑘𝑕𝑖 𝑥 = 0, 𝑛 0 𝑘𝑕𝑖 𝑥 ≠ 0, 𝑛 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛𝑕: 𝐸 𝑋 = 𝑛𝑝 𝑃𝑕ươ𝑛𝑔 𝑠𝑎𝑖: 𝑉𝑎𝑟 𝑋 = 𝑛𝑝𝑞  Hàm mật độ xác suất hậu nghiệm của phân phối nhị thức Bài toán: Giả sử đại lƣợng ngẫu nhiên có phân phối nhị thức trong đó xác suất thành công 𝑝 là đại lƣợng ngẫu nhiên có hàm mật độ xác suất chƣa biết. Thực hiện 𝑛 lần các phép thử, gọi 𝑌 là số lần thành công. Ta xác định hàm mật độ xác suất cho tham số 𝑝 theo công thức sau Giả sử 𝑌 = 𝑚, ta có 𝑔 𝑝𝑌=𝑚 = 𝑔 𝑝 𝑓(𝑌 = 𝑚|𝑝) 1 𝑔 0 𝑝 𝑓(𝑌 = 𝑚|𝑝) Trong đó 𝑔 𝑝 là hàm mật độ xác suất tiền nghiệm của 𝑝 𝑓 𝑌 = 𝑚 𝑝 = 𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝 𝑛 −𝑚 Các trƣờng hợp đặc biệt  Khi p có hàm mật độ xác suất tiên nghiệm đều Nếu 𝑝 có hàm mật độ xác suất tiên nghiệm đều trên [0, 1] thì hàm mật độ xác suất hậu nghiệm của nó là 𝛽(𝑎, 𝑏), trong đó 𝑎 =𝑚+1 𝑏 =𝑛−𝑚+1 Với n là số lần thực hiện phép thử và m là số lần thành công Chứng minh Vì p có hàm mật độ xác suất tiên nghiệm đều trên [0, 1] nên ta có 𝑝~𝑅 0, 1 ⟹ 𝑔 𝑝 = Khi đó 11 1 𝑘𝑕𝑖 𝑝 ∈ [0, 1] 0 𝑘𝑕𝑖 𝑝 ∉ [0, 1] 𝑔 𝑝𝑌=𝑚 = 𝑓(𝑌 = 𝑚|𝑝) 1 𝑓 0 𝑌 = 𝑚 𝑝 𝑑𝑝 = 𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝 1 𝑚 𝑚 𝐶 𝑝 0 𝑛 𝑛−𝑚 1−𝑝 𝑛−𝑚 Mặt khác 𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝 𝑛−𝑚 = 𝑛! 𝑝𝑚 1 − 𝑝 𝑚! 𝑛 − 𝑚 ! Đặt 𝑚 = 𝑎 − 1, 𝑛 − 𝑚 = 𝑏 − 1 khi đó: 𝑛! 𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝 𝑛 −𝑚 = 𝑝𝑎 −1 1 − 𝑝 𝑎−1 ! 𝑏−1 ! 𝑛−𝑚 𝑏 −1 = 𝑀. 𝛽(𝑎, 𝑏) Do đó 𝑔 𝑝𝑌=𝑚 = 𝑀. 𝛽(𝑎, 𝑏) 1 𝑀. 𝛽(𝑎, 𝑏) 0 = 𝛽(𝑎, 𝑏)  Khi p có hàm mật độ xác suất tiên nghiệm 𝑩𝒆𝒕𝒂 Hàm mật độ xác suất hậu nghiệm cho tham số p của phân phối nhị thức, khi thực hiện n lần phép thử độc lập và có m lần thành công với hàm mật độ xác suất tiên nghiệm của tham số p có phân phối 𝛽(𝑎, 𝑏) là phân phối 𝛽(𝑎, 𝑏 ), trong đó 𝑎 =𝑎+𝑚 𝑏 =𝑛+𝑏−𝑚 Chứng minh Ta có Γ(𝑎 + 𝑏) 𝑎 −1 𝑝 1−𝑝 𝑛~𝛽 𝑎, 𝑏 ⇔ 𝑔 𝑝 = Γ 𝑎 Γ(𝑏) 0 𝑏 −1 𝑘𝑕𝑖 𝑝 ∈ [0,1] 𝑘𝑕𝑖 𝑝 ∉ [0,1] Và 𝑓 𝑌 = 𝑚 𝑝 = 𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝 𝑛 −𝑚 Nên 𝑔 𝑝𝑌=𝑚 = 𝑔 𝑝 . 𝑓(𝑌 = 𝑚|𝑝) 1 𝑔 0 𝑝 . 𝑓 𝑌 = 𝑚 𝑝 𝑑𝑝 Mà 𝑔 𝑝 .𝑓 𝑌 = 𝑚 𝑝 = Γ(𝑎 + 𝑏) 𝑚 𝑎 +𝑚 −1 .𝐶 𝑝 1−𝑝 Γ 𝑎 Γ(𝑏) 𝑛 𝑛+𝑏−𝑚 −1 Đặt 𝑎 + 𝑚 = 𝑎, 𝑛 + 𝑏 = 𝑏 khi đó 𝑔 𝑝 .𝑓 𝑌 = 𝑚 𝑝 = Γ(𝑎 + 𝑏) 𝑚 𝑎 −1 .𝐶 𝑝 1−𝑝 Γ 𝑎 Γ(𝑏) 𝑛 Do đó 12 𝑏 −𝑚 −1 = 𝑀. 𝛽(𝑎, 𝑏) 𝑔 𝑝𝑌=𝑚 = 𝑔 𝑝 . 𝑓(𝑌 = 𝑚|𝑝) 1 𝑔 0 𝑝 . 𝑓 𝑌 = 𝑚 𝑝 𝑑𝑝 = 𝑀. 𝛽(𝑎, 𝑏 ) 1 𝑀. 𝛽(𝑎, 𝑏 ) 0 = 𝛽(𝑎, 𝑏) Nhận xét: Khi tham số p có phân phối tiên nghiệm đều trên [0, 1] thì kết quả hàm phân phối xác suất hậu nghiệm của p là trường hợp đặc biệt khi tham số p có phân phối 𝛽(𝑎, 𝑏), với 𝑎 = 1, 𝑏 = 1.  Hàm mật độ xác suất của phân phối chuẩn Đại lƣợng ngẫu nhiên liên tục X đƣợc gọi là có phân phối chuẩn với hai tham số 𝜇 và 𝜎 2 . Kí hiệu: 𝑋~𝑁(𝜇, 𝜎 2 ) và hàm mật độ xác suất của nó đƣợc xác định nhƣ sau 𝑓 𝑥|𝜇, 𝜎 Các tham số đặc trưng 2 2 1 𝑥−𝜇 = 𝑒𝑥𝑝 − 2𝜎 𝜎 2𝜋 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛𝑕: 𝐸 𝑋 = 𝜇 𝑃𝑕ươ𝑛𝑔 𝑠𝑎𝑖: 𝑉𝑎𝑟 𝑋 = 𝜎 2  Hàm mật độ xác suất hậu nghiệm của phân phối chuẩn Bài toán: Giả sử đại lƣợng ngẫu nhiên X có phân phối chuẩn với tham số trung bình là 𝜇 chƣa biết, phƣơng sai 𝜎 2 đã biết. Giả sử 𝜇 có hàm mật độ xác suất là 𝑔(𝜇). Thực hiện một quan sát ta đƣợc một giá trị cụ thể của X là 𝑥0 . Ta tìm mật độ xác suất hậu nghiệm của 𝜇. Hàm mật độ xác suất hậu nghiệm đƣợc xác định bởi công thức 𝑔 𝜇 𝑥0 = 𝑔 𝜇 . 𝑓(𝑥0 |𝜇) +∞ −∞ 𝑔 𝜇 . 𝑓 𝑥0 𝜇 𝑑𝜇 Trong đó 𝑓 𝑥0 𝜇 = 1 𝜎 2𝜋 𝑒𝑥𝑝 − 2 𝑥0 − 𝜇 2𝜎 2  Trường hợp 𝝁 có phân phối tiên nghiệm chuẩn 𝝁~𝑵(𝒎, 𝒔𝟐 ) Ta có 1 𝜇−𝑚 𝑔 𝜇 = 𝑒𝑥𝑝 − 2𝑠 2 𝑠 2𝜋 1 1 𝑔 𝜇 . 𝑓 𝑥0 𝜇 = 𝑒𝑥𝑝 − 2𝜋𝑠𝜎 2 13 𝑥0 − 𝜇 𝜎2 2 2 𝜇−𝑚 + 𝑠2 2 Xét 1 𝑃=− 2 =− 𝑥0 − 𝜇 𝜎2 2 𝜇−𝑚 + 𝑠2 2 1 𝑠 2 + 𝑚2 𝜇 2 − 2 𝑥0 𝑠 2 + 𝑚𝜎 2 𝜇 + 𝑠 2 𝑥02 + 𝑚2 𝜎 2 2𝜎 2 𝑠 2 =− 𝑠2 + 𝜎2 2 𝑥0 𝑠 2 + 𝑚𝜎 2 𝑠 2 𝑥02 + 𝑚2 𝜎 2 𝜇 − 2 𝜇 + 2𝜎 2 𝑠 2 𝑠2 + 𝜎2 𝑠2 + 𝜎2 𝑠2 + 𝜎2 =− 2𝜎 2 𝑠 2 𝑥0 𝑠 2 + 𝑚𝜎 2 𝜇− 𝑠2 + 𝜎2 2 +𝑃 Với P là hằng số đƣợc điều chỉnh thích hợp. Do đó 𝑔 𝜇 . 𝑓 𝑥0 𝜇 = 1 2𝜋𝑠𝜎 𝑒𝑥𝑝 − 1 2𝜎 2 𝑠 2 𝜇− 𝑥 0 𝑠 2 +𝑚 𝜎 2 𝑠 2 +𝜎 2 2 +𝑃 1 𝑠2 + 𝜎2 𝑥0 𝑠 2 + 𝑚𝜎 2 = 𝑒𝑥𝑝 − 𝜇− 2𝜋𝑠𝜎 2𝜎 2 𝑠 2 𝑠2 + 𝜎2 𝑔 𝜇 𝑥0 = 2 . 𝑒𝑃 𝑔 𝜇 . 𝑓 𝑥0 𝜇 +∞ −∞ =− 𝑔 𝜇 . 𝑓 𝑥0 𝜇 𝑑𝜇 1 𝑠𝜎 + 𝜎2 𝑠2 1 𝑥0 𝑠 2 + 𝑚𝜎 2 𝑒𝑥𝑝 − 𝜇− 𝑠2𝜎2 𝑠2 + 𝜎2 2𝜋 2 2 2 𝑠 +𝜎 2 Đặt: 𝑥0 𝑠 2 + 𝑚𝜎 2 1 𝑠2 + 𝜎2 𝜇= , 2= 2 2 𝑠2 + 𝜎2 𝑎 𝑠 𝜎 1 1 𝑔 𝜇 = 𝑒𝑥𝑝 − 2 𝜇 − 𝜇 2 2𝑎 𝑎 2𝜋 Khi đó phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với 𝑥0 𝑠 2 + 𝑚𝜎 2 2 𝑠2𝜎2 𝑚= ,𝑠 = 2 𝑠2 + 𝜎2 𝑠 + 𝜎2  Trường hợp khi có nhiều quan sát cho trung bình 14 Khi thực hiện n lần quan sát cho X ta nhận đƣợc các giá trị cụ thể 𝑥1 , 𝑥2 , … , 𝑥𝑛 , khi đó hàm mật độ xác suất cho 𝜇 đƣợc xác định nhƣ sau 𝑔 𝜇 𝑥1 , 𝑥2 , … , 𝑥𝑛 = 𝑔 𝜇 . 𝑓 𝑥| 𝜇 +∞ −∞ 𝑔 𝜇 . 𝑓 𝑥| 𝜇 𝑑𝜇 Xét trong trƣờng hợp đặc biệt 𝑋𝑖 có phân phối chuẩn 𝑋𝑖 ~𝑁(𝑚, 𝑠 2 ) và có hàm mật độ 1 𝜇−𝑚 𝑓 𝑥𝑖 |𝜇 = 𝑒𝑥𝑝 − 2𝑠 2 𝑠 2𝜋 2 Thì phân phối hậu nghiệm của 𝜇 cũng là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với 𝑛𝑥𝑠 2 + 𝑚𝜎 2 2 𝑠2𝜎2 𝑚= ,𝑠 = 𝑛. 𝑠 2 + 𝜎 2 𝑛. 𝑠 2 + 𝜎 2 15 CHƢƠNG 2: ƢỚC LƢỢNG THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES Một đại lƣợng ngẫu nhiên đƣợc đặc trƣng bởi các tham số mà trong thực tế hầu nhƣ không thể biết đƣợc chúng một cách chính xác. Do đó, để xác định đƣợc những tham số này ngƣời ta sẽ ƣớc lƣợng chúng từ mẫu đã chọn. Bài toán ƣớc lƣợng tham số thống kê là bài toán ƣớc lƣợng giá trị tham số chƣa biết của đại lƣợng ngẫu nhiên dựa vào quan sát trên mẫu đƣợc lấy ra. Thông thƣờng các tham số cần ƣớc lƣợng là trung bình, phƣơng sai và tỷ lệ những phần tử nào đó đang đƣợc quan tâm trong tổng thể. Căn cứ vào kết quả ƣớc lƣợng, ngƣời ta chia bài toán ƣớc lƣợng tham số thống kê thành hai loại là ƣớc lƣợng điểm và ƣớc lƣợng khoảng tham số thống kê. 2.1. ƢỚC LƢỢNG ĐIỂM THAM SỐ THỐNG KÊ Khi nghiên cứu đại lƣợng ngẫu nhiên X của tổng thể, chúng ta thƣờng không biết phân phối xác suất của nó nhƣ thế nào, vì thế không thể biết chính xác các tham số đặc trƣng. Ƣớc lƣợng điểm của các giá trị tham số chƣa biết của X (một tham số hoặc nhiều tham số) là việc dựa trên một mẫu ( X1 , X 2 ,..., X n ) để tìm đƣợc một thống kê ˆ( X , X ,..., X ) để thay thế tham số  chƣa biết. 1 2 n Việc xác định điểm ƣớc lƣợng bằng phƣơng pháp Bayes của tham số chƣa biết sẽ dựa vào phân phối xác suất hậu nghiệm của tham số đó. Tuy nhiên, khi ƣớc lƣợng tham số  chƣa biết bằng phƣơng pháp ƣớc lƣợng điểm thì ta không biết đƣợc mức độ chính xác của ƣớc lƣợng. Vì thế, không đánh giá đƣợc mức độ sai lầm khi ta dùng ˆ thay cho  . Để khắc phục các hạn chế đó, ta sử dụng ƣớc lƣợng khoảng tin cậy cho tham số  . 2.2. ƢỚC LƢỢNG KHOẢNG THAM SỐ THỐNG KÊ Giả sử  là một tham số của biến ngẫu nhiên X cần biết. Ƣớc lƣợng khoảng tham số  là xác định khoảng ( 1 ;  2 ) sao cho xác suất để   ( 1 ;  2 ) bằng một độ tin cậy cho trƣớc. Trong bài toán ƣớc lƣợng khoảng, ta sử dụng một số kí hiệu sau   : Mức ý nghĩa, là khả năng có thể mắc phải sai lầm khi ƣớc lƣợng.  1-  : Độ tin cậy của ƣớc lƣợng.  ( 1;  2 ): Khoảng tin cậy của ƣớc lƣợng. Thông thƣờng trong thực tế ta chỉ ƣớc lƣợng khoảng tham số với khoảng tin cậy đối xứng. Trong phần này để ngắn gọn ta chỉ nói “ƣớc lƣợng” thay cho cách nói đầy đủ “ƣớc lƣợng khoảng tin cậy đối xứng”. Khi đó, tham số  cần ƣớc lƣợng thuộc khoảng (1; 2 )  (0   ; 0   ) , trong đó 16   0 là ƣớc lƣợng điểm của tham số  ,   là độ chính xác hay sai số của ƣớc lƣợng. Sau đây là một số bài toán ƣớc lƣợng tham số cơ bản bằng phƣơng pháp Bayes. 2.2.1. Một số bài toán ƣớc lƣợng liên quan đến trung bình a. Ƣớc lƣợng trung bình Giả sử đại lƣợng ngẫu nhiên X có tham số trung bình E(X) =  chƣa biết. Cho trƣớc số  khá nhỏ, ƣớc lƣợng trung bình  với mức ý nghĩa  là việc chỉ ra một khoảng ( 1 ,  2 ) sao cho P(1     2 ) = 1   .  Trường hợp biết phương sai 𝝈𝟐 Giả sử đại lƣợng ngẫu nhiên X có tham số trung bình 𝜇 chƣa biết nhƣng phƣơng sai 𝜎 2 đã biết. Tham số 𝜇 có phân phối tiên nghiệm chuẩn 𝑁 𝑚, 𝑠 2 . Chọn một mẫu gồm n phần tử. Tham số trung bình mẫu là đại lƣợng ngẫu nhiên có phân 2 phối chuẩn 𝑁(𝜇, 𝜎 𝑛 ). Khi đó, 𝜇 có phân phối hậu nghiệm là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với 𝜎 2 𝑚 + 𝑛𝑥𝑠 2 𝜎2𝑠2 2 𝑚= , 𝑠 = 2 𝜎 2 + 𝑛𝑠 2 𝜎 + 𝑛𝑠 2 Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm (1 ,  2 ) của 𝜇 là 𝑚 − 𝑢1−𝛼 . 𝑠 , 𝑚 + 𝑢1−𝛼 . 𝑠 2 2  Trường hợp chưa biết phương sai 𝝈𝟐 Khi 𝐧 ≥ 𝟑𝟎 Giả sử đại lƣợng ngẫu nhiên X có tham số trung bình 𝜇 chƣa biết và phƣơng sai 𝜎 chƣa biết. Tham số 𝜇 có phân phối tiên nghiệm chuẩn 𝑁 𝑚, 𝑠 2 . Chọn một mẫu gồm n phần tử. Trong trƣờng hợp này, phƣơng sai 𝜎 2 chƣa biết ta sẽ thay bằng phƣơng sai mẫu điều chỉnh là 2 1 𝜎2 = 𝑛−1 𝑛 (𝑥𝑖 − 𝑥)2 𝑖=1 Khi đó, tham số trung bình mẫu là đại lƣợng ngẫu nhiên có phân phối chuẩn 2 2 𝜎 𝑁(𝜇, 𝑛 ) và 𝜇 có phân phối hậu nghiệm cũng là phân phối chuẩn 𝑁(𝑚, 𝑠 ) với 17 𝜎 2 𝑚 + 𝑛𝑦𝑠 2 2 𝜎2𝑠2 𝑚= ,𝑠 = 2 𝜎 2 + 𝑛𝑠 2 𝜎 + 𝑛𝑠 2 Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm (1 ,  2 ) của 𝜇 là 𝑚 − 𝑢1−𝛼 2 . 𝑠 , 𝑚 + 𝑢1−𝛼 2 . 𝑠 Khi 𝒏 < 30 Ta thực hiện tƣơng tự nhƣ trƣờng hợp trên và thay thế phân vị chuẩn 𝑢1−𝛼 bằng phân vị Student với bậc tự do 𝑛 − 1, mức xác suất 𝛼 2. 2 Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm (1 ,  2 ) của 𝜇 trong trƣờng hợp này là (𝑚 − 𝑡𝛼 2 𝑛 − 1 . 𝑠 , 𝑚 + 𝑡𝛼 2 𝑛 − 1 . 𝑠) Ví dụ 2.1: Hàm lƣợng vitamin trong một loại trái cây là một đại lƣợng ngẫu nhiên có phân phối chuẩn với tham số trung bình chƣa biết và độ lệch chuẩn bằng 3. Giả sử hàm lƣợng vitamin có phân phối tiên nghiệm chuẩn 𝑁(30; 102 ). Chọn một mẫu gồm 10 trái cây đo đƣợc hàm lƣợng vitamin (đơn vị %) ta có số liệu sau 38.7 40.4 37.2 36.6 35.9 34.7 37.6 35.1 37.5 35.6 Hãy ƣớc lƣợng hàm lƣợng vitamin trung bình hậu nghiệm của trái cây với độ tin cậy 95%. Giải Gọi 𝜇 là hàm lƣợng vitamin trung bình của trái cây Đây là bài toán ƣớc lƣợng khoảng trung bình trong trƣờng hợp phƣơng sai đã biết. Ta có 1 38,7 + 40,4 + 37,2 + 36,6 + 35,9 + 34,7 + = 36,93 37,6 + 35,1 + 37,5 + 35,6 10 Vì 𝜇 có phân phối tiên nghiệm chuẩn 𝑁(30, 102 ) nên phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với 𝑦= 𝑚= 𝑚/𝑠 2 + 𝑛𝑦/𝜎 2 30/102 + 10.36,93/32 = = 34,13 𝑛/𝜎 2 + 1/𝑠 2 10/32 + 1/102 𝜎2 𝑠2 32 . 102 𝑠 = 2 = = 0,89 𝜎 + 𝑛𝑠 2 32 + 10. 102 Do đó với mức ý nghĩa 𝛼 = 0,05 ta đƣợc 2 𝑚 − 𝑢1−𝛼 2 . 𝑠 = 34,13 − 1,96. 0,89 = 32,28 𝑚 + 𝑢1−𝛼 2 . 𝑠 = 34,13 + 1,96. 0.89 = 35,98 Vậy hàm lƣợng vitamin trung bình của trái cây là (32,28 ; 35,98). 18 Ví dụ 2.2: Một ngƣời muốn ƣớc lƣợng chiều cao trung bình của loài cây trồng, đƣợc trồng trên những vùng đất khác nhau. Chọn giá trị tiền nghiệm của trung bình là phân phối chuẩn N (30, 42 ) . Giả sử chiều cao này có phân phối chuẩn với độ lệch chuẩn chƣa biết. Chọn một mẫu ngẫu nhiên gồm 15 cây ta có đƣợc trung bình mẫu là 32,5 cm, độ lệch chuẩn mẫu điều chỉnh là 2,2 cm. Hãy ƣớc lƣợng chiều cao trung bình hậu nghiệm của cây với độ tin cậy 95%. Giải Gọi 𝜇 là chiều cao trung bình của cây Đây là bài toán ƣớc lƣợng khoảng trung bình trong trƣờng hợp phƣơng sai chƣa biết. Ta có 𝑦 = 32,5, 𝜎 2 = 2,2 , 𝑛 = 15 < 30 Vì 𝜇 có phân phối tiên nghiệm chuẩn N (30,4 2) nên phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với 2 𝑚= 2 𝑚/𝑠 + 𝑛𝑦/𝜎 = 𝑛/𝜎 2 + 1/𝑠 2 30. 1 42 + 15.32,5. 1 2,22 15 2,22 + 1 42 = 32,45 𝜎2𝑠2 2,22 . 42 𝑠 = 2 = = 0,3163 𝜎 + 𝑛𝑠 2 2,22 + 15. 42 2 Do đó 𝑚−. 𝑡𝛼 2 𝑚 − 𝑡𝛼 2 𝑛 − 1 𝑠 = 32,45 − 2,145. 0,3163 = 31,244 𝑛 − 1 . 𝑠 = 32,45 + 1,96 0,3163 = 33,656 Vậy chiều cao trunng bình của cây là khoảng (31,244; 33,656). b. Ƣớc lƣợng sự khác nhau của hai trung bình Bài toán: Giả sử X1 và X2 là hai đại lƣợng ngẫu nhiên có phân phối chuẩn 𝑋1 ~𝑁(𝜇1 , 𝜎12 ), 𝑋2 ~𝑁 𝜇2 , 𝜎22 , chúng ta muốn ƣớc lƣợng sự khác nhau giữa 𝜇1 và 𝜇2 dựa trên hai mẫu quan sát độc lập của X1 và X2 với độ tin cậy 1 − 𝛼 cho trƣớc. Ở đây ta chỉ xét trƣờng hợp đã biết phƣơng sai và hai phƣơng sai này bằng nhau. Ta có hai mẫu 𝑦11 , … , 𝑦𝑛 1 1 , (𝑦12 , … , 𝑦𝑛 2 2 ) của hai đại lƣợng ngẫu nhiên X1 và X2 độc lập nên phân phối hậu nghiệm của chúng cũng độc lập. Giả sử ta có phân phối tiên nghiệm: 𝜇1 ~𝑁(𝑚1 , 𝑠12 ) và 𝜇2 ~𝑁(𝑚2 , 𝑠12 ) . Khi đó 19 𝜇1 |𝑦11 , … , 𝑦𝑛 1 1 ~𝑁(𝑚1 , 𝑠12 ) 𝜇2 |𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚1 , 𝑠22 ) Phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó 𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12 𝜎12 𝑠12 2 𝑚1 = ; 𝑠1 = 𝑛1 𝑠12 + 𝜎12 𝑛1 𝑠12 + 𝜎12 Phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong đó 𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22 𝜎22 𝑠22 2 𝑚2 = ; 𝑠2 = 𝑛2 𝑠22 + 𝜎22 𝑛2 𝑠22 + 𝜎22 Lúc này phân phối hậu nghiệm của 𝜇𝑑 = 𝜇1 − 𝜇2 đƣợc xác định nhƣ sau 𝜇𝑑 |𝑦11 , … , 𝑦𝑛 1 1 , 𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚𝑑 , 𝑠𝑑2 ) Trong đó 𝑚𝑑 = 𝑚1 − 𝑚2 ; 𝑠𝑑2 = 𝑠12 + 𝑠22 Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì ƣớc lƣợng khoảng cho sự khác nhau giữa hai trung bình là 𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 , 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑 = 𝑚1 − 𝑚2 − 𝑢1−𝛼 2 . 𝑠12 + 𝑠22 , 𝑚1 − 𝑚2 + 𝑢1−𝛼 2 . 𝑠12 + 𝑠22 Ví dụ 2.3: Tốc độ ánh sáng là đại lƣợng ngẫu nhiên có phân phối chuẩn với độ lệch chuẩn là 100, tốc độ trung bình chƣa biết. Một nhà vật lý thực hiện 2 lần thí nghiệm. Lần thử thứ nhất đo 20 lần có tốc độ ánh sáng trung bình 299909 và lần thử thứ hai đo 23 lần và có tốc độ ánh sáng trung bình là 299756. Giả sử tốc độ ánh sáng có phân phối tiên nghiệm chuẩn N(300000, 5002). Ƣớc lƣợng sự khác nhau giữa 2 lần thí nghiệm với độ tin cậy 95%. Giải Ta có phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó 𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12 20.299909. 5002 + 300000. 1002 𝑚1 = = = 299909,98 𝑛1 𝑠12 + 𝜎12 20. 5002 + 1002 𝑠12 = 𝜎12 𝑠12 1002 . 5002 = = 499 𝑛1 𝑠12 + 𝜎12 20. 5002 + 1002 Tƣơng tự, phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong đó 𝑚2 = 𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22 23.299756. 5002 + 300000. 1002 = = 299756,42 𝑛2 𝑠22 + 𝜎22 23. 5002 + 1002 20 𝑠22 𝜎22 𝑠22 1002 . 5002 = = = 434,03 𝑛2 𝑠22 + 𝜎22 23. 5002 + 1002 Phân phối hậu nghiệm của 𝜇𝑑 có phân phối chuẩn 𝜇𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2 Trong đó 𝑚𝑑 = 𝑚1 − 𝑚2 = 299909,98 − 299756,42 = 152,76 𝑠𝑑2 = 𝑠12 + 𝑠22 = 499 + 434,03 = 933,03 Với độ tin cậy 95% khoảng ƣớc lƣợng cho sự khác nhau của hai lần thí nghiệm là 𝑚𝑑 − 𝑢1−𝛼 𝑠𝑑 , 𝑚𝑑 + 𝑢1−𝛼 𝑠𝑑 2 2 = 152,76 − 1,96. 933,03, 152,76 + 1,96. 933,03 = 92,89; 212,64 2.2.2. Một số bài toán ƣớc lƣợng liên quan đến tỷ lệ a. Ƣớc lƣợng tỷ lệ Giả sử tổng thể có hai loại phần tử, loại phần tử có tính chất A và loại ngƣợc lại không có tính chất A với tỷ lệ phần tử có tính chất A là 𝑝 chƣa biết. Với độ tin cậy 1 − 𝛼 cho trƣớc, ta cần tìm khoảng 𝑝1 , 𝑝2 chứa p sao cho 𝑃 𝑝1 < 𝑝 < 𝑝2 = 1 − 𝛼 Giả sử phân phối tiên nghiệm của tỷ lệ là 𝛽(𝑎, 𝑏). Khi đó phân phối hậu nghiệm của 𝑝 là 𝛽 𝑎, 𝑏 . Trong đó 𝑎 = 𝑎 + 𝑚, 𝑏 = 𝑏 + 𝑛 − 𝑚. Ta chứng minh đƣợc rằng 𝛽(𝑎, 𝑏) xấp xỉ phân phối chuẩn với trung bình và phƣơng sai 𝐸 𝑝 = 𝑎 𝑎+𝑏 𝑎𝑏 , 𝑉𝑎𝑟 𝑝 = 2 𝑎 + 𝑏 (𝑎 + 𝑏 + 1) Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm 𝑝1 , 𝑝2 của 𝑝 là 𝐸 𝑝 − 𝜀, 𝐸 𝑝 + 𝜀 Với 𝜀 = 𝑢1−𝛼 2 𝑉𝑎𝑟 𝑝 Ví dụ 2.4: Gọi 𝑝 là tỷ lệ công ty làm ô nhiễm môi trƣờng ở một tỉnh. Giả sử 𝑝 có phân phối tiên nghiệm 𝛽(1; 4). Chọn một mẫu gồm 145 công ty có 12 công ty làm ô nhiễm môi trƣờng, với độ tin cậy 95% hãy ƣớc lƣợng công ty làm ô nhiễm môi trƣờng của tỉnh. Giải Ta có hàm mật độ xác suất hậu nghiệm của p là 𝛽(𝑎, 𝑏 ) với 21 𝑎 = 𝑎 + 𝑚 = 1 + 12 = 13 𝑏 = 𝑛 + 𝑏 − 𝑚 = 145 + 4 − 1 = 148 Nhƣ vậy 𝛽 𝑎, 𝑏 = 𝛽(13,148). Do đó 𝐸 𝑝 = 𝑉𝑎𝑟 𝑝 = = 𝑎 𝑎+𝑏 13 = 0,081 13 + 148 = 𝑎𝑏 𝑎+𝑏 2 𝑎+𝑏+1 13.148 = 0,00046 13 + 148 2 13 + 148 + 1 Khi đó p xấp xỉ phân phối chuẩn N(0,081; 0,00046) Với mức ý nghĩa 𝛼 = 0,05, ta đƣợc 𝜀 = 𝑢1−𝛼 2 𝑉𝑎𝑟 𝑝 = 1.96 13.148 = 0,042 13 + 148 2 13 + 148 + 1 Vậy tỷ lệ công ty làm ô nhiễm của một tỉnh là 0,081 − 0,042; 0,081 + 0,042 = (0.039 ; 0.123). b. Ƣớc lƣợng sự khác nhau của hai tỷ lệ Giả sử hai tổng thể 𝑤1 và 𝑤2 có tỷ lệ những phần tử có tính chất A nào đó chƣa biết. Gọi 𝑝1 , 𝑝2 là tỷ lệ những phần tử có tính chất A của 𝑤1 và 𝑤2 . Chọn một mẫu gồm 𝑛1 phần tử từ 𝑤1 ta có 𝑚1 và 𝑛2 phần tử từ 𝑤2 ta có 𝑚2 phần tử có tính chất A. Giả sử 𝑝1 có phân phối tiên nghiệm 𝛽(𝑎1 , 𝑏1 ) và 𝑝2 có phân phối tiên nghiệm 𝛽(𝑎2 , 𝑏2 ), với độ tin cậy 1 − 𝛼 cho trƣớc. Ta cần ƣớc lƣợng trung bình sự khác nhau của 2 tỷ lệ 𝑝𝑑 = 𝑝1 − 𝑝2 . Ta chỉ xét trƣờng hợp hai phân phối trên độc lập Khi đó hai phân phối hậu nghiệm của 𝑝1 và 𝑝1 là phân phối Beta độc lập sau 𝑝1 ~𝛽 𝑎1 , 𝑏1 , 𝑝2 ~𝛽(𝑎2 , 𝑏2 ) Trong đó 𝑎1 = 𝑎1 + 𝑚1 , 𝑏1 = 𝑏1 + 𝑛1 − 𝑚1 𝑎2 = 𝑎2 + 𝑚2 , 𝑏2 = 𝑏2 + 𝑛2 − 𝑚2 Ta có phân phối Beta xấp xỉ phân phối chuẩn, do đó phân phối hậu nghiệm của 𝑝𝑑 = 𝑝1 − 𝑝2 cũng có phân phối chuẩn 𝑁(𝑚𝑑 , 𝑠𝑑2 ), trong đó 𝑚𝑑 = 𝑎1 𝑎1 + 𝑏1 22 − 𝑎2 𝑎2 + 𝑏2 𝑠𝑑2 = 𝑎1 𝑏1 𝑎1 + 𝑏1 2 𝑎1 + 𝑏1 + 1 + 𝑎2 𝑏2 𝑎2 + 𝑏2 2 𝑎2 + 𝑏2 + 1 Do đó, khoảng ƣớc lƣợng cho sự khác nhau giữa hai tỷ lệ với độ tin cậy 1 − 𝛼 là 𝑚𝑑 − 𝑢1−𝛼 . 𝑠𝑑 ; 𝑚𝑑 + 𝑢1−𝛼 . 𝑠𝑑 2 2 23 CHƢƠNG 3: KIỂM ĐỊNH THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES 3.1. TỔNG QUAN VỀ BÀI TOÁN KIỂM ĐỊNH THỐNG KÊ Trong thực tế, dựa vào số liệu mẫu thu đƣợc ngƣời ta thƣờng có nhu cầu kiểm tra một vấn đề thống kê nào đó là đúng hay sai. Vấn đề thống kê đƣợc đặt ra ở đây đƣợc gọi là giả thiết thống kê. Việc kiểm định các giả thiết thống kê có liên quan đến các tham số đặc trƣng của tổng thể đƣợc gọi là kiểm đinh tham số thống kê. Để kiểm tra giả thiết thống kê là đúng hay sai, trƣớc tiên ta xây dựng hai mệnh đề trái ngƣợc nhau có liên quan đến tham số cần kiểm định đƣợc gọi là giả thiết (H) và đối thiết (𝐻) Trong bài toán kiểm định về tham số thống kê  , ta sử dụng cặp giả thiết, đối thiết nhƣ sau  H :  0 , H :  0  H :   0 , H :   0  H :  0 , H :  0 . Trong bài toán kiểm định về hai tham số thống kê  1 và  2 , ta sử dụng cặp giả thiết, đối thiết nhƣ sau    H : 1   2 , H : 1   2 H : 1   2 , H : 1  2 H : 1   2 , H : 1   2 . Khi thực hiện kiểm định tham số thống kê ta phải đƣa ra đƣợc kết luận là chấp nhận hay bác bỏ giả thiết hoặc đối thiết. Tuy nhiên, khi thực hiện kiểm định không phải lúc nào cũng cho ta một kết luận chính xác. Việc chấp nhận hay bác bỏ giả thiết đều có thể dẫn tới hai loại sai lầm sau  Sai lầm loại 1: Là sai lầm khi ta bác bỏ giả thiết trong khi nó thật sự đúng (bác bỏ giả thiết đúng).  Sai lầm loại 2: Là sai lầm khi ta chấp nhận giả thiết trong khi nó thật sự sai (chấp nhận giả thiết sai). Ta không thể khẳng định sai lầm nào nghiêm trọng hơn, nhƣng đã gọi là sai lầm thì tất cả đều không tốt và cần phải đƣợc hạn chế. Ta mong muốn tìm một tiêu chuẩn kiểm định giả thiết để đồng thời làm cho các xác suất sai lầm loại 1, sai lầm loại 2 là nhỏ nhất. Các nhà thống kê hạn chế các sai lầm đó theo nghĩa xác suất xảy ra mỗi sai lầm là nhỏ nhất. Tuy nhiên, khi ta làm giảm sai lầm loại này thì có thể sai lầm loại kia sẽ tăng lên và ngƣợc lại. Do đó trong bài toán kiểm định ngƣời ta tiến hành nhƣ sau: Ấn định trƣớc mức xác suất sai lầm loại 1 qua mức ý nghĩa  và xây dựng lý thuyết sao cho khả năng mắc phải sai lầm loại 2 (  ) là nhỏ nhất trong khả năng có thể. Trong thực tế chúng ta chọn  đủ bé (từ 1% đến 10%). 24 Việc thực hiện việc kiểm định tham số thống kê với mức ý nghĩa  cho trƣớc theo phƣơng pháp Bayes có thể đƣợc thực hiện theo quy trình nhƣ sau  Chọn giả thiết, đối thiết  Tính giá trị 𝑝𝑣  Kết luận 𝑛ế𝑢 𝑝𝑣 ≤ 𝛼 𝑡𝑎 𝑏á𝑐 𝑏ỏ 𝑔𝑖ả 𝑡𝑕𝑖ế𝑡 𝑛ế𝑢 𝑝𝑣 > 𝛼 𝑡𝑎 𝑐𝑕ấ𝑝 𝑛𝑕ậ𝑛 𝑔𝑖ả 𝑡𝑕𝑖ế𝑡 Trong đó việc xác định 𝑝𝑣 sẽ dựa vào phân phối hậu nghiệm của tham số cần kiểm định. Sau đây là một số bài toán kiểm định về tham số trung bình và tỷ lệ. 3.2. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TRUNG BÌNH 3.2.1. Kiểm định trung bình Bài toán Giả sử đại lƣợng ngẫu nhiên X có phân phối chuẩn với tham số trung bình 𝜇 chƣa biết. Giả sử 𝜇 có phân phối tiền nghiệm chuẩn đã biết. 𝜇 > 𝜇0 Chọn giả thiết 𝐻: 𝜇 = 𝜇0 và một trong các đối thiết 𝐻 : 𝜇 < 𝜇0 𝜇 ≠ 𝜇0 Với độ tin cậy 1 − 𝛼 cho trƣớc ta cần kiểm tra giả thiết đúng hay đối thiết đúng. Phƣơng pháp Vấn đề đặt ra là tính giá trị 𝑝𝑣 Nếu chọn đối thiết 𝜇 > 𝜇0 thì 𝑝𝑣 = 0.5 − 𝜑 𝑚 − 𝜇0 𝑠 𝑝𝑣 = 0.5 + 𝜑 𝑚 − 𝜇0 𝑠 Nếu chọn đối thiết 𝜇 < 𝜇0 thì Nếu chọn đối thiết 𝜇 ≠ 𝜇0 thì 𝑚 − 𝜇0 𝑠 Kết luận: Theo nguyên tắc chung của bài toán kiểm định 𝑝𝑣 = 1 − 2 𝜑 Ví dụ 3.1: Hàm lƣợng vitamin trong một loại trái cây là một đại lƣợng ngẫu nhiên có phân phối chuẩn với tham số trung bình chƣa biết và độ lệch chuẩn mẫu bằng 3. Giả sử hàm lƣợng vitamin có phân phối tiên nghiệm chuẩn 𝑁(30; 102 ). Chọn một mẫu gồm 10 trái cây đo đƣợc hàm lƣợng vitamin (đơn vị %) ta có số liệu sau 25 38.7, 40.4, 37.2, 36.6, 35.9, 34.7, 37.6, 35.1, 37.5, 35.6 Một nghiên cứu trƣớc đây cho rằng hàm lƣợng vitamin trung bình của trái cây là 35%. Với số liệu quan sát đƣợc cho rằng hàm lƣợng của trái cây lớn hơn 35% thì có đúng hay không với mức ý nghĩa 5%. Giải  Chọn giả thiết 𝐻: 𝜇 = 0,35 và đối thiết 𝐻 : 𝜇 > 0,35 Ta có 𝑃𝑣 = 0,5 − 𝜑 𝑚 − 𝜇0 𝑠 Ta có 𝑦= 1 38,7 + 40,4 + 37,2 + 36,6 + 35,9 + 34,7 + = 36,93 37,6 + 35,1 + 37,5 + 35,6 10 Phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑁 𝑚, 𝑠 2 , trong đó 𝑚𝜎 2 + 𝑛𝑦𝑠 2 30. 32 + 10.36,93. 102 𝑚= = = 36,87 𝜎 2 + 𝑛𝑠 2 32 + 10. 102 𝜎2 𝑠2 32 . 102 2 𝑠 = 2 = = 0,89 𝜎 + 𝑛𝑠 2 32 + 10. 102  Khi đó tính giá trị 𝑃𝑣 𝑃𝑣 = 0,5 − 𝜑 𝑚 − 𝜇0 36,87 − 35 = 0,5 − 𝜑 𝑠 0,89 = 0,5 − 𝜑 1,98 = 0,5 − 0,4761 = 0,0239  Vì 𝑃𝑣 < 𝛼 = 5% nên ta bác bỏ giả thiết. Vậy việc cho cho rằng hàm lƣợng vitamin trung bình của trái cây là 35% là đúng. 3.2.2. So sánh hai trung bình a. Trường hợp hai mẫu độc lập Bài toán: Giả sử X1 và X2 là hai đại lƣợng ngẫu nhiên có phân phối chuẩn 𝑋1 ~𝑁(𝜇1 , 𝜎12 ), 𝑋2 ~𝑁(𝜇2 , 𝜎22 ) . Chúng ta muốn so sánh 𝜇1 và 𝜇2 dựa trên hai mẫu quan sát độc lập của X1 và X2 với độ tin cậy 1 − 𝛼 cho trƣớc. Ta chia thành các trƣờng hợp sau  Phƣơng sai đã biết và bằng nhau 26 Ta có hai mẫu 𝑦11 , … , 𝑦𝑛 11 , (𝑦12 , … , 𝑦𝑛 22 ) của hai đại lƣợng ngẫu nhiên X1 và X2 độc lập nên phân phối hậu nghiệm của chúng cũng độc lập. Giả sử ta có phân phối tiên nghiệm: 𝜇1 ~𝑁(𝑚1 , 𝑠12 ) và 𝜇2 ~𝑁(𝑚2 , 𝑠12 ), khi đó 𝜇1 |𝑦11 , … , 𝑦𝑛 1 1 ~𝑁(𝑚1 , 𝑠12 ) 𝜇2 |𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚1 , 𝑠22 ) Phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó 𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12 𝜎12 𝑠12 2 𝑚1 = ; 𝑠1 = 𝑛1 𝑠12 + 𝜎12 𝑛1 𝑠12 + 𝜎12 Phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong đó 𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22 𝜎22 𝑠22 2 𝑚2 = ; 𝑠2 = 𝑛2 𝑠22 + 𝜎22 𝑛2 𝑠22 + 𝜎22 Lúc này phân phối hậu nghiệm của 𝜇𝑑 = 𝜇1 − 𝜇2 đƣợc xác định nhƣ sau 𝜇𝑑 |𝑦11 , … , 𝑦𝑛 1 1 , 𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚𝑑 , 𝑠𝑑2 ) Trong đó 𝑚𝑑 = 𝑚1 − 𝑚2 ; 𝑠𝑑2 = 𝑠12 + 𝑠22 Vì vậy, ta có quy trình thực hiện kiểm định nhƣ sau 𝜇𝑑 > 0  Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và một trong các đối thiết 𝐻: 𝜇𝑑 < 0 𝜇𝑑 ≠ 0 Với 𝜇𝑑 = 𝜇1 − 𝜇2  Tính giá trị 𝑃𝑣 Nếu chọn 𝐻 : 𝜇𝑑 > 0 thì 𝑝𝑣 = 0.5 − 𝜑 𝑚𝑑 𝑠𝑑 𝑝𝑣 = 0.5 + 𝜑 𝑚𝑑 𝑠𝑑 Nếu chọn 𝐻 : 𝜇𝑑 < 0 thì Nếu chọn 𝐻 : 𝜇𝑑 ≠ 0 thì 𝑚𝑑 𝑠𝑑  Kết luận: Theo nguyên tắc chung của bài toán kiểm định 𝑝𝑣 = 1 − 2 𝜑 27  Phƣơng sai chƣa biết và bằng nhau Trƣớc hết ta ƣớc lƣợng phƣơng sai từ mỗi dữ liệu sau đó sử dụng phƣơng sai gộp cho việc thay thế 𝜎 2 . Cụ thể phƣơng sai gộp đƣợc tính bằng công thức 2 𝑆𝑝𝑜𝑜𝑙𝑒 𝑛1 − 1 𝑠12 + (𝑛2 − 1)𝑠22 = 𝑛1 + 𝑛2 − 2  Phƣơng sai đã biết và không bằng nhau Khi biết đƣợc phƣơng sai 𝜎12 và 𝜎22 ta áp dụng công thức sau để tính phƣơng sai hậu nghiệm 𝑠12 , 𝑠22 𝜎 2 𝑚 + 𝑛𝑠 2 𝑥 𝜎 2 + 𝑛𝑠 2 𝜎2 𝑠2 2 𝑠 = 2 𝜎 + 𝑛𝑠 2 Lúc này phƣơng sai hậu nghiệm của d đƣợc xác định: 𝑠𝑑2 = 𝑠12 + 𝑠22 . 𝑚=  Phƣơng sai chƣa biết và không bằng nhau Khi chƣa biết phƣơng sai ta sử dụng phƣơng sai mẫu để tìm phƣơng sai hậu nghiệm 𝑠12 và 𝑠22 . Phƣơng sai hậu nghiệm của d đƣợc xác định 𝑠𝑑2 = 𝑠12 + 𝑠22 . Trong đó 𝑠𝑖2 𝜎𝑖2 . 𝑠𝑖2 = 2 , ∀𝑖 = 1,2 𝜎𝑖 + 𝑛. 𝑠𝑖2 𝑛𝑖 𝑠𝑖2 𝑦 + 𝑚𝑖 𝜎𝑖2 𝑚𝑖 = , ∀𝑖 = 1,2 𝑛𝑖 𝑠𝑖2 + 𝜎𝑖2 Ví dụ 3.2: Tốc độ ánh sáng là đại lƣợng ngẫu nhiên có phân phối chuẩn với độ lệch chuẩn là 100, tốc độ trung bình chƣa biết. Một nhà vật lý thực hiện 2 lần thí nghiệm. Lần thử thứ nhất đo 20 lần có tốc độ ánh sáng trung bình 299909 và lần thử thứ hai đo 23 lần và có tốc độ ánh sáng trung bình là 299756. Giả sử tốc độ ánh sáng có phân phối tiên nghiệm chuẩn N(300000, 5002). Với mức ý nghĩa 5% nhà vật lý kết luận tốc độ trung bình ánh sáng của thí nghiệm lần đầu nhỏ hơn lần sau là đúng hay sai? Giải Đây là bài toán so sánh hai trung bình trƣờng hợp đã biết phƣơng sai và phƣơng sai bằng nhau Ta giải bài toán nhƣ sau. Gọi 𝜇1 và 𝜇2 lần lƣợt là tốc độ ánh sáng trung bình lần thứ nhất và thứ hai. 28 Ta có phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó 𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12 20.299909. 5002 + 300000. 1002 𝑚1 = = = 299909,98 𝑛1 𝑠12 + 𝜎12 20. 5002 + 1002 𝑠12 𝜎12 𝑠12 1002 . 5002 = = = 499 𝑛1 𝑠12 + 𝜎12 20. 5002 + 1002 Tƣơng tự, phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong đó 𝑚2 = 𝑠22 = 𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22 23.299756. 5002 + 300000. 1002 = = 299756,42 𝑛2 𝑠22 + 𝜎22 23. 5002 + 1002 𝜎22 𝑠22 1002 . 5002 = = 434,03 𝑛2 𝑠22 + 𝜎22 23. 5002 + 1002 Phân phối hậu nghiệm của 𝜇𝑑 có phân phối chuẩn 𝜇𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2 , trong đó 𝑚𝑑 = 𝑚1 − 𝑚2 = 299909,98 − 299756,42 = 152,76 𝑠𝑑2 = 𝑠12 + 𝑠22 = 499 + 434,03 = 933,03 Đặt: 𝜇𝑑 = 𝜇1 − 𝜇2  Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 > 0  Tính giá trị 𝑝𝑣 𝑝𝑣 = 0,5 − 𝜑 𝑚𝑑 = 0,5 − 𝜑 𝑠𝑑 152,76 933,03 ≈ 0,5 − 0,5 = 0  Do 𝑝𝑣 < 𝛼 = 0,05, nên ta bác bỏ giả thiết, chấp nhận đối thiết. Vậy tốc độ trung bình của ánh sáng lần đầu lớn hơn lần sau là đúng. b. So sánh cặp Đây là bài toán so sánh hai trung bình trong trƣờng hợp hai mẫu phụ thuộc và phối hợp từng cặp. Bài toán: Giả sử trên cùng những đối tƣợng ta quan sát một dấu hiệu X qua 2 giai đoạn và đƣợc số liệu cụ thể nhƣ sau Giai đoạn 1 𝑥1 𝑥2 … 𝑥𝑛 Giai đoạn 2 𝑦1 𝑦2 … 𝑦𝑛 Với độ tin cậy 1 − 𝛼 cho trƣớc ta kiểm tra dấu hiệu X qua 2 giai đoạn này có giống nhau hay không? Phƣơng pháp Đặt 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖 với 𝑑𝑖 có phân phối chuẩn 𝑑𝑖 ~𝑁(𝜇𝑑 , 𝜎𝑑2 ) và 𝜇𝑑 chƣa biết. Giả sử phân phối tiên nghiệm của 𝑑𝑖 là phân phối chuẩn 𝑑𝑖 ~𝑁(𝑚𝑑 , 𝑠𝑑2 ). Khi đó phân phối hậu nghiệm của 𝜇𝑑 cũng là phân phối chuẩn 𝜇𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2 , với 29 𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2 𝜎𝑑2 𝑠𝑑2 2 𝑚𝑑 = , 𝑠𝑑 = 2 𝑛 𝜎𝑑2 + 1 𝑠𝑑2 𝜎𝑑 + 𝑛𝑠𝑑2 Các bƣớc kiểm định sự khác hay giống nhau của dấu hiệu X qua hai giai đoạn đƣợc thực hiện nhƣ sau 𝜇𝑑 > 0  Chọn giả thiết: 𝐻: 𝜇𝑑 = 0 và một trong các đối thiết: 𝐻 : 𝜇𝑑 < 0 𝜇𝑑 ≠ 0  Tính giá trị 𝑝𝑣 Nếu chọn 𝐻 : 𝜇𝑑 > 0 thì: 𝑝𝑣 = 0.5 − 𝜑 𝑚𝑑 𝑠𝑑 𝑝𝑣 = 0.5 + 𝜑 𝑚𝑑 𝑠𝑑 𝑝𝑣 = 1 − 2 𝜑 𝑚𝑑 𝑠𝑑 Nếu chọn 𝐻 : 𝜇𝑑 < 0 thì Nếu chọn 𝐻 : 𝜇𝑑 ≠ 0 thì  Kết luận: Theo nguyên tắc chung của bài toán kiểm định. Chú ý: Khi phƣơng sai 𝜎𝑑2 chƣa biết thì ta thay thế bằng phƣơng sai mẫu điều chỉnh của d. Ví dụ 3.3: Để thử nghiệm một loại thuốc mới đến nhịp tim của một loài chuột, ngƣời ta đo nhịp tim của 9 con chuột trƣớc và sau ta đƣợc kết quả sau: Trƣớc 20 19 18 21 23 24 22 25 21 Sau 24 18 19 22 25 25 25 24 23 Giả sử phân phối tiên nghiệm của sự sai khác nhịp tim trƣớc và sau khi dùng thuốc là phân phối chuẩn 𝑁(2, 1.52 ). Với độ tin cậy 95% xác định xem loại thuốc mới này có làm tăng nhịp tim hay không? Giải Gọi X là nhịp tim của con chuột trƣớc khi dùng thuốc và Y là nhịp tim của con chuột sau khi dùng thuốc Giả sử d có phân phối tiên nghiệm chuẩn 𝑁(2, 1.52 ). Ta có 𝑑 = 𝑥 − 𝑦 30 X Y 𝑑 =𝑥−𝑦 20 24 -4 19 18 1 18 19 -1 21 22 -1 23 25 -2 24 25 -1 22 25 -3 25 24 1 21 23 -2 Trung bình và độ lệch chuẩn của d là 𝑑 = −1,33: 𝜎𝑑 = 1,66 Khi đó phân phối tiên nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 , 𝑠𝑑2 ) với 2 −1,33 𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2 1,52 + 9. 1,662 𝑚𝑑 = = = −0,931 9 1 𝑛 𝜎𝑑2 + 1 𝑠𝑑2 + 1,662 1,52 𝑠𝑑2 = 𝜎𝑑2 𝑠𝑑2 1,662 . 1,52 = = 0,269 𝜎𝑑2 + 𝑛𝑠𝑑2 1,662 + 9. 1,52 Ta giải bài toán kiểm định nhƣ sau  Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 < 0  Ta có 𝑃𝑣 = 0,5 + 𝜑 𝑚𝑑 𝑠𝑑2 = 0,5 − 𝜑 1,79 = 0,0367  𝑃𝑣 < 5% nên ta chấp nhận đối thiết Vậy thuốc mới đã làm tăng nhịp tim của con chuột. 3.3. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TỶ LỆ 3.3.1. Kiểm định một tỷ lệ Bài toán: Giả sử đại lƣợng ngẩu nhiên X có phân phối nhị thức với xác suất xảy ra biến cố cần quan tâm là p chƣa biết và p có phân phối tiền nghiệm biết trƣớc. Lấy một mẫu gồm n phần tử và ta có m phần tử mà ta quan tâm xảy ra. Với độ tin cậy 1 − 𝛼 cho trƣớc ta cần kiểm tra giả thiết và đối thiết sau 31 𝑝 > 𝑝0 Chọn giả thiết 𝐻: 𝑝 = 𝑝0 và một trong các đối thiết 𝐻 : 𝑝 < 𝑝0 𝑝 ≠ 𝑝0 Phƣơng pháp Gọi 𝑝 là xác suất hậu nghiệm của p. ta có hàm mật độ xác suất của 𝑝 là 𝑔(𝑝|𝑚). Việc kiểm tra giả thiết đƣợc thực hiện giống phƣơng pháp P-giá trị cần phƣơng pháp tần số với 𝑓 = 𝐸(𝑔 𝑝 𝑚 ) và độ lệch chuẩn 𝑠 = 𝑉𝑎𝑟(𝑔 𝑝 𝑚 ). Nếu chọn xác suất tiên nghiệm là 𝛽(𝑎, 𝑏) thì 𝑔(𝑝|𝑚) có hàm mật độ xác suất là 𝛽(𝑎 + 𝑚, 𝑏 + 𝑛 − 𝑚)~ 𝑁( 𝑎 𝑎+𝑏 𝑎𝑏 , 𝑎+𝑏 2 ) 𝑎+𝑏+1 Trong đó 𝑎 = 𝑎 + 𝑚, 𝑏 = 𝑏 + 𝑛 − 𝑚 𝑓𝐵 = 𝐸 𝑝 = 𝑠𝐵 = 𝑉𝑎𝑟 𝑝 = 𝑎 𝑎+𝑏 𝑎𝑏 𝑎+𝑏 2 𝑎+𝑏+1 Và giá trị 𝑃𝑣 đƣợc xác định nhƣ sau 𝑓𝐵 − 𝑝0 𝑠𝐵 𝑓𝐵 − 𝑝0 𝑃𝑣 = 0,5 + 𝜑 𝑠𝐵 𝑓𝐵 − 𝑝0 𝑃𝑣 = 1 − 2 𝜑 𝑠𝐵 𝑃𝑣 = 0,5 − 𝜑 Kết luận: Theo nguyên tắc chung của bài toán kiểm định Ví dụ 3.4: Kiểm tra 145 mẫu nƣớc máy ở một thành phố có 9 mẫu nƣớc không đạt yêu cầu. Giả sử phân phối tiên nghiệm của tỷ lệ p mẫu nƣớc máy không đạt yêu cầu là 𝛽(1,10). Tỷ lệ p trƣớc đây là 10%. Với mức ý nghĩa 1% ngƣời ta nói tỷ lệ p hiện tại khác với trƣớc đây thì đúng hay sai? Giải Ta có 𝑓𝛽 = 𝐸 𝑝 = 𝑠𝛽 = 𝑉𝑎𝑟 𝑝 = 𝑎 𝑎+𝑏 = 𝑎+𝑚 1+9 = = 0,064 𝑎 + 𝑚 + 𝑛 + 𝑏 − 𝑚 1 + 145 + 10 𝑎𝑏 𝑎+𝑏 2 𝑎+𝑏+1 = 32 10.154 = 0,019 10 + 154 2 10 + 154 + 1 Chọn: 𝐻: 𝑝 = 10% 𝑣à 𝐻: 𝑝 ≠ 10% Tính 𝑃𝑣 𝑃𝑣 = 1 − 2 𝜑 𝑓𝛽 − 𝑝0 𝑠𝛽 =1−2 𝜑 0,064 − 0,1 0,019 = 1 − 2𝜑 1,89 = 1 − 2.04706 = 0,0588 Do 𝑃𝑣 > 𝛼 = 1% nên ta chấp nhận H Vậy không có cơ sở kết luận tỷ lệ p khác so với trƣớc. 3.3.2. So sánh hai tỷ lệ Bài toán: Giả sử hai tổng thể 𝑤1 và 𝑤2 có tỷ lệ những phần tử có tính chất A nào đó chƣa biết. Gọi 𝑝1 , 𝑝2 là tỷ lệ những phần tử có tính chất A của 𝑤1 và 𝑤2 . Chọn một mẫu gồm 𝑛1 phần tử từ 𝑤1 ta có 𝑚1 và 𝑛2 phần tử từ 𝑤2 ta có 𝑚2 phần tử có tính chất A. Giả sử 𝑝1 có phân phối tiên nghiệm 𝛽(𝑎1 , 𝑏1 ) và 𝑝2 có phân phối tiên nghiệm 𝛽(𝑎2 , 𝑏2 ), với độ tin cậy 1 − 𝛼 cho trƣớc ta cần giải quyết bài toán ƣớc lƣợng trung bình sự khác nhau của 2 tỷ lệ 𝑝𝑑 = 𝑝1 − 𝑝2 . Kiểm tra giả thiết một phía và hai phía với 𝑝𝑑 . Phƣơng pháp giải bài toán Giả sử hai phân phối trên độc lập, khi đó hai phân phối hậu nghiệm của 𝑝1 và 𝑝1 cũng là Beta: 𝑝1 ~𝛽 𝑎1 , 𝑏1 , 𝑝2 ~𝛽(𝑎2 , 𝑏2 ) độc lập, trong đó 𝑎1 = 𝑎1 + 𝑚1 , 𝑏1 = 𝑏1 + 𝑛1 − 𝑚1 𝑎2 = 𝑎2 + 𝑚2 , 𝑏2 = 𝑏2 + 𝑛2 − 𝑚2 Ta có phân phối Beta xấp xỉ phân phối chuẩn, do đó phân phối hậu nghiệm của 𝑝𝑑 = 𝑝1 − 𝑝2 cũng có phân phối chuẩn 𝑁(𝑚𝑑 , 𝑠𝑑2 ) trong đó 𝑎1 𝑎2 𝑚𝑑 = − 𝑎1 + 𝑏1 𝑎2 + 𝑏2 𝑠𝑑2 = 𝑎1 𝑏1 𝑎1 + 𝑏1 2 𝑎1 + 𝑏1 + 1 + 𝑎2 𝑏2 𝑎2 + 𝑏2 2 𝑎2 + 𝑏2 + 1 Để kiểm tra giả thiết với độ tin cậy 1 − 𝛼 ta thực hiện nhƣ sau 𝑝𝑑 > 0  Chọn giả thiết 𝐻: 𝑝𝑑 = 0 và đối thiết 𝐻 : 𝑝𝑑 < 0 𝑝𝑑 ≠ 0  Giá trị 𝑃𝑣 đƣợc xác định tƣơng ứng nhƣ sau 33 𝑚𝑑 𝑠𝑑 𝑚𝑑 𝑃𝑣 = 0.5 + 𝜑 𝑠𝑑 𝑚𝑑 𝑃𝑣 = 1 − 2 𝜑 𝑠𝑑 𝑃𝑣 = 0.5 − 𝜑  Kết luận: Theo nguyên tắc chung của bài toán kiểm định Ví dụ 3.5: So sánh tỷ lệ phế phẩm cùng một loại sản phẩm do hai nhà máy sản xuất ta chọn hai mẫu. Mẫu thứ nhất gồm 314 sản phẩm do nhà máy thứ nhất sản xuất có 69 phế phẩm. Mẫu thứ hai gồm 225 sản phẩm do nhà máy hai sản xuất có 57 phế phẩm. Với độ tin cậy 95% hãy kiểm tra giả thiết tỷ lệ phế phẩm ở nhà máy thứ nhất có bằng tỷ lệ phế phẩm ở nhà máy thứ hai không?. Sử dụng phân phối tiên nghiệm 𝛽(2,3) cho nhà nhà máy thứ nhất và 𝛽(3,4) cho nhà máy thứ hai. Giải Gọi 𝑝1 là tỷ lệ phế phẩm của nhà máy thứ nhất, 𝑝2 là tỷ lệ phế phẩm của nhà máy thứ hai Ta có: 𝑝𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2 với: 𝑚𝑑 = 𝑠𝑑2 = 𝑎1 𝑎1 + 𝑏1 𝑎1 𝑏1 2 𝑎1 + 𝑏1 − 𝑎2 𝑎2 + 𝑏2 𝑎2 𝑏2 + 𝑎1 + 𝑏1 + 1 𝑎2 + 𝑏2 2 𝑎2 + 𝑏2 + 1 Mà 𝑎1 = 𝑎1 + 𝑚1 = 2 + 69 = 71 𝑏1 = 𝑛1 + 𝑏1 − 𝑚1 = 314 + 3 − 69 = 248 𝑎2 = 𝑎2 + 𝑚2 = 3 + 57 = 60 𝑏2 = 𝑛2 + 𝑏2 − 𝑚2 = 225 + 4 − 57 = 172 Khi đó 𝑚𝑑 = 𝑠𝑑2 = = 𝑎1 𝑎1 + 𝑏1 − 𝑎2 𝑎2 + 𝑏2 = 71 60 − = −0,036 71 + 248 60 + 172 𝑎1 𝑏1 𝑎1 + 𝑏1 2 𝑎1 + 𝑏1 + 1 + 𝑎2 𝑏2 𝑎2 + 𝑏2 2 𝑎2 + 𝑏2 + 1 71.248 60.172 + = 0,00136 71 + 248 2 71 + 248 + 1 60 + 172 2 60 + 172 + 1 34  Chọn 𝐻: 𝑝𝑑 = 0 𝑣à 𝐻: 𝑝𝑑 ≠ 0  Tính giá trị 𝑃𝑣 𝑃𝑣 = 1 − 2 𝜑 𝑚𝑑 𝑠𝑑 =1−2 𝜑 −0,036 0,00136 = 1 − 2. 𝜑 0,98 = 1 − 2.0,3365 = 0,327  Do 𝑝𝑣 > 5% ta chấp nhận giả thiết. Vậy tỷ lệ phế phẩm của hai nhà máy là khác nhau. 35 CHƢƠNG 4: BÀI TẬP ÁP DỤNG Trong chƣơng này sẽ trình bài một số bài tập có liên quan đến những vấn đề lý thuyết đã đƣợc trình bày trong ba chƣơng trƣớc đó. Bài 1: Nhƣ ta đã biết thì tỷ lệ phát hiện vũ khí ở trên ngƣời hay trong hành lý xách tay của các hành khách tại các sân bay phải cực kỳ cao. Ở một thành phố, sân bay 𝐴1 xử lý 50% trong toàn bộ vận tải hàng không, trong khi các sân bay 𝐴2 và 𝐴3 xử lý đƣợc lần lƣợt là 30% và 20%. Tỷ lệ phát hiện vũ khí tại sân bay 𝐴1 là 99%, 𝐴2 là 95% và 𝐴3 là 80%. Nếu một hành khách bị phát hiện mang vũ khí qua cổng máy bay, thì xác suất hành khách này ở sân bay 𝐴1 là bao nhiêu và ở sân bay 𝐴3 là bao nhiêu. Giải Gọi: 𝐴𝑖 , (𝑖 = 1,2,3) là hệ biến cố hành khách này mang vũ khí qua cổng các sân bay và G là biến cố hành khách mang vũ khí. Khi đó hệ 𝐴1 , 𝐴2 , 𝐴3 là một hệ biến cố đầy đủ và 𝑃 𝐴1 = 0,5, 𝑃 𝐴2 = 0,3 và 𝑃 𝐴3 = 0,2 Theo công thức xác suất toàn phần, xác suất phát hiện hành khách mang vũ khí qua cổng sân bay là 𝑃 𝐺 = 𝑃 𝐴1 . 𝑃 𝐺|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐺|𝐴2 + 𝑃 𝐴3 . 𝑃 𝐺|𝐴3 = 0,5.0,99 + 0,3.0,95 + 0,2.0,8 = 0,94 Theo công thức Bayes, xác suất hành khách mang vũ khí ở sân bay thứ nhất là 𝑃 𝐴1 |𝐺 = 𝑃 𝐴1 . 𝑃 𝐺|𝐴1 0,495 = = 0,527 𝑃(𝐺) 0,94 Xác suất hành khách mang vũ khí ở sân bay thứ 3 là 𝑃 𝐴3 |𝐺 = 𝑃 𝐴3 . 𝑃 𝐺|𝐴3 0,16 = = 0,170 𝑃(𝐺) 0,94 Vậy khi hành khách mang vũ khí, xác suất để hành khách này này ở sân bay 𝐴1 , 𝐴3 lần lƣợt là 52,7% và 17%. Bài 2: Hộp thuốc thứ nhất có 5 chai thuốc tốt và 4 chai thuốc hỏng. Hộp thuốc thứ hai có 6 chai thuốc tốt và 3 chai thuốc hỏng. Lấy ngẫu nhiên một hộp, rồi từ hộp đó lấy ngẫu nhiên ra 2 chai thuốc. a. Tìm xác suất lấy đƣợc hai chai thuốc tốt? b. Tìm xác suất lấy đƣợc một chai thuốc tốt và một chai thuốc hỏng? c. Giả sử lấy đƣợc một chai thuốc tốt và một chai thuốc hỏng. Tìm xác suất đó là thuốc của hộp thứ nhất? 36 Giải a. Gọi 𝐴𝑖 , (𝑖 = 1,2) là hệ biến cố chọn đƣợc hộp thứ i và B là biến cố chọn đƣợc 2 chai thuốc tốt. Khi đó hệ 𝐴1 , 𝐴2 là hệ biến cố đầy đủ và 𝑃 𝐴1 = 𝑃 𝐴2 = 0,5 Xác suất chọn đƣợc 2 chai thuốc tốt trong hộp thứ nhất là 𝑃 𝐵|𝐴1 = Xác suất chọn đƣợc 2 chai thuốc tốt trong hộp thứ hai là 𝑃 𝐵|𝐴2 = 𝐶52 𝐶62 𝐶92 𝐶92 Theo công thức xác suất toàn phần, ta có xác suất chọn đƣợc 2 chai thuốc tốt là 𝑃 𝐵 = 𝑃 𝐴1 . 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐵|𝐴2 1 5 1 5 25 = . + . = 2 18 2 12 72 b. Gọi G là biến cố lấy đƣợc 1 chai thuốc tốt và 1 chai thuốc hỏng Ta có 𝑃 𝐺|𝐴1 𝐶51 . 𝐶41 5.4 5 = = 2 = 𝐶9 72 18 𝑃 𝐺|𝐴2 𝐶61 . 𝐶31 6.3 1 = = = 𝐶92 72 4 𝑃 𝐺 = 𝑃 𝐴1 . 𝑃 𝐺|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐺|𝐴2 1 5 1 1 19 = . + . = 2 18 2 4 72 c. Xác suất lấy đƣợc 1 chai thuốc tốt và 1 chai thuốc hỏng ở trong hộp thứ nhất là 𝑃 𝐴1 . 𝑃 𝐺|𝐴1 5/36 10 𝑃 𝐴1 |𝐺 = = = 𝑃 𝐺 19/72 19 Bài 3: Một nhà máy có 3 phân xƣởng cùng sản xuất một loại sản phẩm. Phân xƣởng 1 sản xuất đƣợc 20%, phân xƣởng 2 sản xuất đƣợc 30% và phân xƣởng 3 sản xuất đƣợc 50% tổng số sản phẩm của toàn nhà máy. Tỷ lệ phế phẩm sinh ra của phân xƣởng 1, phân xƣởng 2 và phân xƣởng 3 lần lƣợt là 2%, 3% và 7%. Lấy ngẫu nhiên một sản phẩm từ lô hàng do nhà máy sản xuất. a. Tìm xác suất để lấy đƣợc phế phẩm? b. Giả sử lấy đƣợc một sản phẩm tốt, theo bạn thì sản phẩm này có khả năng cao nhất là do phân xƣởng nào sản xuất? Giải a. Lấy ngẫu nhiên một sản phẩm. Gọi 𝐴𝑖 , (𝑖 = 1,2,3) là biến cố sản phẩm này do nhà máy thứ i sản xuất và gọi B là biến cố chọn đƣợc phế phẩm. 37 Khi đó hệ 𝐴1 , 𝐴2 , 𝐴3 là hệ biến cố đầy đủ Theo công thức xác suất toàn phần, xác suất lấy đƣợc phế phẩm là 𝑃 𝐵 = 𝑃 𝐴1 . 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐵|𝐴2 + 𝑃 𝐴3 . 𝑃 𝐵|𝐴3 = 0,2.0,02 + 0,3.0,03 + 0,5.0,07 = 0,048 b. Xác suất lấy đƣợc sản phẩm tốt là 𝑃 𝐵 = 1 − 𝑃 𝐵 = 1 − 0,048 = 0,952 Xác suất để sản phẩm tốt này thuộc từng phân xƣởng là 𝑃 𝐴1 |𝐵 = 𝑃 𝐴2 |𝐵 = 𝑃 𝐴3 |𝐵 = 𝑃 𝐴1 . 𝑃(𝐵 |𝐴1 ) 𝑃(𝐵 ) = 0,2.0,02 = 0,1932 0,952 𝑃 𝐴2 . 𝑃(𝐵 |𝐴2 ) 0,3.0,03 = = 0,3057 0,952 𝑃(𝐵 ) 𝑃 𝐴3 . 𝑃(𝐵 |𝐴3 ) 𝑃(𝐵 ) = 0,5.0,07 = 0,4884 0,952 Từ kết quả trên, ta kết luận rằng sản phẩm tốt do phân xƣởng thứ 3 sản xuất có khả năng cao nhất. Bài 4: Một phân xƣởng có 50 công nhân, trong đó có 30 công nhân nữ và 20 công nhân nam. Tỷ lệ tốt nghiệp của công nhân nữ và nam lần lƣợt là 10% và 20%. Gặp ngẫu nhiên một công nhân của phân xƣởng. a. Tính xác suất đó là công nhân đã tốt nghiệp. b. Gặp ngẫu nhiên công nhân nữ tính xác suất để ngƣời đó tốt nghiệp. Giải a. Gọi 𝐴1 là biến cố gặp đƣợc công nhân nữ, 𝐴2 là biến cố gặp đƣợc công nhân nam, 𝐵 là biến cố gặp công nhân tốt nghiệp 𝑃 𝐵 = 𝑃 𝐴1 . 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐵|𝐴2 30 20 = . 0,1 + . 0,2 = 0,14 50 50 b. Xác suất gặp công nhân nữ tốt nghiệp là: 𝑃 𝐴1 |𝐵 = 𝑃 𝐴1 . 𝑃 𝐵|𝐴1 0,06 = = 0,43 𝑃 𝐵 0,14 Bài 5: Dây chuyền lắp ráp nhận đƣợc các chi tiết do hai nhà máy sản xuất. Trung bình máy thứ nhất cung cấp 60% chi tiết, máy thứ hai cung cấp 40% chi tiết. Khoảng 90% chi tiết do nhà máy thứ nhất sản xuất đạt tiêu chuẩn và 85% chi tiết đạt tiêu chuẩn do nhà máy thứ hai sản xuất. Lấy ngẫu nhiên từ dây chuyền một chi tiết và thấy nó đạt tiêu chuẩn. Tìm xác suất đó là chi tiết do nhà máy một sản xuất. Giải 38 Gọi A là biến cố lấy đƣợc chi tiết máy đạt tiêu chuẩn 𝑁1 , 𝑁2 lần lƣợt là các chi tiết máy thuộc máy thứ nhất và thứ hai Theo công thức bayes, xác suất lấy đƣợc chi tiết đạt tiêu chuẩn do nhà máy thứ nhất sản xuất là 𝑃 𝑁1 |𝐴 = 𝑃 𝑁1 . 𝑃 𝐴|𝑁1 0,6.0,9 = = 0,61 𝑃 𝑁1 . 𝑃 𝐴|𝑁1 + 𝑃 𝑁2 . 𝑃 𝐴|𝑁2 0,6.0,9 + 0,4.0,85 Bài 6: Một hộp có 9 trái banh có thể có màu đỏ và màu xanh với số lƣợng mỗi loại chƣa xác định và có xác suất mỗi trƣờng hợp bằng nhau. Gọi X là số lƣợng bi màu đỏ trong hộp. a) Chọn ngẫu nhiên 1 bi của hộp, goi Y là đại lƣợng ngẫu nhiên sao cho Y=1 nếu chọn đƣợc bi màu đỏ và Y=0 nếu chọn đƣợc bi màu xanh. Lập bảng phân phối xác suất hậu nghiệm của X khi Y=0 và Y=1. b) Giả sử chọn lần đầu đƣợc bi màu đỏ, chọn tiếp 1 bi nữa đƣợc bi màu xanh. Lập bảng phân phối xác suất hậu nghiệm của X. Giải a) Do số lƣợng mỗi loại trái banh chƣa xác định và có xác suất bằng nhau 1 𝑃 𝑋𝑖 = 𝑖 = 0,9 10 Ta có 𝑃 𝑌 = 1 𝑋 = 𝑥𝑖 = 𝑖 9 và 𝑃 𝑌 = 0 𝑋 = 𝑥𝑖 = 9 − 𝑖 9 Ta có bảng tính sau 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 1|𝑋 = 𝑥𝑖 ) (1).(2) 𝑃(𝑋 = 𝑥𝑖 |𝑌 = 1) (1) (2) 0 0,1 0 0 0 1 0,1 1/9 1/90 0,022 2 0,1 2/9 2/90 0,044 3 0,1 3/9 3/90 0,067 4 0,1 4/9 4/90 0,089 5 0,1 5/9 5/90 0,111 6 0,1 6/9 6/90 0,133 7 0,1 7/9 7/90 0,156 8 0,1 8/9 8/90 0,178 9 0,1 1 9/90 0,2 1/2 1  39 Vậy bảng phân phối xác suất hậu nghiệm của X với 𝑌 = 1 là 𝑋 0 𝑃 0 1 2 3 4 5 6 7 8 0,023 0,044 0,067 0,089 0,111 0,133 0,156 0,178 9 0,2 Tƣơng tự ta có bảng tính nhƣ sau 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 0|𝑋 = 𝑥𝑖 ) (1).(2) 𝑃(𝑋 = 𝑥𝑖 |𝑌 = 0) (1) (2) 0 0,1 1 0,1 0,2 1 0,1 8/9 8/90 0,178 2 0,1 7/9 7/90 0,156 3 0,1 6/9 6/90 0,133 4 0,1 5/9 5/90 0,111 5 0,1 4/9 4/90 0,089 6 0,1 3/9 3/90 0,067 7 0,1 2/9 2/90 0,044 8 0,1 1/9 1/90 0,023 9 0,1 0 0 0 5/9 1  Vậy bảng phân phối xác suất hậu nghiệm của X với 𝑌 = 0 là 𝑋 0 𝑃 0,2 1 2 3 4 5 6 7 8 0,178 0,156 0,133 0,111 0,089 0,067 0,044 0,023 40 9 0 b) Ta lập đƣợc bảng tính sau 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 1|𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 0|𝑋 = 𝑥𝑖 , 𝑌 = 1) (1.2.3) (1) (2) (3) 0 1/10 0 0 0 0 1 1/10 1/9 1/8 1/720 0,005 2 1/10 2/9 2/8 4/720 0,019 3 1/10 3/9 3/8 9/720 0,044 4 1/10 4/9 4/8 16/720 0,078 5 1/10 5/9 5/8 25/720 0,123 6 1/10 6/9 6/8 36/720 0,176 7 1/10 7/9 7/8 49/720 0,241 8 1/10 8/9 8/8 64/720 0,314 9 1/10 1 0 0 0 17/60 1  𝑃(𝑋 = 𝑥𝑖 |𝑌 = 1, 𝑌 = 0) Vậy bảng phân phối xác suất hậu nghiệm của X là 𝑋 0 𝑃 0 1 2 3 4 5 6 7 8 0,005 0,019 0,044 0,078 0,123 0,176 0,241 0,314 9 0 Bài 7: Một kho hàng có tỷ lệ phế phẩm chƣa đƣợc xác định, có 3 ý kiến khác nhau về tỷ lệ đó là 10%, 20% và 30% với xác suất nhƣ nhau. Chọn ngẫu nhiên 5 sản phẩm kiểm tra phát hiện có 2 phế phẩm. Tỷ lệ phế phẩm của kho hàng có khả năng cao nhất là bao nhiêu? Giải Tỷ lệ phế phẩm của nhà máy lần lƣợt là 𝑝1 = 0,1, 𝑝2 = 0,2 𝑣à 𝑝3 = 0,3 với các mức xác suất nhƣ nhau nên 𝑃 𝑝 = 𝑝𝑖 = 1 3 𝑣ớ𝑖 𝑖 = 1,2,3. Ta có bảng tính sau 𝑝𝑖 𝑃(𝑝 = 𝑝𝑖 ) 𝑃(𝑌 = 2|𝑝 = 𝑝𝑖 ) (1) (2) (1)(2) 𝑃(𝑝 = 𝑝𝑖 |𝑌 = 2) 0,1 1/3 𝐶52 0,1 2 1 − 0,1 3 = 0,146 0,049 0,125 0,2 1/3 𝐶52 0,2 2 1 − 0,2 3 = 0,409 0,136 0,348 0,3 1/3 𝐶52 0,3 2 1 − 0,3 3 = 0,617 0,206 0,526 41  0,391 1,000 Từ bảng trên ta có tỷ lệ phế phẩm của lô hàng là 30% với xác xuất là 60,5%. Bài 8: Tỷ lệ phế phẩm của một nhà máy là p chƣa biết a) Giả sử p có có thể nhận giá trị là 0.2, 0.4 và 0.6 với xác suất lần lƣợt là 0.25, 0.4 và 0.35 chọn ngẫu nhiên 1 sản phẩm của nhà máy thấy đó là phế phẩm, chọn tiếp 2 sản phẩm của nhà máy ta đƣợc 1 phế phẩm. Hỏi tỷ lệ p nào có khả năng xảy ra nhiều nhất? b) Giả sử p có phân phối tiên nghiệm 𝛽(2,2). Chọn ngẫu nhiên 15 sản phẩm của nhà máy ta đƣợc 5 phế phẩm. Tìm giá trị trung bình của p? Giải a) Trong 3 sản phẩm chọn ra có 2 phế phẩm Do đó, ta có bảng tính sau 𝑝𝑖 𝑃(𝑝 = 𝑝𝑖 ) 𝑃(𝑌 = 2|𝑝 = 𝑝𝑖 ) (1) (2) (1)(2) 𝑃(𝑝 = 𝑝𝑖 |𝑌 = 2) 0,2 0,25 𝐶32 0,2 2 1 − 0,2 = 0,19 0,047 0,08 0,4 0,4 𝐶32 0,4 2 1 − 0,4 = 0,58 0,232 0,4 0,6 0,35 𝐶32 0,6 2 1 − 0,6 = 0,86 0,301 0,52 0,58 1,000  Vậy tỷ 𝑙ệ 𝑝 = 0.6 là có nhiều khả năng xảy ra nhất với xác suất là 52%. b) p có phân phối hậu nghiệm 𝛽(2,2) nên phân phối xác suất hậu nghiệm của p 𝑎 =𝑚+𝑎 =5+2=7 là: 𝛽(𝑎, 𝑏) với 𝑏 = 𝑛 + 𝑏 − 𝑚 = 15 + 2 − 5 = 12 Giá trị trung bình của p là: 𝐸 𝑝𝑦 = 𝑎 𝑎+𝑏 = 7 = 0,3 7 + 12 Bài 9: Trọng lƣợng của một trái cây là đại lƣợng ngẫu nhiên có phân phối chuẩn với trung bình 𝜇 chƣa biết, độ lệch chuẩn 𝜎 = 80. Giả sử 𝜇 có phân phối tiên nghiệm chuẩn 𝑁(325, 802 ). Chọn một mẫu 25 trái ta có số liệu: 42 514 536 345 440 427 443 386 418 364 483 506 385 410 561 275 306 294 402 350 343 480 334 324 414 296 a) Hãy ƣớc lƣợng trọng lƣợng trung bình của một trái cây với độ tin cậy 95%. b) Cho rằng trọng lƣợng trung bình của cây là 450 thì có đúng với mức ý nghĩa 5% hay không? Giải a) Ta có trọng lƣợng trung bình của một trái cây có phân phối hậu nghiệm là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) Trong đó các tham số đƣợc tính nhƣ sau 25.401,44 𝑚 2 + 𝑛𝑥 2 325 𝑠 𝜎 802 + 802 𝑚= = = 398,52 𝑛 2+1 2 25 1 + 𝜎 𝑠 802 802 𝜎2 𝑠2 802 . 802 𝑠 = 2 = = 246,15 𝜎 + 𝑛𝑠 2 802 + 25. 802 2 Ta có 𝑚 − 𝑢𝛾 . 𝑠 = 398,52 − 1,96. 246,15 = 367,77 𝑚 + 𝑢𝛾 . 𝑠 = 398,52 + 1,96. 246,15 = 429,27 Vậy ƣớc lƣợng trọng lƣợng trung bình của một trái cây là khoảng 367,77: 429,27 b) Ta có phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑋~𝑁(𝑚, 𝑠 2 ) Gọi 𝜇 là trung bình trọng lƣợng của một trái cây  Chọn giả thiết 𝐻: 𝜇 = 450 và đối thiết 𝐻: 𝜇 ≠ 450 𝑚 − 𝜇0  𝑃𝑣 = 1 − 2 𝜑 𝑠 = 1 − 2 𝜑 3,2 = 0,0014  Do 𝑃𝑣 < 𝛼 = 0,05 nên ta bác bỏ giả thiết Vậy trọng lƣợng của trái cây là khác với trọng lƣợng 450g mà giả thiết đã đƣa ra với mức ý nghĩa 5%. Bài 10: Chiều dài của một chi tiết máy là đại lƣợng ngẫu nhên có phân phối chuẩn 𝑁(𝜇, 𝜎 2 ) với 𝜎 = 40𝑐𝑚 và 𝜇 chƣa biết. Chọn một mẫu gồm 4 ngƣời ta có số liệu: 940, 1040, 910, 990. Giả sử 𝜇 có phân phối tiên nghiệm chuẩn 𝑁(1000, 2002 ). a) Với độ tin cậy 95% hãy ƣớc lƣợng chiều dài của một chi tiết máy. b) Một ý kiến cho rằng chiều dài của chi tiết máy là 950cm thì có đúng hay không với mức ý nghĩa 5%. Giải 43 a) Chiều dài của một chi tiết máy có phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) khi đó các tham số đƣợc tính nhƣ sau 𝑚 𝑚= 𝑠2 𝑛 + 𝑛𝑥 𝜎2 +1 1000 𝜎2 = 4 𝑠2 2002 402 + 4.970 +1 402 = 970,3 2002 𝜎2 𝑠2 402 . 2002 𝑠 = 2 = = 396,04 𝜎 + 𝑛𝑠 2 402 + 4. 2002 2 Ta có 𝑚 − 𝑢1−𝛼 2 . 𝑠 = 970,3 − 1,96 396,04 = 931,3 𝑚 + 𝑢1−𝛼 2 . 𝑠 = 970,3 + 1,96 396,04 = 1009,3 Vậy chiều dài của một chi tiết máy là khoảng 931,3: 1009,3 b) Ta có phân phối hậu ghiệm của 𝜇 là phân phối chuẩn 𝑋~𝑁(𝑚, 𝑠 2 ) Trong đó 𝑚 𝑚= 𝑛 𝑠2 + 𝜎2 𝑛𝑥 +1 1000 𝜎2 = 𝑠2 4 2002 + 402 4.970 +1 402 = 970,3 2002 𝜎2 𝑠2 402 . 2002 𝑠 = 2 = = 396,04 𝜎 + 𝑛𝑠 2 402 + 4. 2002 Gọi 𝜇 là trung bình trọng lƣợng của một trái cây 2  Chọn giả thiết 𝐻: 𝜇 = 950 và đối thiết 𝐻: 𝜇 ≠ 950 𝑚 − 𝜇0  𝑃𝑣 = 1 − 2 𝜑 𝑠 = 1 − 2 𝜑 1.02 = 0,307  Do 𝑃𝑣 > 𝛼 = 0,05 nên ta chấp nhận giả thiết Kết luận, vậy ý kiến cho rằng chiều dài của chi tiết máy là 950cm là đúng Bài 11: Đo một chỉ tiêu của nƣớc ở đầu sông và cuối sông ta có số liệu sau: Số đo của chỉ tiêu đầu sông 𝑋1 8,8 Số đo của chỉ tiêu cuối sông 𝑋2 9,2 9,6 9,5 8,9 10,2 44 9,2 9,5 9,9 9,8 9,4 9,5 9,2 9,3 10,1 9,2 Giả sử d phân phối tiên nghiệm của 𝑋1 ~𝑁(10; 1,44) và 𝑋2 ~𝑁(9,5; 1). Với độ tin cậy 95% cho rằng chỉ tiêu đang quan tâm của nƣớc ở cuối và đầu dòng sông là nhƣ nhau không? Giải Ta có 𝑑 = 𝑋1 − 𝑋2 nên d phân phối tiên nghiệm chuẩn 𝑑~𝑁(0,5; 2,44) 𝑋1 𝑋2 𝑑 = 𝑋1 − 𝑋2 8,8 9,2 -0,4 9,6 9,5 0,1 8,9 10,2 -1,3 9,2 9,5 -0,3 9,9 9,8 0,1 9,4 9,5 -0,1 9,2 9,3 -0,1 10,1 9,2 0,9 Trung bình và độ lệch chuẩn của d là 𝑑 = −0,112, 𝜎𝑑 = 0,628 Khi đó phân phối tiên nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 , 𝑠𝑑2 ) với 0,5 −0,112 𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2 2,442 + 8. 0,6282 𝑚𝑑 = = = −0,107 8 1 𝑛 𝜎𝑑2 + 1 𝑠𝑑2 + 0,6282 2,442 𝑠𝑑2 𝜎𝑑2 𝑠𝑑2 0,6282 . 2,442 = 2 = = 0,049 𝜎𝑑 + 𝑛𝑠𝑑2 0,6282 + 8. 2,442 45 Ta thực hiện kiểm định nhƣ sau  Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 ≠ 0  𝑃𝑣 = 1 − 2 𝜑 𝑚𝑑 𝑠𝑑2 = 0,5 − 2. 𝜑 0,48 = 0,63  𝑃𝑣 > 5% nên ta bác bỏ đối thiết Vậy nƣớc ở hai đầu sông giống nhƣ nhau. Bài 12: Để kiểm tra một quy trình mới chăn nuôi bò sữa, ngƣời ta thí nghiệm trên 15 cặp bò đƣợc chia thành 2 nhóm. Nhóm 1 nuôi theo phƣơng pháp cũ, nhóm 2 nuôi theo phƣơng pháp mới. Kết quả lƣợng sữa đƣợc cho bởi bảng sau. Giả sử d có phân phối tiên nghiệm chuẩn 𝑁(0, 2002 ) với độ tin cậy 95% có thể khẳng định nuôi theo phƣơng pháp mới không có hiệu quả đƣợc không? Cặp bò Lƣợng sữa nuôi theo phƣơng pháp 1 (x) Lƣợng sữa nuôi theo phƣơng pháp mới (y) 1 3525 3340 2 4321 4279 3 4763 4910 4 4899 4866 5 3234 3125 6 3469 3680 7 3439 3965 8 3658 3849 9 3385 3297 10 3226 3124 11 3671 3218 12 3501 3246 13 3842 4245 14 3998 4186 46 15 4004 3711 Giải Đặt 𝑑 = 𝑥 − 𝑦 ta có Cặp bò Lƣợng sữa nuôi theo phƣơng pháp 1 (x) Lƣợng sữa nuôi theo phƣơng pháp mới (y) 𝑑 =𝑥−𝑦 1 3525 3340 185 2 4321 4279 42 3 4763 4910 -147 4 4899 4866 33 5 3234 3125 109 6 3469 3680 -211 7 3439 3965 -526 8 3658 3849 -191 9 3385 3297 88 10 3226 3124 102 11 3671 3218 453 12 3501 3246 255 13 3842 4245 -403 14 3998 4186 -188 15 4004 3711 293 Trung bình và độ lệch chuẩn của d là 𝑑 = −7,067, 𝜎𝑑 = 267,192 Khi đó phân phối tiên nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 , 𝑠𝑑2 ) với 𝑚𝑑 = 𝑚𝑑 𝑠𝑑2 𝑛 𝜎𝑑2 𝑠𝑑2 = Bài toán kiểm định + 𝑛𝑑 𝜎𝑑2 + 1 𝑠𝑑2 0 −7,067 + 15. 2 200 267,1922 = = −6,316 15 1 + 267,1922 2002 𝜎𝑑2 𝑠𝑑2 267,1922 . 2002 = = 4253,349 𝜎𝑑2 + 𝑛𝑠𝑑2 267,1922 + 15. 2002 47  Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 > 0  𝑃𝑣 = 0,5 − 𝜑 𝑚𝑑 𝑠𝑑2 = 0,5 − 𝜑 −6,316 4253,349 = 0,463  𝑃𝑣 > 5% nên ta chấp nhận giả thiết Vậy phƣơng pháp mới chƣa có hiệu quả là đúng. Bài 13: Kiểm tra trình độ học hết trung học cơ sỡ của những ngƣời phụ nữ ở hai khu vực I và II ta có số liệu sau: Khu vực I: Chọn 125 phụ nữ có 70 ngƣời đã học hết trung học cơ sở. Khu vực II: Chọn 100 phụ nữ có 60 ngƣời đã học hết trung học cơ sỡ. Gọi p1, p2 lần lƣợt là tỷ lệ phụ nữ học hết trung học cơ sỡ ở khu vực I và khu vực II. a. Sử dụng phân phối tiền nghiệm đều cho p1 và p2, với độ tin cậy 95%. Hãy ƣớc lƣợng khoảng cho p1-p2. b. Hãy kiểm tra giả thiết, tỷ lệ học hết trung học cơ sỡ của hai khu vực I và II là nhƣ nhau là đúng hay sai với mức ý nghĩa 1%. Giải a. p1 và p2 có phân phối tiên nghiệm đều nên hàm mật độ xác suất hậu nghiệm của nó là Beta: 𝑝1 ~𝛽(𝑎1 , 𝑏1 ) và : 𝑝2 ~𝛽(𝑎2 , 𝑏2 ), trong đó 𝑎1 = 𝑚1 + 1, 𝑏1 = 𝑛1 − 𝑚1 + 1 𝑎 = 71, 𝑏1 = 56 ⇒ 1 𝑎2 = 𝑚2 + 1, 𝑏2 = 𝑛2 − 𝑚2 + 1 𝑎2 = 61, 𝑏2 = 41 Khi đó, đặt 𝑝𝑑 = 𝑝1 − 𝑝2 𝑎1 𝑎2 71 61 𝑚𝑑 = − = − = −0,039 𝑎1 + 𝑏1 𝑎2 + 𝑏2 71 + 56 61 + 41 𝑠𝑑2 = = 𝑎1 𝑏1 𝑎1 + 𝑏1 2 𝑎1 + 𝑏1 + 1 + 𝑎2 𝑏2 𝑎2 + 𝑏2 2 𝑎2 + 𝑏2 + 1 71.56 61.41 + = 0,00426 71 + 56 2 71 + 56 + 1 61 + 41 2 61 + 41 + 1 Với độ tin cậy 95% ta có khoảng ƣớc lƣợng là 𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 , 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑 = −0,167; 0,089 b. Thực hiện kiểm định nhƣ sau  Chọn 𝐻: 𝑝𝑑 = 0 và 𝐻 : 𝑝𝑑 ≠ 0 𝑚𝑑  𝑃𝑣 = 1 − 2 𝜑 𝑠𝑑 −0,039 =1−2 𝜑 = 1 − 2. 𝜑 0,59 = 0,56 0,00426 48  Vì 𝑃𝑣 > 1% nên ta chấp nhận giả thiết. Vậy tỷ lệ học hêt trung học ở phụ nữ của hai khu vực là nhƣ nhau. Bài 14: So sánh tỷ lệ phế phẩm cùng một loại sản phẩm do hai nhà máy sản suất ta chọn hai mẫu. Mẫu thứ nhất gồm có 314 sản phẩm do nhà máy thứ nhất sản xuất có 69 phế phẩm. Mẫu thứ hai gồm 225 sản phẩm do nhà máy thứ hai sản xuất có 57 phế phẩm. Gọi p1, p2 lần lƣợt là tỷ lệ phế phẩm của nhà máy thứ nhất và thứ hai. a. Sử dụng phân phối tiền nghiệm Beta(2,3) cho p1 và Beta(3,4) cho p2. Hãy ƣớc lƣợng khoảng cho pd=p1-p2, với độ tin cậy 95%. b. Sử dụng thông tin trên hãy kiểm tra giả thiết: Tỷ lệ phaae phẩm ở nhà máy thứ nhất thấp hơn nhà máy thứ hai. Giải a. 𝑝1 có phân phối tiên nghiệm 𝛽(𝑎1 , 𝑏1 ) và 𝑝2 có phân phối tiên nghiệm 𝛽(𝑎2 , 𝑏2 ), khi đó hai phân phối hậu nghiệm của 𝑝1 và 𝑝1 cũng là Beta: 𝑝1 ~𝛽 𝑎1 , 𝑏1 , 𝑝2 ~𝛽(𝑎2 , 𝑏2 ) độc lập, trong đó 𝑎1 = 𝑎1 + 𝑚1 , 𝑏1 = 𝑏1 + 𝑛1 − 𝑚1 𝑎1 = 71, 𝑏1 = 248 𝑎2 = 𝑎2 + 𝑚2 , 𝑏2 = 𝑏2 + 𝑛2 − 𝑚2 𝑎2 = 60, 𝑏2 = 172 Ta có phân phối Beta xấp xỉ phân phối chuẩn, do đó phân phối hậu nghiệm của 𝑝𝑑 = 𝑝1 − 𝑝2 cũng có phân phối chuẩn 𝑁(𝑚𝑑 , 𝑠𝑑2 ) trong đó 𝑚𝑑 = 𝑠𝑑2 = 𝑎1 𝑎1 + 𝑏1 − 𝑎2 𝑎2 + 𝑏2 = 71 60 − = −0,036 71 + 248 60 + 172 𝑎1 𝑏1 𝑎1 + 𝑏1 2 𝑎1 + 𝑏1 + 1 + 𝑎2 𝑏2 𝑎2 + 𝑏2 2 𝑎2 + 𝑏2 + 1 71.248 60.172 + = 0,00136 3192 . 320 2322 . 233 Khoảng ƣớc lƣợng cho sự khác nhau giữa hai tỷ lệ với độ tin cậy 95% là = 𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 ; 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑 = −0,108; 0,036 b. Thực hiện kiểm định nhƣ sau  Chọn 𝐻: 𝑝𝑑 = 0 và 𝐻: 𝑝𝑑 < 0 𝑚𝑑  𝑃𝑣 = 0.5 + 𝜑 𝑠𝑑 49 = 0,5 + 𝜑 −0,036 = 0,166 0,00136  Vì 𝑃𝑣 > 5% nên ta chấp nhận giả thiết. Kết luận, tỷ lệ phế phẩm ở nhà máy thứ nhất thấp hơn nhà máy thứ 2. Bài 15: Chọn một mẫu gồm 10 công nhân ở công ty thứ nhất và 10 công nhân ở công ty thứ hai cho sản xuất cùng một loại sản phẩm trong 8 giờ có kết quả nhƣ bảng sau: Công ty 1(X1) Công ty 2 (X2) 115 123 120 131 111 113 123 119 116 123 121 113 118 128 116 126 127 125 129 128 Giả sử số sản phẩm sản xuất ra ở 2 công ty có phân phối chuẩn tiền nghiệm 𝑁(𝜇1 , 𝜎 2 ) và 𝑁(𝜇2 , 𝜎 2 ) và 𝜇1 , 𝜇2 cũng có phân phối tiền nghiệm chuẩn 𝑁(100, 202 ). a. Tìm phân phối hậu nghiệm của 𝜇1 − 𝜇2 . b. Tìm ƣớc lƣợng khoảng cho 𝜇1 − 𝜇2 với mức ý nghĩa 5%. c. Một ngƣời nói số sản phẩm sản xuất trung bình mỗi công nhân giữa hai công ty là nhƣ nhau thì có đúng không với độ tin cậy 95%. Giải a. Ta có hai mẫu độc lập của hai đại lƣợng ngẫu nhiên X1 và X2, do vậy phân phối hậu nghiệm của chúng cũng độc lập, khi đó trung bình và phƣơng sai đƣợc tính nhƣ sau Ta có 𝑑 = 𝑥1 − 𝑥2 Công ty 1(X1) Công ty 2 (X2) 𝑑 = 𝑥1 − 𝑥2 115 123 -8 50 120 131 -11 111 113 -2 123 119 4 116 123 -7 121 113 8 118 128 -10 116 126 -10 127 125 2 129 128 1 Trung bình và độ lệch chuẩn của d là 𝑑 = −3,3; 𝜎𝑑 = 6,78 Khi đó phân phối hậu nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 ; 𝑠𝑑2 ) với 𝑠𝑑2 𝜎𝑑2 𝑠𝑑2 6,782 . 202 = 2 = = 4,545 𝜎𝑑 + 𝑛𝑠𝑑2 6,782 + 10. 202 100 10. (−3,3) + 202 6,782 𝑚𝑑 = = = −2,127 10 1 + 6,782 202 Vậy phân phối hậu nghiệm của 𝜇𝑑 là 𝑁(−2,127; 4,545) 𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2 𝑛 𝜎𝑑2 + 1 𝑠𝑑2 b. Ƣớc lƣợng khoảng cho sự khác nhau giữa hai trung bình với mức ý nghĩa 5% là 𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 ; 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑 = −6,306; 2,052 c. Thực hiện kiểm định nhƣ sau  Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 ≠ 0  𝑃𝑣 = 1 − 2 𝜑 =1−2 𝜑 𝑚𝑑 𝑠𝑑 −2.127 = 1 − 2.0,3389 = 0,322 4,545  Vì 𝑃𝑣 > 0,05 nên chấp nhận giả thiết. Vậy số sản phẩm sản xuất trung bình của mỗi công nhân giữa hai công ty là nhƣ nhau. 51 PHẦN KẾT LUẬN Quyển luận văn “Ƣớc lƣợng và kiểm định tham số thống kê theo phƣơng pháp Bayes” đã giúp tôi nắm vững đƣợc kiến thức, hiểu rỏ hơn về các phƣơng pháp ƣớc lƣợng và kiểm định, giúp tôi rèn luyện đƣợc kỹ năng về các bƣớc làm bài toán thống kê và tích lũy đƣợc thêm những kinh nghiệm và đặc biệt hơn là có thể sự dụng quyển này nhƣ một nguồn tài liệu để phục vụ cho việc học tâp. Tuy nhiên, do kiến thức còn hạn hẹp và thời gian nghiên cứu không nhiều nên đề tài còn nhiều hạn chế, tôi hy vọng rằng trong tƣơng lai sẽ có điều kiện nghiên cứu sâu hơn về đề tài này nhằm nâng cao kiến thức, hoàn thiện hơn về kỹ năng giải bài toán thống kê để phục vụ cho công việc sau này. 52 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Trần Văn Lý (2005), Giáo trình xác suất thống kê A, Trƣờng Đại học Cần thơ. [2] Đào Hữu Hồ (1997), Xác suất thống kê,Trƣờng Đại học Quốc gia Hà Nội. [3] Võ Văn Tài (2007), Thống kê Bayes, Trƣờng Đại học Cần Thơ. [4] Võ Văn Tài (2005), Giáo trình xác suất thống kê B, Trƣờng Đại học Cần Thơ. Tài liệu Tiếng Anh [1] Peter M.Lee(2004), Bayesian Statitics , OxFord University. 53 PHỤ LỤC Phụ lục 1. Bảng phân vị chuẩn tắc z  1 z t2 exp(  )dt    2 2   z  z  z  z 0,50 0,000 0,71 0,553 0,92 1,405 0,980 2,054 0,51 0,025 0,72 0,583 0,93 1,476 0,981 2,075 0,52 0,030 0,73 0,613 0,94 1,555 0,982 2,097 0,53 0,075 0,74 0,643 0,95 1,645 0,983 2,120 0,54 0,100 0,75 0,674 0,955 1,695 0,984 2,144 0,55 0,126 0,76 0,706 0,960 1,751 0,985 2,170 0,56 0,151 0,77 0,739 0,965 1,812 0,986 2,197 0,57 0,176 0,78 0,772 0,966 1,825 0,987 2,226 0,58 0,202 0,79 0,806 0,967 1,837 0,988 2,257 0,59 0,228 0,80 0,842 0,968 1,852 0,989 2,290 0,60 0,253 0,81 0,878 0,969 1,866 0,990 2,326 0,61 0,279 0,82 0,915 0,970 1,881 0,991 2,366 0,62 0,305 0,83 0,954 0,971 1,896 0,992 2,409 0,63 0,332 0,84 0,994 0,972 1,911 0,993 2,457 0,64 0,358 0,85 1,036 0,973 1,927 0,994 2,512 0,65 0,385 0,86 1,080 0,974 1,943 0,995 2,576 0,66 0,412 0,87 1,126 0,975 1,960 0,996 2,652 0,67 0,440 0,88 1,175 0,976 1,977 0,997 2,748 0,68 0,468 0,89 1,227 0,977 1,995 0,998 2,878 0,69 0,496 0,90 1,282 0,978 2,014 0,999 3,090 0,70 0,524 0,91 1,341 0,979 2,034 54 Phụ lục 2. Bảng phân vị Student Bậc tự do n, mức xác suất   0,10 0,05 0,025 0,01 0,005 0,001 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 + 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,282 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,719 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,861 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326 63,675 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576 66,619 22,326 10,213 7,173 5,893 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,160 3,090 n 55 Phụ lục 3. Bảng giá trị tích phân Laplace  ( x)  X 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0 0,000 0389 0793 1179 1554 1915 2257 2580 2881 3159 3413 3643 3849 4032 4192 4332 4452 4554 4641 4713 4772 4821 4861 4893 4918 4938 4953 4962 4974 4981 49865 49903 49931 49952 49966 49977 49984 49989 49993 49995 1 0,004 0438 0832 1217 1591 1950 2291 2611 2910 3186 3438 3665 3869 4049 4207 4345 4463 4564 4649 4719 4778 4826 4864 4896 4920 4940 4955 4966 4975 4982 49869 49906 49934 49953 49967 49978 49985 49990 49993 49995 2 0,0080 0478 0871 1255 1628 1985 2324 2642 2939 3212 3461 3686 3888 4066 4222 4357 4474 4573 4656 4726 4783 4830 4868 4898 4922 4941 4956 4967 4976 4982 49874 49909 49936 49955 49969 49978 49985 49990 49993 49996 3 0,0120 0517 0910 1293 1664 2019 2357 2673 2967 3238 3485 3708 3907 4082 4236 4370 4484 4582 4664 4732 4788 4834 4871 4901 4925 4943 4957 4968 4977 4983 49878 49912 49938 49957 49970 49979 49986 49990 49994 49996  t2 1 x  exp   2 2 0 4 0,016 0557 0948 1331 1700 2054 2389 2703 2995 3264 3508 3729 3925 4099 4251 4382 4495 4591 4671 4738 4793 4838 4875 4904 4927 4945 4959 4969 4977 4984 49882 49915 49940 49958 49971 49980 49986 49991 49994 49996 56  dt  5 0,0199 0396 0987 1368 1736 2088 2422 2734 3023 3289 3531 3749 3944 4115 4265 4394 4505 4599 4678 4744 4793 4838 4875 4904 4927 4945 4959 4969 4977 4984 49882 49915 49940 49958 49971 49980 49986 49991 49994 49996 6 0,0239 0636 1026 1406 1772 2123 2454 2764 3051 3315 3554 3770 3962 4131 4279 4406 4515 4608 4686 4750 4803 4846 4881 4909 4931 4948 4961 4971 4979 4985 49889 49921 49924 49961 49973 49982 49987 49992 49994 49996 7 0,0279 0675 1064 1443 1808 2157 2486 2794 3078 3340 3577 3790 3980 4147 4292 4418 4525 4616 4693 4756 4808 4850 4884 4911 4932 4949 4962 4972 4979 4985 49893 49924 49946 49962 49974 49982 49988 49992 49995 49996 8 0,0319 0714 1103 1480 1844 2190 2517 2823 3106 3365 3599 3810 3997 4162 4306 4429 4535 4625 4699 4761 4812 4854 4887 4913 4934 4951 4963 4973 4980 4986 49897 49926 49948 49964 49975 49983 49988 49992 49995 49997 9 0,035 0753 1141 1517 1879 2224 2549 2852 3133 3389 3621 3830 4015 4177 4319 4441 4545 5633 4706 4767 4817 4857 4890 4916 4936 4952 4964 4974 4981 4986 49900 49929 49950 49965 49976 49984 49989 49993 49995 49997 [...]... KIỂM ĐỊNH THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES 3.1 TỔNG QUAN VỀ BÀI TOÁN KIỂM ĐỊNH THỐNG KÊ Trong thực tế, dựa vào số liệu mẫu thu đƣợc ngƣời ta thƣờng có nhu cầu kiểm tra một vấn đề thống kê nào đó là đúng hay sai Vấn đề thống kê đƣợc đặt ra ở đây đƣợc gọi là giả thiết thống kê Việc kiểm định các giả thiết thống kê có liên quan đến các tham số đặc trƣng của tổng thể đƣợc gọi là kiểm đinh tham số. .. tham số chƣa biết của X (một tham số hoặc nhiều tham số) là việc dựa trên một mẫu ( X1 , X 2 , , X n ) để tìm đƣợc một thống kê ˆ( X , X , , X ) để thay thế tham số  chƣa biết 1 2 n Việc xác định điểm ƣớc lƣợng bằng phƣơng pháp Bayes của tham số chƣa biết sẽ dựa vào phân phối xác suất hậu nghiệm của tham số đó Tuy nhiên, khi ƣớc lƣợng tham số  chƣa biết bằng phƣơng pháp ƣớc lƣợng điểm thì ta không... số thống kê Để kiểm tra giả thiết thống kê là đúng hay sai, trƣớc tiên ta xây dựng hai mệnh đề trái ngƣợc nhau có liên quan đến tham số cần kiểm định đƣợc gọi là giả thiết (H) và đối thiết (𝐻) Trong bài toán kiểm định về tham số thống kê  , ta sử dụng cặp giả thiết, đối thiết nhƣ sau  H :  0 , H :  0  H :   0 , H :   0  H :  0 , H :  0 Trong bài toán kiểm định về hai tham số thống. .. việc xác định 𝑝𝑣 sẽ dựa vào phân phối hậu nghiệm của tham số cần kiểm định Sau đây là một số bài toán kiểm định về tham số trung bình và tỷ lệ 3.2 MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TRUNG BÌNH 3.2.1 Kiểm định trung bình Bài toán Giả sử đại lƣợng ngẫu nhiên X có phân phối chuẩn với tham số trung bình 𝜇 chƣa biết Giả sử 𝜇 có phân phối tiền nghiệm chuẩn đã biết 𝜇 > 𝜇0 Chọn giả thiết 𝐻: 𝜇 = 𝜇0 và một... Căn cứ vào kết quả ƣớc lƣợng, ngƣời ta chia bài toán ƣớc lƣợng tham số thống kê thành hai loại là ƣớc lƣợng điểm và ƣớc lƣợng khoảng tham số thống kê 2.1 ƢỚC LƢỢNG ĐIỂM THAM SỐ THỐNG KÊ Khi nghiên cứu đại lƣợng ngẫu nhiên X của tổng thể, chúng ta thƣờng không biết phân phối xác suất của nó nhƣ thế nào, vì thế không thể biết chính xác các tham số đặc trƣng Ƣớc lƣợng điểm của các giá trị tham số chƣa... trƣng bởi các tham số mà trong thực tế hầu nhƣ không thể biết đƣợc chúng một cách chính xác Do đó, để xác định đƣợc những tham số này ngƣời ta sẽ ƣớc lƣợng chúng từ mẫu đã chọn Bài toán ƣớc lƣợng tham số thống kê là bài toán ƣớc lƣợng giá trị tham số chƣa biết của đại lƣợng ngẫu nhiên dựa vào quan sát trên mẫu đƣợc lấy ra Thông thƣờng các tham số cần ƣớc lƣợng là trung bình, phƣơng sai và tỷ lệ những... khoảng tham số với khoảng tin cậy đối xứng Trong phần này để ngắn gọn ta chỉ nói “ƣớc lƣợng” thay cho cách nói đầy đủ “ƣớc lƣợng khoảng tin cậy đối xứng” Khi đó, tham số  cần ƣớc lƣợng thuộc khoảng (1; 2 )  (0   ; 0   ) , trong đó 16   0 là ƣớc lƣợng điểm của tham số  ,   là độ chính xác hay sai số của ƣớc lƣợng Sau đây là một số bài toán ƣớc lƣợng tham số cơ bản bằng phƣơng pháp Bayes. .. tăng lên và ngƣợc lại Do đó trong bài toán kiểm định ngƣời ta tiến hành nhƣ sau: Ấn định trƣớc mức xác suất sai lầm loại 1 qua mức ý nghĩa  và xây dựng lý thuyết sao cho khả năng mắc phải sai lầm loại 2 (  ) là nhỏ nhất trong khả năng có thể Trong thực tế chúng ta chọn  đủ bé (từ 1% đến 10%) 24 Việc thực hiện việc kiểm định tham số thống kê với mức ý nghĩa  cho trƣớc theo phƣơng pháp Bayes có thể... phục các hạn chế đó, ta sử dụng ƣớc lƣợng khoảng tin cậy cho tham số  2.2 ƢỚC LƢỢNG KHOẢNG THAM SỐ THỐNG KÊ Giả sử  là một tham số của biến ngẫu nhiên X cần biết Ƣớc lƣợng khoảng tham số  là xác định khoảng ( 1 ;  2 ) sao cho xác suất để   ( 1 ;  2 ) bằng một độ tin cậy cho trƣớc Trong bài toán ƣớc lƣợng khoảng, ta sử dụng một số kí hiệu sau   : Mức ý nghĩa, là khả năng có thể mắc phải... Khi tham số p có phân phối tiên nghiệm đều trên [0, 1] thì kết quả hàm phân phối xác suất hậu nghiệm của p là trường hợp đặc biệt khi tham số p có phân phối 𝛽(𝑎, 𝑏), với 𝑎 = 1, 𝑏 = 1  Hàm mật độ xác suất của phân phối chuẩn Đại lƣợng ngẫu nhiên liên tục X đƣợc gọi là có phân phối chuẩn với hai tham số 𝜇 và 𝜎 2 Kí hiệu: 𝑋~𝑁(𝜇, 𝜎 2 ) và hàm mật độ xác suất của nó đƣợc xác định nhƣ sau 𝑓 𝑥|𝜇, 𝜎 Các tham

Ngày đăng: 12/10/2015, 15:37

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w