Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,52 MB
Nội dung
TRƢỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN
------------
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
ƢỚC LƢỢNG VÀ KIỂM ĐỊNH
THAM SỐ THỐNG KÊ
BẰNG PHƢƠNG PHÁP BAYES
Giáo viên hƣớng dẫn
Sinh viên thực hiện
ThS. Dƣơng Thị Bé Ba
Danh Đảnh
MSSV: 1100164
Ngành: Toán Ứng Dụng
CẦN THƠ – 5/2014
LỜI CẢM ƠN
---------Trong suốt quá trình học tập và thực hiện luận văn tôi đã nhận đƣợc sự giúp
đỡ, động viên và sự hƣớng dẫn tận tình của quý Thầy, quý Cô, Cha, Mẹ, bạn bè
cũng nhƣ sự nổ lực, cố gắng của bản thân để hoàn thành luận văn này.
Tôi xin chân thành gửi lời cảm ơn đến:
Cô Dƣơng Thị Bé Ba ngƣời đã tận tình hƣớng dẫn và dành nhiều thời gian
quý báu của mình để truyền đạt kiến thức, giúp đỡ tôi hoàn thành luận văn này.
Toàn thể quý thầy cô bộ môn Toán – Khoa Khoa học Tự nhiên của trƣờng
Đại học Cần thơ đã trang bị cho tôi những kiến thức cơ bản, những kỹ năng cần
thiết trong suốt quá trình học tập tại trƣờng, đó là hành trang quý báu không chỉ
giúp tôi hoàn thành tốt luận văn mà còn giúp tôi tự tin hơn trên con đƣờng sự
nghiệp phía trƣớc.
Quý Thầy, quý Cô trong Hội đồng bảo vệ luận văn đã dành nhiều thời gian
để xem xét và đóng góp những ý kiến quý báu để bài luận văn đƣợc hoàn thiện hơn.
Toàn thể các bạn sinh viên chuyên ngành Toán Ứng Dụng khóa 36, những
ngƣời bạn luôn sát cánh và tận tình giúp đỡ tôi trong suốt quá trình vừa qua.
Cuối cùng, tôi xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc nhất đến Cha,
Mẹ và các anh, chị em trong gia đình đã luôn ủng hộ tôi về mọi phƣơng diện, đây là
nguồn sức mạnh tinh thần lớn nhất giúp tôi vƣơn lên trong cuộc sống.
Tôi xin chân thành cám ơn!
Cần Thơ, tháng 5 năm 2014
Danh Đảnh
i
PHẦN MỞ ĐẦU
Lý do chọn đề tài
I.
Thống kê là khoa học về thu thập, trình bày, phân tích các dữ liệu để từ đó
tìm ra bản chất và tính quy luật của các hiện tƣợng ngẫu nhiên trong kinh tế, xã hội
và tự nhiên. Nó dựa vào lý thuyết xác suất thống kê để tìm ra thông tin thống kê
trung thực, khách quan, chính xác, đầy đủ và kịp thời trong việc đánh giá, dự báo
tình hình, hoạch định chiến lƣợc, chính sách, xây dựng kế hoạch phát triển kinh tế
xã hội và đáp ứng nhu cầu thông tin thống kê của các tổ chức, cá nhân,… Do đó,
thống kê có tính ứng dụng rất cao trong thực tế trong đó có hai bài toán cơ bản là
ƣớc lƣợng và kiểm định giả thiết thống kê.
Trong khoa học có hai trƣờng phái thống kê: Trƣờng phái thống kê cổ điển
và trƣờng phái thống kê Bayes. Hai trƣờng phái thống kê này khác nhau về triết lý
khoa học và nhất là cách hiểu về khái niệm xác suất. Thống kê cổ điển dựa vào
những kết quả quan sát mẫu của hiện tại mà không quan tâm đến những thông tin
liên quan về số liệu đã biết trƣớc. Các kết luận trong thống kê cổ điển đều dựa trên
dữ liệu mẫu. Trong khi đó, thống kê Bayes dựa trên những thông tin dữ liệu đã biết
trƣớc về vấn đề đã quan sát để suy luận cho thống kê hiện tại. Trong thống kê
Bayes, thông tin tiền nghiệm cấu thành nên cơ sở lý thuyết, các kết luận dựa trên cơ
sở đã biết kết hợp với dữ liệu quan sát. Do đó, các kết luận trong thống kê Bayes có
độ chính xác cao hơn. Đặc biệt, trƣớc sự phát triển mạnh mẽ của công nghệ thông
tin cũng những phần mềm toán học, việc lƣu trữ thông tin rất thuận lợi. Do đó,
thống kê Bayes ngày càng có điều kiện phát triển hơn.
Với các lý do nêu trên em chọn đề tài “Ước lượng và kiểm định tham số
thống kê bằng phương pháp Bayes” để làm luận văn tốt nghiệp cuối khóa.
II.
Mục đích nghiên cứu
Luận văn đƣợc nghiên cứu với mục đích
Tổng kết một cách có hệ thống các vấn đề có liên quan đến thống kê Bayes.
ii
Nghiên cứu một số ứng dụng của thống kê Bayes trong kinh tế và xã hội.
III.
Phƣơng pháp nghiên cứu
Sƣu tầm, tham khảo các tài liệu có liên quan đến đề tài.
Tổng hợp, hệ thống hóa kiến thức đƣợc trình bày trong tài liệu để từ đó trình
bài lại các vấn đề có liên quan một cách logic, có hệ thống.
IV.
Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu: Các vấn đề lý thuyết có liên quan đến thống kê
Bayes.
Phạm vi nghiên cứu: Vì thời gian và kiến thức có hạn nên đề tài của em chỉ
nghiên cứu hai bài toán cơ bản là ƣớc lƣợng và kiểm định tham số thống kê
bằng phƣơng pháp Bayes.
V.
Bố cục luận văn
Cấu trúc luận văn bao gồm phần mở đầu, phần nội dung và phần kết luận.
Trong đó, phần nội dung gồm 4 chƣơng:
Chƣơng 1: Kiến thức chuẩn bị
Trong chƣơng này trình bày một số vấn đề cơ bản về thống kê Bayes nhƣ:
thông tin tiền nghiệm, thông tin hậu nghiệm và một số hàm mật độ xác suất thông
dụng. Đây là cơ sở lý thuyết cho việc xây dựng bài toán ƣớc lƣợng và kiểm định
đƣợc trình bày trong chƣơng 2 và chƣơng 3.
Chƣơng 2: Ƣớc lƣợng tham số bằng phƣơng pháp Bayes
Trong chƣơng này trình bày bài toán ƣớc lƣợng tham số thống kê bằng
phƣơng pháp Bayes.
Chƣơng 3: Kiểm định tham số bằng phƣơng pháp Bayes
Trong chương này trình bày bài toán kiểm định tham số thống kê bằng
phương pháp Bayes.
Chƣơng 4: Bài tập áp dụng
Trình bày hệ thống bài tập ứng dụng một số vấn đề đã thực hiện trong lý
thuyết.
iii
MỤC LỤC
LỜI CẢM ƠN ..............................................................................................................................i
PHẦN MỞ ĐẦU ........................................................................................................................ ii
I.
Lý do chọn đề tài .......................................................................................................... ii
II. Mục đích nghiên cứu .................................................................................................... ii
III. Phƣơng pháp nghiên cứu............................................................................................. iii
IV. Đối tƣợng và phạm vi nghiên cứu .............................................................................. iii
V. Bố cục luận văn ........................................................................................................... iii
MỤC LỤC ................................................................................................................................. iv
CHƢƠNG 1: KIẾN THỨC CHUẨN BỊ ...................................................................................1
1.1. ĐỊNH LÝ BAYES.........................................................................................................1
1.1.1.
Định lý Bayes cho đại lƣợng ngẫu nhiên rời rạc ............................................... 1
1.1.2.
Định lý Bayes cho đại lƣợng ngẫu nhiên liên tục ............................................. 4
1.2. PHÂN PHỐI TIỀN NGHIỆM VÀ PHÂN PHỐI HẬU NGHIỆM ............................5
1.2.1
Phân phối tiền nghiệm......................................................................................... 5
1.2.2
Phân phối hậu nghiệm ......................................................................................... 5
1.2.3
Hàm mật độ xác suất hậu nghiệm cho tham số ............................................... 10
CHƢƠNG 2: ƢỚC LƢỢNG THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES
....................................................................................................................................................16
2.1. ƢỚC LƢỢNG ĐIỂM THAM SỐ THỐNG KÊ ........................................................16
2.2. ƢỚC LƢỢNG KHOẢNG THAM SỐ THỐNG KÊ ................................................16
2.2.1.
Một số bài toán ƣớc lƣợng liên quan đến trung bình ...................................... 17
2.2.2.
Một số bài toán ƣớc lƣợng liên quan đến tỷ lệ ................................................ 21
CHƢƠNG 3: KIỂM ĐỊNH THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES...24
3.1. TỔNG QUAN VỀ BÀI TOÁN KIỂM ĐỊNH THỐNG KÊ .....................................24
3.2. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TRUNG BÌNH ...............25
3.2.1.
Kiểm định trung bình ........................................................................................ 25
3.2.2.
So sánh hai trung bình ....................................................................................... 26
3.3. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TỶ LỆ .............................31
3.3.1.
Kiểm định một tỷ lệ ........................................................................................... 31
3.3.2.
So sánh hai tỷ lệ ................................................................................................. 33
CHƢƠNG 4: BÀI TẬP ÁP DỤNG .........................................................................................36
PHẦN KẾT LUẬN ...................................................................................................................52
TÀI LIỆU THAM KHẢO ........................................................................................................53
PHỤ LỤC ..................................................................................................................................54
iv
Phụ lục 1. Bảng phân vị chuẩn tắc z ..............................................................................54
Phụ lục 2. Bảng phân vị Student .......................................................................................55
Phụ lục 3. Bảng giá trị tích phân Laplace ........................................................................56
v
CHƢƠNG 1: KIẾN THỨC CHUẨN BỊ
Nhƣ ta đã biết, xác suất và thống kê có mối liên hệ rất mật thiết với nhau.
Xác suất nhƣ là công cụ để các nhà thống kê sử dụng thông tin trên một mẫu để đƣa
ra những suy luận hay mô tả tổng thể từ mẫu đƣợc lấy ra. Định lý Bayes là định lý
có vai trò rất quan trọng trong xác suất và thống kê bởi ý tƣởng của định lý Bayes
trong xác suất là việc tính xác suất hậu nghiệm của một biến cố dựa trên việc biết
đƣợc xác suất của biến cố tiền nghiệm, hầu nhƣ trong thực tế đa số các biến cố luôn
chịu tác động của nhiều biến cố khác nhau. Chính vì vậy nên định lý Bayes có tính
ứng dụng rất cao. Nền tảng của thống kê Bayes là việc mở rộng định lý Bayes đối
với đại lƣợng ngẫu nhiên rời rạc cho đại lƣợng ngẫu nhiên liên tục. Trong xác suất,
sử dụng định lý Bayes để thiết lập hàm mật độ xác suất hậu nghiệm cho một giai
đoạn và mở rộng cho nhiều giai đoạn nhằm để xem xét cho các tham số cụ thể của
phân phối nhị thức và phân phối chuẩn. Trong thống kê, định lý Bayes đƣợc sử
dụng để giải quyết các bài toán ƣớc lƣợng, kiểm định tham số. Trong chƣơng này sẽ
trình bày kiến thức nền tảng của thống kê Bayes.
1.1.
ĐỊNH LÝ BAYES
1.1.1. Định lý Bayes cho đại lƣợng ngẫu nhiên rời rạc
a. Định nghĩa hệ biến cố đầy đủ
Gọi 𝛺 là không gian mẫu của một phép thử. Một hệ các biến cố
𝐴1 , 𝐴2 , … , 𝐴𝑛 được gọi là một hệ biến cố đầy đủ hay là một hình thức chia của Ω
nếu thỏa mãn hai tính chất sau
𝐴1 + 𝐴2 +, … , +𝐴𝑛 = Ω
𝐴𝑖 𝐴𝑗 = ∅ ∀ 𝑖 ≠ 𝑗
A1
An
A2
𝐴
Hình vẽ minh họa hình thức chia của 𝐴𝑖 𝐴𝑗 trong không gian mẫu Ω.
1
Nhận xét: Gọi B là một biến cố bất kỳ của 𝛺. Nếu 𝐴1 , 𝐴2 , … , 𝐴𝑛 là hình thức chia
của 𝛺 thì 𝐴1 𝐵, 𝐴2 𝐵, … , 𝐴𝑛 𝐵 sẽ là một hình thức chia của B.
b. Công thức xác suất toàn phần
Cho 𝐴𝑖 , 𝑖 = 1, 𝑛 là một hệ biến cố đầy đủ. Khi đó với A là một biến cố bất
kỳ, ta có
𝑛
𝑃 𝐴 =
𝑃 𝐴𝑖 . 𝑃(𝐴|𝐴𝑖 )
𝑖=1
Chứng minh
Ta có
𝐴1 + 𝐴2 +, … , +𝐴𝑛 = Ω
⟺ 𝐴1 + 𝐴2 +, … , +𝐴𝑛 . A = Ω. A
⟺ 𝐴1 𝐴 + 𝐴2 𝐴+, … , +𝐴𝑛 A = A
⟺ 𝑃 𝐴 = 𝑃(𝐴1 𝐴 + 𝐴2 𝐴+, … , +𝐴𝑛 A)
Vì 𝐴𝑖 , 𝑖 = 1, 𝑛 là hệ các biến cố xung khắc từng đôi nên hệ 𝐴𝑖 𝐴 , 𝑖 = 1, 𝑛 cũng là
hệ các biến cố xung khắc từng đôi.
Do đó
𝑃 𝐴 = 𝑃 𝐴1 𝐴 + 𝐴2 𝐴+, … , +𝐴𝑛 A = 𝑃 𝐴1 𝐴 + 𝑃 𝐴2 𝐴 + ⋯ + 𝑃 𝐴𝑛 𝐴
= 𝑃 𝐴1 . 𝑃 𝐴|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐴|𝐴2 + ⋯ + 𝑃 𝐴𝑖 . 𝑃 𝐴|𝐴𝑛
𝑛
=
𝑃 𝐴𝑖 . 𝑃(𝐴|𝐴𝑖 ) (đ𝑝𝑐𝑚)
𝑖=1
c. Định lý Bayes ( công thức xác suất Bayes)
Giả sử 𝐴1 , 𝐴2 , … , 𝐴𝑛 là một hệ các biến cố đầy đủ, B là một biến cố đã xảy ra.
Khi đó
𝑃(
𝐴𝑖
𝐵) =
𝑃 𝐴𝑖 𝑃(𝐵|𝐴𝑖 )
𝐴𝑖 𝑃(𝐵|𝐴𝑖 )
𝑛
𝑖=1 𝑃
Chứng minh
Theo công thức nhân xác suất, ta có
𝑃 𝐵. 𝐴𝑖 = 𝑃 𝐵 . 𝑃 𝐴𝑖 |𝐵 = 𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖
⟺ 𝑃 𝐴𝑖 |𝐵 =
𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖
𝑃 𝐵
Theo công thức xác suất toàn phần, ta có
2
𝑛
𝑃 𝐵 =
𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖
𝑖=1
Do đó
𝑃
𝐴𝑖
𝐵 =
𝑃 𝐴𝑖 . 𝑃 𝐵|𝐴𝑖
𝐴𝑖 . 𝑃 𝐵|𝐴𝑖
đ𝑝𝑐𝑚 .
𝑛
𝑖=1 𝑃
Ví dụ 1.1: Có 2 lô sản phẩm. Lô 1 có 20 sản phẩm trong đó có 15 sản phẩm
tốt. Lô 2 có 20 sản phẩm trong đó có 10 sản phẩm tốt. Lấy ngẫu nhiên một lô và
trong lô đó lấy ra ngẫu nhiên một sản phẩm. Giả sử sản phẩm lấy ra là sản phẩm tốt,
tính xác suất sản phẩm đó thuộc lô thứ nhất?
Giải
Gọi A là biến cố lấy ra 1 sản phẩm tốt và 𝐿1 , 𝐿2 lần lƣợt là biến cố chọn đƣợc sản
phẩm thuộc lô 1 và lô 2
⇒ 𝐿1 , 𝐿2 là hệ biến cố đầy đủ
Xác suất đƣợc chọn của hai lô là: 𝑃 𝐿1 = 1 2 = 𝑃(𝐿2 )
Theo công thức xác suất toàn phần, xác suất lấy đƣợc sản phẩm tốt là
1 15 1 10 5
.
+ .
=
2 20 2 20 8
Nếu sản phẩm lấy ra là sản phẩm tốt, theo công thức Bayes ta có xác suất sản phẩm
thuộc L1 là
𝑃 𝐴 = 𝑃 𝐿1 𝑃 𝐴|𝐿1 + 𝑃 𝐿2 𝑃 𝐴|𝐿2 =
1 15
𝑃 𝐿1 𝑃(𝐴|𝐿1 ) 2 . 20 3
𝑃 𝐿1 |𝐴 =
=
=
5
𝑃(𝐴)
5
8
Ví dụ 1.2: Một hộp đựng 2 đồng xu, trong đó có 1 đồng xu cân đối, đồng
chất và 1 đồng xu luôn xuất hiện mặt sấp khi tung. Chọn ngẫu nhiên một đồng xu từ
hộp và khi tung đồng xu này lên 2 lần điều thấy nó xuất hiện mặt sấp. Tính xác xuất
đồng xu đã chọn là đồng xu cân đối, đồng chất.
Giải
Gọi A là biến cố khi tung 2 lần đồng xu điều xuất hiện mặt sấp.
B là đồng xu đƣợc chọn là đồng xu cân đối, đồng chất.
Theo công thức xác suất toàn phần, xác suất tung 2 lần đồng xu đều xuất hiện mặt
sấp là
𝑃 𝐴 = 𝑃 𝐵 .𝑃 𝐴 𝐵 + 𝑃 𝐵 .𝑃 𝐴 𝐵 =
3
1 1 1 1
5
. . + . 1.1 =
2 2 2 2
8
Nếu trong 2 lần đều xuất hiện mặt sấp. Khi đó, theo công thức Bayes ta đƣợc xác
suất đồng xu đã chọn là đồng xu cân đối và đồng chất là
𝑃 𝐵𝐴 =
𝑃 𝐵 .𝑃 𝐴 𝐵
1 8 1
=
=
𝑃(𝐴)
5 8 5
Ví dụ 1.3: Cho hai hộp đựng bi, hộp một có 6 bi vàng và 4 bi đỏ, hộp hai có
7 bi vàng và 3 bi đỏ. Lấy ngẫu nhiên từ hộp một 1 viên bi và bỏ vào hộp hai, sau đó
lấy từ hộp hai ra 2 viên bi. Tính xác suất 2 viên bi lấy ra có màu đỏ?
Giải
Gọi 𝐴1 là biến cố lấy đƣợc bi vàng từ hộp thứ nhất, 𝐴2 là biến cố lấy đƣợc bi đỏ từ
hộp thứ nhất và B là biến cố lấy đƣợc hai bi đỏ từ hộp thứ hai.
Ta có 𝐴1 , 𝐴2 là hệ biến cố đầy đủ nên:
𝑃 𝐵 = 𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2
6 𝐶32
4 𝐶24
=
. 2 +
. 2 = 0,076
10 𝐶11
10 𝐶11
1.1.2. Định lý Bayes cho đại lƣợng ngẫu nhiên liên tục
Cho 𝑋 là đại lƣợng ngẫu nhiên liên tục. Khi đó, hàm phân phối xác suất có điều
kiện 𝑋 khi biến cố 𝐴𝑖 đã xảy ra đƣợc xác định nhƣ sau
𝐹 𝑥 𝐴𝑖 =
𝑃( 𝑋 ≤ 𝑥 , 𝐴𝑖 )
𝑃(𝐴𝑖 )
Trong đó 𝐹 +∞|𝐴𝑖 = 1 và 𝐹 −∞ 𝐴𝑖 = 0.
Hàm mật độ xác suất có điều kiện của X khi biến cố 𝐴𝑖 xảy ra đƣợc xác định
nhƣ sau
𝑓 𝑥 𝐴𝑖 =
𝑑𝐹
𝑃(𝑥 ≤ 𝑋 ≤ 𝑥 + ∆𝑥|𝐴𝑖 )
= lim
𝑑𝑥 ∆𝑥→0
∆𝑥
Giả sử quan sát biến ngẫu nhiên 𝑋 trên k tổng thể 𝑤1 , 𝑤2 , … , 𝑤𝑛 có hàm mật độ
xác suất 𝑓𝑖 (𝑥) và xác suất tiên nghiệm 𝑞𝑖 , 𝑖 = 1,2, … , 𝑛. Khi đó kết quả đƣợc mở
rộng cho trƣờng hợp liên tục nhƣ sau
𝑘
𝑘
𝑓 𝑥 =
𝑃 𝑤𝑖 𝑓 𝑥 𝑤𝑖 =
𝑖=1
𝑃 𝑤𝑖 𝑥 =
𝑞𝑖 𝑓𝑖 (𝑥)
𝑖=1
𝑃 𝑤𝑖 𝑓(𝑥|𝑤𝑖 )
=
𝑓(𝑥)
𝑞𝑖 𝑓𝑖 (𝑥)
𝑘
𝑖=1 𝑞𝑖 𝑓𝑖 (𝑥)
Trong đó 𝑓(𝑥) đƣợc gọi là hàm mật độ xác suất kết hợp của tổng thể.
Khi 𝑋 và 𝑌 là 2 đại lƣợng ngẫu nhiên liên tục, định lý Bayes cho trƣờng hợp này
là hàm mật độ xác suất có điều kiện 𝑓(𝑥|𝑦) đƣợc xác định nhƣ sau
𝑓 𝑥𝑦 =
𝑓 𝑥 𝑓(𝑦|𝑥)
𝑓 𝑥 𝑓 𝑦 𝑥 𝑑𝑥
4
1.2.
PHÂN PHỐI TIỀN NGHIỆM VÀ PHÂN PHỐI HẬU NGHIỆM
1.2.1 Phân phối tiền nghiệm
Phân phối tiền nghiệm theo định lý Bayes còn đƣợc gọi là xác suất tiền nghiệm
là xác suất xảy ra của biến cố 𝐴 mà không quan tâm đến những biến cố khác. Thông
tin tiền nghiệm của các tham số là nhân tố quan trọng trong quá trình suy luận
Bayes. Phân phối tiền nghiệm chứa đựng đầy đủ thông tin và nếu lƣợng dữ liệu
quan sát đƣợc càng nhiều sẽ ảnh hƣởng càng lớn lên phân phối hậu nghiệm. Ngƣợc
lại, khi lƣợng dữ liệu quá ít thì thông tin trong phân phối tiền nghiệm sẽ đóng vai trò
quan trọng trong phân phối hậu nghiệm.
a. Tiền nghiệm mang thông tin và không mang thông tin
Tiền nghiệm mang thông tin là tiền nghiệm làm thay đổi về cơ bản những
thông tin chứa trong dữ liệu. Phƣơng pháp phổ biến để thể hiện thông tin tiền
nghiệm là đƣa ra phân phối cho tham số chƣa biết mà tham số đó phản ánh đƣợc
thông tin tiền nghiệm.
Trong nhiều trƣờng hợp niềm tin tiền nghiệm của ta rất mơ hồ và vì thế rất
khó để chuyển thành tiền nghiệm mang thông tin. Đây là trƣờng hợp mà ta gọi là
tiền nghiệm không mang thông tin hay tiền nghiệm mơ hồ và phân phối đƣợc lựa
chọn để thể hiện phân phối này là phân phối đều xác định trên các giá trị mà tham
số có thể có.
Chẳng hạn, tham số chỉ trung bình 𝜇 nhận giá trị (−∞; +∞) có phân phối
tiền nghiệm không mang thông tin. Tham số độ lệch chuẩn 𝜎 nhận giá trị trên
(0; +∞) có phân phối tiền nghiệm không mang thông tin.
b. Phân phối tiền nghiệm liên hợp
Trong nhiều trƣờng hợp, ta mong muốn chọn đƣợc phân phối tiền nghiệm sao
cho việc phân tích và tìm ra phân phối hậu nghiệm đƣợc thuận lợi nhất. Giả sử dữ
liệu đƣợc sinh ra từ một phân phối xác định nào đó, khi đó ta gọi phân phối tiền
nghiệm liên hợp để chỉ phân phối hậu nghiệm và phân phối tiền nghiệm cùng thuộc
một lớp phân phối. Mặc dù có cùng dạng phân phối nhƣng chúng có tham số khác
nhau, tham số của phân phối hậu nghiệm phản ánh sự kết hợp giữa thông tin tiền
nghiệm và dữ liệu quan sát.
1.2.2 Phân phối hậu nghiệm
Phân phối hậu nghiệm hay còn gọi là xác suất có điều kiện là xác suất xảy ra
biến cố 𝐴 khi biết biến cố 𝐵 đã xảy ra.
a. Bảng phân phối xác suất hậu nghiệm
Bảng phân phối xác suất hậu nghiệm qua một giai đoạn
Tƣơng tự nhƣ bảng phân phối xác suất, bảng phân phối xác suất hậu nghiệm
dùng để thiết lập phân phối xác suất hậu nghiệm cho biến ngẫu nhiên rời rạc mà nó
cung cấp xác suất 𝑝 với mỗi các giá trị của x. Yêu cầu của một bảng phân phối xác
suất hậu nghiệm là 0 ≤ 𝑝 ≤ 1 và 𝑛𝑖=1 𝑝𝑖 = 1. Đồng thời ta có thể dựa vào bảng để
tính xác suất hậu nghiệm một cách trực quan, hay nhìn vào bảng ta có thể tính xác
suất hậu nghiệm đơn giản hơn.
5
Không gian Bayes
Cho hai đại lƣợng ngẫu nhiên rời rạc 𝑋 và 𝑌. Gọi 𝑥𝑖 , 𝑖 = 1,2, … , 𝑛 là các giá
trị có thể có của 𝑋 và 𝑦𝑗 , 𝑗 = 1,2, … , 𝑚 là các giá trị có thể có của 𝑌. Tập hợp các bộ
giá trị trong ma trận hình chữ nhật cỡ 𝑛 × 𝑚 với phần tử thứ 𝑖 cột 𝑗 trong ma trận
𝑥𝑖 , 𝑦𝑗 đƣợc gọi là không gian Bayes của hai biến 𝑋 và 𝑌.
Bảng 1: Không gian Bayes
𝑦1
𝑥1
𝑥2
𝑦2
…
(𝑥1 , 𝑦1 ) (𝑥1 , 𝑦2 )
𝑦𝑗
…
𝑦𝑚
(𝑥1 , 𝑦𝑗 )
(𝑥1 , 𝑦𝑚 )
𝑥2 , 𝑦1
𝑥2 , 𝑦2
𝑥2 , 𝑦𝑗
𝑥2 , 𝑦𝑚
𝑥𝑖 , 𝑦1
𝑥𝑖 , 𝑦2
𝑥𝑖 , 𝑦𝑗
𝑥𝑖 , 𝑦𝑚
𝑥𝑛 , 𝑦1
𝑥𝑛 , 𝑦2
𝑥𝑛 , 𝑦𝑗
𝑥𝑛 , 𝑦𝑚
⋮
𝑥𝑖
⋮
𝑥𝑛
Bài toán: Giả sử đại lƣợng ngẫu nhiên 𝑋 có thể có các giá trị 𝑥1 , 𝑥2 , … , 𝑥𝑛
với xác suất chƣa biết, đại lƣợng ngẫu nhiên 𝑌 nhận giá trị cụ thể 𝑌 = 𝑦0 đã biết.
Dựa vào giá trị đã biết của 𝑌 ta lập bảng phân phối xác suất cho đại lƣợng ngẫu
nhiên 𝑋.
Phƣơng pháp: Gọi 𝑃 𝑥𝑖 , 𝑦0 là xác suất đồng thời để đại lƣợng ngẫu nhiên
𝑋 nhận giá trị 𝑥𝑖 và đại lƣợng ngẫu nhiên 𝑌 nhận giá trị 𝑦0 , ta có
𝑃 𝑥𝑖 , 𝑦0 = 𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦0 |𝑋 = 𝑥𝑖 )
Trong đó 𝑃 𝑋 = 𝑥𝑖 là xác suất tiền nghiệm của 𝑋 = 𝑥𝑖
Theo công thức Bayes thì xác suất hậu nghiệm của 𝑋 = 𝑥𝑖 và 𝑌 = 𝑦0 đƣợc xác
định nhƣ sau
(1)
𝑝𝑖
= 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦0 =
𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦0 |𝑋 = 𝑥𝑖 )
𝑛
𝑖=1 𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦0 |𝑋 = 𝑥𝑖 )
Khi đó ta lập đƣợc bảng phân phối xác suất hậu nghiệm của 𝑋 khi 𝑌 = 𝑦0 là
Bảng 2: Bảng phân phối xác suất hậu nghiệm của X qua một giai đoạn
𝑋
𝑃
𝑥1
(1)
𝑝1
𝑥2
(1)
𝑝2
…
𝑥𝑛
…
𝑝3
(1)
Ví dụ 1.4: Trong một hộp có 5 viên bi, trong đó có 2 loại bi là bi đỏ và bi đen
(số lƣợng bi đỏ và bi đen không đƣợc xác định). Chọn ngẫu nhiên 1 viên bi từ hộp,
6
nếu ta chọn đƣợc bi đỏ kí hiệu là 𝑌 = 1 và nếu ta chọn đƣợc bi đen thì kí hiệu là
𝑌 = 0. Gọi X là số lƣợng bi đỏ trong hộp.
a. Tìm không gian Bayes của (𝑋, 𝑌).
b. Tìm bảng phân phối xác suất hậu nghiệm của 𝑋 khi 𝑌 = 1.
Giải
a. Không gian Bayes của (𝑋, 𝑌) đƣợc xác định nhƣ bảng sau
X\Y
0
1
2
3
4
5
0
0,0
0,1
0,2
0,3
0,4
0,5
1
1,0
1,1
1,2
1,3
1,4
1,5
b. Số lƣợng bi đỏ không đƣợc xác định nên ta xem xác suất tiên nghiệm của
𝑋 = 𝑥𝑖 , (𝑖 = 0,5) bằng nhau
𝑃 𝑋=0 =𝑃 𝑋=1 =𝑃 𝑋=2 =𝑃 𝑋=3 =𝑃 𝑋=4
1
=𝑃 𝑋=5 =
6
Ta có: 𝑃 𝑌 = 1 𝑋 = 𝑥𝑖 = 𝑖 5
Lập bảng tính nhƣ sau
𝑥𝑖
𝑃(𝑋 = 𝑥𝑖 )
𝑃 𝑌 = 1 𝑋 = 𝑥𝑖
𝑃(𝑋 = 𝑥𝑖 |𝑌 = 1)
(1)
(2)
(1).(2)
0
1 6
0
0
0
1
1 6
1 5
1 30
1/15
2
1 6
2 5
2 30
2/15
3
1 6
3 5
3 30
3/15
4
1 6
4 5
4/30
4/15
5
1 6
1
5 30
5/15
1 2
Bảng phân phối xác suất hậu nghiệm của 𝑋 với 𝑌 = 1 là
𝑋
0
1
2
3
4
5
𝑃
0
1/15
2/15
3/15
4/15
5/15
Bảng phân phối xác suất qua nhiều giai đoạn
7
Bài toán: Giả sử đại lƣợng ngẫu nhiên X có thể nhận giá trị 𝑥1 , 𝑥2 , … , 𝑥𝑛 với
xác suất chƣa biết. Tiến hành m lần phép thử, lần thứ nhất ta nhận đƣợc kết quả
𝑌 = 𝑦1 , lần thứ hai ta nhận đƣợc kết quả 𝑌 = 𝑦2 ,…, và lần thứ m ta nhận đƣợc kết
quả 𝑌 = 𝑦𝑚 . Vấn đề đặt ra là ta cần lập bảng phân phối xác suất hậu nghiệm cho X.
Phƣơng pháp: Mở rộng cho trƣờng hợp một giai đoạn, bảng phân phối xác
suất hậu nghiệm của X qua m giai đoạn nhƣ sau:
Bảng 3: Bảng phân phối xác suất hậu nghiệm của X qua nhiều giai đoạn
𝑋
𝑥1
(𝑚 )
𝑃
(𝑚 )
Trong đó 𝑝𝑖
𝑝1
𝑥2
…
(𝑚 )
…
𝑝2
𝑥𝑛
(𝑚 )
𝑝3
đƣợc xác định nhƣ sau
(𝑚 )
𝑝𝑖
=
𝑃 𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦1 , 𝑦2 , … , 𝑦𝑚 𝑥𝑖 )
𝑋 = 𝑥𝑖 𝑃(𝑌 = 𝑦1 , 𝑦2 , … , 𝑦𝑚 𝑥𝑖 )
𝑚
𝑖=1 𝑃
Với
𝑃 𝑌 = 𝑦1 , 𝑦2 , … , 𝑦𝑚 𝑥𝑖
= 𝑃 𝑌 = 𝑦1 𝑋 = 𝑥𝑖 . 𝑃 𝑌 = 𝑦2 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦1 …
… 𝑃(𝑌 = 𝑦𝑚 |𝑋 = 𝑥𝑖 , 𝑌 = 𝑦1 , 𝑌 = 𝑦2 , … , 𝑌 = 𝑦𝑚 −1 )
Ví dụ 1.5: Trở lại ví dụ 1.4, giả sử ta chọn lần lƣợt 2 viên bi từ hộp, lần đầu
ta chọn đƣợc 1 viên bi đỏ, lần 2 ta chọn tiếp 1 viên bi thì thấy kết quả là viên bi đen.
Gọi X là viên bi đỏ trong hộp. Lập bảng phân phối xác suất hậu nghiệm của 𝑋.
Giải
Ta có
𝑃 𝑌 = 0 𝑋 = 𝑥𝑖 , 𝑌 = 1 =
4−𝑖
4
Lập bảng tính sau:
𝑥𝑖
𝑃(𝑋
= 𝑥𝑖 )
𝑃(𝑌 = 1|𝑋
= 𝑥𝑖 )
𝑃(𝑌 = 0|𝑋
= 𝑥𝑖 , 𝑌 = 1)
(1)(2)(3)
𝑃(𝑋 = 𝑥𝑖 |𝑌
= 1, 𝑌 = 0)
(1)
(2)
(3)
0
1/6
0
0
0
0
1
1/6
1/5
¼
1/120
0,034
2
1/6
2/5
2/4
4/120
0,133
3
1/6
3/5
¾
9/120
0,300
4
1/6
4/5
1
4/30
0,533
5
1/6
5/5
0
0
0
8
1/4
1
Từ bảng tính trên ta nhận đƣợc bảng phân phối xác suất hậu nghiệm của X là
X
0
1
2
3
4
5
P
0
0,034
0,133
0,3
0,533
0
b. Bảng phân phối xác suất hậu nghiệm tham số của một số phân phối đặc biệt
Tham số tỷ lệ trong phân phối nhị thức
Bài toán: Giả sử đại lƣợng ngẫu nhiên có phân phối nhị thức với xác suất
thành công là 𝑝 với 𝑝 là đại lƣợng ngẫu nhiên có thể nhận các giá trị: 𝑝1 , 𝑝2 , … , 𝑝𝑚
với xác suất tiên nghiệm tƣơng ứng 𝑞1 , 𝑞2 , … , 𝑞𝑚 . Chọn một mẫu gồm n phần tử và
gọi Y là số lần thành công. Ta cần tìm bảng phân phối xác suất hậu nghiệm của p
khi Y nhận giá trị cụ thể 𝑌 = 𝑘.
Bảng phân phối xác suất hậu nghiệm
Theo công thức Bayes, bảng phân phối xác suất hậu nghiệm của tham số p nhƣ sau
Bảng 4: Bảng phân phối xác suất hậu nghiệm trong phân phối nhị thức
𝑝
𝑃
𝑝1
(𝐵)
𝑝1
𝑝2
(𝐵)
𝑝2
…
𝑝𝑚
…
𝑝𝑚
(𝐵)
Trong đó
(𝐵)
𝑝𝑖
= 𝑃 𝑝 = 𝑝𝑖 𝑌 = 𝑘 =
𝑃 𝑝 = 𝑝𝑖 𝑃(𝑌 = 𝑘|𝑝 = 𝑝𝑖 )
𝑚
𝑖=1 𝑃 𝑝 = 𝑝𝑖 𝑃(𝑌 = 𝑘|𝑝 = 𝑝𝑖 )
Và
𝑃 𝑝 = 𝑝𝑖 = 𝑞𝑖 , 𝑃 𝑌 = 𝑘 𝑝 = 𝑝𝑖 = 𝐶𝑛𝑘 𝑝𝑖𝑘 1 − 𝑝𝑖
𝑛−𝑘
Tham số trung bình của phân phối chuẩn
Mẫu quan sát qua một giai đoạn
Cho đại lƣợng ngẫu nhiên X có phân phối chuẩn 𝑁(𝜇, 𝜎 2 ) với 𝜎 2 đã biết và
𝜇 chƣa biết. Giả sử 𝜇 nhận đƣợc các giá trị 𝜇1 , 𝜇2 , … , 𝜇𝑛 với xác suất tiên nghiệm
𝑃 𝜇 = 𝜇𝑖 = 𝑝𝑖 . Chọn một mẫu ngẫu nhiên đƣợc một giá trị cụ thể của 𝑋 là 𝑥0 . Cần
tìm xác suất hậu nghiệm cho các giá trị của 𝜇𝑖 , 𝑖 = 1,2, … , 𝑛.
Bảng phân phối xác suất hậu nghiệm của 𝝁
Áp dụng công thức Bayes ta đƣợc bảng phân phối xác suất hậu nghiệm của 𝜇
nhƣ sau
9
Bảng 5: Bảng phân phối xác suất hậu nghiệm của 𝝁 qua một gia đoạn
𝜇
𝑃
𝜇1
𝜇2
(𝑁)
⋯
(𝑁)
𝑝1
⋯
𝑝2
𝜇𝑛
(𝑁)
𝑝𝑛
Trong đó
(𝑁)
𝑝𝑖
= 𝑃 𝜇 = 𝜇𝑖 𝑋 = 𝑥0 ) =
𝑃 𝜇 = 𝜇𝑖 𝑓(𝑥0 |𝜇𝑖 )
𝑛
𝑖=1 𝑃 𝜇 = 𝜇𝑖 𝑓(𝑥0 |𝜇𝑖 )
Với
𝑓 𝑥0 𝜇𝑖 =
1
𝜎 2𝜋
𝑒𝑥𝑝 −
(𝑥0 − 𝜇𝑖 )2
2𝜎 2
Mẫu quan sát qua nhiều giai đoạn
Cho đại lƣợng ngẫu nhiên X có phân phối chuẩn 𝑁(𝜇, 𝜎 2 ) với 𝜎 2 đã biết
nhƣng 𝜇 thì chƣa biết. Giả sử 𝜇 có thể nhận các giá trị 𝜇1 , 𝜇2 , … , 𝜇𝑛 với xác suất tiên
nghiệm 𝑃 𝜇 = 𝜇𝑖 = 𝑝𝑖 . Thực hiện phép thử 𝑚 lần ta đƣợc các giá trị của 𝑋 lần
lƣợt là 𝑥1 , 𝑥2 , … , 𝑥𝑚 . Ta lập bảng phân phối xác suất hậu nghiệm cho 𝜇.
Bảng phân phối xác suất hậu nghiệm của 𝝁 qua nhiều giai đoạn
Khi có nhiều giai đoạn ta lần lƣợt tìm xác suất hậu nghiệm của 𝜇 qua từng
giai đoạn một và xác suất hậu nghiệm của giai đoạn trƣớc chính là xác suất tiên
nghiệm cho giai đoạn sau. Bảng phân phối xác suất hậu nghiệm của 𝜇 là dựa vào
xác suất hậu nghiệm của giai đoạn cuối cùng.
1.2.3 Hàm mật độ xác suất hậu nghiệm cho tham số
a. Hàm mật độ xác suất hậu nghiệm khi có một quan sát
Xét đại lƣợng ngẫu nhiên 𝑋 với hàm mật độ xác suất 𝑓(𝑥) có tham số 𝜃 chƣa
biết. Giả sử 𝜃 có hàm mật độ xác suất tiên nghiệm 𝑔(𝜃). Thực hiện một quan sát, ta
đƣợc giá trị cụ thể của 𝑋 là 𝑥0 . Khi đó hàm mật độ xác suất hậu nghiệm của 𝜃 đƣợc
xác định nhƣ sau
𝑔 𝜃 𝑥0 =
𝑔 𝜃 𝑓(𝑥0 |𝜃)
𝑔 𝜃 𝑓 𝑥0 𝜃 𝑑𝑥
b. Hàm mật độ xác suất khi có nhiều quan sát
Trong trƣờng hợp X nhận nhiều giá trị quan sát 𝑥1 , 𝑥2 , … , 𝑥𝑛 thì hàm mật độ xác
suất hậu nghiệm của 𝜃 trở thành nhƣ sau
𝑔 𝜃 𝑥1 , 𝑥2 , … , 𝑥𝑛 =
𝑔 𝜃 𝑓(𝑥 |𝜃)
𝑔 𝜃 𝑓 𝑥 𝜃 𝑑𝑥
Trong đó
1
𝑥=
𝑛
𝑛
𝑥𝑖
𝑖=1
10
c. Hàm mật độ xác suất hậu nghiệm cho tham số của phân phối đặc biệt
Hàm mật độ xác suất phân phối nhị thức
Đại lƣợng ngẫu nhiên rời rạc X đƣợc gọi là có phân phối nhị thức với hai
tham số 𝑛 và 𝑝. Kí hiệu: 𝑋~𝐵(𝑛, 𝑝). Hàm mật độ của nó đƣợc xác định nhƣ sau
𝑓 𝑥 𝑛, 𝑝 =
Các tham số đặc trưng
𝐶𝑛𝑥 𝑝𝑥 𝑞1−𝑥 𝑘𝑖 𝑥 = 0, 𝑛
0
𝑘𝑖 𝑥 ≠ 0, 𝑛
𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛: 𝐸 𝑋 = 𝑛𝑝
𝑃ươ𝑛𝑔 𝑠𝑎𝑖: 𝑉𝑎𝑟 𝑋 = 𝑛𝑝𝑞
Hàm mật độ xác suất hậu nghiệm của phân phối nhị thức
Bài toán: Giả sử đại lƣợng ngẫu nhiên có phân phối nhị thức trong đó xác
suất thành công 𝑝 là đại lƣợng ngẫu nhiên có hàm mật độ xác suất chƣa biết. Thực
hiện 𝑛 lần các phép thử, gọi 𝑌 là số lần thành công. Ta xác định hàm mật độ xác
suất cho tham số 𝑝 theo công thức sau
Giả sử 𝑌 = 𝑚, ta có
𝑔 𝑝𝑌=𝑚 =
𝑔 𝑝 𝑓(𝑌 = 𝑚|𝑝)
1
𝑔
0
𝑝 𝑓(𝑌 = 𝑚|𝑝)
Trong đó 𝑔 𝑝 là hàm mật độ xác suất tiền nghiệm của 𝑝
𝑓 𝑌 = 𝑚 𝑝 = 𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝
𝑛 −𝑚
Các trƣờng hợp đặc biệt
Khi p có hàm mật độ xác suất tiên nghiệm đều
Nếu 𝑝 có hàm mật độ xác suất tiên nghiệm đều trên [0, 1] thì hàm mật độ xác
suất hậu nghiệm của nó là 𝛽(𝑎, 𝑏), trong đó
𝑎 =𝑚+1
𝑏 =𝑛−𝑚+1
Với n là số lần thực hiện phép thử và m là số lần thành công
Chứng minh
Vì p có hàm mật độ xác suất tiên nghiệm đều trên [0, 1] nên ta có
𝑝~𝑅 0, 1 ⟹ 𝑔 𝑝 =
Khi đó
11
1 𝑘𝑖 𝑝 ∈ [0, 1]
0 𝑘𝑖 𝑝 ∉ [0, 1]
𝑔 𝑝𝑌=𝑚 =
𝑓(𝑌 = 𝑚|𝑝)
1
𝑓
0
𝑌 = 𝑚 𝑝 𝑑𝑝
=
𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝
1 𝑚 𝑚
𝐶 𝑝
0 𝑛
𝑛−𝑚
1−𝑝
𝑛−𝑚
Mặt khác
𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝
𝑛−𝑚
=
𝑛!
𝑝𝑚 1 − 𝑝
𝑚! 𝑛 − 𝑚 !
Đặt 𝑚 = 𝑎 − 1, 𝑛 − 𝑚 = 𝑏 − 1 khi đó:
𝑛!
𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝 𝑛 −𝑚 =
𝑝𝑎 −1 1 − 𝑝
𝑎−1 ! 𝑏−1 !
𝑛−𝑚
𝑏 −1
= 𝑀. 𝛽(𝑎, 𝑏)
Do đó
𝑔 𝑝𝑌=𝑚 =
𝑀. 𝛽(𝑎, 𝑏)
1
𝑀. 𝛽(𝑎, 𝑏)
0
= 𝛽(𝑎, 𝑏)
Khi p có hàm mật độ xác suất tiên nghiệm 𝑩𝒆𝒕𝒂
Hàm mật độ xác suất hậu nghiệm cho tham số p của phân phối nhị thức, khi
thực hiện n lần phép thử độc lập và có m lần thành công với hàm mật độ xác suất
tiên nghiệm của tham số p có phân phối 𝛽(𝑎, 𝑏) là phân phối 𝛽(𝑎, 𝑏 ), trong đó
𝑎 =𝑎+𝑚
𝑏 =𝑛+𝑏−𝑚
Chứng minh
Ta có
Γ(𝑎 + 𝑏) 𝑎 −1
𝑝
1−𝑝
𝑛~𝛽 𝑎, 𝑏 ⇔ 𝑔 𝑝 = Γ 𝑎 Γ(𝑏)
0
𝑏 −1
𝑘𝑖 𝑝 ∈ [0,1]
𝑘𝑖 𝑝 ∉ [0,1]
Và
𝑓 𝑌 = 𝑚 𝑝 = 𝐶𝑛𝑚 𝑝𝑚 1 − 𝑝
𝑛 −𝑚
Nên
𝑔 𝑝𝑌=𝑚 =
𝑔 𝑝 . 𝑓(𝑌 = 𝑚|𝑝)
1
𝑔
0
𝑝 . 𝑓 𝑌 = 𝑚 𝑝 𝑑𝑝
Mà
𝑔 𝑝 .𝑓 𝑌 = 𝑚 𝑝 =
Γ(𝑎 + 𝑏) 𝑚 𝑎 +𝑚 −1
.𝐶 𝑝
1−𝑝
Γ 𝑎 Γ(𝑏) 𝑛
𝑛+𝑏−𝑚 −1
Đặt 𝑎 + 𝑚 = 𝑎, 𝑛 + 𝑏 = 𝑏 khi đó
𝑔 𝑝 .𝑓 𝑌 = 𝑚 𝑝 =
Γ(𝑎 + 𝑏) 𝑚 𝑎 −1
.𝐶 𝑝
1−𝑝
Γ 𝑎 Γ(𝑏) 𝑛
Do đó
12
𝑏 −𝑚 −1
= 𝑀. 𝛽(𝑎, 𝑏)
𝑔 𝑝𝑌=𝑚 =
𝑔 𝑝 . 𝑓(𝑌 = 𝑚|𝑝)
1
𝑔
0
𝑝 . 𝑓 𝑌 = 𝑚 𝑝 𝑑𝑝
=
𝑀. 𝛽(𝑎, 𝑏 )
1
𝑀. 𝛽(𝑎, 𝑏 )
0
= 𝛽(𝑎, 𝑏)
Nhận xét: Khi tham số p có phân phối tiên nghiệm đều trên [0, 1] thì kết quả hàm
phân phối xác suất hậu nghiệm của p là trường hợp đặc biệt khi tham số p có phân
phối 𝛽(𝑎, 𝑏), với 𝑎 = 1, 𝑏 = 1.
Hàm mật độ xác suất của phân phối chuẩn
Đại lƣợng ngẫu nhiên liên tục X đƣợc gọi là có phân phối chuẩn với hai tham
số 𝜇 và 𝜎 2 . Kí hiệu: 𝑋~𝑁(𝜇, 𝜎 2 ) và hàm mật độ xác suất của nó đƣợc xác định nhƣ
sau
𝑓 𝑥|𝜇, 𝜎
Các tham số đặc trưng
2
2
1
𝑥−𝜇
=
𝑒𝑥𝑝 −
2𝜎
𝜎 2𝜋
𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛: 𝐸 𝑋 = 𝜇
𝑃ươ𝑛𝑔 𝑠𝑎𝑖: 𝑉𝑎𝑟 𝑋 = 𝜎 2
Hàm mật độ xác suất hậu nghiệm của phân phối chuẩn
Bài toán: Giả sử đại lƣợng ngẫu nhiên X có phân phối chuẩn với tham số
trung bình là 𝜇 chƣa biết, phƣơng sai 𝜎 2 đã biết. Giả sử 𝜇 có hàm mật độ xác suất là
𝑔(𝜇). Thực hiện một quan sát ta đƣợc một giá trị cụ thể của X là 𝑥0 . Ta tìm mật độ
xác suất hậu nghiệm của 𝜇.
Hàm mật độ xác suất hậu nghiệm đƣợc xác định bởi công thức
𝑔 𝜇 𝑥0 =
𝑔 𝜇 . 𝑓(𝑥0 |𝜇)
+∞
−∞
𝑔 𝜇 . 𝑓 𝑥0 𝜇 𝑑𝜇
Trong đó
𝑓 𝑥0 𝜇 =
1
𝜎 2𝜋
𝑒𝑥𝑝 −
2
𝑥0 − 𝜇
2𝜎 2
Trường hợp 𝝁 có phân phối tiên nghiệm chuẩn 𝝁~𝑵(𝒎, 𝒔𝟐 )
Ta có
1
𝜇−𝑚
𝑔 𝜇 =
𝑒𝑥𝑝 −
2𝑠 2
𝑠 2𝜋
1
1
𝑔 𝜇 . 𝑓 𝑥0 𝜇 =
𝑒𝑥𝑝 −
2𝜋𝑠𝜎
2
13
𝑥0 − 𝜇
𝜎2
2
2
𝜇−𝑚
+
𝑠2
2
Xét
1
𝑃=−
2
=−
𝑥0 − 𝜇
𝜎2
2
𝜇−𝑚
+
𝑠2
2
1
𝑠 2 + 𝑚2 𝜇 2 − 2 𝑥0 𝑠 2 + 𝑚𝜎 2 𝜇 + 𝑠 2 𝑥02 + 𝑚2 𝜎 2
2𝜎 2 𝑠 2
=−
𝑠2 + 𝜎2 2
𝑥0 𝑠 2 + 𝑚𝜎 2
𝑠 2 𝑥02 + 𝑚2 𝜎 2
𝜇
−
2
𝜇
+
2𝜎 2 𝑠 2
𝑠2 + 𝜎2
𝑠2 + 𝜎2
𝑠2 + 𝜎2
=−
2𝜎 2 𝑠 2
𝑥0 𝑠 2 + 𝑚𝜎 2
𝜇−
𝑠2 + 𝜎2
2
+𝑃
Với P là hằng số đƣợc điều chỉnh thích hợp.
Do đó
𝑔 𝜇 . 𝑓 𝑥0 𝜇 =
1
2𝜋𝑠𝜎
𝑒𝑥𝑝 −
1
2𝜎 2 𝑠 2
𝜇−
𝑥 0 𝑠 2 +𝑚 𝜎 2
𝑠 2 +𝜎 2
2
+𝑃
1
𝑠2 + 𝜎2
𝑥0 𝑠 2 + 𝑚𝜎 2
=
𝑒𝑥𝑝 −
𝜇−
2𝜋𝑠𝜎
2𝜎 2 𝑠 2
𝑠2 + 𝜎2
𝑔 𝜇 𝑥0 =
2
. 𝑒𝑃
𝑔 𝜇 . 𝑓 𝑥0 𝜇
+∞
−∞
=−
𝑔 𝜇 . 𝑓 𝑥0 𝜇 𝑑𝜇
1
𝑠𝜎
+ 𝜎2
𝑠2
1
𝑥0 𝑠 2 + 𝑚𝜎 2
𝑒𝑥𝑝 −
𝜇−
𝑠2𝜎2
𝑠2 + 𝜎2
2𝜋
2 2
2
𝑠 +𝜎
2
Đặt:
𝑥0 𝑠 2 + 𝑚𝜎 2 1
𝑠2 + 𝜎2
𝜇=
, 2= 2 2
𝑠2 + 𝜎2
𝑎
𝑠 𝜎
1
1
𝑔 𝜇 =
𝑒𝑥𝑝 − 2 𝜇 − 𝜇 2
2𝑎
𝑎 2𝜋
Khi đó phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với
𝑥0 𝑠 2 + 𝑚𝜎 2 2
𝑠2𝜎2
𝑚=
,𝑠 = 2
𝑠2 + 𝜎2
𝑠 + 𝜎2
Trường hợp khi có nhiều quan sát cho trung bình
14
Khi thực hiện n lần quan sát cho X ta nhận đƣợc các giá trị cụ thể
𝑥1 , 𝑥2 , … , 𝑥𝑛 , khi đó hàm mật độ xác suất cho 𝜇 đƣợc xác định nhƣ sau
𝑔 𝜇 𝑥1 , 𝑥2 , … , 𝑥𝑛 =
𝑔 𝜇 . 𝑓 𝑥| 𝜇
+∞
−∞
𝑔 𝜇 . 𝑓 𝑥| 𝜇 𝑑𝜇
Xét trong trƣờng hợp đặc biệt 𝑋𝑖 có phân phối chuẩn 𝑋𝑖 ~𝑁(𝑚, 𝑠 2 ) và có
hàm mật độ
1
𝜇−𝑚
𝑓 𝑥𝑖 |𝜇 =
𝑒𝑥𝑝 −
2𝑠 2
𝑠 2𝜋
2
Thì phân phối hậu nghiệm của 𝜇 cũng là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với
𝑛𝑥𝑠 2 + 𝑚𝜎 2 2
𝑠2𝜎2
𝑚=
,𝑠 =
𝑛. 𝑠 2 + 𝜎 2
𝑛. 𝑠 2 + 𝜎 2
15
CHƢƠNG 2: ƢỚC LƢỢNG THAM SỐ THỐNG KÊ
BẰNG PHƢƠNG PHÁP BAYES
Một đại lƣợng ngẫu nhiên đƣợc đặc trƣng bởi các tham số mà trong thực tế
hầu nhƣ không thể biết đƣợc chúng một cách chính xác. Do đó, để xác định đƣợc
những tham số này ngƣời ta sẽ ƣớc lƣợng chúng từ mẫu đã chọn. Bài toán ƣớc
lƣợng tham số thống kê là bài toán ƣớc lƣợng giá trị tham số chƣa biết của đại
lƣợng ngẫu nhiên dựa vào quan sát trên mẫu đƣợc lấy ra. Thông thƣờng các tham số
cần ƣớc lƣợng là trung bình, phƣơng sai và tỷ lệ những phần tử nào đó đang đƣợc
quan tâm trong tổng thể. Căn cứ vào kết quả ƣớc lƣợng, ngƣời ta chia bài toán ƣớc
lƣợng tham số thống kê thành hai loại là ƣớc lƣợng điểm và ƣớc lƣợng khoảng tham
số thống kê.
2.1.
ƢỚC LƢỢNG ĐIỂM THAM SỐ THỐNG KÊ
Khi nghiên cứu đại lƣợng ngẫu nhiên X của tổng thể, chúng ta thƣờng không
biết phân phối xác suất của nó nhƣ thế nào, vì thế không thể biết chính xác các tham
số đặc trƣng. Ƣớc lƣợng điểm của các giá trị tham số chƣa biết của X (một tham số
hoặc nhiều tham số) là việc dựa trên một mẫu ( X1 , X 2 ,..., X n ) để tìm đƣợc một thống
kê ˆ( X , X ,..., X ) để thay thế tham số chƣa biết.
1
2
n
Việc xác định điểm ƣớc lƣợng bằng phƣơng pháp Bayes của tham số chƣa
biết sẽ dựa vào phân phối xác suất hậu nghiệm của tham số đó.
Tuy nhiên, khi ƣớc lƣợng tham số chƣa biết bằng phƣơng pháp ƣớc lƣợng
điểm thì ta không biết đƣợc mức độ chính xác của ƣớc lƣợng. Vì thế, không đánh
giá đƣợc mức độ sai lầm khi ta dùng ˆ thay cho . Để khắc phục các hạn chế đó,
ta sử dụng ƣớc lƣợng khoảng tin cậy cho tham số .
2.2.
ƢỚC LƢỢNG KHOẢNG THAM SỐ THỐNG KÊ
Giả sử là một tham số của biến ngẫu nhiên X cần biết. Ƣớc lƣợng khoảng
tham số là xác định khoảng ( 1 ; 2 ) sao cho xác suất để ( 1 ; 2 ) bằng một độ
tin cậy cho trƣớc.
Trong bài toán ƣớc lƣợng khoảng, ta sử dụng một số kí hiệu sau
: Mức ý nghĩa, là khả năng có thể mắc phải sai lầm khi ƣớc
lƣợng.
1- : Độ tin cậy của ƣớc lƣợng.
( 1; 2 ): Khoảng tin cậy của ƣớc lƣợng.
Thông thƣờng trong thực tế ta chỉ ƣớc lƣợng khoảng tham số với khoảng tin
cậy đối xứng. Trong phần này để ngắn gọn ta chỉ nói “ƣớc lƣợng” thay cho cách nói
đầy đủ “ƣớc lƣợng khoảng tin cậy đối xứng”. Khi đó, tham số cần ƣớc lƣợng
thuộc khoảng (1; 2 ) (0 ; 0 ) , trong đó
16
0 là ƣớc lƣợng điểm của tham số ,
là độ chính xác hay sai số của ƣớc lƣợng.
Sau đây là một số bài toán ƣớc lƣợng tham số cơ bản bằng phƣơng pháp
Bayes.
2.2.1. Một số bài toán ƣớc lƣợng liên quan đến trung bình
a. Ƣớc lƣợng trung bình
Giả sử đại lƣợng ngẫu nhiên X có tham số trung bình E(X) = chƣa biết.
Cho trƣớc số khá nhỏ, ƣớc lƣợng trung bình với mức ý nghĩa là việc chỉ ra
một khoảng ( 1 , 2 ) sao cho P(1 2 ) = 1 .
Trường hợp biết phương sai 𝝈𝟐
Giả sử đại lƣợng ngẫu nhiên X có tham số trung bình 𝜇 chƣa biết nhƣng
phƣơng sai 𝜎 2 đã biết. Tham số 𝜇 có phân phối tiên nghiệm chuẩn 𝑁 𝑚, 𝑠 2 . Chọn
một mẫu gồm n phần tử. Tham số trung bình mẫu là đại lƣợng ngẫu nhiên có phân
2
phối chuẩn 𝑁(𝜇, 𝜎 𝑛 ). Khi đó, 𝜇 có phân phối hậu nghiệm là phân phối chuẩn
𝑁(𝑚, 𝑠 2 ) với
𝜎 2 𝑚 + 𝑛𝑥𝑠 2
𝜎2𝑠2
2
𝑚=
,
𝑠 = 2
𝜎 2 + 𝑛𝑠 2
𝜎 + 𝑛𝑠 2
Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm
(1 , 2 ) của 𝜇 là
𝑚 − 𝑢1−𝛼 . 𝑠 , 𝑚 + 𝑢1−𝛼 . 𝑠
2
2
Trường hợp chưa biết phương sai 𝝈𝟐
Khi 𝐧 ≥ 𝟑𝟎
Giả sử đại lƣợng ngẫu nhiên X có tham số trung bình 𝜇 chƣa biết và phƣơng
sai 𝜎 chƣa biết. Tham số 𝜇 có phân phối tiên nghiệm chuẩn 𝑁 𝑚, 𝑠 2 . Chọn một
mẫu gồm n phần tử. Trong trƣờng hợp này, phƣơng sai 𝜎 2 chƣa biết ta sẽ thay bằng
phƣơng sai mẫu điều chỉnh là
2
1
𝜎2 =
𝑛−1
𝑛
(𝑥𝑖 − 𝑥)2
𝑖=1
Khi đó, tham số trung bình mẫu là đại lƣợng ngẫu nhiên có phân phối chuẩn
2
2
𝜎
𝑁(𝜇,
𝑛 ) và 𝜇 có phân phối hậu nghiệm cũng là phân phối chuẩn 𝑁(𝑚, 𝑠 ) với
17
𝜎 2 𝑚 + 𝑛𝑦𝑠 2 2
𝜎2𝑠2
𝑚=
,𝑠 = 2
𝜎 2 + 𝑛𝑠 2
𝜎 + 𝑛𝑠 2
Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm
(1 , 2 ) của 𝜇 là
𝑚 − 𝑢1−𝛼 2 . 𝑠 , 𝑚 + 𝑢1−𝛼 2 . 𝑠
Khi 𝒏 < 30
Ta thực hiện tƣơng tự nhƣ trƣờng hợp trên và thay thế phân vị chuẩn 𝑢1−𝛼
bằng phân vị Student với bậc tự do 𝑛 − 1, mức xác suất 𝛼 2.
2
Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm
(1 , 2 ) của 𝜇 trong trƣờng hợp này là
(𝑚 − 𝑡𝛼
2
𝑛 − 1 . 𝑠 , 𝑚 + 𝑡𝛼
2
𝑛 − 1 . 𝑠)
Ví dụ 2.1: Hàm lƣợng vitamin trong một loại trái cây là một đại lƣợng ngẫu
nhiên có phân phối chuẩn với tham số trung bình chƣa biết và độ lệch chuẩn bằng 3.
Giả sử hàm lƣợng vitamin có phân phối tiên nghiệm chuẩn 𝑁(30; 102 ). Chọn một
mẫu gồm 10 trái cây đo đƣợc hàm lƣợng vitamin (đơn vị %) ta có số liệu sau
38.7 40.4 37.2 36.6 35.9 34.7 37.6 35.1 37.5 35.6
Hãy ƣớc lƣợng hàm lƣợng vitamin trung bình hậu nghiệm của trái cây với độ
tin cậy 95%.
Giải
Gọi 𝜇 là hàm lƣợng vitamin trung bình của trái cây
Đây là bài toán ƣớc lƣợng khoảng trung bình trong trƣờng hợp phƣơng sai đã biết.
Ta có
1 38,7 + 40,4 + 37,2 + 36,6 + 35,9 + 34,7 +
= 36,93
37,6 + 35,1 + 37,5 + 35,6
10
Vì 𝜇 có phân phối tiên nghiệm chuẩn 𝑁(30, 102 ) nên phân phối hậu nghiệm của 𝜇
là phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với
𝑦=
𝑚=
𝑚/𝑠 2 + 𝑛𝑦/𝜎 2 30/102 + 10.36,93/32
=
= 34,13
𝑛/𝜎 2 + 1/𝑠 2
10/32 + 1/102
𝜎2 𝑠2
32 . 102
𝑠 = 2
=
= 0,89
𝜎 + 𝑛𝑠 2 32 + 10. 102
Do đó với mức ý nghĩa 𝛼 = 0,05 ta đƣợc
2
𝑚 − 𝑢1−𝛼 2 . 𝑠 = 34,13 − 1,96. 0,89 = 32,28
𝑚 + 𝑢1−𝛼 2 . 𝑠 = 34,13 + 1,96. 0.89 = 35,98
Vậy hàm lƣợng vitamin trung bình của trái cây là (32,28 ; 35,98).
18
Ví dụ 2.2: Một ngƣời muốn ƣớc lƣợng chiều cao trung bình của loài cây
trồng, đƣợc trồng trên những vùng đất khác nhau. Chọn giá trị tiền nghiệm của
trung bình là phân phối chuẩn N (30, 42 ) . Giả sử chiều cao này có phân phối chuẩn
với độ lệch chuẩn chƣa biết. Chọn một mẫu ngẫu nhiên gồm 15 cây ta có đƣợc
trung bình mẫu là 32,5 cm, độ lệch chuẩn mẫu điều chỉnh là 2,2 cm. Hãy ƣớc lƣợng
chiều cao trung bình hậu nghiệm của cây với độ tin cậy 95%.
Giải
Gọi 𝜇 là chiều cao trung bình của cây
Đây là bài toán ƣớc lƣợng khoảng trung bình trong trƣờng hợp phƣơng sai chƣa
biết.
Ta có 𝑦 = 32,5, 𝜎 2 = 2,2 , 𝑛 = 15 < 30
Vì 𝜇 có phân phối tiên nghiệm chuẩn N (30,4 2) nên phân phối hậu nghiệm của 𝜇 là
phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) với
2
𝑚=
2
𝑚/𝑠 + 𝑛𝑦/𝜎
=
𝑛/𝜎 2 + 1/𝑠 2
30. 1 42 + 15.32,5. 1 2,22
15
2,22
+ 1 42
= 32,45
𝜎2𝑠2
2,22 . 42
𝑠 = 2
=
= 0,3163
𝜎 + 𝑛𝑠 2 2,22 + 15. 42
2
Do đó
𝑚−. 𝑡𝛼
2
𝑚 − 𝑡𝛼
2
𝑛 − 1 𝑠 = 32,45 − 2,145. 0,3163 = 31,244
𝑛 − 1 . 𝑠 = 32,45 + 1,96 0,3163 = 33,656
Vậy chiều cao trunng bình của cây là khoảng (31,244; 33,656).
b. Ƣớc lƣợng sự khác nhau của hai trung bình
Bài toán: Giả sử X1 và X2 là hai đại lƣợng ngẫu nhiên có phân phối chuẩn
𝑋1 ~𝑁(𝜇1 , 𝜎12 ), 𝑋2 ~𝑁 𝜇2 , 𝜎22 , chúng ta muốn ƣớc lƣợng sự khác nhau giữa 𝜇1 và
𝜇2 dựa trên hai mẫu quan sát độc lập của X1 và X2 với độ tin cậy 1 − 𝛼 cho trƣớc.
Ở đây ta chỉ xét trƣờng hợp đã biết phƣơng sai và hai phƣơng sai này bằng
nhau.
Ta có hai mẫu 𝑦11 , … , 𝑦𝑛 1 1 , (𝑦12 , … , 𝑦𝑛 2 2 ) của hai đại lƣợng ngẫu nhiên X1
và X2 độc lập nên phân phối hậu nghiệm của chúng cũng độc lập. Giả sử ta có phân
phối tiên nghiệm: 𝜇1 ~𝑁(𝑚1 , 𝑠12 ) và 𝜇2 ~𝑁(𝑚2 , 𝑠12 ) . Khi đó
19
𝜇1 |𝑦11 , … , 𝑦𝑛 1 1 ~𝑁(𝑚1 , 𝑠12 )
𝜇2 |𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚1 , 𝑠22 )
Phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó
𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12
𝜎12 𝑠12
2
𝑚1 =
; 𝑠1 =
𝑛1 𝑠12 + 𝜎12
𝑛1 𝑠12 + 𝜎12
Phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong đó
𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22
𝜎22 𝑠22
2
𝑚2 =
; 𝑠2 =
𝑛2 𝑠22 + 𝜎22
𝑛2 𝑠22 + 𝜎22
Lúc này phân phối hậu nghiệm của 𝜇𝑑 = 𝜇1 − 𝜇2 đƣợc xác định nhƣ sau
𝜇𝑑 |𝑦11 , … , 𝑦𝑛 1 1 , 𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚𝑑 , 𝑠𝑑2 )
Trong đó
𝑚𝑑 = 𝑚1 − 𝑚2 ; 𝑠𝑑2 = 𝑠12 + 𝑠22
Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì ƣớc lƣợng khoảng cho sự khác
nhau giữa hai trung bình là
𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 , 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑
= 𝑚1 − 𝑚2 − 𝑢1−𝛼 2 . 𝑠12 + 𝑠22 , 𝑚1 − 𝑚2 + 𝑢1−𝛼 2 . 𝑠12 + 𝑠22
Ví dụ 2.3: Tốc độ ánh sáng là đại lƣợng ngẫu nhiên có phân phối chuẩn với
độ lệch chuẩn là 100, tốc độ trung bình chƣa biết. Một nhà vật lý thực hiện 2 lần thí
nghiệm. Lần thử thứ nhất đo 20 lần có tốc độ ánh sáng trung bình 299909 và lần thử
thứ hai đo 23 lần và có tốc độ ánh sáng trung bình là 299756. Giả sử tốc độ ánh
sáng có phân phối tiên nghiệm chuẩn N(300000, 5002).
Ƣớc lƣợng sự khác nhau giữa 2 lần thí nghiệm với độ tin cậy 95%.
Giải
Ta có phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó
𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12 20.299909. 5002 + 300000. 1002
𝑚1 =
=
= 299909,98
𝑛1 𝑠12 + 𝜎12
20. 5002 + 1002
𝑠12 =
𝜎12 𝑠12
1002 . 5002
=
= 499
𝑛1 𝑠12 + 𝜎12 20. 5002 + 1002
Tƣơng tự, phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong
đó
𝑚2 =
𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22
23.299756. 5002 + 300000. 1002
=
= 299756,42
𝑛2 𝑠22 + 𝜎22
23. 5002 + 1002
20
𝑠22
𝜎22 𝑠22
1002 . 5002
=
=
= 434,03
𝑛2 𝑠22 + 𝜎22 23. 5002 + 1002
Phân phối hậu nghiệm của 𝜇𝑑 có phân phối chuẩn 𝜇𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2
Trong đó
𝑚𝑑 = 𝑚1 − 𝑚2 = 299909,98 − 299756,42 = 152,76
𝑠𝑑2 = 𝑠12 + 𝑠22 = 499 + 434,03 = 933,03
Với độ tin cậy 95% khoảng ƣớc lƣợng cho sự khác nhau của hai lần thí nghiệm là
𝑚𝑑 − 𝑢1−𝛼 𝑠𝑑 , 𝑚𝑑 + 𝑢1−𝛼 𝑠𝑑
2
2
= 152,76 − 1,96. 933,03, 152,76 + 1,96. 933,03 = 92,89; 212,64
2.2.2. Một số bài toán ƣớc lƣợng liên quan đến tỷ lệ
a. Ƣớc lƣợng tỷ lệ
Giả sử tổng thể có hai loại phần tử, loại phần tử có tính chất A và loại ngƣợc
lại không có tính chất A với tỷ lệ phần tử có tính chất A là 𝑝 chƣa biết. Với độ tin
cậy 1 − 𝛼 cho trƣớc, ta cần tìm khoảng 𝑝1 , 𝑝2 chứa p sao cho
𝑃 𝑝1 < 𝑝 < 𝑝2 = 1 − 𝛼
Giả sử phân phối tiên nghiệm của tỷ lệ là 𝛽(𝑎, 𝑏). Khi đó phân phối hậu nghiệm
của 𝑝 là 𝛽 𝑎, 𝑏 . Trong đó 𝑎 = 𝑎 + 𝑚, 𝑏 = 𝑏 + 𝑛 − 𝑚.
Ta chứng minh đƣợc rằng 𝛽(𝑎, 𝑏) xấp xỉ phân phối chuẩn với trung bình và
phƣơng sai
𝐸 𝑝 =
𝑎
𝑎+𝑏
𝑎𝑏
, 𝑉𝑎𝑟 𝑝 =
2
𝑎 + 𝑏 (𝑎 + 𝑏 + 1)
Do đó, với độ tin cậy 1 − 𝛼 cho trƣớc thì khoảng ƣớc lƣợng hậu nghiệm
𝑝1 , 𝑝2 của 𝑝 là
𝐸 𝑝 − 𝜀, 𝐸 𝑝 + 𝜀
Với
𝜀 = 𝑢1−𝛼
2
𝑉𝑎𝑟 𝑝
Ví dụ 2.4: Gọi 𝑝 là tỷ lệ công ty làm ô nhiễm môi trƣờng ở một tỉnh. Giả
sử 𝑝 có phân phối tiên nghiệm 𝛽(1; 4). Chọn một mẫu gồm 145 công ty có 12
công ty làm ô nhiễm môi trƣờng, với độ tin cậy 95% hãy ƣớc lƣợng công ty làm ô
nhiễm môi trƣờng của tỉnh.
Giải
Ta có hàm mật độ xác suất hậu nghiệm của p là 𝛽(𝑎, 𝑏 ) với
21
𝑎 = 𝑎 + 𝑚 = 1 + 12 = 13
𝑏 = 𝑛 + 𝑏 − 𝑚 = 145 + 4 − 1 = 148
Nhƣ vậy 𝛽 𝑎, 𝑏 = 𝛽(13,148).
Do đó
𝐸 𝑝 =
𝑉𝑎𝑟 𝑝 =
=
𝑎
𝑎+𝑏
13
= 0,081
13 + 148
=
𝑎𝑏
𝑎+𝑏
2
𝑎+𝑏+1
13.148
= 0,00046
13 + 148 2 13 + 148 + 1
Khi đó p xấp xỉ phân phối chuẩn N(0,081; 0,00046)
Với mức ý nghĩa 𝛼 = 0,05, ta đƣợc
𝜀 = 𝑢1−𝛼
2
𝑉𝑎𝑟 𝑝 = 1.96
13.148
= 0,042
13 + 148 2 13 + 148 + 1
Vậy tỷ lệ công ty làm ô nhiễm của một tỉnh là
0,081 − 0,042; 0,081 + 0,042 = (0.039 ; 0.123).
b. Ƣớc lƣợng sự khác nhau của hai tỷ lệ
Giả sử hai tổng thể 𝑤1 và 𝑤2 có tỷ lệ những phần tử có tính chất A nào đó
chƣa biết. Gọi 𝑝1 , 𝑝2 là tỷ lệ những phần tử có tính chất A của 𝑤1 và 𝑤2 . Chọn một
mẫu gồm 𝑛1 phần tử từ 𝑤1 ta có 𝑚1 và 𝑛2 phần tử từ 𝑤2 ta có 𝑚2 phần tử có tính
chất A.
Giả sử 𝑝1 có phân phối tiên nghiệm 𝛽(𝑎1 , 𝑏1 ) và 𝑝2 có phân phối tiên
nghiệm 𝛽(𝑎2 , 𝑏2 ), với độ tin cậy 1 − 𝛼 cho trƣớc.
Ta cần ƣớc lƣợng trung bình sự khác nhau của 2 tỷ lệ 𝑝𝑑 = 𝑝1 − 𝑝2 .
Ta chỉ xét trƣờng hợp hai phân phối trên độc lập
Khi đó hai phân phối hậu nghiệm của 𝑝1 và 𝑝1 là phân phối Beta độc lập sau
𝑝1 ~𝛽 𝑎1 , 𝑏1 , 𝑝2 ~𝛽(𝑎2 , 𝑏2 )
Trong đó
𝑎1 = 𝑎1 + 𝑚1 , 𝑏1 = 𝑏1 + 𝑛1 − 𝑚1
𝑎2 = 𝑎2 + 𝑚2 , 𝑏2 = 𝑏2 + 𝑛2 − 𝑚2
Ta có phân phối Beta xấp xỉ phân phối chuẩn, do đó phân phối hậu nghiệm của
𝑝𝑑 = 𝑝1 − 𝑝2 cũng có phân phối chuẩn 𝑁(𝑚𝑑 , 𝑠𝑑2 ), trong đó
𝑚𝑑 =
𝑎1
𝑎1 + 𝑏1
22
−
𝑎2
𝑎2 + 𝑏2
𝑠𝑑2 =
𝑎1 𝑏1
𝑎1 + 𝑏1
2
𝑎1 + 𝑏1 + 1
+
𝑎2 𝑏2
𝑎2 + 𝑏2
2
𝑎2 + 𝑏2 + 1
Do đó, khoảng ƣớc lƣợng cho sự khác nhau giữa hai tỷ lệ với độ tin cậy 1 − 𝛼 là
𝑚𝑑 − 𝑢1−𝛼 . 𝑠𝑑 ; 𝑚𝑑 + 𝑢1−𝛼 . 𝑠𝑑
2
2
23
CHƢƠNG 3: KIỂM ĐỊNH THAM SỐ THỐNG KÊ
BẰNG PHƢƠNG PHÁP BAYES
3.1.
TỔNG QUAN VỀ BÀI TOÁN KIỂM ĐỊNH THỐNG KÊ
Trong thực tế, dựa vào số liệu mẫu thu đƣợc ngƣời ta thƣờng có nhu cầu
kiểm tra một vấn đề thống kê nào đó là đúng hay sai. Vấn đề thống kê đƣợc đặt ra ở
đây đƣợc gọi là giả thiết thống kê. Việc kiểm định các giả thiết thống kê có liên
quan đến các tham số đặc trƣng của tổng thể đƣợc gọi là kiểm đinh tham số thống
kê. Để kiểm tra giả thiết thống kê là đúng hay sai, trƣớc tiên ta xây dựng hai mệnh
đề trái ngƣợc nhau có liên quan đến tham số cần kiểm định đƣợc gọi là giả thiết (H)
và đối thiết (𝐻)
Trong bài toán kiểm định về tham số thống kê , ta sử dụng cặp giả thiết,
đối thiết nhƣ sau
H : 0 , H : 0
H : 0 , H : 0
H : 0 , H : 0 .
Trong bài toán kiểm định về hai tham số thống kê 1 và 2 , ta sử dụng cặp
giả thiết, đối thiết nhƣ sau
H : 1 2 , H : 1 2
H : 1 2 , H : 1 2
H : 1 2 , H : 1 2 .
Khi thực hiện kiểm định tham số thống kê ta phải đƣa ra đƣợc kết luận là
chấp nhận hay bác bỏ giả thiết hoặc đối thiết. Tuy nhiên, khi thực hiện kiểm định
không phải lúc nào cũng cho ta một kết luận chính xác. Việc chấp nhận hay bác bỏ
giả thiết đều có thể dẫn tới hai loại sai lầm sau
Sai lầm loại 1: Là sai lầm khi ta bác bỏ giả thiết trong khi nó thật sự
đúng (bác bỏ giả thiết đúng).
Sai lầm loại 2: Là sai lầm khi ta chấp nhận giả thiết trong khi nó thật
sự sai (chấp nhận giả thiết sai).
Ta không thể khẳng định sai lầm nào nghiêm trọng hơn, nhƣng đã gọi là sai
lầm thì tất cả đều không tốt và cần phải đƣợc hạn chế. Ta mong muốn tìm một tiêu
chuẩn kiểm định giả thiết để đồng thời làm cho các xác suất sai lầm loại 1, sai lầm
loại 2 là nhỏ nhất. Các nhà thống kê hạn chế các sai lầm đó theo nghĩa xác suất xảy
ra mỗi sai lầm là nhỏ nhất. Tuy nhiên, khi ta làm giảm sai lầm loại này thì có thể sai
lầm loại kia sẽ tăng lên và ngƣợc lại. Do đó trong bài toán kiểm định ngƣời ta tiến
hành nhƣ sau: Ấn định trƣớc mức xác suất sai lầm loại 1 qua mức ý nghĩa và xây
dựng lý thuyết sao cho khả năng mắc phải sai lầm loại 2 ( ) là nhỏ nhất trong khả
năng có thể. Trong thực tế chúng ta chọn đủ bé (từ 1% đến 10%).
24
Việc thực hiện việc kiểm định tham số thống kê với mức ý nghĩa cho
trƣớc theo phƣơng pháp Bayes có thể đƣợc thực hiện theo quy trình nhƣ sau
Chọn giả thiết, đối thiết
Tính giá trị 𝑝𝑣
Kết luận
𝑛ế𝑢 𝑝𝑣 ≤ 𝛼 𝑡𝑎 𝑏á𝑐 𝑏ỏ 𝑔𝑖ả 𝑡𝑖ế𝑡
𝑛ế𝑢 𝑝𝑣 > 𝛼 𝑡𝑎 𝑐ấ𝑝 𝑛ậ𝑛 𝑔𝑖ả 𝑡𝑖ế𝑡
Trong đó việc xác định 𝑝𝑣 sẽ dựa vào phân phối hậu nghiệm của tham số cần
kiểm định.
Sau đây là một số bài toán kiểm định về tham số trung bình và tỷ lệ.
3.2.
MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TRUNG BÌNH
3.2.1. Kiểm định trung bình
Bài toán
Giả sử đại lƣợng ngẫu nhiên X có phân phối chuẩn với tham số trung bình 𝜇
chƣa biết. Giả sử 𝜇 có phân phối tiền nghiệm chuẩn đã biết.
𝜇 > 𝜇0
Chọn giả thiết 𝐻: 𝜇 = 𝜇0 và một trong các đối thiết 𝐻 : 𝜇 < 𝜇0
𝜇 ≠ 𝜇0
Với độ tin cậy 1 − 𝛼 cho trƣớc ta cần kiểm tra giả thiết đúng hay đối thiết đúng.
Phƣơng pháp
Vấn đề đặt ra là tính giá trị 𝑝𝑣
Nếu chọn đối thiết 𝜇 > 𝜇0 thì
𝑝𝑣 = 0.5 − 𝜑
𝑚 − 𝜇0
𝑠
𝑝𝑣 = 0.5 + 𝜑
𝑚 − 𝜇0
𝑠
Nếu chọn đối thiết 𝜇 < 𝜇0 thì
Nếu chọn đối thiết 𝜇 ≠ 𝜇0 thì
𝑚 − 𝜇0
𝑠
Kết luận: Theo nguyên tắc chung của bài toán kiểm định
𝑝𝑣 = 1 − 2 𝜑
Ví dụ 3.1: Hàm lƣợng vitamin trong một loại trái cây là một đại lƣợng ngẫu
nhiên có phân phối chuẩn với tham số trung bình chƣa biết và độ lệch chuẩn mẫu
bằng 3. Giả sử hàm lƣợng vitamin có phân phối tiên nghiệm chuẩn 𝑁(30; 102 ).
Chọn một mẫu gồm 10 trái cây đo đƣợc hàm lƣợng vitamin (đơn vị %) ta có số liệu
sau
25
38.7, 40.4, 37.2, 36.6, 35.9, 34.7, 37.6, 35.1, 37.5, 35.6
Một nghiên cứu trƣớc đây cho rằng hàm lƣợng vitamin trung bình của trái cây là
35%. Với số liệu quan sát đƣợc cho rằng hàm lƣợng của trái cây lớn hơn 35% thì có
đúng hay không với mức ý nghĩa 5%.
Giải
Chọn giả thiết 𝐻: 𝜇 = 0,35 và đối thiết 𝐻 : 𝜇 > 0,35
Ta có
𝑃𝑣 = 0,5 − 𝜑
𝑚 − 𝜇0
𝑠
Ta có
𝑦=
1 38,7 + 40,4 + 37,2 + 36,6 + 35,9 + 34,7 +
= 36,93
37,6 + 35,1 + 37,5 + 35,6
10
Phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑁 𝑚, 𝑠 2 , trong đó
𝑚𝜎 2 + 𝑛𝑦𝑠 2 30. 32 + 10.36,93. 102
𝑚=
=
= 36,87
𝜎 2 + 𝑛𝑠 2
32 + 10. 102
𝜎2 𝑠2
32 . 102
2
𝑠 = 2
=
= 0,89
𝜎 + 𝑛𝑠 2 32 + 10. 102
Khi đó tính giá trị 𝑃𝑣
𝑃𝑣 = 0,5 − 𝜑
𝑚 − 𝜇0
36,87 − 35
= 0,5 − 𝜑
𝑠
0,89
= 0,5 − 𝜑 1,98 = 0,5 − 0,4761 = 0,0239
Vì 𝑃𝑣 < 𝛼 = 5% nên ta bác bỏ giả thiết.
Vậy việc cho cho rằng hàm lƣợng vitamin trung bình của trái cây là 35% là đúng.
3.2.2. So sánh hai trung bình
a. Trường hợp hai mẫu độc lập
Bài toán: Giả sử X1 và X2 là hai đại lƣợng ngẫu nhiên có phân phối chuẩn
𝑋1 ~𝑁(𝜇1 , 𝜎12 ), 𝑋2 ~𝑁(𝜇2 , 𝜎22 ) . Chúng ta muốn so sánh 𝜇1 và 𝜇2 dựa trên hai mẫu
quan sát độc lập của X1 và X2 với độ tin cậy 1 − 𝛼 cho trƣớc.
Ta chia thành các trƣờng hợp sau
Phƣơng sai đã biết và bằng nhau
26
Ta có hai mẫu 𝑦11 , … , 𝑦𝑛 11 , (𝑦12 , … , 𝑦𝑛 22 ) của hai đại lƣợng ngẫu nhiên X1 và
X2 độc lập nên phân phối hậu nghiệm của chúng cũng độc lập.
Giả sử ta có phân phối tiên nghiệm: 𝜇1 ~𝑁(𝑚1 , 𝑠12 ) và 𝜇2 ~𝑁(𝑚2 , 𝑠12 ), khi đó
𝜇1 |𝑦11 , … , 𝑦𝑛 1 1 ~𝑁(𝑚1 , 𝑠12 )
𝜇2 |𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚1 , 𝑠22 )
Phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó
𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12
𝜎12 𝑠12
2
𝑚1 =
; 𝑠1 =
𝑛1 𝑠12 + 𝜎12
𝑛1 𝑠12 + 𝜎12
Phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong đó
𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22
𝜎22 𝑠22
2
𝑚2 =
; 𝑠2 =
𝑛2 𝑠22 + 𝜎22
𝑛2 𝑠22 + 𝜎22
Lúc này phân phối hậu nghiệm của 𝜇𝑑 = 𝜇1 − 𝜇2 đƣợc xác định nhƣ sau
𝜇𝑑 |𝑦11 , … , 𝑦𝑛 1 1 , 𝑦12 , … , 𝑦𝑛 2 2 ~𝑁(𝑚𝑑 , 𝑠𝑑2 )
Trong đó
𝑚𝑑 = 𝑚1 − 𝑚2 ; 𝑠𝑑2 = 𝑠12 + 𝑠22
Vì vậy, ta có quy trình thực hiện kiểm định nhƣ sau
𝜇𝑑 > 0
Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và một trong các đối thiết 𝐻: 𝜇𝑑 < 0
𝜇𝑑 ≠ 0
Với 𝜇𝑑 = 𝜇1 − 𝜇2
Tính giá trị 𝑃𝑣
Nếu chọn 𝐻 : 𝜇𝑑 > 0 thì
𝑝𝑣 = 0.5 − 𝜑
𝑚𝑑
𝑠𝑑
𝑝𝑣 = 0.5 + 𝜑
𝑚𝑑
𝑠𝑑
Nếu chọn 𝐻 : 𝜇𝑑 < 0 thì
Nếu chọn 𝐻 : 𝜇𝑑 ≠ 0 thì
𝑚𝑑
𝑠𝑑
Kết luận: Theo nguyên tắc chung của bài toán kiểm định
𝑝𝑣 = 1 − 2 𝜑
27
Phƣơng sai chƣa biết và bằng nhau
Trƣớc hết ta ƣớc lƣợng phƣơng sai từ mỗi dữ liệu sau đó sử dụng phƣơng sai
gộp cho việc thay thế 𝜎 2 . Cụ thể phƣơng sai gộp đƣợc tính bằng công thức
2
𝑆𝑝𝑜𝑜𝑙𝑒
𝑛1 − 1 𝑠12 + (𝑛2 − 1)𝑠22
=
𝑛1 + 𝑛2 − 2
Phƣơng sai đã biết và không bằng nhau
Khi biết đƣợc phƣơng sai 𝜎12 và 𝜎22 ta áp dụng công thức sau để tính phƣơng
sai hậu nghiệm 𝑠12 , 𝑠22
𝜎 2 𝑚 + 𝑛𝑠 2 𝑥
𝜎 2 + 𝑛𝑠 2
𝜎2 𝑠2
2
𝑠 = 2
𝜎 + 𝑛𝑠 2
Lúc này phƣơng sai hậu nghiệm của d đƣợc xác định: 𝑠𝑑2 = 𝑠12 + 𝑠22 .
𝑚=
Phƣơng sai chƣa biết và không bằng nhau
Khi chƣa biết phƣơng sai ta sử dụng phƣơng sai mẫu để tìm phƣơng sai hậu
nghiệm 𝑠12 và 𝑠22 . Phƣơng sai hậu nghiệm của d đƣợc xác định 𝑠𝑑2 = 𝑠12 + 𝑠22 .
Trong đó
𝑠𝑖2
𝜎𝑖2 . 𝑠𝑖2
= 2
, ∀𝑖 = 1,2
𝜎𝑖 + 𝑛. 𝑠𝑖2
𝑛𝑖 𝑠𝑖2 𝑦 + 𝑚𝑖 𝜎𝑖2
𝑚𝑖 =
, ∀𝑖 = 1,2
𝑛𝑖 𝑠𝑖2 + 𝜎𝑖2
Ví dụ 3.2: Tốc độ ánh sáng là đại lƣợng ngẫu nhiên có phân phối chuẩn với
độ lệch chuẩn là 100, tốc độ trung bình chƣa biết. Một nhà vật lý thực hiện 2 lần thí
nghiệm. Lần thử thứ nhất đo 20 lần có tốc độ ánh sáng trung bình 299909 và lần thử
thứ hai đo 23 lần và có tốc độ ánh sáng trung bình là 299756. Giả sử tốc độ ánh
sáng có phân phối tiên nghiệm chuẩn N(300000, 5002).
Với mức ý nghĩa 5% nhà vật lý kết luận tốc độ trung bình ánh sáng của thí
nghiệm lần đầu nhỏ hơn lần sau là đúng hay sai?
Giải
Đây là bài toán so sánh hai trung bình trƣờng hợp đã biết phƣơng sai và phƣơng sai
bằng nhau
Ta giải bài toán nhƣ sau. Gọi 𝜇1 và 𝜇2 lần lƣợt là tốc độ ánh sáng trung bình lần thứ
nhất và thứ hai.
28
Ta có phân phối hậu nghiệm của 𝜇1 là phân phối chuẩn 𝜇1 ~𝑁 𝑚1 , 𝑠12 , trong đó
𝑛1 𝑠12 𝑦 + 𝑚1 𝜎12 20.299909. 5002 + 300000. 1002
𝑚1 =
=
= 299909,98
𝑛1 𝑠12 + 𝜎12
20. 5002 + 1002
𝑠12
𝜎12 𝑠12
1002 . 5002
=
=
= 499
𝑛1 𝑠12 + 𝜎12 20. 5002 + 1002
Tƣơng tự, phân phối hậu nghiệm của 𝜇2 là phân phối chuẩn 𝜇2 ~𝑁 𝑚2 , 𝑠22 , trong
đó
𝑚2 =
𝑠22 =
𝑛2 𝑠22 𝑦 + 𝑚2 𝜎22
23.299756. 5002 + 300000. 1002
=
= 299756,42
𝑛2 𝑠22 + 𝜎22
23. 5002 + 1002
𝜎22 𝑠22
1002 . 5002
=
= 434,03
𝑛2 𝑠22 + 𝜎22 23. 5002 + 1002
Phân phối hậu nghiệm của 𝜇𝑑 có phân phối chuẩn 𝜇𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2 , trong đó
𝑚𝑑 = 𝑚1 − 𝑚2 = 299909,98 − 299756,42 = 152,76
𝑠𝑑2 = 𝑠12 + 𝑠22 = 499 + 434,03 = 933,03
Đặt: 𝜇𝑑 = 𝜇1 − 𝜇2
Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 > 0
Tính giá trị 𝑝𝑣
𝑝𝑣 = 0,5 − 𝜑
𝑚𝑑
= 0,5 − 𝜑
𝑠𝑑
152,76
933,03
≈ 0,5 − 0,5 = 0
Do 𝑝𝑣 < 𝛼 = 0,05, nên ta bác bỏ giả thiết, chấp nhận đối thiết.
Vậy tốc độ trung bình của ánh sáng lần đầu lớn hơn lần sau là đúng.
b. So sánh cặp
Đây là bài toán so sánh hai trung bình trong trƣờng hợp hai mẫu phụ thuộc
và phối hợp từng cặp.
Bài toán: Giả sử trên cùng những đối tƣợng ta quan sát một dấu hiệu X qua 2
giai đoạn và đƣợc số liệu cụ thể nhƣ sau
Giai đoạn 1
𝑥1
𝑥2
…
𝑥𝑛
Giai đoạn 2
𝑦1
𝑦2
…
𝑦𝑛
Với độ tin cậy 1 − 𝛼 cho trƣớc ta kiểm tra dấu hiệu X qua 2 giai đoạn này có
giống nhau hay không?
Phƣơng pháp
Đặt 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖 với 𝑑𝑖 có phân phối chuẩn 𝑑𝑖 ~𝑁(𝜇𝑑 , 𝜎𝑑2 ) và 𝜇𝑑 chƣa biết.
Giả sử phân phối tiên nghiệm của 𝑑𝑖 là phân phối chuẩn 𝑑𝑖 ~𝑁(𝑚𝑑 , 𝑠𝑑2 ). Khi đó
phân phối hậu nghiệm của 𝜇𝑑 cũng là phân phối chuẩn 𝜇𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2 , với
29
𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2
𝜎𝑑2 𝑠𝑑2
2
𝑚𝑑 =
, 𝑠𝑑 = 2
𝑛 𝜎𝑑2 + 1 𝑠𝑑2
𝜎𝑑 + 𝑛𝑠𝑑2
Các bƣớc kiểm định sự khác hay giống nhau của dấu hiệu X qua hai giai
đoạn đƣợc thực hiện nhƣ sau
𝜇𝑑 > 0
Chọn giả thiết: 𝐻: 𝜇𝑑 = 0 và một trong các đối thiết: 𝐻 : 𝜇𝑑 < 0
𝜇𝑑 ≠ 0
Tính giá trị 𝑝𝑣
Nếu chọn 𝐻 : 𝜇𝑑 > 0 thì:
𝑝𝑣 = 0.5 − 𝜑
𝑚𝑑
𝑠𝑑
𝑝𝑣 = 0.5 + 𝜑
𝑚𝑑
𝑠𝑑
𝑝𝑣 = 1 − 2 𝜑
𝑚𝑑
𝑠𝑑
Nếu chọn 𝐻 : 𝜇𝑑 < 0 thì
Nếu chọn 𝐻 : 𝜇𝑑 ≠ 0 thì
Kết luận: Theo nguyên tắc chung của bài toán kiểm định.
Chú ý: Khi phƣơng sai 𝜎𝑑2 chƣa biết thì ta thay thế bằng phƣơng sai mẫu điều chỉnh
của d.
Ví dụ 3.3: Để thử nghiệm một loại thuốc mới đến nhịp tim của một loài
chuột, ngƣời ta đo nhịp tim của 9 con chuột trƣớc và sau ta đƣợc kết quả sau:
Trƣớc
20
19
18
21
23
24
22
25
21
Sau
24
18
19
22
25
25
25
24
23
Giả sử phân phối tiên nghiệm của sự sai khác nhịp tim trƣớc và sau khi dùng
thuốc là phân phối chuẩn 𝑁(2, 1.52 ). Với độ tin cậy 95% xác định xem loại thuốc
mới này có làm tăng nhịp tim hay không?
Giải
Gọi X là nhịp tim của con chuột trƣớc khi dùng thuốc và Y là nhịp tim của
con chuột sau khi dùng thuốc
Giả sử d có phân phối tiên nghiệm chuẩn 𝑁(2, 1.52 ).
Ta có 𝑑 = 𝑥 − 𝑦
30
X
Y
𝑑 =𝑥−𝑦
20
24
-4
19
18
1
18
19
-1
21
22
-1
23
25
-2
24
25
-1
22
25
-3
25
24
1
21
23
-2
Trung bình và độ lệch chuẩn của d là
𝑑 = −1,33: 𝜎𝑑 = 1,66
Khi đó phân phối tiên nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 , 𝑠𝑑2 ) với
2
−1,33
𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2 1,52 + 9. 1,662
𝑚𝑑 =
=
= −0,931
9
1
𝑛 𝜎𝑑2 + 1 𝑠𝑑2
+
1,662 1,52
𝑠𝑑2 =
𝜎𝑑2 𝑠𝑑2
1,662 . 1,52
=
= 0,269
𝜎𝑑2 + 𝑛𝑠𝑑2 1,662 + 9. 1,52
Ta giải bài toán kiểm định nhƣ sau
Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 < 0
Ta có
𝑃𝑣 = 0,5 + 𝜑
𝑚𝑑
𝑠𝑑2
= 0,5 − 𝜑 1,79 = 0,0367
𝑃𝑣 < 5% nên ta chấp nhận đối thiết
Vậy thuốc mới đã làm tăng nhịp tim của con chuột.
3.3.
MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TỶ LỆ
3.3.1. Kiểm định một tỷ lệ
Bài toán: Giả sử đại lƣợng ngẩu nhiên X có phân phối nhị thức với xác suất
xảy ra biến cố cần quan tâm là p chƣa biết và p có phân phối tiền nghiệm biết trƣớc.
Lấy một mẫu gồm n phần tử và ta có m phần tử mà ta quan tâm xảy ra. Với độ tin
cậy 1 − 𝛼 cho trƣớc ta cần kiểm tra giả thiết và đối thiết sau
31
𝑝 > 𝑝0
Chọn giả thiết 𝐻: 𝑝 = 𝑝0 và một trong các đối thiết 𝐻 : 𝑝 < 𝑝0
𝑝 ≠ 𝑝0
Phƣơng pháp
Gọi 𝑝 là xác suất hậu nghiệm của p. ta có hàm mật độ xác suất của 𝑝 là
𝑔(𝑝|𝑚). Việc kiểm tra giả thiết đƣợc thực hiện giống phƣơng pháp P-giá trị cần
phƣơng pháp tần số với 𝑓 = 𝐸(𝑔 𝑝 𝑚 ) và độ lệch chuẩn 𝑠 = 𝑉𝑎𝑟(𝑔 𝑝 𝑚 ).
Nếu chọn xác suất tiên nghiệm là 𝛽(𝑎, 𝑏) thì 𝑔(𝑝|𝑚) có hàm mật độ xác suất là
𝛽(𝑎 + 𝑚, 𝑏 + 𝑛 − 𝑚)~ 𝑁(
𝑎
𝑎+𝑏
𝑎𝑏
,
𝑎+𝑏
2
)
𝑎+𝑏+1
Trong đó
𝑎 = 𝑎 + 𝑚, 𝑏 = 𝑏 + 𝑛 − 𝑚
𝑓𝐵 = 𝐸 𝑝 =
𝑠𝐵 = 𝑉𝑎𝑟 𝑝 =
𝑎
𝑎+𝑏
𝑎𝑏
𝑎+𝑏
2
𝑎+𝑏+1
Và giá trị 𝑃𝑣 đƣợc xác định nhƣ sau
𝑓𝐵 − 𝑝0
𝑠𝐵
𝑓𝐵 − 𝑝0
𝑃𝑣 = 0,5 + 𝜑
𝑠𝐵
𝑓𝐵 − 𝑝0
𝑃𝑣 = 1 − 2 𝜑
𝑠𝐵
𝑃𝑣 = 0,5 − 𝜑
Kết luận: Theo nguyên tắc chung của bài toán kiểm định
Ví dụ 3.4: Kiểm tra 145 mẫu nƣớc máy ở một thành phố có 9 mẫu nƣớc
không đạt yêu cầu. Giả sử phân phối tiên nghiệm của tỷ lệ p mẫu nƣớc máy không
đạt yêu cầu là 𝛽(1,10). Tỷ lệ p trƣớc đây là 10%. Với mức ý nghĩa 1% ngƣời ta nói
tỷ lệ p hiện tại khác với trƣớc đây thì đúng hay sai?
Giải
Ta có
𝑓𝛽 = 𝐸 𝑝 =
𝑠𝛽 = 𝑉𝑎𝑟 𝑝 =
𝑎
𝑎+𝑏
=
𝑎+𝑚
1+9
=
= 0,064
𝑎 + 𝑚 + 𝑛 + 𝑏 − 𝑚 1 + 145 + 10
𝑎𝑏
𝑎+𝑏
2
𝑎+𝑏+1
=
32
10.154
= 0,019
10 + 154 2 10 + 154 + 1
Chọn: 𝐻: 𝑝 = 10% 𝑣à 𝐻: 𝑝 ≠ 10%
Tính 𝑃𝑣
𝑃𝑣 = 1 − 2 𝜑
𝑓𝛽 − 𝑝0
𝑠𝛽
=1−2 𝜑
0,064 − 0,1
0,019
= 1 − 2𝜑 1,89 = 1 − 2.04706 = 0,0588
Do 𝑃𝑣 > 𝛼 = 1% nên ta chấp nhận H
Vậy không có cơ sở kết luận tỷ lệ p khác so với trƣớc.
3.3.2. So sánh hai tỷ lệ
Bài toán: Giả sử hai tổng thể 𝑤1 và 𝑤2 có tỷ lệ những phần tử có tính chất A
nào đó chƣa biết. Gọi 𝑝1 , 𝑝2 là tỷ lệ những phần tử có tính chất A của 𝑤1 và 𝑤2 .
Chọn một mẫu gồm 𝑛1 phần tử từ 𝑤1 ta có 𝑚1 và 𝑛2 phần tử từ 𝑤2 ta có 𝑚2 phần tử
có tính chất A.
Giả sử 𝑝1 có phân phối tiên nghiệm 𝛽(𝑎1 , 𝑏1 ) và 𝑝2 có phân phối tiên
nghiệm 𝛽(𝑎2 , 𝑏2 ), với độ tin cậy 1 − 𝛼 cho trƣớc ta cần giải quyết bài toán ƣớc
lƣợng trung bình sự khác nhau của 2 tỷ lệ 𝑝𝑑 = 𝑝1 − 𝑝2 . Kiểm tra giả thiết một phía
và hai phía với 𝑝𝑑 .
Phƣơng pháp giải bài toán
Giả sử hai phân phối trên độc lập, khi đó hai phân phối hậu nghiệm của 𝑝1 và
𝑝1 cũng là Beta: 𝑝1 ~𝛽 𝑎1 , 𝑏1 , 𝑝2 ~𝛽(𝑎2 , 𝑏2 ) độc lập, trong đó
𝑎1 = 𝑎1 + 𝑚1 , 𝑏1 = 𝑏1 + 𝑛1 − 𝑚1
𝑎2 = 𝑎2 + 𝑚2 , 𝑏2 = 𝑏2 + 𝑛2 − 𝑚2
Ta có phân phối Beta xấp xỉ phân phối chuẩn, do đó phân phối hậu nghiệm
của 𝑝𝑑 = 𝑝1 − 𝑝2 cũng có phân phối chuẩn 𝑁(𝑚𝑑 , 𝑠𝑑2 ) trong đó
𝑎1
𝑎2
𝑚𝑑 =
−
𝑎1 + 𝑏1 𝑎2 + 𝑏2
𝑠𝑑2 =
𝑎1 𝑏1
𝑎1 + 𝑏1
2
𝑎1 + 𝑏1 + 1
+
𝑎2 𝑏2
𝑎2 + 𝑏2
2
𝑎2 + 𝑏2 + 1
Để kiểm tra giả thiết với độ tin cậy 1 − 𝛼 ta thực hiện nhƣ sau
𝑝𝑑 > 0
Chọn giả thiết 𝐻: 𝑝𝑑 = 0 và đối thiết 𝐻 : 𝑝𝑑 < 0
𝑝𝑑 ≠ 0
Giá trị 𝑃𝑣 đƣợc xác định tƣơng ứng nhƣ sau
33
𝑚𝑑
𝑠𝑑
𝑚𝑑
𝑃𝑣 = 0.5 + 𝜑
𝑠𝑑
𝑚𝑑
𝑃𝑣 = 1 − 2 𝜑
𝑠𝑑
𝑃𝑣 = 0.5 − 𝜑
Kết luận: Theo nguyên tắc chung của bài toán kiểm định
Ví dụ 3.5: So sánh tỷ lệ phế phẩm cùng một loại sản phẩm do hai nhà máy
sản xuất ta chọn hai mẫu. Mẫu thứ nhất gồm 314 sản phẩm do nhà máy thứ nhất sản
xuất có 69 phế phẩm. Mẫu thứ hai gồm 225 sản phẩm do nhà máy hai sản xuất có
57 phế phẩm. Với độ tin cậy 95% hãy kiểm tra giả thiết tỷ lệ phế phẩm ở nhà máy
thứ nhất có bằng tỷ lệ phế phẩm ở nhà máy thứ hai không?. Sử dụng phân phối tiên
nghiệm 𝛽(2,3) cho nhà nhà máy thứ nhất và 𝛽(3,4) cho nhà máy thứ hai.
Giải
Gọi 𝑝1 là tỷ lệ phế phẩm của nhà máy thứ nhất, 𝑝2 là tỷ lệ phế phẩm của nhà máy
thứ hai
Ta có: 𝑝𝑑 ~𝑁 𝑚𝑑 , 𝑠𝑑2 với:
𝑚𝑑 =
𝑠𝑑2 =
𝑎1
𝑎1 + 𝑏1
𝑎1 𝑏1
2
𝑎1 + 𝑏1
−
𝑎2
𝑎2 + 𝑏2
𝑎2 𝑏2
+
𝑎1 + 𝑏1 + 1
𝑎2 + 𝑏2
2
𝑎2 + 𝑏2 + 1
Mà
𝑎1 = 𝑎1 + 𝑚1 = 2 + 69 = 71
𝑏1 = 𝑛1 + 𝑏1 − 𝑚1 = 314 + 3 − 69 = 248
𝑎2 = 𝑎2 + 𝑚2 = 3 + 57 = 60
𝑏2 = 𝑛2 + 𝑏2 − 𝑚2 = 225 + 4 − 57 = 172
Khi đó
𝑚𝑑 =
𝑠𝑑2 =
=
𝑎1
𝑎1 + 𝑏1
−
𝑎2
𝑎2 + 𝑏2
=
71
60
−
= −0,036
71 + 248 60 + 172
𝑎1 𝑏1
𝑎1 + 𝑏1
2
𝑎1 + 𝑏1 + 1
+
𝑎2 𝑏2
𝑎2 + 𝑏2
2
𝑎2 + 𝑏2 + 1
71.248
60.172
+
= 0,00136
71 + 248 2 71 + 248 + 1
60 + 172 2 60 + 172 + 1
34
Chọn 𝐻: 𝑝𝑑 = 0 𝑣à 𝐻: 𝑝𝑑 ≠ 0
Tính giá trị 𝑃𝑣
𝑃𝑣 = 1 − 2 𝜑
𝑚𝑑
𝑠𝑑
=1−2 𝜑
−0,036
0,00136
= 1 − 2. 𝜑 0,98 = 1 − 2.0,3365 = 0,327
Do 𝑝𝑣 > 5% ta chấp nhận giả thiết.
Vậy tỷ lệ phế phẩm của hai nhà máy là khác nhau.
35
CHƢƠNG 4: BÀI TẬP ÁP DỤNG
Trong chƣơng này sẽ trình bài một số bài tập có liên quan đến những vấn đề
lý thuyết đã đƣợc trình bày trong ba chƣơng trƣớc đó.
Bài 1: Nhƣ ta đã biết thì tỷ lệ phát hiện vũ khí ở trên ngƣời hay trong hành lý
xách tay của các hành khách tại các sân bay phải cực kỳ cao. Ở một thành phố, sân
bay 𝐴1 xử lý 50% trong toàn bộ vận tải hàng không, trong khi các sân bay 𝐴2 và 𝐴3
xử lý đƣợc lần lƣợt là 30% và 20%. Tỷ lệ phát hiện vũ khí tại sân bay 𝐴1 là 99%, 𝐴2
là 95% và 𝐴3 là 80%. Nếu một hành khách bị phát hiện mang vũ khí qua cổng máy
bay, thì xác suất hành khách này ở sân bay 𝐴1 là bao nhiêu và ở sân bay 𝐴3 là bao
nhiêu.
Giải
Gọi: 𝐴𝑖 , (𝑖 = 1,2,3) là hệ biến cố hành khách này mang vũ khí qua cổng các
sân bay và G là biến cố hành khách mang vũ khí.
Khi đó hệ 𝐴1 , 𝐴2 , 𝐴3 là một hệ biến cố đầy đủ và 𝑃 𝐴1 = 0,5, 𝑃 𝐴2 =
0,3 và 𝑃 𝐴3 = 0,2
Theo công thức xác suất toàn phần, xác suất phát hiện hành khách mang vũ khí qua
cổng sân bay là
𝑃 𝐺 = 𝑃 𝐴1 . 𝑃 𝐺|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐺|𝐴2 + 𝑃 𝐴3 . 𝑃 𝐺|𝐴3
= 0,5.0,99 + 0,3.0,95 + 0,2.0,8 = 0,94
Theo công thức Bayes, xác suất hành khách mang vũ khí ở sân bay thứ nhất là
𝑃 𝐴1 |𝐺 =
𝑃 𝐴1 . 𝑃 𝐺|𝐴1
0,495
=
= 0,527
𝑃(𝐺)
0,94
Xác suất hành khách mang vũ khí ở sân bay thứ 3 là
𝑃 𝐴3 |𝐺 =
𝑃 𝐴3 . 𝑃 𝐺|𝐴3
0,16
=
= 0,170
𝑃(𝐺)
0,94
Vậy khi hành khách mang vũ khí, xác suất để hành khách này này ở sân bay
𝐴1 , 𝐴3 lần lƣợt là 52,7% và 17%.
Bài 2: Hộp thuốc thứ nhất có 5 chai thuốc tốt và 4 chai thuốc hỏng. Hộp
thuốc thứ hai có 6 chai thuốc tốt và 3 chai thuốc hỏng. Lấy ngẫu nhiên một hộp, rồi
từ hộp đó lấy ngẫu nhiên ra 2 chai thuốc.
a. Tìm xác suất lấy đƣợc hai chai thuốc tốt?
b. Tìm xác suất lấy đƣợc một chai thuốc tốt và một chai thuốc hỏng?
c. Giả sử lấy đƣợc một chai thuốc tốt và một chai thuốc hỏng. Tìm xác suất đó
là thuốc của hộp thứ nhất?
36
Giải
a. Gọi 𝐴𝑖 , (𝑖 = 1,2) là hệ biến cố chọn đƣợc hộp thứ i và B là biến cố chọn
đƣợc 2 chai thuốc tốt.
Khi đó hệ 𝐴1 , 𝐴2 là hệ biến cố đầy đủ và 𝑃 𝐴1 = 𝑃 𝐴2 = 0,5
Xác suất chọn đƣợc 2 chai thuốc tốt trong hộp thứ nhất là 𝑃 𝐵|𝐴1 =
Xác suất chọn đƣợc 2 chai thuốc tốt trong hộp thứ hai là 𝑃 𝐵|𝐴2 =
𝐶52
𝐶62
𝐶92
𝐶92
Theo công thức xác suất toàn phần, ta có xác suất chọn đƣợc 2 chai thuốc tốt là
𝑃 𝐵 = 𝑃 𝐴1 . 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐵|𝐴2
1 5 1 5
25
= . + .
=
2 18 2 12 72
b. Gọi G là biến cố lấy đƣợc 1 chai thuốc tốt và 1 chai thuốc hỏng
Ta có
𝑃 𝐺|𝐴1
𝐶51 . 𝐶41 5.4
5
=
=
2 =
𝐶9
72 18
𝑃 𝐺|𝐴2
𝐶61 . 𝐶31 6.3 1
=
=
=
𝐶92
72 4
𝑃 𝐺 = 𝑃 𝐴1 . 𝑃 𝐺|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐺|𝐴2
1 5 1 1 19
= .
+ . =
2 18 2 4 72
c. Xác suất lấy đƣợc 1 chai thuốc tốt và 1 chai thuốc hỏng ở trong hộp thứ nhất
là
𝑃 𝐴1 . 𝑃 𝐺|𝐴1
5/36
10
𝑃 𝐴1 |𝐺 =
=
=
𝑃 𝐺
19/72 19
Bài 3: Một nhà máy có 3 phân xƣởng cùng sản xuất một loại sản phẩm. Phân
xƣởng 1 sản xuất đƣợc 20%, phân xƣởng 2 sản xuất đƣợc 30% và phân xƣởng 3 sản
xuất đƣợc 50% tổng số sản phẩm của toàn nhà máy. Tỷ lệ phế phẩm sinh ra của
phân xƣởng 1, phân xƣởng 2 và phân xƣởng 3 lần lƣợt là 2%, 3% và 7%. Lấy ngẫu
nhiên một sản phẩm từ lô hàng do nhà máy sản xuất.
a. Tìm xác suất để lấy đƣợc phế phẩm?
b. Giả sử lấy đƣợc một sản phẩm tốt, theo bạn thì sản phẩm này có khả năng
cao nhất là do phân xƣởng nào sản xuất?
Giải
a. Lấy ngẫu nhiên một sản phẩm. Gọi 𝐴𝑖 , (𝑖 = 1,2,3) là biến cố sản phẩm này
do nhà máy thứ i sản xuất và gọi B là biến cố chọn đƣợc phế phẩm.
37
Khi đó hệ 𝐴1 , 𝐴2 , 𝐴3 là hệ biến cố đầy đủ
Theo công thức xác suất toàn phần, xác suất lấy đƣợc phế phẩm là
𝑃 𝐵 = 𝑃 𝐴1 . 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐵|𝐴2 + 𝑃 𝐴3 . 𝑃 𝐵|𝐴3
= 0,2.0,02 + 0,3.0,03 + 0,5.0,07 = 0,048
b. Xác suất lấy đƣợc sản phẩm tốt là
𝑃 𝐵 = 1 − 𝑃 𝐵 = 1 − 0,048 = 0,952
Xác suất để sản phẩm tốt này thuộc từng phân xƣởng là
𝑃 𝐴1 |𝐵 =
𝑃 𝐴2 |𝐵 =
𝑃 𝐴3 |𝐵 =
𝑃 𝐴1 . 𝑃(𝐵 |𝐴1 )
𝑃(𝐵 )
=
0,2.0,02
= 0,1932
0,952
𝑃 𝐴2 . 𝑃(𝐵 |𝐴2 ) 0,3.0,03
=
= 0,3057
0,952
𝑃(𝐵 )
𝑃 𝐴3 . 𝑃(𝐵 |𝐴3 )
𝑃(𝐵 )
=
0,5.0,07
= 0,4884
0,952
Từ kết quả trên, ta kết luận rằng sản phẩm tốt do phân xƣởng thứ 3 sản xuất
có khả năng cao nhất.
Bài 4: Một phân xƣởng có 50 công nhân, trong đó có 30 công nhân nữ và 20
công nhân nam. Tỷ lệ tốt nghiệp của công nhân nữ và nam lần lƣợt là 10% và 20%.
Gặp ngẫu nhiên một công nhân của phân xƣởng.
a. Tính xác suất đó là công nhân đã tốt nghiệp.
b. Gặp ngẫu nhiên công nhân nữ tính xác suất để ngƣời đó tốt nghiệp.
Giải
a. Gọi 𝐴1 là biến cố gặp đƣợc công nhân nữ, 𝐴2 là biến cố gặp đƣợc công nhân
nam, 𝐵 là biến cố gặp công nhân tốt nghiệp
𝑃 𝐵 = 𝑃 𝐴1 . 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 . 𝑃 𝐵|𝐴2
30
20
=
. 0,1 +
. 0,2 = 0,14
50
50
b. Xác suất gặp công nhân nữ tốt nghiệp là:
𝑃 𝐴1 |𝐵 =
𝑃 𝐴1 . 𝑃 𝐵|𝐴1
0,06
=
= 0,43
𝑃 𝐵
0,14
Bài 5: Dây chuyền lắp ráp nhận đƣợc các chi tiết do hai nhà máy sản xuất.
Trung bình máy thứ nhất cung cấp 60% chi tiết, máy thứ hai cung cấp 40% chi tiết.
Khoảng 90% chi tiết do nhà máy thứ nhất sản xuất đạt tiêu chuẩn và 85% chi tiết
đạt tiêu chuẩn do nhà máy thứ hai sản xuất. Lấy ngẫu nhiên từ dây chuyền một chi
tiết và thấy nó đạt tiêu chuẩn. Tìm xác suất đó là chi tiết do nhà máy một sản xuất.
Giải
38
Gọi A là biến cố lấy đƣợc chi tiết máy đạt tiêu chuẩn
𝑁1 , 𝑁2 lần lƣợt là các chi tiết máy thuộc máy thứ nhất và thứ hai
Theo công thức bayes, xác suất lấy đƣợc chi tiết đạt tiêu chuẩn do nhà máy thứ nhất
sản xuất là
𝑃 𝑁1 |𝐴 =
𝑃 𝑁1 . 𝑃 𝐴|𝑁1
0,6.0,9
=
= 0,61
𝑃 𝑁1 . 𝑃 𝐴|𝑁1 + 𝑃 𝑁2 . 𝑃 𝐴|𝑁2
0,6.0,9 + 0,4.0,85
Bài 6: Một hộp có 9 trái banh có thể có màu đỏ và màu xanh với số lƣợng
mỗi loại chƣa xác định và có xác suất mỗi trƣờng hợp bằng nhau. Gọi X là số lƣợng
bi màu đỏ trong hộp.
a) Chọn ngẫu nhiên 1 bi của hộp, goi Y là đại lƣợng ngẫu nhiên sao cho Y=1
nếu chọn đƣợc bi màu đỏ và Y=0 nếu chọn đƣợc bi màu xanh. Lập bảng
phân phối xác suất hậu nghiệm của X khi Y=0 và Y=1.
b) Giả sử chọn lần đầu đƣợc bi màu đỏ, chọn tiếp 1 bi nữa đƣợc bi màu xanh.
Lập bảng phân phối xác suất hậu nghiệm của X.
Giải
a) Do số lƣợng mỗi loại trái banh chƣa xác định và có xác suất bằng nhau
1
𝑃 𝑋𝑖 =
𝑖 = 0,9
10
Ta có 𝑃 𝑌 = 1 𝑋 = 𝑥𝑖 = 𝑖 9 và 𝑃 𝑌 = 0 𝑋 = 𝑥𝑖 = 9 − 𝑖 9
Ta có bảng tính sau
𝑥𝑖
𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 1|𝑋 = 𝑥𝑖 )
(1).(2)
𝑃(𝑋 = 𝑥𝑖 |𝑌 = 1)
(1)
(2)
0
0,1
0
0
0
1
0,1
1/9
1/90
0,022
2
0,1
2/9
2/90
0,044
3
0,1
3/9
3/90
0,067
4
0,1
4/9
4/90
0,089
5
0,1
5/9
5/90
0,111
6
0,1
6/9
6/90
0,133
7
0,1
7/9
7/90
0,156
8
0,1
8/9
8/90
0,178
9
0,1
1
9/90
0,2
1/2
1
39
Vậy bảng phân phối xác suất hậu nghiệm của X với 𝑌 = 1 là
𝑋
0
𝑃
0
1
2
3
4
5
6
7
8
0,023 0,044 0,067 0,089 0,111 0,133 0,156 0,178
9
0,2
Tƣơng tự ta có bảng tính nhƣ sau
𝑥𝑖
𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑌 = 0|𝑋 = 𝑥𝑖 )
(1).(2)
𝑃(𝑋 = 𝑥𝑖 |𝑌 = 0)
(1)
(2)
0
0,1
1
0,1
0,2
1
0,1
8/9
8/90
0,178
2
0,1
7/9
7/90
0,156
3
0,1
6/9
6/90
0,133
4
0,1
5/9
5/90
0,111
5
0,1
4/9
4/90
0,089
6
0,1
3/9
3/90
0,067
7
0,1
2/9
2/90
0,044
8
0,1
1/9
1/90
0,023
9
0,1
0
0
0
5/9
1
Vậy bảng phân phối xác suất hậu nghiệm của X với 𝑌 = 0 là
𝑋
0
𝑃
0,2
1
2
3
4
5
6
7
8
0,178 0,156 0,133 0,111 0,089 0,067 0,044 0,023
40
9
0
b) Ta lập đƣợc bảng tính sau
𝑥𝑖
𝑃(𝑋 = 𝑥𝑖 )
𝑃(𝑌 = 1|𝑋 = 𝑥𝑖 )
𝑃(𝑌 = 0|𝑋 = 𝑥𝑖 , 𝑌 = 1) (1.2.3)
(1)
(2)
(3)
0
1/10
0
0
0
0
1
1/10
1/9
1/8
1/720
0,005
2
1/10
2/9
2/8
4/720
0,019
3
1/10
3/9
3/8
9/720
0,044
4
1/10
4/9
4/8
16/720
0,078
5
1/10
5/9
5/8
25/720
0,123
6
1/10
6/9
6/8
36/720
0,176
7
1/10
7/9
7/8
49/720
0,241
8
1/10
8/9
8/8
64/720
0,314
9
1/10
1
0
0
0
17/60
1
𝑃(𝑋 = 𝑥𝑖 |𝑌
= 1, 𝑌 = 0)
Vậy bảng phân phối xác suất hậu nghiệm của X là
𝑋
0
𝑃
0
1
2
3
4
5
6
7
8
0,005 0,019 0,044 0,078 0,123 0,176 0,241 0,314
9
0
Bài 7: Một kho hàng có tỷ lệ phế phẩm chƣa đƣợc xác định, có 3 ý kiến khác
nhau về tỷ lệ đó là 10%, 20% và 30% với xác suất nhƣ nhau. Chọn ngẫu nhiên 5 sản
phẩm kiểm tra phát hiện có 2 phế phẩm. Tỷ lệ phế phẩm của kho hàng có khả năng
cao nhất là bao nhiêu?
Giải
Tỷ lệ phế phẩm của nhà máy lần lƣợt là 𝑝1 = 0,1, 𝑝2 = 0,2 𝑣à 𝑝3 = 0,3 với các
mức xác suất nhƣ nhau nên 𝑃 𝑝 = 𝑝𝑖 = 1 3 𝑣ớ𝑖 𝑖 = 1,2,3.
Ta có bảng tính sau
𝑝𝑖
𝑃(𝑝 = 𝑝𝑖 )
𝑃(𝑌 = 2|𝑝 = 𝑝𝑖 )
(1)
(2)
(1)(2)
𝑃(𝑝 = 𝑝𝑖 |𝑌
= 2)
0,1
1/3
𝐶52 0,1
2
1 − 0,1
3
= 0,146
0,049
0,125
0,2
1/3
𝐶52 0,2
2
1 − 0,2
3
= 0,409
0,136
0,348
0,3
1/3
𝐶52 0,3
2
1 − 0,3
3
= 0,617
0,206
0,526
41
0,391
1,000
Từ bảng trên ta có tỷ lệ phế phẩm của lô hàng là 30% với xác xuất là 60,5%.
Bài 8: Tỷ lệ phế phẩm của một nhà máy là p chƣa biết
a) Giả sử p có có thể nhận giá trị là 0.2, 0.4 và 0.6 với xác suất lần lƣợt là 0.25,
0.4 và 0.35 chọn ngẫu nhiên 1 sản phẩm của nhà máy thấy đó là phế phẩm,
chọn tiếp 2 sản phẩm của nhà máy ta đƣợc 1 phế phẩm. Hỏi tỷ lệ p nào có
khả năng xảy ra nhiều nhất?
b) Giả sử p có phân phối tiên nghiệm 𝛽(2,2). Chọn ngẫu nhiên 15 sản phẩm
của nhà máy ta đƣợc 5 phế phẩm. Tìm giá trị trung bình của p?
Giải
a) Trong 3 sản phẩm chọn ra có 2 phế phẩm
Do đó, ta có bảng tính sau
𝑝𝑖
𝑃(𝑝 = 𝑝𝑖 )
𝑃(𝑌 = 2|𝑝 = 𝑝𝑖 )
(1)
(2)
(1)(2)
𝑃(𝑝 = 𝑝𝑖 |𝑌
= 2)
0,2
0,25
𝐶32 0,2
2
1 − 0,2 = 0,19
0,047
0,08
0,4
0,4
𝐶32 0,4
2
1 − 0,4 = 0,58
0,232
0,4
0,6
0,35
𝐶32 0,6
2
1 − 0,6 = 0,86
0,301
0,52
0,58
1,000
Vậy tỷ 𝑙ệ 𝑝 = 0.6 là có nhiều khả năng xảy ra nhất với xác suất là 52%.
b) p có phân phối hậu nghiệm 𝛽(2,2) nên phân phối xác suất hậu nghiệm của p
𝑎 =𝑚+𝑎 =5+2=7
là: 𝛽(𝑎, 𝑏) với
𝑏 = 𝑛 + 𝑏 − 𝑚 = 15 + 2 − 5 = 12
Giá trị trung bình của p là:
𝐸 𝑝𝑦 =
𝑎
𝑎+𝑏
=
7
= 0,3
7 + 12
Bài 9: Trọng lƣợng của một trái cây là đại lƣợng ngẫu nhiên có phân phối
chuẩn với trung bình 𝜇 chƣa biết, độ lệch chuẩn 𝜎 = 80. Giả sử 𝜇 có phân phối tiên
nghiệm chuẩn 𝑁(325, 802 ). Chọn một mẫu 25 trái ta có số liệu:
42
514 536 345 440 427
443 386 418 364 483
506 385 410 561 275
306 294 402 350 343
480 334 324 414 296
a) Hãy ƣớc lƣợng trọng lƣợng trung bình của một trái cây với độ tin cậy 95%.
b) Cho rằng trọng lƣợng trung bình của cây là 450 thì có đúng với mức ý nghĩa
5% hay không?
Giải
a) Ta có trọng lƣợng trung bình của một trái cây có phân phối hậu nghiệm là
phân phối chuẩn 𝑁(𝑚, 𝑠 2 )
Trong đó các tham số đƣợc tính nhƣ sau
25.401,44
𝑚 2 + 𝑛𝑥 2 325
𝑠
𝜎
802 +
802
𝑚=
=
= 398,52
𝑛 2+1 2
25
1
+
𝜎
𝑠
802
802
𝜎2 𝑠2
802 . 802
𝑠 = 2
=
= 246,15
𝜎 + 𝑛𝑠 2 802 + 25. 802
2
Ta có
𝑚 − 𝑢𝛾 . 𝑠 = 398,52 − 1,96. 246,15 = 367,77
𝑚 + 𝑢𝛾 . 𝑠 = 398,52 + 1,96. 246,15 = 429,27
Vậy ƣớc lƣợng trọng lƣợng trung bình của một trái cây là khoảng 367,77: 429,27
b) Ta có phân phối hậu nghiệm của 𝜇 là phân phối chuẩn 𝑋~𝑁(𝑚, 𝑠 2 )
Gọi 𝜇 là trung bình trọng lƣợng của một trái cây
Chọn giả thiết 𝐻: 𝜇 = 450 và đối thiết 𝐻: 𝜇 ≠ 450
𝑚 − 𝜇0
𝑃𝑣 = 1 − 2 𝜑
𝑠 = 1 − 2 𝜑 3,2 = 0,0014
Do 𝑃𝑣 < 𝛼 = 0,05 nên ta bác bỏ giả thiết
Vậy trọng lƣợng của trái cây là khác với trọng lƣợng 450g mà giả thiết đã
đƣa ra với mức ý nghĩa 5%.
Bài 10: Chiều dài của một chi tiết máy là đại lƣợng ngẫu nhên có phân phối
chuẩn 𝑁(𝜇, 𝜎 2 ) với 𝜎 = 40𝑐𝑚 và 𝜇 chƣa biết. Chọn một mẫu gồm 4 ngƣời ta có số
liệu: 940, 1040, 910, 990. Giả sử 𝜇 có phân phối tiên nghiệm chuẩn 𝑁(1000, 2002 ).
a) Với độ tin cậy 95% hãy ƣớc lƣợng chiều dài của một chi tiết máy.
b) Một ý kiến cho rằng chiều dài của chi tiết máy là 950cm thì có đúng hay
không với mức ý nghĩa 5%.
Giải
43
a) Chiều dài của một chi tiết máy có phân phối chuẩn 𝑁(𝑚, 𝑠 2 ) khi đó các tham
số đƣợc tính nhƣ sau
𝑚
𝑚=
𝑠2
𝑛
+ 𝑛𝑥
𝜎2
+1
1000
𝜎2
=
4
𝑠2
2002
402
+ 4.970
+1
402
= 970,3
2002
𝜎2 𝑠2
402 . 2002
𝑠 = 2
=
= 396,04
𝜎 + 𝑛𝑠 2 402 + 4. 2002
2
Ta có
𝑚 − 𝑢1−𝛼 2 . 𝑠 = 970,3 − 1,96 396,04 = 931,3
𝑚 + 𝑢1−𝛼 2 . 𝑠 = 970,3 + 1,96 396,04 = 1009,3
Vậy chiều dài của một chi tiết máy là khoảng 931,3: 1009,3
b) Ta có phân phối hậu ghiệm của 𝜇 là phân phối chuẩn 𝑋~𝑁(𝑚, 𝑠 2 )
Trong đó
𝑚
𝑚=
𝑛
𝑠2 +
𝜎2
𝑛𝑥
+1
1000
𝜎2
=
𝑠2
4
2002 +
402
4.970
+1
402
= 970,3
2002
𝜎2 𝑠2
402 . 2002
𝑠 = 2
=
= 396,04
𝜎 + 𝑛𝑠 2 402 + 4. 2002
Gọi 𝜇 là trung bình trọng lƣợng của một trái cây
2
Chọn giả thiết 𝐻: 𝜇 = 950 và đối thiết 𝐻: 𝜇 ≠ 950
𝑚 − 𝜇0
𝑃𝑣 = 1 − 2 𝜑
𝑠 = 1 − 2 𝜑 1.02 = 0,307
Do 𝑃𝑣 > 𝛼 = 0,05 nên ta chấp nhận giả thiết
Kết luận, vậy ý kiến cho rằng chiều dài của chi tiết máy là 950cm là đúng
Bài 11: Đo một chỉ tiêu của nƣớc ở đầu sông và cuối sông ta có số liệu sau:
Số đo của chỉ tiêu đầu sông
𝑋1
8,8
Số đo của chỉ tiêu cuối sông
𝑋2
9,2
9,6
9,5
8,9
10,2
44
9,2
9,5
9,9
9,8
9,4
9,5
9,2
9,3
10,1
9,2
Giả sử d phân phối tiên nghiệm của 𝑋1 ~𝑁(10; 1,44) và 𝑋2 ~𝑁(9,5; 1). Với
độ tin cậy 95% cho rằng chỉ tiêu đang quan tâm của nƣớc ở cuối và đầu dòng sông
là nhƣ nhau không?
Giải
Ta có 𝑑 = 𝑋1 − 𝑋2 nên d phân phối tiên nghiệm chuẩn 𝑑~𝑁(0,5; 2,44)
𝑋1
𝑋2
𝑑 = 𝑋1 − 𝑋2
8,8
9,2
-0,4
9,6
9,5
0,1
8,9
10,2
-1,3
9,2
9,5
-0,3
9,9
9,8
0,1
9,4
9,5
-0,1
9,2
9,3
-0,1
10,1
9,2
0,9
Trung bình và độ lệch chuẩn của d là
𝑑 = −0,112, 𝜎𝑑 = 0,628
Khi đó phân phối tiên nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 , 𝑠𝑑2 ) với
0,5
−0,112
𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2 2,442 + 8. 0,6282
𝑚𝑑 =
=
= −0,107
8
1
𝑛 𝜎𝑑2 + 1 𝑠𝑑2
+
0,6282 2,442
𝑠𝑑2
𝜎𝑑2 𝑠𝑑2
0,6282 . 2,442
= 2
=
= 0,049
𝜎𝑑 + 𝑛𝑠𝑑2 0,6282 + 8. 2,442
45
Ta thực hiện kiểm định nhƣ sau
Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 ≠ 0
𝑃𝑣 = 1 − 2 𝜑
𝑚𝑑
𝑠𝑑2
= 0,5 − 2. 𝜑 0,48 = 0,63
𝑃𝑣 > 5% nên ta bác bỏ đối thiết
Vậy nƣớc ở hai đầu sông giống nhƣ nhau.
Bài 12: Để kiểm tra một quy trình mới chăn nuôi bò sữa, ngƣời ta thí nghiệm
trên 15 cặp bò đƣợc chia thành 2 nhóm. Nhóm 1 nuôi theo phƣơng pháp cũ, nhóm 2
nuôi theo phƣơng pháp mới. Kết quả lƣợng sữa đƣợc cho bởi bảng sau. Giả sử d có
phân phối tiên nghiệm chuẩn 𝑁(0, 2002 ) với độ tin cậy 95% có thể khẳng định nuôi
theo phƣơng pháp mới không có hiệu quả đƣợc không?
Cặp bò
Lƣợng sữa nuôi theo
phƣơng pháp 1 (x)
Lƣợng sữa nuôi
theo phƣơng pháp
mới (y)
1
3525
3340
2
4321
4279
3
4763
4910
4
4899
4866
5
3234
3125
6
3469
3680
7
3439
3965
8
3658
3849
9
3385
3297
10
3226
3124
11
3671
3218
12
3501
3246
13
3842
4245
14
3998
4186
46
15
4004
3711
Giải
Đặt 𝑑 = 𝑥 − 𝑦 ta có
Cặp bò
Lƣợng sữa nuôi
theo phƣơng pháp 1
(x)
Lƣợng sữa nuôi theo
phƣơng pháp mới (y)
𝑑 =𝑥−𝑦
1
3525
3340
185
2
4321
4279
42
3
4763
4910
-147
4
4899
4866
33
5
3234
3125
109
6
3469
3680
-211
7
3439
3965
-526
8
3658
3849
-191
9
3385
3297
88
10
3226
3124
102
11
3671
3218
453
12
3501
3246
255
13
3842
4245
-403
14
3998
4186
-188
15
4004
3711
293
Trung bình và độ lệch chuẩn của d là
𝑑 = −7,067, 𝜎𝑑 = 267,192
Khi đó phân phối tiên nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 , 𝑠𝑑2 ) với
𝑚𝑑 =
𝑚𝑑 𝑠𝑑2
𝑛 𝜎𝑑2
𝑠𝑑2 =
Bài toán kiểm định
+ 𝑛𝑑 𝜎𝑑2
+ 1 𝑠𝑑2
0
−7,067
+ 15.
2
200
267,1922
=
= −6,316
15
1
+
267,1922 2002
𝜎𝑑2 𝑠𝑑2
267,1922 . 2002
=
= 4253,349
𝜎𝑑2 + 𝑛𝑠𝑑2 267,1922 + 15. 2002
47
Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 > 0
𝑃𝑣 = 0,5 − 𝜑
𝑚𝑑
𝑠𝑑2
= 0,5 − 𝜑 −6,316
4253,349
= 0,463
𝑃𝑣 > 5% nên ta chấp nhận giả thiết
Vậy phƣơng pháp mới chƣa có hiệu quả là đúng.
Bài 13: Kiểm tra trình độ học hết trung học cơ sỡ của những ngƣời phụ nữ ở
hai khu vực I và II ta có số liệu sau:
Khu vực I: Chọn 125 phụ nữ có 70 ngƣời đã học hết trung học cơ sở.
Khu vực II: Chọn 100 phụ nữ có 60 ngƣời đã học hết trung học cơ sỡ.
Gọi p1, p2 lần lƣợt là tỷ lệ phụ nữ học hết trung học cơ sỡ ở khu vực I và khu vực II.
a. Sử dụng phân phối tiền nghiệm đều cho p1 và p2, với độ tin cậy 95%. Hãy
ƣớc lƣợng khoảng cho p1-p2.
b. Hãy kiểm tra giả thiết, tỷ lệ học hết trung học cơ sỡ của hai khu vực I và II là
nhƣ nhau là đúng hay sai với mức ý nghĩa 1%.
Giải
a. p1 và p2 có phân phối tiên nghiệm đều nên hàm mật độ xác suất hậu nghiệm
của nó là Beta: 𝑝1 ~𝛽(𝑎1 , 𝑏1 ) và : 𝑝2 ~𝛽(𝑎2 , 𝑏2 ), trong đó
𝑎1 = 𝑚1 + 1, 𝑏1 = 𝑛1 − 𝑚1 + 1
𝑎 = 71, 𝑏1 = 56
⇒ 1
𝑎2 = 𝑚2 + 1, 𝑏2 = 𝑛2 − 𝑚2 + 1
𝑎2 = 61, 𝑏2 = 41
Khi đó, đặt 𝑝𝑑 = 𝑝1 − 𝑝2
𝑎1
𝑎2
71
61
𝑚𝑑 =
−
=
−
= −0,039
𝑎1 + 𝑏1 𝑎2 + 𝑏2 71 + 56 61 + 41
𝑠𝑑2 =
=
𝑎1 𝑏1
𝑎1 + 𝑏1
2
𝑎1 + 𝑏1 + 1
+
𝑎2 𝑏2
𝑎2 + 𝑏2
2
𝑎2 + 𝑏2 + 1
71.56
61.41
+
= 0,00426
71 + 56 2 71 + 56 + 1
61 + 41 2 61 + 41 + 1
Với độ tin cậy 95% ta có khoảng ƣớc lƣợng là
𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 , 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑 = −0,167; 0,089
b. Thực hiện kiểm định nhƣ sau
Chọn 𝐻: 𝑝𝑑 = 0 và 𝐻 : 𝑝𝑑 ≠ 0
𝑚𝑑
𝑃𝑣 = 1 − 2 𝜑
𝑠𝑑
−0,039
=1−2 𝜑
= 1 − 2. 𝜑 0,59 = 0,56
0,00426
48
Vì 𝑃𝑣 > 1% nên ta chấp nhận giả thiết.
Vậy tỷ lệ học hêt trung học ở phụ nữ của hai khu vực là nhƣ nhau.
Bài 14: So sánh tỷ lệ phế phẩm cùng một loại sản phẩm do hai nhà máy sản
suất ta chọn hai mẫu.
Mẫu thứ nhất gồm có 314 sản phẩm do nhà máy thứ nhất sản xuất có 69 phế phẩm.
Mẫu thứ hai gồm 225 sản phẩm do nhà máy thứ hai sản xuất có 57 phế phẩm.
Gọi p1, p2 lần lƣợt là tỷ lệ phế phẩm của nhà máy thứ nhất và thứ hai.
a. Sử dụng phân phối tiền nghiệm Beta(2,3) cho p1 và Beta(3,4) cho p2. Hãy
ƣớc lƣợng khoảng cho pd=p1-p2, với độ tin cậy 95%.
b. Sử dụng thông tin trên hãy kiểm tra giả thiết: Tỷ lệ phaae phẩm ở nhà máy
thứ nhất thấp hơn nhà máy thứ hai.
Giải
a. 𝑝1 có phân phối tiên nghiệm 𝛽(𝑎1 , 𝑏1 ) và 𝑝2 có phân phối tiên nghiệm
𝛽(𝑎2 , 𝑏2 ), khi đó hai phân phối hậu nghiệm của 𝑝1 và 𝑝1 cũng là Beta:
𝑝1 ~𝛽 𝑎1 , 𝑏1 , 𝑝2 ~𝛽(𝑎2 , 𝑏2 ) độc lập, trong đó
𝑎1 = 𝑎1 + 𝑚1 , 𝑏1 = 𝑏1 + 𝑛1 − 𝑚1 𝑎1 = 71, 𝑏1 = 248
𝑎2 = 𝑎2 + 𝑚2 , 𝑏2 = 𝑏2 + 𝑛2 − 𝑚2 𝑎2 = 60, 𝑏2 = 172
Ta có phân phối Beta xấp xỉ phân phối chuẩn, do đó phân phối hậu nghiệm của
𝑝𝑑 = 𝑝1 − 𝑝2 cũng có phân phối chuẩn 𝑁(𝑚𝑑 , 𝑠𝑑2 ) trong đó
𝑚𝑑 =
𝑠𝑑2 =
𝑎1
𝑎1 + 𝑏1
−
𝑎2
𝑎2 + 𝑏2
=
71
60
−
= −0,036
71 + 248 60 + 172
𝑎1 𝑏1
𝑎1 + 𝑏1
2
𝑎1 + 𝑏1 + 1
+
𝑎2 𝑏2
𝑎2 + 𝑏2
2
𝑎2 + 𝑏2 + 1
71.248
60.172
+
= 0,00136
3192 . 320 2322 . 233
Khoảng ƣớc lƣợng cho sự khác nhau giữa hai tỷ lệ với độ tin cậy 95% là
=
𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 ; 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑 = −0,108; 0,036
b. Thực hiện kiểm định nhƣ sau
Chọn 𝐻: 𝑝𝑑 = 0 và 𝐻: 𝑝𝑑 < 0
𝑚𝑑
𝑃𝑣 = 0.5 + 𝜑
𝑠𝑑
49
= 0,5 + 𝜑
−0,036
= 0,166
0,00136
Vì 𝑃𝑣 > 5% nên ta chấp nhận giả thiết.
Kết luận, tỷ lệ phế phẩm ở nhà máy thứ nhất thấp hơn nhà máy thứ 2.
Bài 15: Chọn một mẫu gồm 10 công nhân ở công ty thứ nhất và 10 công
nhân ở công ty thứ hai cho sản xuất cùng một loại sản phẩm trong 8 giờ có kết quả
nhƣ bảng sau:
Công ty 1(X1)
Công ty 2 (X2)
115
123
120
131
111
113
123
119
116
123
121
113
118
128
116
126
127
125
129
128
Giả sử số sản phẩm sản xuất ra ở 2 công ty có phân phối chuẩn tiền nghiệm
𝑁(𝜇1 , 𝜎 2 ) và 𝑁(𝜇2 , 𝜎 2 ) và 𝜇1 , 𝜇2 cũng có phân phối tiền nghiệm chuẩn
𝑁(100, 202 ).
a. Tìm phân phối hậu nghiệm của 𝜇1 − 𝜇2 .
b. Tìm ƣớc lƣợng khoảng cho 𝜇1 − 𝜇2 với mức ý nghĩa 5%.
c. Một ngƣời nói số sản phẩm sản xuất trung bình mỗi công nhân giữa hai công
ty là nhƣ nhau thì có đúng không với độ tin cậy 95%.
Giải
a. Ta có hai mẫu độc lập của hai đại lƣợng ngẫu nhiên X1 và X2, do vậy phân
phối hậu nghiệm của chúng cũng độc lập, khi đó trung bình và phƣơng sai
đƣợc tính nhƣ sau
Ta có 𝑑 = 𝑥1 − 𝑥2
Công ty 1(X1)
Công ty 2 (X2)
𝑑 = 𝑥1 − 𝑥2
115
123
-8
50
120
131
-11
111
113
-2
123
119
4
116
123
-7
121
113
8
118
128
-10
116
126
-10
127
125
2
129
128
1
Trung bình và độ lệch chuẩn của d là
𝑑 = −3,3; 𝜎𝑑 = 6,78
Khi đó phân phối hậu nghiệm của 𝜇𝑑 là 𝑁(𝑚𝑑 ; 𝑠𝑑2 ) với
𝑠𝑑2
𝜎𝑑2 𝑠𝑑2
6,782 . 202
= 2
=
= 4,545
𝜎𝑑 + 𝑛𝑠𝑑2 6,782 + 10. 202
100 10. (−3,3)
+
202
6,782
𝑚𝑑 =
=
= −2,127
10
1
+
6,782 202
Vậy phân phối hậu nghiệm của 𝜇𝑑 là 𝑁(−2,127; 4,545)
𝑚𝑑 𝑠𝑑2 + 𝑛𝑑 𝜎𝑑2
𝑛 𝜎𝑑2 + 1 𝑠𝑑2
b. Ƣớc lƣợng khoảng cho sự khác nhau giữa hai trung bình với mức ý nghĩa 5%
là
𝑚𝑑 − 𝑢1−𝛼 2 . 𝑠𝑑 ; 𝑚𝑑 + 𝑢1−𝛼 2 . 𝑠𝑑 = −6,306; 2,052
c. Thực hiện kiểm định nhƣ sau
Chọn giả thiết 𝐻: 𝜇𝑑 = 0 và đối thiết 𝐻: 𝜇𝑑 ≠ 0
𝑃𝑣 = 1 − 2 𝜑
=1−2 𝜑
𝑚𝑑
𝑠𝑑
−2.127
= 1 − 2.0,3389 = 0,322
4,545
Vì 𝑃𝑣 > 0,05 nên chấp nhận giả thiết.
Vậy số sản phẩm sản xuất trung bình của mỗi công nhân giữa hai công ty là
nhƣ nhau.
51
PHẦN KẾT LUẬN
Quyển luận văn “Ƣớc lƣợng và kiểm định tham số thống kê theo phƣơng
pháp Bayes” đã giúp tôi nắm vững đƣợc kiến thức, hiểu rỏ hơn về các phƣơng pháp
ƣớc lƣợng và kiểm định, giúp tôi rèn luyện đƣợc kỹ năng về các bƣớc làm bài toán
thống kê và tích lũy đƣợc thêm những kinh nghiệm và đặc biệt hơn là có thể sự
dụng quyển này nhƣ một nguồn tài liệu để phục vụ cho việc học tâp.
Tuy nhiên, do kiến thức còn hạn hẹp và thời gian nghiên cứu không nhiều
nên đề tài còn nhiều hạn chế, tôi hy vọng rằng trong tƣơng lai sẽ có điều kiện
nghiên cứu sâu hơn về đề tài này nhằm nâng cao kiến thức, hoàn thiện hơn về kỹ
năng giải bài toán thống kê để phục vụ cho công việc sau này.
52
TÀI LIỆU THAM KHẢO
Tài liệu Tiếng Việt
[1] Trần Văn Lý (2005), Giáo trình xác suất thống kê A, Trƣờng Đại học Cần thơ.
[2] Đào Hữu Hồ (1997), Xác suất thống kê,Trƣờng Đại học Quốc gia Hà Nội.
[3] Võ Văn Tài (2007), Thống kê Bayes, Trƣờng Đại học Cần Thơ.
[4] Võ Văn Tài (2005), Giáo trình xác suất thống kê B, Trƣờng Đại học Cần Thơ.
Tài liệu Tiếng Anh
[1] Peter M.Lee(2004), Bayesian Statitics , OxFord University.
53
PHỤ LỤC
Phụ lục 1. Bảng phân vị chuẩn tắc z
1 z
t2
exp(
)dt
2
2
z
z
z
z
0,50
0,000
0,71
0,553
0,92
1,405
0,980
2,054
0,51
0,025
0,72
0,583
0,93
1,476
0,981
2,075
0,52
0,030
0,73
0,613
0,94
1,555
0,982
2,097
0,53
0,075
0,74
0,643
0,95
1,645
0,983
2,120
0,54
0,100
0,75
0,674
0,955
1,695
0,984
2,144
0,55
0,126
0,76
0,706
0,960
1,751
0,985
2,170
0,56
0,151
0,77
0,739
0,965
1,812
0,986
2,197
0,57
0,176
0,78
0,772
0,966
1,825
0,987
2,226
0,58
0,202
0,79
0,806
0,967
1,837
0,988
2,257
0,59
0,228
0,80
0,842
0,968
1,852
0,989
2,290
0,60
0,253
0,81
0,878
0,969
1,866
0,990
2,326
0,61
0,279
0,82
0,915
0,970
1,881
0,991
2,366
0,62
0,305
0,83
0,954
0,971
1,896
0,992
2,409
0,63
0,332
0,84
0,994
0,972
1,911
0,993
2,457
0,64
0,358
0,85
1,036
0,973
1,927
0,994
2,512
0,65
0,385
0,86
1,080
0,974
1,943
0,995
2,576
0,66
0,412
0,87
1,126
0,975
1,960
0,996
2,652
0,67
0,440
0,88
1,175
0,976
1,977
0,997
2,748
0,68
0,468
0,89
1,227
0,977
1,995
0,998
2,878
0,69
0,496
0,90
1,282
0,978
2,014
0,999
3,090
0,70
0,524
0,91
1,341
0,979
2,034
54
Phụ lục 2. Bảng phân vị Student
Bậc tự do n, mức xác suất
0,10
0,05
0,025
0,01
0,005
0,001
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
+
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
1,282
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,719
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,658
1,645
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,980
1,960
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,861
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,358
2,326
63,675
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,617
2,576
66,619
22,326
10,213
7,173
5,893
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,307
3,232
3,160
3,090
n
55
Phụ lục 3. Bảng giá trị tích phân Laplace
( x)
X
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0
0,000
0389
0793
1179
1554
1915
2257
2580
2881
3159
3413
3643
3849
4032
4192
4332
4452
4554
4641
4713
4772
4821
4861
4893
4918
4938
4953
4962
4974
4981
49865
49903
49931
49952
49966
49977
49984
49989
49993
49995
1
0,004
0438
0832
1217
1591
1950
2291
2611
2910
3186
3438
3665
3869
4049
4207
4345
4463
4564
4649
4719
4778
4826
4864
4896
4920
4940
4955
4966
4975
4982
49869
49906
49934
49953
49967
49978
49985
49990
49993
49995
2
0,0080
0478
0871
1255
1628
1985
2324
2642
2939
3212
3461
3686
3888
4066
4222
4357
4474
4573
4656
4726
4783
4830
4868
4898
4922
4941
4956
4967
4976
4982
49874
49909
49936
49955
49969
49978
49985
49990
49993
49996
3
0,0120
0517
0910
1293
1664
2019
2357
2673
2967
3238
3485
3708
3907
4082
4236
4370
4484
4582
4664
4732
4788
4834
4871
4901
4925
4943
4957
4968
4977
4983
49878
49912
49938
49957
49970
49979
49986
49990
49994
49996
t2
1 x
exp 2
2 0
4
0,016
0557
0948
1331
1700
2054
2389
2703
2995
3264
3508
3729
3925
4099
4251
4382
4495
4591
4671
4738
4793
4838
4875
4904
4927
4945
4959
4969
4977
4984
49882
49915
49940
49958
49971
49980
49986
49991
49994
49996
56
dt
5
0,0199
0396
0987
1368
1736
2088
2422
2734
3023
3289
3531
3749
3944
4115
4265
4394
4505
4599
4678
4744
4793
4838
4875
4904
4927
4945
4959
4969
4977
4984
49882
49915
49940
49958
49971
49980
49986
49991
49994
49996
6
0,0239
0636
1026
1406
1772
2123
2454
2764
3051
3315
3554
3770
3962
4131
4279
4406
4515
4608
4686
4750
4803
4846
4881
4909
4931
4948
4961
4971
4979
4985
49889
49921
49924
49961
49973
49982
49987
49992
49994
49996
7
0,0279
0675
1064
1443
1808
2157
2486
2794
3078
3340
3577
3790
3980
4147
4292
4418
4525
4616
4693
4756
4808
4850
4884
4911
4932
4949
4962
4972
4979
4985
49893
49924
49946
49962
49974
49982
49988
49992
49995
49996
8
0,0319
0714
1103
1480
1844
2190
2517
2823
3106
3365
3599
3810
3997
4162
4306
4429
4535
4625
4699
4761
4812
4854
4887
4913
4934
4951
4963
4973
4980
4986
49897
49926
49948
49964
49975
49983
49988
49992
49995
49997
9
0,035
0753
1141
1517
1879
2224
2549
2852
3133
3389
3621
3830
4015
4177
4319
4441
4545
5633
4706
4767
4817
4857
4890
4916
4936
4952
4964
4974
4981
4986
49900
49929
49950
49965
49976
49984
49989
49993
49995
49997
[...]... KIỂM ĐỊNH THAM SỐ THỐNG KÊ BẰNG PHƢƠNG PHÁP BAYES 3.1 TỔNG QUAN VỀ BÀI TOÁN KIỂM ĐỊNH THỐNG KÊ Trong thực tế, dựa vào số liệu mẫu thu đƣợc ngƣời ta thƣờng có nhu cầu kiểm tra một vấn đề thống kê nào đó là đúng hay sai Vấn đề thống kê đƣợc đặt ra ở đây đƣợc gọi là giả thiết thống kê Việc kiểm định các giả thiết thống kê có liên quan đến các tham số đặc trƣng của tổng thể đƣợc gọi là kiểm đinh tham số. .. tham số chƣa biết của X (một tham số hoặc nhiều tham số) là việc dựa trên một mẫu ( X1 , X 2 , , X n ) để tìm đƣợc một thống kê ˆ( X , X , , X ) để thay thế tham số chƣa biết 1 2 n Việc xác định điểm ƣớc lƣợng bằng phƣơng pháp Bayes của tham số chƣa biết sẽ dựa vào phân phối xác suất hậu nghiệm của tham số đó Tuy nhiên, khi ƣớc lƣợng tham số chƣa biết bằng phƣơng pháp ƣớc lƣợng điểm thì ta không... số thống kê Để kiểm tra giả thiết thống kê là đúng hay sai, trƣớc tiên ta xây dựng hai mệnh đề trái ngƣợc nhau có liên quan đến tham số cần kiểm định đƣợc gọi là giả thiết (H) và đối thiết (𝐻) Trong bài toán kiểm định về tham số thống kê , ta sử dụng cặp giả thiết, đối thiết nhƣ sau H : 0 , H : 0 H : 0 , H : 0 H : 0 , H : 0 Trong bài toán kiểm định về hai tham số thống. .. việc xác định 𝑝𝑣 sẽ dựa vào phân phối hậu nghiệm của tham số cần kiểm định Sau đây là một số bài toán kiểm định về tham số trung bình và tỷ lệ 3.2 MỘT SỐ BÀI TOÁN KIỂM ĐỊNH LIÊN QUAN ĐẾN TRUNG BÌNH 3.2.1 Kiểm định trung bình Bài toán Giả sử đại lƣợng ngẫu nhiên X có phân phối chuẩn với tham số trung bình 𝜇 chƣa biết Giả sử 𝜇 có phân phối tiền nghiệm chuẩn đã biết 𝜇 > 𝜇0 Chọn giả thiết 𝐻: 𝜇 = 𝜇0 và một... Căn cứ vào kết quả ƣớc lƣợng, ngƣời ta chia bài toán ƣớc lƣợng tham số thống kê thành hai loại là ƣớc lƣợng điểm và ƣớc lƣợng khoảng tham số thống kê 2.1 ƢỚC LƢỢNG ĐIỂM THAM SỐ THỐNG KÊ Khi nghiên cứu đại lƣợng ngẫu nhiên X của tổng thể, chúng ta thƣờng không biết phân phối xác suất của nó nhƣ thế nào, vì thế không thể biết chính xác các tham số đặc trƣng Ƣớc lƣợng điểm của các giá trị tham số chƣa... trƣng bởi các tham số mà trong thực tế hầu nhƣ không thể biết đƣợc chúng một cách chính xác Do đó, để xác định đƣợc những tham số này ngƣời ta sẽ ƣớc lƣợng chúng từ mẫu đã chọn Bài toán ƣớc lƣợng tham số thống kê là bài toán ƣớc lƣợng giá trị tham số chƣa biết của đại lƣợng ngẫu nhiên dựa vào quan sát trên mẫu đƣợc lấy ra Thông thƣờng các tham số cần ƣớc lƣợng là trung bình, phƣơng sai và tỷ lệ những... khoảng tham số với khoảng tin cậy đối xứng Trong phần này để ngắn gọn ta chỉ nói “ƣớc lƣợng” thay cho cách nói đầy đủ “ƣớc lƣợng khoảng tin cậy đối xứng” Khi đó, tham số cần ƣớc lƣợng thuộc khoảng (1; 2 ) (0 ; 0 ) , trong đó 16 0 là ƣớc lƣợng điểm của tham số , là độ chính xác hay sai số của ƣớc lƣợng Sau đây là một số bài toán ƣớc lƣợng tham số cơ bản bằng phƣơng pháp Bayes. .. tăng lên và ngƣợc lại Do đó trong bài toán kiểm định ngƣời ta tiến hành nhƣ sau: Ấn định trƣớc mức xác suất sai lầm loại 1 qua mức ý nghĩa và xây dựng lý thuyết sao cho khả năng mắc phải sai lầm loại 2 ( ) là nhỏ nhất trong khả năng có thể Trong thực tế chúng ta chọn đủ bé (từ 1% đến 10%) 24 Việc thực hiện việc kiểm định tham số thống kê với mức ý nghĩa cho trƣớc theo phƣơng pháp Bayes có thể... phục các hạn chế đó, ta sử dụng ƣớc lƣợng khoảng tin cậy cho tham số 2.2 ƢỚC LƢỢNG KHOẢNG THAM SỐ THỐNG KÊ Giả sử là một tham số của biến ngẫu nhiên X cần biết Ƣớc lƣợng khoảng tham số là xác định khoảng ( 1 ; 2 ) sao cho xác suất để ( 1 ; 2 ) bằng một độ tin cậy cho trƣớc Trong bài toán ƣớc lƣợng khoảng, ta sử dụng một số kí hiệu sau : Mức ý nghĩa, là khả năng có thể mắc phải... Khi tham số p có phân phối tiên nghiệm đều trên [0, 1] thì kết quả hàm phân phối xác suất hậu nghiệm của p là trường hợp đặc biệt khi tham số p có phân phối 𝛽(𝑎, 𝑏), với 𝑎 = 1, 𝑏 = 1 Hàm mật độ xác suất của phân phối chuẩn Đại lƣợng ngẫu nhiên liên tục X đƣợc gọi là có phân phối chuẩn với hai tham số 𝜇 và 𝜎 2 Kí hiệu: 𝑋~𝑁(𝜇, 𝜎 2 ) và hàm mật độ xác suất của nó đƣợc xác định nhƣ sau 𝑓 𝑥|𝜇, 𝜎 Các tham