Bài toán sai khác giữa hai giá trị trung bình

Một phần của tài liệu Tìm hiểu về khoảng tin cậy bayes (Trang 46 - 51)

Chương 3. Khoảng tin cậy và khoảng tin cậy Bayes

3.1. Bài toán sai khác giữa hai giá trị trung bình

Một trong những “vấn đề thống kê” phổ biến nhất là sai khác giữa hai giá trị trung bình của phân bố chuẩn. Ta xét bài toán cụ thể sau.

3.1.1. Phát biểu bài toán

Hai nhà sản suất A và B là nhà cung cấp một thiết bị nào đó. Ta muốn chọn thiết bị từ nhà sản xuất nào có trung bình tuổi thọ cao hơn. Nhà sản xuất A cung cấp 9 chi tiết để kiểm tra, với tuổi thọ vào khoảng ( ) giờ, nhà sản xuất B cung cấp 4 chi tiết, tuổi thọ khoảng ( ) giờ.

Để thống nhất ký hiệu, ta gọi:

- và lần lượt là tuổi thọ trung bình của thiết bị từ nhà sản xuất A và B, và là hai phương sai tương ứng.

- ̅ và ̅ là giá trị tuổi thọ trung bình mẫu, và là hai phương sai mẫu tương ứng.

- và là cỡ mẫu các chi tiết chọn của nhà sản xuất A và B.

Giả thiết ban đầu, hai mẫu được rút ra từ quần thể tuân theo phân bố chuẩn lần lượt là ( ) và ( ).

Với nhận thức thông thường, ta sẽ thấy nhà sản xuất B có thiết bị tốt hơn, mặc dù cần có cỡ mẫu lớn hơn để có sự tương xứng, các chi tiết B cho thấy tuổi thọ dài hơn; hơn nữa sự sai khác giữa 2 giá trị trung bình cũng lớn hơn độ lệch chuẩn mẫu. Như vậy sẽ là hợp lý khi chọn nhà sản xuất B.

3.1.2. Lời giải theo phương pháp tần suất

Đây là bài toán trong cuốn sách về kỹ thuật của Robert (1964), lời giải của bài toán đưa ra cách phân tích sau:

 Kiểm định hai phương sai có bằng nhau không: sử dụng bài toán kiểm định độ lệch chuẩn , , với , đưa về kiểm định tỉ số hai phương sai , do ( ) ( ) nên ta sử dụng thống kê để kiểm định:

,

với | | không thể bác bỏ

Như vậy, với mức ( ), ta không thể khẳng định hai phương sai là khác nhau. Giả sử chúng bằng nhau, ta có ước lượng chung cho 2 phương sai:

( ) ( )

 Kiểm định hai giá trị trung bình tuổi thọ: , , với . Sử dụng thống kê ( ) (tiệm cận chuẩn) với giả thiết 2 phương sai bằng nhau:

̅ ̅

| | không thể bác bỏ

Vậy với mức 90% ( ), ta không thể khẳng định được thiết bị của nhà sản xuất nào có tuổi thọ trung bình vượt trội hơn.

Như vậy, theo quan điểm tần suất, kết quả phân tích thống kê từ dữ liệu không trùng khớp với dự định thông thường.

3.1.3. Lời giải theo phương pháp Bayes a. Trường hợp

Rõ ràng theo giá trị tính được từ dữ liệu, ta muốn kiểm tra xem liệu có thực sự hay không, ta tính xác suất để biến cố “ ” xảy ra dựa trên dữ liệu đã có:

( ) ( | ) ∫ ∫ ( ) ( )

Trong đó ( ) và ( ) là phân bố hậu nghiệm của và , ta sẽ tiến hành xây dựng hai phân bố này. Vì có sự tương tự về cách làm đối với và nên ta xét biến đổi cho trường hợp tổng quát, với trung bình , phương sai và bộ dữ liệu ( ).

Phân bố hậu nghiệm đồng thời cho và : ( | ) ( | ) ( ), trong đó ( ) là tiên nghiệm đồng thời cho và , được chọn như sau

i) Chọn tiên nghiệm Jeffrey cho là phân bố đều: ( ) ii) Chọn tiên nghiệm Jeffrey cho là ( ) , khi đó

( ) ( ) ( ) Với giả thiết mẫu rút từ phân bố chuẩn, ta có:

( | ) ∏( ) ( ) [

( ) ]

( ) [

∑ ( )

] ( ) {

[∑ ( ̅)

( ̅ ) ]}

( ) [

∑ ( ̅)

] * ( ̅ )

+

Suy ra

( ) ( | ) ( | ) ( ) ( ) [

∑ ( ̅)

] * ( ̅ )

+

( ) * ( )

+ * ( ̅ ) +

Lấy tích phân hàm này theo trên khoảng ( ) ta sẽ nhận được phân bố hậu nghiệm cho , chú ý rằng ( | ) có dạng phân phối gamma

( | ) ∫ ( | ) * ( ̅) ( ) + Như vậy ta có:

( ) ( ) ,( ) ( ̅) - ( ) ( ) 0( ) ( ̅) 1

Với ̅ ̅ ta có ( | ) . Vậy khả năng thiết bị B có tuổi thọ cao hơn thiết bị A là (hay xác suất 0.92). Kết luận này là hợp lý với nhận định thông thường.

b. Trường hợp

Câu hỏi đặt ra là với việc không có giả thiết hai phương sai bằng nhau liệu độ chính xác của kết quả có bị ảnh hưởng? Ta kiểm tra bằng cách sử dụng phương pháp Bayes với giả thiết hai phương sai bằng nhau . Ta xét phân bố hậu nghiệm đồng thời cho và

( | ) ( | ) ( | ̅ ̅) Trong đó, với cho trước:

- ( ̅ ̅ . /). Phân bố hậu nghiệm của với điều kiện ̅ ̅ là ( | ̅ ̅)

√ √

[

( ̅ ̅ ) ].

- Gọi , khi đó

. Phân bố hậu nghiệm của với điều kiện là:

( | )

. /( )

( )

Vậy hậu nghiệm đồng thời của và là:

( | ) [

(

( ̅ ̅ )

)]

Lấy tích phân ( | ) theo trên khoảng ( ) (chú ý phân bố này có dạng hàm gamma), ta có phân bố hậu nghiệm của là:

( ) ( | ) { [ ( ̅ ̅)]

( ) . / }

( )

Đây chính là phân bố t student với trung bình ( ̅ ̅), phương sai . / và ( ) bậc tự do. Tính tích phân hàm này theo trên khoảng ( ), ta nhận được tỉ lệ khả năng là 18:1, thiết bị B có tuổi thọ cao hơn thiết bị A (xác suất 0.948).

3.1.4. Nhận xét

a. Lời giải theo phương pháp tần suất

- Việc xác định bài toán kiểm định hai phía cho 2 giá trị trung bình (với mức 90%) đã làm mất đi thông tin của dữ liệu: từ số liệu mẫu, ta phải đặt câu hỏi liệu hay không, chứ không phải kiểm tra có ý nghĩa không (kết quả bài toán này giống bài toán kiểm định một phía với mức 95%). Khi thay đổi thành bài toán kiểm định một phía: với mức 90% ( ), ta sẽ chấp nhận

.

- Cách loại bỏ tham số nhiễu : Bằng cách chọn thống kê ( ̅ ̅) ( )

. / độc lập với . Đây là phương án khá đẹp để giải quyết ảnh hưởng tham số nhiễu đến kết quả bài toán. Tuy nhiên trong trường hợp tổng quát, việc tìm được thống kê thỏa mãn:

1) là hàm của quan sát và tham số nhiễu, và 2) độc lập với tham số nhiễu, thường gặp nhiều khó khăn.

b. Lời giải theo phương pháp Bayes

- Đưa ra trực tiếp xác suất xảy ra của biến cố “ ” trong cả hai trường hợp, có hay không giả thuyết 2 phương sai bằng nhau, một cách dễ dàng và nhanh chóng, bằng cách xét các tích phân tương ứng.

- Cách loại bỏ tham số nhiễu : Lấy tích phân theo biến nhiễu. Với cách làm này, ta có thể tiến hành với bất kỳ tập hợp tham số nhiễu nào (vì tham số là biến ngẫu nhiên).

Một phần của tài liệu Tìm hiểu về khoảng tin cậy bayes (Trang 46 - 51)

Tải bản đầy đủ (PDF)

(79 trang)