Chương 3. Khoảng tin cậy và khoảng tin cậy Bayes
3.3. Bài toán tham số tỉ lệ trong phân bố mũ
Xác suất để bộ máy hoạt động không gặp lỗi trong thời gian t là ( ) . Ta kiểm tra chi tiết trong khoảng thời gian , quan sát được lần gặp lỗi. Khả năng để tuổi thọ trung bình lớn hơn mức cho trước là bao nhiêu?
Bài toán kiểm định , tương đương với . 3.3.2. Lời giải theo phương pháp tần suất
Sobel và Tischendorf (1959) (viết tắt ST) đưa ra lời giải theo phương pháp tần suất bằng cách tra bảng như sau.
Số lần gặp lỗi được đặc trưng bởi biến ngẫu nhiên :
,
Các biến này độc lập cùng phân phối. Gọi là số lần gặp lỗi trong chi tiết. Khi đó ∑ có phân phối nhị thức ( ) với
( ) ( ) ( ) (
)
Đây là phân bố họ mũ với ( ) ∑ ( ) ( ) là hàm đơn điệu tăng vì ( )
( ) . Vậy ta bác bỏ , hay tạm chấp nhận nếu ( ) , với là số lớn nhất thỏa mãn (xét tại giá trị ít thuận lợi nhất ):
( ( ) ) ∑ ( )
Số được tìm bằng cách tra bảng phân bố nhị thức tương ứng. Gọi:
( ) ( ) ∑ ( ) ( )
là xác suất để có hoặc ít hơn số lần gặp lỗi xảy ra. Với giá trị nói trên, tại thời điểm xác định và cho trước, bằng cách đặt tổng ( ) , ta sẽ tìm được cỡ mẫu cần có để bác bỏ với mức 100P%. Chẳng hạn, với để bác bỏ ở mức 90% ta cần cỡ mẫu ; hoặc với ta chỉ cần cỡ mẫu .
3.3.3. Lời giải theo phương pháp Bayes
Ta chỉ sử dụng thông tin giống như phương pháp tần suất (chỉ dùng dến tổng số lần gặp lỗi). Xác suất để lỗi xảy ra trong thời gian là:
( ) ( | ) ( ) ( )
Phân bố tiên nghiệm được chọn là phân bố đều (phân bố thiếu thông tin): ( ) . Khi đó phân bố hậu nghiệm cho tham số là
( | ) ( ) ( ) ( )
Hệ số ( ) được tìm bằng cách tích phân 2 vế theo trên ( ), ta có ∫ ( | ) ( ) ( ) ∫ ( ) ( ) ( )
Đặt , khi đó ta nhận được tích phân của hàm beta, dẫn đến ( ) ( ) ( )
( ) Suy ra
( ) ( | )
( )
( ) ( ) ( )
Vậy xác suất để xảy ra đối thuyết là: ( ) ∫ ( | )
Như vậy khoảng chấp nhận ở mức ( ) là ( ) ( ) ∫ ( | )
Với giá trị cụ thể của thỏa mãn bất đẳng thức ( ), ta sẽ chấp nhận . Tương tự, với thời điểm và giá trị xác định ta cũng tìm được cỡ mẫu cần có để bác bỏ . Dễ thấy vế trái của ( ) (là dạng hàm Beta không đầy đủ) đồng nhất với tổng ( ) (tổng nhị thức không đầy đủ), như vậy trong trường hợp này, phương pháp Bayes sẽ cho kết quả giống phương pháp tần suất, nhưng với cách làm đơn giản hơn.
3.3.4. Các thiếu sót của hai lời giải
a. Theo lời giải của phương pháp tần suất, nếu khoảng thời gian , cỡ mẫu cần có để bác bỏ là rất lớn, hoặc kết quả sẽ không có ý nghĩa khi thời gian thực hiện thí nghiệm rất nhỏ so với giá trị . Chẳng hạn, nếu ta muốn chấp nhận rằng một con tàu vũ trụ có năm, trong khi thí nghiệm chỉ được tiến hành trong 6 tháng, với
, bằng cách tra bảng ta sẽ nhận được số tàu (hay cỡ mẫu) cần có để kiểm tra là !
b. Từ thí nghiệm, ta không chỉ biết tổng số lần gặp lỗi , mà còn có dữ liệu về thời điểm cụ thể * + xảy ra lỗi. Thông tin này thực sự (sẽ chỉ ra dưới đây) có liên quan đến câu hỏi, nhưng trong quá trình làm lại không được sử dụng.
c. Thí nghiệm có đặc tính “chuỗi”: là giá trị thời gian kiểm định lớn nhất có thể, có được trong trường hợp biên, khi ta quan sát được chính xác lỗi xảy ra. Như vậy, bài toán kiểm định sẽ kết thúc nếu điều kiện bác bỏ đạt được,trường hợp này sẽ có thời gian kiểm định trung bình nhỏ hơn ; ngược lại, bài toán kiểm định với thời gian trung bình bằng thì số chi tiết được kiểm tra sẽ ít hơn.
d. Thông tin tiên nghiệm tương ứng chưa được sử dụng, giả sử đối tượng được kiểm tra là tàu vũ trụ, khi đó nếu những thông tin tiên nghiệm về chất lượng vật liệu, thuyết bị và phương pháp xây dựng (với độ tin cậy tương ứng) không được sử dụng, thì kết quả kiểm định sẽ không có ý nghĩa thực tế.
e. Câu trả lời cho câu hỏi thực tiễn đưa ra chưa tương xứng. Với nhà du hành vũ trụ đang chuẩn bị chuyến bay trog 5 năm lên sao Hỏa, kết luận từ phương pháp tần suất sẽ không mấy hữu ích, khi chỉ khẳng định rằng “Có tới các trường hợp cho thời gian sống trung bình của tàu vũ trụ là ít nhất năm”, vì quan điểm tần suất cho rằng
“xác suất” chính là “tần suất”. Các nhà du hành vũ trụ cần kết luận như “Xác suất là con tàu này hoạt động không gặp lỗi trong năm”, đây chính là kết luận của phương pháp Bayes.
3.3.5. Cải tiến thiếu sót về đặc tính “chuỗi”
a. Phương pháp tần suất (thiếu sót a, b và c)
Ta tiến hành cải tiến thiếu sót không sử dụng thông tin về thời điểm xảy ra lỗi và đặc tính chuỗi của thí nghiệm bằng cách đưa vào sử dụng dữ liệu về thời điểm * +.
Với tỉ lệ lỗi , xác suất để lỗi xảy ra tại các thời điểm * + tương ứng (với thời điểm ban đầu ), và ( ) chi tiết không gặp lỗi trong khoảng thời gian là
( ) ( | ) [ ̅][ ( ) ]
Với ̅ ∑ là thời gian sống trung bình của các chi tiết bị lỗi. Khi đó và ̅ là hai thống kê đủ đồng thời để bảo toàn lượng thông tin về (hay ).
Việc tìm phân bố đồng thời ( ̅| ): với xác định, khoảng ̅ được chia thành khoảng bằng nhau, với biểu diễn giải tích cho hàm phân bố trên mỗi khoảng là khác nhau. Tuy nhiên để tìm vùng tin cậy cho cả hai biến, công việc yêu cầu độ phức tạp cao, cả về công thức và khái niệm toán, vì vậy luận văn sẽ không đề cập đến.
b. Phương pháp Bayes (thiếu sót b và c)
Sử dụng thêm thông tin về * + ta có phân bố hậu nghiệm cho là ( ) ( | ) ( )
( )
với ̅ ( ) ( ) là tổng thời gian gặp lỗi quan sát được. Khi đó xác suất hậu nghiệm để là:
( ) ( ) ( )
∫ ∑ ( )
Bằng cách đặt ( ) , ta sẽ có được khoảng để bác bỏ (hay chấp nhận ) ở mức . Bài toán kiểm định có thể kết thúc ngay khi giá trị thỏa mãn bất đẳng thức.
3.3.6. Nhận xét
a. Trường hợp hai lời giải cho kết quả giống nhau Hai phương pháp cho kết quả giống nhau trong trường hợp:
i. Thời gian rất nhỏ so với giá trị : ( ) ii. Số lần gặp lỗi quan sát được là nhỏ: .
Thật vậy, khi 2 điều kiện này thỏa mãn, xấp xỉ Poisson cho tổng ( ) sẽ tồn tại, xấp xỉ này chính là ( ), ngoại trừ vị trí của chính là . Và bởi vì số lần gặp lỗi là rất nhỏ
nên dữ liệu về thời điểm xảy ra lỗi * + không mấy ảnh hưởng đến kết quả cuối cùng.
b. Trường hợp hai lời giải cho kết quả khác nhau
Sự khác biệt nằm ở trường hợp số lần gặp lỗi quan sát được là lớn: nếu cả chi tiết được kiểm tra đều gặp lỗi, phương pháp tần suất sẽ bác bỏ ở mọi mức ý nghĩa, mặc dù tuổi thọ trung bình quan sát được có thể gấp nghìn lần giá trị cho trước ; nhưng phương pháp Bayes không đưa ra quyết định như vậy.
Ví dụ 3.3.1.
- Khi kiểm tra 9 chi tiết và tất cả đều gặp lỗi, lời giải tần suất sẽ chấp nhận ở mọi mức ý nghĩa, còn lời giải Bayes sẽ chấp nhận ở mức nếu ̅ . - Khi kiểm tra 10 chi tiết và có 9 lần gặp lỗi, khoảng chấp nhận 90% theo phương
pháp tần suất sẽ là , còn theo Bayes sẽ là ̅ . Với những trường hợp này, việc sử dụng * + rõ ràng có ý nghĩa.
c. Điểm vượt trội hơn của phương pháp Bayes
Phương pháp Bayes có thể đưa ra xác suất để tuổi thọ trung bình của một chi tiết ít nhất bằng mà không sử dụng giá trị trung bình của một quần thể được giả định trước đó (điều này phương pháp tần suất không làm được). Thật vậy, trong bài toán này, nếu đã biết, xác suất để tuổi thọ của một chi tiết cho trước lớn hơn là
( ) ( | )
Xác suất để , với điều kiện dữ liệu thu được là
( ) ( | ) ∫ ( | ) (
)
Vậy với xác suất , tuổi thọ của một chi tiết cụ thể ít nhất bằng được chấp nhận với điều kiện biểu thức ( ) .
3.3.7. Cải tiến thiếu sót về thông tin tiên nghiệm a. Chọn phân bố tiên nghiệm có nghĩa
Các phân tích trên của phương pháp Bayes mới chỉ dựa trên phân bố tiên nghiệm thiếu thông tin. Bây giờ ta sẽ cải tiến thành phân bố tiên nghiệm có ý nghĩa thông tin, điều mà phương pháp tần suất chưa làm được.
Giả sử ban đầu, trung bình tuổi thọ của chi tiết thứ là , hay tỉ lệ gặp lỗi là . Sử dụng tiêu chuẩn entropy cực đại, ta chọn các phân bố tiên nghiệm tương ứng
( ) ( ) thỏa mãn:
- ( )
- ( ) làm cực đại hàm ∫ ( ) ( )
Phân bố thỏa mãn có dạng ( ) ( ). Lặp lại các tính toán trên với tiên nghiệm mới này, ta nhận được phân bố hậu nghiệm có dạng hàm như cũ, nhưng thay ̅ ( ) bởi ̅ ( ) ( ).
Với kết quả này, ta sẽ có tiêu chuẩn khái quát nhất để đánh giá trong các trường hợp khác nhau:
- Nếu , những thông tin về tham số sẽ không thay đổi mấy, trừ khi một số lượng lớn số lần gặp lỗi xảy ra.
- Nếu , phần lớn kết luận cuối cùng sẽ phụ thuộc vào dữ liệu quan sát được, và có thể hoàn toàn tách biệt với những thông tin tiên nghiệm về tham số.
- Nếu , số lượng chi tiết cần có để kiểm tra được giảm đi đáng kể.
- Nếu , bài toán được xử lý giống trường hợp tiên nghiệm đều (kết luận chủ yếu dựa vào bằng chứng có được từ dữ liệu).
b. Nhận xét
Những kết luận trên, nếu với phương pháp tần suất, có được dựa trên việc chia thành các trường hợp khác nhau. Ngược lại, với phương pháp Bayes, tất cả đều được lượng hóa rõ ràng trong các hàm số. Phương pháp tần suất hoàn toàn có thể đưa các thông tin tiên nghiệm về tham số vào tính toán bằng cách lựa chọn mức ý nghĩa sao cho phù hợp với các thông tin tiên nghiệm đó, nhưng lại không có một tiêu chuẩn mẫu mực nào để làm
điều này, không giống như phương pháp Bayes dựa trên luật entropy cực đại và nhóm các phép biến đổi để tìm phân bố tiên nghiệm phù hợp.