IV. CÁCH XỬ LÝ SỐ LIỆU TRONG PHÉP THỬ PHÂN BIỆT BẰNG
2. Các ví dụ
2.3.2. Tham số p ban đầu tuân theo phân phối đều
Xác định phân phối tiên nghiệm:
• Các tham số: a = b =1
• Trung bình tiên nghiệm: µ = 0,5
• Phương sai tiên nghiệm: σ2 = 1/12 = 0,0833
⇒ Độ lệch chuẩn σ = 0,2887.
Xác định phân phối hậu nghiệm: Biết n = 50 và x = 35
• Các tham số: a* = 36 và b* = 16
• Trung bình µ* = 0,6923
Phương sai σ2* = 4,0192.10-3≈ 0,0040 ⇒ Độ lệch chuẩn σ* = 0,0634
Dựng đường cong phân phối beta tiên nghiệm và hậu nghiệm: (phần mềm R)
Xác định khoảng tin cậy (p1, p2) của phân phối hậu nghiệm: Chọn α = 0,05
• Theo (Jian Bi, 2001): (p1, p2) = (0,5681; 0,8166)
Vậy khoảng tin cậy 95% của p theo phân phối hậu nghiệm là (0,5681; 0,8166), nghĩa là 95% tỉ lệ trả lời đúng nằm trong khoảng (0,5681; 0,8166).
Vậy khoảng tin cậy 95% của p theo phân phối hậu nghiệm là (0,5617; 0,8089), nghĩa là 95% tỉ lệ trả lời đúng nằm trong khoảng (0,5617; 0,8089).
Hình IV.2.4: Đường cong phân phối beta tiên nghiệm và hậu nghiệm
Kiểm định giả thiết chính H(pH = 0,6) theo dữ kiện thực tế D(n, x):
Giả thiết H (pH = 0,6): “Tỉ lệ chọn sản phẩm A: p > 0,6”. Suy ra:
• Các xác suất: P(H) = 1 – pH = 0,4 và P(HD) = P(p > 0,6) = 1 – F(0,6) = 0,9211 Vậy xác suất để tỉ lệ chọn sản phẩm A: p > 0,6 là 92,11%.
• Theo (Carlin và Louis, 2000), ta có: 51 17 6 0 4 0 9211 0 1 9211 0 , , / , ) , /( , − = = B ⇒ 2,2 < 2lnB = 5,7 < 6
Ta nói giả thiết H có bằng chứng xác thực / rõ ràng (positive evidence).
Kết luận: Ta chấp nhận giả thiết H: “Tỉ lệ chọn sản phẩm A lớn hơn 0,6” do P(p > 0,6) = 99,11% và 2lnB = 5,7.
Ta cũng thấy khoảng tin cậy 95% của p theo phân phối hậu nghiệm là(0,5617; 0,8089) không bao gồm p = 0,5, nên ta cũng có thể kết luận: “Với khoảng tin cậy 95% thì hai sản phẩm khác nhau”.
2.3.3. Khảo sát ảnh hưởng của kích thước mẫu và thông tin tiên nghiệm đến kết quả sau cùng
Khảo sát ảnh hưởng của các kích thước mẫu (n, x) bằng (50, 35) và (500, 350) (gấp 10 lần ban đầu) đến khoảng tin cậy (p1, p2) của các phân phối hậu nghiệm. Ta thu được bảng kết quả và các đồ thị sau:
Bảng IV.2.1: Ảnh hưởng của kích thước mẫu đến phân phối hậu nghiệm (a, b) n x µ σ2 µ* σ2* (p1, p2) (1; 1) 50 35 0,5 0,0833 0,6923 0,0040 (0,5617; 0,8089) (13,8; 9,2) 50 35 0,6 0,01 0,6685 0,0030 (0,5572; 0,7710) (1; 1) 500 350 0,5 0,0833 0,6992 0,0004 (0,6584; 0,7385) (13,8; 9,2) 500 350 0,6 0,01 0,6956 0,0004 (0,6555; 0,7343)
Hình IV.2.6: Các đường cong phân phối hậu nghiệm ứng với n = 500 và x = 350
Nhận xét:
Khi kích thước mẫu nhỏ (n = 50, x = 35):
Ảnh hưởng của thông tin tiên nghiệm khá rõ rệt, độ chồng chập của hai đường cong phân phối hậu nghiệm (ứng với hai thông tin tiên nghiệm khác nhau) không cao lắm, ta hoàn toàn có thể phân biệt được hai đường cong này trên đồ thị.
Mức độ ảnh hưởng của thông tin tiên nghiệm phụ thuộc vào tổng của hai tham số tiên nghiệm a và b.
• Với a = b = 1: Do tổng của a và b nhỏ (a + b = 2) nên kết quả thí nghiệm chủ yếu được quyết định bởi dữ kiện thực tế (n, x) = (50; 35), trung bình hậu nghiệm µ* = 0,6923 và khoảng tin cậy của phân phối hậu nghiệm (p1; p2) có xu hướng lệch sang phải theo ước lượng của dữ kiện thực tế pD = x/n = 0,7.
• Với a = 13,8; b = 9,2: Do tổng của a và b lớn hơn (a + b = 23) nên ảnh hưởng của thông tin tiên nghiệm đối với kết quả thí nghiệm rõ rệt hơn, trung bình hậu nghiệm µ* = 0,6685 và khoảng tin cậy của phân phối hậu nghiệm (p1; p2) có xu hướng lệch sang trái hơn so với trường hợp a = b = 1.
Khi kích thước mẫu lớn (n = 500, x = 350):
Ảnh hưởng của kích thước mẫu là quyết định, ảnh hưởng của thông tin tiên nghiệm là không đáng kể, hai đường cong phân phối hậu nghiệm (ứng với hai thông tin tiên nghiệm khác nhau) gần như chồng chập hoàn toàn, ta khó có thể phân biệt được hai đường cong này trên đồ thị.