Microsoft Word THá»’NG KÃ− BAYES final (1) 35 Chương 3 RA QUYẾT ĐỊNH (DECISION MAKING) 1 Các tổn thất và ra quyết định (losses and decision making) Hàm tổn thất Định nghĩa 1 Hàm tổn thất là một hàm số[.]
Chương 3: RA QUYẾT ĐỊNH (DECISION MAKING) Các tổn thất định (losses and decision making) Hàm tổn thất Định nghĩa Hàm tổn thất hàm số từ 𝐿 từ 𝐷 × Θ vào [0, +∞] Hàm tổn thất đánh giá mức phạt (sai số) 𝐿(𝑑, 𝜃) định 𝑑 với tham số nhận giá trị 𝜃 Một tảng lý thuyết định Bayes suy luận thống kê việc xác định ba nhân tố: Họ phân phối xác suất quan sát 𝑓(𝑥|𝜃) Phân phối tiên nghiệm tham số 𝜋(𝜃) Quyết định với hàm tổn thất tương ứng 𝐿(𝑑, 𝜃) Ra định Từ quan điểm lý thuyết định, mơ hình thống kê xác định ba không gian: 𝑋 không gian quan sát, Θ không gian tham số 𝐷 khơng gian định Các định có vai trị quan trọng tốn phân tích rủi ro Một số hàm tổn thất (loss function) thông dụng Hàm tổn thất sai số giá trị (không biết) 𝜃 giá trị ước lượng 𝜃, thông thường có dạng hàm phổ biến là: a Hàm tổn thất dạng bình phương (quadratic loss) 𝐿 𝜃, 𝜃 = 𝜃 − 𝜃 b Hàm tổn thất dạng trị tuyệt đối 𝐿 𝜃, 𝜃 = |𝜃 − 𝜃| c Hàm tổn thất dạng 0-1 𝐿 𝜃, 𝜃 = 𝑛ế𝑢 𝜃 = 𝜃 𝑐 𝑛ế𝑢 𝜃 ≠ 𝜃 Trong ước lượng điểm thống kê Bayes: Nếu chọn hàm tổn thất dạng bình phương ước lượng điểm Bayes tối ưu trung bình phân phối hậu nghiệm Nếu chọn hàm tổn thất dạng trị tuyệt đối ước lượng điểm Bayes tối ưu trung vị phân phối hậu nghiệm Nếu chọn hàm tổn thất dạng 0-1 ước lượng điểm Bayes tối ưu số yếu vị 35 phân phối hậu nghiệm Độ xác ước lượng Bayes Giả sử phân phối hậu nghiệm 𝜋(𝜃|𝑥), ước lượng điểm 𝛿 (𝑥) ℎ(𝜃) Khi đó, độ xác ước lượng tính thơng qua sai số bình phương hậu nghiệm (the posterior squared error): 𝛿 (𝑥) − ℎ(𝜃) |𝑥 𝐸 Nhận giá trị 𝑣𝑎𝑟 (ℎ(𝜃)|𝑥) 𝛿 (𝑥) = 𝐸 [ℎ(𝜃)|𝑥] Bài toán kiểm định giả thuyết thống kê Bayes Giả sử mẫu ngẫu nhiên 𝑥 , 𝑥 , ⋯ , 𝑥 bao gồm quan sát độc lập tuân theo phân phối xác suất 𝑓(𝑥), tham số phân phối xác suất tuân theo 𝜃, nhận giá trị không gian tham số Θ Xét tập giá trị Θ Θ , tương ứng với giả thuyết (the null hypothesis) toán kiểm định giả thuyết (the hypothesis testing): 𝐻 :𝜃 ∈ Θ Suy ra, giá trị Θ = Θ\Θ tương ứng với đối thuyết 𝐻 toán kiểm định giả thuyết Khi đó, tốn kiểm định giả thuyết trường hợp riêng toán lựa chọn mơ hình (the model choice problem) Các định toán kiểm định giả thuyết dựa vào nhân tố Bayes Nhân tố Bayes Định nghĩa Nhân tố Bayes (the Bayes factor) tỷ lệ xác suất hậu nghiệm giả thiết đối thiết so với tỷ lệ xác suất tiên nghiệm giả thiết đối thiết, tức 𝐵 𝑃(𝜃 ∈ Θ |𝑥 , 𝑥 𝑃(𝑥 , 𝑥 , ⋯ , 𝑥 |𝜃 ∈ Θ ) 𝑃(𝜃 ∈ Θ |𝑥 , 𝑥 = = 𝜋(𝜃 ∈ Θ 𝑃(𝑥 , 𝑥 , ⋯ , 𝑥 |𝜃 ∈ Θ ) 𝜋(𝜃 ∈ Θ Nếu 𝐵 < bác bỏ 𝐻 Nếu 𝐵 > chưa có sở bác bỏ 𝐻 ,⋯,𝑥 ) ,⋯,𝑥 ) ) ) Trong trường hợp đơn giản nhất, Θ = {𝜃 } Θ = {𝜃 }, nhân tố Bayes tỷ số hai hàm hợp lý với giá trị tham số cỉ nhận mọt giá trị: 𝐵 = 𝑓(𝑥 , 𝑥 , ⋯ , 𝑥 |𝜃 ) 𝑓(𝑥 , 𝑥 , ⋯ , 𝑥 |𝜃 ) Trong hầu hết trường hợp, nhân tố Bayes phụ thuộc vào thơng tin tiên nghiệm 36 Bài tốn kiểm định hai phía Bài tốn kiểm định 𝐻 :𝜃 = 𝜃 𝐻 :𝜃 ≠ 𝜃 𝑀ứ𝑐 ý 𝑛𝑔ℎĩ𝑎 𝛼 Tính miền mật độ xác suất cao với xác suất (1 − 𝛼) Nếu miền mật độ xác suất cao chứa giá trị 𝜃 chưa có sở bác bỏ 𝐻 , chấp nhận 𝜃=𝜃 Nếu miền mật độ xác suất cao không chứa giá trị 𝜃 bác bỏ 𝐻 , tức 𝜃 ≠ 𝜃 Bài tốn kiểm định phía Bài tốn kiểm định 𝐻 :𝜃 ≤ 𝜃 𝐻 :𝜃 ≥ 𝜃 ℎ𝑜ặ𝑐 𝐻 :𝜃 > 𝜃 𝐻 :𝜃 < 𝜃 Tính giá trị nhân tố Bayes đưa định bác bỏ 𝐻 hay khơng Suy luận trung bình tổng thể tuân theo phân phối chuẩn Giả sử mẫu ngẫu nhiên bao gồm quan sát 𝑥 , 𝑥 , ⋯ , 𝑥 độc lập tuân theo phân phối xác suất, với hàm mật độ xác suất 𝑓(𝑥 |𝜃) 𝑓(𝑥 |𝜃) = ( √2𝜋𝜎 ) 𝑒 Khi đó, hàm hợp lý có dạng (Lindley, 2011): 𝑙(𝑥 , 𝑥 , ⋯ , 𝑥 |𝜃) = 𝑓(𝑥 |𝜃) = √2𝜋𝜎 ( 𝑒 ) = ( ∑ √2𝜋𝜎 ) 𝑒 Các phân tích dựa vào phân phối hậu nghiệm tính tốn dựa vào trường hợp thông tin tiên nghiệm: Trường hợp tiên nghiệm Giả sử phân phối tiên nghiệm cho tham số trung bình tổng thể 𝜃 có dạng 𝜋(𝜃) ∝ Suy phân phối hậu nghiệm cho tham số trung bình tổng thể 𝜃 có dạng ∑ 𝜋(𝜃|𝑥 , 𝑥 , ⋯ , 𝑥 ) ∝ 𝑒 ( ) ∑ =𝑒 ∝𝑒 √ Khi đó, phân phối hậu nghiệm tham số trung bình tổng thể 𝜃 tuân theo phân phối chuẩn 37 ⋯ với trung bình 𝑋 = Ví dụ phương sai Giả sử mẫu ngẫu nhiên gồm 10 quan sát từ phân phối chuẩn 𝑁(𝜇, 𝜎 ) với giả định biết phương sai 𝜎 = với mẫu ngẫu nhiên 3.07 7.51 5.95 6.83 8.80 4.19 7.44 7.06 9.67 6.89 Giả sử tiên nghiệm cho tham số trung bình tổng thể 𝜃 = 𝜇 phân phối Có thơng tin cho trung bình tổng thể Hãy kiểm đinh lại thông tin với mức ý nghĩa 5% Giải: Phân phối hậu nghiệm tham số trung bình tổng thể 𝜃 = 𝜇 phân phối chuẩn với trung bình 𝑋 = 6.741, 𝜎 = = 0.4 10 Kiểm định hai phía trung bình tổng thể 𝐻 :𝜃 = 𝐻 :𝜃 ≠ Khoảng ước lượng tham số trung bình tổng thể 𝜃 = 𝜇 với độ tin cậy 95% 𝜃 =𝜇 = 𝑋±𝑧 𝜎 = 6.741 ± 1.96 × √0.4 = (5.50138715721, 7.98061284279) Ta có giá trị thuộc vào khoảng ước lượng, chưa có sở bác bỏ 𝐻 Trường hợp tiên nghiệm liên hợp Giả sử phân phối tiên nghiệm cho tham số trung bình tổng thể 𝜃 = 𝜇 tuân theo phân phối chuẩn 𝑁(𝜇 , 𝜎 ) Khi đó, phân phối hậu nghiệm xác định thông qua định lý sau: Định lý Giả sử 𝑥 tuân theo phân phối chuẩn 𝑁(𝜃, 𝜎 ), với giả sử 𝜎 biết, đồng thời phân phối tiên nghiệm 𝜃 𝑁(𝜇 , 𝜎 ) Khi phân phối hậu nghiệm 𝜃 phân phối chuẩn 𝑁(𝜇 , 𝜎 ), 𝑥 𝜇 + 𝜎 1 𝜎 𝜇 = , = + 1 𝜎 𝜎 𝜎 + 𝜎 𝜎 Hệ Giả sử mẫu ngẫu nhiên 𝑥 , 𝑥 , ⋯ , 𝑥 bao gồm 𝑛 quan sát độc lập với tuân theo phân phối chuẩn 𝑁(𝜃, 𝜎 ), 𝜎 biết giả định phân phối tiên nghiệm cho tham số trung bình tổng thể 𝜃 = 𝜇 𝑁(𝜇 , 𝜎 ) Khi đó, phân phối hậu nghiệm cho tham số trung bình tổng thể 𝜃 = 𝜇 𝑁(𝜇 , 𝜎 ) 38 𝑛𝑋 𝜇 + 𝜎 𝑛 𝜎 𝜇 = , = + , 𝑛 𝜎 𝜎 𝜎 + 𝜎 𝜎 ⋯ Trong 𝑋 = Ví dụ Giả sử thơng tin tiên nghiệm cho tham số trung bình tổng thể 15 đến 17 Khi phân phối tiên nghiệm giả sử 𝑁 16, , tức 𝜇 = 16 𝜎 = Giả sử mẫu ngẫu nhiên gồm 10 quan sát bao gồm giá trị 16.11, 17.37, 16.35, 15.16, 18.82, 18.12, 15.82, 16.34, 16.64, 15.0 Khi trung bình mẫu 𝑋 = 16.573 Độ lệch chuẩn mẫu 𝜎 = 1.221939 Code R: data = c(16.11, 17.37, 16.35, 15.16, 18.82, 18.12, 15.82, 16.34, 16.64, 15.0) mean(data) sd(data) Thế vào công thức hệ quả, ta có 𝜇 10 16 × 16.573 + 1.221939 = 16.3587407 = 10 +1 1.221939 𝜎 = 10 +1 1.221939 = 0.3057472 Code R: mu0 = 16 sig0 =1/2 n = length(data) mu10 = (n*tbx/sig^2+mu0/sig0^2)/(n/sig^2 + 1/sig0^2) sig10 = sqrt(1/(n/sig^2 + 1/sig0^2)) c(mu10,sig10) Do đó, phân phối hậu nghiệm có dạng 𝑁(16.3587407, 0.3057472 ) 39 Kiểm định phía trung bình tổng thể So sánh trung bình hai mẫu ghép cặp nhân tố Bayes Bài tốn kiểm định giả thuyết phía 𝐻 :𝜇 ≤ 𝐻 :𝜇 >0 Trong 𝜇 = 𝜇 − 𝜇 khác biệt hai trung bình Theo thống kê Bayes, tính 𝑃(𝜇 ≤ 0|𝑑𝑎𝑡𝑎), 𝑑𝑎𝑡𝑎 quan sát từ hai mẫu {𝑥 , 𝑥 , ⋯ , 𝑥 } {𝑥 , 𝑥 , ⋯ , 𝑥 } Kết tương đương 𝑃(𝜇 ≤ 0|𝑑𝑎𝑡𝑎) = 𝑃 𝜇 −𝑚 0−𝑚 ≤ 𝑠 𝑠 =𝑃 𝑍≤− 𝑚 𝑠 So sánh trung bình mẫu độc lập Giả định phương sai hai tổng thể biết Định lý Giả sử 𝑋 = {𝑥 , 𝑥 , ⋯ , 𝑥 } mẫu ngẫu nhiên với cỡ mẫu 𝑛 chọn từ tổng thể thứ 𝑁(𝜃 , 𝜎 ) 𝑋 = {𝑥 , 𝑥 , ⋯ , 𝑥 } mẫu ngẫu nhiên với cỡ mẫu 𝑛 chọn từ tổng thể thứ hai 𝑁(𝜃 , 𝜎 ) Giả sử phân phối tiên nghiệm 𝜃 𝜃 độc lập với tuân theo phân phối nhận giá trị khoảng (−∞, +∞) Khi đó, phân phối hậu nghiệm cho tham số 𝛿 = 𝜃 − 𝜃 phân phối chuẩn 𝑁 𝑥 − 𝑥 , + , 𝑥 , 𝑥 tương ứng trung bình hai mẫu Suy luận Bayes cho tỷ lệ tổng thể Giả sử thực 𝑛 phép thử độc lập, kết cho phép thử có hai trạng thái thành cơng thất bại Tỷ lệ số phép thử thành công 𝑛 lần thử 𝜃 Khi đó, phân phối xác suất có 𝑥 lần thành cơng 𝑛 phép thử tuân theo phân phối nhị thức 𝑏𝑖𝑛𝑜(𝑛, 𝜃) Tức là, 𝑓(𝑥|𝜃) = 𝐶 𝜃 (1 − 𝜃) 40 Nếu sử dụng tiên nghiệm đều, tức 𝜋(𝜃) = phân phối hậu ngihệm có dạng 𝜋(𝜃|𝑥) = 𝐶 𝜃 (1 − 𝜃) Rõ ràng, trường hợp này, phân phối hậu nghiệm tỷ lệ với hàm hợp lý Các kết ước lượng phân phối hậu nghiệm dựa vào phân phối nhị thức Nếu sử dụng tiên nghiệm liên hợp dạng phân phối beta 𝑏𝑒𝑡𝑎(𝑎, 𝑏), tức 𝜋(𝜃) = Γ(𝑎 + 𝑏) 𝜃 Γ(𝑎)Γ(𝑏) (1 − 𝜃) , ≤ 𝜃 ≤ Do đó, phân phối hậu nghiệm đươc xác định (1 − 𝜃) 𝜋(𝜃|𝑥) ∝ 𝜃 Chúng ta nhận thấy rằng, phân phối hậu nghiệm tương ứng với phân phối beta với tham số 𝑎 = 𝑎 + 𝑥 𝑏 = 𝑏 + 𝑛 − 𝑦 Các kết ước lượng dựa vào phân phối beta, số yếu vị hậu nghiệm (Bolstad, W M., & Curran, J M., 2016) 𝑚𝑜𝑑𝑒 = 𝑎 −1 𝑎 +𝑏 −2 Trung bình hậu nghiệm (Bolstad, W M., & Curran, J M., 2016) 𝑚𝑒𝑎𝑛 = 𝑎′ 𝑎 + 𝑏′ Phương sai hậu nghiệm (𝑠 ) = 𝑎𝑏 (𝑎 + 𝑏 ) (𝑎 + 𝑏 + 1) Kiểm định Bayes cho toán kiểm định giả thuyết phía 𝐻 :𝜃 ≤ 𝜃 𝐻 :𝜃 > 𝜃 Với mức ý nghĩa 𝛼 Tính xác suất hậu nghiệm giả thuyết 𝑃(𝐻 : 𝜃 ≤ 𝜃 |𝑥) = 𝜋(𝜃|𝑥)𝑑𝜃 Bác bỏ 𝐻 xác suất hậu nghiệm nhỏ mức ý nghĩa 𝛼 Bài toán kiểm đinh hai phía 𝐻 :𝜃 = 𝜃 𝐻 :𝜃 ≠ 𝜃 41 Tính khoảng ước lượng (1 − 𝛼) × 100% cho tham số 𝜃, có chứa giá trị 𝜃 chấp nhận 𝐻 , ngược lại bác bỏ 𝐻 Code in R pbeta(𝜃 , shape1 = 1, shape2 = 5, lower.tail = TRUE, log.p = FALSE) 42 ... model choice problem) Các định toán kiểm định giả thuyết dựa vào nhân tố Bayes Nhân tố Bayes Định nghĩa Nhân tố Bayes (the Bayes factor) tỷ lệ xác suất hậu nghiệm giả thiết đối thiết so với tỷ lệ... {