Một số kỹ thuật thống kê sử dụng trong ước lượng bayes

80 560 3
Một số kỹ thuật thống kê sử dụng trong ước lượng bayes

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục lục Mở đầu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Chương 1. Giới thiệu thống kê Bayes. . . . . . . . . . . . . . . . . . . . 3 Chương 2. Thống kê Bayes trong mô hình chuẩn và hồi quy 27 Chương 3. Thống kê Bayes với chuỗi thời gian . . . . . . . . . 63 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Tài liệu tham khảo . . . . . . . 79 Mở đầu Thống kê là khoa học về các phương pháp tổng quát xử lí các kết quả thực nghiệm. Để phát hiện ra những quy luật đằng sau những con số, người làm thống kê phải tiến hành công việc suy luận thống kê. Hiểu một cách đơn giản, suy luận thống kê là quá trình tìm ra các quy luật từ dữ liệu thực tế. Hiện nay có hai trường phái đang phát triển song song và “cạnh tranh” nhau. Đó là trường phái tần suất (cổ điển) và Bayes. Suy luận Bayes thể hiện cách suy nghĩ phổ biến của tất cả chúng ta là chúng ta tiếp thu kiến thức theo kiểu tích lũy. Thông tin mà chúng ta muốn biết bắt nguồn từ thông tin chúng ta đã biết cộng với thông tin thực tế. Trong luận văn này , tác giả trình bày tổng quan về thống kê Bayes, thống kê Bayes với các mô hình; chuẩn, hồi quy tuyến tính, tuyến tính tổng quát và mô hình chuỗi thời gian. Luận văn gồm 3 chương Chương 1. Giới thiệu thống kê Bayes Trong chương 1, tác giả hệ thống các suy luận Bayes cho các biến ngẫu nhiên rời rạc và liên tục, với các tiên nghiệm rời rạc và liên tục. Đồng thời giới thiệu phương pháp MCMC để giải quyết phép tính tích phân phức tạp có trong thống kê Bayes. Chương 2. Thống kê Bayes trong mô hình chuẩn và hồi quy Trong chương 2, trình bày mô hình thống kê Bayes chuẩn và hồi quy, so sánh giữa cách tiếp cận của tần suất và tiếp cận Bayes Chương 3. Thống kê Bayes với mô hình chuỗi thời gian 1 2 Trong chương 3, trình bày thống kê Bayes với mô hình chuỗi thời gian, những kết quả về ước lượng và kiểm định theo Bayes và một số thuật toán chạy sử dụng trong phân tích số liệu bằng Bayes. Kết luận. Trình bày các kết quả của luận văn Chương 1 Giới thiệu thống kê Bayes I. Định lý Bayes Việc suy luận thống kê để tìm ra quy luật từ dữ liệu thực tế biểu thị bởi y, dữ liệu có thể tuân theo một phân phối nào đó, tuy nhiên phân phối này phụ thuộc vào những tham số chưa biết θ, kí hiệu f(y, θ). Với mô hình xác suất f(y|θ) có hai cách hiểu về tham số θ tương ứng với hai trường phái suy luận: thống kê tần suất và thống kê Bayes. • Thống kê tần suất (thống kê cổ điển) xem tham số là một giá trị không biết nhưng không ngẫu nhiên; • Thống kê Bayes coi tham số θ là biến ngẫu nhiên. Chúng ta có thể gán cho tham số một phân phối xác suất để biểu thị sự tin cậy về giá trị thực của tham số. Bằng cách kết hợp thông tin đã có trước khi quan sát với thông tin có được khi quan sát, chúng ta thu được thông tin muốn biết. Cơ sở của suy luận Bayes là định lí Bayes. Định lí cho phép xác định xác suất xảy ra một sự kiện ngẫu nhiên khi biết sự kiện liên quan xảy ra. Xét tham số là biến ngẫu nhiên X, không quan sát được X. Biến ngẫu nhiên Y , phụ thuộc vào các tham số, với các giá trị y 1 , y 2 , , y n , Y quan sát được. Ta suy luận về biến ngẫu nhiên X/Y = y n bằng việc sử dụng định lí Bayes. Gọi f là phân phối chứa biến ngẫu nhiên Y, g là phân phối chứa tham số biến ngẫu nhiên X. 1. Trường hợp X là rời rạc 3 4 Nếu X nhận các giá trị x 1 , x 2 , , x n . Phân phối đồng thời là f(x i /y j ) = g(x i )f(y j /x i ). Phân phối biên duyên của Y là n  i=1 f(x i /y j ) = n  i=1 g(x i )f(y j /x i ). Phân phối hậu nghiệm của X/Y = y j là: g(x i /y j ) = g(x i )f(y j /x i ) n  i=1 g(x i )f(y j /x i ) . (1.1) Phân phối xác suất tiên nghiệm g(x i ) của biến ngẫu nhiên rời rạc X là xác suất của mỗi x i trước khi ta quan sát thấy dữ liệu, nó xuất phát từ kinh nghiệm, không phải từ dữ liệu. Khi quan sát được Y = y i ta có hàm hợp lý f(y j /x i ). 2. Trường hợp X là liên tục Nếu X liên tục trên R, khi đó phân phối hậu nghiệm xác định theo định lý Bayes như sau g(x/y) = g(x)f(y/x)  R g(x)f(y/x)dx (1.2) Hệ quả quan trọng cuả định lý Bayes: Nhân 1 hằng số với tiên nghiệm không làm thay đổi kết quả định lý Bayes. Nhân hàm hợp lý với một hằng số không làm thay đổi kết quả định lý Bayes. Trong tính toán phân phối hậu nghiệm, nói chung tìm mật độ biên duyên và mật độ hậu nghiệm không dễ, nên chúng ta tập trung vào phân phối tiên nghiệm mà có phân phối hậu nghiệm dễ tính toán, khi đó những tiên nghiệm này được gọi là tiên nghiệm liên hợp. II. Bayes cho tỷ lệ Nhị thức Cho Y/p ∼ Binomial(n, p). (n phép thử độc lập, p là xác suất thành công của mỗi phép thử và như nhau trong n phép thử). Y là số lần thành công trong n phép thử Nếu cố định y là số thành công của quan sát, và cho p thay đổi các giá 5 trị có thể của nó, chúng ta có hàm hợp lý f(y/p) = C y n p y (1 −p) n−y , 0 ≤ p  1 1. Sử dụng tiên nghiệm đều Tiên nghiệm cho p là phân phối đều có mật độ g(p) = 1, (0  p  1). Mật độ hậu nghiệm tương ứng g(p/y) = g(p)f(y/p) 1  0 g(p)f(y/p)dp = 1C y n p y (1 −p) n−y 1  0 1C y n p y (1 −p) n−y dp ∝ C y n p y (1 −p) n−y Phân phối hậu nghiệm này là một hàm của p và phân phối này là phân phối Beta(a; b) với a = y + 1, b = n − y + 1 2. Sử dụng tiên nghiệm Beta Tiên nghiệm cho p là phân phối Beta(a; b) có mật độ g(p, a, b) = Γ(a + b) Γ(a)Γ(b) p a−1 (1 −p) b−1 Hậu nghiệm tương ứng g(p/y) = g(p, a, b)f(y/p) 1  0 g(p, a, b)f(y/p)dp ∝ g(p, a, b)f(y/p) ∝ p a+y−1 (1 −p) b+n−y−1 Đây cũng là phân phối Beta(a  ; b  ) với a  = a + y; b  = b + n − y * Tiên nghiệm Beta(a; b) gọi là tiên nghiệm liên hợp cho tỷ lệ p của phân phối nhị thức và tiên nghiệm đều là trường hợp đặc biệt của Beta(a; b) với a = b = 1. * Định lý Bayes cung cấp một phương pháp để sửa đổi (niềm tin) phân phối về các tham số, cho dữ liệu. Để sử dụng nó, phải có một phân 6 phối đại diện cho niềm tin của về các tham số, trước khi chúng ta nhìn vào các dữ liệu. * Trong khi có kiến thức mơ hồ về tiên nghiệm thì phân phối Beta(a; b) sẽ làm tiên nghiệm phù hợp. Ví dụ, khi không biết về p, là một giá trị rất nhỏ, thì Beta(0, 5; 1), Beta(0, 5; 2), Beta(0, 5; 3), Beta(1; 2), Beta(1; 3) sẽ là thỏa đáng. * Nếu có kiến thức về tiên nghiệm, lựa chọn Beta(a; b) phù hợp với niềm tin của chúng ta về trung bình và độ lệch chuẩn. Trung bình tiên nghiệm là p 0 = a a+b và độ lệch chuẩn tiên nghiệm là σ 0 =  ab (a+b) 2 (a+b+1) . Ví dụ 1.1. Có 3 sinh viên muốn xây dựng niềm tin về tỷ lệ người dân muốn xây dựng sòng bạc ở Hamilton. Anna suy nghĩ phân phối tiên nghiệm có giá trị trung bình là 0, 2 và độ lệch chuẩn là 0, 8. Tiên nghiệm Beta(a; b) là phù hợp, được xác định bởi        a a + b = 0, 2 ab (a + b) 2 (a + b + 1) = 0, 8 2 ⇒      a = 4, 8 b = 19, 2 ⇒ tiên nghiệm của Anna là Beta(4, 8; 19, 2). Bart không biết thông tin gì về vùng này nên đã quyết định dùng tiên nghiệm đều với a = b = 1 và tiên nghiệm của Bart là Beta(1; 1). Chris không có tiên nghiệm thích hợp cho niềm tin của mình và tin rằng xác suất tiên nghiệm có một dạng hình thang bằng cách nội suy tuyến tính từ kết quả sau Bảng 1.1. Trọng số của p p 0 0,05 0,1 0,3 0,4 0,5 Trọng số 0 1 2 2 1 0 7 g(p) =            2p 0  p  0, 1 0, 2 0, 1  p  0, 3 0, 5 − p 0, 3  p  0, 5 Giả sử các sinh viên lấy mẫu n = 100 quan sát được y = 26. Khi đó hậu nghiệm của Anna là Beta(a + y; b + n − y) = Beta (4, 8 + 26; 19, 2 + 74) = Beta (30, 8; 93, 2) Hậu nghiệm của Bart là Beta (1 + 26; 1 + 74) = Beta (27; 75) Hậu nghiệm của Chris là g(p/y) = g(p)f(y/p)  1 0 g(p)f(y/p)dp Ta thấy hậu nghiệm của Anna, Bart, Chris là tương tự nhau dù các tiên nghiệm là khác nhau (Hình 1.1; 1.2). Vậy Phân phối hậu nghiệm tóm tắt niềm tin của ta về tham số sau khi cập nhật dữ liệu. Sau khi có phân phối hậu nghiệm về p, chúng ta cần ước lượng ˆp dựa trên phân phối hậu nghiệm. Có 2 phương pháp ước lượng hay dùng là ước lượng điểm và ước lượng khoảng. 3. Ước lượng điểm Các yêu cầu cần có của ước lượng là Tính không chênh E( ∧ θ ) =  ∧ θ f( ∧ θ /θ)d ∧ θ = θ, trong đó f( ∧ θ /θ) là phân phối mẫu của ước lượng ∧ θ , có sai số ngẫu nhiên là bias(  θ) = E  θ − θ. 8 Hình 1.1: Tiên nghiệm của Anna, Bart, Chris Hình 1.2: Phân phối hậu nghiệm của Anna, Bart, Chris Sai số trung bình bình phương của một ước lượng MS(  θ) = E(  θ − θ) 2 =  (  θ − θ) 2 f(  θ/θ)d  θ = V ar(  θ) + bias 2 (  θ) a. Theo tần suất Ước lượng cho p là p F = y n , trong đó y là tần số thành công cho n phép thử và có phân phối nhị thức B (n; p). p F là ước lượng không có sai số 9 ngẫu nhiên Biasp F = 0 và V ar(ˆp F ) = V ar( y n ) = np(1 −p) n 2 = p(1 −p) n MS(p F ) = V ar(p F ) = p(1 −p) n b. Theo Bayes Sử dụng trung bình hậu nghiệm để ước lượng cho p. Nếu sử dụng tiên nghiệm đều Beta (1; 1) thì ước lượng cho p là p B = a  a  + b  với      a  = 1 + y b  = n −y + 1 Ta có p B = y + 1 n + 2 = y n + 2 + 1 n + 2 (1.3) Do đó E(p B ) = np n + 2 + 1 n + 2 , V ar(p B ) =  1 n + 2  2 np(1 −p) MS(p B ) = (Ep B − p) 2 + V ar(p B ) =  np n + 2 + 1 n + 2 − p  2 + np(1 −p) (n + 2) 2 =  1 −2p n + 2  2 + np(1 −p) (n + 2) 2 Giả sử p = 0, 4, n = 10 thì MS(p F ) = p(1 −p) n = 0, 024 MS( ∧ P B ) =  1 −2p n + 2  2 + np(1 −p) (n + 2) 2 ≈ 0, 0169 < 0, 024. Ta thấy ước lượng điểm theo Bayes có sai số trung bình bình phương nhỏ hơn so với ước lượng tần suất. Vì vậy ước lượng điểm theo Bayes là tốt [...]... chủ quan của các thông tin có trước ˆ 1 Ước lượng θ 27 28 Định nghĩa 2.1 Giả sử tham số chưa biết θ có phân phối tiên nghiệm g(θ) θ là một ước lượng của θ, L θ, θ là hàm tổn thất, ước lượng Bayes làm cực tiểu giá trị kỳ vọng hậu nghiệm của một hàm tổn thất Nếu ước lượng θ của θ được so sánh với nhau qua hàm tổn thất có dạng L(θ, θ) = θ − θ 2 (2.2) Phương pháp ước lượng Bayes tương ứng là giá trị kỳ vọng... 174; 0, 346) b Khoảng tin được Bayes (Bayesian Credible Interval ) Trong thống kê Bayes ta sử dụng “khoảng tin được Bayes Một khoảng các giá trị mà có xác suất hậu nghiệm cao được biết đến (1 − α).100% chứa tham số gọi là khoảng tin được Bayes Ở đây ta tìm khoảng tin được cho p sử dụng tiên nghiệm Beta(a, b), phân phối hậu nghiệm tương ứng là Beta(a , b ) Chúng ta tìm một khoảng tin được 95% cho phân... θg(θ/D)dθ = θl(θ/D)g(θ)dθ l(θ/D)g(θ)dθ Một cách khác để tìm ước lượng trong thống kê Bayes là ước lượng cực đại hậu nghiệm θ = arg maxg (θ |D ) = arg maxg (θ) l (θ |D ) θ θ (2.3) Công thức 2.3 tương tự như công thức ước lượng hợp lý cực đại, trong đó việc lựa chọn tiên nghiệm là quan trọng Như vậy để ước lượng θ ta cần phân phối hậu nghiệm, có được từ định lý Bayes sau khi lựa chọn các tiên nghiệm... Chain Monte Carlo (MCMC) Việc tính toán trong thống kê Bayes đòi hỏi phép tính tích phân khi các phân phối phức tạp việc tính toán gặp nhiều khó khăn và là công việc tốn kém nhất trong thống kê Bayes Để giải quyết vấn đề này một số kỹ thuật được đề suất hữu hiệu nhất phải kể đến phương pháp mô phỏng Monte Carlo (MC) Cơ sở toán học của phương pháp MC là luật số lớn 1 Chuỗi Markov a Khái niệm Quá trình... tự trên, trong đó thay σ bởi σ 3 Ước lượng điểm Cho (y1 , y2 , , yn ) là một mẫu ngẫu nhiên từ một phân phối chuẩn 2 Y ∼ N (µ; σ 2 ), có phân phối mẫu tương ứng là y ∼ N µ, σ n a Theo tần suất Sử dụng y để ước lượng không chệch cho µ µF = y b Theo Bayes Sử dụng kỳ vọng của µ trong phân phối hậu nghiệm để ước lượng cho µ 1/s2 n/σ 2 µB = E (µ/y1 , y2 , , yn ) = m + y n/σ 2 + 1/s2 n/σ 2 + 1/s2 (1.6) 19... là một cuộc cách mạng trong thống kê Bayes Các bài toán suy luận hay dự báo được MCMC mô phỏng một cách dễ dàng Chương 2 Thống kê Bayes trong mô hình chuẩn và hồi quy Trong chương này chúng ta bắt đầu với những mô tả dữ liệu và nghiên cứu suy luận Bayes trong mô hình chuẩn và hồi quy như: Ước lượng tham số, kiểm định giả thuyết, dự báo và phát hiện giá trị không mong muốn I Mô hình chuẩn Phân phối... 2-phía tại α, tương ứng khoảng tin cậy cho tham số (1 − α).100%, nếu giả thuyết H0 : p = p0 bị bác bỏ thì giá trị p0 nằm ngoài khoảng tin cậy và ngược lại ii Theo Bayes Từ quan điểm Bayes, phân phối hậu nghiệm của tham số được sử dụng để kiểm định giả thuyết Nhưng nếu chúng ta sử dụng tiên nghiệm là liên tục thì hậu nghiệm liên tục, do đó chúng ta không sử dụng xác suất hậu nghiệm để kiểm định giả thuyết... ) < M S(µ): Ước lượng theo F Bayes tốt hơn tần suất 4 Ước lượng khoảng a Theo tần suất Khoảng tin cậy (1 − α).100% cho µ là σ σ =1−α µ − zα/2 √ < y < µ + zα/2 √ n n σ σ ⇔ P y − zα/2 √ < µ < y + zα/2 √ =1−α n n P b Theo Bayes Nếu phương sai đã biết: Nếu sử dụng tiên nghiệm là phân phối đều hoặc là phân phối chuẩn N (m, s2 ) thì phân phối hậu nghiệm của µ là N m , s 2 Một khoảng tin được Bayes (1 − α).100%... giá trị kiểm định thống kê cho mẫu nằm trong miền bác bỏ thì bác bỏ giả thuyết H0 tại α Trong trường hợp này y = 8 thuộc miền chấp nhận Ta chấp nhận giả thuyết H0 : p ≤ 0, 6 6) p-giá trị là mức ý nghĩa chính xác Trong trường hợp này 10 n p − giá trị = 0, 1672 = P (y/p0 ) = y.qs P (y/p0 ) y=8 Nếu p−giá trị < α, kiểm định thống kê nằm trong miền bác bỏ, và ngược lại Với y = 8 nằm trong miền chấp nhận... Tương tự chấp nhận H0 tại α thì µ0 nằm trong khoảng tin cậy cho µ ii Theo Bayes Chúng ta kiểm định 2-phía    H0 : µ = µ0   H1 : µ = µ0 Trong kiểm định Bayes, nếu dùng tiên nghiệm liên tục thì việc tính xác suất hậu nghiệm của giả thuyết không là bằng không, vì vậy chúng ta sử dụng khoảng tin được Bayes để kiểm định Bayes 2-phía Nếu µ0 thuộc khoảng tin được Bayes thì chấp nhận giả thuyết, nếu không . phái suy luận: thống kê tần suất và thống kê Bayes. • Thống kê tần suất (thống kê cổ điển) xem tham số là một giá trị không biết nhưng không ngẫu nhiên; • Thống kê Bayes coi tham số θ là biến ngẫu. và một số thuật toán chạy sử dụng trong phân tích số liệu bằng Bayes. Kết luận. Trình bày các kết quả của luận văn Chương 1 Giới thiệu thống kê Bayes I. Định lý Bayes Việc suy luận thống kê để. quyết phép tính tích phân phức tạp có trong thống kê Bayes. Chương 2. Thống kê Bayes trong mô hình chuẩn và hồi quy Trong chương 2, trình bày mô hình thống kê Bayes chuẩn và hồi quy, so sánh giữa

Ngày đăng: 11/06/2015, 16:25

Từ khóa liên quan

Mục lục

  • M u

  • Gii thiu thng kê Bayes

  • Thng kê Bayes trong mô hình chun và hi quy

  • Thng kê Bayes vi chui thi gian

  • Kt lun

  • Tài liu tham khao

Tài liệu cùng người dùng

Tài liệu liên quan