Một số kỹ thuật thống kê sử dụng trong ước lượng bayes

84 13 0
Một số kỹ thuật thống kê sử dụng trong ước lượng bayes

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HỒNG MỘT SỐ KỸ THUẬT THỐNG KÊ SỬ DỤNG TRONG ƯỚC LƯỢNG BAYES LUẬN VĂN THẠC SĨ TOÁN HỌC HÀ NỘI, 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HỒNG MỘT SỐ KỸ THUẬT THỐNG KÊ SỬ DỤNG TRONG ƯỚC LƯỢNG BAYES LUẬN VĂN THẠC SĨ TOÁN HỌC Chuyên ngành: Lý thuyết xác suất thống kê toán Mã số: 60 46 01 06 Người hướng dẫn khoa học TS Trịnh Quốc Anh HÀ NỘI, 2014 Lời cảm ơn Tác giả xin bày tỏ lòng biết ơn sâu sắc đến tất thầy cô khoa Toán – Tin- Cơ trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội giảng dạy truyền đạt kiến thức quý báu cho em chương trình cao học khóa 11-13 Tác giả xin cảm ơn quý thầy cô môn Xác suất thống kê toán trang bị cho kiến thức giúp tác giả hiểu sâu chuyên ngành Hơn hết, luận văn hoàn thành hướng dẫn TS Trịnh Quốc Anh, em xin bày tỏ kính trọng lịng biết ơn sâu sắc thầy, người giao đề tài tận tình hướng dẫn, góp ý sửa chữa chu đáo góp phần quan trọng để em hoàn chỉnh luận văn Nhân dịp tác giả xin gửi lời cảm ơn tới đồng nghiệp Khoa Khoa học bản, ban giám hiệu trường Đại học Sao đỏ giúp đỡ tạo điều kiên tốt để tác giả hoàn thành khóa học Và cuối cùng, tơi xin gửi lời cảm ơn chân thành tới gia đình, bạn bè, động viên, cổ vũ, tạo điều kiện thuận lợi cho tơi q trình học tập hoàn thành luận văn Hà Nội, tháng 10 năm 2014 Tác giả Nguyễn Thị Hồng Lời cam đoan Tôi xin cam đoan, luận văn Thạc sĩ chuyên ngành Lý thuyết xác suất thống kê với đề tài "Một số kỹ thuật thống kê sử dụng ước lượng Bayes" hoàn thành hướng dẫn TS Trịnh Quốc Anh thân tác giả Trong trình nghiên cứu thực luận văn, tác giả kế thừa thành tựu nhà khoa học với lòng biết ơn trân trọng Hà Nội, tháng năm 2014 Tác giả Nguyễn Thị Hồng Mục lục Mở đầu Chương Giới thiệu thống kê Bayes Chương Thống kê Bayes mơ hình chuẩn hồi quy 27 Chương Thống kê Bayes với chuỗi thời gian 63 Kết luận 78 Tài liệu tham khảo 79 Mở đầu Thống kê khoa học phương pháp tổng quát xử lí kết thực nghiệm Để phát quy luật đằng sau số, người làm thống kê phải tiến hành công việc suy luận thống kê Hiểu cách đơn giản, suy luận thống kê trình tìm quy luật từ liệu thực tế Hiện có hai trường phái phát triển song song “cạnh tranh” Đó trường phái tần suất (cổ điển) Bayes Suy luận Bayes thể cách suy nghĩ phổ biến tất tiếp thu kiến thức theo kiểu tích lũy Thông tin mà muốn biết bắt nguồn từ thông tin biết cộng với thông tin thực tế Trong luận văn , tác giả trình bày tổng quan thống kê Bayes, thống kê Bayes với mơ hình; chuẩn, hồi quy tuyến tính, tuyến tính tổng qt mơ hình chuỗi thời gian Luận văn gồm chương Chương Giới thiệu thống kê Bayes Trong chương 1, tác giả hệ thống suy luận Bayes cho biến ngẫu nhiên rời rạc liên tục, với tiên nghiệm rời rạc liên tục Đồng thời giới thiệu phương pháp MCMC để giải phép tính tích phân phức tạp có thống kê Bayes Chương Thống kê Bayes mô hình chuẩn hồi quy Trong chương 2, trình bày mơ hình thống kê Bayes chuẩn hồi quy, so sánh cách tiếp cận tần suất tiếp cận Bayes Chương Thống kê Bayes với mơ hình chuỗi thời gian Trong chương 3, trình bày thống kê Bayes với mơ hình chuỗi thời gian, kết ước lượng kiểm định theo Bayes số thuật toán chạy sử dụng phân tích số liệu Bayes Kết luận Trình bày kết luận văn Chương Giới thiệu thống kê Bayes I Định lý Bayes Việc suy luận thống kê để tìm quy luật từ liệu thực tế biểu thị y, liệu tuân theo phân phối đó, nhiên phân phối phụ thuộc vào tham số chưa biết θ, kí hiệu f (y, θ) Với mơ hình xác suất f (y|θ) có hai cách hiểu tham số θ tương ứng với hai trường phái suy luận: thống kê tần suất thống kê Bayes • Thống kê tần suất (thống kê cổ điển) xem tham số giá trị khơng biết khơng ngẫu nhiên; • Thống kê Bayes coi tham số θ biến ngẫu nhiên Chúng ta gán cho tham số phân phối xác suất để biểu thị tin cậy giá trị thực tham số Bằng cách kết hợp thơng tin có trước quan sát với thơng tin có quan sát, thu thông tin muốn biết Cơ sở suy luận Bayes định lí Bayes Định lí cho phép xác định xác suất xảy kiện ngẫu nhiên biết kiện liên quan xảy Xét tham số biến ngẫu nhiên X, không quan sát X Biến ngẫu nhiên Y , phụ thuộc vào tham số, với giá trị y1 , y2 , , yn , Y quan sát Ta suy luận biến ngẫu nhiên X/Y = yn việc sử dụng định lí Bayes Gọi f phân phối chứa biến ngẫu nhiên Y, g phân phối chứa tham số biến ngẫu nhiên X Trường hợp X rời rạc Nếu X nhận giá trị x1 , x2 , , xn Phân phối đồng thời f (xi /yj ) = n g(xi )f (yj /xi ) Phân phối biên duyên Y n f (xi /yj ) = i=1 g(xi )f (yj /xi ) i=1 Phân phối hậu nghiệm X/Y = yj là: g(xi /yj ) = g(xi )f (yj /xi ) n (1.1) g(xi )f (yj /xi ) i=1 Phân phối xác suất tiên nghiệm g(xi ) biến ngẫu nhiên rời rạc X xác suất xi trước ta quan sát thấy liệu, xuất phát từ kinh nghiệm, từ liệu Khi quan sát Y = yi ta có hàm hợp lý f (yj /xi ) Trường hợp X liên tục Nếu X liên tục R, phân phối hậu nghiệm xác định theo định lý Bayes sau g(x)f (y/x) g(x)f (y/x)dx g(x/y) = (1.2) R Hệ quan trọng cuả định lý Bayes: Nhân số với tiên nghiệm không làm thay đổi kết định lý Bayes Nhân hàm hợp lý với số không làm thay đổi kết định lý Bayes Trong tính tốn phân phối hậu nghiệm, nói chung tìm mật độ biên duyên mật độ hậu nghiệm không dễ, nên tập trung vào phân phối tiên nghiệm mà có phân phối hậu nghiệm dễ tính tốn, tiên nghiệm gọi tiên nghiệm liên hợp II Bayes cho tỷ lệ Nhị thức Cho Y /p ∼ Binomial(n, p) (n phép thử độc lập, p xác suất thành công phép thử n phép thử) Y số lần thành công n phép thử Nếu cố định y số thành công quan sát, cho p thay đổi giá trị nó, có hàm hợp lý f (y/p) = Cny py (1 − p)n−y , ≤ p 1 Sử dụng tiên nghiệm Tiên nghiệm cho p phân phối có mật độ g(p) = 1, (0 p 1) Mật độ hậu nghiệm tương ứng g(p/y) = g(p)f (y/p) = 1Cny py (1 − p)n−y g(p)f (y/p)dp ∝ Cny py (1 − p)n−y 1Cny py (1 − p)n−y dp Phân phối hậu nghiệm hàm p phân phối phân b=n−y+1 phối Beta(a; b) với a = y + 1, Sử dụng tiên nghiệm Beta Tiên nghiệm cho p phân phối Beta(a; b) có mật độ g(p, a, b) = Γ(a + b) a−1 p (1 − p)b−1 Γ(a)Γ(b) Hậu nghiệm tương ứng g(p/y) = g(p, a, b)f (y/p) g(p, a, b)f (y/p)dp ∝ g(p, a, b)f (y/p) ∝ pa+y−1 (1 − p)b+n−y−1 Đây phân phối Beta(a ; b ) với a = a + y; b =b+n−y * Tiên nghiệm Beta(a; b) gọi tiên nghiệm liên hợp cho tỷ lệ p phân phối nhị thức tiên nghiệm trường hợp đặc biệt Beta(a; b) với a = b = * Định lý Bayes cung cấp phương pháp để sửa đổi (niềm tin) phân phối tham số, cho liệu Để sử dụng nó, phải có phân 65 duyên T σ −T −1 exp t=0   −1  2σ  p xt − µ − υi (xt−i − µ) 2 f (x−p:−1 |µ, A) dx−p|−1  i=1 (3.6) Dựa lập luận chúng không quan sát trực tiếp Một phương pháp tiếp cận khác rõ ràng thay hàm hợp lý có điều kiện giá trị quan sát ban đầu x0:p−1 , nghĩa lc µ, υ1 , , υp , σ|xp:T , x0:(p−1)  T  −T +p−1 ∝σ exp − xt − µ −  i=1 p υi (xt−1 − µ) /2σ i=1   (3.7)  Trong trường hợp này, không hạn chế không gian tham số thông qua điều kiện dừng, tiên nghiệm liên hợp tự nhiên tìm cho tham số θ = µ, υ, σ , tạo thành phân phối chuẩn (µ, υ) phân phối nghịch đảo Gammar σ Thay dùng tiên nghiệm Jeffreys, đề xuất tiên nghiệm thiếu thơng tin truyền thống g (θ) = σ Nếu ta đại diện cho đa thức 3.5 dạng “nhân tử hóa” p (1 − λi x) Px = i=1 Trong nghiệm nghịch đảo, λi (i = 1, , p) có giá trị thực phức Dưới hạn chế tính dừng nhân quả, sử dụng tiên nghiệm thống cho tiên nghiệm này, lấy phân phối số lượng rp tiên nghiệm liên hợp phân phối [−1, 1] 66 hình cầu đơn vị ζ = {λ ∈; |λ| ≤ 1} cho nghiệm thực phức khơng liên hợp tương ứng Nói cách khác g (λ) = p/2 + λi ∈Z 1|λ | q Ngồi ra, q trình M A(q) dừng với vector (ϑ1 , , ϑq ), từ tiếng ồn trắng độc lập phân phối 3.9 độc lập t Một khác biệt lớn mơ hình M A(q) AR(p) cấu trúc M A(q) khơng Markov Trong trường hợp Gauss, tồn vecsto quan sát x1:T biến chuẩn ngẫu nhiên thực, với số trung bình µ ma trận hiệp phương sai Do đó, cung cấp hàm hợp lý rõ ràng Tuy nhiên, việc tính tốn hàm hợp lý tốn liên quan đến ma trận nghịch đảo (khá lớn) Một biểu khác hàm hợp lý M A(q) sử dụng hàm hợp lý x1:T có điều kiện tiếng ồn trắng ε0 , , ε−q+1 : lc (µ, ϑ1 , , ϑq , σ|x1:T , ε0 , , ε−q+1 )  q T  −T exp xt − µ + ∝σ ϑj εt−j  t=1 j=1 /2σ   (3.10)  q Trong (t > 0): εt = xt − µ + ϑj εt−j ε0 = ε0 , , ε1−q = ε1−q j=1 hàm hợp lý tốn liên quan đến tổng T q số hạng Tuy nhiên, vấn đề xử lý giá trị điều kiện (ε0 , , ε−q+1 ) phải xử lý riêng thông qua bước MCMC Phân phối có điều kiện (ε0 , , ε−q+1 ) cho hai x1:T tham số phân phối chuẩn Với hai x1:T tiếng ồn khứ (ε0 , , ε−q+1 ), phân phối có điều kiện tham số (µ, ϑ1 , , ϑq , σ) gần với hậu 71 nghiệm kết hợp với phân phối hậu nghiệm AR (q) Vì thế, tái sử dụng thuật toán (1) Tiếng ồn khứ ε−i (i = 1, , q) mô xt tham số µ, σ ϑ = (ϑ1 , , ϑq ) Trong phân phối xác T −ε2i /2σ f (ε0 , , ε−q+1 |x1:T , µ, σ, ϑ) ∝ e−εt /2σ e i=−q+1 (3.11) t=1 εt phân phối chuẩn vector (ε0 , , ε−q+1 ) Tính tốn tốn cho biến với giá trị thực T Ví dụ 3.2 Chúng ta xét 350 điểm chuỗi Air Liquide Eurostoxx50 Kết đại diện cho q = 10000 lần lặp lại thuật toán (2), Hàng cùng: Biểu đồ bên trái trình tự nghiệm Hình 3.3: Dữ liệu Eurostoxx50 phức (dao động từ đến 8); biểu đồ phải chuỗi µ σ 72 Hàng trình tự ϑi (i = 1, 2, 3) Hàng cùng: Biểu đồ bên trái trình tự hàm hợp lý quan sát; Biểu đồ biểu đám mây nghiệm phức với ranh giới hình trịn đơn vị; Biểu đồ bên phải phát triển mô ε−t Điều thú vị là, hàm hợp lý tìm thuật toán cao nhiều so với hàm hợp lý tìm thấy lệnh R cổ điển Mơ hình ARMA Mở rộng hai mơ hình trước (chuẩn) mơ hình ARMA (p, q), xt (t ∈ T) điều kiện xác định p q xt = µ − ϑj εt−j , εt ∼ N 0, σ ϑi (xt−i − µ) + εt − i=1 (3.12) j=1 εt độc lập Cho phương trình quan sát  yt+1      =      ϑr xt = xt = µ − (ϑr−1 ϑr−2 ϑ1 − 1) yt   0      0       yt + εt+1        0     ϑr−1 ϑr−2 ϑ1 Với r-max (p, q+1) quy ước ϑm = m >p q∗m =             (3.13) 73 m>q Tương tự (q ) trường hợp MA, đại diện không gian trạng thái tiện dụng việc đưa thuật toán MCMC hội tụ đến phân phối hậu nghiệm tham số mơ hình ARMA( p, q) Nếu định nghĩa (t>p) p x = xt − µ + υ (xt−i − µ) i=1 Hợp lý giống hợp lý tiêu chuẩn M(q) x , khôi phục q ϑj εt−j , hợp lý AR( p) nhiều Nếu định nghĩa số dư εt = j=1 log-likelihood điều kiện x0:(p−1) υj [xt−j − µ] − εt xt − µ − − t=p p T /2σ j=1 Rõ ràng chọn log-likelihood AR( p) , ngoại trừ εt II Thuật toán Thuật toán Metropolis – Hastings (M-H) Với thuật toán M-H, phân bố đề suất Markov, với mật độ q(x,y) Nếu phân bố mục tiêu có mật độ g, thuật toán M-H sau Thuật toán: Lấy mẫu M-H chung Khởi tạo: Chọn giá trị bắt đầu tùy ý x(0) Lặp lại : t (t ≥ 1) 1/ Cho biết x(t−1) , tạo x ∼ q x(t−1) , x 2/Tính ρ x(t−1) , x = g (x) /q x(t−1) , x ,1 g x(t−1) /q x, x(t−1) 74 3/ Với xác suất ρ x(t−1) , x , chấp nhận x đặt x(t) = x Nếu không từ chối x đặt x(t) = x(t−1) Phân bố q gọi phân bố công cụ, phân bố mục tiêu g phân bố giới hạn chuỗi ρ (x, y) Markov tạo Thuật toán Điều lựa chọn xác suất chấp nhận phương trình cân g (x) q (x, y) ρ (x, y) = g (y) q (y, x) ρ (y, x) Nếu lựa chọn q không phù hợp gây tỷ lệ từ chối cao Thuật tốn khơng thể đưa chiến lược ứng dụng độc lập cho việc lựa chọn q Do đó, ta xét tới trường hợp sau a Lấy mẫu độc lập Lựa chọn q cho q (x, y) = q (y) Trong trường hợp ρ (x, y) = 1, g (y) /q (y) g (x) /q (x) Trong trường hợp đặc biệt mà q tỷ lệ với g , thu ρ (x, y) = b Lấy mẫu bước ngẫu nhiên Do lấy mẫu độc lập địi hỏi q nhiều thơng tin tồn phân bố mục tiêu, nên giải pháp thay lựa chọn thu thập thông tin cục bộ, nghĩa tìm vùng lân cận giá trị x(t) tìm kiếm điểm quan tâm khác Lựa chọn q (x, y) = qRW (y − x) 75 Xác suất chấp nhận ρ (x, y) giảm xuống dạng đơn giản ρ (x, y) = (1, g (y) /g (x)) sơ đồ rõ ràng phục thuộc vào g mục tiêu chấp nhận tất bước đề xuất, làm tăng giá trị g Từ quan điểm xác suất, bước ngẫu nhiên thường khơng có phân bố cố định, thuật tốn có khuynh hướng nghiêng bước ngẫu nhiên cách di chuyển chế độ khơng tách khỏi chúng Thuật tốn: Bộ lấy mẫu M-H Probit 1/ Khởi tạo: Tính βˆ ma trận hiệp phương sai tương ứng với phương sai tiệm cận βˆ đặt β (0) = β Lặp lại t ≥ 1: 2/ Tạo β ∼ Nk β (t−1) , τ 3/ Tính  ρ β (t−1) , β = 1, 4/ Với xác suất ρ β (t−1) , β g β|y g β (t−1) |y   lấy β (t) = β, không lấy β (t) = β (t−1) Thuật toán: Nhảy ngược AR (p) Khởi tạo: Chọn λ(0) , µ(0) , σ (0) Lặp lặp lại t(t ≥ 1): 1/ Chọn ngẫu nhiên nghiệm Nếu nghiệm thực, tạo nghiệm thực từ phân phối tiên nghiệm Nếu không, tạo nghiệm phức từ phân 76 phối tiên nghiệm cập nhật nghiệm liên hợp Thay λ(t−1) λ∗ sử dụng giá trị Tính tốn tương ứng υ ∗ = υ1∗ , , υp∗ Chọn ξ = λ∗ với xác suất lc µ(t−1) , υ ∗ , σ (t−1) |xp:T , x0:p−1 ∧1 lc µ(t−1) , υ (t−1) , σ (t−1) |xp:T , x0:p−1 Nếu không, chọn ξ = λ(t−1) 2/ Chọn ngẫu nhiên hai nghiệm thực hai nghiệm phức liên hợp Nếu nghiệm thực, tạo nghiệm phức từ phân phối tiên nghiệm Thay ξ λ∗ sử dụng giá trị Tính tốn tương ứng υ ∗ = υ1∗ , , υp∗ Chấp nhận λ(t) = λ∗ với xác suất lc µ(t−1) , υ ∗ , σ (t−1) |xp:T , x0:p−1 ∧1 lc µ(t−1) , υ (t−1) , σ (t−1) |xp:T , x0:p−1 Nếu không, chọn λ(t) = ξ Tạo µ∗ đề nghị ngẫu nhiên Chấp nhận µ(t) = µ∗ với xác suất lc µ(t−1) , υ ∗ , σ (t−1) |xp:T , x0:p−1 ∧1 lc µ(t−1) , υ (t) , σ (t−1) |xp:T , x0:p−1 Nếu khơng, đặt µ(t) = µ(t−1) 3/ Tạo σ ∗ đề nghị-log ngẫu nhiên Chấp nhận σ (t) = σ ∗ với xác suất lc µ(t−1) , υ ∗ , σ (t−1) |xp:T , x0:p−1 ∧1 lc µ(t−1) , υ (t) , σ (t−1) |xp:T , x0:p−1 77 Nếu không, đặt σ (t) = σ (t−1) Thuật toán Nhảy ngược M A (q) 1/ Khởi tạo: Chọn λ(0) , ε(0) , µ(0) , σ (0) tùy ý Lặp lặp lại t : (t ≥ 1) 2/ Chạy bước từ đến thuật toán (3.1) với điều kiện ε(t−1) với hàm hợp lý có điều kiện xác tương ứng 3/ Mơ ε(t) bước Metropolis-Hasting Kết luận Trong luận văn trình bày tổng quan thống kê Bayes, thấy hai trường phái tần suất Bayes trình bày ước lượng tham số chưa biết, Bayes coi tham số đại lượng ngẫu nhiên tuân theo phân phối đó, tham số phụ thuộc vào tham số khác gọi siêu tham số Trong luận văn nghiên cứu kỹ thuật suy luận theo Bayes mơ hình chuẩn, hồi quy, chuỗi thời gian như: ước lượng; khoảng tin được, kiểm định giả thuyết dùng nhân tố Bayes, dự đoán xác định quan sát không mong muốn Với trường hơp tiên nghiệm liên hợp(tiên nghiệm chứa thông tin) tiên nghiệm thiếu thông tin Đồng thời luận văn so sánh mơ hình hai trường phái tần suất Bayes Các kết suy luận Bayes thu mẫu liệu cho ta ước lượng phân phối tham số Hơn nữa, luận văn trình phương pháp MCMC để giải hạn chế Bayes việc tính tốn Tơi hy vọng từ tiếp tục sâu nghiên cứu đạt hiểu biết sâu sác thống kê Bayes 78 Tài liệu tham khảo [1] Đào Hữu Hồ, (1984), Thống kê toán học, NXB ĐH THCN; NXB ĐHQG Hà Nội [2] Nguyễn Văn Hữu, Nguyễn Hữu Dư, (2003), Phân tích thống kê dự báo, NXB ĐHQG Hà Nội [3] Andrew Gelman, John B Carlin, Hal S Stern and Donald Bayesian Data analysis [4] Carlin, B and Louis, T (1996) Bayes and Empirical Bayes Methods for Data Analysis Chapman and Hall, New York [5] Congdon, P (2001) Bayesian Statistical Modelling John Wiley, New York [6] Dupuis, J (1995) Bayesian estimation of movement probabilities in open populations using hidden Markov chains Biometrika, 82(4):761–772 [7] Green, P (1995) Reversible jump MCMC computation and Bayesian model determination Biometrika, 82(4):711–732 [8] Box, G., and Tiao, (1992), Bayesian inference in statistics analysis Wiley Classics Library, John Wiley, Sons, New York [9] William M Bolstad Introduction to Bayesian statistics [10] Jean- Michel Marin Christian P.Robert Bayesian core: A practical approach to computational Bayesian statistics 79 ... KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HỒNG MỘT SỐ KỸ THUẬT THỐNG KÊ SỬ DỤNG TRONG ƯỚC LƯỢNG BAYES LUẬN VĂN THẠC SĨ TOÁN HỌC Chuyên ngành: Lý thuyết xác suất thống kê toán Mã số: 60 46 01 06 Người hướng dẫn... tham số θ tương ứng với hai trường phái suy luận: thống kê tần suất thống kê Bayes • Thống kê tần suất (thống kê cổ điển) xem tham số giá trị không ngẫu nhiên; • Thống kê Bayes coi tham số θ... sĩ chuyên ngành Lý thuyết xác suất thống kê với đề tài "Một số kỹ thuật thống kê sử dụng ước lượng Bayes" hoàn thành hướng dẫn TS Trịnh Quốc Anh thân tác giả Trong trình nghiên cứu thực luận văn,

Ngày đăng: 10/03/2021, 19:06

Từ khóa liên quan

Mục lục

  • M u

  • Gii thiu thng kê Bayes

  • Thng kê Bayes trong mô hình chun và hi quy

  • Thng kê Bayes vi chui thi gian

  • Kt lun

  • Tài liu tham khao

Tài liệu cùng người dùng

Tài liệu liên quan