Thống kê Bayes với chuỗi thời gian - MÔ HÌNH TUYẾN- 123docz.net

III. MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT 1 Mô hình tổng quát

Thống kê Bayes với chuỗi thời gian

Trong phần này, chúng ta xem xét các mô hình tuyến tính chuỗi thời gian phổ biến nhất, cùng với phân tích Bayes và các liên kết Markov của chúng (mà có thể khai thác trong việc triển khai MCMC).

I. Mô hình

1. Mô hình tự hồi quy AR Một quá trình AR (1) : (xt)t∈

Z được xác định bởi công thức sau (t∈ Z)

xt = µ+υ(xt−1 −µ) +ε1 (3.1) Trong đó (εt)t∈

Z là một chuỗi độc lập của các biến ngẫu nhiên với trung bình 0 và phương sai σ2 (đó là một tiếng ồn trắng).

Nếu |υ| < 1,(xt)t∈

Z có thể được viết lại như sau xt = µ+

∞

j=0

υjεt−j (3.2)

Dễ thấy đây là một quá trình dừng cấp hai hồi quy. Nếu |υ| > 1 , quá trình dừng bậc cấp hồi quy của 3.2 là

xt = µ−

∞

j=1

υ−jεt+j (3.3)

Phương pháp tính dừng này cho thấy xt là có tương quan với tiếng ồn trắng tương lai (εt)s>1 , một tính chất không có trong 3.3 khi |υ| > 1 . Đây là hạn chế của quá trình với |υ| < 1 , để xt có tính hồi quy trong giới hạn của các mối quan hệ quá khứ (εt)s≤t . Hạn chế này tương ứng với tính nhân quả hay quá trình tự hồi quy độc lập tương lai. Chú ý

rằng, tính nhân quả hạn chế cho mô hình AR (1) có thể được kết hợp tự nhiên với một tiên nghiệm thống nhất trên [−1; 1] .

Tổng quan của mô hình AR (1) là mô hình AR (p) thu được bằng cách tăng sự phụ thuộc vào các giá trị trong quá khứ, được xác định như sau

xt = µ+ p X i=1 υi(xt+1−i −µ) +εt (3.4) Trong đó (εt)t∈ Z là một tiếng ồn trắng. Tương tự, tính dừng và tính nhân quả có thể được áp dụng đối với mô hình này, và quá trình AR (p)

là bao gồm cả tính nhân quả và tính dừng cấp hai khi và chỉ khi tất cả nghiệm của đa thức

P (u) = 1−

i=1

υiui (3.5)

ngoài hình tròn đơn vị trong mặt phẳng phức.

Bây giờ ta xét hàm hợp lý liên kết với các giá trị quan sát x0:T từ một quá trình AR (p), nó phụ thuộc vào các giá trị không quan sát được x−p, ..., x−1 từ l(µ, υ1, ..., υp, σ|x0:T, x−p:−1) ∝ σ−T−1 T Y t=0 exp    − " xt −µ− p X i=1 υi(xt−1 −µ) #2 /2σ2   

Những giá trị ban đầu không quan sát được có thể được xử lý theo những cách khác nhau. Đầu tiên, tất cả có thể được thiết lập bằng µ ; thứ hai, dựa vào tính dừng và tính nhân quả, quá trình (xt)t∈ có phân phối dừng và có thể giả sử rằng x−p:−1 là được phân phối từ phân phối dừng tương ứng, cụ thể là một phân phối Np(µ1p, A) . Sau đó, chúng ta có thể tích hợp những giá trị ban đầu này để có được hàm hợp lý biên

duyên Z σ−T−1 T Y t=0 exp    −1 2σ2 xt −µ− p X i=1 υi(xt−i −µ) !2   f (x−p:−1|µ, A)dx−p|−1 (3.6) Dựa trên lập luận rằng chúng không được quan sát trực tiếp.

Một phương pháp tiếp cận khác và rõ ràng hơn là thay thế hàm hợp lý có điều kiện trên giá trị quan sát ban đầu x0:p−1, nghĩa là

lc µ, υ1, ..., υp, σ|xp:T, x0:(p−1) ∝ σ−T+p−1 T Y i=1 exp    − " xt −µ− p X i=1 υi(xt−1 −µ) #2 /2σ2    (3.7)

Trong trường hợp này, nếu chúng ta không hạn chế không gian tham số thông qua điều kiện dừng, một tiên nghiệm liên hợp tự nhiên có thể được tìm cho các tham số θ = µ, υ, σ2, tạo thành một phân phối chuẩn trên

(µ, υ) và một phân phối nghịch đảo Gammar trên σ2. Thay vì dùng tiên nghiệm Jeffreys, chúng ta cũng có thể đề xuất một tiên nghiệm thiếu thông tin truyền thống hơn như là

g(θ) = 1

Nếu ta đại diện cho đa thức 3.5 ở dạng “nhân tử hóa” của nó Px =

i=1

(1−λix)

Trong đó các nghiệm nghịch đảo, λi(i = 1, ..., p) có giá trị thực hoặc phức. Dưới sự hạn chế của tính dừng nhân quả, sử dụng tiên nghiệm thống nhất cho các tiên nghiệm này, lấy một phân phối đều về số lượng rp của các tiên nghiệm liên hợp và phân phối đều trên [−1,1] và trên

hình cầu đơn vị ζ = {λ ∈;|λ| ≤ 1} cho nghiệm thực và phức không liên hợp tương ứng. Nói cách khác g(λ) = 1 bp/2c+ 1 Y λi∈Z 1 21|λi|<1 Y λi∈Z 1 π1|λi|<1

Trong đó, bp/2c+ 1 là số các giá trị khác nhau của rp. Chú ý, yếu tố

bp/2c+ 1 trong khi không quan trọng cho một thiết lậppcố định, nó cần thiết phải được bao gồm trong phân phối hậu nghiệm khi sử dụng một thuật toán nhảy ngược để ước lượng độ trễ bậc p vì nó không biến mất trong việc chấp nhận xác suất của một di chuyển giữa mô hình AR (p)

và mô hình AR (q) .

Chú ý rằng các hệ số của đa thứcP có thể được bắt nguồn từ các nghiệm nghịch đảo λi sử dụng các mối quan hệ lặp (i = 1, ..., p, j = 0, ..., q)

ψ0i = 1, ψji −λiψji−−11

trong đó ψ00 = 1 và ψji = 0,∀j > i và cho υi = −ψjp(j = 1, ..., p)

Một chương trình Metropolis-Hasting mà bây giờ chúng ta mô tả là sử dụng chính phân phối tiên nghiệm dựa trên nghiệm nghịch đảo của P. Đầu tiên, ta chọn một hoặc một số nghiệm của p và sau đó đề xuất giá trị mới cho các nghiệm đó mà được mô phỏng từ tiên nghiệm. Tỷ lệ chấp nhận đơn giản hóa trong tỷ lệ hàm hợp lý bởi sự rõ ràng của định lí Bayes. Khó khăn ở đây chính là phải chú ý để thay đổi nghiệm phức bằng các liên hợp. Để giải quyết vấn đề này, chúng ta sử dụng một thuật toán nhảy ngược mà phân biệt giữa số lượng của nghiệm phức.

Nếu xét hàm hợp lý có điều kiện 3.7, ta sẽ dùng một thuật toán nhảy ngược cho mô hình AR (p) và tiên nghiệm thiếu thông tin g(µ, σ) = 1

Ví dụ 3.1. Một loạt các giá trị liên tiếp từ 1/1/1998 đến 9/11/2003 của 4 cổ phiếu đầu tiên của chỉ số tài chính Eurostoxx50, là một tài liệu tham khảo cho các khu vực euro chiếm 50 cổ phiếu chính. Những giá trị này tạo thành bộ dữ liệu Eurostoxx50. Các dữ liệu là rõ ràng là phụ thuộc nhau. chúng ta xử lý chuỗi Ahold Kon của Eurostoxx50. Chạy

Hình 3.1: Dữ liệu Eurostoxx50

thuật toán nhảy ngược cho toàn bộ chuỗi với p= 5 với hành động nhảy phù hợp giữa các nghiệm phức khác nhau. Kết quả thu được như sau Biểu đồ phía trên cùng bên trái biểu thị việc nhảy giữa các nghiệm phức 2 và 0 xảy ra với tần số cao và do đó thuật toán nhảy ngược hỗn hợp là tốt giữa 2 mô hình. Hai đồ thị sau trên hàng đầu tiên liên quan đến các siêu tham số µ và σ , được cập nhật bên ngoài bước nhảy ngược. Tham số µ dường như được pha trộn tốt hơn so với σ. Các biểu đồ ở hàng

Hình 3.2: Dữ liệu Eurostoxx50

giữa tương ứng với 3 hệ số đầu tiên của mô hình tự hồi quy,υ1, υ2, υ3. Sự ổn định của chúng là một chỉ số tốt về sự hội tụ của thuật toán nhảy ngược. Cũng lưu ý rằng, ngoại trừ υ1 , các hệ số khác là gần 0. Hàng cuối cùng là đánh giá về sự phù hợp của mô hình và sự hội tụ của thuật toán MCMC. Biểu đồ đầu tiên là trình tự của các log-hàm hợp lý tương ứng, mà vẫn ổn định từ đầu, biểu đồ thứ hai là sự phân bố của các nghiệm phức và biểu đồ cuối cùng là liên kết giữa chuỗi thực tế và một bước đầu tiên của nó dự đoán E[xt+1|xt, xt−1, ...]

2. Mô hình trung bình trượt MA

Một mô hình thứ hai của mô hình chuỗi thời gian vẫn phụ thuộc tuyến tính và biểu hiện dạng đóng là mô hình trung bình trượt M A(q)

Một quá trình M A(1) : (xi)t∈

Z : có điều kiện trên quá khứ t ∈ T cho bởi công thức

xt = µ+εt −ϑεt−1 (3.8) trong đó (εt)t∈

T là một tiếng ồn trắng. Do đó,

E(xt) = µ, V (xt) = 1 +ϑ2σ2, γx(1) = ϑσ2

Một tính chất quan trọng của 3.8 là mô hình không phải định dạng cho mỗi gia nhập. Thật vậy, chúng ta có thể viết lại xt như sau

xt = µ+eεt−1 − 1

ϑεt,e eε ∼N 0, ϑ2σ2

Vì vậy, cả hai cặp (ϑ, σ) và ϑ1, ϑσ là đại diện tương đương của mô hình trên. Để đạt được tính đồng nhất, không gian tham số của quá trình M A(1) bị hạn chế bởi |ϑ| < 1 . Quá trình này được gọi là nghịch đảo. Cũng như tính nhân quả, tính nghịch đảo không là một đặc tính của quá trình duy nhất (xt)t∈

Z mà là của liên kết giữa hai quá trình (xt)t∈

và (εt)t∈

Z .

Tổng quát của mô hình M A(1) để tăng sự phụ thuộc vào quá khứ là mô hình M A(q) xác định bởi (t ∈ T) xt = µ+εt q X i=1 ϑiεt−1 (3.9) Trong đó (εt)t∈

T là tiếng ồn trắng. Điều kiện “đồng nhất” tương ứng trong mô hình này là tất cả nghiệm của đa thức

Q(u) = 1−

i=1 ϑiui

Đều nằm bên ngoài hình tròn đơn vị trong mặt phẳng phức.

hình M A(q) sự phụ thuộc giữa các quan sát bắt nguồn từ sự phụ thuộc tiếng ồn (không quan sát được) hơn là các quan sát trực tiếp. Hơn nữa, trái ngược với mô hình M A(p) có hàm tự hiệp phương sai giữa các dạng của chuỗi là giảm theo cấp số nhân tới 0, nhưng luôn khác nhau từ 0, hàm tự hiệp phương sai cho mô hình M A(q) là: γx(s) = 0 với |s| > q. Ngoài ra, quá trình M A(q) là dừng với bất cứ vector (ϑ1, ..., ϑq), từ tiếng ồn trắng độc lập và phân phối của 3.9 là độc lập của t. Một khác biệt lớn giữa mô hình M A(q) và AR(p) là cấu trúc của M A(q) không là Markov. Trong trường hợp Gauss, toàn bộ các vecsto quan sát x1:T là một biến chuẩn ngẫu nhiên thực, với hằng số trung bình µ và ma trận hiệp phương sai P

. Do đó, nó cung cấp một hàm hợp lý rõ ràng. Tuy nhiên, việc tính toán hàm hợp lý này là khá tốn kém vì nó liên quan đến ma trận nghịch đảo của P (khá lớn).

Một biểu hiện khác của hàm hợp lý M A(q) là sử dụng hàm hợp lý của x1:T có điều kiện trên tiếng ồn trắng ε0, ..., ε−q+1:

lc(µ, ϑ1, ..., ϑq, σ|x1:T, ε0, ..., ε−q+1) ∝ σ−T T Y t=1 exp    xt −µ+ q X j=1 ϑjbεt−j !2 /2σ2    (3.10) Trong đó (t > 0): bεt = xt −µ+ q P j=1 ϑjbεt−j và bε0 = ε0, ...,bε1−q = ε1−q hàm hợp lý là vẫn tốn kém vì nó liên quan đến tổng T của q số hạng. Tuy nhiên, mặc dù vấn đề xử lý các giá trị điều kiện (ε0, ..., ε−q+1) phải được xử lý riêng thông qua một bước MCMC.

Phân phối có điều kiện của(ε0, ..., ε−q+1)cho cả haix1:T và các tham số là một phân phối chuẩn. Với cả haix1:T và tiếng ồn quá khứ(ε0, ..., ε−q+1), phân phối có điều kiện của các tham số(µ, ϑ1, ..., ϑq, σ) là rất gần với hậu

nghiệm kết hợp với một phân phối hậu nghiệm AR (q). Vì thế, chúng ta có thể tái sử dụng thuật toán (1). Tiếng ồn quá khứ ε−i(i = 1, ..., q) là được mô phỏng trên xt trên các tham số µ, σ và ϑ = (ϑ1, ..., ϑq). Trong khi phân phối chính xác

f (ε0, ..., ε−q+1|x1:T, µ, σ, ϑ) ∝ 0 Y i=−q+1 e−ε2i/2σ2 T Y t=1 e−bε2 t/2σ2 (3.11)

trong đó εbt là một phân phối chuẩn trên vector (ε0, ..., ε−q+1). Tính toán của nó là quá tốn kém cho các biến với giá trị thực của T .

Ví dụ 3.2. Chúng ta xét 350 điểm đầu tiên của chuỗi Air Liquide trong Eurostoxx50. Kết quả đại diện cho q = 9và 10000 lần lặp lại trong thuật toán (2), Hàng trên cùng: Biểu đồ bên trái là trình tự của các nghiệm

Hình 3.3: Dữ liệu Eurostoxx50

. Hàng giữa là trình tự của các ϑi(i = 1,2,3). Hàng dưới cùng: Biểu đồ bên trái là trình tự hàm hợp lý được quan sát; Biểu đồ ở giữa là biểu hiện của đám mây của các nghiệm phức với ranh giới của hình tròn đơn vị; Biểu đồ bên phải là phát triển của mô phỏng ε−t.

Điều thú vị là, hàm hợp lý tìm được trong thuật toán ở trên là cao hơn nhiều so với hàm hợp lý tìm thấy trong lệnh R cổ điển.

3. Mô hình ARMA

Mở rộng của hai mô hình trước đó là (chuẩn) mô hình ARMA (p, q), trong đó xt(t ∈ T) là điều kiện được xác định bởi

xt = µ− p X i=1 ϑi(xt−i −µ) +εt − q X j=1 ϑjεt−j, εt ∼ N 0, σ2 (3.12) εt là độc lập

Cho phương trình quan sát

xt = xt = µ−(ϑr−1ϑr−2...ϑ1 −1)yt yt+1 =             0 1 0 0 0 0 1... 0 ... ... 0 ϑr 0 ϑr−1 0... ϑr−2... 1 ϑ1             yt +εt+1             0 0 ... 0 1             (3.13)

Với r-max (p, q+1) và quy ước

ϑm = 0

nếu m >p và

nếu m>q.

Tương tự như (q ) trường hợp MA, đại diện không gian trạng thái này là tiện dụng trong việc đưa ra các thuật toán MCMC hội tụ đến phân phối hậu nghiệm của tham số của mô hình ARMA( p, q).

Nếu chúng ta định nghĩa (t>p) e x= xt −µ+ p X i=1 υ(xt−i −µ)

Hợp lý giống như hợp lý tiêu chuẩn M(q) trên ex , các khôi phục của hợp lý AR( p) là nhiều hơn. Nếu định nghĩa số dư εet =

j=1

ϑjεt−j , log-likelihood điều kiện trên x0:(p−1) là

− T X t=p xt −µ− p X j=1 υj [xt−j −µ]−εet !2 /2σ2 Rõ ràng chọn một log-likelihood AR( p) , ngoại trừ εet. II. Thuật toán

1. Thuật toán Metropolis – Hastings (M-H)

Với thuật toán M-H, phân bố đề suất là Markov, với mật độ chính

q(x,y). Nếu phân bố mục tiêu có mật độ g, thuật toán M-H sẽ như sau

Thuật toán: Lấy mẫu M-H chung Khởi tạo: Chọn một giá trị bắt đầu tùy ý x(0)

Lặp lại : t(t ≥1)

1/ Cho biết x(t−1) , tạo ra xe∼ q x(t−1), x 2/Tính ρ x(t−1),xe = min g(ex)/q x(t−1),xe g x(t−1) /q ex, x(t−1),1 ! .

3/ Với xác suất ρ x(t−1),xe, chấp nhận exvà đặt x(t) = exNếu không từ chối ex và đặt x(t) = x(t−1).

Phân bố q cũng được gọi là phân bố công cụ, phân bố mục tiêu g là phân bố giới hạn của chuỗi ρ(x, y) Markov được tạo ra bởi Thuật toán trên. Điều này là do lựa chọn xác suất chấp nhận vì phương trình cân bằng

g(x)q(x, y)ρ(x, y) =g(y)q(y, x)ρ(y, x)

Nếu lựa chọn q không phù hợp sẽ gây ra tỷ lệ từ chối rất cao. Thuật toán không thể đưa ra các chiến lược ứng dụng độc lập cho việc lựa chọn

q . Do đó, ta xét tới trường hợp sau. a. Lấy mẫu độc lập

Lựa chọn q sao cho

q(x, y) =q(y) Trong trường hợp đó ρ(x, y) = min 1, g(y)/q(y) g(x)/q(x) .

Trong trường hợp đặc biệt màq tỷ lệ vớig , chúng ta thu đượcρ(x, y) = 1

b. Lấy mẫu bước ngẫu nhiên

Do lấy mẫu độc lập đòi hỏi quá nhiều thông tin toàn bộ về phân bố mục tiêu, nên một giải pháp thay thế là lựa chọn thu thập các thông tin cục bộ, nghĩa là tìm ra vùng lân cận của giá trị hiện tại x(t) trong khi tìm kiếm các điểm quan tâm khác.

Lựa chọn

Xác suất chấp nhận ρ(x, y) giảm xuống dạng đơn giản ρ(x, y) = min (1, g(y)/g(x)).

sơ đồ này rõ ràng hơn vì nó chỉ phục thuộc vào g mục tiêu và chấp nhận tất cả những bước đề xuất, làm tăng giá trị của g . Từ quan điểm xác suất, các bước ngẫu nhiên thường không có phân bố cố định, thuật toán có khuynh hướng nghiêng về bước ngẫu nhiên bằng cách di chuyển về các chế độ chứ không tách ra khỏi chúng.

2. Thuật toán: Bộ lấy mẫu M-H Probit

1/ Khởi tạo: Tính βˆ và ma trận cP hiệp phương sai tương ứng với phương sai tiệm cận của βˆ và đặt β(0) = βb

Lặp lại t≥ 1: 2/ Tạo ra βe∼ Nkβ(t−1), τ2c P . 3/ Tính ρβ(t−1),βe = min