(LUẬN văn THẠC sĩ) thuật toán metropolis và ứng dụng

Các phương pháp mô phỏng biến ngẫu nhiên

Phương pháp lấy mẫu ngược

Định lý 1.1 Cho hàm phân phối tích lũy F(x) với F −1 là hàm ngược của

F được xác định như sau:

Cho U là một BNN có phân phối đều U(0,1) và đặt X = F −1 (U) khi đó hàm phân phối của X là F(x).

Ví dụ 1.1 Mô phỏng một biến ngẫu nhiên có phân phối mũ với tham số λ.

Hàm phân phối mũ có dạng:

Cho U ∼U(0,1) và đặt Y = −1 λlog(1ưU). Khi đó Y có phân phối mũ với tham số λ.

Hơn thế, nếu U ∼ U(0,1) thì 1ưU cũng có phân phối U(0,1) do đó nếu đặt

Y = −1 λ log(U)có phân phối mũ với tham sốλ ⊗

Ví dụ 1.2 Phân phối Becnoulli và phân phối nhị thức B(n, p). Cho U ∼U(0,1) Nếu:

0 trong các trường hợp khác Thì X là một phân phối Becnoulli với xác suất thành công là p Cho

X 1 , X n là các BNN độc lập của phân phối Becnoulli khi đó Y n

X i là phân phối nhị thức B(n, p) ⊗

Ví dụ 1.3 Mô phỏng biến ngẫu nhiên có phân phối hình học (Geo(p)).

Giả sử X nhận giá trị thuộc tập N và P(X = j) = P j Khi đó

Nếu X có phân phối hình học X ∼ Geo(p) thì P(X > j) = (1−p) j điều đó có nghĩa là: n

Kí hiệu[a]: phần nguyên của a, khi đóX = [ log(U) log(1−p)]có phân phối hình học ⊗

Phương pháp lấy mẫu loại trừ

Giả sử chúng ta có biến ngẫu nhiên X với hàm mật độ f(x) Mặc dù chưa mô phỏng được X, nhưng chúng ta có thể mô phỏng Y với hàm mật độ g(y) đã biết trước, trong đó giá trị của f là tập con của giá trị g và thỏa mãn điều kiện f(x) g(x) ≤ M với mọi x Sau đó, chúng ta sử dụng mẫu Y để tìm mẫu X và lặp lại các bước này cho đến khi đạt được kết quả mong muốn.

Bước 1: Mô phỏng Y = y từ g(x) và U = u từ phân phối đều U(0,1).Chuyển sang bước 2,

M.g(y) đặt X = y Ngược lại quay về bước 1.

Mệnh đề 1.1 Biến ngẫu nhiên X được lấy dựa trên phương pháp loại trừ như trên có hàm mật độ f(x).

Câu hỏi đặt ra là ta cần bao nhiêu phép lặp trong thuật toán này? Trong mỗi phép lặp ta xây dựng một mẫu với xác suất P(U 6 f(Y)

M. Vậy trung bình số phép lặp là M.

1, M càng nhỏ càng có lợi trong quá trình tính toán vì số bước lặp ít Vậy ta nên tìm hàm mật độ g gần với hàm f.

2, Nếu giá của hàm f không bị chặn thì để tìm M ta xác định hàm mật độ g có đuôi nặng hơn f.

Giả sử ta tìm mẫu |X| mà X là BNN có phân phối chuẩn tắc khi đó hàm mật độ của |Z| là: f(x) r2 π exp(−x 2

Chúng ta đã tìm hiểu cách xây dựng một mẫu có phân phối mũ Do đó, chúng ta chọn hàm g là hàm mật độ của phân phối mũ với tham số 1, và có công thức: f(x) g(x) = r² π exp(−x² − 2x).

Theo phương pháp lấy mẫu loại trừ thì ta có thể thực hiện theo các bước sau:

Bước 1: Đặt Y = y từ phân bố mũ với tham số 1 và U = u từ phân phối chuẩn U(0,1).

2 ) trở lạiX = y Ngược lại quay về Bước

Chọn một biến ngẫu nhiên Y với hàm mật độ g(x) trên không gian S Giả sử A là một tập con của S, và ta thực hiện việc lấy mẫu của biến ngẫu nhiên có điều kiện X = (Y|Y ∈ A) trong không gian xác định A.

Khi sử dụng phương pháp loại trừ để lấy mẫu, chúng ta có thể thực hiện việc lặp lại lấy mẫu X cho đến khi thu được mẫu thuộc tập A Cụ thể, X sẽ có hàm mật độ f(x) = g(x).

M.g(x) = 1 [x∈A] Giả sử rằng U là phân phối đều trong một khoảng (0,1) Khi đó

Với phương pháp lấy mẫu loại trừ ta chấp nhận giá trị này nếu Y ∈ A và ngược lại ta loại bỏ.

Nếu việc đánh giá hàm f không quá phức tạp, bên cạnh việc xác định cận trên Mg(x) cho f(x), chúng ta cũng có thể đánh giá cận dưới h(x) Từ đó, chúng ta có thể áp dụng phương pháp lấy mẫu loại bỏ cải biên một cách hiệu quả.

M.g(y) và nhận X = y như là mẫu Ngược lại chuyển sang bước 3.

M.g(y) và nhận X = y như là mẫu Ngược lại quay về bước 1.

Sẽ có lợi hơn rất nhiều vì trung bình ta chỉ cần 1

M R h(x)dx lần nếu thay bởi hàm h Hàm h có thể tìm được nhờ khai triển Taylor.

Ước lượng bằng mô phỏng

Lấy mẫu quan trọng (Importance Sampling)

Giả sử ta quan tâm đến tích phân:

S h(x)f(x)dx. trong đó f là hàm mật độ.

Viết tích phân này dưới dạng:

S f(x) g(x)h(x)g(x)dx. trong đó g(x) là hàm mật độ thỏa mãn g(x) > 0 nếu f(x).h(x) 6= 0 Ta sinh mẫu ngẫu nhiên (độc lập có cùng phân bố) (x 1 , x 2 , , x n ) từ g và ước lượng I bởi:

Thủ tục này gọi là Lấy mẫu quan trọng.

Hàm mật độ g được gọi là hàm mật độ đề xuất và Ibgọi là ước lượng quan trọng (importance estimator). w(x i ) = f(x i ) g(x i ) là trọng số (importance weight).

Chú ý rằng Iblà một ước lượng không chệch của I.

Có hai lý do mà ta quan tâm đến phương pháp này là:

1, Việc lấy mẫu từ f(x)là không thể hoặc rất khó.

2, Biến ngẫu nhiên H(X), trong đó X có mật độ f(x), có phương sai lớn Vì vậy ước lượng không chệch truyền thống, tức 1 n n

Phương sai của ước lượng Ibtheo phương pháp này là hữu hạn nếu:

Nếu tỉ số f(x) g(x) không bị chặn, phương sai sẽ trở thành vô cùng Do đó, nên chọn hàm mật độ đề xuất g có đuôi dày hơn f Trong trường hợp f(x) g(x) không bị chặn, ngay cả khi phương sai của ước lượng hữu hạn, quy trình này vẫn không hiệu quả do phương sai của các trọng số lớn Sự biến đổi lớn của các trọng số sẽ ảnh hưởng tiêu cực đến giá trị ước lượng.

Ví dụ 1.6 Các xác suất đuôi của phân bố chuẩn.

Cho p = P[Z > 4] với Z là biến ngẫu nhiên có phân phối chuẩn tắc Để tính toán, ta có thể xây dựng một mẫu ngẫu nhiên độc lập với phân phối chuẩn Z, ký hiệu là Z(1), Z(2), , Z(M) Sau đó, xác định xác suất pb = 1/M.

M có thể lớn hơn 0, vì vậy một phương pháp thay thế là xây dựng một mẫu độc lập từ biến ngẫu nhiên có phân phối mũ với tham số 1 và dịch sang phải 4 đơn vị Khi đó, ta có w(x) = f(x) g(x) = 1.

Thay cho ước lượng quan trọng Ib= 1 n n

X i=1 w(x i h(x i )) người ta dùng ước lượng:

. Ước lượng này có 2 thuận lợi:

Ước lượng chệch này có phương sai nhỏ hơn so với ước lượng quan trọng đã được xây dựng trước đó Cần lưu ý rằng ước lượng này vẫn giữ tính vững khi các biến x1, x2, , xn là độc lập và tuân theo cùng một phân bố với hàm mật độ g.

2, Ta có thể có mẫu quan trọng nếu chỉ biết f(x) và w(x) sai khác một hằng số nhân.

Nếu không thể tìm được hàm mật độ của mẫu quan trọng, dẫn đến việc phương sai nhỏ, có một số phương pháp có thể áp dụng để giảm phương sai, trong đó có phương pháp Sequential Importance Resampling.

+) Sinh mẫu dạng Y (1) , Y (n) với trọng số w i = f(Y (i) ) g(Y (i) ), i = 1, n. +) Sinh mẫu mới X (1) , , X (n) bởi Y (1) , , Y (n) xác suất w j n

Xem xét loại bỏ các điểm mẫu có trọng số dưới ngưỡng c để tối ưu hóa quá trình phân tích Mặc dù phương pháp này có thể dẫn đến ước lượng chệch, việc điều chỉnh các trọng số một cách hợp lý sẽ giúp giảm thiểu vấn đề này.

Giả sử ta có mẫu quan trọng Y (1) , , Y (n) với trọng số w 1 , , w n thì phương pháp này được thực hiện như sau:

Với j = 1, , n, ta chấp nhận Y(i) với xác suất Pj = min{1; wj c} Nếu Y(j) được chấp nhận, ta sẽ tính lại trọng số là we = q.wj p j, trong đó q = R min{1,w(x) c }g(x)dx Lưu ý rằng q là giống nhau cho mọi j, vì vậy không cần tính cụ thể nếu sử dụng ước lượng tỷ số Phương pháp này cho phép sinh ra mẫu quan trọng từ hàm mật độ đề xuất g*(x) min{g(x), f(x) c } q.

Xích Markov

Giới thiệu về xích Markov

Dãy các ĐLNN (X n ) là một xích Markov nếu với mọi n 1 < n 2 < < n k < n k+1 và với mọi i 1 , i 2 , i k , i k+1 ∈ S ta có:

Trong lý thuyết Markov, thời điểm nk+1 được coi là tương lai, trong khi nk đại diện cho hiện tại và n1, n2, , n k−1 là quá khứ Điều này cho thấy xác suất có điều kiện của một sự kiện B trong tương lai chỉ dựa trên hiện tại và quá khứ của hệ tương đương với xác suất có điều kiện của B khi chỉ biết trạng thái hiện tại Tính chất này chính là đặc trưng của tính Markov trong các hệ thống.

Tính Markov được định nghĩa là nếu biết trạng thái hiện tại của hệ thống, thì quá khứ và tương lai sẽ độc lập với nhau Cụ thể, xác suất P(X m+n = j|X m = i) biểu thị khả năng chuyển từ trạng thái i tại thời điểm m sang trạng thái j tại thời điểm m+n sau n bước Xác suất này phụ thuộc vào các yếu tố i, j, m và n Nếu xác suất này không phụ thuộc vào m, thì xích được gọi là thuần nhất Trong bài viết này, chúng ta sẽ chỉ tập trung vào các xích thuần nhất.

Ta gọi(P ij , i, j ∈ S) là xác suất chuyển sau một bước (xác suất chuyển)còn (P ij (n), i, j ∈ S) là xác suất chuyển sau n bước Chú ý rằng:

Phân bố của X 0 được gọi là phân bố ban đầu, ký hiệu là u i = P(X 0 = i) Theo Định lý 1.2, phân bố đồng thời của (X 0 , X 1 , , X n ) được xác định hoàn toàn từ phân bố ban đầu và xác suất chuyển.

P(X 0 = i 0 , X 1 = i 1 , , X n = i n ) = u i 0 P i 0 i 1 P i n−1 i n Chứng minh: Thật vậy, theo công thức nhân xác suất ta có:

Sử dụng tính Markov ta có:

P(X 0 = i 0 , X 1 = i 1 , , X n = i n ) = u i 0 P i 0 i 1 P i n−1 i n Định lý 1.3 (Phương trình C-K(Chapman-Kolmogorov))

Khi S có d phần tử, ta ký hiệu P = (P ij ) và P(n) = (P ij (n)) là các ma trận vuông cấp d×d P được gọi là ma trận xác suất chuyển, trong khi P(n) là ma trận xác suất chuyển sau n bước Phương trình Chapman-Kolmogorov tương đương với mối quan hệ giữa các ma trận này.

P(n+m) =P(n)ãP(m). vì P = P(1) nên bằng quy nạp ta dễ thấy:

Kí hiệu véc tơ U(n) = (u1(n), u2(n), , ud(n)) đại diện cho phân bố của Xn, trong khi véc tơ U = U(0) = (u1, u2, , ud) mô tả phân bố ban đầu của X0 Định lý 1.4 khẳng định rằng

Cho (ξn), n = 0,12, là dãy các ĐLNN độc lập có cùng phân bố Giả sử P(ξ n = i) =a i , i ∈ Z Đặt:

Khi đó Xn là một xích Markov với không gian trạng thái Z.

Do đó (X n ) là một xích Markov với không gian trạng thái Z, xác suất chuyển làPij = (aj−i) ⊗

Giả sử trung bình trượt của một dãy Bernoulli Y n = X n + X n−1

2 trong đó (Xn) là dãy các BNN Bernoulli độc lập với:

Ta sẽ chỉ ra rằng (Y n ) là một quá trình không có tính Markov

Thật vậy, hàm xác suất của Y n được cho bởi:

4. Xác suất có điều kiện của 2 giá trị liên tiếp của (Yn) là:

(do không có dãy nào của X n , X n−1 X n−2 , X n−3 dẫn tới kết quả Y n 1, Y n−1 = 1

Vậy quá trình này không có tính Markov.

Phân bố dừng

Định nghĩa 1.2 Phân bố dừng

Phân bố ban đầu U = (u i ), i ∈ S là phân bố dừng nếu ta có U(n) =U với

∀n tức là u i (n) =u i với ∀n ,∀i ∈ S Khi đó dãy (X n ) có cùng phân bố.

Ta cũng có kết quả tương đương sau:

U = (u i ) là phân bố dừng nếu và chỉ nếu:

Cho (X n ) là xích Markov với không gian trạng thái S = 1,2,3 và ma trận xác suất chuyển P:

Hãy tìm phân bố dừng (nếu có) của xích đó.

Lời giải: Đặt U = (x, y, z) Khi đó U là phân bố dừng khi và chỉ khi x, y, z là nghiệm không âm của hệ sau :

Vậy phân bố dừng của xích là U = (x = 15

Cho (Xn) là một xích Markov có hai trạng thái S = {0,1} với các ma trận xác suất chuyển là:

P 1−a a b 1−b trong đó a, b > 0,0< a +b < 1 Ta đi tìm phân bố dừng Đặt U = (x, y) Khi đó U là phân bố dừng khi và chỉ khi x, y là nghiệm không âm của hệ sau:

(1−a)x+by = x ax+ (1−b)y = y x+y = 1 Phương trình thứ nhất và thứ hai của hệ tương đương với ax = by hay x = by a

Thế vào phương trình thứ ba của hệ ta có x = b a+b, y = a a+b. Vậy phân bố dừng của xích là:

Khi nghiên cứu về phân bố dừng trong xích Markov, chúng ta nhận thấy rằng nó không phải lúc nào cũng tồn tại Điều này đặt ra câu hỏi về các điều kiện cần thiết để phân bố dừng tồn tại và liệu nó có phải là duy nhất hay không Định lý 1.5 chỉ ra rằng nếu (X n ) là một xích Markov với không gian trạng thái nhất định, thì chúng ta có thể xác định các điều kiện cho sự tồn tại của phân bố dừng.

S = {1,2, } với xác suất chuyển sau n bước là P(n) = (Pij(n)) Giả sử rằng mọi i, j ∈ S tồn tại giới hạn n→∞lim P ij (n) = π j và giới hạn này không phụ thuộc i Khi đó:

3 Nếu X j∈S π j = 1 thì U = (π 1 , π 2 , ) là phân bố dừng và là phân bố dừng duy nhất Nếu π j = 0 với mọi j ∈ S thì phân bố dừng không tồn tại.

Phân bố giới hạn

Trong lý thuyết xác suất, một xích Markov (Xn) với không gian trạng thái S = {1, 2, } và ma trận xác suất chuyển P = (Pij) được coi là có phân bố giới hạn nếu tồn tại giới hạn sau n bước, tức là với mọi i, j ∈ S, ta có: lim n→∞ Pij(n) = πj Điều này có nghĩa là xác suất chuyển trạng thái từ i sang j sẽ hội tụ về một giá trị cố định πj khi số bước n tiến tới vô hạn.

Giới hạn này không phụ thuộc vào i ∈ S và tổng các phần tử X j∈S π j bằng 1 Điều này có nghĩa là véc tơ giới hạn π = (π 1 , π 2 , ) tạo thành một phân bố xác suất trên S Phân bố giới hạn này có ý nghĩa quan trọng trong việc mô tả xác suất của các sự kiện trong tập hợp S.

Gọi ui(n) =P(Xn = i) Kí hiệu véc tơ U(n) = (u1(n), u2(n), ) là véc tơ hàng d-chiều mô tả phân bố của X n

Vậy phân bố U(n) của X n hội tụ tới phân bố giới hạn π Khi n khá lớn ta có:

Theo định lý 1.3.4, nếu phân bố giới hạn tồn tại, thì phân bố dừng cũng sẽ tồn tại và là duy nhất, đồng thời hai phân bố này sẽ trùng nhau Tuy nhiên, có những xích Markov tồn tại phân bố dừng mà không có phân bố giới hạn.

Cho xích Markov (Xn) có hai trạng thái với ma trận xác suất chuyển là:

Do đó không tồn tại lim n→∞P(n) Tuy nhiên rõ ràng π = (1/2,1/2) là phân bố dừng duy nhất.

Trong nghiên cứu xích Markov, một trong những vấn đề quan trọng là xác định các điều kiện cần thiết để đảm bảo sự tồn tại của phân bố dừng và phân bố giới hạn Định lý 1.6 chỉ ra rằng cho (X n ) là một xích Markov với không gian trạng thái hữu hạn, các điều kiện này sẽ được thảo luận và phân tích.

Xét tập hợp S = {1, 2, , d} với ma trận xác suất chuyển P(n) = (P ij (n)) sau n bước Phân bố giới hạn π = (π 1 , π 2 , ) tồn tại với điều kiện π j > 0 cho mọi j ∈ S nếu và chỉ nếu xích là chính quy, tức là tồn tại n 0 sao cho điều kiện này được thỏa mãn.

Cho (X n ) là một xích Markov có 2 trạng thái S = {0,1} với ma trận xác suất chuyển là:

P 1−a a b 1−b trong đó a, b > 0,0 < a+ b < 1, ta hãy tìm biểu thức của ma trận xác suất chuyển sau n bước.

Tính toán trực tiếp ta có:

Bằng quy nạp ta có:

Vì vậy nếu |1−a−b| < 1 thì: n→∞lim P n 

Ví dụ 1.13 (Ma trận ngẫu nhiên kép)

Xét xích Markov có không gian trạng thái S = {1,2, , d} và ma trận xác suất chuyển của nó là chính quy đồng thời là một ma trận kép, có nghĩa là:

Theo định lý về phân bố giới hạn, chúng ta cần xác định phân bố giới hạn tồn tại Phân bố đều π = (1/d, 1/d, , 1/d) được xem là phân phối dừng Cụ thể, khi đặt P ij = 1/d, chúng ta có thể thấy rõ điều này.

Phân bố giới hạn là phân bố đều với π = (1/d, 1/d, , 1/d), vì phân bố dừng là duy nhất Khi tung xúc sắc cân đối đồng chất một cách độc lập, ký hiệu ξ n đại diện cho số chấm xuất hiện ở lần gieo thứ n.

X n là một xích Markov với không gian trạng thái S = {1,2, , d} và ma trận xác suất chuyển là P = (P ij ) i,j ∈S với:

Xích Markov này là chính quy vì ma trận xác suất chuyển sau 2 bước là

Vậy phân bố giới hạn là π = (1/7,1/7,1/7,1/7,1/7,1/7,1/7). Định nghĩa 1.4 Xích ergodic

Một xích Markov {X 0 , X1, X2, } được gọi là Ergodic nếu giới hạn: π j = lim n→∞P i,j n

2, là dương và không phụ thuộc vào i,

3, π = (π 1 , , π k ) T là một phân bố xác suất trên S.

+ ) Nếu xích ergodic thì phân bố giới hạn là phân bố dừng.

+ ) Thay vì kiểm tra điều kiện phân bố dừng ta kiểm tra điều kiện cân bằng chi tiết.

Bổ đề 1.1 Điều kiện cân bằng chi tiết

Giả sử π là một phân bố trên không gian trạng thái S, thỏa mãn điều kiện π(x)p(x, y) = π(y)p(y, x) với mọi x, y ∈ S, trong đó p(x, y) là hàm mật độ chuyển của một xích Markov ergodic X Kết luận rằng π là phân phối ổn định của X.

Ta có: π = πP với P: ma trận chuyển.

Xích tối giản và không có chu kì

Định nghĩa 1.5 Ta nói rằng trạng thái i đến được trạng thái j và kí hiệu là i →j nếu tồn tại n≥ 0 sao cho P ij ≥0 (ta quy ước P ii (0) = 1, P ij (0) = 0 nếu i 6= j).

Hai trạng thái i và j được gọi là liên lạc được nếu i → j và j → i Trong trường hợp đó ta viết i ↔j.

Ta có bổ đề sau: (Tính chất bắc cầu) Nếu i → j và j → k thì i → k. Thật vậy, theo giả thiết tồn tại n, m sao cho:

Theo phương trình Chapman-Kolmogorov ta có:

Theo định nghĩa, quan hệ "liên lạc được" là một quan hệ tương đương trên không gian trạng thái S, giúp phân hoạch không gian này thành các lớp rời nhau Hai trạng thái thuộc cùng một lớp sẽ có khả năng liên lạc được với nhau.

Xích Markov được coi là tối giản khi mọi cặp trạng thái đều có thể liên lạc với nhau, tức là không thể phân hoạch tập hợp trạng thái S thành các lớp con nhỏ hơn Ngược lại, nếu xích không tối giản, thì tập hợp S sẽ được chia thành các lớp trạng thái rời nhau.

S = S1 ∪ S2 ∪ ∪ Sn, trong đó mỗi Sk đại diện cho không gian trạng thái của xích Markov tối giản Do đó, việc nghiên cứu xích Markov có thể được chuyển hóa thành việc phân tích các xích tối giản.

Ví dụ 1.14 Xích không tối giản

Cho xích Markov với không gian trạng thái S = {1,2,3,4,5} và ma trận xác suất chuyển là:

Theo cách phân lớp trên thì S = S1∪S2 với S1 = {1,2} và S2 = {3,4,5}.

Ta có thể xem S 1 và S 2 là không gian trạng thái của xích Markov với ma trận xác suất chuyển tương ứng là P 1 và P 1

⇒ xích Markov đã cho là không tối giản ⊗

Ví dụ 1.15 Xích Markov tối giản

Cho xích Markov với không gian trạng thái S = {1,2,3,4}và các ma trận xác suất chuyển là:

Xích này là tối giản.

Thật vậy, rõ ràng 1 ↔ 3 ( do P13 = 1/2 > 0, P31 = 1/2 > 0) ) tương tự ta cũng có 1↔ 4 , 2 ↔3 , 2 ↔4 Mặt khác, 1 →3, 3 →2 suy ra 1→ 2. Lại có 2→ 3, 3→ 1 suy ra 1 →2 Vậy 1 ↔2.

Tương tự ta cũng chỉ ra được 3↔ 4.

Vậy hai trạng thái bất kỳ của xích là liên lạc được Do đó, xích đã cho là tối giản ⊗ Định nghĩa 1.7 Chu kỳ của trạng thái

Chu kỳ của trạng thái i, ký hiệu là d(i), được xác định là ước chung lớn nhất của tất cả các số nguyên dương n ≥ 1 mà P ii (n) > 0 Nếu P ii (n) = 0 với mọi n ≥ 1, thì d(i) được quy ước là 0 Theo định lý 1.7, nếu i ↔ j thì d(i) = d(j), nghĩa là các trạng thái có cùng chu kỳ d, và chu kỳ chung này được gọi là chu kỳ của lớp.

Chứng minh: Do i ↔ j nên ∃k, l sao cho:

Theo phương trình Chapman-Kolmogorov ta có:

Vậy k + l chia hết cho d(i) Giả sử n ≥ 1 sao cho P ij (n) > 0 Sử dụng phương trình C-K như trên ta có:

Vậy k + l + n chia hết cho d(i) Tương tự d(i) chia hết cho d(i) Do đó d(i) = d(j).

Giả sử d là chu kỳ của một xích tối giản với không gian trạng thái S. Nếu d = 1 ta nói xích không có chu kỳ.

Nếu d > 1, có thể chứng minh rằng tập S được phân hoạch thành d tập con, với S = C0 ∪ C1 ∪ ∪ Cd−1 Sau mỗi bước, hệ thống sẽ chuyển từ trạng thái thuộc Ck sang trạng thái thuộc Ck+1, với quy ước rằng Cd = C0.

Vì vậy mỗi tập con có thể lấy làm không gian trạng thái của một xích Markov mới Xích này tối giản và không có chu kỳ.

Nghiên cứu xích Markov tổng quát có thể quy về xích tối giản và không có chu kỳ Theo định lý quan trọng 1.8, mọi xích Markov tối giản và không có chu kỳ đều có duy nhất một phân bố dừng, đồng thời là phân bố giới hạn của xích.

Xích khả nghịch

Định nghĩa 1.8 Xét xích Markov (X 0 , X 1 ) có không gian trạng thái

S = {1,2, , k} và ma trận chuyển P Một phân bố xác suất π trên không gian trạng thái S được gọi là khả nghịch nếu với mọi i, j ∈ S, ta có: π i P ij = π j P ji

Xích Markov được coi là khả nghịch khi có một phân bố khả nghịch tồn tại Theo Định lý 1.9, với xích Markov (X0, X1, ) có không gian trạng thái S = {1, 2, , k} và ma trận chuyển P, nếu π là phân bố khả nghịch của xích, thì nó cũng chính là phân bố dừng của xích đó.

Giới thiệu về MCMC

Để tính kỳ vọng của biến ngẫu nhiên h(Y), với Y là đại lượng ngẫu nhiên có hàm mật độ π, ta cần giải quyết tích phân liên quan Tuy nhiên, việc tính toán tích phân này có thể gặp khó khăn.

Chúng ta xây dựng một xích Markov ergodic với phân bố dừng có hàm mật độ π và tiến hành mô phỏng xích X cho đến thời điểm N đủ lớn Bằng cách áp dụng định lý ergodic, chúng ta có thể ước lượng giá trị kỳ vọng Eh(Y).

Từ xích Markov, chúng ta phát triển thành thuật

X n=1 h(X n ) Đây là ý tưởng chính của thuật toán

Để xây dựng một xích Markov ergodic X có phân phối giới hạn π từ một phân phối π đã cho, có nhiều phương pháp khác nhau Sự đa dạng này cho phép tạo ra nhiều xích Markov với cùng một phân bố giới hạn Dưới đây, chúng tôi sẽ giới thiệu một số cơ chế sinh xích Markov để phục vụ cho mục đích này.

Thuật toán Metropolis-Hastings

Gọi S là không gian trạng thái của phân phối mục tiêu Thuật toán Metropolis-Hastings được thực hiện như sau:

Để bắt đầu, với mỗi x ∈ S, ta chọn một hàm mật độ q(x, ) xác định hàm chuyển của xích Markov tại trạng thái x trên không gian S, và các hàm chuyển này nên được lựa chọn sao cho dễ tính Giả sử trạng thái hiện tại của xích là X n = x, ta sẽ chuyển xích sang trạng thái mới theo hàm chuyển q(x, ) bằng cách đề xuất một trạng thái z mới và chấp nhận chuyển sang trạng thái này với xác suất α(x, z) = min{1, π(z).q(z, x) / (π(x).q(x, z))}.

Nếu z không được chấp nhận được thì ta giữ nguyên trạng thái x cho xích. Tức là ở bước tiếp theo ta có:

 z với xác suất α(x, z), x với xác suất 1−α(x, z)

Ta tổng kết lại bằng định nghĩa sau: Định nghĩa 2.1 (Thuật toán Metropolis-Hastings)

Chọn xác suất chuyển hoặc hàm mật độ q(x, y) x, y ∈ S Chúng được gọi là các phân bố đề xuất:

Giả sử X n = x ∈ S ta bắt đầu như sau:

1 Lấy Z = z từ hàm mật độ q(x, z) z ∈ S

2 Chấp nhận Z = z với xác suất α(x, z) = min{1, π(z).q(z, x) π(x).q(x, z)}.Nếu Z = z là chấp nhận được đặt X n+1 = z Nếu Z = z không chấp nhận được thì X n+1 = x.

Ta xét một số ví dụ:

Ví dụ 2.1 Phân bố hỗn hợp

Phân phối hỗn hợp liên tục có hàm mật độ được định nghĩa là f(x) = p.f1(x) + (1−p)f2(x), với 0 < p < 1 và f_i(x) là hàm mật độ cho i = 1, 2 Để lấy mẫu từ phân phối hỗn hợp, chúng ta có thể lấy mẫu x từ f1(.) với xác suất p và từ f2(.) với xác suất 1-p Trong ví dụ sau, chúng tôi sẽ minh họa cách lấy mẫu từ hàm phân phối tổng hợp bằng thuật toán Metropolis-Hastings Mặc dù hàm mật độ trong ví dụ có thể được lấy trực tiếp, chúng tôi sẽ sử dụng phương pháp này để minh họa rõ ràng hơn.

Xét phân phối hỗn hợp của 2 biến: π(x) = p 1 p2πσ 1 2 exp(− 1

Hỡnh vẽ dưới đõy cho trường hợp hàm mật độ với σ 1 = σ 2 = 1, à 1 4, à 2 = −4, p = 0.8.

Chúng ta lấy mẫu ω từ một hàm mật độ chuẩn và cho z = x+ ω như một trạng thái mới Do z ∼ N(x,1) và hàm mật độ đề xuất của chúng ta là: q(x, z) = 1

Xác suất chấp nhận: α(x, z) = min{1, π(z).q(z, x) π(x).q(x, z)}.

Thuật toán Metropolis-Hastings thực hiện như sau:

2 Giả sử X n = x , Lấy z ∼ N(0,1) và đặt y = x+ z Chấp nhận y với xác suất min{1, π(y) π(x)} Nếu chấp nhận đặt X n+1 = y, hoặc không đặt

Trong bài viết này, chúng ta xem xét các vị trí của m điểm trên một vòng tròn đơn vị, ký hiệu là x = {x1, , xm} Tập hợp S được định nghĩa là các bộ x sao cho không có hai điểm nào cách nhau một khoảng ≤ d, điều này thường xuất hiện trong hóa học với các điểm là tâm của các phân tử hình cầu có đường kính d Biến cố A được xác định là khoảng cách nhỏ nhất giữa m điểm phân bố đều trên vòng tròn đơn vị lớn hơn d Để phân tích, ta đặt P = P(A) và xem xét π là phân bố đều trên S, với hàm mật độ π(x).

Trong không gian một chiều R1, chúng ta có thể tính toán p, nhưng khi chuyển sang không gian hai chiều R2, điều này trở nên không khả thi Dù phân bố mục tiêu có dạng đơn giản, việc tính hệ số chuẩn hóa cho phân bố này vẫn là một thách thức Để chuyển từ trạng thái x ∈ S sang trạng thái x' ∈ S, một phương pháp là chọn ngẫu nhiên một điểm x ∈ x (với xác suất 1/m), loại bỏ điểm này và sinh vị trí z phân bố đều trên (0, 2π), sau đó đặt x' = x ∪ {z \ {x}} Mặc dù x' có thể không thuộc S, nhưng điều này không ảnh hưởng đến kết quả cuối cùng Phương pháp này được mô tả bởi hàm chuyển q(x, x') = 1.

Khi đó với x ∈ S và x 0 = x∪ {z} \ {x} ta có : α(x, x 0 ) = min{1,π(x 0 ).q(x 0 , x) π(x).q(x, x 0 )}.

Nếu bắt đầu di chuyển từ trạng thái S, trạng thái tiếp theo vẫn thuộc S Điều này có nghĩa là nếu trạng thái mới x0 không thuộc S, chúng ta sẽ không thể đạt được trạng thái đó Tóm lại, thuật toán Metropolis-Hastings hoạt động theo cách này.

+) ChọnX 0 ∈ S, ví dụ chọn ngẫu nhiên 1 điểm trên đường tròn, các điểm tiếp theo được dịch đi 1 đoạn d+ ε với ε > 0 đủ nhỏ.

+) Giả sử X n = x ∈ S, ta chọn i ∈ {1, , m} ngẫu nhiên (xác suất đều 1 m) và sinh z có phân bố đều trên (0,2π) Đặt z = {x∪ {z} \ {x i }}. +) Nếu z ∈ S ta chấp nhận z và đặt X n+1 = z Nếu z /∈ S.

Mẫu Ising mô tả một mạng nơi mỗi vị trí có một lưỡng cực nhỏ hoặc một momen xoay (spin) có thể hướng lên hoặc xuống Mỗi vị trí j trong mạng có thể nhận giá trị x j ∈ {−1,1}, thể hiện quá trình momen đi xuống và đi lên một cách riêng biệt.

Hình vẽ minh họa một mẫu Ising, trong đó mỗi vị trí được biểu thị bằng một vòng tròn nhỏ; vòng tròn màu đen đại diện cho hướng xoay xuống, trong khi vòng tròn màu trắng biểu thị hướng xoay lên Hướng của các momen được xác định bởi vị trí của chúng trong cấu trúc.

Mạng mô tả Mẫu Ising cạnh cho thấy sự lựa chọn có thể xảy ra của các vị trí xung quanh, cho phép thiết lập cấu hình với nhiều vị trí lân cận cùng trạng thái Trong nghiên cứu Mẫu Ising từ tính, các nhà vật lý chú trọng vào năng lượng của cấu hình hơn là xác suất của nó Cấu hình có năng lượng thấp sẽ dễ duy trì hơn và do đó có xác suất lớn hơn Hàm năng lượng của mẫu Ising từ tính được xác định rõ ràng.

Trong bài viết này, x đại diện cho cấu hình của mạng, với m điểm trong mạng Vector x (x1, , xm) là một vector m chiều, trong đó các trạng thái có thể là 1 hoặc -1 Ký hiệu i ∼ j chỉ ra rằng điểm i là điểm lân cận của điểm j.

Ta lấy tổng trên ε = {(i, j) : i ∼ j}; β là hằng số dương (nếu β < 0 ta có mô hình Ising kháng từ).

Dựa trên hàm H ta định nghĩa hàm mật độ: π(x) = 1

Ta gọi Z là hàm phân hoạch (portition function) Thực chất Z là hệ số chuẩn hóa của π.

Thuật toán Metropolis-Hastings có thể được áp dụng để xác định trạng thái mới cho mô hình, bằng cách duyệt qua tất cả các điểm trên lưới theo một thứ tự nhất định và đề xuất trạng thái cho mỗi điểm với giá trị +1 hoặc -1 Dưới đây là đoạn mã chương trình giúp xác định trạng thái của từng điểm trong toàn bộ lưới.

Chú ý rằng xích thu được (X n ) n∈N là không khả nghịch Tuy nhiên, mỗi bước thỏa mãn điều kiện cân bằng nên xích (Xe)k∈N = (X |S|k )k∈N lại khả nghịch.

Chúng ta sẽ xem xét các tính chất lý thuyết của thuật toán Metropolis - Hastings, trong đó có nhiều cách để chọn phân bố đề xuất q(x,y) Tuy nhiên, điều kiện cần thiết là phân bố đề xuất phải thỏa mãn miền giá trị, cụ thể là S = R(π) ⊆ S x∈SR(q(x, )), với R(π) ký hiệu cho tập tất cả các giá trị của biến ngẫu nhiên có phân bố π.

Xác suất chấp nhận α(x, y) chỉ phụ thuộc vào tỷ lệ của hàm π(.), do đó, việc biết hệ số chuẩn hóa của phân bố π không cần thiết để tính xác suất này.

Cần lưu ý rằng xác suất chấp nhận trong phương trình cân bằng chứa các số hạng tương tự như trong phương trình cân bằng, điều này không phải là sự trùng hợp ngẫu nhiên mà được chọn để đảm bảo điều kiện cân bằng chính xác Để hiểu rõ hơn về phương trình cân bằng của xích Metropolis-Hastings, trước tiên chúng ta cần tính toán nhân chuyển (transition kernel) của chuỗi này.

Bổ đề 2.1 Mật độ chuyển p(x, y) của thuật toán Metropolis - Hastings được xác định bởi: p(x, y) = q(x, y)α(x, y) +1 [x=y] r(x) r(x) 

Giả sử S là một hàm liên tục, ta có thể viết S q(x, y)(1−α(x, y))dy Tuy nhiên, nếu S không liên tục, xích chuyển sẽ tới trạng thái mới i chỉ khi trạng thái này được đề xuất và chấp nhận Xác suất để chuyển từ trạng thái x sang y, khi y khác x, là q(x, y)α(x, y).

Giả sử xác suất chuyển từ trạng thái x tới chính nó có thể thực hiện theo hai cách Đầu tiên, ta đề xuất trạng thái x như một trạng thái mới và chấp nhận nó với xác suất q(x, x)α(x, x) Tiếp theo, ta có thể đề xuất một số trạng thái y khác và loại bỏ chúng, trong trường hợp này, x sẽ vẫn giữ nguyên ở trạng thái x Xác suất cho tình huống này được tính bằng công thức r(x) = Σ y∈S q(x, y)(1−α(x, y)).

Do đó nói chung xác suất chuyển của xích Metropolis - Hastings cho bởi: p(x, y) = q(x, y)α(x, y) +1 [x=y] r(x).

Chứng minh cho trường hợp S liên tục tương tự.

Ta kiểm tra phương trình cân bằng chi tiết (detail balance)

Bổ đề 2.2 Xích Metropolis-Hastings thỏa mãn cân bằng chi tiết đối với π.

Chứng minh: Với x 6= y ta có: π(x).p(x, y) = π(x).q(x, y)α(x, y)

= π(y).p(y, x). Điều kiện cân bằng chi tiết hiển nhiên đúng với x = y và vì vậy ta có điều phải chứng minh

Giới thiệu về R

R là một ngôn ngữ lập trình và môi trường phần mềm chuyên dụng cho tính toán và đồ họa thống kê Là một ngôn ngữ máy tính đa năng, R có thể thực hiện nhiều nhiệm vụ từ tính toán đơn giản, tính toán ma trận đến các phân tích thống kê phức tạp Được phát triển từ ngôn ngữ lập trình S vào năm 1993 bởi Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand, R hiện nay được quản lý bởi R Development Core Team.

Ngôn ngữ R đã trở thành tiêu chuẩn trong lĩnh vực thống kê, được sử dụng rộng rãi để phát triển phần mềm thống kê và phân tích dữ liệu R hỗ trợ nhiều kỹ thuật thống kê như mô hình hóa tuyến tính và phi tuyến, kiểm thử thống kê cổ điển, phân tích chuỗi thời gian, phân loại và phân nhóm Ngoài ra, R cho phép người dùng mở rộng tính năng bằng cách định nghĩa các hàm mới Để thực hiện các tác vụ tính toán phức tạp, R có thể liên kết với các ngôn ngữ C, C++ và Fortran, cho phép gọi các tham số trong quá trình chạy Người dùng có kinh nghiệm có thể viết mã C để xử lý trực tiếp các đối tượng trong R.

Mô hình lõi cứng (hard-core model)

Xét một đồ thị vô hướng G = (V, E) với |V| = N Mỗi đỉnh ở một trong hai trạng thái "0" hoặc "1".

+ ) Hai đỉnh u,v được gọi là kề nhau nếu (u, v) ∈ E.

+ ) Một cấu hình của G là tập tất cả các trạng thái của các đỉnh.

+ ) Các cấu hình ξ là chấp nhận được ("feasible") nếu đối với mỗi đỉnh v ∈ V có thể là "1" chỉ khi các đỉnh kề với nó ở trạng thái "0".

Mô hình lõi cứng là một dạng xích Markov, trong đó không gian trạng thái bao gồm tất cả các cấu hình chấp nhận được của G Ở mỗi bước, một đỉnh được chọn ngẫu nhiên và trạng thái của đỉnh đó có thể chuyển từ "0" sang "1" hoặc ngược lại.

Kích thước không gian trạng thái của đồ thị phụ thuộc vào số cạnh |E| Đối với đồ thị hoàn toàn liên thông, với |E| = G 2 n, chỉ có N+1 cấu hình chấp nhận được, bao gồm một cấu hình toàn trạng thái "0" và N cấu hình có một trạng thái "1" Khi số cạnh giảm, số cấu hình chấp nhận được lại tăng lên Trong trường hợp xấu nhất, khi |E|=0, đồ thị G có tới 2 N cấu hình chấp nhận được.

Trên tập các cấu hình chấp nhận được của G ta xây dựng một độ đo theo phân bố đều: à(ξ) = 1

. với ξ là cấu hình chấp nhận được của G và Z G là tổng số cấu hình chấp nhận được của G.

Một câu hỏi quan trọng đặt ra là về số lượng điểm có trạng thái "1" trong một cấu hình chấp nhận được của G Để trả lời câu hỏi này, chúng ta có thể sử dụng hàm n(X) để biểu thị số trạng thái "1" của cấu hình chấp nhận được được chọn ngẫu nhiên theo phân bố α.

Việc tính E[n(X)] chỉ khả thi với các đồ thị nhỏ, trong khi đối với các đồ thị lớn, số lượng cấu hình chấp nhận được tăng nhanh chóng, có thể theo hàm mũ Chẳng hạn, khi |E|= 0, số cấu hình chấp nhận được là 2^N Do đó, việc tính E[n(X)] trở nên rất khó khăn.

Dưới đây ta sẽ áp dụng kỹ thuật mô phỏng được trình bày trong chương

Thuật toán và chương trình

Véc tơ B, với B i là số trạng thái "1" tại bước thứ i, cho phép vẽ biểu đồ hình cột và ước lượng giá trị kỳ vọng E[n(X)].

Đầu tiên, chúng ta khởi tạo một véc tơ A có kích thước N và gán giá trị A i = 0 cho mọi i, tức là tất cả các đỉnh đều ở trạng thái "0" Trong các bước tiếp theo, giá trị của A i (0 hoặc 1) sẽ phản ánh trạng thái của đỉnh i.

- Với mỗi t= 1,2, , N (bước t) ta làm như sau:

+ ) Sinh một số ngẫu nhiên có phân bố đều trên{1, , N} và lưu vào biến v.

+ ) Sinh biến ngẫu nhiên có phân bố đều trên (0,1) và lưu vào biến c.

2 và không có đỉnh kề nào của v ở trạng thái "1" ta đăt

2 đặt Av = 0. + ) Đếm số các số "1" trong véc tơ A và lưu vào B t

Xích Markov được xây dựng theo thuật toán này với trường hợp lưới vuông G kích cỡ 10x10 là tối giản và không có chu kỳ.

Tính tối giản trong xích tối giản cho thấy rằng từ bất kỳ cấu hình δ với xác suất dương, chúng ta có thể trở về cấu hình toàn trạng thái "0" Điều này xảy ra khi tất cả các đỉnh ở trạng thái "1" được chọn và giá trị c thỏa mãn điều kiện c ≤ 1.

Từ cấu hình ban đầu với mọi đỉnh ở trạng thái "0", có thể chuyển đến một cấu hình δ chấp nhận được Sự chuyển đổi này xảy ra khi các đỉnh đạt được trạng thái cần thiết.

"1" trong δ , được chọn và khi sinh c thì c > 1

2. + ) Tính không có chu kỳ: Xích không có chu kỳ vì tại mỗi biến với xác suất dương cấu hình không thay đổi.

Trong ví dụ này, đồ thị G có kích thước 10x10, tương ứng với 100 đỉnh (N = 100) Chúng ta sử dụng ma trận M ij (với i, j = 1, 2, , 100) để lưu trữ đồ thị, trong đó Mij = 1 nếu hai đỉnh (i, j) kề nhau (có cạnh nối), và Mij = 0 nếu không có cạnh nối giữa chúng.

Hình 3.1: Hình vẽ cho trường hợp các đỉnh đều ở trạng thái "0"

- Giá trị ước lượng cho E[n(X)] là 23.2945

Hình 3.2: Biểu đồ biểu diễn phân phối các trạng thái "1"

Trong luận văn này, em đã trình bày các phương pháp mô biến ngẫu nhiên cơ bản, bao gồm phương pháp lấy mẫu ngược và phương pháp lấy mẫu loại trừ Chương I tập trung vào ước lượng bằng mô phỏng, đồng thời cung cấp kiến thức về xích Markov, bao gồm các phân bố dừng và phân bố giới hạn Ngoài ra, luận văn cũng đề cập đến xích tối giản, xích không có chu kỳ và xích khả nghịch.

Trong chương 2, chúng ta nâng cấp từ xích Markov lên thuật toán MCMC (Markov Chain Monte Carlo) nhờ vào tính Ergodic của xích Markov, được xác nhận bởi định lý Ergodic Nếu muốn tính kỳ vọng của biến ngẫu nhiên Y với hàm phân phối và hàm mật độ tương ứng, nhưng không thể thực hiện, chúng ta có thể xây dựng một xích Markov có tính Ergodic với hàm phân phối ban đầu có hàm mật độ π Sau đó, chúng ta tiến hành lấy X qua một số lượng lớn giá trị theo thời gian, ký hiệu là N, và ước lượng Eh(Y) dựa trên các giá trị này.

Thuật toán MCMC dựa trên ý tưởng X n=1 h(Xn) và giới thiệu một số cơ chế sinh xích Markov, trong đó có thuật toán Metropolis-Hastings Chương III của luận văn áp dụng thuyết Metropolis bằng ngôn ngữ R, với bài toán xây dựng xích Markov trên lưới 10x10, tối giản và không có chu kỳ Chương trình này cung cấp kết quả và biểu đồ thể hiện các phân phối trạng thái.

"1" Luận văn kết thúc bởi đoạn chương trình và kết quả ước lượng.

Tiêu đề	Thuật Toán Metropolis Và Ứng Dụng
Tác giả	Nguyễn Thị Phi Doan
Người hướng dẫn	TS. Trần Mạnh Cường
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Lý thuyết xác suất và thống kê toán học
Thể loại	luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	Hà Nội

Định dạng
Số trang	53
Dung lượng	485,75 KB