Hình 1.5. Cấu trúc convergence (V-structure)- 123docz.net

cũng cĩ khả năng ngập. Xét mối quan hệ giữa A và E:

- Ban đầu nếu chưa biết gì về B thì A và E là độc lập: rõ ràng mưa lớn và triều cường là ít phụ thuộc vào nhau

- Nhưng nếu biết B thì A và E là phụ thuộc: nếu biết cĩ ngập nước và biết rằng khơng cĩ mưa lớn (E = No) thì rất cĩ khả năng là cĩ triều cường. Như vậy nếu cho

trước B thì E sẽ cho ta thêm thơng tin về A, nĩi cách khác A và E phụ thuộc nếu cho trước B.

(3)

Lưu ý rằng 2 cấu trúc sau đây khơng phải là V-structure vì trong các trường hợp này X và Z là phụ thuộc. Theo định nghĩa của V-structure thì X và Z phải là 2 biến độc lập.

Nhận xét

- Trong graphical model thì V-structure cĩ hành vi khác hẳn so với cấu trúc serial và devergence. Cũng vì thế mà V- structure đĩng vai trị đặc biệt trong các thuật tốn graphical model, như sau này ta sẽ thấy.[9]

- Trong 3 cấu trúc vừa đề cập, ta thấy phân phối xác suất của các biến ngẫu nhiên cho trước các biến khác đều được “đơn giản” thành các node cha trực tiếp của nĩ trong đồ thị (cơng thức 1, 2 và 3). Nhận xét này dẫn đến hệ quả quan trọng sau đây.

I.7. LÝ THUYẾT VÀ PHƯƠNG PHÁP PHÂN TÍCH BAYES

Khi phân tích dữ liệu, các nhà thống kê thường bắt đầu bẳng việc cung cấp một mơ hình xác suất theo cách mà dữ liệu được tạo ra, thơng thường dữ liệu được tạo ra bằng cách lấy mẫu ngẫu nhiên hoặc một số cơ cấu lấy mẫu khác. Khi một mơ hình đã được chọn, dữ liệu được xử lý như một vectơ ngẫu nhiên với phân phối xác suất được xác định bởi hàm , là một hàm mật độ đồng thời trong đĩ là tham số hoặc vectơ tham số chưa biết. Tham số cĩ thể là trung bình hoặc phương sai của phân phối khi là một biến ngẫu nhiên. Thơng thường người ta sẽ đựa vào dữ liệu để suy diễn về .

Vấn đề: Suy diễn về tham số trong các phân phối xác suất.

Chẳng hạn, trong phân phối Bernoulli nếu Bernoulli tham số (xác suất thành cơng trong phép thử) thường khơng được biết và chúng tơi cần suy diễn nĩ. Trong phân phối chuẩn nếu lấy thì tham số lúc này là vectơ

Cĩ rất nhiều phương pháp suy diễn thống kê, trong đĩ cĩ hai phương pháp phổ biến là suy diên Tần suất và suy diễn Bayes. Dưới đây, chi đề cập khái quát về phương pháp suy diễn Bayes.[8]

Phương pháp Bayes được dụa trên các tiên đề sau đây:

- B1. Xác suất mơ tả mức độ niềm tin, khơng phài lấy giới hạn tần suất như trong thống kê cổ điển. Như vậy, chúng ta cĩ thể thực hiện các phát biểu xác suất về rất nhiều thứ, khơng chi cĩ dữ liệu.

- B2. Chúng ta cĩ thể phát biểu xác suất về các tham số cho dủ chúng là các hằng số cố định.

- B3. Thực hiện các suy diễn về tham số bằng cách tạo ra một phân phối xác suất cho . Các suy diễn về cĩ thể là ước lượng điểm hoặc ước lượng khoảng.

I.7.1. Phương pháp suy diễn Bayes

Giả sử cĩ mơ hình tham số với và là vectơ tham số. Suy diễn về vectơ tham số theo phương pháp Bayes thường được thực hiện như sau:

i) Chọn một hàm mật độ xác suất trước khi quan sát dữ liệu và gọi đây phân phối tiên nghiệm (mật độ tiên nghiệm).

ii) Chọn một mơ hình thống kê . Ký hiệu thay cho .

iii) Sau khi quan sát dữ liệu , chúng ta cĩ thơng tin mới (so với giả định ban đầu) và tính tốn phân phối hậu nghiệm .

Vì xem như một biến ngẫu nhiên nên giả sử lấy là ký hiệu của tham số. Khi đĩ theo định lý Bayes, phân phối hậu nghiệm thực hiện ở bước iii):

Đối với trường hợ biến ngẫu nhiên rời rạc Đối với trường hơp biến ngẫu nhiên liên tục

trong đĩ là hàm hợp lý được xem như là hàm mật độ cĩ điều kiện của được cho bởi và là phân phối lề của .

Nếu cĩ quan sát độc lập và đồng nhất cĩ các giá trị quan sát thi thay thế bởi hàm hợp lý

Khi đĩ thay cho ký hiệu và ta viết tương ứng , khi đĩ phân phối hậu nghiệm của là

trong đĩ,

được gọi là hằng số chuấn hĩa. Chú khơng phụ thuộc vào .

Chú ý: Ta cĩ thể viết phân phối hậu nghiệm dưới dạng tổng quát như sau Hậu nghiệm tỷ lệ với hàm hợ lý nhân với phân phối tiên nghiệm.

Ký hiệu là

Việc tạm bỏ đi hằng số chuẩn hĩa khơng cĩ vấn đề gì, chúng ta cĩ thề phục hồi lại khi cần thiết.

Lưu ý. Vì bất kỳ thành phần nào khơng chứa tham số trong biểu thức tiên nghiệm hoặc hợp lý cĩ thể được giản ước theo cơng thức Bayes nên khi nhân phân phối tiên nghiệm hoặc hàm hợp lý với một tham số bất kỳ cũng khơng làm thay đổi kết quả hậu nghiệm.

I.7.2. Suy diễn Bayes cho tham số trong mơ hình phân phối nhị thức

Giả sử ta cĩ hai tổng thể , mỗi tổng thể cĩ thuộc tính riêng. Hai tổng thể này gộp lại là một tổng thể lớn . Giả sử là tỷ lệ của trên tổng thể lớn .

Xét thí nghiệm lấy phần tử từ và gọi là số phần tử của mẫu trong , ta cĩ . Hàm mật độ cĩ điều kiện của quan sát xác định bởi

Nếu chúng ta cố định với số lần thành cơng đã được quan sát từ dữ liệu và thay đổi, khi đĩ chúng ta cĩ hàm hợp lý được cho bởi

Giả sử cĩ hàm mật độ tiên nghiệm , ta cĩ phân phối hậu nghiệm của : Hàm mật độ hậu nghiệm của cĩ thể được viết dưới dạng tỷ lệ

Lưu ý. Đây chỉ là dạng của phân phối hậu nghiệm chứ khơng phải là hàm mật độ hậu nghiệm.

Chọn hàm mật độ tiên nghiệm cho tham số

Đối với mơ hình nhị thức chúng ta thường chọn hai phân phối tiên nghiệm sau cho

i) Phân phối tiên nghiệm đều. Đĩ chính là tiên nghiệm với hàm mật độ Từ đĩ hàm mật độ hậu nghiệm của tỷ lệ với

Nhận thấy rằng đây chính là dạng phân phối Beta với tham số . Do đĩ để được hàm mật độ hậu nghiệm ta chỉ cần nhân thêm vào vế phải biểu thức trên hệ số đề được hàm mật độ hậu nghiệm.

Khi đĩ ta cĩ thể viết

ii) Phân phối tiên nghiệm Beta. Đĩ là phân phối với mật độ tiên nghiệm Khi đĩ ta được hàm mật độ hậu nghiệm

Như vậy

Nhận Xét

i) Hàm mật độ tiên nghiệm đều chi sử dụng khi chúng ta khơng biết cách chọn tiên nghiệm như thế nào, trong nhiều trường hợp đĩ là một tiên nghiệm khách

quan khơng phụ thuộc vào niềm tin của chúng ta đối với tham số. Nĩ cịn được gọi là tiên nghiệm tầm thường.

ii) Chúng ta thấy dạng hàm hợp lý trong phân phối nhị thức giống với dạng hàm mật độ của một phân phối Beta nên nếu sử dụng tiên nghiệm cho thì khi thực hiện tính tốn hậu nghiệm ta nhân tương ứng hàm hợp lý với tiên nghiệm kết quà sẽ được dạng của một phân phối Beta.

Điều này cĩ một thuận lợi rất lớn là chúng ta chỉ quan sát dạng của phân phối hậu nghiệm và đưa ra hàm mật độ chứ khơng cẩn phải tính tích phân. Do đĩ trong thống kê, đối với mơ hình nhị thức thường sử dụng tiên nghiệm cĩ phân phối Beta. [6]

Hình 1.5. Cấu trúc convergence (V-structure)

Bảng 1.1. Phân phối tiên nhiệm liên hợp

Hình 2.1. Mơ hình minh họa mạng Bayes