Các biến ẩn liên tục

Một phần của tài liệu Chương 4 numerical computation chương 19 approximate inference (Trang 34 - 36)

Một khi các mô hình đồ thị chứa các biến ẩn liên tục, ta có thể tiếp tục thực hiện suy luận biến phân (variational inference) và tìm hiểu bằng cách cực đại hóa . Tuy nhiên lúc này chúng ta cần phải sử dụng các phép tính biến phân (calculus of variations) khi cực đại hóa theo .

Trong phần lớn trường hợp, tồn tại một phương trình tổng quát cho việc cập nhật trường trung bình cố định điểm (mean field fixed-point). Nếu ta đặt xấp xỉ trường trung bình (mean filed) là:

(19.55)

và cố định với mọi , khi đó giá trị tối ưu có thể nhận được bằng cách chuẩn hóa phân phối chưa chuẩn:

trong khi p chưa gán xác suất 0 cho bất kì cách kết hợp các biến nào. Việc kỳ vọng bản chất bên trong phương trình có thể sinh ra dạng hàm đúng của q(hi|v). Dạng đạo hàm của qq có sử dụng trực tiếp phép tính biến phân chỉ cần thiết khi phải phát triển một dạng mới của việc học biến phân. Phương trình 19.56 tạo ra xấp xỉ trường trung bình cho bất kì mô hình thống kê nào.

Phương trình 19.56 là một phương trình điểm cố định, được thiết kế để áp dụng lặp lại cho mỗi giá trị của đến hội tụ. Tuy nhiên, nó có thể cho chúng ta biết nhiều hơn. Nó cho chúng ta biết dạng hàm của nghiệm tối ưu có thể nhận mà không quan trọng việc có thể đạt được điều đó bằng các phương trình cố định điểm hay không. Điều này có nghĩa là chúng ta có thể lấy dạng hàm từ phương trình đó theo một vài giá trị xuất hiện trong nó như những tham số mà ta có thể tối ưu hóa bằng bất kì phương pháp nào.

Ví dụ, một mô hình thống kê đơn giản với các biến ẩn liên tục và một biến khả kiến . Giả sử rằng và . Thực tế chúng ta có thể đơn giản hóa mô hình này bằng phép lấy tích phân theo để kết quả chỉ đơn giản là một phân phối Gausian theo . Bản thân mô hình không có gì thú vị, chúng ta cấu trúc nó để đưa ra một minh chứng đơn giản về việc các phép tính biến phân có thể áp dụng vào mô hình hóa thống kê.

Xác suất hậu nghiệm thực sự có thể được đưa ra theo một hằng số chuẩn hóa bởi: (19.57) (19.58) (19.59)

(19.60) (19.61)

Bởi vì sự xuất hiện cùng nhau của các nhân tử và , chúng ta có thể thấy rằng xác suất hậu nghiệm thực sự không được phân tích thành thừa số theo và .

Áp dụng phương trình 19.56, ta có:

(19.62) (19.63)

(19.64)

Từ đây ta có thể thấy rằng thực tế chỉ có hai giá trị chúng ta cần đạt được từ và . Viết lại các giá trị này thành ⟨⟩ và ⟨⟩, ta có:

(19.66)

(19.67)

Từ đây ta có thể thấy rằng có dạng hàm Gaussian. Do đó ta có thể kết luận với và ma trận đường chéo là các tham số biến phân có thể tối ưu bằng bất kì kĩ thuật nào. Điều quan trọng cần nhắc lại là chúng ta chưa bao giờ giả định có dạng Gaussian; dạng Gaussian của nó thu được một cách tự nhiên bằng các phép tính biến phân khi tối ưu theo . Các cách tiếp cận tương tự như vậy có thể sinh ra các dạng hàm khác nhau của .

Điều này tất nhiên là một trường hợp nhỏ được đưa ra với mục đích làm minh chứng. Ví dụ như các chương trình ứng dụng thực sự với việc học biến phân và các biến liên tục trong ngữ cảnh học sâu trong Goodfellow cùng cộng sự.

Một phần của tài liệu Chương 4 numerical computation chương 19 approximate inference (Trang 34 - 36)