Suy luận và học biến phân

Chúng ta đã thấy làm thế nào mà cận dưới rõ ràng là cận dưới trên , làm sao mà suy luận có thể được xem là cực đại hoá đối với , và bằng cách nào việc học được xem là cực đại hoá đối với . Chúng ta cũng đã thấy thuật toán EM giúp chúng ta có những bước tiến lớn trong việc học với giá trị cố định và những thuật toán học dựa vào suy luận MAP giúp chúng ta học bằng việc dùng một điểm ước lượng của hơn là suy luận toàn bộ sự phân phối. Bây giờ, chúng ta sẽ đưa ra một phương pháp tổng quát hơn cho việc học biến phân.

Ý tưởng chính đằng sau việc học biến phân là chúng ta có thể cực đại hoá qua một họ phân phối hạn chế . Họ phân phối này được chọn để có thể dễ dàng tính toán . Cách thường dùng là đưa ra một giả định về việc tìm thừa số của như thế nào.

Một cách tiếp cận phổ biến để học biến phân là áp đặt hạn chế rằng qq là một phân bố giai thừa:

(19.17)

Phương pháp này được gọi là trường trung bình (mean field). Một cách tổng quát hơn, chúng ta có thể áp đặt bất cứ cấu trúc đồ thị nào ta chọn trên qq, để xác định một cách linh động bao nhiêu sự tương tác mà ta muốn phép xấp xỉ thu nạp được. Toàn bộ mô hình đồ thị này được gọi là suy luận biến phân có cấu trúc (structured variational

định phân phối xác suất tối ưu trong những hạn chế tìm thừa số. Đối với các biến tiềm ẩn rời rạc, chúng ta sử dụng các kỹ thuật tối ưu hóa truyền thống để tối ưu hóa số biến số hữu hạn mô tả phân phối . Đối với những biến ẩn liên tục, chúng ta dùng phép tính biến phân (một nhánh của toán học) để tối ưu qua một trường không gian các hàm và xác định hàm nào sẽ được sử dụng để biểu diễn . Phép tính biến phân là khởi nguồn của cái tên “phép học biến phân” và “suy luận biến phân”, mặc dù những cái tên này thậm chí được dùng đối với những biến ẩn rời rạc khi mà phép biến phân không cần thiết. Với những biến ẩn liên tục, phép tính biến phân là một kỹ thuật mạnh mẽ để loại bỏ trách nhiệm của người thiết kế cho một mô hình, khi mà bây giờ người thiết kế mô hình chỉ cần chỉ ra cách tìm thừa số của , hơn là phải đoán xem làm sao để thiết kế sao cho có thể xấp xỉ hậu nghiệm chính xác.

Bởi vì được định nghĩa là , chúng ta có thể nghĩ về việc cực đại hóa với giống như cực tiểu hóa .

Nghĩa là, chúng ta làm khớp cho . Tuy nhiên, ta làm điều này theo hướng ngược lại với độ phân kỳ KL thay vì thường dùng để làm khớp một phép xấp xỉ. Khi mà chúng ta dùng hợp lý hàm cực đại để học cách làm khớp một mô hình cho dữ liệu, ta cực tiểu hóa . Như đã mô tả trong hình 3.6, hợp lý hàm cực đại khyến khích mô hình lấy xác suât cao ở mọi điểm mà dữ liệu có xác suất cao, trong khi đó thủ tục suy luận hướng tối ưu hóa khuyến khích lấy xác suất thấp tại mọi điểm mà hậu nghiệm thực có xác suất thấp. Cả hai hướng của phân kỳ KL đều có những tính chất đáng mong muốn và không mong muốn. Sự lựa chọn sử dụng như thế nào tuỳ thuộc vào thuộc tính nào được ưu tiên hơn trong mỗi ứng dụng. Trong những bài toán suy luận tối ưu, chúng ta dùng vì lý do tính toán. Cụ thể hơn, để tính toán , chúng ta phải đánh kỳ vọng theo , và để làm như thế ta cần thiết kế sao cho đơn giản, chúng ta cần đơn giản hoá kỳ vọng được yêu cầu. Hướng ngược lại của phân kỳ KL sẽ yêu cầu chúng ta tính giá trị kỳ vọng theo hậu nghiệm thực. Bởi vì dạng hậu nghiệm thực được quyết định bởi sự lựa chọn mô hình, chúng ta không có thể nào thiết kế một cách tiếp cận ít tốn kém hơn để tính chính xác .

Những biến ẩn rời rạc

Phương pháp tính các biến phân