Phương pháp tính các biến phân

Một phần của tài liệu Chương 4 numerical computation chương 19 approximate inference (Trang 32 - 34)

Trước khi tiếp tục với phần trình bày về phương pháp học biến phân. chúng ta phải rõ ràng trong vấn đề giới thiệu một tập hợp các công cụ toán học quan trọng trong phần này: Phương pháp tính biến phân (calculus of variations).

Hầu hết các kĩ thuật học máy đều dựa trên việc tối giản một phương trình bằng cách tìm kiếm đầu vào là vector với điều kiện nó đạt giá trị nhỏ nhất. Điều này có thể được thực hiện bằng phương pháp tính đa lượng biến và đại số tuyến tính, bằng cách tìm một điểm giới hạn thỏa phương trình . Trong một số trường hợp, ta mong muốn tìm một hàm , chẳng hạn như khi ta muốn ưu tiên tìm hàm mật độ xác suất hơn một giá trị bất kì. Chúng ta có thể thực hiện điều này nhờ phương pháp tính biến phân.

Một hàm của hàm được gọi là phiếm hàm (functional) . Giống như việc lấy đạo hàm vi phân của một hàm theo các phần tử thuộc đối số có giá trị vector của hàm, ta cũng có thể lấy đạo hàm phiếm hàm (functional derivatives), hay còn gọi là đạo hàm biến phân (variational derivatives), của phiếm hàm theo từng giá trị của hàm tại bất kì giá trị của . Đạo hàm phiếm hàm của phiếm hàm theo giá trị của hàm tại điểm được kí hiệu là .

Việc đề cập đến các ứng dụng hoàn chỉnh của đạo hàm phiếm hàm là vượt ngoài mục đích chính của cuốn sách. Vì vậy, chúng ta cần định rõ trước rằng, với những hàm khả vi và khả vi có đạo hàm liên tục, thì:

(19.46)

Để cảm nhận bằng trực giác về tính đồng nhất này, ta có thể hình dung là một vector với vô số phần tử được đánh số bởi vector thực . Với quan điểm (chưa trọn vẹn theo cách nào đó) này, tính đồng nhất sinh ra các hàm đạo hàm cũng giống như kết quả ta thu được từ một vector (được đánh số bởi các số nguyên dương):

(19.47)

Người ta đã đạt được nhiều kết quả trong các công bố khác về học máy bằng cách sử dụng một phương trình Euler-Lagrange tổng quát hơn, cho phép gg phụ thuộc đồng thời vào các đạo hàm của f và bản thân f. Tuy nhiên với các kết quả trong sách này chúng ta không sử dụng dạng tổng quát đó.

Để tối ưu hàm số có biến là một vector, chúng ta lấy gradient của hàm số đối với vector đó và tìm giá trị của biến sao cho các phần tử của gradient bằng 0. Tương tự như vậy, ta có thể tối ưu một hàm (functional) bằng cách tìm các điểm làm cho mọi đạo hàm của hàm số đó bằng 0.

Để minh họa cho phương pháp này, ta có thể xem xét bài toán tìm hàm phân phối xác suất theo có vi phân entropy lớn nhất (maximal di erential entropy). Trong đó entropy ff của phân phối xác suất được định nghĩa như sau:

(19.48) Đối với các biến liên tục, giá trị kỳ vọng H[p] là tích phân:

(19.49)

Kì vọng của không thể cực đại hóa một cách đơn giản bởi kết quả có thể không phải là một phân phối xác suất. Thay vào đó chúng ta cần sử dụng các nhân tử Lagrange để ràng buộc có tích phân bằng 1. Kèm theo đó, entropy phải tăng không giới hạn khi phương sai tăng. Điều này khiến cho câu hỏi phân phối nào có entropy lớn nhất không còn đáng chú ý mà thay vào đó, chúng ta đi tìm phân phối có entropy lớn nhất khi phương sai không đổi. Sau cùng bài toán trở nên chưa xác định được bởi phân phối có thể dịch chuyển tùy ý mà không làm thay đổi entropy. Để đạt được nghiệm duy nhất, ta cần ràng buộc thêm rằng giá trị trung bình của phân phối bằng . Hàm Lagrangian (Lagrangian functional) cho bài toán tối ưu này là:

(19.50) (19.51)

Để cực tiểu hóa nhân tử Lagrang theo , ta ấn định các đạo hàm bằng 0: (19.52)

Điều kiện này sẽ gợi ý dạng hàm của . Sắp xếp lại (19.52) ta có: (19.53)

Chúng ta chưa bao giờ giả định một cách trực tiếp dạng hàm này cho mà thực tế ta thu được biểu thức này bằng cách cực tiểu hóa phân tích hàm ( analytically minimizing a functional). Để kết thúc bài toán cực tiểu hóa, ta cần chọn các giá trị sao cho các điều kiện ràng buộc chắc chắn được thõa mãn. Chúng ta lựa chọn tùy ý bất kì giá trị nào, bởi vì gradient của nhân tử Lagrang theo biến bằng không khi các điều kiện ràng buộc được thõa mãn. Chúng ta chọn , , và để có:

Đây là một lí do phân phối chuẩn được sử dụng khi phân phối thực chưa biết. Bởi vì phân phối chuẩn có entropy lớn nhất, chúng ta áp đặt số lượng hợp lý nhỏ nhất của cấu trúc với giả định này.

Khi khảo sát các điểm tới hạn của hàm nhân tử Lagrang (Lagrangian functional) cho entropy, chúng ta chỉ tìm thấy được một điểm tới hạn thoã mãn điều kiện entropy cực đại với phương sai cố định. Còn hàm phân phối xác suất cực tiểu hóa entropy thì sao? Tại sao chúng ta không tìm thấy một điểm tới hạn thứ hai tương ứng với cực tiểu của entropy? Lý do là không có một hàm đặc biệt nào đạt được entropy cực tiểu. Khi các hàm số tập trung mật độ nhiều hơn vào hai điểm x=μ+σ và x=μ−σ, và phân bố ít mật độ hơn vào các giá trị khác của xx, chúng đánh mất entropy khi giữ nguyên phương sai mong muốn. Tuy nhiên bất kì hàm số nào phân bố mật độ bằng không tại mọi điểm trừ hai điểm nói trên đều có tích phân khác 1 và không phải là một phân bố xác suất hợp lệ. Do đó không có hàm phân bố xác suất đơn lẻ nào có entropy nhỏ nhất cũng như không có bất kì số thực dương nhỏ nhất nào. Thay vào đó, chúng ta có thể nói rằng có một dãy hàm hội tụ đến các hàm chỉ phân bố mật độ vào hai điểm đã nêu. Trường hợp suy biến này có thể mô tả bằng một hàm phân bố xác suất đơn giản không phải phân bố Dirac (hay hợp của các phân bố Dirac) tương ứng với một điểm đặc biệt đơn lẻ trong không gian hàm. Các hàm này do đó bất khả kiến với phương pháp của chúng ta trong việc tìm các điểm mà tại đó các đạo hàm bằng không. Đây là một hạn chế của phương pháp này. Do đó các phân bố như Dirac phải được tìm ra bằng một phương pháp nào đó khác, như việc tiên đoán ra chúng rồi chứng minh chúng đúng chẳng hạn.

Một phần của tài liệu Chương 4 numerical computation chương 19 approximate inference (Trang 32 - 34)