Học tham số

Một phần của tài liệu Học cấu trúc mạng logic markov và ứng dụng trong bài toán phân lớp (Trang 34)

Học tham số của mạng logic Markov bao gồm tìm các trọng số mà tối ƣu một hàm khả năng (likehood) cho bởi dữ liệu huấn luyện. Đây là nhiệm vụ khó vì tính toán hàm hợp lý và các thành phần trong véc tơ đạo hàm riêng (gradient) của nó yêu

35

cầu xử lý suy diễn và có chi phí là hàm mũ trong trƣờng hợp xấu nhất. Một cách tối ƣu đƣợc sử dụng thay thế là phƣơng pháp pseudo-likelihood (dùng hàm tựa hàm khả năng) tính toán xác suất chỉ bao gồm các biến trong phủ Markov (đƣợc định nghĩa phía dƣới) trong dữ liệu. Tuy nhiên phƣơng pháp pseudo-likehood bỏ qua sự tƣơng tác không cục bộ giữa các biến, và có thể giảm mức độ xử lý khi chúng cần đƣợc xét ở lần suy diễn.

Cả hàm khả năng và pseudo-likehood đều là những cách tiếp cận nhằm tối ƣu hóa phân phối đồng thời của tất cả các biến. Ngƣợc lại, cách tiếp cận tách biệt sẽ tối đa hóa hàm hợp lý điều kiện của một tập các dữ liệu đầu ra cho bởi tập dữ liệu đầu vào[17].

Học tạo sinh (Generative Learning)

Hàm dùng để tối ƣu:

đƣợc gọi là hàm logarit-khả năng (log-likehood) theo trọng số. Ngƣời ta đã chứng minh đƣợc rằng hàm logarit-khả năng là một hàm lõm và liên tục trong toàn bộ không gian của tham số. Vì vậy ta có thể tìm cực đại hàm logarit-khả năng bằng phƣơng pháp véc tơ gradient. Đạo hàm của hàm logarit-khả năng theo trọng số của công thức thứ là:

Trong phƣơng trình này tổng đƣợc tính trên toàn bộ cơ sở dữ liệu có thể và là đƣợc tính toán sử dụng véc tơ trọng số hiện tại

36

Nói cách khác, thành phần thứ của véc tơ đạo hàm riêng (gradient) chỉ đơn giản là sự khác biệt giữa số lƣợng các công thức nền đúng thứ trong dữ liệu và kỳ vọng tƣơng ứng với mô hình hiện tại.

Nhƣng có một vấn đề là việc tính toán các kỳ vọng này là phải tính tổng với tất cả các cơ sở dữ liệu có thể, điều này rất khó để xấp xỉ. Hầu hết các phƣơng pháp tối ƣu hóa khá nhanh (ví dụ kết nối véc tơ đạo hàm riêng (gradient) với tìm kiếm giới hạn, L-BFGS) cũng yêu cầu tính hàm hợp lý và hàm phân hoạch Z vẫn là rất khó. Mặc dù kỹ thuật xích Markov Monte Carlo (Markov chain Monte Carlo – MCMC) có thể đƣợc sử dụng để xấp xỉ kỳ vọng và hàm phân hoạch Z, tuy nhiên chi phí rất đắt và cũng tỏ ra khá là chậm.

Một phƣơng pháp hiệu quả hơn mà đƣợc sử dụng rộng rãi để thay thế là phƣơng pháp tối ƣu hóa hàm khả năng pseudo-likehood. Nếu là một minh họa có thể (cơ sở dữ liệu quan hệ) và là giá trị chân lý của công thức nguyên tử nền thứ

thì hàm khả năng pseudo-log-kikelihood của cho bởi trọng số là:

37

Trong đó là số lƣợng các thay thế đúng của công thức thứ trong , là số lƣợng các thay thế đúng của công thức thứ khi giới hạn

và là số lƣợng các thay thế đúng của công thức thứ khi giới hạn

Tính toán hàm khả năng pseudo-log-likelihood và véc tơ đạo hàm riêng (gradient) của nó không yêu cầu suy diễn qua mô hình và vì vậy sẽ nhan hơn. Tuy nhiên các tham số khả năng pseudo-log-likelihood hƣớng tới kết quả không đƣợc tốt khi yêu cầu suy diễn qua các nút không kề nhau.

Chúng ta tối ƣu hàm khả năng pseudo-likelihood sử dụng thuật toán BFGS với bộ nhớ hạn chế. Tuy nhiên ta có thể làm cho tính toán có thể hiệu quả hơn trong một vài cách nhƣ sau:

- Vế phải của phƣơng trình (2.11) có thể nhanh hơn nhiều bằng việc bỏ qua các vị từ không xuất hiện trong công thức thứ .

- Việc đếm , và không thay đổi, vì vậy chỉ cần tính toán một lần.

- Bỏ qua các thay thế của các mệnh đề với số literal đúng lớn hơn 1. Ví dụ khi A=1, B=0.

38

Trong nhiều trƣờng hợp, chúng ta biết xác suất tiên nghiệm với vị từ đã biết và những vị từ khác là chƣa biết, và mục tiêu là để dự đoán một cách chính xác kết quả cuối cùng. Nếu chúng ta phân hoạch các công thức nguyên tử nền trong miền thành hai tập là tập các công thức nguyên tử đã biết và tập các công thức nguyên tử chƣa biết , thì hàm khả năng của với điều kiện

Trong đó là tập tất cả các mệnh đề của mạng logic Markov với ít nhất một thay thế bao gồm một công thức nguyên tử của tập chƣa biết, là số các mệnh đề nền có giá trị chân lý đúng thứ bao gồm các công thức nguyên tử của tập chƣa biết, là tập các thay thế của các vị từ trong mạng logic Markov bao gồm các công thức nguyên tử của tập chƣa biết, và nếu thay thế của mệnh đề thứ là đúng trong dữ liệu và sai nếu ngƣợc lại. Khi một vài công thức là “ẩn” (nghĩa là không nằm trong tập đã biết cũng nhƣ chƣa biết) thì xác suất hợp lý điều kiện nên đƣợc tính toán bởi việc tính tổng cho tất cả, tuy nhiên để đơn giản ta xử lý tất cả các biến không nằm trong tập đã biết nhƣ là các biến nằm trong tập chƣa biết.

Hàm để tối ƣu:

39

Phƣơng trình trên gọi là gradient của hàm hợp lý logarit có điều kiện (conditional log-likelihood hayCLL).

Cũng giống nhƣ trên việc tính toán rất khó khăn. Tuy nhiên chúng có thể đƣợc xấp xỉ bằng việc đếm các trong trạng thái MAP

Một phần của tài liệu Học cấu trúc mạng logic markov và ứng dụng trong bài toán phân lớp (Trang 34)

Tải bản đầy đủ (PDF)

(56 trang)