Cơ sở lựa chọn đặc trưng

Một phần của tài liệu MÔ HÌNH MAXIMUM ENTROPY (Trang 31 - 33)

Cơ sở của thủ tục tăng dần có thể được phác thảo như sau. Với mọi giai đoạn của bài toán được xác định rõ đặc điểm bởi tập các đặc trưng có hiệu lực S. Điều đó quyết định không gian của mô hình:

Mô hình tối ưu trong không gian này, được biểu diễn bởi pS, là mô hình với entropy lớn nhất: ) ( max arg ( )H p PS = pC S (20)

Bằng cách thêm đặc trưng f ̃ vào tập S, chúng ta thu được tập mới với các đặc trưng có hiệu lực Sυf̃. Như công thức (19), tập đặc trưng này quyết định tập các mô hình:

C(S U f ̃) = {p € P | E(f) = Ẽ(f) với mọi f € S U f ̃} (21)

Mô hình tối ưu trong không gian mô hình này là:

) ( max arg ~) ( ~ H p Psf = pC Sf (22)

Thêm đặc trưng f ̃ cho phép mô hình psυf̃ tính toán tốt hơn với mẫu huấn luyện; điều này dẫn đến việc thu được ∆L(S,f ̃) từ log-likelihood của dữ liệu huấn luyện.

) ( ) ( ) ~ , (S f L PS ~f PS L = − ∆ ∪ (23)

Tại mỗi giai đoạn của bài toán xây dựng mô hình, mục đích của chúng ta là lựa chọn được đặc trưng ứng cử f ̃ € F mà nó giúp tăng ∆L(S,f ̃); vì vậy, chúng ta lựa chọn đặc trưng ứng cử, khi nối tiếp vào tập đặc trưng có hiệu lực S, nó giúp tăng đáng kể likelihood trong mẫu huấn luyện. Chiến lược này được thực thi trong thuật toán sau:

Thuật toán 2:

Input: tập hợp F của các đặc trưng ứng cử; phân phối thực nghiệm p̃(x,y)

Output: tập S các đặc trưng có hiệu lực; xác suất mô hình pS hợp nhất các đặc trưng.

1. Bắt đầu với S= Θ; vì vậy pS là giống nhau 2. Với mỗi đặc trưng ứng cử f € F:

a) Tính xác suất mô hình PSυf sử dụng thuật toán 1

b) Tính lượng gia tăng của log-likelihood từ những đặc trưng được thêm vào sử dụng công thức (23)

3. Kiểm tra điều kiện kết thúc

4. Lựa chọn đặc trưng f ̃ với độ tăng tối đa ∆L(S,f ̃) 5. Nối liền f ̃ vào tập S

6. Tính xác suất pS sử dụng thuật toán 1 7. Lặp lại bước 2

Có thể thấy được, chúng ta sẽ muốn một điều kiện dừng giúp bài toán dừng một cách chính xác khi toàn bộ các đặc trưng hữu ích đã được lựa chọn.

Một phần của tài liệu MÔ HÌNH MAXIMUM ENTROPY (Trang 31 - 33)