Trên đây, chúng ta đã chia bài toán mô hình hóa thống kê thành 2 bước: tìm các sự kiện thích hợp về dữ liệu, và tích hợp các sự kiện này vào mô hình. Tại
thời điểm này, chúng ta giả sử rằng bước 1 đã được thực hiện. Ngay trong ví dụ đơn giản đã trình bày ở trên, ta cũng không ý thức tại sao lại chọn các ràng buộc cá biệt đó. Nghĩa là tại sao sự kiện mà dans và à lại được chọn bởi chuyên gia dịch. Trên thực tế, nguyên lý cực đại Entropy không liên quan trực tiếp tới vấn đề lựa chọn đặc trưng. Tuy nhiên, vấn đề lựa chọn đặc trưng lại là vấn đề then chốt khi mà số lượng các ràng buộc tồn tại là rất lớn. Phần này giới thiệu một phương pháp tự động lựa chọn các đặc trưng để đưa vào mô hình cực đại Entropy, và sau đó đưa ra một chuỗi các cải tiến để làm giảm gánh nặng tính toán.
4.5.3.1 Motivation
Ta bắt đầu bằng việc xác định một tập lớn các đặc trưng là các ứng cử viên. Ta không yêu cầu là các đặc trưng phải là có liên quan hay là hữu ích. Thay vào đó, ta cho phép không gian các đặc trưng này mở rộng lớn nhất có thể, và sau này, chỉ một tập con nhỏ của tập các đặc trưng này được đưa vào mô hình.
Nếu ta đã có một tập các mẫu huấn luyện có kích cỡ lớn, ta có thể xác định giá trị kỳ vọng “true” cho một ứng viên cho đặc trưng ƒ Є F một cách đơn giản là tính phần các sự kiện trong mẫu mà ƒ(x,y) = 1. Tuy nhiên, trong các ứng dụng thực tế, ta chỉ được cung cấp một số lượng nhỏ các sự kiện mẫu và các sự kiện mẫu này không thể biểu diễn quá trình một cách đầy đủ và chính xác. Sử dụng một mẫu dữ liệu lớn hơn (thậm chí lớn hơn chỉ một mẫu) từ cùng một quá trình có thể dẫn tới các ước lượng khác nhau của (ƒ) cho nhiều đặc trưng.
Ta sẽ sử dụng một tập hợp S các đặc trưng trong mô hình, tập S này là tập con của tập tất cả các ứng viên đặc trưng. Ta gọi tập S này là tập các đặc trưng tích cực. Tập S này phải nắm giữ được càng nhiều thông tin về quá trình ngẫu nhiên càng tốt nhưng chỉ bao gồm các đặc trưng mà giá trị kỳ vọng của nó có thể được ước lượng một cách tin cậy.
Hình 12. Chuỗi các tập con xếp lồng nhau của P tương ứng khi tăng độ lớn tập các đặc trưng tích cực
Để tìm S, ta sử dụng phương pháp gia tăng đối với bước lựa chọn đặc trưng. Ý tưởng là xây dựng một tập S bằng cách thêm vào các đặc trưng. Đặc trưng mà được lựa chọn để thêm vào tại mỗi bước được xác định bởi dữ liệu huấn luyện.
Đặt tập hợp các mô hình mà được xác định bởi tập các đặc trưng S là C(S).
Thêm một đặc trưng ƒ vào mô hình là yêu cầu tập các mô hình phù hợp phải thỏa mãn phương trình p(ƒ) = (ƒ). Chỉ có một số phần tử trong tập C(S) là thỏa mãn điều này và các phần tử này được ký hiệu là C(S U ƒ). Do đó, mỗi lần thêm một đặc trưng vào S thì một ràng buộc tuyến tính khác lại được áp đặt lên không gian
C(S). Và kết quả là không gian C(S) sẽ thu hẹp lại. Mô hình p* với entropy cực
đại phản ánh lượng tri thức về quá trình đã tăng lên và được kỳ vọng là thể hiện chính xác hơn. Hình 14 cho ta một ví dụ trực quan.