Chúng ta bắt đầu bằng cách chỉ rõ bộ sưu tập lớn F các đặc trưng ứng cử. Chúng ta khơng yêu cầu bất ky một ưu tiên nào đối với các đặc trưng mà những đặc trưng đĩ đều được lựa chọn như là các đặc trưng ứng cử. Thay vào đĩ, chúng ta chia thành những tập dữ liệu cĩ độ lớn cĩ thể tính tốn được. Chỉ một tập con của tập các đặc trưng sẽ được sử dụng vào mơ hình cuối cùng của chúng ta.
Nếu chúng ta cĩ mẫu huấn luyện cĩ kích thước vơ hạn, chúng ta cĩ thể quyết định giá trị kỳ vọng thích hợp cho mỗi đặc trưng ứng cử f € F bằng cách tính các sự kiện nhỏ trong mẫu mà nĩ cĩ f(x,y) = 1. Trong các ứng dụng thực tế, chúng ta được cung cấp với
chỉ một mẫu nhỏ N sự kiện, nĩ khơng thể tin cậy để đặc trưng cho tồn bộ bài tốn và là đúng đắn. Rõ ràng, chúng ta khơng thể mong chờ rằng với mọi đặc trưng f € F, ước lượng Ẽ(f) chúng ta nhận được từ mẫu sẽ hạn chế giá trị của nĩ trong một giới hạn khi n tăng dần. Sử dụng một mẫu lớn dữ liệu với cùng một bài tốn cĩ thể dẫn đến các ước lượng Ẽ(f) khác nhau với các đặc trưng ứng cử.
Một cách ngắn gọn, chúng ta muốn thêm vào mơ hình chỉ một tập con S của tồn bộ tập đặc trưng ứng cử F. Chúng ta sẽ gọi S là tập đặc trưng cĩ hiệu lực. Việc lựa chọn S phải lấy được thật nhiều thơng tin về bài tốn bất kỳ càng nhiều càng tốt, tuy nhiên chỉ thêm các giá trị kỳ vọng của các đặc trưng cĩ thể ước lượng đáng tin cậy.
Để tìm tập S, chúng ta chọn gần đúng tăng dần cho việc lựa chọn đặc trưng, giống như chiến lược được áp dụng cho việc phát triển cây quyết định (Bahl et al 1989). Ý tưởng là xây dựng tập con S bằng cách thêm lần lượt các đặc trưng. Với mỗi lựa chọn đặc trưng được thêm vào tại mỗi bước được quyết định bởi dữ liệu huấn luyện. Bây giờ chúng ta biểu diễn tập mơ hình được xây dựng bởi các đặc trưng của tập S là C(S). Mỗi khi thêm một đặc trưng f phải thỏa mãn phương trình Ẽ(f) = E(f). Chỉ các thành phần của C(S) sẽ thỏa mãn phương trình này; những đặc trưng đĩ được biểu diễn bởi C(Sυf).
Như vậy, mỗi lần một đặc trưng ứng cử được nối tiếp vào S, ràng buộc tuyến tính khác được áp dụng lên khơng gian C(S) của mơ hình được cho phép bởi các đặc trưng trong tập S. Như vậy kết quả là, C(S) được rút gọn lại; xác suất mơ hình p* trong C với entropy lớn nhất phản ánh sự hiểu biết tăng mãi mãi và vì vậy việc miêu tả bài tốn sẽ trở nên chính xác hơn.Điều này giúp cho khơng gian chấp nhận được của các mơ hình được thu hẹp hơn. Cĩ lẽ trực quan hơn, chúng ta cĩ thể miêu tả nĩ bằng một loạt các tập con được đạt vào P như hình sau:
Hình 3.1: Lựa chọn đặc trưng
(trích dẫn: trang 12 quyển A Maximum Entropy Approach to Natural Language Processing)