Nguyên lý cực đại entropy

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 34)

Giả sử chúng ta có n đặc trưng fi (i = 1…n). Ta mong muốn mô hình xây dựng là thống nhất với các đặc trưng này. Tức là mô hình này phải nằm trong tập các mô hình thỏa mãn phương trình ràng buộc ở trên.

C = {p Є P | p(ƒi) = (ƒi) với tất cả cáci Є {1,2,…,n} }

Tập C có thể rất lớn.

Hình 13 cho ta thấy một thể hiện hình học trực quan. Ở đây, P là không gian phân phối xác suất (không điều kiện) của 3 điểm, và thường được gọi là đơn hình (simplex). Nếu ta không áp đặt ràng buộc, thì tất cả các mô hình xác suất đều thỏa mãn (được miêu tả trong (a)). Nếu ta áp đặt một ràng buộc tuyến tính

C1, các mô hình thỏa mãn sẽ là p Є P mà nằm trên vùng được định nghĩa bởi C1

như được miêu tả trong (b). Một ràng buộc tuyến tính thứ hai có thể giúp xác định p một cách chính xác và duy nhất nếu hai ràng buộc này thỏa mãn điều kiện như trong trường hợp (c) là giao của C1C2 là không rỗng. Có thể có trường hợp ràng buộc tuyến tính thứ hai không phù hợp với ràng buộc thứ nhất như được miêu tả trong trường hợp (d). Tuy nhiên các ràng buộc tuyến tính được trích chọn từ các mẫu huấn luyện và được xây dựng sao cho chúng là phù hợp. Hơn nữa, các ràng buộc tuyến tính trong ứng dụng của chúng ta sẽ không hướng tới trường hợp xác định duy nhất như trong (c) mà tập (là tập các mô hình phù hợp) sẽ là không giới hạn.

(a) Không sử dụng ràng buộc (b) Sử dụng một ràng buộc (c) Sử dụng 2 ràng buộc thích hợp

(d) 2 ràng buộc không thích hợp

Để trả lời cho câu hỏi “Làm thế nào để đánh giá độ đều của một mô hình?”, ta sử dụng Entropy điều kiện:

Entropy bị giới hạn dưới bởi 0, đó chính là Entropy của mô hình mà không có độ chắc chắn, và bị giới hạn trên bởi |Y|, là Entropy của mô hình phân phối đều.

0 < |H(p)| < |Y| . Với |Y| là lực lượng của Y.

Nguyên lý cực đại entropy:

Để chọn mô hình từ tập C, ta chọn mô hình p* làm cực đại H(p)

Luôn luôn tồn tại duy nhất một p* nằm trong tập C thỏa mãn điều kiện này.

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 34)