Thuật tốn Maximum Entropy

Entropy là độ đo về tính đồng đều hay tính khơng chắc chắn của một phân phối xác suất. Một phân phối xác suất cĩ entropy càng cao thì phân phối của nĩ càng đều.

Với bài tốn phân lớp văn bản, trở ngại lớn nhất là số lượng mẫu quan sát rất lớn nên cần thiết phải cĩ thuật tốn học tối ưu. So với các mơ hình khác, Maximum Entropy cĩ khả năng học và nhớ đến hàng trăm nghìn đặc trưng, thậm trí hàng triệu đặc trưng từ dữ liệu mẫu nhờ vào chiến lược tối ưu hĩa hàm nhiều biến hiệu quả. Đặc điểm này khiến cho Maximum Entropy chiếm ưu thế trong các bài tốn phân lớp văn bản.

Tập dữ liệu học (tức là tập gồm các dữ liệu đã được gán nhãn) được sử dụng để tìm ra các ràng buộc cho mơ hình, đĩ là cơ sở để ước lượng phân phối cho từng lớp cụ thể. Những ràng buộc này được thể hiện bởi các giá trị ước lượng được của các đặc trưng. Từ các ràng buộc sinh ra bởi tập dữ liệu này, mơ hình sẽ tiến hành tính tốn để cĩ được một phân phối cho mơ hình Maximum Entropy.

Gọi P là khơng gian của tất cả các phân phối xác suất, C là tập con của P

sẽ được mơ tả như sau:

C ≡ {p ∈ P | Epfi= E𝑝̃fi với i ∈ {1,2,…,n}}

Trong đĩ:

Epfi là kỳ vọng của f đối với p(y | x)

Epfi = ∑𝑝̃(x) p(y | x) fi(x , y)

E𝑝 ̃fi là kỳ vọng của f đối với 𝑝̃(x, y)

E𝑝̃fi = ∑𝑥,𝑦 𝑝̃(𝑥 , 𝑦)𝑓𝑖(𝑥 , 𝑦)

Hình dưới đây mơ tả 4 trường hợp của tập C khi cĩ các ràng buộc. P biểu diễn khơng gian của tất cả các phân phối xác suất.

- Trường hợp (a): Giả sử khơng cĩ ràng buộc nào nên tất cả các mơ hình p thuộc P đều thỏa mãn;

- Trường hợp (b): Giả sử cĩ một ràng buộc C1 nên các mơ hình p thỏa mãn ràng buộc này đều phải nằm trên đường C1;

- Trường hợp (c): Giả sử cĩ 2 ràng buộc C1 và C2 giao nhau nên mơ hình p thỏa mãn cả hai ràng buộc này là điểm giao nhau củaC1 và C2;

- Trường hợp (d): Giả sử 2 ràng buộc C1 và C3 khơng giao nhau nên khơng tồn tại mơ hình p nào thỏa mãn cả 2 ràng buộc trên.

Tư tưởng chủ đạo của Nguyên lý Maximum Entropy là ta phải xác định một mơ hình phân phối sao cho “phân phối đĩ tuân theo mọi giả thiết đã biết từ thực nghiệm và ngồi ra khơng đưa thêm bất kì một giả thiết nào khác”. Điều này cĩ nghĩa là mơ hình phân phối phải thỏa mãn mọi ràng buộc được rút ra từ thực nghiệm, và phải gần nhất với phân phối đều.

Nguyên lý này phát biểu theo ngơn ngữ tốn học như sau [6]:

Từ tập C ở trên, ta sẽ tìm được một mơ hình p* thỏa mãn điều kiện làm cực đại độ đo Entropy H(p):

p* = argmax H(p) với p ∈ C

Dễ dàng chỉ ra p* luơn xác định được và nĩ là mơ hình duy nhất làm cực đại độ đo entropy, đồng thời thỏa mãn mọi ràng buộc của bất kỳ tập C nào.

Chương III. Thực nghiệm

Trong phạm vi luận văn này, chúng tơi sẽ thực nghiệm phương pháp SVMs và Nạve Bayes bằng cơng cụ Weka được xây dựng bởi Trường Đại học WAIKATO. Download Weka tại http://www.cs.waikato.ac.nz/ml/weka/. Phương pháp Maximum Entropy được xây dựng dựa trên ngơn ngữ Java.

So sánh MaxEnt, Nạve Bayes và SVMs