Entropy cực đại cho phân lớp văn bản

Một phần của tài liệu Khai phá dữ liệu (Trang 33 - 35)

L ỜI MỞ ĐẦU

2.3.4. Entropy cực đại cho phân lớp văn bản

Để áp dụng mơ hình Entropy cực đại cho một miền, chúng ta cần phải chọn ra một tập các đặc trung để sử dụng thiết lập các ràng buộc. Đối với phân lớp văn bản với mơ hình Entropy cực đại, chúng ta sử dụng số lượng từ như là các đặc trưng. Trong nghiên cứu này cho với mỗi từ kết hợp, ta đưa ra một đặc tính như sau:

Trong đĩ, N(d, w) là số lần từ w xuất hiện trong tài liệu d, và N(d) là số lượng các từ cĩ trong tài liệu d.

Trong cơng thức này, nếu một từ xuất hiện thường xuyên trong một tài liệu, ta sẽ tính trọng số cho các cặp từ này và thấy rằng trọng số đĩ sẽ cao hơn so với trọng số của các từ ghép trong tài liệu. Trong hầu hết ngơn ngữ tự nhiên sử dụng Entropy cực đại thì các đặc trưng thường là đặc trưng nhị phân. Trong phân lớp văn bản, chúng ta mong muốn các đặc trưng được tính bằng số lần suất hiện của một từ trong một tài liệu cĩ thể củng cố cho phân lớp.

                  ‐ 29 - 

Một trong những khía cạnh đặc biệt của Entropy cực đại là nĩ khơng bị bất kỳ giả thuyết độc lập nào ràng buộc. Ví dụ, với cụm từ “Buenos Aires”, hai từ này hầu như luơn xuất hiện động thời cùng nhau.Với giả thiết Nạve Bayes sẽ đếm số từ xuất hiện hai lần trong cụm từ này. Mặt khác, Entropy cực đại sẽ giảm giá trị trọng số

i

λ của mỗi đặc trưng đi một nửa. Một trong những hệ của việc khơng phụ thuộc vào

bất kỳ giả thuyết độc lập nào đĩ là các sơđồ và các cụm từ cĩ thểđược thêm vào các đặc trưng của Entropy cực đại một cách dễ dàng mà khơng cần lo lắng rằng các đặc tính này chồng lên nhau.

¾ Ưu điểm của mơ hình Entropy cực đại:

- Cho phép khả năng hầu như khơng hạn chế trong việc biểu diễn các vấn đề phức tạp về tri thức thơng qua dạng các hàm đặc trưng.

- Cĩ thể giải quyết nhiều dạng thuộc tính khác nhau. - Các giả thiết khơng cần phải độc lập với nhau.

                  ‐ 30 - 

Chương 3. BÀI TỐN PHÂN LỚP VĂN BẢN TÀI CHÍNH

Một phần của tài liệu Khai phá dữ liệu (Trang 33 - 35)

Tải bản đầy đủ (PDF)

(54 trang)