Entropy cực đại cho phân lớp văn bản

Một phần của tài liệu Đề tài “Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng” ppt (Trang 34 - 36)

L ỜI MỞ ĐẦU

2.3.4.Entropy cực đại cho phân lớp văn bản

Để áp dụng mô hình Entropy cực đại cho một miền, chúng ta cần phải chọn ra một tập các đặc trung để sử dụng thiết lập các ràng buộc. Đối với phân lớp văn bản với mô hình Entropy cực đại, chúng ta sử dụng số lượng từ như là các đặc trưng. Trong nghiên cứu này cho với mỗi từ kết hợp, ta đưa ra một đặc tính như sau:

Trong đó, N(d, w) là số lần từ w xuất hiện trong tài liệu d, và N(d) là số lượng các từ có trong tài liệu d.

Trong công thức này, nếu một từ xuất hiện thường xuyên trong một tài liệu, ta sẽ tính trọng số cho các cặp từ này và thấy rằng trọng số đó sẽ cao hơn so với trọng số của các từ ghép trong tài liệu. Trong hầu hết ngôn ngữ tự nhiên sử dụng Entropy cực đại thì các đặc trưng thường là đặc trưng nhị phân. Trong phân lớp văn bản, chúng ta mong muốn các đặc trưng được tính bằng số lần suất hiện của một từ trong một tài liệu có thể củng cố cho phân lớp.

                  ‐ 29 - 

Một trong những khía cạnh đặc biệt của Entropy cực đại là nó không bị bất kỳ giả thuyết độc lập nào ràng buộc. Ví dụ, với cụm từ “Buenos Aires”, hai từ này hầu như luôn xuất hiện động thời cùng nhau.Với giả thiết Naïve Bayes sẽ đếm số từ xuất hiện hai lần trong cụm từ này. Mặt khác, Entropy cực đại sẽ giảm giá trị trọng số

i

λ của mỗi đặc trưng đi một nửa. Một trong những hệ của việc không phụ thuộc vào bất kỳ giả thuyết độc lập nào đó là các sơđồ và các cụm từ có thểđược thêm vào các đặc trưng của Entropy cực đại một cách dễ dàng mà không cần lo lắng rằng các đặc tính này chồng lên nhau.

¾ Ưu điểm của mô hình Entropy cực đại:

- Cho phép khả năng hầu như không hạn chế trong việc biểu diễn các vấn đề phức tạp về tri thức thông qua dạng các hàm đặc trưng.

- Có thể giải quyết nhiều dạng thuộc tính khác nhau. - Các giả thiết không cần phải độc lập với nhau.

                  ‐ 30 - 

Chương 3. BÀI TOÁN PHÂN LP VĂN BN TÀI CHÍNH

NGÂN HÀNG TING VIT

Một phần của tài liệu Đề tài “Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng” ppt (Trang 34 - 36)