Entropy cực đại cho phân lớp văn bản

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm 04 (Trang 32 - 33)

2.2. Phương pháp sử dụng học máy

2.2.4.4. Entropy cực đại cho phân lớp văn bản

Để áp dụng mơ hình Entropy cực đại cho một miền, chúng ta cần phải chọn ra một tập các đặc trưng để sử dụng thiết lập các ràng buộc. Đối với phân lớp văn bản với mơ hình Entropy cực đại, chúng ta sử dụng số lượng từ như là các đặc trưng. Trong nghiên cứu này cho với mỗi từ kết hợp, ta đưa ra một đặc tính như sau:

fw,c’ (d,c) =

0 ≠ ′

( , ) ( ) ℎ

Trong đĩ, N(d,w) là số lần từ w xuất hiện trong tài liệu d, và N(d) là số lượng các từ cĩ trong tài liệu d.

Trong cơng thức này, nếu một từ xuất hiện thường xuyên trong một tài liệu, ta sẽ tính trọng số cho các cặp từ này và thấy rằng trọng số đĩ sẽ cao hơn so với trọng số của các từ ghép trong tài liệu. Trong hầu hết ngơn ngữ tự nhiên sử dụng Entropy cực đại thì các đặc trưng thường là đặc trưng nhị phân. Trong phân lớp văn bản, chúng ta mong muốn các đặc trưng được tính bằng số lần suất hiện của một từ trong một tài liệu cĩ thể củng cố cho phân lớp.

29

Một trong những khía cạnh đặc biệt của Entropy cực đại là nĩ khơng bị bất kỳ giả thuyết độc lập nào ràng buộc. Ví dụ, với cụm từ “Buenos Aires”, hai từ này hầu như luơn xuất hiện động thời cùng nhau.Với giả thiết Nạve Bayes sẽ đếm số từ xuất hiện

hai lần trong cụm từ này. Mặt khác, Entropy cực đại sẽ giảm giá trị trọng số λi của mỗi

đặc trưng đi một nửa. Một trong những hệ của việc khơng phụ thuộc vào bất kỳ giả thuyết độc lập nào đĩ là các sơ đồ và các cụm từ cĩ thể được thêm vào các đặc trưng của Entropy cực đại một cách dễ dàng mà khơng cần lo lắng rằng các đặc tính này chồng lên nhau.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm 04 (Trang 32 - 33)

Tải bản đầy đủ (PDF)

(63 trang)