Mơ hình phân lớp Naive Bayes

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 42)

Mơ hình phân lớp Naive Bayes là mơ hình phân lớp dựa trên xác suất (D. Michie, D.J. Spiegelhalter, C. Taylor, 1994). Phân lớp Bayes được áp dụng nhiều nhất trong thực tế là phân lớp Naive Bayes. Trong một số lĩnh vực, khả năng áp dụng của nĩ cĩ thể so sánh với các phương pháp khác như mạng nơron hoặc cây quyết định. Trong thực tế, mơ hình phân lớp Naive Bayes thực hiện rất tốt trong phân lớp văn bản như hệ thống phân loại văn bản Rainbow (Andrew McCallum, 1996), hay trong các hệ thống phân loại email.

Các thuật tốn Bayes tính tốn các khả năng cụ thể đối với các giả định, chẳng hạn như bộ phân lớp Naive Bayes là một trong các cách tiếp cận thực tế nhất đối với các kiểu học chắc chắn. Michie et al.(1994) đã đưa ra một nghiên cứu chi tiết việc so sánh giữa bộ phân lớp Naive Bayes với các thuật tốn học khác trong đĩ cĩ cả

các thuật tốn học theo cây quyết định và mạng nơron. Các nhà nghiên cứu đã chứng minh rằng bộ phân lớp Naive Bayes là tương đối mạnh và trong một số

trường hợp nĩ cịn cho kết quả tốt hơn. Bên cạnh đĩ, việc thiết kế một hệ thống phân lớp Naive Bayes trong thực tế thường dễ dàng hơn so với phương pháp phân lớp khác vì tính đơn giản của nĩ và thời gian thực hiện phân lớp một văn bản mới cho kết quả nhanh hơn nhiều.

Cho V1, V2, . . ., Vm là một phân hoạch của khơng gian mẫu V (được xem là các lớp Vj). Khơng gian thể hiện X bao gồm tất cả các thể hiện được mơ tả trên tập thuộc tính (A1, A2,...An) và hàm đích f(x) cĩ thể nhận bất kỳ giá trị nào trong V (f(x)=Vj | j=1,..,m). Khơng gian thể hiện X này được xem là các ví dụ học. Khi cĩ

một thể hiện mới với bộ giá trị <a1, a2,...an>, bộ phân lớp sẽ dự đốn giá trị hàm

đích f(x) hoặc lớp cho thể hiện mới này (f(x) = một trong các giá trị Vj).

Cách tiếp cận Bayes để phân lớp một thể hiện mới là lấy giá trịđích cĩ xác suất cao nhất VMAP của thể hiện này. Hay nĩi cách khác, định lý Bayes được sử dụng để

chọn giả thuyết cĩ xác suất đúng cao nhất từ tập mẫu huấn luyện, giả thuyết này

được gọi là giả thuyết cực đại xác suất sau (xác suất hậu nghiệm) MAP – Maximum A Posterior:

VMAP = max ( j | 1, 2,.., n)

V

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 42)