Naive Bayes Classifier (NBC) [9] là một thuật ngữ trong xử lý số liệu thống kê Bayes với một phân lớp xác suất dựa trên các ứng dụng định lý Bayes với giả định độc lập bền vững. Một thuật ngữ mơ tả chi tiết cho những mơ hình xác suất sẽ là “mơ hình đặc trưng khơng phụ thuộc”.
Tùy thuộc vào tính chính xác bản chất của mơ hình xác suất, NBC cĩ thể rất hiệu quả trong việc học cĩ giám sát. Trong nhiều ứng dụng thực tế, tham số ước lượng cho mơ hình Naive Bayes (NB) sử dụng các phương pháp maximum likelihood (ML).
Một ưu điểm của NBC là chỉ địi hỏi một lượng nhỏ dữ liệu học. Bởi vì các biến được giả định độc lập, chỉ những khác biệt của các biến cho mỗi lớp học cần phải được xác định và khơng phải tồn bộ ma trận thống kê.
2.3.2. Phương pháp SVM (Support Vector Machine)
a. Giới thiệu phương pháp
Trong những năm gần đây, phương pháp phân lớp sử dụng tập phân lớp vector hỗ trợ (máy vector hỗ trợ - Support Vector Machine – SVM) [5] được quan tâm và sử dụng nhiều trong lĩnh vực nhận dạng và phân lớp. SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hố rủi ro ước lượng. Phương pháp SVM ra đời từ lý thuyết học thống kê do Vapnik và Chervonenkis xây dựng và cĩ nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tiễn. Các thực nghiệm thực tế cho thấy, phương pháp SVM cĩ
khả năng phân lớp khá tốt đối với bài tốn phân lớp văn bản cũng như trong nhiều ứng dụng khác (như nhận dạng chữ viết tay, phát hiên mặt người trong các ảnh, ước lượng hồi quy,…). Xét với các phương pháp phân lớp khác, khả năng phân lớp của SVM là tương đối tốt và hiệu quả.
SVM sử dụng thuật tốn học nhằm xây dựng một siêu phẳng làm cực tiểu hố độ phân lớp sai của một đối tượng dữ liệu mới. Độ phân lớp sai của một siêu phẳng được đặc trưng bởi khoảng cách bé nhất tới siêu phẳng đấy. SVM cĩ khả năng rất lớn cho các ứng dụng được thành cơng trong bài tốn phân lớp văn bản.
Như đã biết, phân lớp văn bản là một cách tiếp cận mới để tạo ra tập phân lớp văn bản từ các mẫu cho trước. Cách tiếp cận này phối hợp với sự thực thi ở mức độ cao và hiệu suất cùng với những am hiểu về mặt lý thuyết, tính chất thơ ngày càng được hồn thiện. Thơng thường, hiệu quả ở mức độ cao khơng cĩ các thành phần suy nghiệm. Phương pháp SVM cĩ khả năng tính tốn sẵn sàng và phân lớp, nĩ trở thành lý thuyết học mà cĩ thể chỉ dẫn những ứng dụng thực tế trên tồn cầu.
Đặc trưng cơ bản quyết định khả năng phân lớp là khả năng phân lớp những dữ liệu mới dựa vào những tri thức đã tích luỹ được trong quá trình huấn luyện. Sau quá trình huấn luyện nếu hiệu suất tởng quát hố của bộ phân lớp cao thì thuật tốn huấn luyện được đánh giá là tốt. Hiệu suất tởng quát hố phụ thuộc vào hai tham số là sai số huấn luyện hay và năng lực của máy học. Trong đĩ sai số huấn luyện là tỷ lệ lỗi phân lớp trên tập dữ liệu huấn luyện. Cịn năng lực của máy học được xác định bằng kích thước Vapnik-Chervonenkis (kích thước VC). Kích thước VC là một khái niệm quan trọng đối với một họ hàm phân tách (hay là tập phân lớp). Đại lượng này được xác định bằng số điểm cực đại mà họ hàm cĩ thể phân tách hồn tồn trong khơng gian đối tượng. Một tập phân lớp tốt là tập phân lớp cĩ năng lực thấp nhất (cĩ nghĩa là đơn giản nhất) và đảm bảo sai số huấn luyện nhỏ. Phương pháp SVM được xây dựng trên ý tưởng này.