Các nghiên cứu về phân loại văn bản tập trung vào việc áp dụng các phương pháp học giám sát, sử dụng các kho dữ liệu lớn là tập các văn bản được phân loại theo các chủ đề khác nhau như phương pháp Naỉve Bayes (McCalum, 1998; Ko, 2000), Phương pháp K láng giềng gần nhất (Yang, 2002), và Rocchio (Lewis, 1996).
Đối với phân loại bằng mạng noron, mô hình đơn giản nhất được đề xuất bởi Dagan và các cộng sự (1997) và Ng (1997) là perceptron. Một mô hình đơn giản khác là mạng noron tuyến tắnh bổ sung một kiểu hồi quy logic được đề xuất bởi Schutze và các cộng sự vào năm 1995 mang lại hiệu quả tương đối cao.
Một mô hình noron không tuyến tắnh nhiều lớp sử dụng trong phân loại văn bản được đề xuất bởi Lam và Lee vào năm 1999 thay thế cho mô hình một noron tuyến tắnh đơn giản, tiếp theo đó một loạt các mô hình mạng noron nhiều lớp được đề xuất như Ruiz và Srinivasan (1999), Weigend (1999); Yang and Liu (1999). Trong mô hình nhiều lớp này có thể thể hiện được sự tương tác giữa các thuật ngữ và có khả năng học tốt hơn.
Các nghiên cứu về tiếng Việt mới được phát triển từ những năm 2004 - 2005, do đó các công bố về phân loại văn bản tiếng Việt còn ắt so với tiếng Anh. Mặt khác, các kho dữ liệu và các công cụ phục vụ cho nghiên cứu tiếng Việt còn thiếu hoặc hiệu quả chưa cao, một số các nghiên cứu đều dừng lại ở mức tìm hiểu, đề xuất phương pháp mà chưa xây dựng hệ thống hoàn chỉnh. Các kho dữ liệu chưa thống nhất và tự do các nhóm nghiên cứu tự xây dựng
Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
phục vụ cho nghiên cứu của mình. Chưa thành lập được các chuẩn đánh giá hiệu năng cho các hệ thống phân loại văn bản.
Một số các nghiên cứu phân loại tiếng Việt tập trung vào ứng dụng các phương pháp máy học hoặc áp dụng các phương pháp đã được đề xuất hiệu quả cho tiếng Anh như Phân loại văn bản với Boosting Proximal Support Vector Machines do nhóm tác giả Phạm Nguyên Khang, Đỗ Thanh Nghị, Francois Poulet đề xuất. Phân loại văn bản tiếng Việt dựa trên tập thô do nhóm tác giả Đỗ Phúc và các cộng sự đề xuất (2004). Phân loại văn bản Tiếng Việt bằng phương pháp Support vector Machines (Nguyễn Kim Ngân). Phân loại văn bản dựa trên mô hình xác suất Bayes và áp dụng cho tiếng Việt (Nguyễn Tuấn, Anh, 2003), Phương pháp ỘA comparative study for Vietnamese text classificationỢ (Hoang Cong Duy Vu, Nguyen Le Nguyen, Ngo Quoc Hung, Dinh Dien, 2007), hoặc mô hình tần suất ỘFrequent Subgraph-Based Approach for Classifying Vietnamese Text DocumentsỢ (Tu Anh Hoang Nguyen, 2009)Ầ