ngữ thống kê N-Gram (Statistical N-Gram Language
modeling based Approach) [26]
Như đã trình bày trong phần trước, nhiều thuật tốn máy học đã được áp dụng cho bài tốn phân loại văn bản tự động như là: Nạve Bayes, SVMs, LLSF,
Neural Networks, k-Nearest neighbor classifiers … ([2]). Các phương pháp này
đều làm việc dựa trên các hạng hay cịn gọi là các thuộc tính (attribute) và các thuộc tính này đều được giả sử là độc lập với nhau. Trong các phương đĩ, Nạve Bayes là một phương pháp đã được chứng minh là phương pháp ứng dụng thành cơng cho bài tốn phân loại văn bản [2] mặc dù tính đơn giản và giới hạn trong việc giả sử độc lập. Domingos và Pazzanni trong cơng trình [57] thấy rằng bộ phân lớp Nạve Bayes cĩ thểđạt được tỷ lệ phân lớp lỗi tối ưu nếu như cĩ thể can thiệp đến giả sử độc lập của phương pháp này. Trong thực tế, các thuộc tính phụ thuộc lẫn nhau cĩ thể tăng độ chính xác phân lớp trong một vài trường hợp [58][59].
Cĩ khá nhiều nghiên cứu đã hướng vào khuyết điểm này để mong rằng cĩ thể nâng độ chính xác phân lớp lên cao hơn. Một cơng trình khá nổi tiếng là Tree Augmented Nạve Bayes (TAN) classifier của Friedman et al 1997 [58]. Bộ phân lớp này cho phép sự phụ thuộc cĩ cấu trúc cây giữa các biến quan sát ngồi phụ
Bayes theo cấu trúc cây cĩ chi phí khá lớn, và vì thế mơ hình này hiếm khi được sử
dụng bài tốn phân loại văn bản. Fuchun Peng et al trong cơng trình [26] đã đề nghị
một phương pháp rất hay để giải quyết vấn đề giả sửđộc lập, cơng trình này cĩ tên là mơ hình Chain Augmented Nạve Bayes (CAN). Mơ hình này đơn giản hơn mơ hình trước bằng cách là nĩ giới hạn tính phụ thuộc giữa các biến đến 1 dãy Markov (Markov chain) thay vì dùng cây (tree). Nhờ đĩ, mơ hình này lại gián tiếp liên quan đến mơ hình ngơn ngữ n-gram. Cũng trong cơng trình này, các tác giả đã đề
xuất mơ hình ngơn ngữ thống kê ngram kết hợp phương pháp Nạve Bayes ứng dụng cho bài tốn phân loại văn bản. Trong luận văn này, chúng tơi sẽ tìm hiểu và thí nghiệm lại phương pháp này cho bài tốn phân loại văn bản tiếng Việt, từ đĩ so sánh các ưu khuyết điểm so với phương pháp truyền thống là cách tiếp cận dãy các từ.
Trong chương kế tiếp, chúng tơi sẽ trình bày kỹ hơn về phương pháp này.