Phân loại văn bản là là tác vụ tự động xác định một tài liệu (dạng văn bản ở dạng ngôn ngữ tự nhiên) thuộc một hoặc một số hạng mục đã đƣợc định trƣớc. Đây là một trong những công cụ hữu hiệu nhất để làm giảm bớt nhƣng khó khăn trong tìm kiếm thông tin, và là công cụ hết sức quan trọng trong việc quản lý, tổ chức và sắp xếp thông tin. Phân loại văn bản là rất quan trọng và đƣợc sử dụng trong rất nhiều ứng dụng nhƣ lọc văn bản, tổ chức tài liệu, chống thƣ rác (spam mails).
Phân loại văn bản đƣợc nghiên cứu nhiều trong những năm cuối của thế kỷ trƣớc và những năm đầu của thế kỷ này. Đã có nhiều phƣơng pháp ra đƣợc giới thiệu và áp dụng nhƣ Rocchio, kNN, Naïve Bayes, LLSF, SVM. Trong đó SVM đƣợc cho là phƣơng pháp truyền thống có độ chính xác tốt nhất. Vector thuộc tính là cách lựa chọn để biểu diễn văn bản trong phân loại, do không gian thuộc tính thƣờng rất lớn nên chúng cần đƣợc giảm bớt để tăng hiệu năng tính toán mà vẫn đảm bảo độ chính xác trong phân loại, các phƣơng pháp thƣờng dùng là sử dụng danh sách từ dừng, dùng gốc của từ làm thuộc tính hay sử dụng các phƣơng pháp lựa chọn thuộc tính nhƣ Tần xuất văn bản (DF), Lợi ích thông tin (IG), Thông tin tƣơng hỗ (IM), Chi bình phƣơng (2), v.v.
Phân loại văn bản vẫn tiếp tục đƣợc nghiên cứu nhiều gần đây tập trung vào tăng hiệu năng và hiệu quả của các phƣơng pháp đã có cũng nhƣ tìm kiếm các phƣơng pháp mới hiệu quả hơn. Nổi bật là các phƣơng pháp huấn luyện kết hợp, kết hợp học không giám sát, sử dụng phân cụm, sử dụng nhóm xâu con chính là thuộc tính.
Do các phƣơng pháp phân loại văn bản thƣờng đƣợc giới thiệu và thực nghiệm đầu tiên cho văn bản tiếng Anh hay một số ngôn ngữ Âu Ấn khác. Việc áp dụng các phƣơng pháp phân loại văn bản cho các ngôn ngữ Á đông nhƣ tiếng Trung, tiếng Việt, tiếng Nhật…gặp một số khó khăn nhất định, đặc
biệt là các bƣớc tiền xử lý văn bản, trong đó phân đoạn từ là một trong các bƣớc quan trọng nhất phải giải quyết. Bài toán phân đoạn từ cho văn bản tiếng Việt cũng không phải là một ngoại lệ. Cho đến nay đã có một số phƣơng pháp tách từ trong tiếng Việt nhƣ khớp tối đa, TBL, dựa trên thống kê Internet, hay dựa trên CRF. Các báo cáo và thực nghiệm cũng cho thấy đƣợc tính hiệu quả và khả năng ứng dụng của từng phƣơng pháp.
Sau một thời gian làm việc nghiêm túc dƣới sự hƣớng dẫn của ngƣời hƣớng dẫn khoa học, luận văn đã đạt đƣợc một số kết quả sau.
- Tìm hiểu về tổng quan và khái niệm phân loại văn bản, các phƣơng pháp phân loại văn bản truyền thống nhƣ Rocchio, kNN, Naïve Bayes, SVM cũng nhƣ một số phƣơng pháp khác.
- Tìm hiểu bài toán phân loại văn bản tiếng Việt với những vần đề liên quan nhƣ đặc điểm của tiếng Việt, cấu trúc từ trong tiếng Việt, bài toán tách từ trong tiếng Việt. Nhƣng vấn đề khó khăn khác nhƣ tập ngữ liệu chuẩn.
- Xây dựng một bộ ngữ liệu tiếng Việt sử dụng trong phân loại văn bản và các bài toán NLP khác.
- Tiến hành thực nghiệm bài toán phân loại văn bản tiếng Việt với một số phƣơng pháp truyền thống.
- Tìm hiểu một số phƣơng pháp mới và hƣớng cải tiến phù hợp với bối cảnh Việt Nam nhƣ phƣơng pháp kết hợp phân cụm, phƣơng pháp sử dụng thuộc tính nhóm xâu con chính. Tính phù hợp của các phƣơng pháp này thể hiện ở chỗ phƣơng pháp kết hợp phân cụm có thể làm việc tốt với tập dữ liệu huấn luyện có nhãn nhỏ. Và phƣơng pháp sử dụng thuộc tính nhóm xâu con chính có thể tránh đƣợc vấn đề phân đoạn từ trong tiếng Việt.
- Tiến hành thực nghiệm bài toán phân loại văn bản tiếng Việt với các phƣơng pháp cải tiến trên.
- Phát triển một số công cụ nhƣ công cụ chiết xuất nội dung, công cụ phân chia dữ liệu sử dụng cho k-fold cross validation, công cụ phân đoạn từ và xây dựng ma trận thuộc tính tƣơng ứng. Cộng cụ chiết xuất
thuộc tính nhóm xâu con chính và xây dựng ma trận thuộc tính tƣơng ứng. Công cụ mở rộng và nâng cao tập dữ liệu khi kết hợp với phân cụm.
- Đƣa ra kết luận và đánh giá về tính khả thi trong việc áp dụng một số phƣơng pháp phân loại truyền thống cũng nhƣ tính hiệu quả của việc áp dụng các phƣơng pháp cải tiến trong phân loại văn bản tiếng Việt.