Kết quả thực nghiệm cho thấy việc tách từ đơn giản bằng cách sử dụng các cụm từ liền nhau cĩ độ dài bằng 1 và 2 cho kết quả phân loại thƣ rác chính xác khá cao. Đây là kết quả quan trọng vì nĩ cho phép bộ lọc thƣ tránh đƣợc quá trình tách từ phức tạp và tốn thời gian khi sử dụng những phƣơng pháp tách từ tiếng Việt phức tạp hơn.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ 97.5 98 98.5 99 99.5 100
Anh+Việt Anh Việt chung Việt cĩ dấu Việt khơng dấu Đ ộ c h ín h x ác ( % )
Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau
Số lƣợng đặc trƣng tối ƣu khi lọc thƣ tiếng Anh và tiếng Việt là 2000-3000 từ. Ngồi việc nâng cao độ chính xác phân loại, việc khơng phải sử dụng tồn bộ các đặc trƣng cĩ trên tập dữ liệu cịn cho phép giảm yêu cầu về bộ nhớ và yêu cầu tính tốn. Kết quả thử nghiệm cũng khơng cho thấy sự khác biệt đáng kể về hiệu quả lọc thƣ khi lọc riêng thƣ tiếng Việt và thƣ tiếng Anh so với khi lọc chung.
Trong số ba phƣơng pháp phân loại đƣợc sử dụng, phƣơng pháp Bayes đa thức và SVM cho kết quả tốt nhất, tuy nhiên phƣơng pháp Bayes cĩ ƣu thế rõ rệt do cĩ độ phức tạp tính tốn thấp hơn nhiều.
Trong phạm vi nghiên cứu này mới chỉ đề cập tới việc phân loại thƣ tự động dựa trên phần nội dung văn bản của thƣ. Các hƣớng nghiên cứu tiếp theo bao gồm việc phân loại thƣ cĩ nội dung đƣợc trình bày dƣới dạng hình ảnh, nghiên cứu kết hợp nhiều đặc điểm của thƣ nhƣ format, dịng tiêu đề, địa chỉ gửi, thời gian gửi.