Hƣớng phát triển

Để luận văn có thể áp dụng vào thực tế tốt hơn, cần phải tiếp tục nghiên cứu, cải tiến một số vấn đề sau:

- Cho phép thực hiện tự động phân lớp và xử lý phục vụ việc truy tìm khi thêm vào một văn bản mới vào kho văn bản.

- Nghiên cứu cải tiến tốc độ thực thi của thuật toán SVM Nearest Neighbor. - Nghiên cứu các kỹ thuật rút trích thông tin văn bản tự động. Từ đó áp dụng xây dựng hệ thống tự động thu thập thông tin văn bản trên các website, phân loại và phục vụ truy tìm thông tin văn bản.

- Thực hiện phân lớp văn bản vào nhiều nhóm khác nhau (Multi- Categorization).

- Phát triển thêm các ứng dụng nhƣ tóm tắt văn bản, dịch tự động các văn bản sau khi thu thập và phân lớp.

Hiện nay, bài toán phân lớp và bài toán truy tìm thông tin nói chung cũng nhƣ thông tin văn bản nói riêng vẫn còn nhiều vấn đề chƣa đƣợc giải quyết triệt để. Do đó, tác giả mong muốn đƣợc góp ý thêm để có thể hoàn thiện hơn nữa những tồn tại của luận văn.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Nguyễn Kim Anh, Nguyễn Thị Kim Ngân (2006), “Phân lớp văn bản tiếng Việt sử dụng phương pháp Support Vector Machines”, Khoa Công nghệ thông tin, ĐHBK Hà Nội.

[2] Nguyễn Thị Minh Huyền, Vũ Xuân Lƣơng, Lê Hồng Phƣơng (2003),

“Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt”,

Kỷ yếu Hội thảo ICT.rda’03, trang 22-23.

[3] Trang Nhật Quang (2007), “Đề xuất một công cụ hỗ trợ thu thập và phân loại thông tin tiếng Việt trên internet”, Luận văn Thạc sĩ, Đại học Khoa học Tự nhiên TP.HCM, TP.HCM.

Tiếng Anh

[4] Enrico Blanzieri, Anton Bryl (2007), “Evaluation of the Highest Probability SVM Nearest Neighbor Classifier With Variable Relative Error Cost”, University of Trento, Italy.

[5] Enrico Blanzieri, Anton Bryl (2007), “Instance-Based Spam Filtering Using SVM Nearest Neighbor Classifier”, University of Trento, Italy. [6] Li-Cheng Jin (2004), “Application of Fuzzy Support Vector Machines in

Medical Engineering and Bioinformatics”, Master Thesis, Institute of Electronics and Information Engineering National Kaohsiung University of Applied Sciences, Taiwan.

[7] Shigeo Abe and Takuya Inoue (2002), “Fuzzy Support Vector Machines for Multiclass Problems”, ESANN‟2002 proceedings, pp. 113-118.

[8] Shigeo Abe and Takuya Inoue (2001), “Fuzzy Support Vector Machines for Pattern Classification”, In Proceeding of International

Joint Conference on Neural Networks (IJCNN ‟01), volume 2, pp. 1449-1454.

[9] Tsui-Feng Hu (2004), “Fuzzy Correlation and Support Vector Learning Approach to Multi-Categorization of Documents”, Master Thesis, Institute of Information Management I-Shou University, Taiwan.

[10] T.Joachims (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features” in Proceedings of ECML-98, 10th European Conference on Machine Learning, number 1398, pp. 137–142.

[11] Xiufeng Jiang, Zhang Yi and Jian Cheng Lv (2006), “Fuzzy SVM with a new fuzzy membership function”, Neural Computing and Applications, Volume 15(3), pp. 268-276.

[12] Yiming Yang, Jan O. Pedersen (1997), "A comparative Study on Feature Selection in Text Categorization", Proceedings of {ICML}-97, 14th International Conference on Machine Learning, pp. 412-420.

Thuật toán K-trung bình (K-means)

Thuật toán cây quyết định (Decision tree)