Hướng phát triển đề tài

Qua quá trình nghiên cứu và thực hiện đề tài, bên cạnh các kết quả đạt được thì vẫn còn tồn tại một số hạn chế. Do đó, hướng nghiên cứu tiếp theo của đề tài này là:

Tự động đọc và nhận dạng được ký hiệu, thời gian ban hành và trích yếu của tệp văn bản lưu dưới dạng Word (.doc, .docx) và PDF (.pdf);

Hoàn thiện kho dữ liệu từ tiếng Việt để kết quả phân tích của chương trình có độ chính xác cao hơn;

Hoàn thiện và nâng cấp các chức năng để chương trình xử lý tốt hơn (xử lý lỗi nội dung cần lấy của tệp văn bản, xử lý lỗi từ người dùng,…).

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Hồ Tú Bảo, Lương Chi Mai (2008), “Về xử lý tiếng Việt trong công nghệ thông tin”, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ tiên tiến Nhật Bản.

2. Nguyễn Thiện Giáp (2005), Lược sử Việt ngữ học (tập 1), Nhà xuất bản Giáo dục, trang 63-66.

3. Nguyễn Hữu Quỳnh. (2001), Ngữ Pháp Tiếng Việt, Nhà xuất bản từ điển Bách khoa.

4. Đồng Thị Bích Thủy, Hồ Bảo Quốc (2001), “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin văn bản tiếng Việt”, Khoa Công Nghệ Thông Tin - Đại học Khoa học tự nhiên Thành phố Hồ Chí Minh Laboratoire CLIP IMAG, Grenoble.

Tiếng Anh

5. Chen, K. J., & Liu, S. H. (1992). “Word identification for Mandarin Chinese sentences”. Proceedings of the Fifteenth International Conference on Computational Linguistics, Nantes: COLING-92.

6. Eric Brill. (1995), “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging”,

Computational Linguistics, 21(4), pp. 543-565.

7. Phil Blunsom (2004), Hidden Markov Models, pp. 1-7.

8. Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001). “Vietnamese Word Segmentation”. The sixth 6th Natural Language Processing Pacific Rim Symposium Tokyo, Japan, pp. 749 -756.

9. Le An Ha (2003), A method for word segmentation in Vietnamese. In

10. John Lafferty, Andrew McCallum, Fernando Pereira (2001).

Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data.

11. Xuan- Hieu, Phan Le- Minh, Nguyen Cam- Tu Nguyen, Trung- Kien Nguyen and Quang- Thuy Ha (2005), Vietnamese word segmentation with crfs and svms: An investigation. In Proceeding of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215-222. Wuhan, China.

12. Chih-Hao Tsai (2000). MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm.

Đặc điểm của ngôn ngữ tiếng Việt

Khái quát về tách từ tiếng Việt