Như đã trình bày ở trên, cốt lõi của vấn đề là tập tin từ điển huấn luyện initial.txt. Tập tin này sẽ chứa xác suất các nhóm âm tiết có thể xuất hiện trong văn bản tiếng việt.
Ngoài ra mô hình huấn luyện sử dụng các phương pháp làm mịn khác nhau trong mô hình ngôn ngữ N-gram như: Add-one, Witten-Bell, Good-Turing... với phương pháp làm trơn hóa mô hình giúp việc thêm dấu được chính xác. Khác với các mô hình thêm dấu tiếng Việt trước đây, tập tin từ điển không những lưu các từ tiếng Việt mà còn lưu các dãy âm tiết trong Tiếng Việt. Điều này giúp cho mô hình có thể “vét cạn” các thông tin giúp cho việc thêm dấu chính xác hơn.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI
KẾT LUẬN
Luận văn đề cập các kĩ thuật làm mịn sự phân bố xác suất của các cụm từ trên tập dữ liệu huấn luyện, để làm giảm kích thước bộ nhớ của mô hình ngôn ngữ và nâng cao chất lượng mô hình ấy. Dựa trên cơ sở lý thuyết đó, luận văn đề xuất một mô hình thêm dấu cho tiếng Việt không dấu dựa trên phân tích cụm Bigram.
Luận văn áp dụng mô hình thống kê tần số xuất hiện của từ, kèm theo phương pháp tách từ không dấu LRMM và sử dụng thêm từ điển cụm từ nên cũng đạt được độ chính xác chấp nhận được.
HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI
Bài toán thêm dấu cho tiếng Việt không dấu dựa trên mô hình ngôn ngữ là bài toán mới. Vì thế, hiện nay bài toán này cũng như cách giải quyết nó còn đang trong giai đoạn hoàn thiện.
Trong quá trình xây dựng mô hình ngôn ngữ, đặc biệt là mô hình ngôn ngữ N-gram còn nhiều khó khăn, đòi hỏi người lập trình phải đầu tư nhiều thời gian và công sức hơn. Đây là một mô hình ngôn ngữ, thứ nhất, nó đem lại nhiều ứng dụng thiết thực trong thực tế, thứ hai, nó tiếp cận phương pháp phổ biến là phương pháp thống kê tần số xuất hiện của từ, nên nó thu hút sự quan tâm của nhiều người.
Trong quá trinh tách từ, một thực tế không tránh khỏi là việc xuất hiện các từ mới (các từ không được định nghĩa trong từ điển). Đây là một vấn đề không thể bỏ qua khi ngôn ngữ tự nhiên là luôn luôn thay đổi và sinh ra các từ mới, trong khi từ điển (để xử lí ngôn ngữ tự nhiên) không thể cập nhật hết được. Các nghiên cứu đối với tiếng Nhật và tiếng Trung đã xử lí vấn đề này khá tốt. Với sự gần gũi về ngữ pháp và đặc điểm ngôn ngữ, ta có thể ứng
dụng những nghiên cứu đó đối với tiếng Việt. Như thế chúng ta vẫn còn nhiều việc phải làm.
Trong tương lai, khi nhiều người cùng khai thác lĩnh vực này thì sẽ có được những mô hình ngôn ngữ hoàn hảo hơn, sử dụng dữ liệu lớn hơn để tăng độ chính xác cho chương trình, đóng góp vào kho tàng tri thức của nhân loại.
Tác giả mong muốn có thể tiếp tục nghiên cứu, phát triển để đưa các kết quả được ứng dụng vào thực tế…
TÀI LIỆU THAM KHẢO
Tiếng việt
[1]. TS. Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh, Tháng 12- 2004.
Tiếng anh
[2]. Andreas stolcke, “Entropy-based pruning of backoff language models”,
Proceedings of the ARPA Workshop on human language technology, 1998
[3]. Andreas stolcke, SRILM – an extensible language modeling toolkit, Conference on spoken language processing, 2002.
[4]. Boulos Harb, Ciprian Chelba, Jeffrey Dean, Sanjay Ghemawat, “Back- Off Language Model Compression”, Proceedings of Interspeech 2009, pp. 325-355.
[5]. Chris Manning and Hinrich Schutze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, May 1999.
[6]. Daniel Jurafsky and James H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, chapter 6, February 2000.
[7]. R. Kneser and H. Ney, “Improved backing-off for M-gram language modeling”, Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International Conference on
[8]. Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM T. J. Watson Research Center, Proceedings of the 40th Annual Meeting of the Associaon for Computational Linguistics (ACL), Philadelphia, July 2002.
[9]. Đoàn Xuân Kiên, “Bàn về chuyện đánh dấu thanh trong tiếng Việt”, đăng tại trang http://home.tiscali.be/centre.vietnam/
[10]. Đoàn Xuân Kiên, “xem lại một số vấn đề ngữ âm tiếng Việt: cấu trúc âm tiết”, đăng tại trang http://home.tiscali.be/centre.vietnam/
[11]. Tài liệu về phần mềm VietPad được công bố tại trang web
http://vietpad.sourceforge.net
[12]. Tài liệu về phần mềm AMPad được công bố tại trang web:
http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark
[13]. Tô Hồng Thắng, Building language model for vietnamese and its application, graduation thesis, 2008.