Kết quả kiểm tra và sửa lỗi chính tả Tiếng Việt

Một phần của tài liệu Phát triển ứng dụng phát hiện lỗi chính tả tiếng việt sử dụng mô hình ngôn ngữ (Trang 52 - 60)

Hình 4 .1 Mơ hình hiện thực bài toán

Hình 4.11 Kết quả kiểm tra và sửa lỗi chính tả Tiếng Việt

CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI. 5.1. Các kết quả đạt được

Đề tài thực hiện được mục tiêu đề ra ban đầu là xử lý được việc kiểm tra và sửa lỗi cho Tiếng Việt bằng mơ hình ngơn ngữ.

• Tìm hiểu về các kiến thức nền tảng về xử lý ngôn ngữ tự nhiên, mơ hình ngơn

ngữ,…

• Thu thập và xử lý các bộ dữ liệu văn bản cho mơ hình ngơn ngữ. • Huấn luyện mơ hình ngơn ngữ mức kí tự, mức từ.

• Xây dựng các kỹ thuật sửa lỗi dựa trên mơ hình ngơn ngữ mức kí tự và từ.

Bằng cách dùng Mơ hình ngơn ngữ, tơi nhận thấy có thể áp dụng bài toán này cho nhiều vấn đề khác nhau trong việc xử lý ngôn ngữ tự nhiên. Mơ hình đã được huấn luyện trong đề tài này cũng đã hội tụ.

Việc thực hiện đề tài này giúp tôi thêm tự hào và hiểu sâu sắc hơn về sự thú vị và phong phú của tiếng Việt, góp phần làm nên một nghiên cứu hiện đại vào chính ngơn ngữ quốc gia. Về mặt kỹ thuật, giúp tôi hiểu sâu sắc hơn và tiếp cận hơn với các công nghệ mới, cũng như kỹ thuật xử lý Ngôn ngữ tự nhiên nói riêng và Deep Learning nói chung.

5.2. Hướng phát triển

Việc kiểm tra và sửa lỗi cho Tiếng Việt mới chỉ là bước đầu trong xử lý trên một ngôn ngữ, thế nên hướng mở rộng cho đề tài này là rất lớn:

Về mặt chun sâu, có thể nghiên cứu thêm các mơ hình hay điều chỉnh thơng số để mơ hình cho độ chính xác cao hơn nữa hoặc hậu xử lý sau khi có được mơ hình ngơn ngữ để cho ra dự đoán nhanh hơn, hiệu quả hơn.

Về mặt mở rộng: có thể dùng mơ hình ngơn ngữ của đề tài này phục vụ cho các bài tốn liên quan như “nhận diện ngơn ngữ Tiếng Việt”, hay “Sửa lỗi chính tả - ở mức độ sai dấu”,…

TÀI LIỆU THAM KHẢO

[1] F. Stahlberg, "Neural Machine Translation: A Review," 04 Dec 2019. [Online]. Available: https://arxiv.org/pdf/1912.02047.pdf.

[2] V. H. Tiep, "Basic Machine Learning," [Online]. Available: https://machinelearningcoban.com/.

[3] "Sentiment Analysis for Vietnamese," [Online]. Available: https://ieeexplore.ieee.org/abstract/document/5632131.

[4] Bisong, Ekaba. (2019). Recurrent Neural Networks (RNNs). 10.1007/978-1- 4842- 4470- 8_36.

[5] S. Li and W. Deng (2018) Deep facial expression recognition: A survey. arXiv preprint arXiv:1804.08348.

[6] Sepp Hochreiter and Ju r̈ gen Schmidhuber. Long short-term memory. Neural

computation, 9(8):1735–1780, 1997.

[7] Amed Menshawy (2018), Deep Learning By Example, Packt Publishing. [8] C. Olah (2015), “Understanding LSTM networks,” [Online]. Available:

http://colah.github.io/posts/2015-08-Understanding-LSTMs/.

[9] Ghosh, S. and Kristensson, P. O. (2017), Neural Networks for Text Correction and Completion in Keyboard Decoding. CoRR, abs/1709.06429.

[10] Hany Hassan and Arul Menezes (2013), Social text normalization using contextual graph random walks. In ACL (1), pages 1577–1586.

[11] Li, H., Wang, Y., Liu, X., Sheng, Z., and Wei, S. (2018), Spelling Error Correction Using a Nested RNN Model and Pseudo Training Data. CoRR, abs/1811.00238.

[12] Sakaguchi, K., Duh, K., Post, M., and Durme, B. V. (2017), Robsut Wrod Reocginiton via Semi-Character Recurrent Neural Network. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA, pages 3281– 3287.

[13] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, & Sanjeev [14] Khudanpur (2010), “Recurrent neural network based language model”. In

Eleventh annual conference of the international speech communication association, 2010.

Một phần của tài liệu Phát triển ứng dụng phát hiện lỗi chính tả tiếng việt sử dụng mô hình ngôn ngữ (Trang 52 - 60)

Tải bản đầy đủ (PDF)

(60 trang)