Dựa vào kết quả chạy mô hình với các tham số khác nhau chúng tôi nhận thấy rằng, mô hình dự đoán tốt, đạt các chỉ số đánh giá cao như các bảng 3.6 và 3.7.
Quá trình dự đoán ngôn ngữ đầu ra cho kết quả tốt. Hình 3.7 cho thấy mô hình nhận biết chính xác 10 ngôn ngữ.
Tuy nhiên vẫn có một số dự đoán cho kết quả không chính xác do mô hình chưa đạt được độ chính xác 100% hoặc do quá trình gán nhãn chưa đúng.
Phân tích lỗi:
Tại mẫu 8114 văn bản đầu vào là "Live Walk By Dan"
เป็นผลงานการเขียนหนังสือครั...” là đoạn văn bản gồm tiếng Anh và tiếng Lào với tỷ lệ các ký tự của 2 ngôn ngữ gần bằng nhau. Nhãn được gán là tiếng Lào, thực tế mô hình đoán là tiếng Trung Quốc. Điều này cho thấy sự khó phân biệt giữa tiếng Lào và tiếng Anh trong câu gán nhãn văn bản này, đâu là ngôn ngữ chính?. Nên gán nhãn là tiếng Anh hay tiếng Lào? mô hình đoán không chính xác.
Tại mẫu 8633 văn bản đầu vào là “Estes, R. (1991). The Behavior Guide to Africa...” là tiếng Anh trong khi đó nhãn được gán là tiếng Lào. Mô hình đoán là tiếng Việt Nam, điều này cho thấy nhãn được gán sai, mô hình đoán sai.
Tại mẫu 113961 văn bản đầu vào là tiếng Lào với nội dung như sau: “เหรียญที่ระลึกพระราชพิธีพระบรมศพสมเด็จพระศรีพั...”. Văn bản được gán là tiếng Lào nhưng mô hình lại đoán ra tiếng Trung. Điều này cho thấy nhãn được gán đúng nhưng mô hình đoán sai, đây là lỗi của mô hình.
KẾT LUẬN
Luận văn “Tự động nhận dạng ngôn ngữ dựa vào học sâu” đã thực hiện được các nội dung chính sau đây:
Một là, trình bày tổng quan về bài toán “tự động nhận biết ngôn ngữ dựa vào học sâu”, tầm quan trọng của nó trong thực tiễn.
Hai là, trình bày mô hình LSTM đối với bài toán, thuật toán phân loại áp
dụng cho bài toán LID và sử dụng các kỹ thuật này trong quá trình tự động nhận biết ngôn ngữ.
Ba là, đã sử dụng tập dữ liệu tự tạo kết hợp với tập dữ liệu có sẵn. Trong
quá trình huấn luyện với 50.000 mẫu huấn luyện, sau đó dùng 10.000 mẫu kiểm thử với mô hình LSTM để đánh giá hệ thống tự động nhận biết ngôn ngữ gồm có tiếng 10 thứ tiếng như trong bảng 3.2. Kết quả thực nghiệm chứng tỏ hiệu quả của mô hình và độ chính xác của việc xác định ngôn ngữ là khả quan.
Tuy nhiên do hạn chế về thời gian cũng như khả năng nghiên cứu của tác giả nên luận văn không tránh khỏi những thiếu sót, khiếm khuyết.
Hướng phát triển tiếp theo: Chúng tôi đang sẽ tự xây dựng thêm dữ liệu cho khoảng 240 ngôn ngữ và phương ngữ thay vì 4 ngôn ngữ và tăng số lượng mẫu (khoảng 1.000.000 mẫu huấn luyện và 100.000 mẫu kiểm thử với mong muốn cho ra kết quả chính xác hơn.)
Tài liệu tham khảo:
[1] Qafmolla, M.A. Nejla, Automatic Language Identification. European Journal of Language and Literature Studies, vol. Volume 3, 2017.
[2] T. Jauhiainen, M. Lui, M. Zampieri, T. Baldwin, K. Lindén, Automatic language identification: A survey. Journal of Artificial Intelligence research,, vol. Vol 65, August 25,2019..
[3] S. Russell, P. Norvig, Artificial intelligence - A modern approach, Third ed., New Jersey: Pearson education, 2010.
[4] Eric Fosler – Lussier, Markov Models and Hidden Markov Models: A Brief Tutorial., 1998.
[5] William B. Cavnar and John M. Trenkle, N-gram-based text categorization. In Proceedings of the Third Symposium on Document Analysis and Information Retrieval, Las Vegas, USA, 1994, p. pages 161–175.
[6] Rennie, J.D., Shih, L., Teevan, J., Karger, D.R, Tackling the poor assumptions of naive Bayes text classifiers. In: Proc Int Conf on Machine Learning., 2003.
[7] K. Greff, R K. Srivastava, J. Koutník, B. R. Steunebrink, J. Schmidhuber, LSTM: A Search Space Odyssey. EEE Transactions on Neural Networks and Learning Systems, vol. 28, Oct. 2017, pp. 2222-2232.
[8] Dasarathy, Nearest neighbor pattern classification techniques., Los Alamitos, CA.: IEEE Computer Society Press, 1991.
[9] T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, and S. Khudanpur, Recurrent neural network based language model,” in INTERSPEECH, 2010, p. 1045–1048.
[10] S. Hochreiter and J. Schmidhuber, Long short-term memory,” Neural Computation, vol. 9, 1997, p. 1735–1780.
[11] T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, and S. Khudanpur, Recurrent neural network based language model,” in INTERSPEECH, 2010, p. 1045–1048.
[12] D. Bahdanau, K. Cho, and Y. Bengio, Neural machine translation by jointly learning to align and translate,” in arXiv:1409.0473 [cs.CL], 2014.
[13] I. Sutskever, O. Vinyals, and Q.V. Le, “Sequence to sequence learning with neural networks,” in NIPS, 2014.
[14] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, and P. Kuksa, Natural language processing (almost) from scratch,” Journal of Machine Learning Research, vol. 12, 2011, p. 2493–2537.
[15] S. Haykin, Neural networks and learning machines, third ed., Pearson education, 2009.
[16] I. S. G. H. A . Krizhevsky, ImageNet Classification with Deep Convolutional Neural Networks. Neural Information Processing Systems. 25., 2012.
[17] D. P. Kingma, J. Ba. Adam, A Method for Stochastic Optimization. Proceedings of the 3rd International Conference on Learning Representations (ICLR). arXiv:1412.6980, 2014/12/22.
[18] P. Werbos., Backpropagation through time: what it does and how to do it. Proceedings of the IEEE. 78, 1990, pp. 1550 - 1560.
[19] N. M. Rezk, M. Purnaprajna, T. Nordström, Z. Ul-Abdin, Recurrent Neural Networks: An Embedded Computing Perspective. IEEE Access., March 23, 2020.
[20] K. Yao, B. Peng, G. Zweig, D. Yu, X. Li, and F. Gao, [Recurrent conditional random field for language understanding,” in ICASSP, 2014.