Giao diện mô hình.
Hình 3.2 Giao diện mô hình
• Chọn hình ảnh muốn chú thích trong Browse
• Chọn ngôn ngữ muốn diễn đạt: Tiếng Việt, tiếng Anh, tiếng Tây ban nha, tiếng Nhật.
• Nhấn Process để thực hiện.
Kết quả thực hiện:
Khi chọn ngôn ngữ tiếng Việt Nam thì kết quả như sau:
Hình 3.3 Kết quả chọn ngôn ngữ tiếng Việt
Hình ảnh bên trái là hình ảnh góc. Hình ảnh bên phải là các đối tượng được nhận diện. Chú thích là giọng nói và dòng văn bản “Hai cầu thủ bóng đá đang chơi bóng đá trên sân”.
4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận
Với ý tưởng áp dụng trí tuệ nhân tạo vào các nhu cầu của đời sống, nhằm hỗ trợ con người với những công việc đơn giản và góp phần xây dựng cách mạng công nghiệp 4.0. Với mục tiêu cải tiến các mô hình mạng học sâu để vận dụng xây dựng hệ thống trong việc chú thích ảnh tự động, tác giả đã hoàn thiện luận văn với những kết quả đạt được như sau:
- Giới thiệu tổng quan về mô hình học sâu. Trình bày cụ thể các mô hình mạng nơ-ron, mô hình CNN, mô hình RNN, LSTM, mô hình YOLO.
- Xây dựng được chương trình tạo chú thích ảnh tự động bằng văn bản và giọng nói với nhiều ngôn ngữ khác nhau.
- Khi đưa ra được chú thích thành công sẽ hỗ trợ được người khiếm thị trong việc di chuyển được dễ dàng hơn.
Tuy nhiên do hạn chế về mặt thời gian và kiến thức nên luận văn vẫn còn tồn tại một số thiếu sót mà tác giả còn phải tiếp tục nghiên cứu, tìm hiểu đó là:
- Bộ dữ liệu mẫu còn ít, cần bổ sung thêm nguồn dữ liệu lớn hơn.
- Mới chỉ cài đặt chương trình dựa trên cấu trúc mạng học sâu với mục đích học tập và nghiên cứu, tuy nhiên để ứng dụng vào thực tế cần bộ dữ liệu lớn hơn và thời gian nghiên cứu nhiều hơn để hoàn chỉnh hệ thống.
Hướng phát triển của đề tài
Với rất nhiều ứng dụng thực tế của mạng nơ ron nhân tạo. Đề tài có rất nhiều hướng phát triển trong tương lai, để tạo thành một hệ thống toàn diện hơn, khai thác nhiều thông tin hơn. Luận văn tuy đã thực hiện được mục tiêu ban đầu đặt ra và xây dựng thành công hệ thống chú thích ảnh tự động, tuy nhiên vẫn còn nhiều hạn chế như:
- Cần bổ sung thêm dữ liệu tập huấn để mô hình mạng học sâu có độ tin cậy cao hơn và hoạt động hiệu quả hơn.
- Tìm hiểu nhu cầu thực tế để từ đó cải tiến chương trình, cài đặt lại cấu trúc mạng học sâu đã nghiên cứu để làm việc tốt hơn với các cơ sở dữ liệu lớn.
55
5TÀI LIỆU THAM KHẢO
[1] Xu, Kelvin et al. Show, attend and tell: neural image caption generation with visual attention. arXiv:1502.03044, February 2015.
[2] Mao, Junhua, Xu, Wei, Yang, Yi, Wang, Jiang and Yuille, Alan Deep captioning with multimodal recurrentneural networks. arXiv: 1412.6632, December 2014.
[3] Alex Graves (2012), Supervised Sequence Labelling with Recurrent Neural Networks, Studies in Computational Intelligence, Springer.
[4] https://www.tensorflow.org/tutorials/text/image_captioning? fbclid=IwAR280fs BgmQwIX4DsLZz7CBap5Xm9p2Z8UgJQwkxEuR- kJuAsMa_d4HwpZM truy cập ngày 08/01/2021.
[5] https://github.com/Faizan-E-Mustafa/Image-Captioning? fbclid=IwAR34KRpGFcHhaPMrjqsSweIu2T9Se-
svA4muIB1aVU4EFFh9ot9G4yRVro truy cập ngày 10/01/2021
[6] http://cs231n.stanford.edu/slides/2019/cs231n_2019_lecture10.pdf truy cập ngày 10/01/2021 [7] https://pythonprogramminglanguage.com/text-to-speech/ truy cập ngày 10/01/2021 [8] https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b truy cập ngày 11/01/2021 [9] https://towardsdatascience.com/object-detection-using-yolov3- using-keras- 80bf35e61ce1 truy cập ngày 10/01/2021
[10] https://www.tensorflow.org/tutorials/text/image_captioning? fbclid=IwAR280fsBgmQwIX4DsLZz7CBap5Xm9p2Z8UgJQwkxEuR - kJuAsMa_d4HwpZM truy cập ngày 07/01/2021
[11]. http://nhiethuyettre.me/mang-no-ron-tich-chap-convolutional-neural-network/, truy nhập ngày 02/01/2018.
[12] https://pbcquoc.github.io/yolo/ truy nhập ngày 02/01/2021.
[13]https://dominhhai.github.io/vi/2017/10/what-is-lstm/ truy nhập ngày 02/01/2021