Minh họa biểu đồ truy vấn khớp hình ảnh

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 76)

- Trường hợp thực nghiệm 1, người dùng đã sử dụng hình ảnh con ngựa vằn làm đầu vào. Cơng cụ truy vấn tạo truy vấn cho cùng một truy vấn và thực thi nó trên cơ sở kiến thức ontology. Kết quả là các hình ảnh được tìm thấy trong cơ sở dữ liệu ảnh phù hợp nhất như trong Hình 4.6.

Hình 4.7 tương tự như trường hợp thực nghiệm 1 ở Hình 4.6 trong đó người dùng nhập một hình ảnh và các hình ảnh liên quan phù hợp nhất được trả về người dùng.

- Trường hợp thực nghiệm 2, người dùng đã sử dụng tính năng nhập văn bản của hệ thống SIR và cung cấp đầu vào dưới dạng văn bản. Ở đây đưa vào từ khóa “Dog” để truy vấn ảnh, ta thấy kết quả trả về là các hình ảnh liên quan đến dog ở Hình 4.8.

Hình 4.8: Trường hợp thực nghiệm với từ khóa truy vấn “Dog”

Tương tự Hình 4.9 với từ khóa truy vấn “Monkey” hệ thống SIR tạo truy vấn tương ứng cho cùng một truy vấn và thực thi nó trên cơ sở dữ liệu ảnh để đưa ra các hình ảnh liên quan được hiển thị cho người dùng.

- Trường hợp thực nghiệm với từ khóa “animal”. Do khơng có hình ảnh nào trong hệ thống có chủ đề là “animal” nên khi tìm với ngữ nghĩa thì sẽ trả về hình của một số loại động vật như monkey, zebra, dog,... vì tất cả các loài này đều là động vật.

4.5. Kết luận

Trong nghiên cứu này, tơi đề x́t mơ hình phân lớp dữ liệu hình ảnh dựa trên mạng tích chập CNN với mơ hình kiến trúc AleNet và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa. Tác giả cũng phân tích tác động của tốc độ học đến việc rút ngắn thời gian huấn luyện, cho thấy vai trò của lớp dropout trong việc giảm overfitting, cũng như kích thước gói batch size ảnh hưởng đến kết quả phân lớp đối tượng. Trong đó, kết quả thực nghiệm cho thấy mơ hình kiến trúc AlexNet với kỹ thuật học sâu được sử dụng để trích x́t thơng tin đặc trưng ảnh cho phân lớp hiệu quả với độ chính xác cao hơn 85%.

Nghiên cứu cũng xây dựng domain ontology cụ thể giúp cho việc biểu diễn mối quan hệ ngữ nghĩa giữa các chủ đề ảnh được rõ ràng hơn, việc tạo bản thể luận (ontology) cho bộ sưu tập các hình ảnh và thiết lập mối quan hệ giữa chúng, giúp cho việc chuẩn hóa từ khóa tìm kiếm, bổ sung thơng tin cho hình ảnh để việc truy x́t hình ảnh có liên quan đến truy vấn của người dùng. Truy vấn SPARQL được sử dụng cho quá trình truy xuất hiệu quả hình ảnh và văn bản dựa trên chủ đề, vị từ và đối tượng bằng cách sử dụng domain ontology. Hệ thống đề xuất đã được thử nghiệm trên bộ dữ liệu hình ảnh thu thập được liên quan đến miền này, kết quả thực nghiệm cho thấy kiểu truy xuất hình ảnh này, truy xuất hiệu quả các hình ảnh rất gần với hình ảnh truy vấn từ cơ sở dữ liệu bản thể học. So với các phương pháp truy xuất hình ảnh dựa trên văn bản / từ khóa và nội dung, truy xuất hình ảnh dựa trên Ontology tập trung nhiều hơn vào việc nắm bắt nội dung ngữ nghĩa (tức là ánh xạ các tính năng hình ảnh với các khái niệm), bởi vì điều này giúp tăng tính năng truy x́t hình ảnh với tốc độ nhanh hơn so với truy xuất thông thường, đã đáp ứng các yêu cầu của người dùng một cách tốt hơn.

Tuy nhiên, hướng phát triển dự kiến được mở rộng trên tập dữ liệu ảnh với số lượng lớn hơn để cải thiện độ chính xác phân lớp dữ liệu ảnh hơn 85%. Hiệu quả của việc tìm kiếm hình ảnh có thể được cải thiện bằng cách tích hợp bản thể học và SPARQL để truy x́t các hình ảnh có liên quan một cách chính xác hơn./.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Nguyễn Đắc Thành, (2017). Nhận dạng và phân loại hoa quả trong ảnh màu. [2] Vũ Hữu Tiệp, (2017). Machine Learning cơ bản.

http://machinelearningcoban.com/general/2017/02/06/featureengineering/

Tiếng Anh

[3] P. Muneesawang, N. Zhang, L. Guan, Multimedia Database Retrieval: Technology

and Applications, Springer, New York, 2014.

[4] Yushi Chen, Hanlu Jiang, Chunyang Li, Xiuping Jia, and Pedram Ghamisi, “Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks” IEEE Trans. Geosci. Remote Sens., vol. 54, no. 10, Oct. 2016.

[5] https://towardsdatascience.com/applied-deep-learning-part-4-convolutional-neural- networks-584bc134c1e2#5777

[6] Li, Man, Xiao-Yong Du, and Shan Wang. 2005. “Learning Ontology from Relational Database.” In Machine Learning and Cybernetics, 2005. Proceedings of 2005 International Conference On, 6:3410–3415. IEEE.

[7] Arivazhagan, S., Shebiah, R. N., Nidhyanandhan, S. S., & Ganesan, L. (2010). Fruit Recognition using Color and Texture Features. Information Sciences, 1(2), 90–94. [8] Sergey Sosnovsky, D., Dicheva, “Ontological technologies for user modeling”, Int. J. Metadata, Semantics and Ontologies, Vol. 5, No. 1, 2010.

[9] Website: www.w3.org/rdf-sparql-query “SPARQL Query Language for RDF”; Website:http://www.w3.org.- "Resource Description Framework (RDF)”.

[10] Y. Kim, “Convolutional neural networks for sentence classification”, 2016.

[11]. Tee Cheng Siew (2008). Feature selection for content-based image retrieval using statistical discriminant analysis. PhD thesis Faculty of Computer Science and Information System Universiti Teknologi Malaysia.

[12] Hyvönen, Eero, Samppa Saarela, Avril Styrman, and Kim Viljanen. 2003. “Ontology-Based Image Retrieval.” In WWW (Posters).

[13] Magesh, N., and P. Thangaraj. 2011. “Semantic Image Retrieval Based on Ontology and SPARQL Query.” In International Conference on Advanced Computer Technology (ICACT).

[14] Van T. T. , Le M. T. (2017), “Mot so cai tien cho he truy van anh dua tren cay S- Tree”, proceeding o f Publishing House for Science and Technology.

[15] Patel, Shabaz Basheer, and Anand Sampat. 2017. “Semantic Image Search Using Queries.” Accessed September 8.

[16] Tim Morris: Computer Vision and Image Processing. Palgrave Macmillan. (2004). [17] AbdAlmageed, W., Wu, Y., Rawls, S., Harel, S., Hassne, T., Masi, I., Choi, J., Lekust, J., Kim, J., Natarajana, P., Nevatia, R., Medioni, G. Face recognition using deep

multi-pose representations. In: IEEE Winter Conference on Applications of Computer

Vision (WACV) (2016)

[18] Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning, The MIT Press, 2016.

[19] Andrej Karpathy. CS231n Convolutional Neural Networks for Visual Recognition- Image Classification. http://cs231n.github.io/classification/

[20] N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, Dropout: a simple way to prevent neural networks from overfitting, Journal of machine learning research 15, 2014, pp. 1929-1958.

[21] Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). "Gradient-based learning applied to document recognition" . Proceedings of the IEEE. 86 (11): 2278–2324. [22] Krizhevsky, A., Sutskever, I., & Geoffrey E., H. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 (NIPS2012), 1–9.

[23] Source: Illustrated: 10 CNN Architectures - Raimi Karim

https://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d

[24] A. Gauthami Latha, Ch. Satyanarayana, Y. Srinivas. Semantic Image Annotation using Ontology And SPARQL. International Journal of Innovative Technology and Exploring Engineering (IJITEE) ISSN: 2278-3075, Volume-9 Issue-3, January 2020 [25] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Fei-Fei, L. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision, 115(3), 211–252.

[26] http://www.image-net.org/challenges/LSVRC/

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 76)

Tải bản đầy đủ (PDF)

(85 trang)