So sánh đánh giá 5-Fold Cross Validation

Một phần của tài liệu Tìm kiếm hình ảnh bằng phương pháp học sâu (Trang 82)

Quy trình tìm kiếm hình ảnh được tiến hành như sau:

- Giai đoạn 1: Sử dụng thư viện Annoy (phương pháp Nearest Neighbor Search) để đánh chỉ mục (index) các véc-tơ đặc trưng ảnh trong cơ sở dữ liệu hình ảnh đã được trích xuất từ các mơ hình CNN trước đó.

- Giai đoạn 2: Khi người dùng gửi hình ảnh truy vấn đến hệ thống, hệ thống sẽ trích xuất véc-tơ đặc trưng từ ảnh truy vấn này sau đó so sánh độ tương đồng với các vec-tơ đặc trưng hình ảnh trong cơ sở dữ liệu hình ảnh bằng phép đo khoảng cách angular. Tập K hình ảnh gần giống nhất với ảnh truy vấn được trả về theo khoảng cách được tính, trong đó hình ảnh gần giống nhất sẽ là ảnh có khoảng cách ngắn nhất đến truy vấn.

83

Hình 4.28: Hình ảnh được tìm kiếm bằng pre-trained Densenet121

Hình 4.29: Hình ảnh được tìm kiếm bằng pre-trained InceptionResNetV2

84

Hình 4.31: Hình ảnh được tìm kiếm bằng pre-trained Xception

Để đánh giá kết quả xếp hạng của hệ thống tìm kiếm, chúng tơi thử nghiệm hệ thống bằng 781 truy vấn ảnh được lấy ngẩu nhiên từ tổng 10% hình ảnh trong mỗi bộ dữ liệu ảnh và đánh giá kết quả trả về đối với MP@1, MP@10 , MP@20 và MP@40. Kết quả chi tiết về độ chính xác trung bình mAP của hệ thống tìm kiếm trong Bảng

4.11. Bảng 4.11: So sánh đánh giá mAP 4.3. X ây dựng ứng dụng 4.3.1. Thiết kế

Để trực quan các kết quả đạt được chúng tơi xây dựng chương trình dựa trên các công cụ Flask, HTML, CSS, Boostrap 3, Jquery, Python 3.8. Chương trình có các

Mơ hình MP@1 MP@10 MP@20 MP@40 Thời gian truy vấn trung bình VGG19 48,27% 38,40% 36,88% 35,88% 180 giây Densenet121 100% 97,10% 97,00% 96,99% 102 giây InceptionResNetV2 100% 93,97% 93,52% 94,18% 121 giây InceptionV3 100% 96,97% 96,89% 96,70% 136 giây Xception 100% 98,81% 98,84% 98,86% 190 giây

85

chức năng chính như: Phân tích dữ liệu, Mơ hình huấn luyện, Đánh giá mơ hình và Tìm kiếm hình ảnh.

4.3.2. Ứng dụng tìm kiếm hình ảnh

Hình 4.32: Giao diện chính

Chức năng phân tích dữ liệu: hiển thị quá trình phân tích và tiền xử lý dữ

86

Hình 4.33: Giao diện phân tích dữ liệu

Chức năng mơ hình huấn luyện: hiển thị cấu trúc mơ hình huấn luyện và kết

87

88

89

90

Chức năng đánh giá mơ hình: hiển thị chi tiết kết quả thực nghiệm các mơ

hình thực nghiệm VGG19, Densenet121, InceptionResNetV2, InceptionV3 và Xception

91

Chức năng tìm kiếm hình ảnh: Với mơ hình đã huấn luyện, ta có thể tiến

hành tìm kiếm hình ảnh bằng cách chọn ảnh muốn tìm kiếm:

Hình 4.38: Kết quả thực nghiệm 1 Mô tả chi tiết thực nghiệm 1 (Hình 4.38) như sau: Mơ tả chi tiết thực nghiệm 1 (Hình 4.38) như sau:

Input: Chúng tơi chọn hình ảnh đầu vào là ảnh một cô gái đứng kế bên con ngựa.

Output: Kết quả được trả về là 12 bức ảnh có hình “người và ngựa” hoặc hình “ngựa”. Quan sát các ảnh kết quả này đều có nét tương đồng với ảnh input.

92

Hình 4.39: Kết quả thực nghiệm 2 Mơ tả chi tiết thực nghiệm 2 (Hình 4.39) như sau: Mơ tả chi tiết thực nghiệm 2 (Hình 4.39) như sau:

Input: Chúng tơi chọn hình ảnh đầu vào là ảnh một con hổ vằn ngẫu nhiên. Output: Kết quả được trả về là 12 bức ảnh có hình hổ vằn. Quan sát các ảnh kết quả này đều tương đồng với ảnh input.

93

Hình 4.40: Kết quả thực nghiệm 3 Mơ tả chi tiết thực nghiệm 3 (Hình 4.40) như sau: Mơ tả chi tiết thực nghiệm 3 (Hình 4.40) như sau:

Input: Chúng tơi chọn hình ảnh đầu vào là ảnh một con dê núi ngẫu nhiên. Output: Kết quả được trả về là 12 bức ảnh có hình dê núi. Quan sát các ảnh kết quả này đều tương đồng với ảnh input.

94

Hình 4.41: Kết quả thực nghiệm 4 Mơ tả chi tiết thực nghiệm 4 (Hình 4.41) như sau: Mơ tả chi tiết thực nghiệm 4 (Hình 4.41) như sau:

Input: Chúng tơi chọn hình ảnh đầu vào là ảnh một cơ gái cầm bông hoa.

Output: Kết quả được trả về là 12 bức ảnh có hình bơng hoa. Quan sát các ảnh kết quả này là khơng có ảnh cơ gái với bông hoa nào cả, nguyên nhân do trong cơ sở dữ liệu hình ảnh của hệ thống chỉ có ảnh bơng hoa.

95

Hình 4.42: Kết quả thực nghiệm 5 Mơ tả chi tiết thực nghiệm 5 (Hình 4.42) như sau: Mơ tả chi tiết thực nghiệm 5 (Hình 4.42) như sau:

Input: Chúng tơi chọn hình ảnh đầu vào là ảnh một người đàn ơng đứng kế bên chiếc máy bay.

Output: Kết quả được trả về là 12 bức ảnh có hình máy bay. Quan sát các ảnh kết quả này là khơng có ảnh người nào đứng kế bên chiếc máy bay cả, nguyên nhân do trong cơ sở dữ liệu hình ảnh của hệ thống chỉ có ảnh máy bay.

96

CHƯƠNG 5

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong chương này, chúng tơi trình bày kết luận về nghiên cứu và hướng phát triển của luận văn.

5.1. Kết luận

Trong luận văn này, chúng tơi đã trình bày phương pháp sử dụng một mạng nơ ron tích chập đã huấn luyện từ trước (pre-trained model) và tối ưu lại các tham số huấn luyện trên tập dữ liệu Oxford-IIIT Pet Dataset và dữ liệu thu thập trên trang web Kaggle với tổng cộng 8803 hình ảnh để trích xuất véc-tơ đặc trưng và so sánh độ tương đồng cho tìm kiếm ảnh truy vấn. Chúng tơi áp dụng phương pháp học chuyển giao (transfer learning) để giảm phần nào thời lượng training, cải thiện chất lượng phân loại ảnh để trích xuất được đặc trưng của ảnh làm đại diện tốt nhất. Đồng thời áp dụng phương pháp “láng giềng gần nhất” (nearest neighbors) nhằm cải thiện tốc độ trả về kết quả tìm kiếm với thời gian truy vấn chấp nhận được. Tìm kiếm hình ảnh bằng phương pháp học sâu có ưu điểm là tận dụng được khả năng xử lý của mạng nơ ron tích chập cho cả thao tác phân loại và tính tốn véc tơ đại diện cho các ảnh trong tập ảnh tìm kiếm. Nghiên cứu này đã cho thấy việc áp dụng mạng nơ ron tích chập có kết quả tốt để góp phần nâng cao hiệu quả cho các hệ thống tìm kiếm.

5.2. Hướng phát triển

Việc huấn luyện trên mạng nơ ron tích chập là một hoạt động tiêu tốn tài nguyên và thời gian, nghiên cứu này chưa thực hiện tối ưu một cách triệt để các tham số của mơ hình. Do đó, các tham số của mạng nơ ron tích chập cũng cần được bổ sung và mở rộng khoảng giá trị khi thực hiện tối ưu nhằm tìm ra bộ tham số tốt nhất.

Ngồi ra, để có thể áp dụng cho một bài tốn tìm kiếm sản phẩm theo ảnh có độ chính xác cao thì khơng thể chỉ áp dụng mạng CNN để trích xuất đặc trưng của hình ảnh với đầu ra của mạng là một vec-tor đặc trưng sau đó dùng thư viện Annoy để tìm kiếm vì những sản phẩm có kích thước khá giống nhau dẫn tới việc mơ hình sẽ cho ra kết quả tìm kiếm dễ bị nhầm lẫn.

Hướng phát triển sắp tới, ngoài việc dùng vector embedding từ mơ hình thì chúng tơi sẽ nghiên cứu kết hợp thêm việc trích xuất đặc trưng về màu sắc trên từng

97

khu vực của hình ảnh. Chúng tôi sẽ thu thập thêm dữ liệu huấn luyện mơ hình với nhiều hình ảnh hơn để tăng độ chính xác của mơ hình mạng nơ-ron học sâu. Và tiếp tục nghiên cứu thêm nhiều phương pháp học sâu khác để tìm mơ hình có độ chính xác cao hơn.

98

CƠNG TRÌNH CƠNG BỐ

Phạm Hồng Phương, Bùi Thanh Hùng, “Tìm kiếm hình ảnh bằng phương

pháp học sâu”. NGÀY HỘI KHOA HỌC CÁN BỘ, GIẢNG VIÊN TRẺ VÀ HỌC

VIÊN CAO HỌC LẦN THỨ V – NĂM 2021 được tổ chức tại trường Đại học Thủ Dầu Một (tháng 06/2021).

Phạm Hoàng Phương, Bùi Thanh Hùng, “Tìm kiếm hình ảnh bằng phương

pháp học sâu”. Bài báo được chấp nhận trình bày tại Hội nghị khoa học quốc gia lần

thứ XIV về "Nghiên cứu cơ bản và ứng dụng công nghệ thông tin" FAIR’2021 được tổ chức tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI)

Bui Thanh Hung, Pham Hoang Phuong, “Content based Image Retrieval

based on Deep Learning Approach”. International Conference on Computer Vision

and Robotics (CVR 2021). Organized by Babu Banarasi Das University Lucknow, India and Soft Computing Research Society (August 07-08, 2021).

99

TÀI LIỆU THAM KHẢO

[1] A.D.Dongare, R.R.Kharde, Amit D.Kachare, “Introduction to Artificial Neural Network”, International Journal of Engineering and Innovative Technology (IJEIT 2012)

[2] Fukushima, K.: Neocognitron, “A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, Biological Cybernetics 36(4), 193–202 (1980)

[3] Yann LeCun, Léeon Bottou, Yoshua Bengio, and Patrick Haffner, “Gradient-Based Learning Applied to Document Recognition”, IEEE 1998 [4] Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, University of Toronto

Canada, “ImageNet Classification with Deep Convolutional Neural Networks”, Neural Information Processing Systems (NIPS 2012)

[5] Matthew D Zeiler, Rob Fergus, “Visualizing and Understanding Convolutional Networks”, arXiv:1311.2901v3 [cs.CV] 28 Nov 2013

[6] Karen Simonyan, Andrew Zisserman, “Very Deep Convolutional Networks For Large-Scale Image Recognition”, ICLR 2015

[7] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, “Going Deeper with Convolutions”, 2014

[8] Wengang Zhou, Houqiang Li, and Qi Tian, “Recent Advance in Content- based Image Retrieval: A Literature Survey”, 2017

[9] P.S. Hirematch, Jagadeesh Pujari, “Content base image retrieval base on color, texture and shape feature using Image and its complement”, International journal of computer science and security (IJCSS 2007)

[10] D. N. F. Awang Iskandar James A. Thom S. M. M. Tahaghoghi, “Content- based Image Retrieval Using Image Regions as Query Examples”. CRPIT 2008

[11] Shabaz Basheer Patel, Anand Sampat, “Semantic image search using queries”, Computer Vision and Pattern Recognition (CVPR 2017)

[12] M. Hadi Kiapour, Xufeng Han, Svetlana Lazebnik, Alexander C. Berg, and Tamara L. Berg, “Where to Buy It: Matching Street Clothing Photos in Online Shops”, ICCV 2015

100

[13] Agnes Borras, Francesc Tous, Josep Lladós, Maria Vanrell, “High-Level Clothes Description Based on Color-Texture and Structural Features”, Computer Science, Iberian Conference, Pattern Recognition and Image Analysis (2013)

[14] Lukas Bossard, Matthias Dantone, Christian Leistner, Christian Wengert, Till Quack, Luc Van Gool, “Apparel Classification with Style”, ACCV 2012

[15] Liu, Ying, Dengsheng Zhang, Guojun Lu, and Wei-Ying Ma, “A Survey of Content-Based Image Retrieval with High-Level Semantics”, Pattern Recogn. 40 (1): 262–282

[16] Magesh, N., and P. Thangaraj, “Semantic Image Retrieval Based on Ontology and SPARQL Query”, International Conference on Advanced Computer Technology (ICACT 2011)

[17] Hyvönen, Eero, Samppa Saarela, Avril Styrman, and Kim Viljanen, “Ontology-Based Image Retrieval”, WWW (Posters 2003)

[18] Alex Krizhevsky, Ilya Sutskever, and Geo rey E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS 2012 [19] K. Simonyan and A. Zisserman, “Very Deep Convolutional Networks for

Large-Scale Image Recognition”, ICLR 2015

[20] Jerome Revaud, Jon Almazan, Rafael S. Rezende, Cesar Roberto de Souza, “Learning With Average Precision: Training Image Retrieval With a Listwise Loss”, International Conference on Computer Vision (ICCV 2019) [21] Wenhan Luo, Junliang Xing, Anton Milan, Xiaoqin Zhang, Wei Liu, Xiaowei Zhao, Tae-Kyun Kim, “Multiple Object Tracking: A Literature Review”, 2014

[22] Alex Krizhevsky, Ilya Sutskever, and Geo rey E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS 2017 [23] Zezhou Cheng, Qingxiong Yang, Bin Sheng. Deep Colorization. ICCV

2015

[24] W. Zhou, H. Li, and Q. Tian, “Recent advance in contentbased image retrieval: a literature survey,” 2017, https://arxiv.org/abs/1706.06064

101

[25] B. Zafar, R. Ashraf, N. Ali et al., “A novel discriminating and relative global spatial image representation with applications in CBIR”, Applied Sciences, vol. 8, no. 11, p. 2242, 2018.

Một phần của tài liệu Tìm kiếm hình ảnh bằng phương pháp học sâu (Trang 82)

Tải bản đầy đủ (PDF)

(108 trang)