1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm kiếm hình ảnh bằng phương pháp học sâu

108 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT PHẠM HỒNG PHƯƠNG TÌM KIẾM HÌNH ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT PHẠM HỒNG PHƯƠNG TÌM KIẾM HÌNH ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI THANH HÙNG BÌNH DƯƠNG – 2021 ii LỜI CAM ĐOAN Tên là: Phạm Hoàng Phương Sinh ngày: 06/08/1983 Học viên lớp cao học CH19HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Tìm kiếm hình ảnh phương pháp học sâu” Thầy TS Bùi Thanh Hùng hướng dẫn cơng trình nghiên cứu riêng chúng tơi Tất tài liệu tham khảo có nguồn gốc, trích dẫn rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai chúng tơi hồn tồn chịu trách nhiệm trước hội đồng khoa học Bình Dương, tháng 10 năm 2021 Tác giả luận văn Phạm Hoàng Phương iii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy hướng dẫn TS Bùi Thanh Hùng, luận văn Thạc sĩ “Tìm kiếm hình ảnh phương pháp học sâu” hồn thành Tơi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy hướng dẫn TS Bùi Thanh Hùng tận tình dẫn, giúp đỡ tơi hồn thành luận văn Đồng thời gửi lời cảm ơn đến thầy, cô giảng dạy truyền đạt kiến thức quý báo cho suốt thời gian học tập nghiên cứu Tôi chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình học tập, thực hồn thành luận văn iv TĨM TẮT LUẬN VĂN Sự phát triển mạnh mẽ công nghệ ảnh số làm lượng ảnh lưu trữ web tăng lên cách nhanh chóng địi hỏi phải có cơng cụ hỗ trợ tìm kiếm ảnh hiệu tiện lợi Mặc dù cơng cụ tìm kiếm ảnh theo văn kèm ảnh đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng nhanh, nhiên, cơng cụ cịn hạn chế việc giải nhập nhằng nội dung câu truy vấn nội dung hiển thị ảnh trả Sự đời công cụ tìm kiếm hình ảnh theo nội dung ảnh giải nhập nhằng Trong luận văn này, xin đề xuất phương pháp sử dụng mơ hình học sâu mạng nơ-ron tích chập (CNN) để tìm kiếm hình ảnh theo nội dung ảnh nhằm nâng cao chất lượng tìm kiếm ảnh Đầu tiên, chúng tơi kế thừa huấn luyện mơ hình CNN từ mơ hình Pre-trained CNN để trích chọn đặc trưng ảnh Tiếp đó, dựa theo phương pháp tìm kiếm k láng giềng gần kết hợp độ đo tương đồng khoảng cách véc-tor đặc trưng tiến hành thực nghiệm mơ hình Các thực nghiệm thực sở liệu hình ảnh Oxford-IIIT Pet Dataset tự thu thập thêm từ trang web Kaggle sử dụng phương pháp Độ xác (Accuracy score), Ma trận nhầm lẫn (Confusion matrix), Độ đo F1 (Precision, Recall F1 score) để đánh giá mơ hình; Độ xác trung bình Average Precision (AP) Mean Average Precision (mAP) để đánh giá kết tìm kiếm hệ thống tìm kiếm chúng tơi Thực nghiệm ban đầu cho thấy, từ ảnh truy vấn đầu vào, hệ thống trả kết 40 ảnh tương đồng với truy vấn với độ xác 94% kết khả quan v MỤC LỤC TÓM TẮT LUẬN VĂN v MỤC LỤC .vi DANH MỤC CHỮ VIẾT TẮT viii DANH MỤC BẢNG BIỂU ix DANH MỤC HÌNH, ĐỒ THỊ x CHƯƠNG 14 GIỚI THIỆU CHUNG 14 1.1 Lý chọn đề tài 14 1.2 Mục tiêu nghiên cứu 15 1.3 Đối tượng, phạm vi nghiên cứu 15 1.4 Phương pháp nghiên cứu 16 1.5 Ý nghĩa khoa học thực tiễn 16 1.6 Bố cục luận văn 17 CHƯƠNG 18 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 18 2.1 Mạng Nơ-ron tích chập 18 2.1.1 Mạng Nơ-ron nhân tạo 18 2.1.2 Mạng Nơ-ron tích chập 24 2.2 Các mơ hình học sâu CNN 30 2.2.1 Sự hình thành phát triển 30 2.2.2 Các mơ hình CNN tiêu biểu 30 2.3 Tìm kiếm hình ảnh phương pháp học sâu 35 2.3.1 Tổng quan 35 2.3.2 Các nghiên cứu liên quan 38 2.3.3 Hướng đề xuất nghiên cứu 40 CHƯƠNG 42 MƠ HÌNH ĐỀ XUẤT 42 3.1 Tổng quan mô hình đề xuất 42 vi 3.2 Đặc trưng mơ hình đề xuất 43 3.2.1 Trích xuất đặc trưng .43 3.2.2 Mơ hình VGG19 43 3.2.3 Mơ hình InceptionResNetV2 45 3.2.4 Mơ hình DenseNet .46 3.2.5 Mơ hình InceptionV3 47 3.2.6 Mơ hình Xception 49 3.2.7 Tìm kiếm hình ảnh 51 3.2.8 So sánh độ tương đồng 52 3.2.9 Phương pháp đánh giá kết 54 CHƯƠNG 57 THỰC NGHIỆM 57 4.1 Dữ liệu 57 4.1.1 Thu thập liệu 57 4.1.2 Xử lý liệu 59 4.2 Kết thực nghiệm 59 4.2.1 Công nghệ sử dụng 59 4.2.2 Trích xuất đặc trưng .60 4.2.3 Kết quả: 61 4.3 Xây dựng ứng dụng 84 4.3.1 Thiết kế 84 4.3.2 Ứng dụng tìm kiếm hình ảnh 85 CHƯƠNG 96 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 96 5.1 Kết luận 96 5.2 Hướng phát triển 96 CƠNG TRÌNH CƠNG BỐ 98 TÀI LIỆU THAM KHẢO 99 vii DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH ANN Artificial Neural Network MLP Multi Layer Perceptron MSE Mean-Square Error CBIR Content Base Image Retrieval CNN Convolution Neural Network FC Fully Connected RELU Rectified Linear Unit RGB Red Green Blue AP Average Precision MAP Mean Average Precision viii DANH MỤC BẢNG BIỂU Bảng 4.1: Số lượng hình ảnh tập liệu 58 Bảng 4.2: Phân chia liệu 59 Bảng 4.3: Cấu hình phần cứng 60 Bảng 4.4: Kết huấn luyện pre-trained VGG19 61 Bảng 4.5: Kết huấn luyện pre-trained Densenet121 64 Bảng 4.6: Kết huấn luyện pre-trained InceptionResNetV2 67 Bảng 4.7: Kết huấn luyện pre-trained InceptionV3 70 Bảng 4.8: Kết huấn luyện pre-trained Xception 73 Bảng 4.9: Đánh giá độ xác mơ hình CNN 76 Bảng 4.10: So sánh đánh giá 5-Fold Cross Validation 82 Bảng 4.11: So sánh đánh giá mAP 84 ix DANH MỤC HÌNH, ĐỒ THỊ Hình 2.1: Mạng nơ-ron sinh học 18 Hình 2.2: Quá trình xử lý nơ-ron ANN 19 Hình 2.3: Đồ thị hàm kích hoạt: (a).Hàm Tanh; (b).Hàm ReLU; (c).Hàm Sigmoid 21 Hình 2.4: Mạng tự kết hợp 22 Hình 2.5: Mạng kết hợp khác kiểu 22 Hình 2.6: Mạng truyền thẳng 23 Hình 2.7: Mạng phản hồi 23 Hình 2.9: Hình minh họa tích chập 25 Hình 2.10: Ảnh mờ sau tích chập 26 Hình 2.11: Ảnh phát biên sau tích chập .26 Hình 2.12: Minh họa mơ hình CNN 27 Hình 2.13: Minh họa tích chập ma trận ảnh 28 Hình 2.14: Phương thức Average Pooling Max Pooling 29 Hình 2.15: Các cột mốc phát triển mạng CNN 30 Hình 2.16: Các mơ hình học sâu CNN 31 Hình 2.17: Kiến trúc LeNet-5 .31 Hình 2.18: Kiến trúc AlexNet .32 Hình 2.19: Kiến trúc ZFNet 33 Hình 2.20: Kiến trúc VGGNet 34 Hình 2.21: Kiến trúc GoogleNet 35 Hình 2.22: Mơ hình CBIR tổng qt 36 x Hình 4.41: Kết thực nghiệm Mơ tả chi tiết thực nghiệm (Hình 4.41) sau: Input: Chúng tơi chọn hình ảnh đầu vào ảnh cô gái cầm hoa Output: Kết trả 12 ảnh có hình bơng hoa Quan sát ảnh kết khơng có ảnh gái với bơng hoa cả, nguyên nhân sở liệu hình ảnh hệ thống có ảnh bơng hoa 94 Hình 4.42: Kết thực nghiệm Mơ tả chi tiết thực nghiệm (Hình 4.42) sau: Input: Chúng tơi chọn hình ảnh đầu vào ảnh người đàn ông đứng kế bên máy bay Output: Kết trả 12 ảnh có hình máy bay Quan sát ảnh kết khơng có ảnh người đứng kế bên máy bay cả, nguyên nhân sở liệu hình ảnh hệ thống có ảnh máy bay 95 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong chương này, chúng tơi trình bày kết luận nghiên cứu hướng phát triển luận văn 5.1 Kết luận Trong luận văn này, chúng tơi trình bày phương pháp sử dụng mạng nơ ron tích chập huấn luyện từ trước (pre-trained model) tối ưu lại tham số huấn luyện tập liệu Oxford-IIIT Pet Dataset liệu thu thập trang web Kaggle với tổng cộng 8803 hình ảnh để trích xuất véc-tơ đặc trưng so sánh độ tương đồng cho tìm kiếm ảnh truy vấn Chúng tơi áp dụng phương pháp học chuyển giao (transfer learning) để giảm phần thời lượng training, cải thiện chất lượng phân loại ảnh để trích xuất đặc trưng ảnh làm đại diện tốt Đồng thời áp dụng phương pháp “láng giềng gần nhất” (nearest neighbors) nhằm cải thiện tốc độ trả kết tìm kiếm với thời gian truy vấn chấp nhận Tìm kiếm hình ảnh phương pháp học sâu có ưu điểm tận dụng khả xử lý mạng nơ ron tích chập cho thao tác phân loại tính tốn véc tơ đại diện cho ảnh tập ảnh tìm kiếm Nghiên cứu cho thấy việc áp dụng mạng nơ ron tích chập có kết tốt để góp phần nâng cao hiệu cho hệ thống tìm kiếm 5.2 Hướng phát triển Việc huấn luyện mạng nơ ron tích chập hoạt động tiêu tốn tài nguyên thời gian, nghiên cứu chưa thực tối ưu cách triệt để tham số mơ hình Do đó, tham số mạng nơ ron tích chập cần bổ sung mở rộng khoảng giá trị thực tối ưu nhằm tìm tham số tốt Ngồi ra, để áp dụng cho tốn tìm kiếm sản phẩm theo ảnh có độ xác cao khơng thể áp dụng mạng CNN để trích xuất đặc trưng hình ảnh với đầu mạng vec-tor đặc trưng sau dùng thư viện Annoy để tìm kiếm sản phẩm có kích thước giống dẫn tới việc mơ hình cho kết tìm kiếm dễ bị nhầm lẫn Hướng phát triển tới, việc dùng vector embedding từ mơ hình chúng tơi nghiên cứu kết hợp thêm việc trích xuất đặc trưng màu sắc 96 khu vực hình ảnh Chúng thu thập thêm liệu huấn luyện mơ hình với nhiều hình ảnh để tăng độ xác mơ hình mạng nơ-ron học sâu Và tiếp tục nghiên cứu thêm nhiều phương pháp học sâu khác để tìm mơ hình có độ xác cao 97 CƠNG TRÌNH CƠNG BỐ Phạm Hồng Phương, Bùi Thanh Hùng, “Tìm kiếm hình ảnh phương pháp học sâu” NGÀY HỘI KHOA HỌC CÁN BỘ, GIẢNG VIÊN TRẺ VÀ HỌC VIÊN CAO HỌC LẦN THỨ V – NĂM 2021 tổ chức trường Đại học Thủ Dầu Một (tháng 06/2021) Phạm Hoàng Phương, Bùi Thanh Hùng, “Tìm kiếm hình ảnh phương pháp học sâu” Bài báo chấp nhận trình bày Hội nghị khoa học quốc gia lần thứ XIV "Nghiên cứu ứng dụng công nghệ thông tin" FAIR’2021 tổ chức Trường Đại học Công nghiệp Thực phẩm TP Hồ Chí Minh (HUFI) Bui Thanh Hung, Pham Hoang Phuong, “Content based Image Retrieval based on Deep Learning Approach” International Conference on Computer Vision and Robotics (CVR 2021) Organized by Babu Banarasi Das University Lucknow, India and Soft Computing Research Society (August 07-08, 2021) 98 TÀI LIỆU THAM KHẢO [1] A.D.Dongare, R.R.Kharde, Amit D.Kachare, “Introduction to Artificial Neural Network”, International Journal of Engineering and Innovative Technology (IJEIT 2012) [2] Fukushima, K.: Neocognitron, “A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, Biological Cybernetics 36(4), 193–202 (1980) [3] Yann LeCun, Léeon Bottou, Yoshua Bengio, and Patrick Haffner, “Gradient-Based Learning Applied to Document Recognition”, IEEE 1998 [4] Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, University of Toronto Canada, “ImageNet Classification with Deep Convolutional Neural Networks”, Neural Information Processing Systems (NIPS 2012) [5] Matthew D Zeiler, Rob Fergus, “Visualizing and Understanding Convolutional Networks”, arXiv:1311.2901v3 [cs.CV] 28 Nov 2013 [6] Karen Simonyan, Andrew Zisserman, “Very Deep Convolutional Networks For Large-Scale Image Recognition”, ICLR 2015 [7] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, “Going Deeper with Convolutions”, 2014 [8] Wengang Zhou, Houqiang Li, and Qi Tian, “Recent Advance in Contentbased Image Retrieval: A Literature Survey”, 2017 [9] P.S Hirematch, Jagadeesh Pujari, “Content base image retrieval base on color, texture and shape feature using Image and its complement”, International journal of computer science and security (IJCSS 2007) [10] D N F Awang Iskandar James A Thom S M M Tahaghoghi, “Contentbased Image Retrieval Using Image Regions as Query Examples” CRPIT 2008 [11] Shabaz Basheer Patel, Anand Sampat, “Semantic image search using queries”, Computer Vision and Pattern Recognition (CVPR 2017) [12] M Hadi Kiapour, Xufeng Han, Svetlana Lazebnik, Alexander C Berg, and Tamara L Berg, “Where to Buy It: Matching Street Clothing Photos in Online Shops”, ICCV 2015 99 [13] Agnes Borras, Francesc Tous, Josep Lladós, Maria Vanrell, “High-Level Clothes Description Based on Color-Texture and Structural Features”, Computer Science, Iberian Conference, Pattern Recognition and Image Analysis (2013) [14] Lukas Bossard, Matthias Dantone, Christian Leistner, Christian Wengert, Till Quack, Luc Van Gool, “Apparel Classification with Style”, ACCV 2012 [15] Liu, Ying, Dengsheng Zhang, Guojun Lu, and Wei-Ying Ma, “A Survey of Content-Based Image Retrieval with High-Level Semantics”, Pattern Recogn 40 (1): 262–282 [16] Magesh, N., and P Thangaraj, “Semantic Image Retrieval Based on Ontology and SPARQL Query”, International Conference on Advanced Computer Technology (ICACT 2011) [17] Hyvönen, Eero, Samppa Saarela, Avril Styrman, and Kim Viljanen, “Ontology-Based Image Retrieval”, WWW (Posters 2003) [18] Alex Krizhevsky, Ilya Sutskever, and Geo rey E Hinton, “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS 2012 [19] K Simonyan and A Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition”, ICLR 2015 [20] Jerome Revaud, Jon Almazan, Rafael S Rezende, Cesar Roberto de Souza, “Learning With Average Precision: Training Image Retrieval With a Listwise Loss”, International Conference on Computer Vision (ICCV 2019) [21] Wenhan Luo, Junliang Xing, Anton Milan, Xiaoqin Zhang, Wei Liu, Xiaowei Zhao, Tae-Kyun Kim, “Multiple Object Tracking: A Literature Review”, 2014 [22] Alex Krizhevsky, Ilya Sutskever, and Geo rey E Hinton, “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS 2017 [23] Zezhou Cheng, Qingxiong Yang, Bin Sheng Deep Colorization ICCV 2015 [24] W Zhou, H Li, and Q Tian, “Recent advance in contentbased image retrieval: a literature survey,” 2017, https://arxiv.org/abs/1706.06064 100 [25] B Zafar, R Ashraf, N Ali et al., “A novel discriminating and relative global spatial image representation with applications in CBIR”, Applied Sciences, vol 8, no 11, p 2242, 2018 101 102 103 104 105 106 107 108 ... chức tìm kiếm ảnh theo cách truyền thống Vì vậy, việc xây dựng hệ thống tìm kiếm ảnh điều cấp bách cần thiết Các hệ thống tìm kiếm ảnh thường sử dụng phương pháp tìm kiếm ảnh theo văn kèm với ảnh. .. 80 Hình 4.26: Kết 5-Fold Cross Validation pre-trained Xception 81 Hình 4.27: Hình ảnh tìm kiếm pre-trained VGG19 82 Hình 4.28: Hình ảnh tìm kiếm pre-trained Densenet121 83 Hình 4.29: Hình ảnh. .. xuất phương pháp sử dụng mơ hình học sâu mạng nơ-ron tích chập (CNN) để tìm kiếm hình ảnh theo nội dung ảnh nhằm nâng cao chất lượng tìm kiếm ảnh Đầu tiên, chúng tơi kế thừa huấn luyện mơ hình

Ngày đăng: 08/03/2022, 16:43

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w