1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập

87 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 1,4 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU - BARIA VUNGTAU UNIVERSITY TRƯƠNG HỮU CHIẾN PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP • • LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN BÀ RỊA VŨNG TÀU - 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU - BARIA VUNGTAU UNIVERSITY TRƯƠNG HỮU CHIẾN PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP • • Chuyên ngành: Công nghệ thông tin Mã ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VĂN THÉ THÀNH BÀ RỊA VŨNG TÀU - 2020 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Phân lớp ngữ nghĩa hĩnh ảnh dựa trên mạng nơ-ron tích chập” là công trình nghiên cứu của tôi dưới sự hướng dẫn của giảng viên hướng dẫn, không trùng lắp của người khác Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan trong nước và quốc tế Các tài liệu được luận văn tham khảo, kế thừa và trích dẫn đều được liệt kê trong danh mục các tài liệu tham khảo Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan trên Bà rịa - Vũng tàu, ngày 12 tháng 12 năm 2020 Học viên Trương Hữu Chiến i LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cảm ơn và bày tỏ sự biết ơn chân thành tới TS.Văn Thế Thành - Giáo viên hướng dẫn khoa học đã trực tiếp hướng dẫn tôi, đã hết lòng hỗ trợ và giúp đỡ tôi trong quá trình nghiên cứu và hoàn thiện luận văn của mình Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy, các cô là giảng viên của Trường Đại học Bà Rịa Vũng Tàu đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu trong suốt quá trình học tập tại trường Và tôi cũng muốn gửi lời cảm tới các anh, chị, em lớp MIT18K1 khóa đầu tiên Thạc sĩ ngành công nghệ thông tin, luôn bên cạnh và động viên tôi trong suốt thời gian học tập và quá trình thực hiện luận văn tốt nghiệp Cuối cùng, tôi cũng xin gửi lời cảm ơn tới cha, vợ và các con, và những người thân trong gia đình tôi, đã chăm lo, động viên tôi tích cực học tập và hoàn thành thật tốt khóa học thạc sĩ này Vì thời gian có hạn, mặc dù đã hết sức cố gắng hoàn thành luận văn nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong nhận được sự cảm thông, chia sẻ, đóng góp ý kiến tận tình của quý thầy cô và các bạn để luận văn được hoàn thiện hơn Tôi xin chân thành cảm ơn! MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ i DANH MỤC BẢNG BIỂU iv LỜI MỞ ĐẦU 1 CHƯƠNG 1 5 TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH 5 1.1 Đặc trưng văn bản đi kèm ảnh 6 1.2 Đặc trưng nội dung ảnh .8 1.3 Hướng tiếp cận theo ngữ nghĩa hình ảnh 10 1.4 Trích xuất đặc trưng 13 1.4.1 Ý nghĩa của trích xuất đặc trưng 14 1.4.2 Các đặc trưng phổ biến 14 1.5 Các nghiên cứu liên quan 15 1.6 Kết luận 17 CHƯƠNG 2 18 TỔNG QUAN VỀ MẠNG NƠ-RON TÍCH CHẬP 18 2.1 Giới thiệu 18 2.2 Một số khái niệm .20 2.3 Kiến trúc mạng nơ-ron tích chập .21 2.3.1 Lớp tích chập (Convolutional) 23 2.3.2 Hàm kích hoạt ReLU .27 2.3.3 Lớp lấy mẫu (Pooling) 28 2.3.4 Lớp kết nối đầy đủ 29 2.4 Kỹ thuật tối ưu mạng 31 2.5 Một số Kiến trúc mạng CNN phổ biến 3 2 2.5 1 Kiến trúc LeNet-5 33 2.5 2 Kiến trúc AlexNet 34 2.5 3 Kiến trúc VGG-16 36 2.5.4 Kiến trúc Inception (GoogleLeNet) 38 2.6 Kết luận 40 CHƯƠNG 3 41 ĐỀ XUẤT MÔ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP .41 TÌM KIẾM THEO NGỮ NGHĨA 41 3.1 Kiến trúc của hệ thống 4 1 3.2 Mô hình phân lớp hình ảnh bằng CNN 42 3.3 Mô hình tìm kiếm theo ngữ nghĩa 46 3.3.1 Các chú thích cho hình ảnh .47 3.3.2 Phát triển Ontology 49 3.3.3 Ontology hình ảnh 50 3.3.4 Truy xuất hình ảnh ngữ nghĩa (SIR-Semantic Image Retrieval) 53 3.4 Kết luận 55 CHƯƠNG 4 56 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 56 4.1 Môi trường và các công cụ sử dụng cho thực nghiệm .56 4.2 Tập dữ liệu thực nghiệm 5 6 4.3 Xây dựng mô hình phân loại ảnh cho hệ thống tìm kiếm 58 4.3.1 Vai trò của Dropout 60 4.3.2 Ảnh hưởng của Batch size đến kết phân lớp dữ liệu 61 4.4 Kết quả tìm kiếm ảnh theo ngữ nghĩa 62 4.5 Kết luận 69 TÀI LIỆU THAM KHẢO 70 Tiếng Việt 70 Tiếng Anh 70 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Tiếng anh Giải thích 01 AI Artificial Intelligence Trí tuệ nhân tạo 02 ANN Artificial Neural Network Mạng nơ-ron nhân tạo 03 CBIR Content-Based Images Retrieval Tìm kiếm ảnh theo nội dung 04 CNN Convolutional Neural Network Mạng nơ-ron tích tập 05 CSDL Database Cơ sở dữ liệu 06 DL Deep Learning Học sâu 07 DNN Deep Neural Network Mạng nơ-ron sâu 08 DT Decision Tree Cây quyết định 09 FNN Feedforward Neural Network Mạng nơ-ron truyền thẳng 10 GPU Graphic Proccessing Unit Bộ vi xử lý dữ liệu hình ảnh 11 HOG Histograms of Oriented Gradients Biểu đồ độ dốc định hướng 12 k-NN k-Nearest Neighbors K-láng giềng gần nhất 13 ILSVRC ImageNet Large Scale Visual Cuộc thi thử thách nhận biết hình ảnh quy mô lớn Recognition Challenge ImageNet 14 IoT Internet of Things Internet vạn vật 15 OWL Ontology Web language Ngôn ngữ ontology web 16 QBIC Query Based Image Content Truy vấn ảnh theo nội dung 17 SBIR Semantic Based Image Retrieval Truy vấn ảnh theo ngữ nghĩa 18 SIFT Scale Invariant Feature Transform Biến đổi đặc trưng cục bộ bất biến SIFT 19 SURF Speeded Up Robust Features Trích chọn đặc trưng SURF 20 SVM Support Vector Machine Máy vec-tơ hỗ trợ 21 ReLU Rectified Linear Unit Điều chỉnh đơn vị tuyến tính 22 RGB Red Green Blue H ệ màu cơ bản 23 RDF Resource Description Framework Khung mô tả tài nguyên 24 SIR Semantic Image Retrieval Truy vấn ảnh nghữ nghĩa 25 SPARQL SPARQL Protocol And RDF Ngôn ngữ truy vấn cho Query Language CSDL ngữ nghĩa 26 TBIR Text-Based Image Retrieval Truy xuất hình ảnh dựa trên văn bản DANH MỤC HÌNH VẼ Hình 1.1: Ví dụ hiển thị một ảnh 7 Hình 1.2: Ví dụ truy vấn “d-80” của Google .7 Hình 1.3: Ví dụ truy vấn “Apple” của Google .8 Hình 1.4: Ví dụ về một số lọai kết cấu 9 Hình 1.5: Minh họa các tầng ngôn ngữ dùng trong ontology 13 Hình 2.1: Mô hình bộ não người 18 Hình 2.2: Mạng nơ-ron tích chập hay Convolutional Neural Networks (CNN) 19 Hình 2.3: Kiến trúc của CNN .22 Hình 2.4: Mạng nơ-ron thông thường 22 Hình 2.5: Mạng nơ-ron tích chập 22 Hình 2.6: Minh họa ảnh dữ liệu đầu vào và bộ lọc 23 Hình 2.7: Minh họa tích chập ảnh đầu vào và kết quả Bảng đồ đặc trưng 24 Hình 2.8: Minh họa quá trình tích chập nhiều lớp .26 Hình 2.9: Minh họa bảng đồ đặc trưng xếp chồng lên nhau 27 Hình 2.10: Các hàm kích hoạt 28 Hình 2.11: Minh họa việc lấy mẫu con 29 Hình 2.12: Một vỉ dụ về mô hình học sâu dựa trên mạng nơ-ron tích chập .31 Hình 2.13: Mạng nơ-ron trước và sau quá trình Dropout 32 Hình 2.14: Mô hình Kiến trúc LeNet-5 .34 Hình 2.15: Mô hình Kiến trúc AlexNet .35 Hình 2.16: Mô hình Kiến trúc AGG-16 37 Hình 2.17: Mô hình dạng cell của Kiến trúc Inception 38 Hình 2.18: Mô hình Kiến trúc Inception 39 Hình 3.1: Kiến trúc của hệ thống .41 Hình 3.2: Áp dụng kiến trúc mạng AlexNet .42 Hình 3.3: Kiến trúc mạng AlexNet ở dạngphẳng .43 Hình 3.4: Minh họa hình ảnh qua các lớptrong kiến trúc AleNet .45 Hình 3.5: Kiến trúc tìm kiếm ngữ nghĩa .46 Hình 3.6: Chú thích một hình ảnh 48 Hình 3.7: Chú thích ontology cho hình ảnh hoa hồng 48 Hình 3.8: Domain ontology của hệ thống 50 Hình 3.9: Liên kết hình ảnh với các ontology trongprotégé .52 Hình 3.10: Mô hình từ khóa tìm kiếm với ngữ nghĩa 53 Hình 4.1: Tập huấn luyện từng phần 57 Hình 4.2: Biểu đồ Confusion matrix đánh giá theo các chủ đề ảnh 59 Hình 4.3: Biểu đồ Precision đánh giá mô hình phân loại theo các chủ đề ảnh 60 Hình 4.4: Minh họa phân lớp dữ liệu hình ảnh 62 Hình 4.5: Minh họa biểu đồ truy vấn khớp hình ảnh 63 ... đề ảnh 2.2 Phương pháp nghiên cứu Thực việc phân tích hình ảnh để trích xuất đặc trưng hình ảnh phân lớp liệu hình ảnh dựa mạng nơ- ron tích chập Xây dựng hệ truy vấn ảnh dựa dựa mơ hình phân. .. quan phân tích ngữ nghĩa hình ảnh Nội dung chương nhằm giới thiệu tổng quan phân tích ngữ nghĩa hình ảnh với đặc trưng văn kèm ảnh, đặc trưng nội dung ảnh, hướng tiếp cận ngữ nghĩa hình ảnh. .. mơ hình sử dụng phổ biến cộng đồng máy học cho hiệu tốn phân loại hình ảnh [5] Từ phân tích gợi ý giảng viên hướng dẫn, định chọn nội dung ''? ?Phân lớp ngữ nghĩa hình ảnh dựa mạng nơ- ron tích chập? ??

Ngày đăng: 24/07/2021, 15:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] P. Muneesawang, N. Zhang, L. Guan, Multimedia Database Retrieval: Technology and Applications, Springer, New York, 2014 Sách, tạp chí
Tiêu đề: Multimedia Database Retrieval: Technologyand Applications
[4] Yushi Chen, Hanlu Jiang, Chunyang Li, Xiuping Jia, and Pedram Ghamisi, “Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks” IEEE Trans. Geosci. Remote Sens., vol. 54, no. 10, Oct. 2016 Sách, tạp chí
Tiêu đề: DeepFeature Extraction and Classification of Hyperspectral Images Based on ConvolutionalNeural Networks” "IEEE Trans. Geosci. Remote Sens
[6] Li, Man, Xiao-Yong Du, and Shan Wang. 2005. “Learning Ontology from Relational Database.” In Machine Learning and Cybernetics, 2005. Proceedings of 2005 International Conference On, 6:3410-3415. IEEE Sách, tạp chí
Tiêu đề: Learning Ontology from RelationalDatabase
[7] Arivazhagan, S., Shebiah, R. N., Nidhyanandhan, S. S., & Ganesan, L. (2010). Fruit Recognition using Color and Texture Features. Information Sciences, 1(2), 90-94 Sách, tạp chí
Tiêu đề: Information Sciences, 1
Tác giả: Arivazhagan, S., Shebiah, R. N., Nidhyanandhan, S. S., & Ganesan, L
Năm: 2010
[8] Sergey Sosnovsky, D., Dicheva, “Ontological technologies for user modeling”, Int.J. Metadata, Semantics and Ontologies, Vol. 5, No. 1, 2010 Sách, tạp chí
Tiêu đề: Ontological technologies for user modeling
[9] Website: www.w3.org/rdf-sparql-query “SPARQL Query Language for RDF”;Website:http://www.w3.org.- "Resource Description Framework (RDF)” Sách, tạp chí
Tiêu đề: SPARQL Query Language for RDF”;Website:http://www.w3.org.- "Resource Description Framework (RDF)
[10] Y. Kim, “Convolutional neural networks for sentence classification”, 2016 Sách, tạp chí
Tiêu đề: Convolutional neural networks for sentence classification
[12] Hyvonen, Eero, Samppa Saarela, Avril Styrman, and Kim Viljanen. 2003.“Ontology-Based Image Retrieval.” In WWW (Posters) Sách, tạp chí
Tiêu đề: Ontology-Based Image Retrieval
[13] Magesh, N., and P. Thangaraj. 2011. “Semantic Image Retrieval Based on Ontology and SPARQL Query.” In International Conference on Advanced Computer Technology (ICACT) Sách, tạp chí
Tiêu đề: Semantic Image Retrieval Based on Ontologyand SPARQL Query
[14] Van T. T. , Le M. T. (2017), “Mot so cai tien cho he truy van anh dua tren cay S- Tree”, proceeding o f Publishing House for Science and Technology Sách, tạp chí
Tiêu đề: Mot so cai tien cho he truy van anh dua tren cay S-Tree
Tác giả: Van T. T. , Le M. T
Năm: 2017
[16] Tim Morris: Computer Vision and Image Processing. Palgrave Macmillan. (2004) Sách, tạp chí
Tiêu đề: Computer Vision and Image Processing
[17] AbdAlmageed, W., Wu, Y., Rawls, S., Harel, S., Hassne, T., Masi, I., Choi, J., Lekust, J., Kim, J., Natarajana, P., Nevatia, R., Medioni, G. Face recognition using deep multi-pose representations. In: IEEE Winter Conference on Applications of Computer Vision (WACV) (2016) Sách, tạp chí
Tiêu đề: Face recognition using deepmulti-pose representations
[21] Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). "Gradient-based learning applied to document recognition" . Proceedings of the IEEE. 86 (11): 2278-2324 Sách, tạp chí
Tiêu đề: Gradient-based learning applied to document recognition
Tác giả: Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P
Năm: 1998
[19] Andrej Karpathy. CS231n Convolutional Neural Networks for Visual Recognition- Image Classification. http://cs231n.github.io/classification/ Link
[23] Source: Illustrated: 10 CNN Architectures - Raimi Karimhttps://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d Link
[11] . Tee Cheng Siew (2008). Feature selection for content-based image retrieval using statistical discriminant analysis. PhD thesis Faculty of Computer Science and Information System Universiti Teknologi Malaysia Khác
[15] Patel, Shabaz Basheer, and Anand Sampat. 2017. “Semantic Image Search Using Khác
[18] Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning, The MIT Press, 2016 Khác
[20] N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, Dropout: a simple way to prevent neural networks from overfitting, Journal of machine learning research 15, 2014, pp. 1929-1958 Khác
[22] Krizhevsky, A., Sutskever, I., & Geoffrey E., H. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 (NIPS2012), 1-9 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w