Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 136 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
136
Dung lượng
20,8 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN VINH TIỆP TRUY VẤN HIỆU QUẢ THÔNG TIN THỊ GIÁC TỪ DỮ LIỆU LỚN ĐỂ PHÁT TRIỂN MÔI TRƯỜNG THÔNG MINH LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – 2019 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN VINH TIỆP TRUY VẤN HIỆU QUẢ THÔNG TIN THỊ GIÁC TỪ DỮ LIỆU LỚN ĐỂ PHÁT TRIỂN MÔI TRƯỜNG THƠNG MINH Chun ngành: Khoa học Máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TRẦN MINH TRIẾT PGS.TS DƯƠNG ANH ĐỨC PHẢN BIỆN 1: PGS.TS NGUYỄN THANH BÌNH PHẢN BIỆN 2: PGS.TS TRẦN THỊ THANH HẢI TP.HỒ CHÍ MINH – 2019 TÓM TẮT Hiện nay, khối lượng liệu ảnh tĩnh video từ nhiều nguồn khác gia tăng ngày nhanh chóng Điều tất yếu dẫn đến nhu cầu phân tích để hiểu khai thác kho liệu Trên sở đó, nhiều ứng dụng khác nghiên cứu phát triển nhằm cung cấp thông tin, dịch vụ, tiện ích tốt phục vụ sống người lúc nơi, tạo tích hợp tính thơng minh vào mơi trường sống ngày Trong truy vấn kho liệu lớn toán nhằm quản lý, khai thác tạo ứng dụng với tính thơng minh Luận án tập trung đề xuất số phương pháp truy vấn hiệu với thể thức truy vấn khác từ kho liệu lớn ảnh tĩnh video theo nhu cầu tìm kiếm khác người dùng Người sử dụng sử dụng ảnh mẫu đối tượng câu mô tả dạng văn Khi truy vấn ảnh mẫu đối tượng, người sử dụng quan tâm đến tồn cảnh vật ảnh (scene), đối tượng ảnh Ngoài ra, nhiều tình người sử dụng quan tâm đến nhóm đối tượng tìm người địa điểm cho trước Khi truy vấn câu mô tả, người sử dụng dùng văn nói để diễn đạt đối tượng quan hệ đối tượng tổng thể ảnh cần tìm Ứng với thể thức đối tượng truy vấn kể trên, chúng tơi có đóng góp sau Truy vấn dựa ảnh mẫu Đối với thể thức truy vấn dựa ảnh mẫu, người sử dụng quan tâm đến (i) cảnh vật chứa toàn ảnh mẫu, (ii) đối tượng chứa ảnh mẫu (iii) nhiều đối tượng thuộc nhiều ảnh mẫu khác nhau, cụ thể người địa điểm Khi đối tượng truy vấn cảnh vật có nhiều điểm đặc trưng, việc sử dụng mơ hình túi từ (Bag-of-Visual-Word, viết tắt BOW) kết hợp với kỹ thuật cải tiến kiểm tra ràng buộc hình học bước hậu xử lý giúp tăng độ xác cách đáng kể Tuy nhiên, kỹ thuật thường tốn thời gian xử lý tốn nhớ để lưu thông tin liên quan đến vị trí đặc trưng Do loại đối tượng có nhiều đặc trưng này, đề xuất phương pháp kết hợp file mục ngược với cấu trúc kim tự tháp không gian (spatial pyramid) để vừa tăng tốc độ giảm thời gian truy vấn Phương pháp công bố công trình [CT1] Mặt khác, tìm kiếm với đối tượng nằm ảnh, số lượng đặc trưng hơn, giả thiết mơ hình BOW bị vi phạm Cho dù sử dụng kỹ thuật hậu xử lý nâng cao mơ hình BOW kiểm tra ràng buộc hình học, mở rộng truy vấn khơng giải vấn đề Do đó, chúng tơi đề xuất phương pháp kiểm tra ràng buộc dung hợp mơ hình BOW (tiếp cận từ lên hay gọi "bottomup") phương pháp phát đối tượng (tiếp cận từ xuống hay cịn gọi "top-down") Đóng góp chúng tơi đề xuất khai thác hiệu mối quan hệ vị trí từ thị giác (visual word) với vị trí đề xuất đối tượng (object instance proposal) ước lượng phát đối tượng Phương pháp cơng bố cơng trình [CT3], [CT7] Bên cạnh thể thức truy vấn cảnh vật đối tượng cụ thể, thực tế người dùng kết hợp nhóm loại đối tượng khác nhau: tìm người cho trước địa điểm cho trước Hiện chưa có nhiều cơng bố liên quan đến việc tìm kiếm kết hợp nhóm đối tượng khác Khi ghi nhận hình ảnh, thơng thường camera khơng tập trung vào hai đối tượng lúc Do đặc trưng thị giác hỗ trợ cho việc nhận biết hai loại đối tượng khơng có phân bố xác suất mặt thời gian Do việc áp dụng phương pháp kết hợp cách máy móc lấy trung bình giá trị tương đồng bước hậu xử lý cho đối tượng cho kết thấp Luận án đề xuất phương pháp khai thác thông tin ngữ cảnh dạng đặc trưng cấp cao địa điểm quan tâm với đặc trưng học sâu (deep feature) rút trích từ gương mặt người cần truy vấn Ngồi ra, chúng tơi cịn đề xuất phương pháp theo vết địa điểm (scene tracking) để tăng độ phủ kết truy vấn Phương pháp cơng bố cơng trình [CT2], [CT5] Truy vấn câu mô tả Đây toán thú vị quan tâm thời gian gần Hướng tiếp cận truyền thống mà cơng cụ tìm kiếm thương mại hóa Google Images, Bing Images sử dụng dựa vào từ khóa văn kèm với ảnh Trong nhiều trường hợp, nội dung kèm người đăng cung cấp khơng đầy đủ khơng với mà hình ảnh thể Mặt khác, câu truy vấn mơ tả ii người dùng hàm chứa ngữ nghĩa phức tạp Luận án đề xuất hệ thống truy vấn khai thác khía cạnh khác ảnh như: đối tượng chính, quan hệ ngữ cảnh đối tượng, thuộc tính địa điểm ảnh liệu metadata cung cấp người dùng Hệ thống cơng bố cơng trình [CT4] Trong q trình phát triển thuật toán phục vụ cho toán truy vấn đối tượng dựa vào thông tin thị giác, xây dựng hệ thống để minh họa cho ý tưởng tương tác tiềm ứng dụng thực tế Cụ thể là, với toán truy vấn sử dụng ảnh mẫu, xây dựng hệ thống khuyến nghị gợi nhớ hình ảnh có liên quan mạng xã hội Với toán truy vấn sử dụng câu mơ tả, chúng tơi xây dựng hệ thống tìm kiếm từ khoá tập liệu video lớn Các hệ thống công bố cơng trình [CT6],[CT4] iii Mục lục Tổng quan 1.1 Mở đầu 1 1.2 Lý thực đề tài 1.3 Mục tiêu luận án 1.3.1 1.3.2 Tìm kiếm với ảnh ví dụ cảnh vật cho trước Tìm kiếm với ảnh ví dụ đối tượng 1.3.3 Tìm kiếm với ảnh ví dụ người địa điểm 1.3.4 Tìm kiếm dựa mô tả ngôn ngữ tự nhiên Đóng góp luận án Bố cục luận án 12 1.4 1.5 Các cơng trình liên quan 14 2.1 Mơ tả tốn mục tiêu hệ thống 15 2.2 Tiếp cận biểu diễn ảnh sử dụng đặc trưng cục 16 2.2.1 2.2.2 So khớp ảnh với đặc trưng cục Mơ hình túi từ tốn tìm kiếm đối tượng ảnh 16 17 2.2.3 Kiểm tra ràng buộc hình học 22 2.2.4 Tăng cường độ phủ: Mở rộng truy vấn tăng cường đặc trưng 23 2.3 2.2.5 Kết hợp phương pháp Tiếp cận biểu diễn ảnh sử dụng đặc trưng trích xuất từ mạng DNN 25 27 2.4 Tiếp cận biểu diễn ảnh sử dụng ngữ nghĩa 30 Kết hợp Spatial Pyramid cấu trúc mục ngược cho tốn tìm kiếm cảnh vật 33 3.1 Mở đầu 3.1.1 Nhu cầu thực tế 33 33 3.1.2 Phát biểu toán 34 3.1.3 Hướng tiếp cận luận án 34 iv 3.2 Các cơng trình liên quan 36 3.3 Cấu trúc không gian mục ngược 3.3.1 Cấu trúc mục ngược mơ hình biểu diễn BOW 38 38 3.3.2 3.4 3.5 Tích hợp thơng tin khơng gian vào cấu trúc mục ngược sử dụng Spatial Pyramid 39 Kết thực nghiệm 3.4.1 Dataset độ đo đánh giá 45 45 3.4.2 Cấu hình thí nghiệm 46 3.4.3 Kết thực nghiệm 47 Kết luận 51 Dung hợp mơ hình BOW thuật tốn phát đối tượng cho tốn tìm kiếm đối tượng đặc trưng 53 4.1 Mở đầu 53 4.1.1 Nhu cầu thực tế 53 4.1.2 4.1.3 Phát biểu toán Hướng tiếp cận luận án 54 54 4.2 Các cơng trình liên quan 57 4.3 Dữ liệu thử nghiệm phương pháp đánh giá 59 4.4 Hệ thống tìm kiếm đối tượng 4.4.1 Tổng quan hệ thống 60 60 4.4.2 4.5 4.6 Xác định vị trí đối tượng truy vấn với thuật tốn phát đối tượng 62 Dung hợp mơ hình BOW với thuật toán phát đối tượng sử dụng mạng neural network 64 4.5.1 Thí nghiệm kết 65 4.5.2 Kết hợp mơ hình BOW thuật tốn phát đối tượng 66 4.5.3 Kết hợp với hệ số thích nghi mơ hình BOW thuật toán phát đối tượng 67 Dung hợp mơ hình BOW với thuật toán phát đối tượng khai thác quan hệ điểm đặc trưng đối tượng đề xuất 4.6.1 4.6.2 4.7 69 So sánh phương pháp đề xuất với phương pháp state-of-the-art 72 So sánh với nhóm nghiên cứu tham gia TRECVID INS khác 76 Kết luận v 76 Mơ hình kết hợp đặc trưng BOW với Deep Feature cho tốn tìm kiếm người địa điểm cho trước 5.1 Mở đầu 79 79 5.1.1 Nhu cầu thực tế 79 5.1.2 Phát biểu toán 80 5.2 5.1.3 Hướng tiếp cận luận án Các cơng trình liên quan 80 82 5.3 Tổng quan hệ thống 84 5.3.1 Tìm kiếm địa điểm 86 5.3.2 5.3.3 Xếp hạng lại dựa phương pháp học đặc trưng gương mặt Xếp hạng lại dựa theo vết địa điểm 88 89 Thí nghiệm 90 5.4.1 Dữ liệu thí nghiệm 90 5.4.2 Độ xác trực quan hóa kết truy vấn Kết luận 90 93 5.4 5.5 Tìm kiếm ảnh với mơ tả truy vấn ngữ nghĩa 6.1 95 Mở đầu 95 6.1.1 Nhu cầu thực tế 95 6.1.2 6.1.3 Phát biểu toán Hướng tiếp cận luận án 96 96 6.2 Các cơng trình liên quan 97 6.3 Mơ hình tìm kiếm đối tượng với truy vấn biểu diễn ngữ nghĩa 99 6.3.1 6.3.2 6.4 Kết thử nghiệm 104 6.4.1 6.5 Góc nhìn đặc trưng ngữ nghĩa 99 Mô hình rút trích đặc trưng ngữ nghĩa 100 Dữ liệu thử nghiệm 104 6.4.2 Kết thử nghiệm 104 Kết luận 106 Kết luận 107 7.1 Những kết đạt 107 7.2 Một số hướng phát triển luận án 108 A Các cơng trình công bố 110 Tài liệu tham khảo 112 vi Danh sách hình vẽ 1.1 Ghosts of History Ứng dụng cắt ghép ảnh khứ với giúp người dùng có trải nghiệm thú vị hình ảnh đan xen với ảnh khứ địa danh 1.2 Thương mại điện tử Người dùng dùng điện thoại thơng minh chụp đồ cần mua mà khơng cần phải gõ từ khóa tìm kiếm Người dùng không cần tốn thời gian suy nghĩ từ khóa để mơ tả đồ cần mua tạo nên trải nghiệm mua sắm Hệ thống giám sát Hỗ trợ tìm kiếm đối tượng tập camera giám sát cách nhanh chóng 1.4 Tổng quan thể thức truy vấn 1.5 Ví dụ mức độ liên quan ảnh truy vấn số loại đối tượng 1.6 Ví dụ loại truy vấn bao gồm ảnh mẫu vị trí (hàng phía trên) người (hàng phía dưới) đánh dấu 1.3 đường bao màu tím 1.7 Kết trả hệ thống tìm kiếm thể thức hỗn hợp nhiều đối 1.8 tượng: người địa điểm cho trước Kết trả câu truy vấn mô tả "A man walking on a beach with a dog" 1.9 Bức tranh tổng quan luận án 10 2.1 Hiện tượng burstiness: Minh họa đặc trưng thuộc visual word bùng nổ ảnh Ảnh trích từ [34] vii 21 2.2 Bên trái ảnh truy vấn đố đối tượng cần tìm đánh dấu vùng hình chữ nhật Ở ảnh kết trả truy vấn với mô hình BOW Ta nhận thấy ảnh tương đối rõ nét xuất đầy đủ so với ảnh truy vấn Bên phía tay phải ảnh kết tìm sử dụng phương pháp AQE mà khơng tìm thấy mơ hình BOW Các ảnh thường nhỏ bị che khuất phần so với ảnh truy vấn Ảnh trích từ [16] 2.3 24 Biểu đồ giá trị tương đồng (score) theo thứ tự giảm dần sử dụng hai loại vector biểu diễn khác BOW (phía trên) GIST (phía dưới) Đặc trưng BOW cho kết tốt với AP=0.9083 đặc trưng GIST cho kết thấp đáng kể AP=0.0025 Biểu đồ đặc trưng BOW có dạng "L": giá trị độ tương đồng giảm nhanh chuyển từ ảnh có liên quan đến ảnh khơng liên quan Trong đó, biểu đồ đặc trưng GIST giảm chậm khơng có nhiều khác biệt hai ảnh có vị trí liên tiếp top đầu 2.4 26 Kết gán phụ đề cho ảnh sử dụng hướng tiếp cận gán nhãn dày đặc đề xuất [40] Cùng ảnh có nhiều phụ đề đề xuất nhằm mô tả đối tượng tất quan hệ có khả xảy đối tượng ảnh Hướng tiếp cận nhằm đảm bảo tất khía cạnh tranh quan tâm 3.1 30 Cả hai ảnh có biểu diễn histogram khơng xem xét đến thông tin không gian visual word Hai ảnh cho giống I1 I2 khác quan sát mắt 35 Cấu trúc mục ngược tập hợp ghi ánh xạ từ từ sang danh sách văn có chứa từ 39 3.3 Tổng quan phương pháp đề xuất 40 3.4 Cấu trúc liệu cài đặt thực tế ghi cấu trúc mục 3.5 ngược có tích hợp thơng tin cấu trúc khơng gian Chi tiết trình truy vấn ảnh 3.6 Hình ảnh minh họa kết hợp Spatial Pyramid kích thước 2x2 với trung 3.2 3.7 3.8 42 44 tâm 48 Sự ảnh hưởng trọng số visual word background đến giá trị MAP hệ thống truy vấn Oxford dataset 50 Sự ảnh hưởng trọng số visual word background lên giá trị MAP hệ thống truy vấn tập Oxford 105K viii 51 Phụ lục A Các công trình cơng bố Tạp chí quốc tế: [CT1] Vinh-Tiep Nguyen, Thanh Duc Ngo, Minh-Triet Tran, Duy-Dinh Le, Duc Anh Duong: A Combination of Spatial Pyramid and Inverted Index for Large-Scale Image Retrieval, tạp chí International Journal of Multimedia Data Engineering and Management, Volume 6, Number 2, trang 37-51, năm 2015, ISSN: 1947-8534 [CT2] Vinh-Tiep Nguyen, Thanh Duc Ngo, Minh-Triet Tran, Duy-Dinh Le and Duc Anh Duong : Persons-In- Places: a Deep Features Based Approach for Searching a Specific Person in a Specific Location, Informatica2017, Volume 41, Number 2, trang 149–158, năm 2017 [CT3] Vinh-Tiep Nguyen, Duy Dinh Le, Minh-Triet Tran, Tam V Nguyen, Thanh Duc Ngo, Shinichi Satoh, Duc Anh Duong: Video Instance Search via Spatial Fusion of Visual Words and Object Proposals, International Journal of Multimedia Information Retrieval, trang 1-12, năm 2019, ISSN: 2192-6611 Hội nghị quốc tế: [CT4] Vinh-Tiep Nguyen, Thanh Duc Ngo, Duy-Dinh Le, Minh-Triet Tran, Duc Anh Duong, Shin’ichi Satoh: Semantic Extraction and Object Proposal for Video Search, International Conference on Multimedia Modeling (MMM), 2017, Reykjavik, Iceland [CT5] Vinh-Tiep Nguyen, Minh-Triet Tran, Thanh Duc Ngo, Duy-Dinh Le and Duc Anh Duong: Searching a specific person in a specific location using deep features, the Seventh Symposium on Information and Communication Technology (SoICT), 2016, Ho Chi Minh city, Vietnam [CT6] Vinh-Tiep Nguyen, Khanh-Duy Le, Minh-Triet Tran and Morten Fjeld: NowAndThen: a Social Network-Based Photo Recommendation Tool Supporting Rem110 iniscence, International Conference on Mobile and Ubiquitous Multimedia (MUM), 2016, Rovaniemi, Finland [CT7] Vinh-Tiep Nguyen, Dinh-Luan Nguyen, Minh-Triet Tran, Duy-Dinh Le, Duc Anh Duong, Shin’ichi Satoh: Query-adaptive late fusion with neural network for instance search, International Workshop on Multimedia Signal Processing (MMSP), 2015, Xiamen, China (Top 10% Paper Award) 111 Tài liệu tham khảo [1] R Arandjelovi´c and A Zisserman Three things everyone should know to improve object retrieval In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), CVPR ’12, pages 2911–2918, Washington, DC, USA, 2012 [2] R Arandjelovi´c and A Zisserman All about VLAD In IEEE Conference on Computer Vision and Pattern Recognition, pages 1578–1585, 2013 [3] George Awad, Wessel Kraaij, Paul Over, and Shin’ichi Satoh Instance search retrospective with focus on trecvid International journal of multimedia information retrieval, 6(1):1–29, 2017 [4] Artem Babenko and Victor S Lempitsky Aggregating deep convolutional features for image retrieval CoRR, abs/1510.07493, 2015 [5] Artem Babenko, Anton Slesarev, Alexander Chigorin, and Victor S Lempitsky Neural Codes for Image Retrieval, pages 584–599 Springer International Publishing, Cham, 2014 [6] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio Neural machine translation by jointly learning to align and translate arXiv preprint arXiv:1409.0473, 2014 [7] Kobus Barnard, Pinar Duygulu, David Forsyth, Nando de Freitas, David Blei, and Michael Jordan Matching words and pictures The Journal of Machine Learning Research, 3:1107 – 1135, 2003 [8] Herbert Bay, Tinne Tuytelaars, and Luc Van Gool Surf: Speeded up robust features In European conference on computer vision, pages 404–417 Springer, 2006 112 [9] Michael Calonder, Vincent Lepetit, Christoph Strecha, and Pascal Fua Brief: Binary robust independent elementary features In European conference on computer vision, pages 778–792 Springer, 2010 [10] Song Cao and Noah Snavely Graph-based discriminative learning for location recognition In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 700–707, 2013 [11] Yang Cao, Changhu Wang, Zhiwei Li, Liqing Zhang, and Lei Zhang Spatial-bagof-features In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 3352–3359, June 2010 [12] Dong Chen, Xudong Cao, Liwei Wang, Fang Wen, and Jian Sun Bayesian face revisited: A joint formulation In Proceedings of the European Conference on Computer Vision - Volume Part III, ECCV’12, pages 566–579, Berlin, Heidelberg, 2012 Springer-Verlag [13] Xinlei Chen and C Lawrence Zitnick Learning a recurrent visual representation for image caption generation arXiv preprint arXiv:1411.5654, 2014 [14] Kyunghyun Cho, Bart Van Merriăenboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio Learning phrase representations using rnn encoder-decoder for statistical machine translation arXiv preprint arXiv:1406.1078, 2014 [15] O Chum, A Mikulik, M Perdoch, and J Matas Total recall ii: Query expansion revisited In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR ’11, pages 889–896, Washington, DC, USA, 2011 IEEE Computer Society [16] O Chum, J Philbin, J Sivic, M Isard, and A Zisserman Total recall: Automatic query expansion with a generative feature model for object retrieval In IEEE International Conference on Computer Vision, 2007 [17] Ramazan Gokberk Cinbis, Jakob Verbeek, and Cordelia Schmid Unsupervised metric learning for face identification in tv video In ICCV 2011 - International Conference on Computer Vision, pages 1559–1566, Barcelona, Spain, November 2011 IEEE [18] E J Crowley and A Zisserman The state of the art: Object retrieval in paintings using discriminative regions In British Machine Vision Conference, 2014 113 [19] Navneet Dalal and Bill Triggs Histograms of oriented gradients for human detection In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume - Volume 01, CVPR ’05, pages 886–893, Washington, DC, USA, 2005 IEEE Computer Society [20] Jeffrey Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell Long-term recurrent convolutional networks for visual recognition and description In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2625– 2634, 2015 [21] Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh K Srivastava, Li Deng, Piotr Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C Platt, et al From captions to visual concepts and back In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1473–1482, 2015 [22] Ali Farhadi, Mohsen Hejrati, Mohammad Amin Sadeghi, Peter Young, Cyrus Rashtchian, Julia Hockenmaier, and David Forsyth Every picture tells a story: Generating sentences from images In European Conference on Computer Vision, pages 15–29 Springer, 2010 [23] Pedro F Felzenszwalb, Ross B Girshick, David McAllester, and Deva Ramanan Object detection with discriminatively trained part-based models IEEE Trans Pattern Anal Mach Intell., 32(9):1627–1645, September 2010 [24] Martin A Fischler and Robert C Bolles Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography Communications of the ACM, 24(6):381–395, 1981 [25] Damianos Galanopoulos Theodoros Mironidis Vagia Kaltsa Anastasia Ioannidou Spyridon Symeonidis Konstantinos Avgerinakis Stelios Andreadis Ilias Gialampoukidis Stefanos Vrochidis Alexia Briassouli Vasileios Mezaris Ioannis Kompatsiaris Ioannis Patras Foteini Markatopoulou, Anastasia Moumtzidou Iti-certh participation in trecvid 2016 In Proceedings TRECVID 2016 Workshop, 2016 [26] Ross Girshick Fast r-cnn In International Conference on Computer Vision (ICCV), 2015 114 [27] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik Rich feature hierarchies for accurate object detection and semantic segmentation In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014 [28] A Gordoa, J A Rodríguez-Serrano, F Perronnin, and E Valveny Leveraging category-level labels for instance-level image retrieval In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 3045–3052, June 2012 [29] Petr Gronat, Guillaume Obozinski, Josef Sivic, and Tomas Pajdla Learning and calibrating per-location classifiers for visual place recognition In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 907– 914, 2013 [30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016 [31] Sepp Hochreiter and Jă urgen Schmidhuber Long short-term memory Neural computation, 9(8):1735–1780, 1997 [32] Hervé Jégou and Ondˇrej Chum Negative evidences and co-occurences in image retrieval: The benefit of pca and whitening In Computer Vision–ECCV 2012, pages 774–787 Springer, 2012 [33] Herve Jegou, Matthijs Douze, and Cordelia Schmid Hamming embedding and weak geometric consistency for large scale image search In Proceedings of the European Conference on Computer Vision: Part I, ECCV ’08, pages 304–317, Berlin, Heidelberg, 2008 Springer-Verlag [34] Hervé Jégou, Matthijs Douze, and Cordelia Schmid On the burstiness of visual elements In Conference on Computer Vision & Pattern Recognition, 2009 [35] Hervé Jégou, Matthijs Douze, and Cordelia Schmid Improving bag-of-features for large scale image search International Journal of Computer Vision, 87(3):316– 336, 2010 [36] Herve Jegou, Hedi Harzallah, and Cordelia Schmid A contextual dissimilarity measure for accurate and efficient image search In 2007 IEEE Conference on Computer Vision and Pattern Recognition, pages 1–8 IEEE, 2007 115 [37] Hervé Jégou and Andrew Zisserman Triangulation embedding and democratic aggregation for image search In CVPR - International Conference on Computer Vision and Pattern Recognition, Columbus, United States, June 2014 [38] Yangqing Jia, Mathieu Salzmann, and Trevor Darrell Learning cross-modality similarity for multinomial data In 2011 International Conference on Computer Vision, pages 2407–2414 IEEE, 2011 [39] Hongwen Kang, Martial Hebert, and Takeo Kanade Image matching with distinctive visual vocabulary In Applications of Computer Vision (WACV), 2011 IEEE Workshop on, pages 402–409 IEEE, 2011 [40] Andrej Karpathy and Li Fei-Fei Deep visual-semantic alignments for generating image descriptions In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3128–3137, 2015 [41] Ryan Kiros, Ruslan Salakhutdinov, and Richard S Zemel Unifying visual- semantic embeddings with multimodal neural language models arXiv preprint arXiv:1411.2539, 2014 [42] Jan Knopp, Josef Sivic, and Tomas Pajdla Avoiding confusing features in place recognition In European Conference on Computer Vision, pages 748–761 Springer, 2010 [43] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalanditis, Li-Jia Li, David A Shamma, Michael Bernstein, and Li Fei-Fei Visual genome: Connecting language and vision using crowdsourced dense image annotations CoRR, abs/1602.07332, 2016 [44] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton Imagenet classification with deep convolutional neural networks In F Pereira, C J C Burges, L Bottou, and K Q Weinberger, editors, Advances in Neural Information Processing Systems 25, pages 1097–1105 Curran Associates, Inc., 2012 [45] Polina Kuznetsova, Vicente Ordonez, Alexander C Berg, Tamara L Berg, and Yejin Choi Generalizing image captions for image-text parallel corpus In ACL (2), pages 790–796 Citeseer, 2013 [46] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition - Volume 116 2, CVPR ’06, pages 2169–2178, Washington, DC, USA, 2006 IEEE Computer Society [47] Duy Dinh Le, Cai-Zhi Zhu, Sang Phan, Sabastien Poullot, Duc Anh Duong, and Shin’ichi Satoh National institute of informatics, japan at trecvid 2013 In TRECVID, Orlando, Florida, USA, 2013 [48] Stefan Leutenegger, Margarita Chli, and Roland Y Siegwart Brisk: Binary robust invariant scalable keypoints In 2011 International conference on computer vision, pages 2548–2555 IEEE, 2011 [49] Hailiang Li, Yongqian Huang, and Zhijun Zhang An improved faster r-cnn for same object retrieval IEEE Access, 5:13665–13676, 2017 [50] Ting Liu, Charles Rosenberg, and Henry A Rowley Clustering billions of images with large scale nearest neighbor search In Applications of Computer Vision, 2007 WACV’07 IEEE Workshop on, pages 28–28 IEEE, 2007 [51] Zhen Liu, Houqiang Li, Wengang Zhou, and Qi Tian Embedding spatial context information into inverted file for large-scale image retrieval In Proceedings of the ACM international conference on Multimedia, pages 199–208 ACM, 2012 [52] David G Lowe Distinctive image features from scale-invariant keypoints Int J Comput Vision, 60(2):91–110, November 2004 [53] Chaochao Lu and Xiaoou Tang Surpassing human-level face verification performance on lfw with gaussian face In Proceedings of the AAAI Conference on Artificial Intelligence, AAAI’15, pages 3811–3819 AAAI Press, 2015 [54] Christopher D Manning, Prabhakar Raghavan, and Hinrich Schă utze Introduction to Information Retrieval Cambridge University Press, New York, NY, USA, 2008 [55] Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, and Alan L Yuille Explain images with multimodal recurrent neural networks arXiv preprint arXiv:1410.1090, 2014 [56] J Matas, O Chum, M Urban, and T Pajdla Robust wide baseline stereo from maximally stable extremal regions In Proceedings of the British Machine Vision Conference, pages 36.1–36.10 BMVA Press, 2002 doi:10.5244/C.16.36 117 [57] Krystian Mikolajczyk and Cordelia Schmid An affine invariant interest point detector In European conference on computer vision, pages 128–142 Springer, 2002 [58] Krystian Mikolajczyk and Cordelia Schmid Scale & affine invariant interest point detectors Int J Comput Vision, 60(1):63–86, October 2004 [59] Krystian Mikolajczyk and Cordelia Schmid A performance evaluation of local descriptors IEEE transactions on pattern analysis and machine intelligence, 27(10):1615–1630, 2005 [60] Eva Mohedano, Kevin McGuinness, Noel E O’Connor, Amaia Salvador, Ferran Marques, and Xavier Giro-i Nieto Bags of local convolutional features for scalable instance search In Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval, ICMR ’16, pages 327–331, New York, NY, USA, 2016 ACM [61] Eva Mohedano, Amaia Salvador, Kevin McGuinness, Xavier Giró-i Nieto, Noel E O’Connor, and Ferran Marqués Object retrieval with deep convolutional Deep Learning for Image Processing Applications, 31:137, 2017 [62] David Nister and Henrik Stewenius Scalable recognition with a vocabulary tree In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pages 2161–2168 IEEE, 2006 [63] O M Parkhi, K Simonyan, A Vedaldi, and A Zisserman A compact and discriminative face track descriptor In IEEE Conference on Computer Vision and Pattern Recognition IEEE, IEEE, 2014 [64] O M Parkhi, A Vedaldi, and A Zisserman Deep face recognition In British Machine Vision Conference, 2015 [65] Genevieve Patterson and James Hays Sun attribute database: Discovering, annotating, and recognizing scene attributes In Proceeding of the Conference on Computer Vision and Pattern Recognition (CVPR), 2012 [66] Michal Perdoch, Ondrej Chum, and Jiri Matas Efficient representation of local geometry for large scale object retrieval In 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009), 20-25 June 2009, Miami, Florida, USA, pages 9–16, 2009 118 [67] J Philbin, O Chum, M Isard, J Sivic, and A Zisserman Object retrieval with large vocabularies and fast spatial matching In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2007 [68] James Philbin, Michael Isard, Josef Sivic, and Andrew Zisserman Lost in quantization: Improving particular object retrieval in large scale image databases In In CVPR, 2008 [69] Danfeng Qin, Stephan Gammeter, Lukas Bossard, Till Quack, and Luc Van Gool Hello neighbor: Accurate object retrieval with k-reciprocal nearest neighbors In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 777–784 IEEE, 2011 [70] Filip Radenovi´c, Ahmet Iscen, Giorgos Tolias, Yannis Avrithis, and Ondˇrej Chum Revisiting oxford and paris: Large-scale image retrieval benchmarking arXiv preprint arXiv:1803.11285, 2018 [71] Filip Radenovi´c, Giorgos Tolias, and Ondrej Chum Fine-tuning cnn image retrieval with no human annotation IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018 [72] Ali Sharif Razavian, Hossein Azizpour, Josephine Sullivan, and Stefan Carlsson Cnn features off-the-shelf: An astounding baseline for recognition In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPRW ’14, pages 512–519, Washington, DC, USA, 2014 IEEE Computer Society [73] Ali Sharif Razavian, Josephine Sullivan, Atsuto Maki, and Stefan Carlsson Visual instance retrieval with deep convolutional networks CoRR, abs/1412.6574, 2014 [74] Joseph Redmon and Ali Farhadi Yolo9000: better, faster, stronger arXiv preprint, 2017 [75] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun Faster R-CNN: Towards real-time object detection with region proposal networks In Neural Information Processing Systems (NIPS), 2015 [76] Edward Rosten, Reid Porter, and Tom Drummond Faster and better: A machine learning approach to corner detection IEEE transactions on pattern analysis and machine intelligence, 32(1):105–119, 2010 119 [77] Gerard Salton and Chris Buckley Improving retrieval performance by relevance feedback Readings in information retrieval, 24(5):355–363, 1997 [78] Amaia Salvador, Xavier Giro-i Nieto, Ferran Marques, and Shin’ichi Satoh Faster r-cnn features for instance search In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016 [79] Grant Schindler, Matthew Brown, and Richard Szeliski City-scale location recognition In 2007 IEEE Conference on Computer Vision and Pattern Recognition, pages 1–7 IEEE, 2007 [80] Xiaohui Shen, Zhe Lin, J Brandt, S Avidan, and Ying Wu Object retrieval and localization with spatially-constrained similarity measure and k-nn re-ranking In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 3013–3020, June 2012 [81] K Simonyan, O M Parkhi, A Vedaldi, and A Zisserman Fisher Vector Faces in the Wild In British Machine Vision Conference, 2013 [82] K Simonyan and A Zisserman Very deep convolutional networks for large-scale image recognition CoRR, abs/1409.1556, 2014 [83] J Sivic and A Zisserman Video Google: A text retrieval approach to object matching in videos In Proceedings of the International Conference on Computer Vision, volume 2, pages 1470–1477, October 2003 [84] Richard Socher, Andrej Karpathy, Quoc V Le, Christopher D Manning, and Andrew Y Ng Grounded compositional semantics for finding and describing images with sentences Transactions of the Association for Computational Linguistics, 2:207–218, 2014 [85] Henrik Stewénius, Steinar H Gunderson, and Julien Pilet Size matters: exhaustive geometric verification for image retrieval accepted for eccv 2012 In Computer Vision–ECCV 2012, pages 674–687 Springer, 2012 [86] Yi Sun, Yuheng Chen, Xiaogang Wang, and Xiaoou Tang Deep learning face representation by joint identification-verification In Proceedings of the International Conference on Neural Information Processing Systems, NIPS’14, pages 1988–1996, Cambridge, MA, USA, 2014 MIT Press [87] Yi Sun, Ding Liang, Xiaogang Wang, and Xiaoou Tang Deepid3: Face recognition with very deep neural networks CoRR, abs/1502.00873, 2015 120 [88] Yi Sun, Xiaogang Wang, and Xiaoou Tang Deep learning face representation from predicting 10,000 classes In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR ’14, pages 1891–1898, Washington, DC, USA, 2014 IEEE Computer Society [89] Yi Sun, Xiaogang Wang, and Xiaoou Tang Deeply learned face representations are sparse, selective, and robust CoRR, abs/1412.1265, 2014 [90] Ilya Sutskever, Oriol Vinyals, and Quoc V Le Sequence to sequence learning with neural networks In Advances in neural information processing systems, pages 3104–3112, 2014 [91] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf Deepface: Closing the gap to human-level performance in face verification In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014 [92] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf Web-scale training for face identification In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015 [93] Engin Tola, Vincent Lepetit, and Pascal Fua A fast local descriptor for dense matching In Computer Vision and Pattern Recognition, 2008 CVPR 2008 IEEE Conference on, pages 1–8 IEEE, 2008 [94] Giorgos Tolias and Yannis S Avrithis Speeded-up, relaxed spatial matching In IEEE International Conference on Computer Vision, ICCV 2011, Barcelona, Spain, November 6-13, 2011, pages 1653–1660, 2011 [95] Giorgos Tolias and Hervé Jégou Local visual query expansion: Exploiting an image collection to refine local descriptors PhD thesis, INRIA, 2013 [96] Akihiko Torii, Josef Sivic, and Tomas Pajdla Visual localization by linear combination of image descriptors In Computer Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on, pages 102–109 IEEE, 2011 [97] Akihiko Torii, Josef Sivic, Tomas Pajdla, and Masatoshi Okutomi Visual place recognition with repetitive structures In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 883–890, 2013 [98] Panu Turcot and D Lowe Better matching with fewer features: The selection of useful features in large database recognition problems In ICCV workshop on emergent issues in large amounts of visual data (WS-LAVD), volume 4, 2009 121 [99] K E A van de Sande, T Gevers, and C G M Snoek Evaluating color descriptors for object and scene recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1582–1596, 2010 [100] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan Show and tell: A neural image caption generator In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3156–3164, 2015 [101] Ji Wan, Dayong Wang, Steven Chu Hong Hoi, Pengcheng Wu, Jianke Zhu, Yongdong Zhang, and Jintao Li Deep learning for content-based image retrieval: A comprehensive study In Proceedings of the ACM International Conference on Multimedia, MM ’14, pages 157–166, New York, NY, USA, 2014 ACM [102] Xin-Jing Wang, Lei Zhang, and Ce Liu Duplicate discovery on billion internet images In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 429–436, 2013 [103] Chih wei Hsu, Chih chung Chang, and Chih jen Lin A practical guide to support vector classification, 2010 [104] Paul J Werbos Generalization of backpropagation with application to a recurrent gas market model Neural Networks, 1(4):339–356, 1988 [105] Lior Wolf, Tal Hassner, and Itay Maoz Face recognition in unconstrained videos with matched background similarity In in Proc IEEE Conf Comput Vision Pattern Recognition, 2011 [106] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S Zemel, and Yoshua Bengio Show, attend and tell: Neural image caption generation with visual attention arXiv preprint arXiv:1502.03044, 2(3):5, 2015 [107] Hao Zhang, Lei Pang, Yi-Jie Lu, and Chong-Wah Ngo Vireo@ trecvid 2016: Multimedia event detection, ad-hoc video search, video to text description In TRECVID 2016 Workshop Gaithersburg, MD, USA, 2016 [108] S Zhang, M Yang, T Cour, K Yu, and D.N Metaxas Query specific rank fusion for image retrieval IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(4):803–815, April 2015 122 [109] Wei Zhang and Chong-Wah Ngo Searching visual instances with topology checking and context modeling In Proceedings of the ACM Conference on International Conference on Multimedia Retrieval, ICMR ’13, pages 57–64, New York, NY, USA, 2013 ACM [110] Yimeng Zhang, Zhaoyin Jia, and Tsuhan Chen Image retrieval with geometrypreserving visual phrases In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR ’11, pages 809–816, Washington, DC, USA, 2011 IEEE Computer Society [111] L Zheng, S Wang, and Q Tian lp -norm idf for scalable image retrieval IEEE Transactions on Image Processing, 23(8):3604–3617, Aug 2014 [112] Liang Zheng, Shengjin Wang, Lu Tian, Fei He, Ziqiong Liu, and Qi Tian Queryadaptive late fusion for image search and person re-identification In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015 [113] Yan-Tao Zheng, Ming Zhao, Yang Song, Hartwig Adam, Ulrich Buddemeier, Alessandro Bissacco, Fernando Brucher, Tat-Seng Chua, and Hartmut Neven Tour the world: building a web-scale landmark recognition engine In Computer vision and pattern recognition, 2009 CVPR 2009 IEEE conference on, pages 1085–1092 IEEE, 2009 [114] Zhiyuan Zhong, Jianke Zhu, and Steven C H Hoi Fast object retrieval using direct spatial matching IEEE Trans Multimedia, 17(8):1391–1397, 2015 [115] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Torralba, and Aude Oliva Learning deep features for scene recognition using places database In Z Ghahramani, M Welling, C Cortes, N D Lawrence, and K Q Weinberger, editors, Advances in Neural Information Processing Systems 27, pages 487–495 Curran Associates, Inc., 2014 [116] Wengang Zhou, Ming Yang, Houqiang Li, Xiaoyu Wang, Yuanqing Lin, and Qi Tian Towards codebook-free: Scalable cascaded hashing for mobile image search IEEE Trans Multimedia, 16(3):601–611, 2014 [117] Xiao Zhou, Cai-Zhi Zhu, Qiang Zhu, S Satoh, and Yu-Tang Guo A practical spatial re-ranking method for instance search from videos In Image Processing (ICIP), 2014 IEEE International Conference on, pages 3008–3012, Oct 2014 123 [118] Cai-Zhi Zhu, Herve Jegou, and Shin’ichi Satoh Query-adaptive asymmetrical dissimilarities for visual object retrieval In IEEE International Conference on Computer Vision, ICCV 2013, Sydney, Australia, December 1-8, 2013, pages 1705–1712 IEEE, 2013 124 ...ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN VINH TIỆP TRUY VẤN HIỆU QUẢ THÔNG TIN THỊ GIÁC TỪ DỮ LIỆU LỚN ĐỂ PHÁT TRIỂN MƠI TRƯỜNG THƠNG MINH Chun ngành: Khoa học Máy... mơi trường sống ngày Trong truy vấn kho liệu lớn toán nhằm quản lý, khai thác tạo ứng dụng với tính thơng minh Luận án tập trung đề xuất số phương pháp truy vấn hiệu với thể thức truy vấn khác từ. .. trình phát triển thuật tốn phục vụ cho tốn truy vấn đối tượng dựa vào thơng tin thị giác, xây dựng hệ thống để minh họa cho ý tưởng tương tác tiềm ứng dụng thực tế Cụ thể là, với toán truy vấn