Luận án tiến sĩ nghiên cứu, phát triển một số kỹ thuật theo bám đối tượng dựa trên kiến trúc mạng siamese

BỘ QUỐC PHÒNG BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN KHOA HỌC VÀ CƠNG NGHỆ QN SỰ HỒNG ĐÌNH THẮNG NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ KỸ THUẬT THEO BÁM ĐỐI TƯỢNG DỰA TRÊN KIẾN TRÚC MẠNG SIAMESE LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2023 BỘ QUỐC PHÒNG BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN KHOA HỌC VÀ CƠNG NGHỆ QN SỰ HỒNG ĐÌNH THẮNG NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ KỸ THUẬT THEO BÁM ĐỐI TƯỢNG DỰA TRÊN KIẾN TRÚC MẠNG SIAMESE Ngành: Cơ sở toán học cho tin học Mã số: 9.46.01.10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trần Quốc Long TS Thái Trung Kiên Hà Nội – 2023 i LỜI CAM ĐOAN Tôi xin cam đoan kết trình bày luận án cơng trình nghiên cứu tơi hướng dẫn cán hướng dẫn Các số liệu, kết trình bày luận án hồn tồn trung thực chưa cơng bố cơng trình khác Các liệu tham khảo trích dẫn đầy đủ Tác giả luận án Hồng Đình Thắng ii LỜI CẢM ƠN Trong q trình nghiên cứu hồn thành luận án, nghiên cứu sinh nhận định hướng, giúp đỡ, ý kiến đóng góp quý báu lời động viên nhà khoa học, thầy giáo, đồng nghiệp gia đình Trước hết, nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới thầy TS Trần Quốc Long, TS Thái Trung Kiên tận tình hướng dẫn giúp đỡ trình nghiên cứu luận án Nghiên cứu sinh chân thành cảm ơn thầy cô giáo, nhà khoa học Viện Khoa học Công nghệ qn sự, Viện Cơng nghệ thơng tin, Viện Trí tuệ nhân tạo thuộc Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, giảng dạy, truyền đạt kiến thức có góp ý quý báu cho nghiên cứu sinh trình thực luận án Nghiên cứu sinh chân thành cảm ơn Ban Giám đốc, Phòng Đào tạo, Viện Khoa học Công nghệ quân tạo điều kiện thuận lợi để nghiên cứu sinh hoàn thành nhiệm vụ học tập nghiên cứu Cuối nghiên cứu sinh bày tỏ lời cảm ơn tới đồng nghiệp, gia đình, bạn bè động viên, chia sẻ, ủng hộ giúp đỡ nghiên cứu sinh vượt qua khó khăn để đạt kết nghiên cứu luận án Tác giả luận án Hồng Đình Thắng iii MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH VẼ ix MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TỐN THEO BÁM ĐƠN ĐỐI TƯỢNG 1.1 Bài tốn theo bám đơn đối tượng video 1.1.1 Định nghĩa toán 1.1.2 Ứng dụng thách thức 1.2 Các số liệu đánh giá 1.2.1 Các số đánh giá mơ hình theo bám đối tượng 1.2.2 Các liệu đánh giá mơ hình theo bám đối tượng 1.3 Các kỹ thuật học sâu tiên tiến 1.3.1 Tối ưu học sâu 1.3.2 Phát đối tượng 1.3.3 Mạng chuyển đổi (transformer) 1.3.4 Mạng học sâu Siamese 1.4 Các hướng tiếp cận nghiên cứu toán theo bám đối tượng video 1.4.1 Phương pháp học máy truyền thống 1.4.2 Phương pháp dựa học sâu 1.4.3 So sánh phương pháp theo bám 1.4.4 Tình hình nghiên cứu nước 1.5 Những vấn đề tồn hướng nghiên cứu 1.5.1 Những vấn đề tồn 1.5.2 Đề xuất hướng nghiên cứu 1.6 Kết luận chương 7 14 14 17 22 22 23 24 26 27 27 28 39 40 42 42 43 44 iv CHƯƠNG ĐỀ XUẤT MƠ HÌNH HỌC SÂU THEO BÁM ĐỐI TƯỢNG SỬ DỤNG KIẾN TRÚC MẠNG SIAMESE 2.1 Mơ hình học sâu theo bám chuyển động UAV video chống UAV hồng ngoại dựa kiến trúc mạng Siamese 2.1.1 Mô hình TrackingUAV 2.1.2 Hàm mát 2.1.3 Thuật toán theo bám UAV 2.1.4 Đánh giá độ xác mơ hình TrackingUAV 2.1.5 Minh họa kết theo bám TrackingUAV 2.2 Mô hình học sâu thời gian thực theo bám đối tượng sử dụng chế tập trung không dùng khung neo dựa kiến trúc Siamese 2.2.1 Mơ hình SiamAPN 2.2.2 Mô-đun tăng cường liệu ảnh mẫu ảnh tìm kiếm dùng chế tập trung 2.2.3 Mô-đun hồi quy phân loại đối tượng dùng thể điểm 2.2.4 Hàm mát 2.2.5 Quá trình theo bám 2.3 Mạng Siamese theo bám đối tượng sử dụng chế tập trung để kết hợp tăng cường đặc trưng hai nhánh mạng Siamese 2.3.1 Mơ hình SiamAAM 2.3.2 Mô-đun tăng cường kết hợp liệu ảnh hai nhánh Siamese 2.3.3 Mạng dự đoán khung bao đối tượng 2.3.4 Hàm mát 2.3.5 Quá trình theo bám 2.4 Thuật tốn theo bám đối tượng theo mơ hình SiamAPN SiamAAM 2.5 Đánh giá độ xác mơ hình SiamAPN SiamAAM 2.5.1 Cài đặt thực nghiệm 2.5.2 So sánh kết thực nghiệm mơ hình SiamAPN SiamAAM 2.5.3 Vai trị mơ-đun đề xuất 2.5.4 Minh họa kết 2.6 Kết luận chương 45 46 46 48 49 53 56 57 57 58 60 61 62 62 63 63 65 66 66 67 70 70 71 79 80 81 v CHƯƠNG ĐỀ XUẤT MƠ HÌNH HỌC SÂU THEO BÁM ĐỐI TƯỢNG SỬ DỤNG MẠNG CHUYỂN ĐỔI TUYẾN TÍNH 82 3.1 Mơ hình theo bám đối tượng thời gian thực sử dụng mạng chuyển đổi tuyến tính 83 3.1.1 Mơ hình SiamTLT 83 3.1.2 Mô-đun tăng cường kết hợp đặc trưng hai nhánh Siamese sử dụng mạng chuyển đổi tuyến tính 83 3.1.3 Hàm mát 85 3.1.4 Quá trình theo bám 85 3.1.5 Thuật tốn theo bám đối tượng theo mơ hình SiamTLT 86 3.2 Nâng cao độ xác trình theo bám mạng chuyển đổi hình ảnh tuyến tính 86 3.2.1 Mô hình TrackerLT 86 3.2.2 Trích chọn đặc trưng 87 3.2.3 Mô-đun tăng cường kết hợp liệu ảnh hai nhánh Siamese 87 3.2.4 Mạng dự đoán khung bao đối tượng 90 3.2.5 Hàm mát 90 3.2.6 Quá trình theo bám 90 3.2.7 Thuật tốn theo bám đối tượng theo mơ hình TrackerLT 91 3.3 Cài đặt thực nghiệm đánh giá kết 93 3.3.1 Đánh giá độ xác mơ hình SiamTLT 93 3.3.2 Vai trò mô-đun đề xuất SiamTLT 100 3.3.3 Minh họa kết theo bám SiamTLT 100 3.3.4 Đánh giá độ xác mơ hình TrackerLT 101 3.3.5 Vai trị mơ-đun đề xuất TrackerLT 113 3.3.6 Minh họa kết theo bám TrạckerLT 114 3.4 Kết luận chương 118 KẾT LUẬN 119 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 121 TÀI LIỆU THAM KHẢO 122 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Tập vector số thực n chiều Hàm số |D| Số lượng phần tử tập hợp D f (.) Hàm số log(.) Logarit tự nhiên exp(.) Hàm mũ T () Chuyển vị ma trận vector ∥.∥ Dạng chuẩn Ex (f (x)) Kỳ vọng hàm f (x) Toán tử softmax FSM (.) FSG (.) Toán tử sigmoid FGP (.) Tốn tử pooling tồn cục × Tốn tử tích vơ hướng (dot product) ⋆ Tốn tử tương quan xi Vector AFE Tăng cường đặc trưng tập trung (Attention Feature Enhancement) AI Trí tuệ nhân tạo (Artificial Intelligence) AO Chồng chéo trung bình (Average Overlap) AUC Vùng đường cong (Area Under Curve) Block Khối CEL Lớp mã hóa chéo (cross-encoder layer) CLE Lỗi vị trí trung tâm (Center Location Error) CNN Mạng nơ-ron tích chập (Convolutional Neural Network) CV Thị giác máy tính (Computer Vision) CVPR Hội nghị thị giác máy tính nhận dạng mẫu (Conference on Computer Vision and Pattern Recognition) DCF Bộ lọc tương quan phân biệt (Discriminative Correlation Filters) Decoder Bộ giải mã DL Học sâu (Deep Learing) Rn I vii EAO ECCV Độ chồng chéo trung bình dự kiến (Expected Average Overlap) Hội nghị Châu Âu Thị giác máy tính (European Conference on Computer Vision) Encoder Bộ mã hóa FCOS Phát đối tượng giai đoạn dùng tích chập hoàn toàn (Fully Convolutional One-Stage Object Detection) FCN Mạng tích chập hồn tồn (Fully Convolutional Network) FEM Mơ-đun tăng cường đặc trưng (Feature Enhancement Module) FFM Mô-đun kết hợp đặc trưng (Feature Fusion Module) FFN Mạng truyền thẳng (Feed-Forward Network) GAM Mô đun ý đồ thị (Graph Attention Module) GAN Mạng đối nghịch tạo sinh (Generative Adversarial Network) HOG Biểu đồ độ dốc có định hướng (Histogram of Oriented Gradient) ICCV Hội nghị Quốc tế Thị giác máy tính (International Conference on Computer Vision) LTSM Bộ nhớ dài-ngắn hạn (Long short-term memory) OTB Dữ liệu chuẩn theo dõi đối tượng (Object Tracking Benchmark) NPL Xử lý ngôn ngữ tự nhiên (Natural language processing) RoI Vùng quan tâm (Region of Interest) RNN Mạng nơ-ron hồi quy (Recurrent Neural Network) RPN Mạng dự đoán vùng (Region Proposal Network) SEL Lớp tự mã hóa (self-encoder layer) SGD Hạ gradient ngẫu nhiên(Stochastic Gradient Descent) SNN Mạng nơ-ron Siamese (Siamese Neural Network) SR Tỷ lệ thành công (Success Rate) SSD Mạng phát nhiều khung trựơt (Single Shot Multibox Detector) Transformer Mạng chuyển đổi UAV Máy bay không người lái (Unmanned Aerial Vehicle) VOT Theo dõi đối tượng video (Video Object Tracking) YOLO Chỉ cần nhìn lần (You Only Look Once) viii DANH MỤC CÁC BẢNG Trang Bảng 1.1 Một số thách thức thường gặp toán theo bám đối tượng Bảng 1.2 So sánh liệu đánh giá theo bám đối tượng Bảng 1.3 So sánh kiến trúc phương pháp theo bám chuyển động sử dụng kiến trúc Siamese Bảng 1.4 So sánh thực nghiệm phương pháp theo bám liệu, nguồn tham khảo từ báo tham khảo (màu đỏ, màu xanh dương màu lục lam ứng cao nhì ba) Bảng 2.1 Thay đổi mạng ResNet50 Bảng 2.2 So sánh kết đánh giá mơ hình theo bám UAV Bảng 2.3 Kết thực nghiệm liệu Anti-UAV mơ hình TrackingUAV Bảng 2.4 So sánh kết liệu UAV123 mơ hình SiamAPN SiamAAM Bảng 2.5 So sánh kết theo thuộc tính thách thức liệu UAV123 mơ hình SiamAPN SiamAAM Bảng 2.6 Kết so sánh liệu VOT2018 mơ hình SiamAPN SiamAAM Bảng 2.7 So sánh kết SiamAPN biến thể với tăng cường đặc trưng khác đầu phát khác OTB100 Bảng 2.8 Kết so sánh định lượng VOT2018 với loại kết hợp đặc trưng khác 11 22 39 40 47 55 55 72 73 78 79 80 Bảng 3.1 So sánh kết liệu VOT2018 mơ hình SiamTLT Màu đỏ cao nhất, màu xanh cao thứ hai xanh cao thứ ba 93 Bảng 3.2 So sánh điểm thành cơng thuộc tính thách thức liệu UAV123 mơ hình SiamTLT 96 Bảng 3.3 So sánh điểm xác thuộc tính thách thức liệu UAV123 mơ hình SiamTLT 96 117 - Trên video uav1-1 thuộc UAV123, hình 3.19 (a) khung hình 001 (c) khung hình 200 (b) khung hình 100 (d) khung hình 300 (e) khung hình 500 (f) khung hình 600 (g) khung hình 800 (h) khung hình 1300 Hình 3.19 Minh họa kết theo bám drone video uav1-1 liệu UAV123 Màu xanh nhãn, màu vàng kết theo bám 118 3.4 Kết luận chương Chương luận án đề xuất hai mơ hình học sâu theo kiến trúc mạng Siamese sử dụng mạng chuyển đổi tuyến tính Trong mơ hình SiamTLT, luận án đề xuất sử dụng mạng chuyển đổi tuyến tính để tăng cường liệu hai nhánh mạng Siamese, sau dùng tiếp mạng chuyển đổi tuyến tính để kết hợp đặc trưng tăng cường để thu đặc trưng kết hợp Kết thử nghiệm ba liệu gồm OTB100, UAV123, VOT2018 cho kết cao (state-of-the-art) so sánh với trình theo bám khác chạy với tốc độ thời gian thực khoảng 39 FPS Đề xuất TrackerLT, với trình theo bám (ví dụ DiMP), kết theo bám trình kết hợp với ROI để tạo đặc trưng ảnh mẫu nhánh mẫu mạng Siamese Tiếp đó, luận án sử dụng mạng chuyển đổi tuyến tính để tăng cường đặc trưng kết hợp đặc trưng hai nhánh mạng Siamese mà khơng dùng tương quan Mạng dự đốn đầu dùng chế phát góc giúp mơ hình dự đốn kết xác Kết thử nghiệm bốn liệu dạng ngắn (VOT2018, VOT2019, UAV123 OTB100), hai liệu dạng dài (LaSOT, GOT10K) chống UAV (Anti-UAV) cho thấy mô hình TrackerLT đạt hiệu suất cao so ánh với với số mơ hình đề xuất năm 2020, 2021, 2022 hội nghị hàng đầu thị giác máy tính CVPR, ECCV ICCV Kết nghiên cứu chương công bố cơng trình [CT4], [CT6] danh mục cơng trình cơng bố 119 KẾT LUẬN Các kết nghiên cứu luận án Trí tuệ nhân tạo (AI) trở thành xu hướng tất yếu giải toán thực tiễn ngày nhiều ngành, nhiều nhà khoa học quan tâm, đầu tư nghiên cứu, có nghiên cứu ứng dụng AI vào toán thị giác máy tính Bài tốn theo bám đối tượng video tốn có tính ứng dụng thực tế lĩnh vực thị giác máy tính Hiện nay, có nhiều hướng tiếp cận khác để giải toán tốn chưa có lời giải hồn chỉnh Luận án tập trung vào giải toán theo bám đối tượng video sử dụng mơ hình học sâu kỹ thuật thị giác máy tính tiên tiến Các kết luận án bao gồm: - Nghiên cứu tổng quan toán theo bám đối tượng, ứng dụng thách thức mà toán gặp phải; nghiên cứu số liệu chuẩn dùng để đánh giá mơ hình theo bám đơn đối tượng video; nghiên cứu hướng tiếp cận giải toán theo bám đối tượng video Từ đề xuất mơ hình theo bám đối tượng video có hiệu cao so sánh với phương pháp đề xuất cộng đồng theo bám đối tượng giới - Nghiên cứu mơ hình theo bám đối tượng sử dụng kiến trúc mạng Siamese liệu ảnh RGB, từ đề xuất mơ hình theo bám đánh giá kết liệu chống UAV hồng ngoại có kết cao - Nghiên cứu chế tập trung phương pháp phát đối tượng mới, từ đề xuất phương pháp theo bám đối tượng video theo kiến trúc mạng Siamese Đề xuất cho phép tăng cường đặc trưng hai nhánh mạng với chế tự tập trung tập trung chéo, mạng hồi quy kết không dùng khung neo giúp mơ hình giảm số tham số chạy với thời gian thực - Nghiên cứu mạng chuyển đổi tuyến tính, từ xây dựng mơ hình theo bám đối tượng theo kiến trúc Siamese có kết cao so với phương pháp khác công bố năm 2020, 2021 hội nghị hàng đầu thị giác máy tính CVPR, ICCV, ECCV - Nghiên cứu đề xuất mơ hình tăng cường hiệu trình theo bám sở Việc giúp cải thiện độ xác mơ hình theo dõi tổng thể Kết thử nghiệm bốn liệu dạng ngắn (VOT2018, VOT2019, UAV123 120 OTB100) hai liệu dạng dài (LaSOT, GOT10K) cho thấy mô hình đề xuất đạt hiệu suất cao so ánh với với số mơ hình năm 2020, 2021 2022 đề xuất hội nghị hàng đầu thị giác máy tính CVPR, ECCV ICCV Các nội dung kết luận án cơng bố 06 cơng trình khoa học, có 03 cơng trình hội thảo khoa học quốc tế thuộc danh mục Scopus 03 cơng trình tạp chí nước HĐGSNN tính điểm Những đóng góp luận án - Đề xuất số kỹ thuật cải tiến mạng Siamese toán theo bám đối tượng sử dụng chế tập trung, mạng thích ứng điểm khơng dùng khung neo - Đề xuất sử dụng mạng chuyển đổi nhẹ kiến trúc mạng Siamese toán theo bám đối tượng thời gian thực - Đề xuất sử dụng mạng chuyển đổi tuyến tính chế tập trung kiến trúc mạng Siamese giúp tăng cường hiệu trình theo bám đối tượng sở Hướng nghiên cứu Hướng nghiên cứu luận án nhằm phát triển cơng trình để đưa kết nghiên cứu vào ứng dụng thực tiễn: - Tiếp tục nghiên cứu, cải tiến phương pháp đề xuất, từ chuyển đổi mã nguồn sang TensorRT để triển khai vào ứng dụng thực tế chạy mơi trường máy tính PC thiết bị nhúng - Nghiên cứu mơ hình học sâu cho toán phát đối tượng ảnh, toán theo bám phân vùng đối tượng video, toán theo bám đa đối tượng Nhằm đề xuất mơ hình kết hợp phân vùng với theo bám đơn đa đối tượng 121 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ [CT1] Hoang Dinh Thang, Tran Quoc Long, Thai Kien Trung, Nguyen Chi Thanh, “Tracking UAV in infrared videos using Siamese networks”, Tạp chí Nghiên cứu KH&CN Quân sự, Số đặc san hội thảo Quốc gia FEE, 10–2020, tr 455–462, 2020 [CT2] Hồng Đình Thắng, Trần Quốc Long, Thái Trung Kiên, “Nghiên cứu phương pháp theo dõi đối tượng sử dụng kiến trúc mạng Siamese’, Tạp chí Nghiên cứu KH&CN Quân sự, Số đặc san hội thảo Quốc gia FEE, 10-2021, tr 211–219, 2021 [CT3] Thang Hoang Dinh, Long Tran Quoc, Kien Thai Trung, “Siamese Attention and Point Adaptive Network for Visual Tracking”, In 2021 International Conference on Multimedia Analysis and Pattern Recognition (MAPR), IEEE, 2021 [CT4] Dinh Thang Hoang, Trung Kien Thai, Thanh Nguyen Chi, and Long Quoc Tran, “Real-Time Siamese Visual Tracking with Lightweight Transformer”, In The 2021 8th NAFOSTED Conference on Information and Computer Science (NICS), IEEE, 2021, pp 265–270 [CT5] Hoang Dinh Thang, Do Ngoc Tuan, Thai Trung Kien, Tran Quoc Long, “Real-time Siamese visual object tracking using attention and anchor-free mechanism”, In Journal of Military Science and Technology, 80 (6-2022), pp 132–141 [CT6] Thang Hoang Dinh, Kien Thai Trung, Thanh Nguyen Chi, and Long Quoc Tran, “Improving the Accuracy of Tracker by Linearized Transformer”, In Proceedings of the 12th International Conference on Pattern Recognition Applications and Methods, ISBN 978-989-758-626-2, ISSN 2184-4313, 2023, pp 607–614 122 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Thi Thu Hồng, “Nghiên cứu phát triển số kỹ thuật học sâu áp dụng phân tích ảnh nội soi tuyến tiêu hóa”, v: Luận án tiến sĩ tốn học, Viện Khoa học Công nghệ quân sự, 2021 [2] Nguyễn Thị Hằng, “Ứng dụng phương pháp lọc bayes mô hình markov ẩn tốn quan sát quỹ đạo đa mục tiêu”, v: Luận án tiến sĩ toán học, Viện Khoa học Công nghệ quân sự, 2021 [3] Nguyễn Văn Căn, “Nghiên cứu phát triển số thuật toán phát phân loại phương tiện từ liệu video giao thơng”, v: Luận án tiến sĩ tốn học, Viện Khoa học Công nghệ quân sự, 2015 [4] Nguyễn Văn Hùng, “Nghiên cứu phương pháp xử lý ảnh phát hiện, bám số chủng loại mục tiêu áp dụng điều hiển vũ khí tự động”, v: Luận án tiến sĩ toán học, Viện Khoa học Công nghệ quân sự, 2017 Tiếng Anh: [5] Alan Lukeˇziˇc et al., “Discriminative correlation filter tracker with channel and spatial reliability”, in: Int J Comput Vis Volume 126, 7, 2018, pages 671–688 [6] Alex Krizhevsky et al., “Imagenet classification with deep convolutional neural networks”, in: Advances in NIPS, volume 25, 2012 [7] Alexey Bochkovskiy et al., “Yolov4: Optimal speed and accuracy of object detection”, in: arXiv:2004.10934, 2020 [8] Angelos Katharopoulos et al., “Transformers are rnns: Fast autoregressive transformers with linear attention”, in: ICML, PMLR, 2020, pages 5156–5165 [9] Arkadi Nemirovski et al., “On Cezari’s convergence of the steepest descent method for approximating saddle point of convex-concave functions”, in: Soviet Mathematics Doklady, volume 19, 2, 1978, pages 258– 269 [10] Ashish Vaswani et al., “Attention is all you need”, in: Advances in NIPS, volume 30, 2017 123 [11] Bin Wu et al., “A method for plane-symmetrical vehicle trajectory tracking in maneuver flight”, in: 35th Chinese Control Conference (CCC), IEEE, 2016, pages 5743–5746 [12] Bin Yan et al., “Alpha-refine: Boosting tracking performance by precise bounding box estimation”, in: CVPR, 2021, pages 5289–5298 [13] Bo Li et al., “High performance visual tracking with siamese region proposal network”, in: CVPR, 2018, pages 8971–8980 [14] Bo Li et al., “Siamrpn++: Evolution of siamese visual tracking with very deep networks”, in: CVPR, 2019, pages 4282–4291 [15] Borui Jiang et al., “Acquisition of localization confidence for accurate object detection”, in: ECCV, 2018 [16] Changlin Xiao et al., “Efficient tracking with distinctive target colors and silhouette”, in: ICPR, IEEE, 2016, pages 2728–2733 [17] Cheng-Yang Fu et al., “RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free”, in: arXiv:1901.03353, 2019 [18] Christian Szegedy et al., “Going deeper with convolutions”, in: CVPR, 2015, pages 1–9 [19] Cong Phuc Nguyen et al., “Multi-task Deep-Learning Vehicle Detection and Tracking based on Aerial Views from UAV”, in: 2022 International Conference on Advanced Technologies for Communications (ATC), IEEE, 2022, pages 86–91 [20] Cyril Robin et al., “Multi-robot target detection and tracking: taxonomy and survey”, in: Autonomous Robots, volume 40, 4, Springer, 2016, pages 729–760 [21] David Silver et al., “Mastering the game of Go with deep neural networks and tree search”, in: nature, volume 529, 7587, Nature Publishing Group, 2016, pages 484–489 [22] Diogo C Luvizon et al., “Human pose regression by combining indirect part detection and contextual information”, in: Computers & Graphics, volume 85, Elsevier, 2019, pages 15–22 [23] Dongyan Guo et al., “SiamCAR: Siamese fully convolutional classification and regression for visual tracking”, in: CVPR, 2020, pages 6269– 6277 124 [24] Dongyan Guo et al., “Graph attention tracking”, in: CVPR, 2021, pages 9543–9552 [25] Duc-Thinh Bui et al., “Aerial image semantic segmentation using neural search network architecture”, in: International Conference on Multidisciplinary Trends in Artificial Intelligence, Springer, 2018, pages 113– 124 [26] Esteban Real et al., “Youtube-boundingboxes: A large high-precision human-annotated data set for object detection in video”, in: CVPR, 2017, pages 5296–5305 [27] Esteban Real et al., “Youtube-boundingboxes: A large high-precision human-annotated data set for object detection in video”, in: CVPR, 2017, pages 5296–5305 [28] Fan Li et al., “Training-set distillation for real-time uav object tracking”, in: IEEE ICRA, IEEE, 2020, pages 9715–9721 [29] Goutam Bhat et al., “Unveiling the power of deep tracking”, in: ECCV, 2018, pages 483–498 [30] Goutam Bhat et al., “Learning discriminative model prediction for tracking”, in: ICCV, 2019, pages 6182–6191 [31] Goutam Bhat et al., “Know your surroundings: Exploiting scene information for object tracking”, in: ECCV, Springer, 2020, pages 205– 221 [32] Guiguang Ding et al., “Real-time scalable visual tracking via quadrangle kernelized correlation filters”, in: TITS, volume 19, 1, IEEE, 2017, pages 140–150 [33] Hao Peng et al., “Random feature attention”, in: arXiv:2103.02143, 2021 [34] Haoyang Zhang et al., “Varifocalnet: An iou-aware dense object detector”, in: CVPR, 2021, pages 8514–8523 [35] Hei Law et al., “Cornernet: Detecting objects as paired keypoints”, in: ECCV, 2018, pages 734–750 [36] Heng Fan et al., “Lasot: A high-quality benchmark for large-scale single object tracking”, in: CVPR, 2019, pages 5374–5383 [37] Huajun Liu et al., “Polarized self-attention: towards high-quality pixelwise regression”, in: arXiv:2107.00782, 2021 125 [38] Huiyu Zhou et al., “Object tracking using SIFT features and mean shift”, in: Computer vision and image understanding, volume 113, 3, Elsevier, 2009, pages 345–352 [39] Hyeonseob Nam et al., “Learning multi-domain convolutional neural networks for visual tracking”, in: CVPR, 2016, pages 4293–4302 [40] I Haritaoglu et al., W4: Real-time surveillance of people and their activities 22 (8): 809–830, 2000 [41] Iacopo Masi et al., “Learning pose-aware models for pose-invariant face recognition in the wild”, in: TPAMI, volume 41, 2, IEEE, 2018, pages 379–393 [42] Igor I Lychkov et al., “Tracking of moving objects with regeneration of object feature points”, in: GloSIC, IEEE, 2018, pages 1–6 [43] Ilchae Jung et al., “Real-time mdnet”, in: ECCV, 2018, pages 83–98 [44] Imanol Schlag et al., “Linear transformers are secretly fast weight programmers”, in: ICML, PMLR, 2021, pages 9355–9366 [45] Irwan Bello et al., “Attention augmented convolutional networks”, in: ICCV, 2019, pages 3286–3295 [46] Janghoon Choi et al., “Deep meta learning for real-time target-aware visual tracking”, in: ICCV, 2019, pages 911–920 [47] Jean-Baptiste Cordonnier et al., “On the relationship between selfattention and convolutional layers”, in: ICLR, 2020 [48] Jen-Chao Tai et al., “Real-time image tracking for automatic traffic monitoring and enforcement applications”, in: Image and Vision Computing, volume 22, 6, Elsevier, 2004, pages 485–501 [49] Jiahui Yu et al., “Unitbox: An advanced object detection network”, in: 24th ACM international conference on Multimedia, 2016, pages 516– 520 [50] Jinghao Zhou et al., “Discriminative and robust online learning for siamese visual tracking”, in: AAAI, volume 34, 07, 2020, pages 13017– 13024 [51] Jingxuan Hao et al., “A review of target tracking algorithm based on UAV”, in: IEEE International Conference on Cyborg and Bionic Systems (CBS), IEEE, 2018, pages 328–333 126 [52] João F Henriques et al., “High-speed tracking with kernelized correlation filters”, in: TPAMI, volume 37, 3, IEEE, 2014, pages 583–596 [53] Joost Van De Weijer et al., “Learning color names from real-world images”, in: CVPR, IEEE, 2007, pages 1–8 [54] Jordi Pont-Tuset et al., “The 2017 davis challenge on video object segmentation”, in: arXiv:1704.00675, 2017 [55] Joseph Redmon et al., “You only look once: Unified, real-time object detection”, in: CVPR, 2016, pages 779–788 [56] Jun Fu et al., “Dual attention network for scene segmentation”, in: CVPR, 2019, pages 3146–3154 [57] Junhai Luo et al., “Underwater acoustic target tracking: A review”, in: Sensors, volume 18, 1, Multidisciplinary Digital Publishing Institute, 2018, page 112 [58] Kaiming He et al., “Deep residual learning for image recognition”, in: CVPR, 2016, pages 770–778 [59] Kaiwen Duan et al., “Centernet: Keypoint triplets for object detection”, in: ICCV, 2019, pages 6569–6578 [60] Kenan Dai et al., “High-performance long-term tracking with metaupdater”, in: CVPR, 2020, pages 6298–6307 [61] Kim-Phuong Phung et al., “Multi-model deep learning drone detection and tracking in complex background conditions”, in: 2021 International Conference on Advanced Technologies for Communications (ATC), IEEE, 2021, pages 189–194 [62] Kuan-Hui Lee et al., “Ground-moving-platform-based human tracking using visual SLAM and constrained multiple kernels”, in: TITS, volume 17, 12, IEEE, 2016, pages 3602–3612 [63] Lianghua Huang et al., “Got-10k: A large high-diversity benchmark for generic object tracking in the wild”, in: TPAMI, volume 43, 5, IEEE, 2019, pages 1562–1577 [64] Lili Pei et al., “Improved Camshift object tracking algorithm in occluded scenes based on AKAZE and Kalman”, in: Multimedia Tools and Applications, volume 81, 2, Springer, 2022, pages 2145–2159 [65] Luca Bertinetto et al., “Fully-convolutional siamese networks for object tracking”, in: ECCV, Springer, 2016, pages 850–865 127 [66] Martin Danelljan et al., “Learning spatially regularized correlation filters for visual tracking”, in: ICCV, 2015, pages 4310–4318 [67] Martin Danelljan et al., “Adaptive decontamination of the training set: A unified formulation for discriminative visual tracking”, in: CVPR, 2016, pages 1430–1438 [68] Martin Danelljan et al., “Beyond correlation filters: Learning continuous convolution operators for visual tracking”, in: ECCV, Springer, 2016, pages 472–488 [69] Martin Danelljan et al., “Eco: Efficient convolution operators for tracking”, in: CVPR, 2017, pages 6638–6646 [70] Martin Danelljan et al., “Atom: Accurate tracking by overlap maximization”, in: CVPR, 2019, pages 4660–4669 [71] Martin Danelljan et al., “Probabilistic regression for visual tracking”, in: CVPR, 2020, pages 7183–7192 [72] Martin Danelljan et al., Visual tracking library based on PyTorch, url: https://github.com/visionml/pytracking, accessed: 2022 [73] Matej Kristan et al., “The sixth visual object tracking vot2018 challenge results”, in: ECCV Workshops, 2018 [74] Matej Kristan et al., “The seventh visual object tracking vot2019 challenge results”, in: ICCV Workshops, 2019 [75] Matthias Mueller et al., “A benchmark and simulator for uav tracking”, in: ECCV, Springer, 2016, pages 445–461 [76] Matthias Muller et al., “Trackingnet: A large-scale dataset and benchmark for object tracking in the wild”, in: ECCV, 2018, pages 300–317 [77] Ming Gao et al., “Manifold siamese network: A novel visual tracking ConvNet for autonomous vehicles”, in: TITS, volume 21, 4, IEEE, 2019, pages 1612–1623 [78] Moju Zhao et al., “Trtr: Visual tracking with transformer”, in: arXiv:2105.03817, 2021 [79] Mustansar Fiaz et al., “Handcrafted and deep trackers: Recent visual object tracking approaches and trends”, in: ACM Computing Surveys (CSUR), volume 52, 2, ACM New York, NY, USA, 2019, pages 1–44 [80] Nan Jiang et al., Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking, url: https://anti-uav.github.io, accessed: 2020 128 [81] Navneet Dalal et al., “Histograms of oriented gradients for human detection”, in: IEEE Computer Society CVPR, volume 1, Ieee, 2005, pages 886–893 [82] Ngoc-Vuong Ho et al., “Point-Unet: A Context-Aware Point-Based Neural Network for Volumetric Segmentation”, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2021, pages 644–655 [83] Nicolas Carion et al., “End-to-end object detection with transformers”, in: ECCV, Springer, 2020, pages 213–229 [84] Ning Wang et al., “Transformer meets tracker: Exploiting temporal context for robust visual tracking”, in: CVPR, 2021, pages 1571–1580 [85] Ning Xu et al., “Youtube-vos: A large-scale video object segmentation benchmark”, in: arXiv:1809.03327, 2018 [86] Olga Russakovsky et al., “Imagenet large scale visual recognition challenge”, in: IJCV, volume 115, 3, Springer, 2015, pages 211–252 [87] Omkar M Parkhi et al., “Deep face recognition”, in: British Machine Vision Association, 2015 [88] P Kingma Diederik et al., “A method for stochastic optimization”, in: arXiv:1412.6980, CoRR, 2014 [89] Peixia Li et al., “Gradnet: Gradient-guided network for visual object tracking”, in: ICCV, 2019, pages 6162–6171 [90] Prajit Ramachandran et al., “Stand-alone self-attention in vision models”, in: Advances in NIPS, volume 32, 2019 [91] Qiang Wang et al., “Learning attentions: residual attentional siamese network for high performance online visual tracking”, in: CVPR, 2018, pages 4854–4863 [92] Qiang Wang et al., “Fast online object tracking and segmentation: A unifying approach”, in: CVPR, 2019, pages 1328–1338 [93] Qilong Wang et al., “ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks”, in: CVPR, 2020, pages 11531–11539 [94] Qin Lei et al., “Tracking for near space nonballistic target based on several filter algorithms”, in: 34th Chinese Control Conference (CCC), IEEE, 2015, pages 4997–5002 129 [95] Qing Guo et al., “Learning dynamic siamese network for visual object tracking”, in: ICCV, 2017, pages 1763–1771 [96] Ronan Collobert et al., “Natural language processing (almost) from scratch”, in: booktitle of machine learning research, volume 12, inproceedings, 2011, pages 2493–2537 [97] Seong-Young Ko et al., “A surgical knowledge based interaction method for a laparoscopic assistant robot”, in: 13th IEEE International Workshop on Robot and Human Interactive Communication, IEEE, 2004, pages 313–318 [98] Seyed Mojtaba Marvasti-Zadeh et al., “Deep learning for visual tracking: A comprehensive survey”, in: TITS, IEEE, 2021 [99] Shaoqing Ren et al., “Faster r-cnn: Towards real-time object detection with region proposal networks”, in: Advances in NIPS, volume 28, 2015 [100] Siyuan Cheng et al., “Learning to filter: Siamese relation network for robust tracking”, in: CVPR, 2021, pages 4421–4431 [101] Stuart J Russell et al (2020), Artificial Intelligence: A Modern Approach, 4th Ed Prentice Hall [102] Tianyang Lin et al., “A survey of transformers”, in: AI Open, Elsevier, 2022 [103] Tsung-Yi Lin et al., “Microsoft coco: Common objects in context”, in: ECCV, Springer, 2014, pages 740–755 [104] Tsung-Yi Lin et al., “Focal loss for dense object detection”, in: ICCV, 2017, pages 2980–2988 [105] Van-Viet Doan et al., “Real-time Image Semantic Segmentation Networks with Residual Depth-wise Separable Blocks”, in: 2018 Joint 10th International Conference on Soft Computing and Intelligent Systems (SCIS) and 19th International Symposium on Advanced Intelligent Systems (ISIS), IEEE, 2018, pages 174–179 [106] Vittoria Bruni et al., “An improvement of kernel-based object tracking based on human perception”, in: IEEE Transactions on Systems, Man, and Cybernetics: Systems, volume 44, 11, IEEE, 2014, pages 1474– 1485 [107] Wei He et al., “Surf tracking”, in: ICCV, IEEE, 2009, pages 1586–1592 [108] Wei Liu et al., “Ssd: Single shot multibox detector”, in: ECCV, Springer, 2016, pages 21–37 130 [109] Weiwei Xing et al., “Visual Object Tracking from Correlation Filter to Deep Learning”, in: Springer, 2021 [110] Xin Chen et al., “Transformer tracking”, in: CVPR, 2021, pages 8126– 8135 [111] Xinyu Zhang et al., “A study on key technologies of unmanned driving”, in: CAAI Transactions on Intelligence Technology, volume 1, 1, Elsevier, 2016, pages 4–13 [112] Yi Wu et al., “Online object tracking: A benchmark”, in: CVPR, 2013, pages 2411–2418 [113] Yi Wu et al., “Object Tracking Benchmark”, in: TPAMI, volume 37, 9, 2015, pages 1834–1848 [114] Yiming Li et al., “AutoTrack: Towards high-performance visual tracking for UAV with automatic spatio-temporal regularization”, in: CVPR, 2020, pages 11923–11932 [115] Ying Xia et al., “Dynamic Object Tracking Based on KAZE Features and Particle Filter”, in: Applied Mechanics and Materials, volume 556, Trans Tech Publ, 2014, pages 2702–2706 [116] Yuechen Yu et al., “Deformable siamese attention networks for visual object tracking”, in: CVPR, 2020, pages 6728–6737 [117] Yutao Cui et al., “MixFormer: End-to-End Tracking with Iterative Mixed Attention”, in: CVPR, 2022, pages 13608–13618 [118] Zanwu Xia et al., “Vision-based hand gesture recognition for humanrobot collaboration: a survey”, in: ICCAR, IEEE, 2019, pages 198–205 [119] Ze Yang et al., “Reppoints: Point set representation for object detection”, in: ICCV, 2019, pages 9657–9666 [120] Zedu Chen et al., “Siamese Box Adaptive Network for Visual Tracking”, in: CVPR, 2020, pages 6668–6677 [121] Zhang Stranger, Python Single Object Tracking Evaluation, url: https: //github.com/StrangerZhang/pysot-toolkit, accessed: 2020 [122] Zheng Tang et al., “Cityflow: A city-scale benchmark for multi-target multi-camera vehicle tracking and re-identification”, in: CVPR, 2019, pages 8797–8806 [123] Zheng Zhu et al., “Distractor-aware siamese networks for visual object tracking”, in: ECCV, 2018, pages 101–117 131 [124] Zhi Tian et al., “Fcos: Fully convolutional one-stage object detection”, in: ICCV, 2019, pages 9627–9636 [125] Zhipeng Zhang et al., “Deeper and wider siamese networks for real-time visual tracking”, in: CVPR, 2019, pages 4591–4600 [126] Zhipeng Zhang et al., “Ocean: Object-aware anchor-free tracking”, in: ECCV, Springer, 2020, pages 771–787 [127] Zhipeng Zhang et al., “Learn to match: Automatic matching network design for visual tracking”, in: ICCV, 2021, pages 13339–13348

Định dạng
Số trang	145
Dung lượng	3 MB