Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	127
Dung lượng	8,07 MB

Nội dung

Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người.

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Đào Vũ Hiệp NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THƠNG DỮ LIỆU Hà Nội – 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Đào Vũ Hiệp NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI Ngành: Mạng máy tính truyền thơng liệu Mã số: 9480102 LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Trần Quang Đức Hà Nội - 2023 LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thân thời gian học tập nghiên cứu hướng dẫn người hướng dẫn khoa học Các số liệu, kết trình bày luận án trung thực chưa tác giả khác công bố Hà Nội, ngày tháng năm 2023 Giáo viên hướng dẫn Nghiên cứu sinh PGS TS Trần Quang Đức Đào Vũ Hiệp i LỜI CẢM ƠN Trong trình học tập nghiên cứu, nghiên cứu sinh nhận nhiều giúp đỡ ý kiến đóng góp q báu thầy, Đặc biệt, tơi xin bày tỏ lịng biết ơn chân thành sâu sắc đến PGS.TS Trần Quang Đức - người hướng dẫn khoa học tận tình bảo, hướng dẫn để nghiên cứu sinh hồn thành luận án Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Linh Giang, TS Trần Nguyên Ngọc, ThS Mạc Đình Hiếu bạn sinh viên Trung tâm an tồn an ninh thơng tin/Trường Cơng nghệ thông tin Truyền thông/Đại học Bách Khoa Hà Nội nhiệt tình hướng dẫn, giúp đỡ tạo điều kiện thuận lợi cho tơi suốt q trình thực Luận án Tôi xin cảm ơn quan cơng tác, gia đình người thân ln bên tôi, ủng hộ động viên suốt trình nghiên cứu Tơi xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2023 Nghiên cứu sinh Đào Vũ Hiệp ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC HÌNH VẼ ix DANH MỤC CÁC BẢNG xii MỞ ĐẦU 1 Bối cảnh nghiên cứu Những thách thức mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Ý nghĩa khoa học thực tiễn đề tài nghiên cứu Điểm luận án Cấu trúc luận án Chương TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU 1.1 Vai trị ảnh nhiệt tốn phát theo vết đối tượng 1.1.1 Khái quát tín hiệu hồng ngoại 1.1.2 Khả mơ tả đối tượng tín hiệu hồng ngoại 11 1.2 Kỹ thuật học sâu áp dụng toán phát theo vết đối tượng 13 1.2.1 Cơ mạng nơ ron tích chập 14 1.2.2 Một số phương pháp phát đối tượng sử dụng kỹ thuật học sâu 15 1.2.3 Một số phương pháp theo vết đối tượng sử dụng kỹ thuật học sâu 17 1.3 Bài toán phát đối tượng người sử dụng kỹ thuật học sâu dựa ảnh màu ảnh nhiệt 19 1.3.1 Phân tích toán 19 1.3.2 Bộ liệu thử nghiệm 20 1.3.3 Độ đo hiệu 22 1.3.4 Các nghiên cứu có liên quan 23 1.4 Bài toán theo vết đối tượng người sử dụng kỹ thuật học sâu dựa ảnh màu ảnh nhiệt 34 1.4.1 Phân tích tốn 34 1.4.2 Bộ liệu thử nghiệm 35 iii 1.4.3 Độ đo hiệu 36 1.4.4 Các nghiên cứu có liên quan 37 1.5 Kết luận chương 43 Chương PHƯƠNG PHÁP XÁC ĐỊNH TRỌNG SỐ TRONG KẾT HỢP ẢNH MÀU VÀ ẢNH NHIỆT 44 2.1 Ảnh hưởng độ chiếu sáng cường độ nhiệt đến hiệu phát theo vết đối tượng người 44 2.1.1 Khảo sát ảnh hưởng độ chiếu sáng đến hiệu phát theo vết đối tượng người 44 2.1.2 Khảo sát ảnh hưởng cường độ nhiệt đến hiệu phát theo vết đối tượng người 47 2.2 Các phương pháp để xác định độ chiếu sáng 47 2.2.1 Các phương pháp để ước lượng độ chiếu sáng phổ biến 47 2.2.2 Phương pháp sử dụng độ nhiễu để xác định độ chiếu sáng 51 2.3 Đánh giá chất lượng phát theo vết đối tượng ảnh nhiệt 56 2.4 Phương pháp xác định trọng số kết hợp ảnh màu ảnh nhiệt phát theo vết người 58 2.5 Kết luận chương 64 Chương PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI VỚI ĐỘ NHIỄU VÀ CƯỜNG ĐỘ NHIỆT 65 3.1 Các kỹ thuật tảng 65 3.1.1 Các thuật toán YOLO 65 3.1.2 Thuật toán SiamDW_ST 72 3.2 Thuật toán kết hợp ảnh màu ảnh nhiệt mức điểm ảnh để phát đối tượng người 74 3.2.1 Mô tả thuật toán 74 3.2.2 Đánh giá kết 74 3.3 Thuật toán kết hợp thời gian thực mức kết để phát đối tượng người 78 3.3.1 Mơ tả thuật tốn 78 3.3.2 Đánh giá kết 79 3.4 Thuật toán phát đối tượng người giai đoạn sử dụng độ nhiễu cường độ nhiệt 80 3.4.1 Mơ tả thuật tốn 80 iv 3.4.2 Điều kiện thử nghiệm 82 3.4.3 Kết thử nghiệm so sánh với phương pháp xác định trọng số khác 82 3.4.4 Kết thử nghiệm so sánh mức kết hợp 83 3.4.5 Kết thử nghiệm so sánh với thuật toán phổ biến 84 3.5 Thuật toán theo vết đối tượng người sử dụng độ nhiễu cường độ nhiệt 88 3.5.1 Mơ tả thuật tốn 88 3.5.2 Điều kiện thử nghiệm 89 3.5.3 Kết thử nghiệm so sánh với thuật tốn phổ biến tồn chuỗi đối tượng người 90 3.5.4 Kết thử nghiệm so sánh với thuật toán phổ biến riêng chuỗi liệu ban ngày 90 3.5.5 Kết thử nghiệm so sánh với thuật toán phổ biến riêng chuỗi liệu ban đêm 91 3.5.6 Kết thử nghiệm so sánh với thuật toán phổ biến riêng chuỗi liệu có nhiều đối tượng bị che khuất 91 3.5.7 Kết thử nghiệm so sánh với thuật toán phổ biến riêng chuỗi liệu có nhiều đối tượng kích thước thay đổi 92 3.5.8 Kết thử nghiệm so sánh với thuật toán phổ biến riêng chuỗi liệu có nhiều khung hình camera chuyển động 92 3.5.9 Kết thử nghiệm so sánh với thuật toán phổ biến riêng chuỗi liệu có đối tượng chuyển động liên tục 92 KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN 102 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 104 TÀI LIỆU THAM KHẢO 105 v DANH MỤC CÁC TỪ VIẾT TẮT STT Chữ viết tắt DL Deep Learning CNN Convolutional Network GPU Graphic Processing Unit ILSVRC VOT Tiếng Anh Ý nghĩa Tiếng Việt Học sâu Neural Mạng nơ ron tích chập Đơn vị xử lý đồ họa ImageNet Large Scale Visual Bộ liệu ảnh lớn Recognition Challenge thi nhận dạng trực quan Visual Object Tracking Theo vết đối tượng trực quan Bộ liệu đối tượng thông Microsoft Common Objects in dụng nhiều ngữ cảnh COntext (MS COCO) Microsoft COCO OCR Optical Character Recognition Nhận dạng ký tự HOG Histogram Gradients ROI Region of Interest Vùng quan tâm Intersection over Union Tỷ lệ diện tích vùng giao vùng hợp khung dự đoán khung chuẩn of Oriented Lược đồ hướng gradient 10 IoU 11 VGG Very Deep Networks 12 FCN Fully Convolutional Network Mạng tích chập đầy đủ 13 RPN Region Proposal Network Mạng đề xuất vùng 14 CSPNet 15 FPN Feature Pyramid Network 16 PAN Path Aggregation Network Convolutional Tên mạng nơ ron: Mạng tích chập sâu Cross Stage Partial Network vi Mạng kết nối chéo tầng Mạng kim tự tháp đặc trưng kiến trúc phát đối tượng nhiều tỷ lệ Mạng tổng hợp đường cho phép kết hợp đặc trưng từ nhiều tầng nơ ron tích chập 17 ACF Aggregated Channel Features Đặc trưng kết hợp từ nhiều kênh 18 SSD Single Shot Multibox Detector Tên thuật toán phát đối tượng giai đoạn 19 Siamese Sililarity Learning Huấn luyện để xác định ảnh tương tự 20 DCF Discriminative Filters 21 NCC Normalized Cross-Correlation Tương quan chéo chuẩn hóa 22 23 24 Correlation Bộ lọc tương quan phân biệt Thuật toán theo vết đối tượng sử dụng lớp tích chập đầy đủ để xác định vị trí đối tượng SiamFC Fully-Convolutional Siamese MOSSE Tên thuật toán theo vết Minimum Output Sum of đối tượng sử dụng huấn luyện Squared Error DCF ATOM Tên thuật toán theo vết Accurate Tracking by Overlap đối tượng sử dụng phương Maximization pháp tối đa độ chồng lấn Tên thuật toán phát 25 CIAN Cross-Modality interactive attention network đối tượng người sử dụng kết hợp ảnh màu ảnh nhiệt sử dụng ngữ nghĩa ảnh để làm trọng số 26 27 SNR mAP Signal to Noise Ratio Tỷ lệ tín hiệu nhiễu mean Average Precision Độ xác trung bình, sử dụng để đánh giá thuật toán phát đối tượng 28 LAMR Log Average Miss Rate Tỷ lệ lỗi trung bình miền logarit sử dụng để đánh giá thuật toán phát đối tượng 29 FPPI False Positive Per Image Tỷ lệ phát sai số lượng ảnh thử nghiệm vii 30 31 32 33 fps NMS frame per second Khung hình giây Non-Maximum Suppression Tên thuật tốn loại bỏ ước lượng trùng toán phát đối tượng NAMPD Tên thuật toán phát đối Noise - Aware Multispectral tượng kết hợp ảnh màu ảnh Perdestrian Detector nhiệt sử dụng độ nhiễu cường độ nhiệt MCFF Tên lớp để kết hợp đặc trưng ảnh màu ảnh Multispectral channel feature nhiệt Trong huấn fusion luyện để tạo trọng số kết hợp tối ưu viii a) Biểu đồ độ xác - độ bền vững b) EAO thuật toán c) Đường cong EAO theo số lượng khung hình (đường cong cao, thuật tốn có hiệu tốt hơn) Hình 3.22 Kết so sánh độ xác, độ ổn đinh số EAO với thuật toán phổ biến riêng chuỗi liệu có nhiều khung hình camera chuyển động 99 a) Biểu đồ độ xác - độ bền vững b) EAO thuật toán c) Đường cong EAO theo số lượng khung hình (đường cong cao, thuật tốn có hiệu tốt hơn) Hình 3.23 Kết so sánh độ xác, độ ổn đinh số EAO với thuật toán phổ biến riêng với chuỗi liệu có đối tượng chuyển động liên tục 100 Hình 3.24 Minh họa so sánh kết theo vết đối tượng thuật toán trừ xuống: Phương pháp đề xuất, SiamDW_T, DiMP, FSRPN, CIRSDCF 101 KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN KẾT LUẬN Qua nội dung trình bày, phân tích kết thử nghiệm, đánh giá luận án đến kết luận sau: (1) Các thuật toán phát theo vết đối tượng dựa phương pháp học sâu cho kết tốt ảnh màu Tuy nhiên, hiệu bị giảm nhiều gặp điều kiện chiếu sáng không tốt như: trời tối, sương mù Ảnh nhiệt tạo tín hiệu hồng ngoại bước sóng dài (LWIR - Long Wave Infrared) khơng mơ tả rõ hình dạng, màu sắc đối tượng không bị ảnh hưởng điều kiện chiếu sáng môi trường cung cấp thông tin bổ sung đáp ứng điều kiện chiếu sáng không tốt Để xây dựng trọng số kết hợp từ điều kiện chiếu sáng mơi trường sử dụng độ nhiễu (được tính từ phân tích wavelet ảnh màu) cường độ nhiệt (được tính từ trung bình độ sáng ảnh nhiệt) Một số phân tích, tính tốn trực quan cho thấy hiệu kỹ thuật xây dựng trọng số (2) Đối với toán phát đối tượng người sử dụng đa nguồn ảnh, thuật toán NAMPD, kết hợp mức kết sử dụng trọng số xây dựng từ độ nhiễu cường độ nhiệt đề xuất Luận án chứng minh hiệu quả, cho hiệu cao số thuật toán phổ biến (3) Đối với toán xây dựng ảnh trộn (blended images) từ ảnh màu ảnh nhiệt phục vụ quan sát, phát đối tượng người, thuật toán kết hợp dựa phân tích hai thành phần (thành phần sở thành phần chi tiết) sử dụng trọng số xây dựng từ độ nhiễu cường độ nhiệt đề xuất Luận án chứng minh hiệu quả, cho hiệu cao số thuật toán phổ biến (4) Đối với toán theo vết đối tượng, kết hợp ảnh màu ảnh nhiệt sử dụng trọng số xây dựng từ toán phát đối tượng cho kết khả quan, hiệu cao thuật toán gốc số thuật tốn phổ biến Tuy nhiên, chưa tìm liệu huấn luyện có điều kiện thu thập tương đương với liệu thử nghiệm nên hiệu tăng không nhiều PHƯƠNG HƯỚNG PHÁT TRIỂN Nội dung trình bày luận án tiếp tục phát triển hoàn thiện theo hướng sau đây: (1) Thuật toán phát đối tượng người NAMPD đề xuất luận án phát triển thuật toán phát đối tượng nhanh, giai đoạn YOLOv4 áp dụng hệ thống tự hành xe tự lái, rô bốt, máy bay không người lái Ngoài ra, hệ thống phát đối tượng khác, sử dụng thuật toán phát 102 đối tượng khác (có thể thuật tốn phát đối tượng xác, hai giai đoạn) hồn toàn áp dụng phương pháp kết hợp sử dụng trọng số đề xuất luận án (2) Kỹ thuật xây dựng trọng số kết hợp đa nguồn ảnh dựa độ nhiễu cường độ nhiệt phát huy hiệu Vì vậy, tiếp tục nghiên cứu để phát triển phương pháp trích suất độ nhiễu có hiệu cao hơn, dựa vào tính chất nhiễu ảnh màu nhiễu Gauss, nhiễu ảnh nhiệt nhiễu muối tiêu (salt-and-pepper noise) kỹ thuật phát nhiễu tiên tiến (3) Có thể nghiên cứu để xây dựng liệu bao gồm ảnh màu ảnh nhiệt để ước lượng trọng số cho toán theo vết đối tượng, đạt hiệu cao Đồng thời tối ưu thuật tốn để theo vết đối tượng với tốc độ cao hơn, đáp ứng yêu cầu ứng dụng 103 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 1.Đào Vũ Hiệp, Mạc Đình Hiếu, Tống Việt Hùng, Vũ Văn Phán, Hà Quốc Trung, “IVA-EC: giải pháp phân tích video thơng minh dựa điện toán biên”, Hội nghị khoa học quốc gia "Nghiên cứu ứng dụng Công nghệ thông tin" (FAIR - Fundamental and Applied Information Technology FAIR'2020), Khánh Hòa, 06-07/8/2020 2.Vu Hiep Dao, Hieu Mac, Duc Tran, “A Real-time Multispectral Algorithm for Robust Pedestrian Detection”, Proceedings of the 15th international conference on computing and communication technologies, RIVF 2021 Hiep Dao, Hieu Mac, Duc Tran, “Noise-aware deep learning algorithm for one-stage multispectral pedestrian detection”, Journal of Electronic Imaging, 06/2022 (ISI), DOI: 10 1117/1.JEI.31.3.033035 4.Đào Vũ Hiệp, Trần Quang Đức, “Một thuật toán theo vết đối tượng sử dụng đa nguồn tín hiệu ảnh”, Tạp chí Nghiên cứu Khoa học Công nghệ quân sự, 12/2022, DOI: 10.54939/1859-1043.j.mst.84.2022.32-41 104 TÀI LIỆU THAM KHẢO [1] C Li, D Song, R Tong M Tang, “Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection,” Pattern Recognition, 2018 [2] J & W S Speakman, “Infrared thermography: Principles and applications,” I ZOOLOGY Zoology, 1998 [3] O Russakovsky, J Deng, H Su, J Krause, S Satheesh, S Ma, Z Huang, A Karpathy, A Khosla, M Bernstein, A C Berg F.-F Li, “ImageNet Large Scale Visual Recognition Challenge,” IJCV, 2015 [4] M Kristan, J Matas, A Leonardis, M Felsberg, R Pflugfelder, J.-K Kämäräinen, L C Zajc, O Drboh , “The Seventh Visual Object Tracking VOT2019 Challenge Results,” IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), 2019 [5] R Girshick, J Donahue, T Darrell J Malik, “Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014 [6] R Girshick, “Fast R-CNN,” Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015 [7] S Ren, K He, R Girshick J Sun, “Faster R-CNN: Towards RealTime Object Detection with Region Proposal Networks,” Advances in Neural Information Processing Systems 28 (NIPS), 2015 [8] J Pang, K Chen J Shi, “Libra R-CNN: Towards Balanced Learning for Object Detection,” IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 [9] Y Liu, Y Wang S Wang, “CBNet: A Novel Composite Backbone Network Architecture for Object Detection,” Proceedings of the AAAI Conference on Artificial Intelligence [10] J Redmon, S Divvala, R Girshick A Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” Proceedings of the 105 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [11] J Redmon A Farhadi, “YOLO9000: Better, Faster, Stronger,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 [12] J Redmon A Farhadi, “YOLOv3: An Incremental Improvement,” arXiv:1804.02767, 2018 [13] A Bochkovskiy, C.-Y Wang H Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” ArXiv, 2020 [14] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed,, C.-Y Fu A C Berg , “SSD: Single Shot MultiBox Detector,” European Conference on Computer Vision (ECCV), 2016 [15] T.-Y Lin, P Goyal, R Girshick, K He P Dollar, “Focal Loss for Dense Object Detection,” Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017 [16] B Jiang, R Luo, J Mao, T Xiao Y Jiang, “Acquisition of Localization Confidence for Accurate Object Detection,” Proceedings of the European Conference on Computer Vision (ECCV), 2018 [17] D.-M Tsai C.-T Lin, “Fast normalized cross correlation for defect detection,” Pattern Recognition Letters, tập 24, số 15, pp 2625-2631, 2003 [18] S Baker I Matthews, “Lucas-Kanade 20 Years On: A Unifying Framework,” International Journal of Computer Vision, pp 221-255, 2004 [19] D Comaniciu, V Ramesh P Meer, “Real-time tracking of non-rigid objects using mean shift,” Proceedings IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2000 [20] L Bertinetto, J Valmadre, J F Henriques, A Vedaldi P H S Torr, “Fully-Convolutional Siamese Networks for Object Tracking,” European Conference on Computer Vision (ECCV), 2016 106 [21] D S Bolme, J R Beveridge, B A Draper Y M Lui, “Visual object tracking using adaptive correlation filters,” IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010 [22] J F Henriques, R Caseiro, P Martins J Batista, “High-Speed Tracking with Kernelized Correlation Filters,” IEEE Transactions on Pattern Analysis and Machine Intelligence, tập 37, số 3, pp 583-596, 2015 [23] A Lukezic, T Vojir, L C Zajc, J Matas M Kristan, “Discriminative Correlation Filter With Channel and Spatial Reliability,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 [24] Z Zhang H Peng, “Deeper and Wider Siamese Networks for RealTime Visual Tracking,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 [25] G Bhat, M Danelljan, L V Gool R Timofte, “Learning Discriminative Model Prediction for Tracking,” Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019 [26] D P Bavirisetti R Dhuli, “Two-scale image fusion of visible and infrared images using saliency,” Infrared Physics & Technology, tập 76, pp 52-64, 2016 [27] V N “Image Fusion technique using Multi-resolution singular Value decomposition,” Defence Science Journal, tập 61, số 5, pp 479-484, 2011 [28] J Ma, W Yu, P Liang, C Li J Jiang, “FusionGAN: A generative adversarial network for infrared and visible image fusion,” Information Fusion, tập 48, pp 11-26, 2019 [29] Z Cao, H Yang, J Zhao, S Guo L Li, “Attention Fusion for OneStage Multispectral Pedestrian Detection,” Sensors, tập 21, số 12, 2021 [30] L Zhang, Z Liu, S Zhang, X Yang, H Qiao, K Huang A Hussain, “Cross-modality interactive attention network for multispectral pedestrian detection,” Information Fusion, tập 50, pp 20-29, 2019 107 [31] “"Infrared Light" RP Photonics Encyclopedia RP Photonics.,” [Trực tuyến] [Đã truy cập 20 July 2021] [32] D H H T N W , “Receptive fields of single neurones in the cat's striate cortex,” Physiological Society, tập 3, số 148, p 574–591, 1959 [33] S Pattanayak, Pro Deep Learning with TensorFlow: A Mathematical Approach to Advanced Artificial Intelligence in Python, Apress, 2017 [34] A Krizhevsky, I Sutskever G E Hinton, “ImageNet classification with deep convolutional neural networks,” Communications of the ACM, tập 60, số 6, pp 84-90, 2017 [35] A Zisserman K Simonyan, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” arXiv preprint arXiv:1409.1556, 2014 [36] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke A Rabinovich, “Going deeper with convolutions,” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 [37] K He, X Zhang, S Ren J Sun, “Deep Residual Learning for Image Recognition,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [38] S Xie, R Girshick, P Dollár, Z Tu K He, “Aggregated Residual Transformations for Deep Neural Networks,” arXiv preprint arXiv:1611.05431, 2016 [39] C.-Y Wang, M Liao, H.-Y Y.-H Wu, P.-Y Chen, J.-W Hsieh I.-H Yeh, “CSPNet: A new backbone that can enhance learning capability of cnn,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020 [40] G Huang, Z Liu, L v d Maaten K Q Weinberger, “Densely Connected Convolutional Networks,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 [41] B Li, J Yan, W Wu, Z Zhu X Hu, “High Performance Visual Tracking with Siamese Region Proposal Network,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018 108 [42] N Duc Thanh, W Li P O.Ogunbona, “Human detection from images and videos: A survey,” Pattern Recognition, tập 51, pp 148-175, 2016 [43] S Hwang, J Park, N Kim, Y Choi, I S Kweon , “Multispectral pedestrian detection: Benchmark dataset and baseline,” 2015 [44] A Géron, Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, O'Reilly Media, 2019 [45] J Liu, S Zhang, S Wang D N Metaxas, “Multispectral deep neural networks for pedestrian detection,” arXiv preprint arXiv:1611.02644, 2016 [46] C Li, D Song, R Tong M Tang, “Multispectral pedestrian detection via simultaneous detection and segmentation,” arXiv preprint arXiv:1808.04818, 2018 [47] J Wagner, V Fischer, M Herman S Behnke, “Multispectral Pedestrian Detection using Deep Fusion Convolutional Neural Networks,” 24th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN), 2016 [48] M Lin, Q Chen S Yan, “Network in network,” arXiv preprint arXiv:1312.4400, 2013 [49] D Konig, M Adam, C Jarvers, G Layher, H Neumann M Teutsch, “Fully Convolutional Region Proposal Networks,” IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017 [50] H Zhang, K Dana, J Shi, Z Zhang, X Wang, A Tyagi A Agrawal, “Context Encoding for Semantic Segmentation,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018 [51] H Choi, S Kim, K Park K Sohn, “Multi-spectral Pedestrian Detection Based on Accumulated Object Proposal with Fully Convolutional Networks,” International Conference on Pattern Recognition (ICPR), Cancún, México, 2016 109 [52] A Wolpert, M Teutsch, M S Sarfraz R Stiefelhagen, “Anchor-free Small-scale Multispectral Pedestrian Detection,” arXiv:2008.08418, 2020 [53] H Li X.-J Wu, “DenseFuse: A Fusion Approach to Infrared and Visible Images,” IEEE Transactions on Image Processing, tập 28, số 5, pp 2614 - 2623, 2019 [54] A Jalal V Singh, “The State-of-the-Art in Visual Object Tracking,” Informatica (Slovenia), tập 36, pp 227-248, 2012 [55] M Kristan, J Matas, A Leonardis, M Felsberg, R Pflugfelder, J.-K Kamarainen, L Čehovin Zajc, O Drbohlav A Lukezic, “The Seventh Visual Object Tracking VOT2019 Challenge Results,” ICCV, 2019 [56] M Danelljan, G Bhat, F S Khan M Felsberg, “ATOM: Accurate Tracking by Overlap Maximization,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 [57] D Demchev, V Volkov, E Kazakov P Alcantarilla, “Sea Ice Drift Tracking From Sequential SAR Images Using Accelerated-KAZE Features,” IEEE Transactions on Geoscience and Remote Sensing [58] A V “Channel-independent spatially regularized discriminative correlation filter for visual object tracking,” Journal of Real-Time Image Processing, tập 18, p 233–243, 2021 [59] B Li, W Wu, Q Wang, F Zhang, J Xing J Yan, “SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks,” IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 [60] L Zhang, M Danelljan, A Gonzalez-Garcia, J v d Weijer F S Khan, “Multi-Modal Fusion for End-to-End RGB-T Tracking,” Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019 [61] E Reinhard, M Stark, P Shirley J Ferwerda, “Photographic Tone Reproduction For Digital Images,” ACM Transactions on Graphics, tập 21, số 3, 2002 110 [62] D L Donoho I M Johnstone, “Ideal Spatial Adaptation by Wavelet Shrinkage,” Biometrika, Oxford University Press, tập 81, số 3, pp 425455, 1994 [63] R Gonzalez R Woods, Digital Image Processing, Prentice Hall, 2008 [64] J Z Wang, G Wiederhold, O Firschein S X Wei, “Content-based image indexing and searching using Daubechies' wavelets,” International Journal on Digital Libraries, tập 1, số 4, pp 311-328, 1998 [65] I Daubechies, Ten Lectures on Wavelets, CBMS-NSF Regional Conference Series in Applied Mathematics, Siam, 1992 [66] E Peli, “Contrast in complex images” [67] H G “The Levenberg-Marquardt method for nonlinear least squares curve-fitting problem,” Mathematics, 2013 [68] J Terven D Cordova-Esparza, “A Comprehensive Review of YOLO: From YOLOv1 and Beyond,” ACM Computing Surveys [69] H W K “The Hungarian method for the assignment problem,” Naval Research Logistics Quarterly, 1955 [70] Z Zheng, P Wang, W Liu, J Li, R Ye D Ren, “Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression,” arXiv:1911.08287v1 [cs.CV], 2019 [71] R Gonzalez R Woods, Digital Image Processing, Pearson, 2017 [72] T.-Y Lin, M Maire, S Belongie, L Bourdev, R Girshick, J Hays, P Perona, D Ramanan, L Zitnick P Dollár, “Microsoft COCO: Common Objects in Context,” Computer Vision – ECCV, 2014 [73] S Ioffe C Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,” International Conference on Machine Learning, 2015 [74] C Szegedy, V Vanhoucke, S Ioffe, J Shlens Z Wojna, “Rethinking the Inception Architecture for Computer Vision,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 111 [75] S Liu, L Qi, H Qin, J Shi J Jia, “Path Aggregation Network for Instance Segmentation,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018 [76] K He, X Zhang, S Ren J Sun, “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, tập 37, số 9, pp 1904-1916, 2015 [77] Y Li, H Qi, J Dai, X Ji Y Wei, “Fully Convolutional Instanceaware Semantic Segmentation,” CVPR, 2017 [78] D Erhan, C Szegedy, A Toshev D Anguelov, “Scalable Object Detection using Deep Neural Networks,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014 [79] S Zagoruyko N Komodakis, “Learning to Compare Image Patches via Convolutional Neural Networks,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 [80] P F Felzenszwalb, R Girshick, D McAllester D Ramanan, “Object Detection with Discriminatively Trained Part-Based Models,” IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, tập 32, số 9, 2010 [81] J v d Weijer, C Schmid, J Verbeek D Larlus, “Learning Color Names for Real-World Applications,” IEEE Transactions on Image Processing, tập 18, số 7, pp 1512-1523, 2009 [82] P Dollar, C Wojek, B Schiele P Perona, “Pedestrian Detection: An Evaluation of the State of the Art,” IEEE Transactions on Pattern Analysis and Machine Intelligence, tập 34, số 4, pp 743-761, 2012 [83] M Kristan, J Matas, A Leonardis, T Vojíř, R Pflugfelder, G Fernández, G Nebehay , “A Novel Performance Evaluation Methodology for Single-Target Trackers,” IEEE Transactions on Pattern Analysis and Machine Intelligence, tập 38, số 11, pp 2137 2155, 2015 [84] M Verhelst B Moons, “Embedded Deep Neural Network Processing: Algorithmic and Processor Techniques Bring Deep Learning 112 to IoT and Edge Devices,” IEEE Solid-State Circuits Magazine, tập 9, số 4, pp 55 - 65, 2017 [85] M Ali, A Anjum, M U Yaseen , “Edge Enhanced Deep Learning System for Large-Scale Video Stream Analytics,” 2018 IEEE 2nd International Conference on Fog and Edge Computing (ICFEC), 2018 113

Ngày đăng: 07/09/2023, 18:13