Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	0,94 MB

Nội dung

Bài viết Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh trình bày kết quả nghiên cứu một thuật toán bắt bám đối tượng sử dụng đa nguồn ảnh với trọng số xác định theo điều kiện môi trường.

Kỹ thuật điều khiển & Điện tử Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh Đào Vũ Hiệp*, Trần Quang Đức Trường Công nghệ thông tin truyền thông, Đại học Bách Khoa Hà Nội * Email: hiep.DVNCS18032@sis.hust.edu.vn Nhận bài: 20/9/2022; Hoàn thiện: 24/10/2022; Chấp nhận đăng: 12/12/2022; Xuất bản: 28/12/2022 DOI: https://doi.org/10.54939/1859-1043.j.mst.84.2022.32-41 TÓM TẮT Hiện nay, có nhiều thuật tốn bắt bám đối tượng đạt hiệu tốt ảnh nhìn thấy (visible hay RGB images) KCF, CSRDCF, SiamFC, SiamRPN, ATOM, SiamDW_ST, DiMP Tuy nhiên, phương pháp bị giảm chất lượng điều kiện chiếu sáng môi trường bị Các thuật toán sử dụng kết hợp ảnh nhìn thấy ảnh nhiệt (thermal hay TIR images) FSRPN, SiamDW_T, mfDiMP chứng minh hiệu bắt bám đối tượng nâng cao đáng kể so với dùng riêng ảnh nhìn thấy ảnh nhiệt Trong báo trình bày kết nghiên cứu thuật toán bắt bám đối tượng sử dụng đa nguồn ảnh với trọng số xác định theo điều kiện môi trường Kết thử nghiệm liệu VOT-RGBT cho thấy, thuật tốn có số EAO đạt 0,423, cao so với số thuật toán bắt bám đối tượng phổ biến đạt tốc độ khoảng 13 khung hình/giây điều kiện phần cứng phổ dụng Từ khố: Mạng nơ-ron tích chập; Bắt bám đối tượng; Bộ lọc tương quan phân biệt; Kết hợp đa nguồn tín hiệu MỞ ĐẦU Bắt bám đối tượng toán bản, quan trọng lĩnh vực thị giác máy tính sử dụng rộng rãi nhiều ứng dụng giám sát dựa video như: giám sát biên giới, phát hoạt động khả nghi; giám sát giao thơng, phân tích trích xuất thông tin giao thông công cộng, tắc đường, du lịch an ninh,… điều khiển tự động như: điều khiển bắt bám mục tiêu, xe tự lái nhiều ứng dụng khác Khó khăn tốn có thơng tin đối tượng khung hình thay đổi điều kiện chiếu sáng (illumination change), che khuất đối tượng khác (occlusion) hay chuyển động (motion) Ngoài ra, tốc độ xử lý điều kiện quan trọng để áp dụng thuật toán bắt bám đối tượng vào thực tế [1] Ngày nay, có số thuật tốn bắt bám đối tượng ảnh nhìn thấy đạt hiệu tốt dùng ứng dụng KCF[3], CSRDCF[4], SiamFC[6], SiamRPN[7], ATOM[8], SiamDW[9], DiMP[10] Các thuật toán bắt bám đối tượng phát triển theo hai hướng tiếp cận Hướng thứ dựa DCF (Discriminative Correlation Filters - Bộ lọc tương quan phân biệt), đó, trọng số DCF ước lượng miền Fourier đối tượng khung hình [2] Trong khung hình tiếp theo, trọng số lọc cập nhật định vị đối tượng để phát đối tượng xác khung hình Thuật tốn KCF nâng cao độ xác nhờ tăng số lượng đối tượng để ước lượng DCF việc sử dụng ma trận tuần hoàn (Circulant Matrices) miền Fourier [3] Trong đó, thuật tốn CSRDCF nâng cao hiệu việc kết hợp nhiều lớp DCF ước lượng nhiều đặc trưng đối tượng ảnh đa mức xám (Grayscale), HoG (Histogram of Gradient), ColorNames [4] Gần đây, nhờ phát triển kỹ thuật học sâu (Deep Learning), thuật toán có xu hướng sử dụng đặc trưng tích chập nhiều lớp [5] để giảm sai số bám bắt đối tượng Tiêu biểu theo hướng tiếp cận kể đến phương pháp SiamFC, SiamRPN dựa mạng nơ-ron so sánh (Similarity Learning - gọi Siamese) với khả ước lượng xác vị trí đối tượng Hiện nay, thuật toán bắt bám đối tượng ảnh cho hiệu cao kết hợp hai hướng tiếp cận thành hai bước thuật toán: (i) bước phân loại (Classification) sử 32 Đ V Hiệp, T Q Đức, “Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh.” Nghiên cứu khoa học cơng nghệ dụng DCF với đặc trưng tích chập để bóc tách đối tượng phát vị trí có khả đối tượng khung hình mới; (ii) bước ước lượng (Estimation) để từ vị trí có khả đối tượng khung hình mới, ước đốn vị trí xác đối tượng Thuật toán theo hướng thuật tốn ATOM (Accurate Tracking by Overlap Maximization), đó, bước ước lượng vị trí xác định qua độ chồng lấn (Overlap) thay ước lượng trực tiếp vị trí các thuật toán SiamFC, SiamRPN [8] Sơ đồ thuật tốn ATOM mơ tả hình Sau đó, thuật tốn SiamDW_ST nâng cao độ sâu đặc trưng tích chập cách sử dụng ResNet-50 thay ResNet-18 kết hợp số kỹ thuật để nâng cao tốc độ tính tốn [9] Trong đó, thuật tốn DiMP cải tiến bước phân loại để đạt độ xác cao [10] Huấn luyện trước Khung hình chuẩn ResNet Ngoại tuyến Điều chế IoU Trực tuyến Ảnh tham chiếu Vec tơ điều chế Khung hình ước lượng Ước lượng IoU [0.72, 0.77, 0.61] IoU ResNet Ảnh kiểm tra Phân loại Ước lượng độ tin cậy Hình Sơ đồ thuật tốn ATOM Ảnh nhìn thấy cung cấp nhiều thơng tin đối tượng màu sắc, hình dạng, kích thước xác, nên thuật tốn bắt bám đối tượng ảnh nhìn thấy hoạt động tốt với điều kiện môi trường tốt Tuy nhiên, hiệu suy giảm đáng kể điều kiện môi trường trường hợp ánh sáng yếu, trời mưa hay sương mù Trong đó, ảnh tạo t tớn hiu hng ngoi bc súng di (8ữ14 àm), gọi tắt ảnh nhiệt, không bị ảnh hưởng trường hợp [12] (hình 2) Mặt khác, loại thiết bị để tạo ảnh từ tín hiệu tiếp cận dễ dàng với chi phí khơng cao Vì vậy, hướng nghiên cứu bắt bám đối tượng sử dụng kết hợp ảnh nhìn thấy với ảnh nhiệt bắt đầu ý thời gian gần [1] Các thuật toán bắt bám đối tượng sử dụng kết hợp ảnh nhìn thấy ảnh nhiệt FSRPN (phát triển từ SiamRPN), SiamDW_T (phát triển từ SiamDW_ST) hay mfDiMP (phát triển từ DiMP) đạt hiệu cao đáng kể so với thuật toán sử dụng ảnh nhìn thấy ảnh nhiệt [12] Tuy nhiên, sử dụng nhiều nguồn ảnh, phương pháp chưa xem xét tới điều kiện môi trường độ chiếu sáng (khi độ chiếu sáng yếu sử dụng ảnh nhiệt tốt ảnh nhìn thấy) nhiệt môi trường (khi nhiệt cao độ tương phản ảnh nhiệt thấp ảnh nhìn thấy) Vì vậy, nghiên cứu sau phân tích, lựa chọn phương án kết hợp ảnh nhìn thấy ảnh nhiệt toán bắt bám đối tượng, chúng tơi đề xuất thuật tốn bắt bám đối tượng kết hợp ảnh nhìn thấy ảnh nhiệt có trọng số phụ thuộc vào hai điều kiện môi trường nêu Trong đó, độ chiếu sáng mơi trường xác định thơng qua độ nhiễu ảnh nhìn thấy, nhiệt mơi trường xác định thông qua cường độ sáng ảnh nhiệt mô tả [13] Tuy nhiên, tốn bắt bám đối tượng xác định vùng có khả đối tượng nên thay xác định nhiệt Tạp chí Nghiên cứu KH&CN quân sự, Số 84, 12 - 2022 33 Kỹ thuật điều khiển & Điện tử mơi trường, xác định trực tiếp độ tương phản đối tượng ảnh nhiệt Do đó, chúng tơi đề xuất xác định trọng số dựa độ nhiễu ảnh nhìn thấy độ tương phản đối tượng ảnh nhiệt Cuối cùng, phương pháp đề xuất thử nghiệm, đánh giá với liệu VOTRGBT kết luận Hình So sánh hiệu bắt bám đối tượng nguồn ảnh khác Màu vàng kết chuẩn, màu xanh bắt bám sử dụng ảnh nhìn thấy, màu đỏ sử dụng kết hợp ảnh nhìn thấy ảnh nhiệt Trong phần lại báo trình bày nội dung sau: - Phân tích, lựa chọn phương án kết hợp ảnh nhìn thấy ảnh nhiệt toán bắt bám đối tượng mục - Đề xuất thuật toán kết hợp ảnh nhiệt ảnh nhìn thấy sử dụng trọng số bắt bám đối tượng mục - Thử nghiệm đánh giá kết mục - Cuối kết luận hướng phát triển mục PHÂN TÍCH, LỰA CHỌN PHƯƠNG ÁN KẾT HỢP ẢNH NHÌN THẤY VÀ ẢNH NHÌN THẤY TRONG BÀI TỐN BẮT BÁM ĐỐI TƯỢNG 2.1 Lựa chọn thuật tốn bắt bám đối tượng kết hợp ảnh nhìn thấy ảnh nhiệt Như đề cập mục 1, thuật toán bắt bám đối tượng sử dụng kỹ thuật học sâu kết hợp ảnh nhìn thấy ảnh nhiệt có hiệu tốt sử dụng kể đến CISRDCF, FSRPN, SiamDW_T hay mfDiMP [1] Để sử dụng làm tảng phát triển thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh có kết hợp trọng số phụ thuộc vào mơi trường, thuật tốn phải có hiệu tốt tốc độ phù hợp Các thuật toán nêu đo lường hiệu dựa phương pháp thi VOT [1] Cuộc thi cung cấp liệu công cụ đo lường thuật toán bắt bám đối tượng phổ biến Các phương pháp đo lường sử dụng VOT số độ xác (Accuracy, viết tắt A), số độ bền vững (Robustness, viết tắt R) số độ chồng lấn trung bình kỳ vọng (EAO - Expected Average Overlap) số tổng hợp hai số Độ xác độ chồng lấn trung bình (Average Overlap) khung dự đốn khung xác q trình bắt bám thành công qua chuỗi ảnh Độ chồng lấn tính tỷ lệ 34 Đ V Hiệp, T Q Đức, “Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh.” Nghiên cứu khoa học cơng nghệ diện tính giao diện tích hợp hai khung hình (IoU - Intersection over Union) Độ bền vững đo số lần thuật toán bắt bám đối tượng bị bám mục tiêu trung bình chuỗi ảnh có chiều dài trung bình tập liệu Độ chồng lấn trung bình kỳ vọng xác định độ chồng lấn trung bình, thuật toán bị bám độ chồng lấn [1] Do hiệu thuật toán nêu xác định môi trường khác nhau, sử dụng liệu công cụ VOT cài đặt lại thuật tốn máy tính có CPU Ryzen5 3600 GPU 1080Ti Kết đo lường độ xác, độ bền vững độ chồng lấn trung bình kỳ vọng mơ tả bảng cho thấy thuật tốn DiMP có hiệu cao nhất, thuật tốn SiamDW_ST có hiệu cao thứ hai hai thuật tốn có hiệu bắt bám đối tượng cao nhiều so với thuật toán khác Tốc độ xử lý (khung hình/giây) thuật tốn mơ tả bảng cho thấy thuật tốn SiamDW_T (19,2 khung hình/giây) có tốc độ xử lý cao nhiều so với thuật tốn mfDiMP (8,61 khung hình/giây) Bảng Kết đo lường EAO, A, R số thuật toán bắt bám đối tượng đa nguồn ảnh Phương pháp CISRDCF FSRPN mfDiMP SiamDW_T EAO 0,346 0,387 0,411 0,413 A 0,502 0,630 0,602 0,589 R 0,412 0,372 0,343 0,329 Bảng Tốc độ xử lý (khung hình/giây) số thuật toán bắt bám đối tượng đa nguồn ảnh Phương pháp Tốc độ CISRDCF 32,1 FSRPN 38,1 mfDiMP 8,61 SiamDW_T 19,2 Từ so sánh thấy, lựa chọn thuật tốn SiamDW_T để tiếp tục nghiên cứu tích hợp trọng số phụ thuộc vào điều kiện mơi trường phù hợp thuật tốn có hiệu bắt bám đối tượng tốt tốc độ phù hợp 2.2 Lựa chọn mức kết hợp ảnh nhìn thấy ảnh nhiệt tốn bắt bám đối tượng Như đề cập mục 1, thuật toán SiamDW_T phát triển từ thuật toán SiamDW_ST xây dựng từ kiến trúc đề xuất thuật toán ATOM sử dụng số kỹ thuật nâng cao tốc độ xử lý, giảm sai số để mở rộng từ mạng ResNet-18 lên mạng ResNet-50 Kiến trúc thuật tốn SiamDW_ST mơ tả hình Thuật toán SiamDW_ST ATOM bao gồm bước phân loại bước ước lượng Đối tượng trích chọn đặc trưng thông qua mạng ResNet-50 huấn luyện với liệu ImageNet Bước phân loại lấy đặc trưng từ sau Block 4, bước ước lượng lấy đặc trưng từ sau Block Đối với bước phân loại, từ đặc trưng đối tượng khung hình trước thực ước lượng mơ hình (Model Prediction) ước lượng trọng số 02 lớp kết nối hồn tồn (Fully Connected) mơ tả [8] Trong trình bắt bám đối tượng, tương tự thuật tốn dựa DCF, mơ hình tích chập với đặc trưng khung hình để tìm vị trí có khả đối tượng Sau xác định vị trí đối tượng khung hình tại, tiến hành cập nhật mơ hình (Update Model Prediction) để sử dụng cho khung hình Đối với bước ước lượng, đặc trưng khung hình trước vùng bao chuẩn (ground truth) điều chế IoU (IoU Modulation) để tạo vector điều chế Trong trình bắt bám đối tượng, vị trí có khả đối tượng trích xuất mảnh đặc trưng , đặc trưng khung hình B vùng bao dự đoán vị trí có khả đối tượng Từng mảnh đặc trưng kết hợp với vector điều chế để ước lượng IoU (IoU Estimation) công thức với 03 lớp kết nối hoàn toàn (Fully Connected) để từ đặc trưng tích chập cho độ độ chồng lấn (IoU) [8] Sơ đồ bước thuật toán SiamDW_ST mơ tả hình Tạp chí Nghiên cứu KH&CN quân sự, Số 84, 12 - 2022 35 Kỹ thuật điều khiển & Điện tử (1) Điều chế IoU ResNet-50 Block ResNet-50 Block 1-3 Ước lượng mơ hình Ảnh tham chiếu [0.72, 0.77, 0.61] IoU Ước lượng IoU ResNet-50 Block 1-3 ResNet-50 Block Tích chập Ảnh kiểm tra Ước lượng độ tin cậy Hình Mơ tả kiến trúc SiamDW_ST Đặc trưng tích chập Ước lượng mơ hình Ước lượng độ tin cậy Ước lượng IoU Cập nhật mơ hình Ước lượng khung bao Cập nhật vị trí Hình Sơ đồ bước thuật tốn SiamDW_ST Để kết hợp ảnh nhìn thấy (gọi RGB) ảnh nhiệt (gọi TIR), kết hợp mức khác Trong nghiên cứu này, tương tự mức kết hợp [12], mức kết hợp thử nghiệm gồm: mức điểm ảnh (kết hợp từ ảnh đầu vào), mức kết mức đặc trưng: đặc trưng tích chập, ước lượng/cập nhật mơ hình (gọi tắt mức mơ hình) điều chế/ước lượng IoU (gọi tắt mức IoU) Đối với mức IoU, thử nghiệm kết hợp dạng cộng Hadamard (cộng phần tử) [12] mô tả công thức 2, thử nghiệm nhân Hadamard (nhân phần tử) mô tả công thức 36 ( ( ( )) ( ( ))) (2) ( ( ( )) ( ( ))) (3) Đ V Hiệp, T Q Đức, “Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh.” Nghiên cứu khoa học cơng nghệ Trong đó, thể phép ước lượng IoU bao gồm 02 lớp kết nối hoàn toàn lớp kết nối hoàn toàn để giảm số lượng chiều đặc trưng từ 512 xuống 256 lớp kết nối hoàn toàn để từ 256 chiều đặc trưng tính độ chồng lấn (IoU) Bảng mô tả kết thử nghiệm kết hợp cho thấy kết hợp mức ước lượng IoU dạng nhân Hadamard cho kết tốt Do đó, bước tiếp tục nghiên cứu mức kết hợp Bảng Kết mức kết hợp ảnh nhìn thấy (RGB) ảnh nhiệt (TIR) Mức kết hợp Đặc trưng Mơ hình IoU Kết EAO A R TIR TIR TIR TIR 0.257 0.354 0.898 Riêng biệt RGB RGB RGB RGB 0.256 0.446 0.761 Mức điểm ảnh RGB+TIR RGBT RGBT RGBT 0.345 0.552 0.381 Mức kết RGB/TIR RGB/TIR RGB/TIR RGB+TIR 0.349 0.554 0.391 RGB/TIR RGB+TIR RGB+TIR RGBT 0.391 0.602 0.368 Các mức đặc trưng RGB/TIR RGB/TIR RGB+TIR RGBT 0.413 0.589 0.329 RGB/TIR RGB/TIR RGB*TIR RGBT 0.419 0.587 0.299 ĐỀ XUẤT THUẬT TỐN KẾT HỢP ẢNH NHÌN THẤY VÀ ẢNH NHIỆT SỬ DỤNG TRỌNG SỐ TRONG BẮT BÁM ĐỐI TƯỢNG 3.1 Phương án kết hợp có trọng số ảnh nhiệt ảnh nhìn thấy bắt bám đối tượng Đặc trưng RGB Ước lượng mơ hình RGB Ước lượng độ tin cậy RGB Ước lượng IOU RGB Kết hợp IoU Đặc trưng TIR Ước lượng mơ hình TIR Ước lượng độ tin cậy TIR Ước lượng IoU TIR Cập nhật mơ hình RGB Ước lượng vùng bao Cập nhật mơ hình TIR Cập nhật vị trí Hình Sơ đồ kết hợp ảnh nhìn thấy (RGB) ảnh nhiệt (TIR) thuật toán bắt bám đối tượng Như phân tích mục 2, phương pháp kết hợp cho hiệu cao kết hợp mức đặc trưng sau ước lượng IoU (Sơ đồ mô tả hình 5) Sau lớp ước lượng IoU ảnh nhìn thấy ảnh nhiệt bổ sung lớp kết hợp IoU để thực kết hợp hai đặc trưng Lớp kết hợp IoU lấy đặc trưng lớp cuối lớp Ước lượng IoU RGB Ước lượng IoU TIR kết hợp với Mặt khác, để đưa trọng số môi trường vào việc kết hợp, từ cơng thức ta có cơng thức 4, với trọng số đặc trưng ảnh nhìn thấy trọng số đặc trưng ảnh nhiệt Sơ đồ lớp kết hợp IoU có trọng số hình ( ( ( ) ) Tạp chí Nghiên cứu KH&CN quân sự, Số 84, 12 - 2022 ( ( ) )) (4) 37 Kỹ thuật điều khiển & Điện tử Fully Connected Layer 512 -> 256 Ước lượng IoU RGB Fully Connected Layer 256 -> w Fully Connected Layer 512 -> 256 Ước lượng IoU TIR Đặc trưng kết hợp 1-w Hình Sơ đồ lớp kết hợp IoU có trọng số 3.2 Xây dựng trọng số Trong công bố [13], chứng minh điều kiện môi trường độ chiếu sáng nhiệt mơi trường có ảnh hưởng để kết phát đối tượng Khi độ chiếu sáng yếu sử dụng ảnh nhiệt tốt ảnh nhìn thấy nhiệt cao độ tương phản ảnh nhiệt thấp ảnh nhìn thấy Từ ý tưởng ta xây dựng trọng số thuật toán bắt bám đối tượng Tương tự [13], sử dụng độ nhiễu ảnh nhìn thấy để xác định điều kiện ánh sáng Tuy nhiên, sơ đồ kết hợp IoU có trọng số, ta có vị trị có khả đối tượng, đó, sử dụng trực tiếp độ tương phản để xác định chất lượng xác định đối tượng ảnh nhiệt ] Như vậy, tính trọng số thơng qua nhiễu độ nhiễu ảnh nhìn thấy ̅̅̅̅̅̅̅̅ [ chất lượng mô tả đối tượng ảnh nhiệt thể độ tương phản Weber đối tượng với gọi ̅̅̅̅̅̅ , với I cường độ sáng đối tượng cường độ sáng nền, chuẩn hóa nằm dải [ tả sau: ̅̅̅̅̅̅ ] Như vậy, cơng thức để tính trọng số mơ ̅̅̅̅̅̅̅̅ (5) Để tìm tham số cần sử dụng phương pháp để khớp đường cong phi tuyến (curve-fitting) Levenberg-Marquardt với liệu huấn luyện (tương tự [13]) Trong số liệu, trời tối, camera tự động chuyển sang sử dụng chiếu sáng tín hiệu hồng ngoại gần, ảnh nhận ảnh đa mức xám, khơng áp dụng cơng thức Vì vậy, thuật tốn ta xác định ảnh nhìn thấy dạng đa mức xám (khi camera tự động chuyển sang sử dụng tín hiệu hồng ngoại gần) số MSE (Mean Squared Error) Nếu ảnh đa mức xám, trọng số xác định độ tương phản ảnh nhìn thấy (sau chiếu hồng ngoại) ảnh nhiệt cơng thức ̅̅̅̅̅̅ Trong đó, ̅̅̅̅̅̅ ảnh nhiệt ̅̅̅̅̅̅ (6) , ̅̅̅̅̅̅ độ tương phản Weber đối tượng dự đoán ảnh nhìn thấy THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Điều kiện thử nghiệm Thuật toán bắt bám đối tượng kết hợp ảnh nhìn thấy ảnh nhiệt thử nghiệm 38 Đ V Hiệp, T Q Đức, “Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh.” Nghiên cứu khoa học công nghệ liệu VOT – RGBT 2019 Kèm liệu có cơng cụ để đo lường hiệu tốc độ thuật toán, gọi VOT Tookit Bộ liệu VOT-RGBT 2019 bao gồm 60 chuỗi 20083 khung hình mơ tả hồn cảnh bắt bám đối tượng [1] Trong đó, có 43 chuỗi vào ban ngày, 17 chuỗi vào ban đêm; 2798 số khung hình có đối tượng bị che khuất; số khung hình có độ chiếu sáng thay đổi; 17751 số khung hình có chuyển động thay đổi; 10927 số khung hình có đối tượng kích thước thay đổi; 2019 khung hình có camera chuyển động Chiều dài chuỗi trung bình 224; khoảng lấy mẫu chiều dài chuỗi để tính EAO (Expected Average Overlap) có phân bố xác xuất chiếm 50% từ 46 đến 291 Giống [1], số thử nghiệm các số VOT như: số độ xác (Accuracy, viết tắt A), số độ bền vững (Robustness, viết tắt R) số độ chồng lấn trung bình kỳ vọng (EAO - Expected Average Overlap) số tổng hợp hai số 4.2 Kết thử nghiệm Thuật tốn mơ tả mục so sánh với thuật toán bắt bám đối tượng sử dụng đa nguồn ảnh điển CISRDCF (phát triển từ CSR-DCF), FSRPN, mfDiMP, SiamDW_T Kết phương án đề xuất cho hiệu cao nhất, EAO 0,423 so với 0,413; 0,411; 0,387; 0,346 thuật tốn SiamDW_T; mfDiMP; FSRPN CISRDCF (hình 9) với tốc độ khoảng 13,1 khung hình/giây máy tính thử nghiệm có CPU: AMD Ryzen 3600 GPU: GXT 1080 Ti So với SiamDW_T có tốc độ 19,2 khung hình/giây; mfDiMP có tốc độ 8,61 khung hình/giây (bảng 2) Hình Biểu đồ độ xác - độ bền vững Hình Đường cong EAO theo số lượng khung hình KẾT LUẬN Trong báo, tác giả trình bày nghiên cứu, phân tích phương pháp kết hợp ảnh nhìn thấy ảnh nhiệt toán bắt bám đối tượng đề xuất thuật toán kết hợp sử dụng trọng số dựa độ nhiễu ảnh nhìn thấy độ tương phản đối tượng ảnh nhiệt Kết thử nghiệm liệu VOT-RGBT 2019 cho thấy, thuật tốn có số EAO đạt 0,423 tốc độ 13,1 khung hình/giây phần cứng thông dụng Kết cho hiệu cao so với số thuật toán bắt bám đối tượng sử dụng đa nguồn ảnh phổ biến CISRDCF, FSRPN, mfDiMP, SiamDW_T Trong tương lai, bổ sung phương pháp xác định điều kiện môi trường chi tiết để ước lượng trọng số kết hợp để nâng cao hiệu toán bắt bám đối tượng đồng thời tối ưu phương pháp tính tốn để tăng tốc độ xử lý thuật tốn Tạp chí Nghiên cứu KH&CN qn sự, Số 84, 12 - 2022 39 Kỹ thuật điều khiển & Điện tử Hình Thứ tự EAO trung bình thuật toán TÀI LIỆU THAM KHẢO [1] M Kristan et al., "The Seventh Visual Object Tracking VOT2019 Challenge Results," 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), pp 2206-2241, (2019), doi: 10.1109/ICCVW.2019.00276 [2] D S Bolme, J R Beveridge, B A Draper and Y M Lui, "Visual object tracking using adaptive correlation filters," 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp 2544-2550, (2010), doi: 10.1109/CVPR.2010.5539960 [3] Henriques, Joao & Caseiro, Rui & Martins, Pedro & Batista, Jorge “High-Speed Tracking with Kernelized Correlation Filters” IEEE Transactions on Pattern Analysis and Machine Intelligence 37 10.1109/TPAMI.2014.2345390, (2014) [4] Lukežič, A., Vojíř, T., Čehovin Zajc, L et al “Discriminative Correlation Filter Tracker with Channel and Spatial Reliability” Int J Comput Vis 126, 671–688 (2018) https://doi.org/10.1007/s11263-0171061-3 [5] M Danelljan, G Häger, F S Khan and M Felsberg, "Convolutional Features for Correlation Filter Based Visual Tracking," 2015 IEEE International Conference on Computer Vision Workshop (ICCVW), pp 621-629, (2015), doi: 10.1109/ICCVW.2015.84 [6] Bertinetto, Luca & Valmadre, Jack & Henriques, Joao & Vedaldi, Andrea & Torr, Philip “FullyConvolutional Siamese Networks for Object Tracking” 9914 850-865 10.1007/978-3-319-488813_56, (2016) [7] B Li, J Yan, W Wu, Z Zhu and X Hu, "High Performance Visual Tracking with Siamese Region Proposal Network," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp 8971-8980, (2018), doi: 10.1109/CVPR.2018.00935 [8] Danelljan, Martin & Bhat, Goutam & Khan, Fahad & Felsberg, Michael “ATOM: Accurate Tracking by Overlap Maximization” 4655-4664 10.1109/CVPR.2019.00479, (2019) [9] Zhang, Zhipeng & Peng, Houwen “Deeper and Wider Siamese Networks for Real-Time Visual Tracking” 4586-4595 10.1109/CVPR.2019.00472, (2019) [10] Bhat, Goutam & Danelljan, Martin & Van Gool, Luc & Timofte, Radu “Learning Discriminative Model Prediction for Tracking” 6181-6190 10.1109/ICCV.2019.00628, (2019) [11] J Deng, W Dong, R Socher, L.-J Li, K Li and L Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image Database” IEEE Computer Vision and Pattern Recognition (CVPR), (2009) [12] Zhang, Lichao & Danelljan, Martin & Gonzalez-Garcia, Abel & Weijer, Joost & Khan, Fahad “Multi-Modal Fusion for End-to-End RGB-T Tracking” 2252-2261 10.1109/ICCVW.2019.00278, (2019) 40 Đ V Hiệp, T Q Đức, “Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh.” Nghiên cứu khoa học cơng nghệ [13] Hiep Dao, Hieu Dinh Mac, and Duc Quang Tran "Noise-aware deep learning algorithm for onestage multispectral pedestrian detection," Journal of Electronic Imaging 31(3), 033035, 16 June (2022) https://doi.org/10.1117/1.JEI.31.3.033035 [14] S Hwang, J Park, N Kim, Y Choi and I S Kweon, "Multispectral pedestrian detection: Benchmark dataset and baseline," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 1037-1045, (2015), doi: 10.1109/CVPR.2015.7298706 ABSTRACT Weighted Multi-Modal Fusion for RGB-T Tracking As an important task in computer vision, visual object tracking, especially RGB tracking like KCF, CSRDCF, SiamFC, SiamRPN, ATOM, SiamDW, DiMP are commonly believed to be fast and reliable enough be deployed However, RGB tracking obtains unsatisfactory performance in bad environmental conditions, e.g low illumination, rain, and smog It was found that thermal infrared sensors (8ữ14 àm) provide a more stable signal for these scenarios Some same level fusion modal algorithms such as FSRPN, SiamDW_T, mfDiMP obtain higher results while the environmental conditions are not considered The paper describes a weighted multi-modal fusion for RGB-T tracking Experiments are carried on VOT-RGBT dataset that demonstrate our algorithm achieve EAO of 0.423, higher than some popular tracking algorithms and can operate at speed of 13 fps on casual hardware Keywords: Visual Object Tracking; Multi-modal fusion; Convulutional Neural Network; Discriminative Correlation Filtes Tạp chí Nghiên cứu KH&CN quân sự, Số 84, 12 - 2022 41 ... HỢP ẢNH NHÌN THẤY VÀ ẢNH NHÌN THẤY TRONG BÀI TOÁN BẮT BÁM ĐỐI TƯỢNG 2.1 Lựa chọn thuật tốn bắt bám đối tượng kết hợp ảnh nhìn thấy ảnh nhiệt Như đề cập mục 1, thuật toán bắt bám đối tượng sử dụng. .. thuật học sâu kết hợp ảnh nhìn thấy ảnh nhiệt có hiệu tốt sử dụng kể đến CISRDCF, FSRPN, SiamDW_T hay mfDiMP [1] Để sử dụng làm tảng phát triển thuật toán bắt bám đối tượng sử dụng đa nguồn tín. .. trình bắt bám thành cơng qua chuỗi ảnh Độ chồng lấn tính tỷ lệ 34 Đ V Hiệp, T Q Đức, ? ?Một thuật toán bắt bám đối tượng sử dụng đa nguồn tín hiệu ảnh. ” Nghiên cứu khoa học cơng nghệ diện tính giao

Ngày đăng: 27/01/2023, 13:24