CHƯƠNG 2. KỸ THUẬT THEO DÕI ĐỐI TƯỢNG (OBJECT TRACKING)
2.3. Thuật toán JDT dựa trên học sâu
Nghiên cứu được trình bày ở trên dựa trên kết quả của việc phát hiện đối tượng và liên kết dữ liệu để theo dõi nhiều đối tượng. Các mô-đun phụ của phương pháp TBD (chẳng hạn như trích xuất đặc trưng, v.v.) có thể được tích hợp vào mạng phát hiện đối tượng, đặc biệt là thuật toán JDT, mặc dù thực tế nó vẫn là thuật toán được sử dụng rộng rãi nhất để theo dõi nhiều đối tượng.
Thuật toán theo dõi của khung phát hiện và theo dõi chung gần đây đã trải qua quá trình phát triển mới. Do đó, khung TBD trở nên ít phức tạp hơn và độ chính xác theo dõi đa đối tượng được tăng lên. Nhìn chung, sự phát triển của khung này sẽ đi theo một trong ba hướng: thứ nhất, mạng phát hiện sẽ được chuyển đổi và tích hợp vào nhiệm vụ theo dõi để mô hình mạng được thiết kế có thể tìm hiểu xác suất tương quan của đối tượng giữa các khung trình tự; thứ hai, hợp nhất mô-đun con trong thuật toán phát hiện đối tượng hoặc hợp nhất đặc trưng sẽ được thực hiện để đạt được các tác vụ theo dõi đa đối tượng; và thứ ba, việc tích hợp các thuật toán xuất sắc trong lĩnh vực theo dõi đối tượng đơn lẻ sẽ là trọng tâm. Tham khảo cấu trúc TBD từ Hình 2.2, chọn một số mô-đun con để hợp nhất trong Hình 2.3 để minh họa cách thức hoạt động của phương pháp JDT. Phương pháp JDT dựa trên việc hợp nhất các mô-đun phụ TBD.
Hình 2.3. Ba nền tảng thuật toán của JDT.
2.3.1. Mô-đun theo dõi và phát hiện hợp nhất
Mạng phát hiện đối tượng mặt trước ảnh hưởng đáng kể đến mức độ hiệu quả của các chức năng theo dõi đa đối tượng, như có thể được chỉ ra từ phân tích ở trên.
Để tăng thêm tính đơn giản của thuật toán, việc chia sẻ trọng số giữa hai giai đoạn phát hiện và theo dõi được thực hiện và mạng phát hiện đối tượng hiệu suất cao được cải thiện để hỗ trợ nhiều tác vụ theo dõi đối tượng. Gần đây, nghiên cứu về các thuật toán theo dõi đối tượng đã chuyển sự chú ý sang việc hợp nhất các mô-đun thuật toán theo dõi đa đối tượng.
Feichtenhofer và cộng sự [10] ban đầu được đề xuất đưa mạng phát hiện đối tượng vào nhánh theo dõi vào năm 2017. Sau đó, họ đã triển khai nhiệm vụ phát hiện dòng chính bằng thuật toán R-FCN cải tiến, tương tác với các bản đồ đặc trưng đa tỷ lệ của giai đoạn đầu tiên dựa trên các thuộc tính của hai -giai đoạn phát hiện đối tượng. Phương pháp này dựa trên khung mạng đôi truyền thống để theo dõi một đối tượng, nhưng mạng đôi ban đầu sử dụng bộ lọc tương quan 1:1, trong khi khung D&T sử dụng bộ lọc tương quan n:n. Thuật toán đã được xác minh bằng thực nghiệm làm tăng đáng kể độ chính xác và tốc độ theo dõi nhiều đối tượng, nhưng về cơ bản nó vẫn là thuật toán theo dõi hai giai đoạn để tích hợp thêm các mô-đun phát hiện và theo dõi. Bergmann và cộng sự [4] đã đề xuất một loại khung theo dõi và phát hiện khớp mới, Tracktor++, có cốt lõi nằm ở việc sử dụng khung theo dõi và khung quan sát thay vì mô-đun RPN ban đầu để có được khung quan sát thực sự. Tiếp theo, tương quan dữ liệu được sử dụng để thiết lập sự phù hợp của khung theo dõi và khung quan sát. Thực nghiệm đã chứng minh rằng việc cải thiện mạng phát hiện đối tượng không chỉ cải thiện hiệu ứng theo dõi mà còn tăng mức độ ảnh hưởng của mô-đun phát hiện hợp nhất đối với hiệu ứng theo dõi cuối cùng. Lấy cảm hứng từ khung Tracktor ++, Zhang và cộng sự đã cải thiện hơn nữa mạng phát hiện bằng cách thêm mô-đun đặc trưng luồng quang dự đoán, biến khung theo dõi và khung quan sát trong Tracktor++
thành khung dự đoán và khung quan sát luồng quang. Sau khi nâng cao mô hình chuyển động, mô hình tương tác và phần liên kết dữ liệu, Huang và cộng sự cũng hoạt động để tăng cường hiệu ứng theo dõi.
Khi giám sát các đối tượng nhỏ hoặc một số lượng lớn đối tượng, hiệu quả theo dõi kém, số lượng tính toán quá nhiều và tốc độ phát hiện quá chậm đối với lái xe tự động. Tất cả các kỹ thuật nhận dạng đối tượng của khung Tracktor++ đều sử dụng các hộp neo làm nền tảng. Với đầu vào tối thiểu này để xác định vị trí các đối tượng và dự đoán mối liên hệ của chúng với khung hình trước đó, thuật toán theo dõi đa đối tượng CenterTrack của Zhou và cộng sự được áp dụng để phát hiện một cặp hình ảnh và khung hình trước đó. Vấn đề theo dõi được chuyển thành theo dõi dựa trên điểm trung tâm của đối tượng và theo dõi đa đối tượng hai chiều và ba chiều của người đi bộ và phương tiện được thực hiện cùng một lúc.
2.3.2. Liên kết dữ liệu và trích xuất đặc trưng hợp nhất
Các đặc trưng sâu được lấy từ mạng phát hiện đối tượng và các đặc trưng rõ ràng sâu được sử dụng để liên kết dữ liệu là khác biệt, như được thể hiện trong nghiên cứu về phương pháp DBT. Hợp nhất có thể tăng cường khả năng của mạng nơ-ron để đạt được sự hợp nhất và tái sử dụng đặc trưng bằng cách phát hiện các đặc trưng độ sâu có liên quan, đặc trưng REID hoặc hợp nhất các đặc trưng gốc và đặc trưng chuyển động.
Khung Tracktor++ nêu trên vẫn còn hạn chế trong việc theo dõi hiệu suất do mức độ tích hợp thấp giữa các mô-đun chức năng. Để đối phó với tình hình này, Peng và cộng sự [21] đã đề xuất thuật toán CTrack, kết hợp ba mô-đun phát hiện đối tượng, trích xuất đặc trưng và liên kết dữ liệu. Sự hợp nhất được tích hợp vào cấu trúc mạng đầu cuối và CTrack đơn giản và nhanh chóng với sự trợ giúp của cấu trúc chuỗi và công nghệ hồi quy chú ý theo cặp.
Dựa trên phân tích trong khung TBD, có thể thấy rằng có sự khác biệt giữa các đặc điểm sâu được mạng phát hiện trích xuất và các đặc điểm rõ ràng sâu mà liên kết dữ liệu dựa vào. Mô-đun phát hiện đối tượng hợp nhất các đặc trưng ngoại hình và đặc trưng chuyển động. Wang và cộng sự [24] đã đề xuất một mô hình JDE dựa trên thuật toán phát hiện YOLOv3. Điểm khởi đầu của khung là tăng khả năng sử dụng lại các đặc trưng, thêm nhánh trích xuất đặc trưng rõ ràng vào nhánh phân loại
và hồi quy ban đầu. Mặc dù kỹ thuật hợp nhất làm tăng độ chính xác theo dõi đa đối tượng, nhưng nó làm chậm đáng kể thuật toán theo dõi.
2.3.3. Thuật toán kết hợp theo dõi đối tượng đơn lẻ
Tác vụ theo dõi đối tượng đơn lẻ và tác vụ theo dõi đa đối tượng trực quan có mối quan hệ chặt chẽ. Các đặc điểm hình ảnh và động học dự kiến của việc theo dõi một đối tượng duy nhất được bao gồm trong thuật toán theo dõi đối tượng duy nhất.
Do sự tiến bộ nhanh chóng của lĩnh vực theo dõi đối tượng đơn lẻ, việc kết hợp theo dõi đối tượng đơn lẻ với theo dõi đa đối tượng đã tồn tại trong những năm gần đây.
Bản thân phương pháp theo dõi đối tượng (SOT) có thông tin như vị trí và nhận dạng nhờ cấu trúc mạng kép. Kết quả là, một số lần lặp lại thuật toán theo dõi đa đối tượng đã xuất hiện, tận dụng kỹ thuật theo dõi đối tượng đơn lẻ để thay thế mô hình chuyển động và mô hình ngoại hình. Về lý thuyết, thuật toán theo dõi đa đối tượng dựa trên theo dõi một đối tượng có thể được so sánh với thuật toán theo dõi dựa trên phát hiện, vì vấn đề thiếu quan sát có một số tính mạnh mẽ và thông tin định vị đối tượng tạm thời có thể thu được bằng tìm kiếm khu vực.
Zhu và cộng sự [29] đã đề xuất thuật toán DMAN để tích hợp các ưu điểm của phương pháp liên kết dữ liệu và theo dõi đối tượng đơn lẻ trong một khung thống nhất và khi kết hợp SOT vào MOT, họ đã giới thiệu tổn thất theo dõi nhạy cảm với chi phí để theo dõi trực quan nhằm giải quyết vấn đề tắc nghẽn và can thiệp lẫn nhau giữa các đối tượng. Feng và cộng sự đã đề xuất thuật toán LSST cho vấn đề tắc nghẽn dẫn đến các đặc trưng quỹ đạo với phần dư và thậm chí cả công tắc ID, và trình theo dõi cơ sở là SiamRPN để phát hiện nhanh và chính xác trong lĩnh vực theo dõi một đối tượng, đạt được độ ổn định lâu dài theo dõi dựa trên thông tin tương tác được trích xuất bởi thuật toán ReID. Chu và cộng sự đã đề xuất thuật toán KCF với cấu trúc tương đối phức tạp và thiết kế trình theo dõi SOT nhận biết sơ thẩm bằng cách mã hóa nhận thức cả bên trong và giữa mô hình đối tượng. Sau đó, mô hình chung đã được thử nghiệm và sửa chữa, mô hình năng động đã được làm mới và quản lý mục tiêu thuộc hàng tốt nhất trong thử thách của MOT.
Theo phần giới thiệu trước đó, chúng ta phát hiện ra rằng công nghệ kết hợp theo dõi một đối tượng và theo dõi nhiều đối tượng có cả lợi ích và nhược điểm rõ ràng. Khi bố cục cảnh khiêm tốn, khả năng định vị và trích xuất đặc trưng nhanh chóng và chính xác của công nghệ theo dõi đối tượng đơn lẻ phần nào có thể thích ứng với các vấn đề phát hiện sai và phát hiện bỏ sót. Điều này là tốt, nhưng khi có nhiều mục kịch bản, bộ theo dõi đối tượng cần được thêm vào mọi mục, dẫn đến các vấn đề lớn về hiệu suất và hiệu suất thời gian thực, đòi hỏi phải nghiên cứu sâu hơn về phương pháp này.