CHƯƠNG 2. KỸ THUẬT THEO DÕI ĐỐI TƯỢNG (OBJECT TRACKING)
2.2. Thuật toán TBD dựa trên học sâu
2.2.2. Thuật toán TBD dựa trên mô hình học sâu theo dõi đối tượng
Theo phân tích về phương pháp nền tảng TBD, nó bao gồm hai phần: mô hình tương quan và mô hình phát hiện. Loại nghiên cứu thuật toán này liên quan đến việc
cải thiện độ chính xác của mối tương quan nhận dạng của đối tượng và tìm ra các phương pháp hiệu quả nhất để ước tính trạng thái của đối tượng bằng cách sử dụng thông tin phát hiện. Quy trình kết nối kết quả phát hiện với trình quản lý theo dõi được gọi là liên kết dữ liệu. Dựa trên ràng buộc tiên quyết của phát hiện đối tượng, việc theo dõi đối tượng trong các hệ thống theo dõi đa đối tượng có thể được xem như một bài toán tìm lời giải tốt nhất. Điều này liên quan đến việc xác định quỹ đạo chuyển động chính xác của một đối tượng bằng cách sử dụng các kỹ thuật tương quan trong khi tính đến các yếu tố như che phủ đối tượng lẫn nhau, thay đổi tỷ lệ biến dạng đối tượng, v.v. Dựa trên kiến trúc TBD, phần sau đây sẽ đánh giá và cô đọng một số chiến lược liên kết dữ liệu phổ biến.
2.2.2.1. Theo dõi đối tượng dựa trên SORT
Thuật toán theo dõi đối tượng SORT [5] là thuật toán theo dõi đa đối tượng, trực tuyến, theo thời gian thực, kết hợp các bộ lọc tương quan vào một thuật toán học sâu. Nó dự đoán vị trí hiện tại bằng cách sử dụng bộ lọc Kalman, tương quan các khung phát hiện và đối tượng theo tương quan và sử dụng Giao lộ trên Liên kết (IoU) giữa mỗi lần phát hiện và tất cả các hộp giới hạn được dự đoán của một đối tượng hiện có làm thước đo cho mối quan hệ đối tượng giữa đối tượng trước đó và các khung sau. Mặc dù phương pháp theo dõi đối tượng cho SORT nhanh chóng, nhưng nó hiếm khi giải quyết được vấn đề tắc nghẽn đối tượng, dẫn đến một số lượng lớn các chuyển đổi ID; độ chính xác tốt khi không có tắc nhưng thấp khi có tắc.
Wojke và cộng sự [25] sau đó đã đề xuất thuật toán theo dõi đối tượng DeepSORT vào năm 2017, thuật toán này trích xuất các đặc trưng rõ ràng của đối tượng để so khớp theo tầng, cải thiện việc theo dõi đối tượng khi có hiện tượng tắc và cũng giảm bớt vấn đề chuyển đổi ID đối tượng, để bù đắp cho những thiếu sót này của thuật toán thuật toán SORT. Ý tưởng chính đằng sau phương pháp này là kết hợp liên kết dữ liệu theo từng khung, lọc Kalman đệ quy và phương pháp theo dõi giả thuyết đơn thông thường. Để nâng cao hiệu quả của thuật toán xếp hạng và giảm tần suất chuyển đổi ID, DeepSORT thêm một vectơ ngoại hình được đào tạo trước dựa
trên trích xuất mạng ResNet và nhúng khoảng cách cosin giữa các đặc trưng dưới dạng ma trận chi phí vào thuật toán SORT. Do đó, ngay cả khi đối tượng bị che phủ và sau đó xuất hiện lại, đối tượng vẫn có thể khớp ID thành công. Nhiều nhà nghiên cứu khác đã sử dụng các mạng CNN có thể so sánh được bao gồm GoogleNet, ResNet và Inception-Net. Bằng cách thay đổi dữ liệu huấn luyện liên quan đến nhiệm vụ, tăng cường chức năng mất mát liên quan, học cách xác định các đặc điểm rõ ràng có thể phân biệt giữa các đối tượng tương tự và cố gắng trích xuất các đặc điểm rõ ràng mạnh mẽ hơn, độ sâu của mạng đường trục trích xuất đặc điểm có thể được tăng lên, nhưng điều này không mang lại nhiều lợi nhuận. Lin và cộng sự [18] cho rằng thuật toán TBD chủ yếu dựa vào thông tin xuất hiện. Do đó, họ đã đề xuất thuật toán liên kết đường kết hợp (HTA), sử dụng khoảng cách xuất hiện trong khung đường theo dõi trước đó và bằng cách sử dụng mô hình hỗn hợp số cao gia tăng (IGMM) và kết hợp dữ liệu thống kê thu được từ đó, đáng kể nâng cao khả năng nhận dạng đối tượng.
DeepSORT được tối ưu hóa về mặt phát hiện, nhúng và liên kết, đồng thời đề xuất thuật toán StrongSORT, nhúng hai thuật toán nhẹ hơn và plug-and-play, một là mô hình liên kết không xuất hiện (AFLink), liên kết các quỹ đạo ngắn thành các quỹ đạo hoàn chỉnh, cách thứ hai là sử dụng phép nội suy làm mịn Gaussian (GSI) để bù cho các lần phát hiện bị bỏ lỡ và đạt được khả năng định vị đối tượng có độ chính xác cao hơn. Thuật toán StrongSORT vẫn còn một số hạn chế. Mối quan tâm chính là tốc độ chạy tương đối thấp của chúng so với các thiết bị theo dõi chung và một số thiết bị theo dõi riêng biệt không có ngoại hình. Nghiên cứu sâu hơn về cải thiện hiệu quả tính toán là cần thiết.
2.2.2.2. Theo dõi đối tượng dựa trên LSTM
Nhiều nghiên cứu trong tài liệu đã chứng minh rằng các phương pháp dựa trên LSTM có khả năng đảm bảo xử lý chính xác các phụ thuộc dài hạn trong khi giải quyết thành công vấn đề biến mất và bùng nổ độ dốc trong mạng nơ-ron thông qua
“đơn vị cổng” của nó. Các kỹ thuật liên kết dữ liệu liên quan đến LSTM đã được áp dụng cho lĩnh vực theo dõi đa đối tượng.
Hầu hết các kỹ thuật dựa trên LSTM để theo dõi các đối tượng kết hợp một số bộ phân loại xử lý không gian và hình dạng với các mô-đun LSTM có tính đến tính nhất quán theo thời gian. Một giải pháp theo dõi dài hạn dựa trên các đặc điểm được thu thập bởi lớp LSTM được cung cấp bởi Milan và cộng sự [20] người đã sử dụng bộ phân loại dựa trên LSTM để theo dõi các đối tượng trong chuỗi video và nhận ra việc theo dõi lại các mục đã biến mất và xuất hiện lại trong tần số video. Mặc dù thuật toán hoạt động thuận lợi so với các kỹ thuật khác, bao gồm cả sự kết hợp của bộ lọc Kalman với thuật toán Hungary, kết quả trên bộ thử nghiệm MOT15 không đạt độ chính xác cao nhất; tuy nhiên, thuật toán này có thể chạy nhanh hơn nhiều so với các thuật toán khác (~165 FPS) và không sử dụng bất kỳ loại đặc trưng ngoại hình nào, để lại cơ hội cho những cải tiến trong tương lai. Ý tưởng này đã được khám phá thêm bởi [17], người đã sử dụng mạng LSTM song tuyến tính, trong đó một mạng LSTM theo dõi chuyển động và mạng kia xử lý thông tin về các tương tác của đối tượng, để xác định nhiều dấu hiệu để đánh giá các mối quan hệ lâu dài. Kết quả so sánh hiệu suất cho thấy phương pháp này có độ bền cao hơn và hiệu suất tốt hơn so với các phương pháp thông thường, chẳng hạn như thuật toán Hungary và JPDA. Hai yếu tố này được kết hợp để xác định điểm giống nhau giữa các khung hình. Một phương pháp khác sử dụng nhiều LSTM, Ran và cộng sự đã đề xuất một mạng ba luồng dựa trên tư thế, kết hợp ba đầu ra mối quan hệ khác của ba LSTM để tính toán mối quan hệ: một cho sự tương đồng về ngoại hình, sử dụng các đặc trưng CNN và thông tin về tư thế được trích xuất bởi AlphaPose, một cho sự tương đồng về chuyển động, sử dụng tốc độ khớp tư thế và một cho tương tác tương tự, sử dụng lưới tương tác. Sau đó, một thuật toán theo dõi tùy chỉnh được sử dụng để tương quan với việc phát hiện.
Khi theo dõi nhiều đối tượng, trình theo dõi sẽ ghi nhớ thông tin chuyển động và hình dáng của từng đối tượng. Bộ nhớ này được sử dụng để so sánh quỹ đạo và kết quả dự đoán và kết quả là được cập nhật. Để khắc phục vấn đề đồng thời tính đến tất cả các dấu vết trong quá trình cập nhật bộ nhớ, Kim và cộng sự đã thêm một mô-đun tổng hợp nhiều đường mới vào cấu trúc mô hình ban đầu, giúp giải quyết vấn đề và chỉ thêm một lượng nhỏ chi phí.