CHƯƠNG 2. KỸ THUẬT THEO DÕI ĐỐI TƯỢNG (OBJECT TRACKING)
2.5. Những thử thách chính của MOT
Theo dõi nhiều đối tượng có một số thách thức cần giải quyết. Mặc dù sự che phủ là thách thức chính trong MOT, nhưng có một số thách thức khác mà người theo dõi phải giải quyết liên quan đến vấn đề của MOT.
2.5.1. Sự che phủ
Hiện tượng che phủ xảy ra khi đối tượng mà chúng ta muốn xem bị che phủ hoàn toàn hoặc một phần hoặc bị che phủ bởi một đối tượng khác trong cùng một khung hình. Hầu hết các phương pháp của MOT được thực hiện chỉ dựa trên camera mà không có dữ liệu cảm biến. Đó là lý do tại sao có một chút khó khăn đối với trình theo dõi để theo dõi vị trí của một đối tượng khi chúng che phủ lẫn nhau. Hơn nữa, tắc nghẽn trở nên nghiêm trọng hơn trong bối cảnh đông đúc để mô hình hóa sự tương tác giữa mọi người. Theo thời gian, việc sử dụng các hộp giới hạn để định vị một đối
tượng rất phổ biến trong cộng đồng MOT. Tuy nhiên, trong những cảnh đông đúc, rất khó xử lý các vùng kín do các hộp giới hạn chân thực thường chồng lên nhau. Vấn đề này có thể được giải quyết một phần bằng cách cùng giải quyết các nhiệm vụ theo dõi và phân đoạn đối tượng. Trong tài liệu, chúng ta có thể thấy thông tin ngoại quan và thông tin đồ thị được sử dụng để tìm các thuộc tính toàn cục nhằm giải quyết các che phủ. Tuy nhiên, sự che phủ thường xuyên có tác động đáng kể đến độ chính xác thấp hơn trong các bài toán MOT. Do đó, các nhà nghiên cứu cố gắng tấn công vấn đề này mà không cần chuông và còi. Hình 2.5(a) minh họa sự che phủ. Trong Hình
Hình 2.5. Hình ảnh minh họa về sự che phủ.
2.5(b), người phụ nữ mặc váy đỏ gần như bị cột đèn che phủ. Đây là một ví dụ về sự che phủ.
2.5.2. Những thử thách đối với kiến trúc nhẹ (Lightweight Architecture) Mặc dù giải pháp gần đây cho hầu hết các vấn đề phụ thuộc vào kiến trúc nặng, nhưng chúng rất ngốn tài nguyên. Do đó, trong MOT, kiến trúc nặng rất phản trực giác để đạt được khả năng theo dõi thời gian thực. Do đó các nhà nghiên cứu luôn ấp ủ kiến trúc nhẹ. Đối với kiến trúc nhẹ trong MOT, có một số thách thức bổ sung cần xem xét, đề cập đến ba thách thức đối với kiến trúc nhẹ như sau:
- Kiến trúc theo dõi đối tượng yêu cầu cả trọng số được đào tạo trước để khởi tạo tốt và dữ liệu theo dõi được tinh chỉnh. Bởi vì các thuật toán NAS cần hướng từ tác vụ đích, đồng thời, khởi tạo vững chắc.
- Các thuật toán NAS cần tập trung vào cả mạng trục chính và khai thác đặc trưng, để kiến trúc cuối cùng có thể phù hợp hoàn hảo cho nhiệm vụ theo dõi mục tiêu.
- Kiến trúc cuối cùng cần biên dịch các khối xây dựng nhỏ gọn và có độ trễ thấp.
2.5.3. Một số thử thách thường gặp
Kiến trúc MOT thường bị phát hiện đối tượng không chính xác. Nếu các đối tượng không được phát hiện chính xác, thì toàn bộ nỗ lực theo dõi đối tượng sẽ trở nên vô ích. Đôi khi tốc độ phát hiện đối tượng trở thành một yếu tố chính đối với kiến trúc của MOT. Đối với biến dạng nền, việc phát hiện đối tượng đôi khi trở nên khá khó khăn. Ánh sáng cũng đóng một vai trò quan trọng trong việc phát hiện và nhận dạng đối tượng. Do đó, tất cả các yếu tố này trở nên quan trọng hơn trong việc theo dõi đối tượng. Do chuyển động của máy ảnh hoặc đối tượng, hiện tượng nhòe chuyển động khiến MOT gặp nhiều khó khăn hơn. Nhiều khi kiến trúc MOT khó quyết định một đối tượng có phải là người thu nhập thực sự hay không. Một trong những thách thức là sự liên kết thích hợp giữa phát hiện và tracklet. Phát hiện đối tượng không
chính xác và không chính xác cũng là hệ quả của độ chính xác thấp trong nhiều trường hợp. Ngoài ra còn có một số thách thức, chẳng hạn như ngoại hình tương tự thường gây nhầm lẫn cho các mô hình, khởi tạo và kết thúc các tuyến đường là một nhiệm vụ hơi quan trọng trong MOT, tương tác giữa nhiều đối tượng, Chuyển đổi ID (cùng một đối tượng được xác định là khác nhau trong các khung liên tiếp thông qua đối tượng không thoát ra ngoài) của khung). Do biến dạng không cứng và sự giống nhau giữa các lớp về hình dạng và các đặc tính bề ngoài khác, con người và phương tiện tạo ra một số thách thức bổ sung trong nhiều trường hợp. Ví dụ, các phương tiện có hình dạng và màu sắc khác với quần áo của mọi người. Cuối cùng nhưng không kém phần quan trọng, các đối tượng có kích thước nhỏ hơn tạo ra nhiều yếu tố trực quan theo tỷ lệ. Liting et al. cố gắng giải quyết vấn đề với hình ảnh có độ phân giải cao hơn với độ phức tạp tính toán cao hơn. Họ cũng sử dụng bản đồ đặc trưng phân cấp với các kỹ thuật dự đoán đa tỷ lệ truyền thống.