CHƯƠNG 2. KỸ THUẬT THEO DÕI ĐỐI TƯỢNG (OBJECT TRACKING)
2.4. Thuật toán MOT dựa trên Transformer
Những mô hình dựa trên Transformer này với khả năng biểu diễn xuất sắc đã tạo ra bước đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Các phương pháp chú ý lần đầu tiên được trình bày bởi [2] để ứng dụng vào dịch máy, đạt được hiệu suất cao trong các nhiệm vụ NLP.
Mô hình CNN, kết hợp một số lớp tuyến tính và kích hoạt phi tuyến tính với khả năng biểu diễn đặc trưng mạnh mẽ, là cách tiếp cận dựa trên học sâu mà các chuyên gia thị giác máy tính sử dụng thường xuyên nhất. Các lớp tích chập và tổng hợp được CNN giới thiệu để xử lý đầu vào bất biến thay đổi. Convolution không thể sử dụng đầy đủ thông tin theo ngữ cảnh vì nó thiếu khả năng nắm bắt toàn diện về hình ảnh và không thể mô hình hóa mối quan hệ giữa các đặc trưng. Các trọng số của Convolution cũng được cố định và không thể tự động điều chỉnh để đáp ứng với những thay đổi trong đầu vào. Nghiên cứu gần đây đã sử dụng transformer trong lĩnh vực thị giác máy tính, lấy cảm hứng từ thành công to lớn của thiết kế transformer trong NLP. Trái ngược với CNN, cơ chế tự chú ý của transformer không bị hạn chế bởi các tương tác cục bộ; thay vào đó, nó có thể tổng hợp dữ liệu từ tất cả các đầu vào và đạt được sự song song nhanh chóng. Bộ nhớ hoàn hảo và sức mạnh tính toán toàn cầu của transformer cũng làm cho nó phù hợp hơn để xử lý các chuỗi dài. Để nghiên cứu đầy đủ các đặc điểm của mạng nơ-ron sâu và nâng cao độ chính xác của mạng, độ sâu của transformer cũng có thể được nâng lên.
Trong thập kỷ qua, các cơ chế chú ý đã đóng một vai trò ngày càng quan trọng trong thị giác máy tính và được sử dụng để giải quyết nhiều vấn đề về thị giác, bao gồm phát hiện đối tượng, phân đoạn ngữ nghĩa, tầm nhìn 3D, và đang bắt đầu đạt được thành công trong lĩnh vực theo dõi đa đối tượng.
Hình 2.4. Kiến trúc bộ mã hóa-giải mã của transformer.
Vấn đề theo dõi đa đối tượng bao gồm kiến trúc transformer, đã cho thấy thành công to lớn trong hồ sơ CV. Chúng ta trình bày một mô tả đơn giản về kiến trúc bộ giải mã-bộ mã hóa trong Hình 2.4 để hiểu rõ hơn về việc tích hợp các thuật toán theo dõi đa đối tượng dựa trên transformer cho các truy vấn quỹ đạo trong các khối tự chú ý của bộ giải mã. Bộ mã hóa Transformer nhận thông tin hình ảnh từ đường trục CNN và thêm mã hóa vị trí không gian vào truy vấn và khóa của mỗi lớp tự chú ý nhiều đầu. Sau đó, bộ giải mã nhận truy vấn (ban đầu được đặt thành 0), tạo mã hóa vị trí (truy vấn đối tượng), truy cập bộ nhớ bộ mã hóa và sử dụng nhiều đầu tự chú ý và chú ý bộ giải mã để tạo ra tập hợp cuối cùng của nhãn lớp dự đoán và các hộp giới hạn.
2.4.1. Thuật toán MOT dựa trên kiến trúc Transformer
DETR [6] là khuôn khổ đầu tiên đưa transformer thành công vào phát hiện đối tượng. DETR sử dụng CNN để trích xuất ánh xạ đặc trưng hình ảnh, sử dụng các đặc trưng được trích xuất làm đầu vào cho bộ mã hóa biến đổi và thu được kết quả phát hiện thông qua bộ giải mã của transformer. TransTrack lần đầu tiên đưa cơ chế chú ý vào theo dõi nhiều đối tượng. Đầu tiên, hình ảnh khung hiện tại được nhập vào đường trục CNN để trích xuất các bản đồ đặc trưng của hình ảnh và sử dụng cơ chế Query–
Key để phát hiện và theo dõi chung. Thuật toán này kết hợp các đặc trưng của hai khung liền kề, truy vấn đối tượng được sử dụng để học cách phát hiện đối tượng mới, truy vấn theo dõi chịu trách nhiệm giữ dấu vết theo dõi, một trong hai bộ giải mã chịu trách nhiệm phát hiện và tạo khung phát hiện, còn lại là chịu trách nhiệm tạo khung theo dõi để truyền đối tượng. Cuối cùng, khung theo dõi và khung phát hiện được liên kết trên cùng một khung bằng cách sử dụng chiến lược đối sánh IOU để hoàn thành nhiệm vụ theo dõi nhiều đối tượng. Trước tiên, thuật toán hoạt động để giải quyết nhiệm vụ của MOT theo mô hình như vậy. Nó cung cấp một viễn cảnh mới cho việc theo dõi nhiều đối tượng. Meinhardt và cộng sự [19] đã đề xuất thuật toán TrackFormer, xử lý theo dõi đa đối tượng như một tập hợp các vấn đề dự đoán với việc phát hiện và theo dõi chung bằng sự chú ý. Tương tự, dựa trên cơ chế Truy vấn–
Khóa, kiến trúc bao gồm một CNN để trích xuất đặc trưng hình ảnh, bộ mã hóa
Transformer và bộ giải mã Transformer để mã hóa hình ảnh. Bản đồ đặc trưng hình ảnh được trích xuất bằng CNN được mã hóa bằng các đặc trưng tự chú ý trong bộ mã hóa và các truy vấn được giải mã bằng cách tự chú ý và chú ý chéo trong bộ giải mã, dẫn đến đầu ra được nhúng với thông tin lớp và hộp giới hạn. Việc kết hợp cơ chế chú ý đảm bảo rằng mô hình đồng thời xem xét các đặc trưng nhận dạng vị trí, tắc nghẽn và đối tượng, đồng thời hoạt động tốt trong các tình huống theo dõi dài so với TransTrack khi được thử nghiệm trong tập dữ liệu. Xu và cộng sự đã kết luận rằng các phương pháp theo dõi dựa trên hộp giới hạn của cả hai thuật toán, TransTrack và TrackFormer, không phù hợp để xử lý các tình huống dày đặc, và do đó đã đề xuất thuật toán TransCenter, sử dụng truy vấn đa tỷ lệ dày đặc để thu được dữ liệu dựa trên trọng tâm. biểu diễn bản đồ nhiệt đối tượng và phân phối Gaussian hai chiều để biểu thị vị trí và kích thước của đối tượng, ngoài ra, xem xét việc mất bộ nhớ, đã đề xuất bộ giải mã thay đổi và cuối cùng, kết hợp bản đồ nhiệt trung tâm và cấu trúc giải mã hai chiều với các đặc điểm hình học và các đặc điểm trực quan của bộ giải mã thông qua thuật toán Hungary để liên kết đối tượng.
Chu và cộng sự [8] đã đề xuất thuật toán TransMOT, sử dụng thuật toán YOLOv5 làm mô hình bộ dò và mạng SiamFC làm mạng con trích xuất đặc trưng trực quan, sau đó đề xuất một cách sáng tạo một biến thể đồ thị không gian và thời gian để mô hình hóa nhiều đối tượng trong không gian và thời gian , để đạt được mục đích theo dõi lâu dài. Cụ thể, các tác giả xây dựng một loạt các biểu đồ có trọng số thưa thớt dựa trên mối quan hệ không gian của đối tượng. Dựa trên các biểu đồ có trọng số này, bộ mã hóa chú ý biểu đồ không gian, bộ mã hóa chú ý biểu đồ thời gian và bộ giải mã chú ý không gian được thiết lập để lập mô hình, cơ chế liên kết theo tầng cũng được thiết lập để xử lý các phát hiện có độ tin cậy thấp và tắc nghẽn dài hạn, để tiếp tục tối ưu hóa tốc độ và độ chính xác của TransMOT. Xie và cộng sự đã đề xuất một mạng Nhánh kép giống như Siamese chỉ dựa trên transformer (DualTFR) để theo dõi đối tượng trực quan vào năm 2021. Các nhánh kép lần lượt là các mẫu và hình ảnh tìm kiếm, được chia thành các khía cạnh không chồng chéo và trích xuất một vectơ đặc trưng cho từng khía cạnh dựa trên kết quả khớp từng khía cạnh với các
khía cạnh khác trong cửa sổ chú ý. Ưu điểm của phương pháp này là các đặc trưng được học từ đối sánh và cuối cùng, mô-đun theo dõi được sử dụng để đối sánh để đạt được theo dõi đối tượng. Zhu và cộng sự đã giới thiệu mô hình ViT cho lĩnh vực theo dõi đa đối tượng và đề xuất ViTT. Nó sử dụng bộ mã hóa Transformer làm xương sống để trích xuất các đặc trưng trực tiếp với hình ảnh làm đầu vào. So với các mạng tích chập, nó có thể lập mô hình bối cảnh toàn cầu tại mỗi bộ mã hóa ngay từ đầu và hoạt động tốt trong các thách thức về tắc nghẽn và các cảnh phức tạp. Yang và cộng sự xem xét dự đoán vị trí đối tượng và đề xuất mô hình chuyển động đa đối tượng dựa trên transformer, mô hình này lấy sự khác biệt về vị trí lịch sử của đối tượng và vectơ bù giữa các khung liên tiếp làm đầu vào, đồng thời xem xét đối tượng. Chuyển động của chính nó và máy ảnh cải thiện độ chính xác dự đoán của mô hình chuyển động trong phương pháp theo dõi đa đối tượng, từ đó cải thiện hiệu suất theo dõi.
Kiến trúc transformer trong mạng nơ-ron nhằm mục đích thay thế mạng nơ- ron truyền thống dựa trên tìm kiếm toàn cục, đồng thời tăng tốc và cải thiện hiệu quả của việc huấn luyện mô hình bằng cách hướng dẫn mô hình tập trung nhiều sức mạnh tính toán hơn hoặc cập nhật độ dốc của các tham số nơi chúng ta muốn nó đến, trong khi bỏ qua thông tin không liên quan trong các lĩnh vực khác. Hầu hết các bộ dữ liệu điểm chuẩn đã hoạt động tốt hơn so với kỹ thuật theo dõi cấu trúc CNN thông thường.
Điều này chứng tỏ rằng nên tiếp tục nghiên cứu các thuật toán với kiến trúc này.
2.4.2. So sánh các thuật toán MOT dựa trên kiến trúc Transformer
Bốn cách tiếp cận không giống nhau: TransTrack, TrackFormer, TransCenter, TransMOT. Phương pháp theo dõi đa đối tượng của cấu trúc transformer trước đó đã được tăng cường bởi TransCenter. Theo tác giả, việc xử lý các cảnh dày đặc không phù hợp với các phương pháp theo dõi dựa trên các hộp giới hạn của hai thuật toán đầu tiên. Do đó, nên sử dụng bản đồ nhiệt đối tượng dựa trên điểm trung tâm để thể hiện các đặc trưng hình ảnh, cải thiện việc xử lý các vấn đề tắc nghẽn. TransCenter cũng có thể dự đoán toàn cầu các điểm trung tâm của từng đối tượng và liên kết chúng trong miền thời gian, cho thấy sự cân bằng FP–FN cao hơn, nhờ vào các đặc tính toàn
cầu của transformer. Để cải thiện hơn nữa độ chính xác và độ chính xác của việc theo dõi nhiều đối tượng, TransMOT tin rằng các phương pháp dựa trên transformer hiện tại không hiệu quả trong việc mô hình hóa mối quan hệ không gian và thời gian. Kết quả là, một loạt các biểu đồ có trọng số thưa thớt được tạo ra để lập mô hình.
Phương pháp theo dõi đa đối tượng dựa trên transformer vẫn đang ở giai đoạn đầu. Transformer có lợi thế hơn CNN với tư cách là máy dò vì nó sử dụng khả năng tự chú ý để thu thập dữ liệu theo ngữ cảnh toàn cầu, xây dựng các phụ thuộc từ xa vào quá trình nhúng và trích xuất các đặc điểm ngữ nghĩa mạnh mẽ hơn. Tuy nhiên, transformer cũng có một số nhược điểm nhất định: các mô hình dựa trên transformer cần bộ dữ liệu đào tạo khổng lồ để hoạt động tốt và hiệu suất theo dõi đối với các đối tượng nhỏ là phụ do độ phức tạp tính toán của toán tử tự chú ý tăng theo cấp số nhân khi vectơ nhúng tăng và kích thước của các bản vá bị hạn chế. Để mở rộng khuôn khổ cho các trường hợp khó khăn hơn, chẳng hạn như hạng mục đa quy mô, điều kiện thời tiết khắc nghiệt, nhầm lẫn danh mục, v.v., phương pháp theo dõi đa đối tượng dựa trên transformer cần được nghiên cứu thêm.