Công trình liên quan 3
Bài toán theo dấu người đi bộ là một vấn đề quan trọng trong lĩnh vực thị giác máy tính Trong những năm gần đây, các phương pháp giải quyết bài toán này đã được phân chia thành hai hướng tiếp cận chính.
Phương pháp Tracking-by-Detection (TBD) chia bài toán thành hai tác vụ chính: nhận diện vật thể và xác định định danh đối tượng (Re-ID) Tác vụ nhận diện vật thể sử dụng các mô hình học sâu hiện đại để nhận diện các đối tượng trong từng khung hình với độ chính xác cao Kết quả sau đó được xác định định danh thông qua các kỹ thuật như Kalman Filter và giải thuật Hungarian, nhằm đảm bảo cả tốc độ lẫn độ chính xác Nhiều nghiên cứu theo hướng này đã đạt kết quả ấn tượng, điển hình như SiamMOT, CenterMOT và EagerMOT.
Joint-Detection-And-Tracking (JDT) là một phương pháp giải quyết vấn đề học riêng lẻ của hai tác vụ chính trong theo dấu người đi bộ Bằng cách kết hợp quá trình học của cả hai tác vụ, phương pháp này khắc phục những hạn chế như mất cân bằng trong quá trình học Các nghiên cứu tiêu biểu như DEFT và FairMOT đã đạt được kết quả ấn tượng với tốc độ theo dấu vật thể tốt hơn so với các phương pháp truyền thống.
1 Towards Real-Time Multi-Object Tracking[1] - JDT
Mô hình JDT được đề xuất nhằm kết hợp hai tác vụ chính: học các đặc trưng ngoại hình của đối tượng và liên kết dữ liệu từ các đặc trưng đó với định danh của đối tượng Hướng tiếp cận này không chỉ xây dựng mô hình học một lần với trọng số chia sẻ mà còn cải thiện tốc độ theo dõi đối tượng trong hệ thống MOT, đạt từ 22 đến 44 FPS tùy thuộc vào độ phân giải của ảnh đầu vào.
Hình 1: Kiến trúc mô hình JDT.
Mô hình JDT được xây dựng dựa trên kiến trúc của Feature Pyramid Network (FPN), cho phép tạo ra các đặc trưng từ nhiều mức độ khác nhau, nhằm nâng cao hiệu quả trong việc nhận diện người đi bộ Ảnh đầu vào sẽ được xử lý qua mạng cơ sở để thu thập đặc trưng ở ba mức độ với các tỉ lệ down-sampling là 1:32, 1:16 và 1:8 Các đặc trưng này sau đó được kết hợp thông qua các bước up-sampling và skip-connection để tạo ra một ma trận đặc trưng chung Cuối cùng, các đầu dự đoán sẽ được thêm vào và phân chia thành ba nhiệm vụ khác nhau.
• Phân loại box đối tượng:2A×H×W;
• Hồi quy kích thước box đối tượng:4A×H×W;
• Ma trận định danh của đối tượng:D×H×W;
Trong đó, A là số lượng mỏ neo (anchor), D là số chiều của một vector định danh cho đối tượng.
Mô hình JDT đề xuất một độ lỗi tự cân bằng thường được dùng trong các bài toán với nhiều tác vụ (multi-task learning) theo công thức 1
Trong bài viết này, M đại diện cho số lượng đầu dự đoán, với giá trị từ 1 đến 3 Các tham số s i j cần được học để cân bằng độ lỗi giữa các đầu dự đoán, trong đó i thuộc M và j biểu thị các tác vụ độc lập cho từng đầu dự đoán.
Mô hình JDT mang đến một hướng nghiên cứu mới cho bài toán theo dấu người đi bộ Thiết kế học một lần của mô hình giúp giảm đáng kể thời gian chạy hệ thống, tiến gần tới tốc độ gần thực.
2 Mô hình học sâu FairMOT [2]
Mô hình FairMOT (Fairness Multi-Object Tracking) là một giải pháp học một lần (one-shot learning) hiệu quả cho việc theo dõi nhiều người đi bộ Nó đã phân tích sự thiên lệch giữa các tác vụ nhận diện đối tượng và re-identification (Re-ID), đồng thời đưa ra phương pháp đảm bảo sự cân bằng giữa hai tác vụ này trong quá trình học, mang lại kết quả ấn tượng.
Nghiên cứu cho thấy việc sử dụng nhiều ROI-align trong tác vụ nhận diện đối tượng dẫn đến nhiều switch-ID trong re-ID và khó khăn trong việc phân biệt giữa thực thể và nền ảnh FairMOT chỉ ra rằng sự không cân bằng trong quá trình học của hai tác vụ là nguyên nhân khiến kết quả của mô hình học một lần kém hiệu quả hơn so với học hai lần.
Mô hình sử dụng mỏ neo (anchor) không phù hợp với các đặc trưng của re-ID vì chúng được sinh ra từ quá trình phát hiện đối tượng Việc dựa vào mỏ neo khiến quá trình học re-ID phụ thuộc hoàn toàn vào việc phát hiện vật thể.
Để phân biệt các vật thể, các mô hình thường sử dụng nhiều lớp để tăng số lượng đặc trưng, trong khi số lượng đối tượng cần theo dấu lại có hạn Mặc dù việc tăng số lượng chiều có thể cải thiện độ chính xác, nhưng cũng dễ dẫn đến hiện tượng overfit và làm chậm tốc độ tính toán.
Kiến trúc FairMOT được thiết kế với hai nhánh đồng nhất nhằm dự đoán cho nhiệm vụ nhận diện người đi bộ và re-ID, áp dụng phương pháp mô hình không cần anchor, sử dụng center thay vì anchor.
Mô hình FairMOT sử dụng kiến trúc Encoder-Decoder để học các đặc trưng hình ảnh qua các lớp có độ phân giải khác nhau Nhánh Detection có nhiệm vụ nhận diện các đối tượng khả thi trong ảnh, trong khi nhánh Re-ID được sử dụng để định danh các đối tượng đã được đề xuất.
Mạng cơ sở (backbone network) được thiết kế dựa trên kiến trúc ResNet-34, cho phép học các đặc trưng của hình ảnh qua nhiều lớp, từ đó khai thác thông tin ở nhiều độ phân giải khác nhau Đồng thời, quá trình up-sampling được thực hiện thông qua các lớp convolution biến hình (deformable convolution) để nâng cao hiệu quả xử lý hình ảnh.
Nhánh nhận diện vật thể (Detection Branch) được phát triển dựa trên CenterNet, bao gồm ba đầu (head) phục vụ cho các nhiệm vụ khác nhau: đầu heatmap, đầu offset và đầu size Các đầu này nhận đặc trưng từ mạng cơ sở và trải qua các phép biến đổi convolution 3x3 và 1x1 để tạo ra đầu ra cho nhiệm vụ nhận diện Cụ thể, đầu heatmap xác định vị trí trung tâm của các đối tượng, đầu box offset giúp định vị chính xác đối tượng sau khi down-sampling, và đầu size ước tính kích thước của đối tượng tại vị trí đã xác định.
Kiến thức nền tảng 8
Mô hình neural cơ bản
Mô hình ANN đầu tiên được Warren McCulloch và Walter Pitts giới thiệu vào năm 1943 [?] Mô hình chỉ gồm một neural, tập các đầu vào x 1 , x 2 , x 3 , , xn và kết quả y.
Hình 4: Mô hình neural của McCulloch và Pitts
Mô hình này phân loại đầu vào thành hai lớp khác nhau, với y là giá trị nhị phân Hàm kích hoạt của mạng nơ-ron có thể được diễn tả bằng công thức toán học: y = f(n).
X i =1 wixi) (4) w 1 , w 2 , w 3 , , wn là giá trị trọng số tương ứng với mỗi giá trị đầu vào, f là hàm kích hoạt đơn giản: f(n) 1 nếu n >0
Mô hình không chỉ sử dụng các giá trị đầu vào mà còn có thêm giá trị bias luôn bằng 1, giúp tùy chỉnh để phù hợp với dữ liệu Bias được coi là giá trị đầu vào bổ sung và có trọng số riêng, điều này cho phép mạng nơ-ron nhân tạo (ANN) học thêm một giá trị quan trọng Do đó, phương trình (4) sẽ được điều chỉnh thành: y = f(n).
X i =1 wixi+w 0 ) (6) với w 0 là trọng số của bias (thường được ký hiệu là b để dễ phân biệt với các trọng số khác).
2 ANN cơ bản và cách thức hoạt động
Mạng ANN cơ bản bao gồm nhiều neuron tổ chức thành một lớp, với mỗi neuron trong lớp này kết nối đầy đủ tới tất cả các neuron ở lớp trước Mỗi kết nối giữa các neuron được gán một trọng số, ký hiệu là w_ij, trong đó i là chỉ số của dữ liệu đầu vào và j là chỉ số của neuron.
ANN nhiều lớp
Sự ra đời của Mạng nơ-ron nhân tạo (ANN) đã tạo ra nhiều kỳ vọng trong lĩnh vực trí tuệ nhân tạo Tuy nhiên, vào năm 1969, Marvin Minsky và Seymour Papert đã công bố một nghiên cứu chỉ ra hai vấn đề chính của ANN Thứ nhất, ANN với một lớp cơ bản chỉ có khả năng phân loại dữ liệu khả phân tách tuyến tính, tức là chỉ có thể chia dữ liệu thành hai phần bằng một đường thẳng Thứ hai, sức mạnh xử lý của các máy tính thời bấy giờ không đủ để xử lý các ANN có quy mô lớn Do đó, sự quan tâm và đầu tư cho nghiên cứu về ANN đã giảm sút đáng kể.
Vào những năm 1980, sự ra đời của mạng nơ-ron nhân tạo (ANN) nhiều lớp đã đánh dấu một bước tiến quan trọng trong nghiên cứu về mạng nơ-ron Khác với ANN cơ bản, ANN nhiều lớp bao gồm nhiều lớp nơ-ron, trong đó có các lớp ẩn (hidden layer) giúp cải thiện khả năng xử lý và học tập của mô hình.
Các hàm kích hoạt thường dùng
Một số hàm kích hoạt thường được dùng:
Hình 5: Mô hình ANN cơ bản
Rectified linear unit (ReLU) f(x) 0 nếu x