Minh họa về khoảng cách của đối tượng trên vùng gi- 123docz.net

6 Tổng kết

4.13 Minh họa về khoảng cách của đối tượng trên vùng giao của các máy quay

Trong phần hiện thực của luận văn, giá trị ngưỡng ở bước được gán bằng 1.

4.6 Tóm Tắt

Để tóm tắt lại chương này, ta sẽ đi qua một lần nữa các bước hoạt động của hệ thống định danh và truy vết nhiều máy quay như sau:

1. Khung hình từ một máy quay sẽ được đưa vào hệ thống.

2. Mô-đun xác định khung người (Person Detector) sẽ xác định ra khung bao đóng khung người của các đối tượng.

3. Các khung bao đóng ở bước 2 được đưa vào mơ-đun xác định khn mặt (Face/FaceMask Detector) để xác định vị trí khung bao đóng của khn mặt. Các khung bao đóng này cũng đưa vào mơ-đun rút trích đặc trưng ngoại hình (Person ReID) để xuất ra các vectơ đặc trưng. Các khung bao đóng khung người, khn mặt và vectơ đặc trưng sẽ được lưu lại.

nhận dạng khn mặt (Face Recognition) để tìm danh tính của đối tượng đó trong tập dữ liệu danh tính sẵn có của hệ thống. Nếu danh tính của đối tượng đó được xác định, những khung bao đóng của đối tượng sẽ được đặt tên dựa theo danh tính của họ.

5. Vị trí các khung bao đóng khn người và vectơ đặc trưng của các đối tượng ở bước 3 sẽ được đưa vào mô-đun truy vết trên một máy quay (Single Camera Tracking) cụ thể là Kalman Filter để ghép nối các khung bao đóng của các đối tượng này với các khung bao đóng ở những khung hình trước đó thành các truy vết. Vị trí các khung bao đóng mới này cũng được dùng để cập nhật lại các thơng số dự đốn của Kalman Filter.

6. Lặp lại bước 1 cho tới khi tất cả khung hình trên tất cả máy quay đã được đưa vào hệ thống.

7. Mô-đun truy vết trên nhiều máy quay (Multi-camera Clustering) sẽ ghép nối những truy vết đã tìm được trên từng máy quay mà mơ-đun này cho rằng là chung một đối tượng.

8. Kết quả cuối cùng sẽ là tập tin văn bản gồm tất cả số thứ tự các khung hình của tất cả máy quay trong hệ thống. Ứng với mỗi khung hình, ta sẽ có thơng tin các vị trí khung bao đóng, danh tính (nếu có) của các đối tượng mà hệ thống truy vết được.

Chương 5

Kết quả hiện thực

5.1 Tập dữ liệu

5.1.1 Tập dữ liệu Multi Camera Track Auto (MTA)

MTA là tập dữ liệu dành cho bài tốn theo dấu đối tượng trên nhiều máy quay mơ phỏng đời thật dựa trên trị chơi GTA V, Hình 5.1. Tập dữ liệu gồm 6 máy quay có góc quay trùng lắp lẫn không trùng lắp và thời lượng video của mỗi máy quay là 102 phút cùng với độ phân giải chuẩn Full-HD và tốc độ khung hình trên một giây (FPS) là 41. Có tất cả 2840 đối tượng đã được định danh định danh và 37,324,348 khung bao đóng trong tập dữ liệu này. Vì tài ngun tính tốn có hạn, nhóm chỉ tiến hành đánh giá mơ hình trên một phần nhỏ của tập dữ liệu MTA gồm 6 máy quay với mỗi máy quay dài 2 phút và có tổng cộng 29538 khung hình và 467 đối tượng.

Minh họa về khoảng cách của đối tượng trên vùng giao của các máy quay

Mơ hình huấn luyện và kiểm tra SphereFace [9]

Mô hình Convolution Neural Network