6 Tổng kết
4.1 Mơ hình đề xuất thực hiện truy vết nhiều đối tượng trên nhiều máy quay
vết. Luồng nhận diện sẽ phân tích khn mặt có đeo khẩu trang hay không dựa vào khối
Face/FaceMask Detectorvà đưa kết quả đó vào khối Face Recognition để xác định danh tính. Cùng lúc đó, khối truy vết sẽ sử dụng kết quả nhận dạng cơ thể người để trích xuất đặc trưng và sử dụng khối Person ReID để xác định các đối tượng trong cùng một máy quay và nổi lại nhau bằng khối Single Camera Tracking. Dựa vào kết quả
hai luồng chạy song song và kết quả vị trí của khối Person Detector, hệ thống sẽ xem
khuôn mặt thuộc về đối tượng nào để gắn định danh, đồng bộ dữ liệu quá khứ cho tới hiện tại và sử dụng kết quả của Person ReID để kết nối các máy quay nếu đối tượng đó xuất hiện ở máy quay khác dựa vào khốiMulti-camera Clustering.
Kết quả từ khối Multi-camera Clustering sẽ cho hệ thống biết được quá trình một người di chuyển qua các camera để sử dụng cho các mục đích khác.
4.2 Phát hiện đối tượng
4.2.1 Phát hiện gương mặt sử dụng khẩu trang
Mơ hình phát hiện và phân loại có nhiệm vụ trích xuất ra được các khn mặt xuất hiện trong khung hình và phân loại khn mặt đó có sử dụng khẩu trang hay khơng và đưa dữ liệu đầu ra đó vào hệ thống nhận diện. Mơ hình phải phân loại được gương mặt vì mơ hình nhận diện được thiết kế gồm hai phần. Một phần dùng để nhận diện khn mặt bình thường và phần cịn lại là nhận diện khn mặt sử dụng khẩu trang. Chính vì lý do đó mà mơ hình phát hiện cần phân loại để mơ hình nhận diện có thể xử lý được.
Ngồi ra, bộ nhận diện chỉ có thể nhận diện được tốt khi gương mặt có độ lớn nhất định trở lên. Vì thế, ta có thể bỏ qua việc phát hiện các gương mặt nhỏ hơn. Điều này giảm bớt các phép tính tốn giúp mơ hình có thể thực thi nhanh hơn. Với các u cầu như trên, ta cần phải chỉnh sửa các mơ hình được khảo sát sao cho phù hợp với bài tốn chúng ta đang tìm lời giải. Để giải quyết bài tốn trên, ta cần phải đi qua ba bước. Đó chính là:
• Tiền xử lý tập dữ liệu ảnh.
• Xây dựng và huấn luyện mơ hình. • Kiểm tra mơ hình dựa trên dữ liệu mới.
4.2.1.1 Tiền xử lí tập dữ liệu ảnh
Cả hai mơ hình RetinaFaceMask và Scaled-YOLOv4 đều là các mơ hình phát hiện một lớp (one-stage) với cách tiếp cận sử dụng các khung hình có sẵn (Anchor Box hay Prior Box) để dự đốn. Cách tiếp cận này tạo ra các ơ có kích cỡ khác nhau và cho di chuyển hết ảnh. Mỗi lần di chuyển sẽ lấy phần khung hình mà ơ đè lên để so sánh với nhãn bounding box của dữ liệu. Nếu giá trị IOU của phần khung hình ấy và bounding box lớn hơn một ngưỡng nhất định (thường là 0.5), phần khung ấy sẽ được gán nhãn giống với nhãn của dữ liệu thật. IOU là giá trị của diện tích giao nhau của hai khung hình trên diện tích hợp của hai khung hình. Nếu hai khung hình càng tương đồng và trùng nhau thì giá trị trên càng lớn. Bằng cách này, từ giá trị nhãn là những bounding box của khung hình, ta đã biến thành một lượng lớn các giá trị chứa tọa độ của các khung hình có sẵn được biến đổi cùng với nhãn của mối khung. Đây là giá trị đầu ra sau khi khung hình chạy qua mơ hình và là cơng cụ giúp mơ hình có thể học được. Việc lựa chọn kích thước khung hình có sẵn cũng là một siêu tham số mà ta cần quan tâm. Nếu mơ hình có nhiệm
Hình 4.2: Ví dụ về các khung hình có sẵn với kích cỡ khác nhau1.
vụ phát hiện cả các đối tượng nhỏ thì ta cần tạo ra các khung hình có sẵn nhỏ hơn để mơ hình có thể học. Ngược lại, bài toán của chúng ta cần bỏ qua các đối tượng nhỏ nên ta cần thiết kế các khung hình có sẵn với độ lớn vừa đủ để nâng cao khả năng tính tốn. Hình 4.2 minh hoạ một vài khung hình có sẵn.
4.2.1.2 Xây dựng và huấn luyện mơ hình
Cả hai mơ hình đều là bộ phát hiện một lớp và gồm ba phần chính: backbone, neck và head. Phần backbone có nhiệm vụ trích xuất các đặc trưng từ cơ bản đến nâng cao của đối tượng. Phần neck có nhiệm vụ làm giàu thêm đặc trưng và trích xuất ra đối tượng với nhiều kích thước khác nhau. Cuối cùng là phần head có nhiệm vụ phát hiện và phân loại đối tượng. Phần neck là phần ta cần phải quan tâm khi giải quyết vấn đề phát hiện các gương mặt có nhiều kích cỡ khác nhau. Phần neck càng phức tạp, ta càng dễ phát hiện những gương mặt có kích thước nhỏ hơn và ngược lại, neck càng đơn giản thì phát hiện các gương mặt có kích thước lớn hơn. Phần neck được thiết kế bằng FPN đối với RetinaFacemask và PAN với Scaled-YOLOv4. Mơ hình PAN được xây dựng trên cơ sở của FPN nên về bản chất đều mang cùng ý nghĩa như nhau. Hình 4.3a mơ tả FPN và hình 4.3 mơ tả một PAN.
Cả FPN và PAN đều có một đường đi từ trên xuống. Các tầng cao cấp của backbone là những tầng trích xuất đặc trưng cao cấp nhất nhưng lại mất đi các thông tin cục bộ của khung hình do vùng ảnh hưởng của chúng q lớn. Cịn các tầng thấp vẫn giữ được các thông tin cục bộ nhưng các đặc trưng trích xuất ra vẫn chưa đủ độ phức tạp để có thể phát hiện đối tượng. Vì thế, đường đi từ trên xuống này có nhiệm vụ truyền các đặc trưng cao cấp từ tầng cao xuống kết hợp với các thông tin cục bộ tại tầng thấp hơn giúp cho việc nhận diện đối tượng được tốt hơn. Đây là phần ta phải thiết kế để phù hợp với mơ hình. Đường đi xuống càng sâu thì ta càng dễ phát hiện các đối tượng có kích thước nhỏ hơn nhưng lại tốn số lượng phép tính tốn nhiều hơn. Vì thế, ta có thể làm đường đi từ trên xuống ngắn đi, chỉ đến tầng P4 hoặc P3. Việc này giúp ta bỏ đi các khn mặt nhỏ vốn khó có thể nhận diện được và tăng tốc độ cho việc tính tốn hơn.
Các phần cịn lại ta có thể thiết kế giống với bài báo được cơng bố, bao gồm kiến trúc của phần backbone và head, kích thước bó, số lần học, các hệ số học cũng như
1