Kiến trúc của FPN (a) và PAN (a+b) [16]

Một phần của tài liệu Nhận diện và theo dấu đối tượng trên hệ thống nhiều camera (Trang 55 - 59)

6 Tổng kết

4.3 Kiến trúc của FPN (a) và PAN (a+b) [16]

Hình 4.4: Phương pháp Non-max suppression chọn ra bounding box tốt nhất2

momentum,... Mơ hình sau khi được xây dựng và học sẽ được đánh giá dựa trên tập kiểm thử của dữ liệu.

4.2.1.3 Kiểm tra mơ hình dựa trên dữ liệu mới

Do mơ hình dựa trên các khung hình có sẵn dự đốn ra rất nhiều bounding box nên một bức ảnh có thể dự đốn ra rất nhiều bounding box xếp chồng cùng phát hiện ra một đối tượng và các bounding box này đều cho ra kết quả tốt. Vì thế, ta cần giữ lại bounding box tốt nhất và xoá đi những cái còn lại. Để thực hiện việc này, ta cần sử dụng phương pháp Non-max suppression được áp dụng như hình 4.4. Đầu tiên, phương pháp trên sẽ loại bỏ các bounding box có độ tin cậy thấp hơn một ngưỡng cho trước. Sau đó, phương pháp chọn ra các bounding box có độ tin cậy cao nhất và xố đi các bounding box có IOU lớn hơn một ngưỡng cho trước. Vì các bounding box này có khả năng cao dự đốn cùng một đối tượng với bounding box tốt nhất dự đoán được. Việc này giúp giữ lại bounding box tốt nhất. Sau khi ra được vị trí các đối tượng trong khung hình, ta sẽ so sánh với giá trị vị trí đã được gán nhãn trước để đo đạc độ tốt của mơ hình. Ta có thể sử dụng Precision, Recall hoặc AP để đo độ tốt của mơ hình.

2

4.2.2 Phát hiện người trong khung hình

Mơ hình phát hiện người trong khung hình có nhiệm vụ trích xuất ra được các đối tượng có trong ảnh nhằm làm dữ liệu đầu vào cho tác vụ truy vết của hệ thống. Mơ hình phát hiện người được nhóm sử dụng là Faster R-CNN [3] và Mask R-CNN [4]. Đây là các mơ hình phát hiện đối tượng hai lớp. Các mơ hình trên có độ hiệu quả khi sử dụng để phát hiện các đối tượng nhỏ và chồng lấp lên nhau tốt hơn so với các mơ hình hai lớp nên đã được nhóm lựa chọn.

4.2.2.1 Faster R-CNN [3]

Nhóm quyết định sử dụng Faster R-CNN[3] để phát hiện người trong các khung hình của video. Đây là mơ hình mà bài báo gốc về đề tài truy vết mà chúng em đang nghiên cứu sử dụng. Do chính bản thân mơ hình này cũng có thể phát hiện người rất tốt nên đây được xem là mơ hình xuất phát để nhóm nghiên cứu.

Mơ hình Faster R-CNN[3] được nhóm sử dụng với trọng số đã được huấn luyện trước

(pretrain model) trên tập dữ liệu MTA của bài báo được công bố. Nhưng đây là tập dữ

liệu lớn và mục tiêu của nhóm là cải thiện hiệu suất đã có sẵn của hệ thống, nhóm quyết định sử dụng thêm trọng số đã được huấn luyện của mơ hình Faster R-CNN[3] trên tập dữ liệu COCO. Đây là tập dữ liệu gồm 80 lớp khác nhau, trong đó có phát hiện người. Đây là tập dữ liệu thật, không phải giả lập như MTA nên rất phù hợp khi sử dụng để đánh giá với các tập dữ liệu thật khác.

Faster R-CNN[3] sau khi được xây dựng sẽ được truyền vào trọng số đã được huấn luyện sẵn trên tập dữ liệu COCO. Sau đó sẽ được gắn vào hệ thống để nhận dữ liệu đầu vào là các khung hình và dự đốn ra các bounding box chứa người trong đó. Kết quả được xuất ra sẽ được làm đầu vào cho việc truy vết đối tượng.

4.2.2.2 Mask R-CNN [4]

Sau khi đánh giá mơ hình truy vết sử dụng Faster R-CNN [3]. Nhóm nhận ra vấn đề khi nối các đối tượng được truy vết với nhau, danh tính của các đối tượng rất dễ nhầm lẫn với nhau. Sở dĩ việc này xảy ra là do khi ta cho dữ liệu đầu vào của phát hiện đối tượng vào truy vết, chúng ta sẽ cho một khung hình chữ nhật bao quanh đối tượng mà ta đang chú ý đến, đây là con người. Ngồi hình ảnh về người xuất hiện trong khung hình chữ nhật này cịn có phần nền phía sau mơ tả cảnh xung quanh và hồn tồn khơng liên quan đến đối tượng. Đây chính là phần dữ liệu nhiễu sẽ làm cho việc trích xuất đặc trưng khơng chỉ trích xuất người trong khung hình mà cịn dữ liệu về cảnh xung quanh. Việc này ảnh hưởng rất nhiều khi ta ghép các đoạn người mà mơ hình quan sát lại. Để giải quyết vấn đề trên, nhóm đề xuất cần phải tách phơng nền của khung hình ra khỏi người mà mơ hình cần quan sát. Vấn đề này có thể giải quyết khi ta sử dụng các mơ hình phân đoạn.

Có nhiều mơ hình phân đoạn có độ chính xác cao và có thể dự đốn được đến từng pixel của khung hình như U-Net[88] hay SegNet[89]. Đây là các mơ hình phân đoạn

đối tượng đem lại độ chính xác cao. Nhưng nếu mơ hình truy vết của nhóm thêm các mơ hình này vào, thời gian thực thi sẽ lâu hơn và khiến cho hiệu suất của toàn bộ hệ thống giảm xuống. Sau đó, nhóm quyết định sử dụng một mơ hình vừa có thể phát hiện và phân đoạn đối tượng, đó chính là Mask R-CNN [4].

Mơ hình Mask R-CNN [4] có phần đầu ra dự đốn bounding box và loại đối tượng, song song với đó là phân đoạn đối tượng. Chức năng phân đoạn được thực hiện đồng thời

(a) Khung hình đầu vào

(b) Dữ liệu đầu ra của Faster R-CNN (c) Dữ liệu đầu ra của Mask R-CNN Hình 4.5: Hình ảnh đầu ra của Faster R-CNN và Mask R-CNN

nên chỉ tăng thời gian thực thi của mơ hình một phần khơng đáng kể. Mask R-CNN [4] được nhóm đưa vào hệ thống thay thế cho mơ hình phát hiện đối tượng Faster R-CNN [3]. Dữ liệu đầu vào gồm các khung hình của video sẽ được đưa vào Mask R-CNN [4] để phát hiện ra các đối tượng là con người, đồng thời lấy dữ liệu đầu ra của phân đoạn. Sau đó, hệ thống sẽ chỉ giữ lại tồn vẹn hình ảnh của người. Cịn dữ liệu hình ảnh phơng nền sẽ được thay bằng màu trắng có giá trị (255, 255, 255). Khi tất cả các khung hình đều chỉ giữ lại các đối tượng con người và thay thế hết ngoại cảnh thành màu trắng, hệ thống sẽ giảm bớt nhiễu do sự ảnh hưởng của phơng nền.

Hình 4.5 thể hiện hình ảnh đầu ra khác nhau từ cùng một khung hình đầu vào của 2 mơ hình Faster R-CNN và Mask R-CNN. Với Faster R-CNN, hình ảnh đầu ra sẽ bao gồm đối tượng và phơng nền thuộc bounding box được dự đốn. Cịn với Mask R-CNN, Hình ảnh đầu ra chỉ bao gồm đối tượng. Phơng nền của bounding box sẽ được thay thế bằng màu trắng.

4.3 Nhận diện danh tính

Sau khi đã kết nối và phân biệt được các đối tượng 4.4, mơ hình cần phải nhận biết được người đó là ai. Từ kết quả khn mặt được trích xuất từ mơ hình face detector, khn mặt đó được đưa vào khối nhận diện danh tính. Nhận diện danh tính đối tượng trong hệ thống giám sát hướng đến vừa có khả năng hoạt động tốt với độ chính xác cao đối với những trường hợp bình thường và có thể hoạt động ổn định với những trường hợp mở rộng cụ thể trong đề tài là đối tượng có mang khẩu trang. Do đó, những đối tượng

Hình 4.6: Tổng quan các bước dự đốn danh tính đối tượng. trong hệ thống giám sát có thể chia thành hai loại chính là:

• Đối tượng khơng đeo khẩu trang • Đối tượng đeo khẩu trang

Mặt khác, việc số lượng đối tượng trong đề tài khơng giới hạn và mơ hình bắt buộc phải học theo hướng "Học một vài lần" (few-shot learning). Do đó việc lựa chọn phương pháp nhận diện phải có tính chất này tức là sẽ sinh ra vectơ nhúng và đo độ tương tự của vector đó trong cơ sở dữ liệu.

Vấn đề về chất lượng hình ảnh cũng là một bài toán đáng quan tâm trong đề tài. Thực tế, việc một máy quay trên cao có thể bắt được khn mặt và nhận diện được là rất khó và đây là trở ngại lớn nhất về mặt hạ tầng trong đề tài. Do đó, phương pháp được đề xuất để giải quyết vấn đề đó là chỉ nhận diện những khn mặt có chất lượng tốt với những máy quay nhất định nào đó, những trường hợp khác, giai đoạn truy vết sẽ lưu lại. Khi thực hiện như vậy, việc xác định danh tính sẽ trở nên chính xác hơn, mặt khác, khơng làm mất đi việc theo dõi danh tính ở những máy quay khác vì chỉ khi một máy quay bắt được danh tính thì cả hệ thống sẽ đồng bộ theo.

Như đã đề cập ở trên, sẽ có hai loại đối tượng cần nhận diện và phải làm tốt nhất có thể trên mỗi loại. Do đó, phương pháp đề xuất sẽ là xây dựng hai bộ cơ sở dữ liệu riêng và hai mơ hình cho hai loại đối tượng này. Nếu bộ xác định khuôn mặt đeo khẩu trang cho ra kết quả là khơng đeo thì sẽ truy cập vào cơ sở dữ liệu của đối tượng không đeo khẩu trang và ngược lại.

Như hình 4.6, việc sử dụng cơ sở dữ liệu nào sẽ phụ thuộc vào bộ phát hiện và xác định. Việc này sẽ giúp cho việc học các đặc trưng tốt hơn và sẽ thảo luận ở phần sau. Vấn đề khó khăn khi giải quyết bài tốn nhận dạng danh tính trong đề tài này đến từ việc nguồn dữ liệu thực tế khan hiếm. Do đó, chỉ một vài máy quay đảm nhận việc nhận diện danh tính và do tính chất chuyển động của người trong video nên việc xác định danh tính trở nên khó khăn hơn.

4.3.1 Đối tượng khơng đeo khẩu trang

Với đối tượng khơng đeo khẩu trang, việc xác định danh tính sẽ tương tự như các hệ thống giám sát khác. Việc học các đặc trưng của khuôn mặt sẽ dễ dàng hơn. Mơ hình huấn luyện để nhận diện cho đối tượng khơng đeo khẩu trang như sau:

Mơ hình như hình 4.7 sử dụng bộ xác định để phân loại khuôn mặt không đeo khẩu trang và sử dụng ArcFace [10] làm bộ nhận diện danh tính. Khi đó, tồn bộ các đặc trưng trên khuôn mặt sẽ được sử dụng triệt để cho q trình nhận diện. Qua đó, độ chính xác của hệ thống sẽ cao hơn. Việc huấn luyện đối với đối tượng không đeo khẩu trang cần huấn

Một phần của tài liệu Nhận diện và theo dấu đối tượng trên hệ thống nhiều camera (Trang 55 - 59)

Tải bản đầy đủ (PDF)

(95 trang)