Tiếp cận dựa trên Keypoint

Một phần của tài liệu Nghiên cứu bài toán bám sát đối tượng bị che khuất trong video (Trang 29 - 34)

5. Ý nghĩa khoa học và thực tiễn

1.3.3 Tiếp cận dựa trên Keypoint

Keypoint là một loại đặc trƣng điểm của ảnh số và có tính chất bất biến. Chẳng hạn ta xem hai ảnh chụp cùng một quyển sách, những điểm góc của quyển sách rất dễ dàng nhận ra nó giữa hai ảnh, nhƣng nếu ta chọn một điểm ở vùng giữa quyển sách trên một ảnh thì ta rất khó tìm ra nó ở đâu trên ảnh thứ hai. Nhƣ vậy ta có thể nói điểm góc của quyển sách có tính chất phân biệt hơn hay nói cách khác nó có tính chất bất biến cao hơn các điểm ở giữa quyển sách. Keypoint có thể đƣợc hiểu là những vị trí đạt cực trị của một hàm nào đó áp dụng lên ảnh. Có hai loại keypoint nhƣ hình 1.13, keypoint trên hình bên phải là loại keypoint mang theo tri thức của đối tƣợng, để trích chọn những điểm keypoint nhƣ vậy tri thức và dữ liệu từ chuyên gia.

Hình 1. 12. Minh họa keypoint

Nhƣng việc sử dụng hộp neo có hai hạn chế. Đầu tiên, chúng ta thƣờng cần một tập hợp các hộp neo rất lớn, ví dụ: hơn 40 nghìn trong (Deconvolutional single shot detector- DSSD) và hơn 100 nghìn trong RetinaNet. Điều này là do máy dò đƣợc đào tạo để phân loại xem mỗi hộp neo có đủ trùng khớp với hộp chân lý trên mặt đất hay không và cần có một số lƣợng lớn các hộp neo để đảm bảo đủ chồng chéo với hầu hết các hộp xác thực trên mặt đất. Kết quả là, chỉ một phần nhỏ các hộp neo sẽ trùng với chân lý mặt đất; điều này tạo ra sự mất cân bằng lớn giữa các hộp neo tích cực và

tiêu cực và làm chậm quá trình đào tạo.

Thứ hai, việc sử dụng các hộp neo tạo ra nhiều siêu tham số và các lựa chọn thiết kế. Chúng bao gồm bao nhiêu hộp, kích thƣớc bao nhiêu và tỷ lệ khung hình. Những lựa chọn nhƣ vậy chủ yếu đƣợc thực hiện thông qua phƣơng pháp phỏng đoán đặc biệt và thậm chí có thể trở nên phức tạp hơn khi đƣợc kết hợp với các kiến trúc đa tỷ lệ trong đó một mạng duy nhất đƣa ra các dự đoán riêng biệt ở nhiều độ phân giải, với mỗi tỷ lệ sử dụng khác nhau các tính năng và bộ hộp neo riêng của nó.

Hình 1. 13. Mô tả hoạt động máy dò đối tƣợng.

CornerNet, một phƣơng pháp tiếp cận một giai đoạn mới để phát hiện đối tƣợng không có các hộp neo. Hei Law và Jia Deng[5]phát hiện một đối tƣợng dƣới dạng một cặp điểm chính - góc trên cùng bên trái và góc dƣới cùng bên phải của hộp giới hạn. Họ sử dụng một mạng phức hợp duy nhất để dự đoán một bản đồ nhiệt cho các góc trên cùng bên trái của tất cả các trƣờng hợp của cùng một danh mục đối tƣợng, một bản đồ nhiệt cho tất cả các góc dƣới cùng bên phải và một vectơ nhúng cho mỗi góc đƣợc phát hiện. Các phép nhúng phục vụ để nhóm một cặp góc thuộc cùng một đối tƣợng - mạng đƣợc đào tạo để dự đoán các phép nhúng tƣơng tự cho chúng. Cách tiếp cận

của họ giúp đơn giản hóa đáng kể đầu ra của mạng và loại bỏ nhu cầu thiết kế các hộp neo. Phƣơng pháp tiếp cận của chúng tôi đƣợc lấy cảm hứng từ phƣơng pháp nhúng liên kết do Newell và cộng sự đề xuất, ngƣời phát hiện và nhóm các điểm chính trong bối cảnh ƣớc tính tƣ thế con ngƣời nhiều ngƣời. Hình 1.14 minh họa quy trình tổng thể của phƣơng pháp tiếp cận của Hei Law và Jia Deng.

Hình 1. 14. Xác định vị trí của một góc giới hạn đối tƣợng

Một thành phần mới khác của CornerNet là gộp góc, một loại lớp gộp mới giúp mạng phức hợp bản địa hóa tốt hơn các góc của hộp giới hạn. Một góc của hộp giới hạn thƣờng nằm bên ngoài đối tƣợng - hãy xem xét trƣờng hợp của một hình tròn cũng nhƣ các ví dụ trong Hình 1.15. Trong những trƣờng hợp nhƣ vậy, một góc không thể đƣợc bản địa hóa dựa trên bằng chứng địa phƣơng. Thay vào đó, để xác định xem có góc trên cùng tại vị trí pixel hay không, chúng ta cần nhìn theo chiều ngang về phía bên phải đối với đƣờng biên trên cùng của đối tƣợng và nhìn theo chiều dọc về phía dƣới đối với đƣờng biên ngoài cùng bên trái. Điều này thúc đẩy lớp gộp góc của Hei Law và Jia Deng: nó cần đến hai bản đồ đặc trƣng; tại mỗi vị trí pixel, nhóm tối đa tất cả các vectơ đặc trƣng ở bên phải từ bản đồ đối tƣợng đầu tiên, nhóm tối đa tất cả các vectơ nằm ngay bên dƣới từ bản đồ đối tƣợng thứ hai, và sau đó thêm hai kết quả đƣợc gộp lại với nhau. Một ví dụ đƣợc thể hiện trong Hình 1.16.

Hình 1. 15. Tổng hợp góc

Hei Law và Jia Deng đƣa ra giả thuyết về hai lý do tại sao việc phát hiện các góc sẽ hoạt động tốt hơn các trung tâm hộp hoặc đề xuất giới hạn. Đầu tiên, tâm của hộp có thể khó xác định hơn vì nó phụ thuộc vào cả 4 cạnh của đối tƣợng, trong khi định vị một góc phụ thuộc vào 2 cạnh và do đó dễ dàng hơn, và thậm chí còn hơn thế với tính năng gộp góc, mã hóa một số kiến thức rõ ràng trƣớc đó về định nghĩa của góc. Thứ hai, các góc cung cấp một cách hiệu quả hơn để phân biệt không gian của các hộp: chúng ta chỉ cần các góc O (wh) để đại diện cho các hộp neo có thể có của O (w2h2).

Hei Law và Jia Deng chứng minh hiệu quả của CornerNet trên MSCOCO. CornerNet đạt đƣợc 42,1% AP, vƣợt trội hơn tất cả các máy dò một giai đoạn

hiện có. Ngoài ra, thông qua các nghiên cứu loại trừ, điều này cho thấy rằng việc gộp góc là rất quan trọng đối với hiệu suất vƣợt trội của CornerNet.

1.4. Kết luận chƣơng 1

Chƣơng 1 luận văn đã trình một cách bày tổng quan bài toán bám sát đối tƣợng bị che khuất trong video, trên cơ sở trình bày về dữ liệu video, và đối tƣợng bị che khuất trong ảnh, mô hình quy trình phát hiện che khuất trong

hệ thống giám sát tự động nói chung và phân tích một số ứng dụng của bài toán phát hiện đối tƣợng bị che khuất. Trong chƣơng này, luận văn cũng trình bày một số tiếp cận chính trong phát hiện đối tƣợng và theo vết đối tƣợng bị che khuất cùng với một số ứng dụng của phát hiện đối tƣợng bị che khuất cũng nhƣ theo vết đối tƣợng bị che khuất trong video.

CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ BÁM SÁT ĐỐI TƢỢNG BỊ CHE KHUẤT

Một phần của tài liệu Nghiên cứu bài toán bám sát đối tượng bị che khuất trong video (Trang 29 - 34)