Dữ liệu kiểm thử

CHƯƠNG 2 PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO

2.1.3.1. Dữ liệu kiểm thử

Hiện tại, khơng có nhiều tập dữ liệu phổ biến trong cộng đồng thị giác máy tính dùng để huấn luyện và kiểm thử cho bài tốn dị tìm đối tượng quảng cáo. Một trong số đó là tập dữ liệu METU [78] với số lượng mẫu rất lớn gồm 923.343 thể hiện của 687,842 trademark khác nhau. Tuy nhiên tập dữ liệu này chủ yếu được xây dựng cho bài tốn truy vấn trademark trong ảnh và khơng mở rộng cho bài tốn dị tìm, phát hiện trademark. Nó chỉ cung cấp các chú thích mức ảnh và khơng chứa các ảnh trong thế giới thực. Mỗi ảnh thường gồm một hình logo trên nền màu trắng đồng nhất. Một tập dữ liệu lớn khác hướng tới các đối tượng hình ảnh quảng bá thương hiệu là Logos in the Wild [79]. Tập dữ liệu này bao gồm 32.850 thể hiện logo đã được đánh dấu của 871 nhãn hiệu khác nhau. Với chất lượng của các thể hiện logo và chú thích cho tập dữ liệu này tương đối tốt nhưng lại tồn tại một số trở ngại lớn ảnh hưởng đến việc áp dụng là thiếu một script ước lượng chuẩn, các ảnh khơng sẵn có để tải về và cũng chỉ tập trung cho bài tốn truy vấn logo. Ngồi ra cịn có một số tập dữ liệu về logo nhưng không được sử dụng nhiều ngay cả cho bài toán truy vấn đối tượng quảng cáo như BelgaLogos [40] và LOGONet [33] do hạn chế về số lượng cũng như mức chú thích về đối tượng. Vì vậy các bộ dữ liệu này khơng

được sử dụng trong luận án. Để huấn luyện và kiểm thử mơ hình dị tìm đối tượng quảng cáo trong video, luận án sử dụng bộ dữ liệu Flickrlogos-47 mới được phát triển gần đây có các chú thích ở mức đối tượng rất chi tiết, đầy đủ phù hợp cho bài tốn dị tìm đối tượng quảng cáo. Chi tiết về bộ dữ liệu Flickrlogos-47 được trình bày trong phụ lục A.

Thay thế đối tượng trong video

Dựa trên điểm đặc trưng