6. Cấu trúc luận án
1.2.1.1. Dựa trên điểm đặc trưng
Cách tiếp cận truyền thống cho bài toán dò tìm đối tượng thường được chia thành các giai đoạn: trích chọn điểm đặc trưng thô, mô tả điểm đặc trưng này và sau đó tiến hành phân lớp vector đặc trưng bằng các kỹ thuật học máy hay đối sánh vector đặc trưng để gán nhãn cho từng đối tượng. Những điểm đặc trưng này có thể được trích chọn, mô tả theo nhiều cách khác nhau phụ thuộc vào đặc trưng của từng ứng dụng. Ví dụ, các đặc trưng dựa trên Haar wavelets [28] tương đối phổ dụng, cùng với cải tiến của nó đã được sử dụng cho bài toán dò tìm mặt người [49]. Trong một số ít trường hợp, các đặc trưng dựa trên kết cấu được trích chọn bằng bộ lọc Gabor sử dụng để dò tìm người và phân tích tư thế của cơ thể. Bên cạnh đó, đặc trưng về hình dạng của đối tượng cũng được sử dụng để phát hiện đối tượng [97]. Đặc trưng được sử phổ biến trong phát hiện đối tượng là biểu đồ hướng (gradient histogram). Đặc trưng này được tính trên một lưới dày cho toàn bộ bức ảnh [19] hoặc tại các vị trí
thưa như SIFT [54]. Trong đó thuật toán trích xuất điểm đặc trưng tích hợp SIFT [54] được sử dụng rất phổ biến cho bài toán nhận dạng đối tượng tổng quát. Phương pháp này có thể trích xuất ra một tập vector các điểm đặc trưng có tính bất biến, bền vững cao với các phép biến đổi hình học. Tính ổn định và bền vững đối với sự đa dạng của phép biến đổi ảnh khác nhau đã được cải thiện trong [42] tạo ra phiên bản PCA-SIFT. Ngoài ra bộ dò tìm vùng hiệp biến affine SURF [9] bắt nguồn từ SIFT được phát triển và sử dụng rộng rãi cho việc trích chọn và biểu diễn điểm đặc trưng.
Mặc dù các cách tiếp cận được đề cập ở trên có thể đạt được hiệu năng chấp nhận được trong một số ứng dụng chuyên biệt, tuy nhiên do cố định các thuộc tính trong điểm đặc trưng cho các tập dữ liệu khác nhau nên không tận dụng được đặc trưng riêng biệt của từng loại dữ liệu dẫn đến hiện tượng các đối tượng khác nhau có thể được biểu diễn bằng đặc trưng tương tự nhau. Nhược điểm này là vấn đề lớn cho các mô hình nhận dạng dựa trên điểm đặc trưng thô. Dù sử dụng các bộ dữ liệu lớn hơn hoặc các thuật toán phân lớp tốt hơn cũng không cải thiện được đáng kể chất lượng của các bộ dò tìm đối tượng.