Với một dữ liệu huấn luyện cho trước, được xem như là một dữ liệu chuẩn, chúng ta mong muốn tìm kiếm mô hình trong dữ liệu ảnh sao cho sai số giữa nó với dữ liệu chuẩn là nhỏ nhất điều này đồng nghĩa với việc mô hình trên dữ liệu ảnh và dữ liệu huấn luyện là khớp nhất. Sự sai khác đó được ký hiệu là:
i m
I I I
Trong đó Iilà vecto độ xám của dữ liệu ảnh còn Im là vecto độ xám của mô hình huấn luyện.
Thay vì cực tiểu hóa tham số trên, ta tiến hành cực tiểu giá trị độ lớn của nó
2
|I |
bằng việc biến đổi tham số c. Từ đây ta có thể hiểu rằng dù mô hình biểu diễn động có nhiều tham số, với những dữ liệu rất nhiều chiều. Nhưng việc khớp mô hình và dữ liệu ảnh có thể được quy về việc tối ưu thông số trên. Chính vì vậy việc xây dựng một cơ sở tri thức cho trước để hiệu chỉnh tham số trong quá trình tìm kiếm đối tượng, sẽ mang lại một thuật toán hiệu quả. Cụ thể hơn, để giải quyết vấn đề này chúng ta cần 2 bước:
Tìm ra mối quan hệ giữa Ivà lỗi trong mô hình tham số.
Sử dụng kiến thức ở điều thứ nhất cho vòng lặp của thuật toán tối
ưu hóa 2
|I|
Mô hình biểu diễn động có tham số c, và được biểu diễn theo công thức
s g x x Q c g g Q c (2.26)
Trong đó xlà giá trị trung bình của hình dạng, g là giá trị trung bình của kết cấu, Qsvà Qglà ma trận mô tả sự biến đổi của dữ liệu huấn luyện.
Hình dạng trong dữ liệu ảnhX , có thể được sinh ra bằng việc áp dụng phép biến đổi tới tập điểm x X: S xt( ). Thông thường Stlà phép xoay, co giãn theo tỷ lệ hoặc tịnh tiến. Để tuyến tính chúng ta biểu diễn phép xoay và co giãn theo tỷ lệ như sau( ,s sx y), trong đó sx (scos 1),sy ssin. Ta tiến hành xấp xỉ Stt( )x S St( t( ))x
Kết cấu trong dữ liệu ảnh được sinh ra bằng việc áp dụng giá trị cường độ gimT gu( ) ( u11)gim u21, trong đó u là vecto của tham số biến đổi, định nghĩa khi u0thì ta có thể xấp xỉ Tuu( )g T Tu( u( ))g
Tham số biểu diễn cvà tham số của hàm biến đổi t định ra vị trí của mô hình trên dữ liệu ảnh Xvà đây cũng là vùng quan tâm để trích xuất đặc trưng. Trong suốt quá trình so khớp chúng ta sẽ tiến hành lấy mẫu trên vùng quan tâm này với những vecto gim và tiến hành chiếu chúng trên mô hình kết cấu, gs T1(gim). Mô hình kết cấu của dữ liệu huấn luyện là gim g Q cg . Do đó sự khác biệt trong đặc trưng kết cấu giữa dữ liệu ảnh và dữ liệu huấn luyện là
( ) s m
r p g g (2.27)
p là tham số của mô hình, pT (cT |tT |uT). Khai triển Taylor của công thức trên ta có:
( ) ( ) r r p p r p p p (2.28)
Theo công thức trên khi ta cực tiểu hóa 2
| (r p p) | chúng ta có thể chọn giá trị δp theo công thức như sau:
1 ( ) ( ) T T r r r p Rr p where R p p p