Tổng quan quá trình tìm kiếm dựa vào AAM

Một phần của tài liệu (LUẬN văn THẠC sĩ) các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (Trang 51 - 53)

Với một dữ liệu huấn luyện cho trước, được xem như là một dữ liệu chuẩn, chúng ta mong muốn tìm kiếm mô hình trong dữ liệu ảnh sao cho sai số giữa nó với dữ liệu chuẩn là nhỏ nhất điều này đồng nghĩa với việc mô hình trên dữ liệu ảnh và dữ liệu huấn luyện là khớp nhất. Sự sai khác đó được ký hiệu là:

i m

I I I

  

Trong đó Iilà vecto độ xám của dữ liệu ảnh còn Im là vecto độ xám của mô hình huấn luyện.

Thay vì cực tiểu hóa tham số trên, ta tiến hành cực tiểu giá trị độ lớn của nó

2

|I |

  bằng việc biến đổi tham số c. Từ đây ta có thể hiểu rằng dù mô hình biểu diễn động có nhiều tham số, với những dữ liệu rất nhiều chiều. Nhưng việc khớp mô hình và dữ liệu ảnh có thể được quy về việc tối ưu thông số trên. Chính vì vậy việc xây dựng một cơ sở tri thức cho trước để hiệu chỉnh tham số trong quá trình tìm kiếm đối tượng, sẽ mang lại một thuật toán hiệu quả. Cụ thể hơn, để giải quyết vấn đề này chúng ta cần 2 bước:

Tìm ra mối quan hệ giữa Ivà lỗi trong mô hình tham số.

Sử dụng kiến thức ở điều thứ nhất cho vòng lặp của thuật toán tối

ưu hóa 2

|I|  

Mô hình biểu diễn động có tham số c, và được biểu diễn theo công thức

s g x x Q c g g Q c     (2.26)

Trong đó xlà giá trị trung bình của hình dạng, g là giá trị trung bình của kết cấu, QsQglà ma trận mô tả sự biến đổi của dữ liệu huấn luyện.

Hình dạng trong dữ liệu ảnhX , có thể được sinh ra bằng việc áp dụng phép biến đổi tới tập điểm x X: S xt( ). Thông thường Stlà phép xoay, co giãn theo tỷ lệ hoặc tịnh tiến. Để tuyến tính chúng ta biểu diễn phép xoay và co giãn theo tỷ lệ như sau( ,s sx y), trong đó sx (scos 1),syssin. Ta tiến hành xấp xỉ Stt( )xS St( t( ))x

Kết cấu trong dữ liệu ảnh được sinh ra bằng việc áp dụng giá trị cường độ gimT gu( ) ( u11)gimu21, trong đó u là vecto của tham số biến đổi, định nghĩa khi u0thì ta có thể xấp xỉ Tuu( )gT Tu( u( ))g

Tham số biểu diễn cvà tham số của hàm biến đổi t định ra vị trí của mô hình trên dữ liệu ảnh Xvà đây cũng là vùng quan tâm để trích xuất đặc trưng. Trong suốt quá trình so khớp chúng ta sẽ tiến hành lấy mẫu trên vùng quan tâm này với những vecto gim và tiến hành chiếu chúng trên mô hình kết cấu, gsT1(gim). Mô hình kết cấu của dữ liệu huấn luyện là gim  g Q cg . Do đó sự khác biệt trong đặc trưng kết cấu giữa dữ liệu ảnh và dữ liệu huấn luyện là

( ) s m

r pgg (2.27)

p là tham số của mô hình, pT (cT |tT |uT). Khai triển Taylor của công thức trên ta có:

( ) ( ) r r p p r p p p        (2.28)

Theo công thức trên khi ta cực tiểu hóa 2

| (r p p) | chúng ta có thể chọn giá trị δp theo công thức như sau:

1 ( ) ( ) T T r r r p Rr p where R p p p        

Một phần của tài liệu (LUẬN văn THẠC sĩ) các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (Trang 51 - 53)

Tải bản đầy đủ (PDF)

(69 trang)