Do nhận dạng khuôn mặt người khơng phải là một nhiệm vụ khó đối với con người nên việc chọn các bộ lọc Gabor là hợp lý cho vấn đề này. Các bộ lọc Gabor, mơ hình các phản ứng của các tế bào đơn trong vỏ não nguyên thủy, là những song phẳng đơn giản được thu hẹp bởi hàm bao Gauss.
Ta thấy rằng, một Gabor wavelet có ba đặc tính quan trọng là vị trí, hướng và tỉ lệ. Do đó, khi áp dụng Gabor wavelet để rút trích đặc trưng trên ảnh chúng ta cần phải xác định rõ hai tham số quan trọng là hướng và tỉ lệ.
Tuy nhiên, vấn đề xác định hai tham số trên vẫn cịn là một vấn đề mở. Vì hiện nay, chưa có một báo cáo nào cho thấy với mỗi ứng dụng cụ thể, trong đó, có thể sử dụng Gabor wavelvet để trích các đặc trưng nên chọn hướng và tỉ lệ như thế nào? Bao nhiêu hướng, bao nhiêu tỉ lệ có thể chọn? Và giá trị của chúng là bao nhiêu? Chẳng hạn, trong lĩnh vực nhận dạng chữ viết tay bằng tiếng Anh, các tác giả sử dụng tối đa 16 Gabor wavelet (chọn 4 hướng và 4 tỉ lệ).
Trong các ứng dụng về nhận dạng mặt người, số lượng các bộ lọc Gabor được chọn còn tùy thuộc vào tập ảnh mà chúng ta sử dụng cũng như tùy thuộc vào sự khác nhau của các ứng dụng. Tuy nhiên, thơng thường thì người ta thường sử dụng 40 bộ lọc (8 hướng và 5 tỉ lệ khác nhau) [5, 7, 10, 11, 12, 18, 19]. Do đó, trong luận văn này chúng tơi cũng sử dụng 40 bộ lọc như trên để tìm ra các vectơ đặc trưng Gabor của ảnh khuôn mặt.
Sau đây, chúng ta sẽ nhắc lại định nghĩa các Gabor wavelet và xem xét một số vấn đề liên quan đến việc chọn hướng và tỉ lệ và một số thông số khác cho Gabor wavelet.
Các Gabor wavelet , (còn gọi là bộ lọc Gabor hay nhân Gabor) được xác định như sau: 2 2 , 2 2 , 2 , 2 2 , ( ) 2 k z ik z k z e e e − − = − (2.10)
Trong đó, z = (x,y) là một điểm trong khơng gian hai chiều. Các tham số và được định nghĩa lần lượt là hướng và tỉ lệ của nhân Gabor, σ là độ lệch chuẩn của phân phối Gauss, ||.|| là tốn tử tính chuẩn. Một Gabor wavelet có ba thuộc tính quan trọng là: vị trí, hướng và tỉ lệ.
Một vectơ sóng k , được xác định như sau, ,
i v v k k e = . Trong đó kmax k f = là tần số của sóng, 8
= là hướng của sóng, với kmax là tần số tối đa của sóng,
f là hệ số khoảng cách giữa các nhân trong miền tần số. Các Gabor wavelet được tạo ra từ một bộ lọc bằng cách thay đổi các hướng và tỉ lệ của vectơ k , .
Trong luận văn, chúng tôi đề xuất sử dụng 8 hướng khác nhau và 5 tỉ lệ khác nhau để tạo thành 40 bộ lọc Gabor, cụ thể {0,..., 7} và {0,..., 4}. Ngoài ra, các thông số σ, kmax và f thường được chọn để xây dựng một Gabor wavelet như sau: =2 , max
2
k =
, f = 2. Với sự lựa chọn hướng và tỉ lệ như vậy,
chúng ta có được tất cả 40 bộ lọc Gabor để biểu diễn cho ảnh khn mặt, hình 2.5. Một ảnh được biểu diễn bằng biến đổi Gabor wavelet cho phép mô tả cấu trúc tần số không gian lẫn các liên kết không gian. (Xin lưu ý: Tần số khơng gian là một đặc tính của một cấu trúc bất kỳ tuần hồn quanh một vị trí nào đó trong khơng gian. Nó như một độ đo để đo sự lặp lại của cấu trúc trên một đơn vị khoảng cách). Việc “cuộn” ảnh bằng bộ lọc Gabor phức theo 5 tần số khơng gian – hay cịn gọi là tỷ lệ (v=0,1,..., 4) và 8 hướng (=0,1,..., 7) sẽ chụp được toàn bộ phổ tần số, kể cả biên độ và pha. Trong hình 2.6, ảnh đầu vào mặt người và các biên độ của phản ứng của bộ lọc Gabor được thể hiện.
Như vậy, với bộ lọc Gabor, ta đã có thể rút trích được các đặc trưng tiêu biểu đại diện cho ảnh, ta gọi chúng là các đặc trưng Gabor. Lợi ích của đặc trưng Gabor là nó diễn đạt được tri thức về các đối tượng trong ảnh (bởi vì nó biểu diễn mối liên hệ giữa các bộ phận của đối tượng), điều mà bản thân từng điểm ảnh
Biến thiên hướng
(b)
Hình 2.5 – Phần thực của 40 bộ lọc Gabor theo 5 tỉ lệ và 8 hướng.
Biến thiên tần số Biến thiên tần số
Biến thiên hướng
(a)
không diễn đạt được. Bước tiếp theo, ta dùng phương pháp AdaBoost để lựa chọn các đặc trưng quan trọng nhất vì số đặc trưng rút trích được là rất lớn. Trong phần 2.2 sẽ cho ta một cái nhìn tổng quan về phương pháp học AdaBoost.
Hình 2.6 – Ví dụ của ảnh mặt người phản ứng trên bộ lọc Gabor, (a) ảnh mặt người gốc; (b) phản ứng của bộ lọc.