Hướng tiếp cận này có nhiều phương pháp khác nhau để khai thác đặc trưng khuôn mặt từ cấp thấp đến cấp cao như sau:
(1)Đặc trưng hình dạng.
(2)Đặc trưng biểu đồ mật độ mức thấp.
(3)Đặc trưng dựa vào bộ lọc Gabor.
(4)Đặc trưng túi từ BoW.
(5)Đặc trưng cấp cao.
(6)Đặc trưng phân cấp.
(7)Đặc trưng bộ phận.
2.1.1.1 Đặc trưng hình dạng
Đặc trưng hình dạng được sử dụng thường xuyên nhất của tập các điểm trên khuôn mặt. Các điểm này biểu diễn hình dạng chính của khuôn mặt như: đường biên khuôn mặt, chân mày, sống mũi, miệng và mắt. Đặt trưng được biễu diễn thông qua việc kết nối các tọa độ này với nhau [26], như hình 2.1.
Hình 2.1: Đặc trưng hình học [29].
Đặc trưng này không bị ảnh hưởng bởi ánh sáng vì cường độ ánh sáng của các điểm ảnh bị bỏ qua. Tuy nhiên, sự biến đổi của ánh sáng có thể làm giảm độ chính xác trong việc xác định các điểm mặt. Người ta có thể sử dụng khoảng cách giữa mốc trên khuôn mặt chứ không sử dụng khoảng cách giữa các điểm mặt [27] . Khi đó, bộ miêu tả có thể
10
là khoảng cách giữa các thành phần trên khuôn mặt như khoảng cách và góc độ mô tả việc đóng hay mở mắt và miệng, và các nhóm điểm mô tả trạng thái của má. Cách làm này sử dụng nhiều hơn để nhận biết sựthay đổi về trạng thái của khuôn mặt như là sự nhận dạng cảm xúc [28].
2.1.1.2 Đặc trưng biểu đồ mật độ mức thấp
Phương pháp này sẽ tính toán đặc trưng cục bộ và mã hóa thành ảnh mới. Sau đó, phân ảnh thành từng khối. Mỗi khối sẽ tính mật độ của từng đoạn giá trị mã. Đặc trưng kết quả là nối tất cả các vector mật độ của tất cả các khối.
Hình 2.2: Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [29]. Đặc trưng cấp thấp là bền vững với sự biến đổi của ánh sáng bởi vì nó tính dựa vào độ lệch mức xám trong vùng nhỏ. Thêm vào đó, biểu đồ mật độ được chuẩn hóa [30] nên bền vững với nhiều trường hợp thay đổi độ sáng khác nhau. Cách biểu diễn này bền vững với việc huấn luyện ảnh lỗi vì biểu đồ mật độ có thể phủ nhiều trường hợp ảnh được thu nhận với tư thế dịch chuyển, xoay và tỉ lệ. Biểu đồ mật độ ở mức độ thấp không
11
đánh giá được thay đổi biểu hiện trạng thái khuôn mặt bởi sự thiên lệch về nhận dạng, vì phương pháp biểu diễn này kiểm tra các tín hiệu liên quan đến nhận dạng hơn là biểu hiện trên khuôn mặt [31], [32]. Cách biểu diễn này mã hóa thông tin mỗi thành phần bằng biểu đồ mật độ từng vùng độc lập với các vùng khác của khuôn mặt. Đặc trưng biểu đồ mật độ ở mức thấp tính toán đơn giản và cho phép hoạt động trong thời gian thực [33], [34].
Hướng tiếp cận biểu diễn biểu đồ mật độ mức độ thấp có 2 phương pháp được sử dụng phổ biến và được đánh giá cao là : (1) Mô hình mẫu nhị phân cục bộ (LBP) và (2) Mô hình lượng tử hóa cục bộ (LPQ).
Đặc trưng LBP biểu diễn sự biến đổi mức xám trong một vùng tròn bằng một số nguyên. Biểu đồ mật độ LBP đơn giản là đếm số lượng từng loại số nguyên nên kích thước đặc trưng phụ thuộc vào phạm vi các số nguyên. Phạm vi phổ biến của LBP là [0; 255]. Ahonen et al. [31] cho thấy rằng có thể sử dụng kích thước để biểu diễn các mẫu, nó hoạt như bộ phát hiện cạnh [35].
Bộ mô tả LPQ đã được đề xuất để làm mờ các điểm ảnh nhạy cảm thông qua sự chuyển đổi Fourier cục bộ [36]. Tương tự như LBP, LPQ mô tả một nhóm biểu đồ mật độ cục bộ với một sốnguyên dao động trong [0; 255]. Biểu đồ cục bộ chỉ đơn giản đếm các mẫu LPQ, và kích thước của mỗi biểu đồ là 256 [36].
LBP và LPQ được so sánh về hiệu quả nhận dạng trong một số nghiên cứu, và LPQ thường tốt hơn LBP [37], [38]. Điều này có thể do kích thước của mô tả cục bộ, vì LBP thường được chiết xuất từ các vùng nhỏ hơn có đường kính 3 pixel, trong khi LPQ được trích xuất từ các vùng lớn hơn 7 x 7 pixel [37], [38]. LBP gây mất thông tin khi trích xuất từ các vùng lớn hơn khi chúng bỏ qua những điểm ảnh nằm trong vùng tròn. Ngược lại, các số nguyên LPQ mô tả các vùng một cách tổng thể.
12
2.1.1.3 Biểu diễn đặc trưng bằng bộ lọc Gabor
Một biểu diễn khác dựa trên các đặc trưng cấp thấp là biểu diễn Gabor. Đặc trưng Gabor thu được bằng cách tích hợp ảnh đầu vào với các bộ lọc Gabor có tỉ lệvà hướng khác nhau (hình 2.3) [39]. Bộ lọc Gabor mã hóa thông tin kết cấu mẫu cục bộ trong từng vùng ảnh. Kích thước của đầu ra là lớn do vậy bước giảm số chiều là cần thiết. Vì các điểm ảnh được lọc bằng Gabor chứa thông tin liên quan đến các điểm ảnh gần nó nên kỹ thuật giảm thiểu kích thước đơn giản là sử dụng giá trị tối thiểu, tối đa và tổng hợp giữa các kết quả của các bộ lọc. Bộ lọc Gabor tính toán sự khác biệt mức xám trong một vùng cục bộ nên nó bền vững với nhiễu ánh sáng [39], [40].
Hình 2.3: Biễu diển đặc trưng dựa vào bộ lọc Gabor [29].
Tương tự như biểu đồ mật độ mức thấp, đặc trưng Gabor chứa thông tin phục vụ cho việc nhận dạng phân biệt cá nhân hơn là phân biệt biểu hiện trạng thái khuôn mặt [39]. Đặc trưng này bền vững với lỗi mẫu đăng ký bởi vì bộ lọc làm trơn và giá trị kết quả lọc bền vững với dịch chuyển và xoay trong một vùng nhỏ [41]. Bền vững với lỗi đăng ký ít mẫu có thể được tăng thêm bằng cách kết hợp với hướng tiếp cận chiếu không gian con. Bộ lọc Gabor có nhược điểm là độ phức tạp tính toán cao vì áp dụng bộ lọc nhiều lần, theo nhiều hướng và tỉ lệ khác nhau [39].
2.1.1.4 Biểu diễn đặc trưng túi từ BoW
Đặc trưng BoW miêu tả các vùng cục bộ bằng các rút trích đặc trưng cục bộ (ví dụ SIFT) tại các vị trí cố định, sau đó so sánh các đặc trưng này với các mẫu đặc trưng có sẵn trong cơ sở dữ liệu (túi từ) để nhận biết các từ tưng ứng [42]. Biểu diễn đặc trưng
13
này kế thừa ưu điểm của đặc trưng SIFT là bền vững với sự biến đổi ánh sáng và lỗi đăng ký nhỏ. Đặc trưng này sử dụng phép so khớp theo hình tháp [43], một kỹ thuật thực hiện kết hợp biểu đồ mật độvà tăng khảnăng chịu lỗi huấn luyện ảnh. Biểu đồ so khớp này mã hóa thông tin với nhiều tỉ lệ và nhiều lớp khác nhau. Đặc trưng này có kích thước rất cao và do đó khái quát hóa các đặc trưng cần thiết để giảm kích thước. Mặc dù tính toán đặc trưng SIFT đơn giản, nhưng chi phí tính toán các từ dựa vào việc tìm kiếm nên phụ thuộc vào kích thước cơ sở dữ liệu từ và thuật toán tìm.
Hình 2.4: Biểu diễn đặc trưng túi từ BoW [29].
2.1.1.5 Biểu diễn cấp cao dẫn xuất từ dữ liệu
Tất cả các biểu diễn đặc trưng nêu trên đều mô tả kết cấu cục bộ (xem hình 2.1, 2.2, 2.3 và 2.4). Nói một cách khác, các đặc trưng này mã hóa thông tin các cạnh. Mục đích hướng tiếp cận này là nhận được đặc trưng cấp cao hơn từ thông tin ngữ nghĩa của các đặc trưng mã hóa. Hai phương pháp tạo ra các biểu diễn như vậy là NMF [44], [45] và mã hóa phân rã [46], [47].
14
Phương pháp NMF phân rã một ma trận thành hai ma trận không âm. Sự phân rã không phải là duy nhất và nó có thể được thiết kế để có các ngữ nghĩa khác nhau. Một kỹ thuật dựa trên NMF là kỹ thuật bảo toàn đồ thị GP-NMF [46], nó phân chia các mặt thành các thành phần không gian độc lập thông qua ràng buộc phân rã không gian [48]. Sự phân chia thành các thành phần độc lập để mã hóa thông tin cấu thành, và có thể là thông tin cấu hình (Hình 2.5). NMF tạo ra một số hình ảnh cơ sở và đặc trưng chính là các hệ số ứng với mỗi hình ảnh cơ bản (Hình 2.6). Phương pháp này thực hiện tối thiểu hóa để tính toán các hệ số, do đó độ phức tạp tính toán của nó thay đổi dựa trên thuật toán tối ưu, sốlượng và kích thước của các hình ảnh cơ bản. Vì NMF dựa vào tập dữ liệu huấn luyện nên phương pháp này có thể chống lại nhiễu chiếu sáng và lỗi đăng ký.
Lý thuyết về mã hoá phân rã được dựa trên ý tưởng rằng bất kỳ hình ảnh nào cũng có thể phân rã trong một số miền nào đó [49]. Sự chuyển đổi có thể là chuyển đổi thích nghi (ví dụ dẫn ra từ dữ liệu) hoặc chuyển đổi không thích nghi (ví dụnhư biến đổi Fourier) và dựa vào từ điển [49]. Tính linh hoạt của định nghĩa từ điển cho phép các nhà nghiên cứu tự do định nghĩa từ điển. Các phần tử trong từ điển có thể diễn giải theo ngữ nghĩa. Biểu diễn được hình thành bằng cách nối các hệ số của các phần tử từ điển (Hình 2.6). Độ phức tạp của thuật toán phụ thuộc vào thuật toán tối ưu và kích cỡ từ điển.
Hình 2.6: Đặc trưng mã hóa phân rã [29].
2.1.1.6 Các biểu diễn đặc trưng phân cấp
Biểu diễn cấp thấp rất tốt để tránh ảnh hưởng bởi ánh sáng và lỗi đăng ký. Mặt khác, các biểu diễn cấp cao có thể tạo ra các đặc trưng có khả năng diễn giải theo ngữ nghĩa.
15
Các biểu diễn phân cấp mã hóa thông tin một cách từ thấp đến cao. Mô hình được xây dựng tốt nhất cho các mô hình phân cấp là học sâu [44], [15]. Các mô hình phân cấp có thểđược thiết kế một cách đơn giản bởi các biểu diễn cấp thấp và cấp cao được thiết lập tốt như các bộ lọc Gabor và biểu diễn mã hóa phân rã [50]. Học sâu là một mô hình học phân tầng đa lớp đặc trưng từ dữ liệu [44]. Nói chung tổng thể chứa ít nhất hai lớp cấp thấp. Lớp đầu tiên thu hẹp hình ảnh đầu vào với một số bộ lọc cục bộ đã đọc từ dữ liệu và lớp thứ hai tập hợp đầu ra thông ra các hoạt động chung. Các lớp ở cấp cao có thể được thiết kế cho các mục đích khác nhau như giải quyết ảnh có vật che khuất. Các bộ lọc ở mức thấp thường là các bộ lọc làm trơn để tính toán sự khác biệt cục bộ, do đó chúng bền vũng những biến đổi ánh sáng và lỗi đăng ký tốt hơn. Sử dụng nhiều ảnh huấn luyện cải thiện các lỗi đăng ký.
2.1.1.7 Biểu diễn dựa vào các bộ phận
Hình 2.7: Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [29]. Hướng tiếp cận này phân tích khuôn mặt thành các thành phần độc lập rồi mã hóa thông tin từng thành phần. Đặc trưng này loại bỏ thông tin mối quan hệ giữa các bộ phận (Hình 2.7). Bỏ qua các mối quan hệ không gian giữa các bộ phận làm giảm ảnh hưởng đối với sự thay đổi tư thế của đầu. Phương pháp này đã được chứng minh đạt hiệu quả nhận dạng khi sự biến đổi tư thế đầu xuất hiện nhiều [51], [52].
16
Hai phương pháp tiêu biểu cho hướng tiếp cận này là: (1) Biểu diễn thành phần dựa vào đặc trưng SIFT (Hình 2.7a) và Biểu diễn đặc trưng thành phần dựa vào NMF [51] (Hình 2.7 b).