CƠ SỞ LÝ THUYẾT
Giới thiệu chung về lĩnh vực phát hiện khuôn mặt
Giới thiệu chung về lĩnh vực phát hiện khuôn mặt
Giới thiệu 1.1 Bài toán 1.2 Những tham số của hình ảnh khuôn mặt 1.3
Tư tưởng chung của các phương pháp 1.5
Vị trí và kích thước của các khuôn mặt trong ảnh
Bộ phát hiện khuôn mặt Ảnh đầu vào
Phát hiện khuôn mặt là ứng dụng cốt lõi trong lĩnh vực phát hiện đối tượng, đóng vai trò là bước đầu tiên trong hệ thống nhận dạng khuôn mặt tự động Ứng dụng này không chỉ quan trọng trong an ninh và sinh trắc học mà còn tạo ra giao diện mới giữa người và máy tính, mở ra nhiều cơ hội cho các ứng dụng thiết thực khác.
Mục tiêu của phát hiện khuôn mặt là xác định vị trí và kích thước của khuôn mặt con người trong cả hình ảnh tĩnh và hình ảnh động.
Phát hiện khuôn mặt là công nghệ xác định vị trí và kích thước khuôn mặt trong ảnh số, giúp nhận diện các chi tiết khuôn mặt mà không bị ảnh hưởng bởi các đối tượng khác như nhà cửa hay cây cối.
Trong những năm gần đây, nhiều phương pháp đã được phát triển để đáp ứng các yêu cầu khác nhau Bài viết này sẽ tổng quan những điểm chính của từng phương pháp và tập trung vào một giải thuật cho phép phát hiện khuôn mặt nhanh chóng và chính xác Giải thuật này dựa trên thuật toán boosting có tên AdaBoost (Adaptive Boost) và các đặc điểm Haar, được đề xuất và phát triển bởi hai nhà nghiên cứu Paul Viola và Michael Jones.
Bộ phát hiện khuôn mặt nhận đầu vào là một ảnh tĩnh và có nhiệm vụ xác định vị trí cũng như kích thước của tất cả các khuôn mặt có trong ảnh Điều này được thực hiện bất kể vị trí, kích thước, tư thế chụp, nét mặt hay độ tuổi của các khuôn mặt.
Giải quyết bài toán nhận diện khuôn mặt thường được thực hiện bằng cách kết hợp bộ quét ảnh với bộ quyết định khuôn mặt và không phải khuôn mặt Bộ quét ảnh sẽ quét hình ảnh ban đầu ở nhiều vị trí và kích thước khác nhau Tại mỗi vị trí và kích thước, vùng ảnh tương ứng sẽ được đưa vào bộ quyết định để xác định xem đó có phải là khuôn mặt hay không.
Bộ quét có thể được xây dựng đơn giản bằng cách quét tuần tự từ trái qua phải và từ trên xuống dưới hình ảnh gốc với cửa sổ có kích thước thay đổi Một số phương pháp cải thiện việc quét ảnh bằng cách giới hạn vùng quét, thực hiện qua việc lọc ảnh dựa trên các dấu hiệu như màu sắc cơ thể và chuyển động của đối tượng Tuy nhiên, bộ quyết định mới đang được phát triển để tối ưu hóa quy trình này.
1.3 Những tham số của hình ảnh khuôn mặt
Khuôn mặt con người rất đa dạng, dẫn đến sự phong phú trong hình ảnh thu nhận từ khuôn mặt Một số tham số quan trọng có thể được chỉ ra từ những hình ảnh này.
Góc quay xung quanh trục thẳng đứng đóng vai trò quan trọng trong việc tạo nên tính đối xứng của khuôn mặt Khi góc quay này thay đổi, nó không chỉ làm che lấp một bên mắt mà còn làm biến đổi hình ảnh hiển thị của các chi tiết khác trên khuôn mặt, tạo ra một góc nhìn mới và độc đáo.
Góc quay xung quanh trục nằm ngang ảnh hưởng đến tư thế cúi hoặc ngẩng đầu của đối tượng trước máy quay Tham số này có thể tác động đến sự hiện diện của các chi tiết quan trọng trên khuôn mặt như đôi mắt, vùng trán và vùng miệng.
Góc quay quanh trục nối giữa khuôn mặt và máy quay không ảnh hưởng đến biểu hiện của các chi tiết trên khuôn mặt Tham số này có thể được khôi phục về vị trí thẳng đứng thông qua phép xử lý quay hình.
Tỷ lệ giữa kích thước các chiều của khuôn mặt
Cảm xúc của khuôn mặt, tham số này làm thay đổi hình ảnh hiển thị của những chi tiết trên khuôn mặt.
Bài toán tổng quát có thể được chia nhỏ thành nhiều bài toán con khác nhau:
Xét về tham số góc quay của khuôn mặt, ta có bài toán phát hiện khuôn mặt trực diện và phát hiện khuôn mặt đa góc nhìn.
Trong lĩnh vực nhận diện khuôn mặt, có hai bài toán chính cần xem xét: phát hiện khuôn mặt trên hình ảnh đơn lẻ và phát hiện khuôn mặt trên chuỗi hình ảnh động.
Xét về kích thước khuôn mặt, ta có bài toán phát hiện khuôn mặt kích thước cố định và phát hiện khuôn mặt đa kích thước.
1.5 Ý tưởng chung của các phương pháp
Giải quyết bài toán tổng quát là một thách thức lớn và hiện chưa có giải pháp hoàn chỉnh Trong những năm gần đây, nhiều phương pháp đã được đề xuất và phát triển, mỗi phương pháp mang đến một cách tiếp cận riêng để giải quyết bài toán theo các tiêu chí cụ thể.
Có thể phân nhóm thành hai hướng tiếp cận chính:
Những phương pháp dựa trên hình ảnh khuôn mặt (image-based approaches).
Những phương pháp dựa trên cấu trúc hình học của khuôn mặt (geomatrical- based approaches).
Phương pháp đầu tiên tập trung vào việc phát triển các bộ phân lớp được huấn luyện trên một tập dữ liệu mẫu, bao gồm ảnh khuôn mặt đã chuẩn hóa và ảnh không chứa khuôn mặt, được gọi là ảnh không-phải-là-mặt Sau khi hoàn tất quá trình huấn luyện, các bộ phân lớp này sẽ được áp dụng để xác định xem vùng ảnh trong cửa sổ quét có thuộc về lớp khuôn mặt hay lớp không-phải-là-mặt.
Cách tiếp cận thứ hai trong nhận diện khuôn mặt tập trung vào việc phát hiện các đặc điểm đặc trưng như mắt, mũi và miệng trong toàn bộ ảnh hoặc trong một vùng ảnh nhất định Sau khi các chi tiết này được xác định, chúng sẽ được so khớp với một mô hình khuôn mặt mẫu dựa trên cấu trúc hình học tổng thể của khuôn mặt, từ đó đưa ra dự đoán về việc vùng ảnh đó có phải là khuôn mặt hay không.
Tìm hiểu một số phương pháp
Tìm hiểu một số phương pháp
Những phương pháp dựa trên hình ảnh khuôn mặt 2.1
Những phương pháp dựa trên cấu trúc khuôn măt 2.2 Đánh giá chất lượng các phương pháp 2.3
2.1 Những phương pháp dựa trên hình ảnh khuôn mặt
Tư tưởng chung của các phương pháp
Các phương pháp này nhằm huấn luyện một bộ phân lớp có khả năng phân biệt hiệu quả giữa các cửa sổ có chứa khuôn mặt và những cửa sổ không có khuôn mặt, thông qua việc học từ một tập hợp các hình ảnh mẫu đã được xác định trước.
Ảnh khuôn mặt là những hình ảnh được chuẩn hóa về vị trí và kích thước, trong khi ảnh không-phải-là-mặt không chứa khuôn mặt Các chi tiết đặc trưng như mắt và miệng trong ảnh khuôn mặt thường được căn chỉnh ngang hàng với nhau.
Chiến lược Boot-strapping để mở rộng và nâng cao chất lượng tập ảnh mẫu [2]
Việc lựa chọn ảnh khuôn mặt phù hợp cho tập mẫu có thể dựa vào cảm nhận của người nghiên cứu, nhưng điều này gặp khó khăn với ảnh không-phải-là-mặt do sự đa dạng vô hạn của chúng Không thể xác định tiêu chí cụ thể nào cho ảnh không-phải-là-mặt, nên chiến lược Boot-strapping được đề xuất bởi hai nhà nghiên cứu Sung và Poggio giúp xây dựng tập ảnh này chỉ với những ảnh đặc trưng nhất.
Việc bắt đầu với một tập ảnh mẫu chứa một số ảnh không phải là mặt là bước đầu tiên quan trọng Bộ phân lớp sẽ được huấn luyện trên tập mẫu này và sau đó thử nghiệm trên các ảnh mẫu Những phát hiện sai trong quá trình thử nghiệm sẽ được thu thập và bổ sung vào tập ảnh không phải là mặt Sau đó, bộ phân lớp sẽ được huấn luyện lại trên tập mẫu mới Quá trình này sẽ tiếp tục lặp lại cho đến khi đạt được tỷ lệ phát hiện đúng và sai mong muốn hoặc khi tập ảnh mẫu đạt đến kích thước nhất định.
Chiến lược này có thể áp dụng để xây dựng tập ảnh khuôn mặt tương tự như cách thức hiện tại Những khuôn mặt trong ảnh thử nghiệm không được bộ phân lớp chú ý sẽ được bổ sung vào tập ảnh mẫu, từ đó nâng cao chất lượng và độ đa dạng của tập dữ liệu.
2.1.1.1 Tư tưởng của phương pháp
Giả sử là một vector kích thước N 2 1 tương ứng với ảnh đầu vào kích thước
N N Tư tưởng chung của phương pháp là tìm cách biểu diễn vector
trong một không gian có số chiều nhỏ hơn Φ−mean=w^ 1 u 1 +w 2 u 2 + +w K u K (K