1. Tổng quan về các phương pháp phát hiện mặt người
1.4.2 Hướng tiếp cận dựa trên thơng tin xuất hiện trong ảnh (Image-based
approach)
Hạn chế của hướng tiếp cận dựa vào đặc trưng của hình ảnh đĩ là khả năng nhận biết nhiều khuơn mặt trong một bức ảnh cĩ bối cảnh phức tạp là khơng cao cho dù đã cĩ nhiều nỗ lực cải tiến và nâng cao chất lượng dị tìm. Điều đĩ địi hỏi một phương pháp mới, một hướng tiếp cận mới để giải quyết vấn đề này. Và hướng tiếp cận dựa vào thơng tin hình ảnh là hướng tiếp cận cĩ thể đáp ứng nhu cầu đĩ.
Hầu hết các phương pháp trong hướng tiếp cận này đều sử dụng chung một kỹ thuật đĩ la kỹ thuật quét cửa sổ hay cịn gọi là kỹ thuật quét khung nhìn để nhận biết khuơn mặt. Thuật tốn quét cửa sổ sẽ dị tìm trong ảnh đầu vào tất cả các khuơn mặt cĩ thể cĩ trong ảnh. Kích thước của cửa sổ, hệ số lấy mẫu, kích thước của bước quét phụthuộc vào mục đích của phương pháp cũng như hiệu năng của hệ thống.
Nhận biết khuơn mặt dữa vào thơng tin hình ảnh được chia làm ba hướng nghiên cứu con chính đĩ là phương pháp khơng gian con tuyến tính, phương pháp dựa vào mạng neural và phương pháp thống kê.
1.4.2.1. Phương pháp khơng gian con tuyến tính (Linear Subspace
Methods)
Hình ảnh của khuơn mặt con người nằm trên một khơng gian con của toàn bộ khơng gian hình ảnh. Để thể hiện khơng gian con này, người ta cĩ thể sử dụng phương pháp về thần kinh, tuy nhiên vẫn cĩ vài phương pháp cĩ liên quan chặt chẽ hơn với phân tích thống kê độ biến thiên tiêu chuẩn cái mà cĩ thể ứng dụng được. Các kĩ thuật trong phương pháp này bao gồm phân tích thành phần chính (PCA principal component analysis), phân tích biệt số tuyến tính (LDA), và phân tích hệ số (FA).
Vào cuối những năm 80, Sirovich và Kirby phát triển một kĩ thuật sử dụng PCA để thể hiện hiêụ quả khuơn mặt con người. Đưa ra sự giống nhau giữa nhiều hình ảnh khuơn mặt khác nhau, kĩ thuật này đầu tiên tìm ra những thành phần cơ bản của sự phân bố trên khuơn mặt, thể hiện bằng eigenvectors của ma trận các biến của bố cục. Từng khuơn mặt trong một tập hợp các khuơn mặt sau đĩ cĩ thể tính xấp xỉ bằng sự kết hợp tuyến tính giữa những eigenvector lớn nhất, được biết tới như eigenfaces.
Turk và Pentland sau đĩ đã mở rộng kĩ thuật này cho nhận dạng khuơn mặt. Cách thức của họ khai thác tính tự nhiên căn bản của eigenfaces trên định dạng khuơn mặt. Bởi vì sự tái tạo khuơn mặt bằng các thành phần cơ bản của nĩ chỉ là sự gần đúng, sai số cịn dư được định nghĩa trong giải thuật như sự đo lường sơ bộ của mặt. Sai số cịn dư này cho ta dấu hiệu tốt của sự tồn taị của khuơn mặt thơng qua quan sát mức tối thiểu chung trên bản đồ khoảng cách.
Gần đây hơn, Moghaddam và Pentland đã phát triển xa hơn kĩ thuật này trong phạm vi xác suất. Khi sử dụng PCA để định dạng, người ta thường bỏ đi phần bù trực giao của khơng gian khuơn mặt (như đã đề cập trước đĩ). Moghaddam và Pentland phat hiện ra rằng điều này dẫn tới giả thiết khơng gian khuơn mặt cĩ mật độ khơng đổi, do đĩ họ mở rộng máy dị sự giống nhau tới cực đại, dùng cả khơng gian khuơn mặt và phần bù trực giao của nĩ để xử lí mật độ bất kì. Họ ghi nhận tỉ lệ định dạng là 95% trên tập hợp của 7000 hình ảnh khuơn mặt khi định dạng mắt trái. So sánh với máy dị DFFS thì tốt hơn rất nhiều. Khi dị đầu của 2000 hình ảnh khuơn mặt từ dữ liệu của FERET, tỉ lệ dị là 97%. Jebara và Pentland đã đưa kĩ thuật này vào hệ thống truy tìm khuơn mặt người dựa vào cả màu sắc, 3D và thơng tin về chuyển động. Một cách tiếp cận tương tự là PCA được áp dụng cho tập hợp khuơn mặt và mẫu giống khuơn mặt, cùng với tiêu chuẩn lựa chọn dựa vào tỉ lệ giống nhau.
Samal và Iyengar đưa ra cách dị khuơn mặt PCA dựa trên hình chiếu khuơn mặt. Thay vì khuơn mặt eigen, họ tạo ra hình chiếu eigen và kết hợp với
kĩ thuật xử lí hình ảnh tiêu chuẩn. Họ ghi nhận tỉ lệ dị là 92% trên tập hợp 129 hình ảnh (66 hình ảnh khuơn mặt thực và 63 hình ảnh thơng thường), trong đĩ khuơn mặt chiếm hầu hết hình ảnh.
1.4.2.2 Phương pháp dựa vào mạng Neural
Mạng neural đã trở thành một kỹ thuật phổ biến trong vấn đề nhận dạng khuơn mặt và tất nhiên là trong cả nhận biết khuơn mặt. Mạng neural ngày nay đã cĩ nhiều thay đổi so với sơ khai đơn giản MLP của nĩ.
Hệ thống dị tìm khuơn mặt thực hiện qua bốn bước chính [6]:
Ước lượng vị trí: việc dùng tiếp cận máy học, cụ thể là mạng neural, địi hỏi việc huấn luyện mẫu. Để giảm số lượng biến đổi trong ảnh huấn luyện dương, ảnh được canh biên với các ảnh khác để cực tiểu hố các biến đổi vị trí đặc trưng khuơn mặt. Khi thi hành chương trình, ta khơng biết chính xác các vị trí đặc trưng khuơn mặt, do đĩ khơng thể dùng chúng để định vị các ứng viên khuơn mặt tiềm năng. Thay vậy, ta dị tìm tồn diện ở mọi vị trí và tỷ lệ để tìm mọi vị trí ứng viên. Các cải tiến dị tìm tồn diện làm cho thuật tốn nhanh hơn, với tỷ lệ dị tìm giảm 10% đến 30%.
Tiền xử lý: Để giảm các biến đổi gây ra do chiếu sáng hay camera, ảnh được tiền xử lý với các thuật tốn chuẩn như cân bằng lược đồ để cải thiện độ sáng và độ tương phản trong ảnh.
Dị tìm: Các khuơn mặt tiềm năng đã chuẩn hố về vị trí, tư thế, và độ sáng trong hai bước đầu tiên được khảo sát để xác định chúng cĩ thực sự là khuơn mặt hay khơng. Quyết định này được thực hiện bằng mạng neural đã huấn luyện với nhiều ảnh mẫu khuơn mặt và khơng khuơn mặt. Quyết định: Kết hợp nhiều mạng để cĩ được một quyết định khách quan
nhất. Mỗi mạng học những điều khác nhau từ dữ liệu huấn luyện, và đưa ra các lỗi khác nhau. Các quyết định của chúng cĩ thể kết hợp dùng một
số heuristic đơn giản, làm tăng độ chính xác dị tìm khuơn mặt và ngăn chặn lỗi.
Hình 3: Sở đồ luồng xử lý các bước chính trong phát hiện khuơn mặt
Sơ đồ trên là thuật tốn dị tìm khuơn mặt thẳng trong ảnh xám, bằng cách sử dụng mạng noron. Thuật tốn thực hiện bằng cách áp dụng một hay nhiều
mạng neural trực tiếp với các phần của ảnh đầu vào, và phân xử các kết qủa của chúng. Mỗi mạng được huấn luyện để kết xuất một kết quả là cĩ hay khơng cĩ khuơn mặt.
Huấn luyện mạng neural để dị tìm khuơn mặt là một cơng việc đầy thách thức, vì khĩ khăn trong việc biểu thị các ảnh “khơng khuơn mặt”. Khơng như việc nhận dạng khuơn mặt, trong đĩ các lớp phân biệt là các khuơn mặt khác nhau. Hai lớp gọi là phân biệt trong dị tìm khuơn mặt là “ảnh cĩ chứa khuơn mặt” và “ảnh khơng chứa khuơn mặt”. Dễ dàng lấy được mẫu ảnh chứa khuơn mặt điển hình, nhưng việc lấy mẫu ảnh khơng chứa khuơn mặt điển hình khĩ hơn rất nhiều. Ta tránh việc dùng tập huấn luyện cĩ kích thước lớn để biểu diễn khơng khuơn mặt bằng việc chọn thêm ảnh vào tập huấn luyện khi tiến hành huấn luyện. Phương pháp “bootstrap” nhằm giảm kích thước của tập huấn luyện cần thiết. Việc dùng cách thức xử lý giữa đa mạng và các heuristic để làm rỏ ràng các kết qủa và cải thiện đáng kể độ chính xác của bộ dị tìm.
1.4.2.3. Hướng tiếp cận sử dụng phương pháp thống kê (Statistical
Approachs)
Bên cạnh phương pháp sử dụng khơng gian con tuyến tính và phương pháp sử dụng mạng Nơron, cịn cĩ một số phương pháp khác tiếp cận theo hướng thống kê để nhận biết khuơn mặt. Những phương pháp này dựa trên cơ sở lý thuyết thơng tin, lý thuyết về SVM (Support Vector Machine) và các luật xác suất của Bayes.
SVM là phương pháp do Vladimir N. Vapnik đề xuất năm 1995. SVM dựa trên lý thuyết thống kê và ngày càng được sử dụng phổ biến trong nhiều lĩnh vực, đặc biệt là trong lĩnh vực phân loại mẫu và nhận dạng mẫu. Đồng thời phương pháp này cĩ nhiều tính năng ưu việt so với các phương pháp cổ điển khác như dễ dàng xử lý, xử lý cĩ tính ổn định cao trên dữ liệu phức tạp, cĩ thể cĩ số chiều lớn và quan trọng hơn cả là khả năng xử lý tổng quát.
Phưong pháp tìm kiếm khuơn mặt dựa trên mơ hình Markov ẩn cũng là một trong các hướng nghiên cứu được chú trọng. Mơ hình Markov ẩn là một tập các mơ hình thống kê được sử dụng để mơ tả các đặc tính thống kê của tín hiệu. Lý thuyết về chuỗi Markov và mơ hình Markov đã được nghiên cứu sâu rộng và áp dụng nhiều trong lý thuyết nhận dạng như nhận dạng tiếng nĩi, chữ viết. Samarie và cộng sự, Netfian và cộng dự là hai nhĩm nghiên cứu hàng đầu trong việc áp dụng mơ hình Markov ẩn vào tìm kiếm và nhận dạng mặt người.