Cỏc đặc trƣng đƣợc trớch chọn bởi phộp phõn tớch cấp thấp thƣờng khụng rừ ràng. Chẳng hạn, khi xỏc định vị trớ của khuụn mặt sử dụng mụ hỡnh màu da, những đối
28
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tƣợng nền cú màu tƣơng tự nhƣ màu da cũng đƣợc xỏc định là mặt. Trong nhiều phƣơng phỏp, ngƣời ta sử dụng cỏc cấu trỳc hỡnh học của mặt để xỏc định và phõn biệt cỏc đặc trƣng khỏc nhau của khuụn mặt trong điều kiện chỳng cũn chƣa rừ ràng. Hiện cú hai phƣơng phỏp tiếp cận sử dụng cấu trỳc hỡnh học của khuụn mặt. Phƣơng phỏp thứ nhất sử dụng chiến lƣợc tỡm kiếm đặc trƣng tuần tự dựa trờn vị trớ tƣơng đối giữa cỏc đặc trƣng của khuụn mặt. Sự tin cậy của một đặc trƣng đƣợc phỏt hiện đƣợc tăng cƣờng bằng cỏch phỏt hiện thờm cỏc đặc trƣng khỏc của khuụn mặt xung quanh nú. Phƣơng phỏp thứ hai nhúm cỏc đặc trƣng thành cỏc “chũm sao” (constellation) dựa trờn một số mụ hỡnh khuụn mặt khỏc nhau.
a. Tỡm kiếm đặc trƣng
Kỹ thuật tỡm kiếm đặc trƣng bắt đầu bằng việc xỏc định cỏc đặc trƣng nổi bật của khuụn mặt. Sau khi phỏt hiện đƣợc cỏc đặc trƣng nổi bật, dựa trờn kỹ thuật nhõn trắc học về cấu trỳc hỡnh học của khuụn mặt, ta cú thể dự đoỏn đƣợc cỏc đặc trƣng khỏc kộm nổi bật hơn. Chẳng hạn, với trƣờng hợp “một vựng nhỏ nằm trờn một vựng lớn hơn trong bối cảnh cú đầu và vai” là thể hiện “đầu người nằm trờn vai” và một cặp vựng tối tỡm thấy trong vựng nhỏ sẽ làm tăng khả năng vựng nhỏ vừa tỡm đƣợc là một mặt. Thụng thƣờng, đặc trƣng đƣợc sử dụng để làm tăng xỏc suất xuất hiện mặt là cặp mắt bởi chỳng luụn xuất hiện cạnh nhau. Cỏc đặc trƣng khỏc cũng đƣợc sử dụng cho mục đớch này là trục đối xứng của mặt, đƣờng nột của đầu và phần thõn.
Giải thuật trớch chọn đặc trƣng khuụn mặt xõy dựng bởi De Silva và cộng sự là một vớ dụ điển hỡnh cho phƣơng phỏp tỡm kiếm đặc trƣng. Giải thuật bắt đầu bằng việc phỏng đoỏn vị trớ đỉnh đầu và giải thuật tỡm kiếm bắt đầu duyệt từ vị trớ đấy đi xuống nhằm tỡm vị trớ của đụi mắt. Sự hiện diện của cặp mắt đƣợc xỏc định bằng sự tăng đột ngột mật độ cỏc biờn. Khoảng cỏch giữa đỉnh đầu và trục mắt đƣợc sử dụng nhƣ một khoảng cỏch tham khảo. Sử dụng khoảng cỏch này, một mẫu mặt bao gồm cỏc đặc trƣng của khuụn mặt nhƣ mắt, miệng đƣợc khởi tạo từ ảnh đầu vào. Mẫu đầu tiờn đƣợc khởi tạo dựa trờn kiến thức nhõn trắc học, khoảng cỏch tham khảo núi trờn và một số khuụn mặt cú sẵn trong cơ sở dữ liệu của hệ thống.
Khoảng cỏch nhõn trắc trung bỡnh đƣợc sử dụng trong thƣ̣c nghiờ ̣m của De Silva.
Bảng 2.1. Khoảng cỏch trung bỡnh trong thuật toỏn của De Silva.
29
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chiờ̀u cao của đầu Độ phõn tỏch của mắt Mắt đến mũi Mắt đến miệng Khoảng cỏch trung bình 1.972 0.516 0.303 0.556
Thuõ ̣t toán của De Silva đa ̣t đƣợc đụ ̣ chính xác là 82% (khoảng 30 ảnh trong cơ sở dƣ̃ liờ ̣u) với tṍt cả các đă ̣c trƣng của các ảnh đõ̀u và vai gõ̀n nhƣ nhìn thẳng (cú độ lờ ̣ch ± 300) trờn nờ̀n thuõ̀n nhṍt . Mă ̣c dù thuõ ̣t toán đã cụ́ gắng đờ̉ dò tìm đặc tính khuụn mă ̣t của các chủng tụ ̣c ngƣời khác nhau vì thuõ ̣t toán khụng dƣ̣a trờn các thụng tin vờ̀ mƣ́c xám và màu da , nhƣng thuõ ̣t toán đã khụng thờ̉ tìm kiờ́m chính xác các ảnh mă ̣t ngƣời đeo kính hoă ̣c có tóc che lờn trán.
Jeng và cộng sự đã đờ̀ xuṍt mụ ̣t hờ ̣ thụ́ng tìm kiờ́m mă ̣t và các đă ̣c tính mă ̣t cũng dƣ̣a trờn các khoảng cách nhõn trắc ho ̣c . Trong hờ ̣ thụ́ng này , cỏc vị trớ cú khả năng chƣ́a mă ̣t đƣợc xác đi ̣nh tƣ̀ trƣớc thụng qua xác đi ̣nh vi ̣ trớ của cặp mắt dựa trờn cỏc ảnh tiền xử lý đƣợc nhị phõn hoỏ . Với mụ̃i vùng ảnh có khả năng chƣ́a că ̣p mắt , thuõ ̣t toỏn sẽ tiếp tục dũ tỡm vị trớ của mũi , miờ ̣ng và lụng mày. Mụ̃i đă ̣c tính của mă ̣t có mụ ̣t hàm lƣợng giỏ đi kốm đƣợc sử dụng để xỏc định vựng cú khả năng cao nhất là mặt :
E = 0.5Emắt + 0.2Emiợ̀ng + 0.1Elụng mà y trái + 0.1Elụng mà y phải + 0.1Emũi
Với hờ ̣ thụ́ng này , tỷ lờ ̣ tìm kiờ́m thành cụng đƣợc thụng báo là 86% trờn tõ ̣p dƣ̃ liệu 114 ảnh chụp trong điều kiện chụp ảnh đƣợc điều chỉnh , nhƣng đƣợc đă ̣t theo các hƣớng khác nhau và trờn các nờ̀n ảnh lụ ̣n xụ ̣n.
Mụ ̣t thuõ ̣t toán tƣ̣ đụ ̣ng tìm kiờ́m các đă ̣c trƣng mă ̣t GAZE đƣợc đờ̀ xuṍt bởi Herper và cộng sự dƣ̣a trờn nguyờn lý vờ̀ chiờ́n lƣợc chuyờ̉n đụ ̣ng của mắt trong các hờ ̣ thụ́ng hỡnh ảnh ngƣời (Human Vision System). Cơ chờ́ trung tõm của thuõ ̣t toán là cơ chờ́ theo dõi cu ̣c bụ ̣ trong đó xem xét tuõ̀n tƣ̣ các vùng có khả năng chƣ́a các đă ̣c trƣng nụ̉i bõ ̣t nhṍt . Sau đú, mụ ̣t biờ̉u diờ̃n theo da ̣ng đa mƣ́c xám của các đă ̣c trƣng nụ̉i bõ ̣t đƣơ ̣c sinh ra sƣ̉ du ̣ng bụ ̣ lo ̣c Gaussian đa hƣớng . Cỏc đặc trƣng nổi bật nhất (với biờ̉u diờ̃n đụ ̣ nụ̉i bõ ̣t lớn nhṍt ) đƣợc trích ra sƣ̉ du ̣n g các đánh giá tƣ̀ thụ đờ́n tinh trờn biờ̉u đụ̀ biờ̉u diờ̃n đụ ̣ nụ̉i bõ ̣t. Bƣớc tiờ́p theo của thuõ ̣t toán là bƣớc cải thiờ ̣n trong đó đụ ̣ nụ̉i bõ ̣t của các vùng đã đƣợc trích ra sẽ bi ̣ giảm đi trong khi đụ ̣ nụ̉i bõ ̣t của đă ̣c trƣng có thờ̉ tiờ́p theo đƣơ ̣c gia tăng trong bƣớc lă ̣p kờ́ tiờ́p . Bằng cách áp du ̣ng thuõ ̣t toán lă ̣p đi
30
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
lă ̣p la ̣i trờn 50 ảnh mặt nhỡn thẳng cú độ phõn giải cao (khụng có ảnh nờ̀n ). Helper và cộng sự đã thụng báo t ỷ lờ ̣ dò tìm că ̣p mắt thành c ụng là 98% chỉ trong ba lần lặp đầu tiờn. Cỏc vựng đặc tớnh mặt tiếp theo nhƣ mũi và miệng cũng đƣợc tỡm ra trong cỏc lần lă ̣p tiờ́p theo . Vỡ cỏc ảnh mặt dựng để thử nghiệm trong thuật toỏn chứa cỏc ảnh mặt theo các hƣớng khỏc nhau và cú sự thay đổi nhỏ về điều kiện chiếu sỏng và tỉ lệ , nờn tỉ lờ ̣ tìm kiờ́m mă ̣t thành cụng cao nhƣ võ ̣y chỉ ra rằng thuõ ̣t toán khụng phu ̣ thuụ ̣c vào cỏc biến đổi của ảnh mặt . Hơn nƣ̃a, khụng giụ́ng nhƣ các thuõ ̣t t oỏn khỏc, thuõ ̣t toán này khụng dựa trờn thụng tin cụ thể liờn quan đến cỏc đặc tớnh mặt .
Chiờ́n lƣơ ̣c chuyờ̉n đụ ̣ng của mắt nhƣ trờn cũng là cơ sở của thuõ ̣t toán đƣợc đờ̀ xuṍt bởi Smeraldi và cộng sự, trong đó mụ ̣t mụ tả vờ̀ đích tỡm kiếm (că ̣p mắt) đƣợc xõy dƣ̣ng bởi đáp ƣ́ng Gabor trung bình tƣ̀ mụ ̣t lƣới lṍy mõ̃u võng ma ̣c đă ̣t ta ̣i că ̣p mắt của đụ́i tƣơ ̣ng trong tõ ̣p mõ̃u . Cỏc hàm Gabor hai chiều đƣợc sử dụng theo 6 hƣớng và 5 tõ̀n sụ́ khác nhau dùng tron g trích cho ̣n đă ̣c trƣng . Hàm Gabor nhỏ nhất đƣợc sử dụng ở trung tõm của lƣới lấy mẫu trong khi hàm lớn nhất đƣợc sử dụng tại cỏc vựng lệch ra bờn ngoài ta ̣i đó có các mõ̃u rời ra ̣c nhṍt . Đờ̉ tìm kiờ́m că ̣p mắt , mụ ̣t thuõ ̣t t oỏn tỡm kiờ́m dƣ̣a trờn chuyờ̉n đụ ̣ng mắt đƣợc sƣ̉ du ̣ng trong đó lƣới mõ̃u đƣợc đă ̣t ta ̣i mụ ̣t vi ̣ trí ngõ̃u nhiờn trong mă ̣t và sau đó chuyờ̉n dõ̀n tới các vi ̣ trí mà khoảng cách Euclide giƣ̃a cỏc điểm trong lƣới mẫu và cỏc điểm tr ờn đích tìm kiờ́m là nhỏ nhṍt . Lƣới mõ̃u sẽ đƣơ ̣c chuyờ̉n di ̣ch vòng quanh cho đờ́n khi đụ ̣ di ̣ch chuyờ̉n nhỏ hơn mụ ̣t ngƣỡng đi ̣nh trƣớc. Nờ́u đích khụng đƣợc tìm ra (cú thể rơi vào trƣờng hợp quỏ trỡnh tỡm kiếm xuất phỏt từ một vựng trống trong ảnh ) thỡ một điểm ngẫu nhiờn mới sẽ đƣợc sử dụng . Smeraldi và cộng sự đã thụng báo tìm kiờ́m chính xác vi ̣ trí că ̣p mắt của toàn bụ ̣ mụ ̣t cơ sở dƣ̃ liờ ̣u chƣ́a 800 ảnh nhỡn thẳng. Bờn ca ̣nh Smeraldi, đáp ƣ́ng Gabor cũng đƣợc sƣ̉ du ̣ng nhiờ̀u trong tìm kiờ́m mă ̣t và các đă ̣c tính mă ̣t.
Cỏc phƣơng phỏp tiếp cận khỏc đƣợc đề xuất để tỡm kiếm đặc tớnh mặt cũn bao gụ̀m phƣơng pháp hàm bán kính cơ sở và phƣơng pháp sƣ̉ du ̣ng thuõ ̣t toán tiờ́n hoá.
b. Phõn tớch chũm sao
Một số giải thuật đƣợc đề cập tới trong phần trờn dựa chủ yếu vào cỏc thụng tin heuristic cú đƣợc từ việc mụ hỡnh hoỏ cỏc khuụn mặt khỏc nhau trờn những điều kiện cụ thể. Nếu nhƣ vấn đề đặt ra tổng quỏt hơn, chẳng hạn nhƣ xỏc định cỏc khuụn mặt ở nhiều tƣ thế trong một nền ảnh phức tạp, thỡ phần lớn trong số những giải thuật trờn sẽ
31
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
gặp thất bại do tớnh cứng nhắc của chỳng. Cỏc kỹ thuật phỏt hiện mặt sau này đó cố gắng linh động hơn bằng cỏch nhúm cỏc đặc trƣng trong khuụn mặt, tƣơng tự nhƣ cỏc chũm sao, bằng cỏch sử dụng cỏc phƣơng phỏp mụ hỡnh hoỏ tốt hơn, chẳng hạn nhƣ phƣơng phỏp thống kờ.
Cú khỏ nhiều loại chũm sao đó đƣợc đề xuất. Burl và cộng sự sử dụng mụ hỡnh thống kờ cỏc đặc trƣng đƣợc phỏt hiện bởi bộ lọc Gaussian. Mụ hỡnh thống kờ về sắp xếp khụng gian của cỏc đặc trƣng cho phộp giải thuật cú khả năng phỏt hiện tốt hơn trong những điều kiện bị thay đổi về thể hiện (thiếu đặc trƣng, đầu nghiờng…). Cỏc mụ hỡnh mặt thống kờ cũng đƣợc sử dụng trong nhiều giải thuật. Theo đú, mặt đƣợc phõn thành nhiều lớp dựa trờn cỏc gúc nhỡn khỏc nhau. Sau đú, với mỗi lớp mặt này, lại đƣợc phõn nhỏ hơn nữa thành cỏc thành phần đặc trƣng. Trong quỏ trỡnh phỏt hiện mặt, cỏc đặc trƣng mặt đƣợc phỏt hiện bởi cỏc phộp xử lý cấp thấp (low - level), sau đú đƣợc nhúm lại. Quỏ trỡnh nhúm này đƣợc thực hiện cao dần, cho tới khi phỏt hiện đƣợc ảnh.
Cỏc phƣơng phỏp mụ hỡnh thống kờ mặt dựa trờn sự xuất hiện nhiều mặt cũng đó đƣơ ̣c đờ̀ xuṍt . Trong mụ hình của Yow và Cipolla , cỏc khuụn mặ t đƣợc phõn loa ̣i ra thành một vài lớp mặt nhỏ cú sự tƣơng đồng theo một cỏch nhỡn nào đú . Cỏc lớp này sau đó la ̣i đƣợc tiờ́p tu ̣c phõn lớp thành các lớp thành phõ̀n đă ̣c trƣng . Sau khi các đă ̣c trƣng mă ̣t đƣợc xác đi ̣nh tƣ̀ các xƣ̉ lý mức thấp dựa trờn biờn , sƣ̣ phõn lớp sau đó sẽ cho phép các lớp mă ̣t khác nhau đƣợc xác đi ̣nh mụ ̣t cách phõn cṍp bắt đõ̀u tƣ̀ phía thṍp nhṍt của sƣ̣ phõn lớp các mă ̣t. Phộp phõn lớp sẽ làm giảm đi một cỏch hiệu quả cỏc đặ c trƣng khụng chính xác sinh ra do nờ̀n khụng đụ̀ng nhṍt . Mụ ̣t ma ̣ng Bayes sẽ cho phép kờ́t hơ ̣p tụ̉ng quát các tìm kiờ́m riờng biờ ̣t của tṍt cả các lớp và làm cho giả thiờ́t vờ̀ vựng mặt đƣợc đảm bảo với độ tin cậy cao . Mụ ̣t tỷ lờ ̣ dũ tỡm 92% đƣợc thụng báo trờn thớ nghiờ ̣m với 100 ảnh chụp trong khung cảnh phũng thớ nghiệm . Thuõ ̣t toán có thờ̉ giải quyết đƣợc cỏc biến đổi nhỏ trong t ỷ lệ, hƣớng và điờ̉m nhìn của tƣ̀ng mă ̣t đụ̀ng thời với các trƣờng hợp c ú kớnh và thiếu đặc trƣng . Với cùng mụ ̣t chiờ́n lƣợc tìm kiờ́m nhƣ của Yow và Cipolla , với mụ ̣t sụ́ khác biờ ̣t nhỏ vờ̀ mụ hình mă ̣t và bụ ̣ dò tìm đă ̣c trƣng, Sumi và cộng sự đã đờ̀ xuṍt mụ ̣t hờ ̣ thụ́ng trong đó các thành phõ̀n mă ̣t đ ƣợc xử lý bởi cỏc tỏc tử song song dựa trong một mạng phõn tỏn . Hờ ̣ thụ́ng này cũng đa ̣t đƣợc tỷ lợ̀ thành cụng cao (94%) trong dò tìm các khuụn mă ̣t khác nhau.
32
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong hờ ̣ thụ́ng của Maio và Maltoni , cỏc ảnh đầu vào đƣợc chuyển th ành một ảnh hƣớng sử dụng toỏn tử dạng gradient qua một cửa sổ cục bộ (7x7 điờ̉m ảnh). Tƣ̀ ảnh hƣớng này, họ đó ỏp dụng phƣơng phỏp dũ tỡm mặt hai giai đoạn trong đú sử dụng phộp biển đổi Hough suy rộng và một tập 12 mõ̃u nhi ̣ phõn biờ̉u diờ̃n các nhúm mă ̣t . Phộp biến đổi Hough suy rộng đƣợc sử dụng để sinh ra cỏc vựng mặt ứng viờn thụng qua viờ ̣c tìm kiờ́m các đƣờng elip . Cỏc vựng ứng viờn sau đú đƣợc đƣa vào giai đoạn phự hợp mõ̃u đờ̉ quyờ́t định vựng đú là mặt hay khụng . Bởi vì tính hiờ ̣u quả trong cài đă ̣t và các vṍn đờ̀ vờ̀ thiờ́t kờ́ , đõy là mụ ̣t hờ ̣ thụ́ng da ̣ng thời gian thƣ̣c . Maio và Maltoni đã thụng báo dò tìm chính xác 69 trờn 70 ảnh (98,57%) mà khụng gặp cảnh bỏo lụ̃i nào. Cỏc ảnh mẫu đƣợc sử dụng chứa một mặt với cỏc kớch cỡ mặt và dạng của vựng nền thay đổi khỏc nhau . Phộp biến đổi Hough suy rộng cũng đó đƣợc sử dụng trong hờ ̣ thụ́ng của Schubert.
Hỡnh 2.2. Hờ ̣ thụ́ng tìm kiờ́m mặt của Maio và Maltoni
Trong các hờ ̣ thụ́ng nhõ ̣n da ̣ng , mụ ̣t trong các kỹ thuõ ̣t đƣợc sƣ̉ du ̣ng rụ ̣ng rãi là phƣơng pháp đụ́i sánh đụ̀ thi ̣ . Cỏc đồ thị lƣu trữ thụng tin đặc trƣng cục bộ vào cỏc vectơ đă ̣c trƣng ta ̣i các đỉnh và cỏc thụng tin hỡnh học vào cỏc cạnh (nụ́i kờ́t các đỉnh). Mụ ̣t vài hờ ̣ thụ́ng sƣ̉ du ̣ng phƣơng pháp đụ́i sánh đụ̀ thi ̣ gõ̀n đõy đƣợc thiờ́t kờ́ liờn quan đến tỡm kiếm khuụn mặt tự động nhƣng nhiệm vụ này khụng phải là mục đớch chớ nh của toàn bộ hệ thống , vỡ vậy chỉ cú một số kết quả định lƣợng mở rộng đƣợc bỏo cỏo dƣ̣a trờn nhiờ ̣m vu ̣ tìm kiờ́m khuụn mă ̣t . Mụ ̣t phƣơng pháp tiờ́p cõ ̣n tƣơng tƣ̣ dƣ̣a trờn
33
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đụ́i sánh đụ̀ thi ̣ cũng đƣợc áp du ̣ng trong tìm kiờ́ m khuụn mă ̣t trong thuõ ̣t toán Ma ̣ng khả năng (Potential Net) của Bessho và cộng sự.