Vào cuối những năm 1980, Sirovich và Kirby đó phỏt triển một kỹ thuật để cú thể biểu diễn hiệu quả cỏc mặt ngƣời, đƣợc gọi là phƣơng phỏp phõn tớch cỏc thành phần chớnh (PCA - Principle Component Analysis). Với một bộ dữ liệu mặt ngƣời, đầu tiờn, ta tiến hành tớnh cỏc thành phần chớnh của sự phõn bố cỏc mặt, biểu diễn dƣới dạng cỏc vector riờng (của ma trận hiệp biến của sự phõn bố). Mỗi mặt trong tập dữ liệu sau đú đƣợc xấp xỉ bằng cỏch kết hợp tuyến tớnh cỏc vector riờng lớn nhất (khụng gian vector) cựng với cỏc trọng số tƣơng ứng của chỳng.
Turk và Pentland sau đú đó phỏt triển kỹ thuật này trong phƣơng phỏp nhận dạng mặt. Phƣơng phỏp của họ dựa trờn tớnh chớnh xỏc của cỏc trọng số của cỏc vector riờng trong việc biểu diễn cỏc mặt. Do ảnh mặt đƣợc tỏi biểu diễn nhờ phộp xấp xỉ cỏc thành phần chớnh của nú, do đú giỏ trị lỗi sinh ra trong quỏ trỡnh xấp xỉ chớnh là một tham số để xỏc định xem đấy cú phải là mặt hay khụng. Giỏ trị lỗi này thƣờng đƣợc gọi là
39
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
“khoảng cỏch tới khụng gian mặt” (DFFS - Distance From Face Space). Giải thuật tớnh khụng gian mặt và DFFS cú thể đƣợc mụ tả ngắn gọn nhƣ sau:
Giả sử cú tập ảnh mặt gồm n ảnh 1, 2, …, n. Giỏ trị trung bỡnh cỏc mặt đƣợc tớnh bởi: 1 1 n i i n (9) Độ lệch của mỗi mặt so với mặt trung bỡnh đƣợc tớnh bởi:
v
i i
(10)
Đặt D = [12…n] và C = DDT. Cỏc vector riờng của C đƣợc gọi là cỏc thành phần chớnh của D. Nếu biểu diễn cỏc vector riờng này dƣới dạng ma trận ta cú khụng gian riờng của tập dữ liệu ảnh đầu vào. Hỡnh vẽ sau thể hiện khụng gian riờng của một số ảnh (sắp xếp theo giỏ trị riờng). Những khụng gian riờng này biểu diễn một khụng gian con gọi là khụng gian mặt.
Một ảnh đầu vào đƣợc ỏnh xạ lờn khụng gian riờng bởi:
, 1, ...,
t
k uk k m
(11)
Trong đú: m là số cỏc thành phần chớnh đƣợc sử dụng để biểu diễn khụng gian mặt. Thụng thƣờng m << n bởi vỡ những thành phần chớnh tƣơng ứng với cỏc giỏ trị riờng rất bộ khụng cú nhiều giỏ trị trong việc biểu diễn ảnh (vớ dụ trong ảnh số 200 ở trờn). Ảnh cú thể đƣợc khụi phục bởi cụng thức: 1 m r k k k u (12) Hệ số lỗi = || - r|| chớnh là DFFS. download by : skknchat@gmail.com
40
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hỡnh 2.3. Một số khụng gian riờng của cơ sở dữ liệu ảnh ORL (Số bờn dưới mỗi ảnh là số cỏc thành phần chớnh).
PCA tỏ ra là một phƣơng phỏp khỏ trực quan và thớch hợp cho việc xõy dựng khụng gian con biểu diễn cỏc lớp đối tƣợng trong nhiều trƣờng hợp. Tuy nhiờn, để mụ hỡnh hoỏ đƣợc nhiều trạng thỏi của cỏc ảnh mặt thỡ phƣơng phỏp này chƣa tối ƣu thật sự. Ngƣời ta đó cải tiến phƣơng phỏp này bằng cỏch chia nhỏ khụng gian mặt ra thành cỏc lớp con. Kỹ thuật này lần đầu tiờn đƣợc ỏp dụng bởi Sung và Poggio. Nú bao gồm 4 bƣớc chớnh nhƣ sau:
Tiền xử lý ảnh con đầu vào re - scale thành cỏc vựng ảnh 19x19 pixel, ỏp dụng một mặt nạ để khử cỏc điểm gần biờn, tối ƣu hoỏ độ tƣơng phản và sau đú ỏp dụng phộp cõn bằng histogram của ảnh.
Xõy dựng một mụ hỡnh phõn bố cỏc mẫu mặt và khụng phải mặt. Mụ hỡnh này bao gồm 12 cụm Gaussian đa chiều (12 multi - dimensional Gaussian clusters) với vị trớ trung tõm và một ma trận hiệp biến, 6 để mụ tả cỏc mẫu mặt và 6 để mụ tả cỏc mẫu khụng phải mặt. Những cụm này đƣợc xõy dựng sử dụng giải thuật phõn cụm k - means sử dụng độ đo khoảng cỏch Mahalanobis chuẩn hoỏ.
41
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Với mỗi ảnh đầu vào, xõy dựng một tập cỏc giỏ trị độ đo của ảnh tƣơng đối so với mụ hỡnh mặt. Với mỗi cụm, ta tớnh hai giỏ trị, là độ đo khoảng cỏch Mahalanobis giữa ảnh đầu vào và trọng tõm của mụ hỡnh, xỏc định trong khụng gian con tạo bởi 75 vector riờng lớn nhất của cụm mụ hỡnh (prototype cluster) và khoảng cỏch Euclid từ ảnh đú đến hỡnh chiếu của nú trờn khụng gian con.
Mạng perceptron nhiều lớp (MLP) đƣợc luyện để phõn lớp mặt - khụng mặt. Cũng tƣơng tự nhƣ phƣơng phỏp này, nhƣng cú những cải tiến tốt hơn, là N.Duta và A.K.Jain với sự kết hợp cỏc đặc trƣng về mức xỏm với cỏc đặc trƣng nền, hay Fouad và cộng sự với một giải thuật tƣơng tự nhƣng cú sự cải thiện đỏng kể về hiệu quả tớnh toỏn.
Một vấn đề khi luyện cỏc hệ thống nhận dạng mẫu để phõn lớp mặt - khụng mặt là xõy dựng tập dữ liệu ảnh khụng phải mặt để luyện mạng nhƣ thế nào. Với bộ dữ liệu ảnh mặt, ta cú thể dễ dàng xỏc định đƣợc rằng đấy là tất cả cỏc loại mặt, nhƣng với bộ dữ liệu ảnh khụng phải mặt thỡ khụng đơn giản nhƣ vậy. Sung và Poggio đƣa ra một giải thuật luyện, đƣợc gọi là “luyện bằng phƣơng phỏp bẫy lỗi” nhằm giải quyết vần đề này. Giải thuật bao gồm những bƣớc sau:
1. Tạo tập dữ liệu ảnh khụng phải mặt ban đầu bằng cỏch tạo ra ảnh với những điểm ảnh đƣợc sinh ngẫu nhiờn.
2. Luyện mạng.
3. Thực hiện hệ thống với những ảnh khụng cú mặt ngƣời. Nếu phần ảnh nào đƣợc nhận diện là mặt, chuyển sang bƣớc 4.
4. Với mỗi ảnh thoả món 3, tiền xử lý phần ảnh đƣợc phõn lớp sai và đƣa phần ảnh ấy vào hệ thống nhƣ là một mẫu khụng phải mặt.
2.1.2.2. Mạng neural
Mạng neural đó trở thành một kỹ thuật phổ biến trong vấn đề nhận dạng khuụn mặt và cả nhận biết khuụn mặt. Vào thời gian đầu sử dụng mạng neural để phỏt hiện mặt, ngƣời ta đó sử dụng cỏc mạng perceptron nhiều lớp (MLP) và chỉ xử lý trờn những bộ dữ liệu đơn giản. Sau đú Rowley và cộng sự đó xõy dựng một mạng neural phức tạp hơn để xử lý những bộ dữ liệu lớn và phức tạp. Đầu vào của mạng là vựng ảnh 20x20 điểm ảnh (do đú cú 400 nỳt vào). Lớp ẩn gồm 26 nỳt, trong đú 4 nỳt nhận
42
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đầu vào từ cỏc vựng ảnh 10x10, 16 nỳt nhận đầu vào từ cỏc vựng ảnh 5x5, và 6 nỳt nhận đầu vào từ cỏc vựng ảnh 20x5 điểm ảnh (hỡnh vẽ) [8].
Hỡnh 2.4. Mụ hỡnh mạng neural của Rowley và cộng sự
Vấn đề đặt ra trong việc ỏp dụng kỹ thuật quột cửa sổ là giải quyết vấn đề phỏt hiện đố (overlap detection). Rowley và cộng sự giải quyết vấn đề này bằng cỏch sử dụng cỏc heuristic:
Lấy ngƣỡng: Nếu số cỏc điểm mặt lõn cận điểm đang xột đạt một giỏ trị ngƣỡng nào đú thỡ điểm đú sẽ đƣợc xem là điểm mặt.
Loại bỏ hiện tƣợng phỏt hiện đố: Nếu một vựng nào đú đó đƣợc xỏc định là mặt thỡ nú sẽ đƣợc bỏ qua trong cỏc bƣớc phỏt hiện khỏc.
Đờ̉ tăng thờm hiờ ̣u năng của hờ ̣ thụ́ng , Rowley đã luyờ ̣n nhiờ̀u ma ̣ng neural và kờ́t hơ ̣p các đõ̀u ra theo mụ ̣t chiờ́n lƣợc nào đó (nhƣ AND, OR và lƣ̣a cho ̣n hoă ̣c sƣ̉ du ̣ng mụ ̣t mạng neural làm trọng tài ). Thuõ ̣t toán này đƣợc áp du ̣ng trong các hờ ̣ thụ́ng theo dừi ngƣời của Darrel và cộng sự , của Satoh và trong bƣớc tỡm kiếm mặt ban đầu của hờ ̣ thụ́ng tìm kiờ́m vùng đõ̀u của La Cascia và cộng sự . Mụ ̣t hờ ̣ thống tƣơng tự cũng đó đƣơ ̣c đƣa ra trong nghiờn cƣ́u của Han và cộng sự.
Gõ̀n đõy , Rowley và cộng sự đã kờ́t hợp hờ ̣ thụ́ng với mụ ̣t ma ̣ng neural đi ̣nh hƣớng đờ̉ tìm kiờ́m mă ̣t theo tṍt cả các hƣớng trong mă ̣t phẳng ảnh . Họ sử dụng một MLP đõ̀y đủ với mụ ̣t lớp õ̉n và 36 nỳt xuất (mụ̃i nỳt cho mụ ̣t góc 100) để quyết định gúc quay của mặt . Hờ ̣ thụ́ng đã xác đi ̣nh đúng 79,6% cỏc mặt trong hai tập dữ liệu lớn với sụ́ lƣợng các mõ̃u sai nhỏ.
Input image pyramid Corrected lighting Histogram equalized Receptive fields
Hidden units Output Network Input 20 by 20 pixels
Preprocessing Neural network Extracted window
(20 by 20 pixels)
43
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Feraud và cộng sự đã đờ̀ x uṍt mụ ̣t phƣơng pháp sƣ̉ du ̣ng ma ̣ng neural khác dƣ̣a trờn mụ hình sinh ràng buụ ̣c CGM (Constrained Generative Model ). Mụ hình CGM đƣơ ̣c sƣ̉ du ̣ng là mụ ̣t MLP đõ̀y đủ (full - connected) vớ i ba lớp tro ̣ng sụ́ , với 300 (15x20) nỳt vào và ra (tƣơng đƣơng với kích thƣớc ảnh ). Lớp õ̉n thƣ́ nhṍt có 35 nỳt, trong khi lớp õ̉n thƣ́ hai có 50 nỳt. Với mụ hình CGM, ý tƣởng ẩn bờn trong là ộp cho mụ ̣t PCA phi tuyờ́n có thờ̉ đƣợc thƣ̣c thi bằng cách thay đụ̉i hình chiờ́u của các mõ̃u khụng phải mă ̣t gõ̀n hơn với các mõ̃u mă ̣t . Sƣ̣ phõn lớp đa ̣t đƣợc thụng qua phõn tích lụ̃i tái xõy dƣ̣ng của CGM.
Trong quá trình ho ̣c , đích hƣớng tới của các ảnh mă ̣t là xõy dƣ̣ng la ̣i đƣợc ảnh chớnh nú trong khi đớch hƣớng tới củ a các ảnh khụng phải mă ̣t đƣợc thiờ́t lõ ̣p tới trung bỡnh của n lỏng giềng gần nhất của cỏc ảnh mặt . Feraud và cộng sự thƣ̣c hiờ ̣n thuõ ̣t toỏn luyện mạng dựa trờn giải thuật bẫy lỗi của Sung và Poggio (cũng với quỏ trỡnh tiờ̀n xƣ̉ lý bao gụ̀m cõn bằng và làm mi ̣n histogram ). Đờ̉ có thờ̉ điờ̀u khiờ̉n đƣợc quá trỡnh học họ sử dụng một hàm lƣợng giỏ bổ sung dựa trờn nguyờn lý chiều dài mụ tả nhỏ nhất MDL (minimum description length ). Hờ ̣ thụ́ng cũng đã đƣợc phá t triờ̉n thờm với các thụng tin vờ̀ màu sắc và đa khung nhìn , đƣợc áp du ̣ng đờ̉ tìm kiờ́m các ảnh mă ̣t trờn các trang Website.
Lin và cộng sự đã đƣa ra mụ ̣t hờ ̣ thụ́ng nhõ ̣n da ̣ng mă ̣t tƣ̣ đụ ̣ng sử dụng ma ̣ng neural xác suṍt (PDBNN - Probabilistic Decision Based Neural Network ). PDBNN là mụ ̣t ma ̣ng neural phõn lớp với mụ ̣t cṍu trúc mụ đun phõn cṍp . PDBNN tƣơng tƣ̣ nhƣ DBNN nhƣng đƣơ ̣c thờm vào bởi các yờ́u tụ́ ràng buụ ̣c xác suṍt . Mạng neural này bao gụ̀m mụ ̣t ma ̣ng con cho m ỗi lớp đối tƣợng , kờ́t hợp với chiờ́n lƣợc “winner - take - all”. Trong trƣờng hợp tìm kiờ́m mă ̣t , chỉ cú một mạng con biểu diễn lớp cỏc mặt . Quỏ trỡnh học đƣợc thực hiện với cỏc luật học DBNN , nghĩa là ngƣời giỏm sỏt chỉ thụng bỏo độ chớnh xỏc phõn lớp (khụng có giá tri ̣ đích chính xác ) và sử dụng phộp học LUGS (khụng giám sát cu ̣c bụ ̣ giám sát tụ̉ng thờ̉ ). Với LUGS , mụ̃i ma ̣ng con đƣơ ̣c luyờ ̣n riờng biờ ̣t với mụ ̣t thuõ ̣t toán ho ̣c khụng giám sát (thuõ ̣t toán K-means với lƣợng hoỏ vectơ hoặc thuật toỏn EM ). Quỏ trỡnh học tổng thể đƣợc thực hiện để điều chỉnh biờn quyờ́t đi ̣nh bằng cách sƣ̉ du ̣ng các thuõ ̣t toán ho ̣c củng cụ́ và khụng củng cụ́ khi mụ ̣t da ̣ng trong tõ ̣p mõ̃u b ị nhận nhầm . Cỏc ảnh đầu vào ban đầu cú kớch thƣớc 320x240 nhƣng sau đó đƣơ ̣c t ỷ lờ ̣ hoá xuụ́ng xṍp xỉ 46x35 và một cửa sổ 12x12 đƣợc sƣ̉ du ̣ng đờ̉ quét ảnh này theo các bƣớc sai khác nhau 1 điờ̉m ảnh.
44
Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Ngoài ứng dụng phõn lớp mă ̣t, mạng neural cũn đƣợc sử dụng trong phõn lớp cỏc đă ̣c tính mă ̣t nhƣ trong các nghiờn cƣ́u của Duchnowski và cộng sự , McKenna và cộng sự, của Reider và cộng sự . Mụ ̣t phƣơng pháp khác với mu ̣c đích cải thiờ ̣n thời gian dò tỡm sử dụng MLP cũng đã đƣợc Ben Yacoub và cộng sự đƣa ra.