Phƣơng phỏp khụng gian con tuyến tớnh (Linear subs- 123docz.net

Vào cuối những năm 1980, Sirovich và Kirby đó phỏt triển một kỹ thuật để cú thể biểu diễn hiệu quả cỏc mặt ngƣời, đƣợc gọi là phƣơng phỏp phõn tớch cỏc thành phần chớnh (PCA - Principle Component Analysis). Với một bộ dữ liệu mặt ngƣời, đầu tiờn, ta tiến hành tớnh cỏc thành phần chớnh của sự phõn bố cỏc mặt, biểu diễn dƣới dạng cỏc vector riờng (của ma trận hiệp biến của sự phõn bố). Mỗi mặt trong tập dữ liệu sau đú đƣợc xấp xỉ bằng cỏch kết hợp tuyến tớnh cỏc vector riờng lớn nhất (khụng gian vector) cựng với cỏc trọng số tƣơng ứng của chỳng.

Turk và Pentland sau đú đó phỏt triển kỹ thuật này trong phƣơng phỏp nhận dạng mặt. Phƣơng phỏp của họ dựa trờn tớnh chớnh xỏc của cỏc trọng số của cỏc vector riờng trong việc biểu diễn cỏc mặt. Do ảnh mặt đƣợc tỏi biểu diễn nhờ phộp xấp xỉ cỏc thành phần chớnh của nú, do đú giỏ trị lỗi sinh ra trong quỏ trỡnh xấp xỉ chớnh là một tham số để xỏc định xem đấy cú phải là mặt hay khụng. Giỏ trị lỗi này thƣờng đƣợc gọi là

Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

“khoảng cỏch tới khụng gian mặt” (DFFS - Distance From Face Space). Giải thuật tớnh khụng gian mặt và DFFS cú thể đƣợc mụ tả ngắn gọn nhƣ sau:

Giả sử cú tập ảnh mặt gồm n ảnh 1, 2, …, n. Giỏ trị trung bỡnh cỏc mặt đƣợc tớnh bởi: 1 1 n i i n     (9) Độ lệch của mỗi mặt so với mặt trung bỡnh đƣợc tớnh bởi:

 v

i i

     (10)

Đặt D = [12…n] và C = DDT. Cỏc vector riờng của C đƣợc gọi là cỏc thành phần chớnh của D. Nếu biểu diễn cỏc vector riờng này dƣới dạng ma trận ta cú khụng gian riờng của tập dữ liệu ảnh đầu vào. Hỡnh vẽ sau thể hiện khụng gian riờng của một số ảnh (sắp xếp theo giỏ trị riờng). Những khụng gian riờng này biểu diễn một khụng gian con gọi là khụng gian mặt.

Một ảnh đầu vào đƣợc ỏnh xạ lờn khụng gian riờng bởi:

, 1, ...,

k uk k m

    (11)

Trong đú: m là số cỏc thành phần chớnh đƣợc sử dụng để biểu diễn khụng gian mặt. Thụng thƣờng m << n bởi vỡ những thành phần chớnh tƣơng ứng với cỏc giỏ trị riờng rất bộ khụng cú nhiều giỏ trị trong việc biểu diễn ảnh (vớ dụ trong ảnh số 200 ở trờn). Ảnh  cú thể đƣợc khụi phục bởi cụng thức: 1 m r k k k u     (12) Hệ số lỗi  = || - r|| chớnh là DFFS. download by : skknchat@gmail.com

Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hỡnh 2.3. Một số khụng gian riờng của cơ sở dữ liệu ảnh ORL (Số bờn dưới mỗi ảnh là số cỏc thành phần chớnh).

PCA tỏ ra là một phƣơng phỏp khỏ trực quan và thớch hợp cho việc xõy dựng khụng gian con biểu diễn cỏc lớp đối tƣợng trong nhiều trƣờng hợp. Tuy nhiờn, để mụ hỡnh hoỏ đƣợc nhiều trạng thỏi của cỏc ảnh mặt thỡ phƣơng phỏp này chƣa tối ƣu thật sự. Ngƣời ta đó cải tiến phƣơng phỏp này bằng cỏch chia nhỏ khụng gian mặt ra thành cỏc lớp con. Kỹ thuật này lần đầu tiờn đƣợc ỏp dụng bởi Sung và Poggio. Nú bao gồm 4 bƣớc chớnh nhƣ sau:

Tiền xử lý ảnh con đầu vào re - scale thành cỏc vựng ảnh 19x19 pixel, ỏp dụng một mặt nạ để khử cỏc điểm gần biờn, tối ƣu hoỏ độ tƣơng phản và sau đú ỏp dụng phộp cõn bằng histogram của ảnh.

Xõy dựng một mụ hỡnh phõn bố cỏc mẫu mặt và khụng phải mặt. Mụ hỡnh này bao gồm 12 cụm Gaussian đa chiều (12 multi - dimensional Gaussian clusters) với vị trớ trung tõm và một ma trận hiệp biến, 6 để mụ tả cỏc mẫu mặt và 6 để mụ tả cỏc mẫu khụng phải mặt. Những cụm này đƣợc xõy dựng sử dụng giải thuật phõn cụm k - means sử dụng độ đo khoảng cỏch Mahalanobis chuẩn hoỏ.

Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Với mỗi ảnh đầu vào, xõy dựng một tập cỏc giỏ trị độ đo của ảnh tƣơng đối so với mụ hỡnh mặt. Với mỗi cụm, ta tớnh hai giỏ trị, là độ đo khoảng cỏch Mahalanobis giữa ảnh đầu vào và trọng tõm của mụ hỡnh, xỏc định trong khụng gian con tạo bởi 75 vector riờng lớn nhất của cụm mụ hỡnh (prototype cluster) và khoảng cỏch Euclid từ ảnh đú đến hỡnh chiếu của nú trờn khụng gian con.

Mạng perceptron nhiều lớp (MLP) đƣợc luyện để phõn lớp mặt - khụng mặt. Cũng tƣơng tự nhƣ phƣơng phỏp này, nhƣng cú những cải tiến tốt hơn, là N.Duta và A.K.Jain với sự kết hợp cỏc đặc trƣng về mức xỏm với cỏc đặc trƣng nền, hay Fouad và cộng sự với một giải thuật tƣơng tự nhƣng cú sự cải thiện đỏng kể về hiệu quả tớnh toỏn.

Một vấn đề khi luyện cỏc hệ thống nhận dạng mẫu để phõn lớp mặt - khụng mặt là xõy dựng tập dữ liệu ảnh khụng phải mặt để luyện mạng nhƣ thế nào. Với bộ dữ liệu ảnh mặt, ta cú thể dễ dàng xỏc định đƣợc rằng đấy là tất cả cỏc loại mặt, nhƣng với bộ dữ liệu ảnh khụng phải mặt thỡ khụng đơn giản nhƣ vậy. Sung và Poggio đƣa ra một giải thuật luyện, đƣợc gọi là “luyện bằng phƣơng phỏp bẫy lỗi” nhằm giải quyết vần đề này. Giải thuật bao gồm những bƣớc sau:

1. Tạo tập dữ liệu ảnh khụng phải mặt ban đầu bằng cỏch tạo ra ảnh với những điểm ảnh đƣợc sinh ngẫu nhiờn.

2. Luyện mạng.

3. Thực hiện hệ thống với những ảnh khụng cú mặt ngƣời. Nếu phần ảnh nào đƣợc nhận diện là mặt, chuyển sang bƣớc 4.

4. Với mỗi ảnh thoả món 3, tiền xử lý phần ảnh đƣợc phõn lớp sai và đƣa phần ảnh ấy vào hệ thống nhƣ là một mẫu khụng phải mặt.

2.1.2.2. Mạng neural

Mạng neural đó trở thành một kỹ thuật phổ biến trong vấn đề nhận dạng khuụn mặt và cả nhận biết khuụn mặt. Vào thời gian đầu sử dụng mạng neural để phỏt hiện mặt, ngƣời ta đó sử dụng cỏc mạng perceptron nhiều lớp (MLP) và chỉ xử lý trờn những bộ dữ liệu đơn giản. Sau đú Rowley và cộng sự đó xõy dựng một mạng neural phức tạp hơn để xử lý những bộ dữ liệu lớn và phức tạp. Đầu vào của mạng là vựng ảnh 20x20 điểm ảnh (do đú cú 400 nỳt vào). Lớp ẩn gồm 26 nỳt, trong đú 4 nỳt nhận

Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đầu vào từ cỏc vựng ảnh 10x10, 16 nỳt nhận đầu vào từ cỏc vựng ảnh 5x5, và 6 nỳt nhận đầu vào từ cỏc vựng ảnh 20x5 điểm ảnh (hỡnh vẽ) [8].

Hỡnh 2.4. Mụ hỡnh mạng neural của Rowley và cộng sự

Vấn đề đặt ra trong việc ỏp dụng kỹ thuật quột cửa sổ là giải quyết vấn đề phỏt hiện đố (overlap detection). Rowley và cộng sự giải quyết vấn đề này bằng cỏch sử dụng cỏc heuristic:

Lấy ngƣỡng: Nếu số cỏc điểm mặt lõn cận điểm đang xột đạt một giỏ trị ngƣỡng nào đú thỡ điểm đú sẽ đƣợc xem là điểm mặt.

Loại bỏ hiện tƣợng phỏt hiện đố: Nếu một vựng nào đú đó đƣợc xỏc định là mặt thỡ nú sẽ đƣợc bỏ qua trong cỏc bƣớc phỏt hiện khỏc.

Đờ̉ tăng thờm hiờ ̣u năng của hờ ̣ thụ́ng , Rowley đã luyờ ̣n nhiờ̀u ma ̣ng neural và kờ́t hơ ̣p các đõ̀u ra theo mụ ̣t chiờ́n lƣợc nào đó (nhƣ AND, OR và lƣ̣a cho ̣n hoă ̣c sƣ̉ du ̣ng mụ ̣t mạng neural làm trọng tài ). Thuõ ̣t toán này đƣợc áp du ̣ng trong các hờ ̣ thụ́ng theo dừi ngƣời của Darrel và cộng sự , của Satoh và trong bƣớc tỡm kiếm mặt ban đầu của hờ ̣ thụ́ng tìm kiờ́m vùng đõ̀u của La Cascia và cộng sự . Mụ ̣t hờ ̣ thống tƣơng tự cũng đó đƣơ ̣c đƣa ra trong nghiờn cƣ́u của Han và cộng sự.

Gõ̀n đõy , Rowley và cộng sự đã kờ́t hợp hờ ̣ thụ́ng với mụ ̣t ma ̣ng neural đi ̣nh hƣớng đờ̉ tìm kiờ́m mă ̣t theo tṍt cả các hƣớng trong mă ̣t phẳng ảnh . Họ sử dụng một MLP đõ̀y đủ với mụ ̣t lớp õ̉n và 36 nỳt xuất (mụ̃i nỳt cho mụ ̣t góc 100) để quyết định gúc quay của mặt . Hờ ̣ thụ́ng đã xác đi ̣nh đúng 79,6% cỏc mặt trong hai tập dữ liệu lớn với sụ́ lƣợng các mõ̃u sai nhỏ.

Input image pyramid Corrected lighting Histogram equalized Receptive fields

Hidden units Output Network Input 20 by 20 pixels

Preprocessing Neural network Extracted window

(20 by 20 pixels)

Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Feraud và cộng sự đã đờ̀ x uṍt mụ ̣t phƣơng pháp sƣ̉ du ̣ng ma ̣ng neural khác dƣ̣a trờn mụ hình sinh ràng buụ ̣c CGM (Constrained Generative Model ). Mụ hình CGM đƣơ ̣c sƣ̉ du ̣ng là mụ ̣t MLP đõ̀y đủ (full - connected) vớ i ba lớp tro ̣ng sụ́ , với 300 (15x20) nỳt vào và ra (tƣơng đƣơng với kích thƣớc ảnh ). Lớp õ̉n thƣ́ nhṍt có 35 nỳt, trong khi lớp õ̉n thƣ́ hai có 50 nỳt. Với mụ hình CGM, ý tƣởng ẩn bờn trong là ộp cho mụ ̣t PCA phi tuyờ́n có thờ̉ đƣợc thƣ̣c thi bằng cách thay đụ̉i hình chiờ́u của các mõ̃u khụng phải mă ̣t gõ̀n hơn với các mõ̃u mă ̣t . Sƣ̣ phõn lớp đa ̣t đƣợc thụng qua phõn tích lụ̃i tái xõy dƣ̣ng của CGM.

Trong quá trình ho ̣c , đích hƣớng tới của các ảnh mă ̣t là xõy dƣ̣ng la ̣i đƣợc ảnh chớnh nú trong khi đớch hƣớng tới củ a các ảnh khụng phải mă ̣t đƣợc thiờ́t lõ ̣p tới trung bỡnh của n lỏng giềng gần nhất của cỏc ảnh mặt . Feraud và cộng sự thƣ̣c hiờ ̣n thuõ ̣t toỏn luyện mạng dựa trờn giải thuật bẫy lỗi của Sung và Poggio (cũng với quỏ trỡnh tiờ̀n xƣ̉ lý bao gụ̀m cõn bằng và làm mi ̣n histogram ). Đờ̉ có thờ̉ điờ̀u khiờ̉n đƣợc quá trỡnh học họ sử dụng một hàm lƣợng giỏ bổ sung dựa trờn nguyờn lý chiều dài mụ tả nhỏ nhất MDL (minimum description length ). Hờ ̣ thụ́ng cũng đã đƣợc phá t triờ̉n thờm với các thụng tin vờ̀ màu sắc và đa khung nhìn , đƣợc áp du ̣ng đờ̉ tìm kiờ́m các ảnh mă ̣t trờn các trang Website.

Lin và cộng sự đã đƣa ra mụ ̣t hờ ̣ thụ́ng nhõ ̣n da ̣ng mă ̣t tƣ̣ đụ ̣ng sử dụng ma ̣ng neural xác suṍt (PDBNN - Probabilistic Decision Based Neural Network ). PDBNN là mụ ̣t ma ̣ng neural phõn lớp với mụ ̣t cṍu trúc mụ đun phõn cṍp . PDBNN tƣơng tƣ̣ nhƣ DBNN nhƣng đƣơ ̣c thờm vào bởi các yờ́u tụ́ ràng buụ ̣c xác suṍt . Mạng neural này bao gụ̀m mụ ̣t ma ̣ng con cho m ỗi lớp đối tƣợng , kờ́t hợp với chiờ́n lƣợc “winner - take - all”. Trong trƣờng hợp tìm kiờ́m mă ̣t , chỉ cú một mạng con biểu diễn lớp cỏc mặt . Quỏ trỡnh học đƣợc thực hiện với cỏc luật học DBNN , nghĩa là ngƣời giỏm sỏt chỉ thụng bỏo độ chớnh xỏc phõn lớp (khụng có giá tri ̣ đích chính xác ) và sử dụng phộp học LUGS (khụng giám sát cu ̣c bụ ̣ giám sát tụ̉ng thờ̉ ). Với LUGS , mụ̃i ma ̣ng con đƣơ ̣c luyờ ̣n riờng biờ ̣t với mụ ̣t thuõ ̣t toán ho ̣c khụng giám sát (thuõ ̣t toán K-means với lƣợng hoỏ vectơ hoặc thuật toỏn EM ). Quỏ trỡnh học tổng thể đƣợc thực hiện để điều chỉnh biờn quyờ́t đi ̣nh bằng cách sƣ̉ du ̣ng các thuõ ̣t toán ho ̣c củng cụ́ và khụng củng cụ́ khi mụ ̣t da ̣ng trong tõ ̣p mõ̃u b ị nhận nhầm . Cỏc ảnh đầu vào ban đầu cú kớch thƣớc 320x240 nhƣng sau đó đƣơ ̣c t ỷ lờ ̣ hoá xuụ́ng xṍp xỉ 46x35 và một cửa sổ 12x12 đƣợc sƣ̉ du ̣ng đờ̉ quét ảnh này theo các bƣớc sai khác nhau 1 điờ̉m ảnh.

Số hoỏ bởi Trung tõm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ngoài ứng dụng phõn lớp mă ̣t, mạng neural cũn đƣợc sử dụng trong phõn lớp cỏc đă ̣c tính mă ̣t nhƣ trong các nghiờn cƣ́u của Duchnowski và cộng sự , McKenna và cộng sự, của Reider và cộng sự . Mụ ̣t phƣơng pháp khác với mu ̣c đích cải thiờ ̣n thời gian dò tỡm sử dụng MLP cũng đã đƣợc Ben Yacoub và cộng sự đƣa ra.

Phƣơng phỏp khụng gian con tuyến tớnh (Linear subspace methods)

Phõn tớch đặc trƣng (Feature Analysis)

Mụ hỡnh hỡnh dạng động (Active shape models)