Đồ án tốt nghiệp đại học “nghiên cứu xây dựng phần mềm nhận dạng ảnh theo thuật toán PCA, FLD”

Nhận dạng khuôn mặt là một trong số ít các phương pháp nhận dạng dựavào đặc trưng sinh lý cho kết quả chính xác cao đồng thời rất thuận tiện khi sửdụng.. Ta nhận thấy có các đặc điểm sau

Trang 1

LỜI NÓI ĐẦU 3

CHƯƠNG 1 : MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ SỬ LÝ ẢNH SỐ 6

1.1 Một số khái niệm cơ bản 6

1.2 Biểu diễn ảnh 7

1.3 Biến đổi ảnh xám 9

CHƯƠNG 2 : LÝ THUYẾT VỀ PCA VÀ FLD 10

2.1 Phương pháp thống kê đối với bài toán nhận dạng mẫu 10

2.1.1 Trung bình, độ lệch chuẩn, phương sai 10

2.1.2 Hiệp sai, ma trận hiệp sai 13

2.2 Nhận dạng ảnh và phép biến đổi tuyến tính 18

2.2.1 Nhận dạng ảnh: 18

2.2.2 Phép biến đổi tuyến tính: 19

2.3 Lý thuyết về PCA - Principal Component Analysis 20

2.4 Lý thuyết về FLD – Fisher’s Linear Discriminant 26

2.3 Kết luận chung về hai phương pháp 29

CHƯƠNG 3 : BÀI TOÁN NHẬN DẠNG ẢNH MẶT NGƯỜI 31

3.1 Nhận dạng ảnh mặt người là gì(Identification, Recognition) 31

3.2 Các bước của quá trình nhận dạng 31

3.3 Các nghiên cứu trước đây 32

3.4 Một số khó khăn trong bài toán nhận dạng ảnh mặt người 34

3.5 Áp dụng phương pháp PCA, FLD vào bài toán nhận dạng ảnh mặt người 36

3.5.1 Phương pháp PCA – Principal Component Analysis 36

3.5.2 Phương pháp FLD - Fisher Linear Discriment 40

3.6 Dò mắt và mũi người 42

CHƯƠNG 4 : CÀI ĐẶT CHƯƠNG TRÌNH NHẬN DẠNG ẢNH MẶT NGƯỜI 45

4.1 Cài đặt 45

4.1.1 PCA – Principal Component Analysis 45

4.1.2 FLD – Fisher Linear Discriment 46

4.2 Hướng dẫn sử dụng chương trình 49

4.3 Kết quả thực nghiệm 53

4.3.1 Thực nghiệm với các ngưỡng khác nhau cho PCA 53

4.3.2 Kết quả thực nghiệm so sánh PCA và FLD với số người trong tập huấn luyện khác nhau 53

KẾT LUẬN 54

Tài liệu tham khảo 56

PHỤ LỤC 1 57

PHỤ LỤC 2 59

Trang 2

LỜI NÓI ĐẦU

Thế giới ngày nay với sự phát triển mạnh mẽ của kỹ thuật số và mạngtoàn cầu, vấn đề đảm bảo an toàn về thông tin cũng như vật chất trở nên ngàycàng quan trọng và khó khăn Thỉnh thoảng chúng ta lại nghe nói đến những

vụ đánh cắp thẻ tín dụng, đột nhập trái phép vào các hệ thống máy tính haytoà nhà của cơ quan nhà nước, chính phủ Hơn 100 triệu đô la là con số đã bịthất thoát ở Mỹ vào năm 1998 do các vụ gian lận và xâm nhập nói trên (theoReuters, 1999) Trong đa số các vụ phạm pháp này, tội phạm đã lợi dụngnhững khe hở cơ bản trong quá trình truy cập vào các hệ thống thông tin vàkiểm soát Phần lớn những hệ thống này không thực hiện quyền truy cập củangười sử dụng dựa vào thông tin “chúng ta là ai” mà chỉ dựa vào “chúng ta cógì” Nói cách khác, thông tin mà người sử dụng cung cấp cho hệ thống khôngđặc trưng được cho bản thân họ, mà chỉ là những gì họ hiện đang sở hữu như

số chứng minh nhân dân, chìa khoá, mật mã, số thẻ tín dụng hoặc họ tên Rõràng những thông tin hay vật dụng này không mang tính đặc trưng mà chỉmang tính xác thực đối với người sử dụng, và nếu chúng bị đánh cắp hay saochép thì kẻ trộm hoàn toàn có quyền truy nhập, sử dụng dữ liệu hay phươngtiện của chúng ta bất cứ lúc nào họ muốn

Nhận dạng khuôn mặt là một trong số ít các phương pháp nhận dạng dựavào đặc trưng sinh lý cho kết quả chính xác cao đồng thời rất thuận tiện khi sửdụng Hơn nữa, trong số các đặc trưng sinh lý học, khuôn mặt của mỗi người

là yếu tố đầu tiên và quan trọng nhất cho việc nhận biết lẫn nhau cũng nhưbiểu đạt cảm xúc Khả năng nhận dạng nói chung và khả năng nhận biếtkhuôn mặt người nói riêng của con người thật đáng kinh ngạc Chúng ta cókhả năng nhận ra hàng ngàn khuôn mặt của những người mình đã gặp, đãgiao tiếp trong cuộc sống chỉ bằng một cái nhìn thoáng qua, thậm chí sau

Trang 3

khuôn mặt người đã thu hút rất nhiều nhà triết học, nhà khoa học qua nhiềuthế kỷ, trong đó có cả Aristotle và Darwin Chính vì những lý do trên, từnhững năm 1970, nhận dạng mặt người đã thu hút sự quan tâm của nhiều nhànghiên cứu trong các lĩnh vực như bảo mật, tâm lý học, xử lý ảnh và thị giácmáy tính.

Nhằm nâng cao hiểu biết của mình về lĩnh vực nhận dạng mặt người nóiriêng và kỹ thuật xử lý ảnh nói chung em nhận đề tài:

“Nghiên cứu xây dựng phần mềm nhận dạng ảnh theo thuật toán PCA, FLD” cho đồ án tốt nghiệp của mình.

Đề tài đặt ra với mục tiêu:

Nghiên cứu hai phương pháp Principal Component Analysis – PCA,Fisher’s Linear Discriment – FLD áp dụng cho bài toán nhận dạng ảnh khuônmặt người và xây dựng ứng dụng nhận dạng ảnh mặt người theo hai phươngpháp này

Nội dung đồ án tốt nghiệp chia thành 4 chương, 2 phụ lục:

Chương 1: Một số vấn đề cơ bản về xử lý ảnh

Giới thiệu những khái niệm cơ bản về ảnh số, điểm ảnh, biểu diễn ảnh,ảnh xám, ảnh mầu, cách biến đổi ảnh xám

Chương 2: Lý thuyết về PCA, FLD

Giới thiệu những nội dung cơ bản của hai phương pháp PCA và FLD vàđưa ra những kết luận chung về hai phương pháp này Trong phần này Emcũng giới thiệu những kiến thức toán học liên quan như phương pháp thống

kê trong bài toán nhận dạng mẫu, phép biến đổi tuyến tính, ma trận hiệp sai

và đặc trưng của nó

Chương 3: Bài toán nhận dạng ảnh mặt người

Giới thiệu về bài toán nhận dạng ảnh mặt người Nhận dạng ảnh là gì, cácbước của quá trình nhận dạng, các nghiên cứu trước đây về bài toán nhậndạng ảnh mặt người, đưa ra những khó khăn trong bài toán nhận dạng ảnh mặt

Trang 4

người Áp dụng thuật toán PCA và FLD cho bài toán nhận dạng ảnh mặtngười.

Chương 4: Cài đặt chương trình nhận dạng ảnh mặt người

Cài đặt chương trình đồng thời thể hiện các bước của quá trình nhận dạng

và giới thiệu ứng dụng đã xây dựng, cách sử dụng

Trong quá trình nhận và thực hiện đồ án của mình Em xin chân thành cám

ơn thầy giáo PGS.TS cùng các thầy cô trong khoa Công Nghệ Thông Tin

-đã tận tình giúp đỡ để Em hoàn thành đồ án tốt nghiệp của mình

CHƯƠNG 1 : MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ SỬ LÝ ẢNH SỐ

1.1 Một số khái niệm cơ bản

 Pixel (picture element - điểm ảnh )

Trang 5

tín hiệu liên tục thành tín hiệu rời rạc Một ảnh khi được số hoá là tập hợp

các điểm ảnh, nó được biểu diễn bởi mảng 2 chiều I(n,p) trong đó n- số

dòng, p- số cột Ta nói ảnh gồm nxp điểm ảnh, ký hiệu I(x, y) là giá trị

điểm ảnh tại vị trí dòng y cột x

 Ảnh đen trắng, ảnh đa mức xám, ảnh màu

 Ảnh đen trắng, ảnh đa cấp xám: gồm 2 màu (đen, trắng), người ta

phân các mức độ (L) đen trắng như sau:

+L=2: ảnh gồm 2 mức, mức 0 ứng với màu tối, mức 1 ứng với màu

sáng Ảnh này gọi là ảnh nhị phân Mỗi điểm ảnh được mã hoá trên

1 bit

+L>2: Ảnh đa mức xám, việc xác định số mức phụ thuộc vào tiêu

chuẩn lượng hoá, L thường được chọn là 32, 64, 126, 256 Thường

sử dụng mức 256, mỗi điểm ảnh được mã hoá bằng 8 bit (28= 256)

 Ảnh màu là ảnh được tổ hợp từ 3 màu cơ bản: Red (đỏ), Green

(xanh lục), Blue (xanh lơ) Mỗi điểm ảnh gồm 3 thành phần màu cơ

bản:R, G, B Mỗi màu phân thành L cấp khác nhau (L thường là

256) Như vậy để lưu trữ một ảnh màu ta phải lưu trữ 3 lớp màu cơ

bản của ảnh, mỗi lớp màu tương đương với một ảnh đa cấp xám

Do đó không gian lưu trữ ảnh màu lớn gấp 3 lần so với không gian

lưu trữ ảnh xám cùng kích thước

1.2 Biểu diễn ảnh

Ảnh số đa mức xám được biểu diễn bằng ma trận 2 chiều f(x,y) trong

đó các phần tử là giá trị điểm màu của ảnh

1) - N f(1,

f(1,1)

f(1,0)

1) - N f(0,

f(0,1)

)

0 , 0 ( f )

,

f

Trang 6

Như vậy nếu ta có một ảnh kích thước 800x600 thì khi biểu diễn thành

ma trận 2 chiều có số hàng là 600, số cột là 800, mỗi phần tử của ma trận có

giá trị từ 0-255

Đối với ảnh màu, mỗi phần tử của mảng 2 chiều là một bộ giá trị RGB

Phần tử f(i,j) của ma trận có dạng

f(i, j)=(B(i, j), G(i, j), R(i, j))

Giá trị điểm ảnh tại điểm (i, j) được tính:

f(i,j) = h (B(i, j), G(i, j), R(i, j))= B(i,j)*2562 + G(i, j)*256 + R(i, j)

Mô hình RGB:

Hệ này mô tả màu sắc thông qua 3 thành phần màu cơ bản là Red, Green và

Blue Có thể mô xem xét mô hình RGB trong không gian 3 chiều như hình

1.2.1

Mọi điểm nằm trong khối hộp chữ nhật có toạ độ (r,g,b) thể hiện một màu

Màu nằm trên đường chéo (0,0,0) - (1,1,1) (3 thành phần R, G, B bằng nhau)

->thể hiện mức xám

Red=(1,0,0) Black=(0,0,0)

Magenta=(1,0,1)

White=(1,1,1) Green=(0,1,0)

Yellow=(1,1,0)

Hinh 1.2.1 - Mô hình màu RGB

Ví dụ ma trận biểu diễn ảnh màu kích thước 3x3 như sau







Trang 7

Thông thường các ảnh chúng ta gặp trong thực tế là các ảnh mầu gồm 3thành phần (R,G,B) như vậy trong quá trình nhận dạng mà ta dung cả 3 thànhphần mầu này thì kích thước ảnh nhận dạng quá lớn như vậy một điều đặt ra

là ta tìm một phép biến đổi sao cho có thể đưa ảnh về biểu diễn ở dạng toánhọc thuận tiện cho quá trình nhận dạng

Phép biến đổi xám đưa mỗi điểm ảnh mầu 3 thành phần về một thànhphần theo công thức:

Gray(i,j) = (byte)(114 * B(i,j) + 587 * G*(i,j) + 299 * R(i,j) / 1000;

Giá trị này được tính thong qua tỷ lệ đặc trưng của các mầu mà vẫn giữđược những đặc trưng cơ bản của ảnh

Ta nhận thấy kích thức của mẫu cần nhận dạng bằng 1/3 đôí với ảnh mầu.Như vậy một ảnh mầu MxN sẽ được đưa về một ma trận(MxN) mức xámGray(i,j) với 0<=i<=M,0<=j<=N

Hình 1.3.1 Biến đổi xám từ ảnh mầuVới Gray(i,j) được tính theo phương trình ở trên

Với biến đổi nhị phân thì Gray(i,j) = 0 nếu Gray(i,j)<= Threshold, Gray(i,j) =

1 nếu ngược lại với 0<=Threshold <=255

Trang 8

CHƯƠNG 2 : LÝ THUYẾT VỀ PCA VÀ FLD

2.1 Phương pháp thống kê đối với bài toán nhận dạng mẫu

2.1.1 Trung bình, độ lệch chuẩn, phương sai

Trang 9

>> X=[12 23 34 44 59 70 98];

>> mean(X)

ans = 48.5714

Xem đồ thị sự phân bố trong không gian 2 chiều

Hình 2.1.1.1 Phân bố Mean quanh giá trị trung bình

Ta nhận thấy Mean có xu hướng ở trung tâm của tập mẫu đã cho

 Độ lệch chuẩn của tập X(Standard Deviation - SD):

Kí hiệu s

Tính theo công thức:

Trang 11

Như vậy các phần tử của X2(Xanh) gần giá trị Mean hơn X1(Đỏ).Khi s = 0 thì tất cả các phần tử của tập bằng giá trị Mean.

 Phương sai:

(Variance)Kí hiệu s2 có độ lớn là bình phương của độ lệch chuẩn, có

ý nghĩa như độ lệch chuẩn

1

n i i

kê cho ta biết mối quan hệ giữa các chiều

Trang 12

“Tích sự sai lệch các phần tử của X với giá trị trung bình và sự sailệch của Y với trung bình chia cho (n-1)”.

Ví dụ: Xét mối quan hệ của kết quả học tập và thời gian học tập(sốliệu cho dưới bảng) với 2 chiều Hours(H)- Giờ học tập và Mark(M) –kết quả thu được

Trang 13

Qua ví dụ ta nhận thấy:

Giá trị của Cov không quan trọng bằng dấu của chúng Khi có giátrị dương thì cho ta biết 2 chiều này tăng cùng nhau và khi giá trị âmthì một chiều tăng chiều kia giảm Qua thí dụ trên ta thấy một điều khigiờ học cao lên thì kết quả học tập cũng tôt lên

Khi Cov = 0 thì hai chiều độc lập nhau nghĩa là sao? Kết quả họctập không phụ thuộc vào giờ học

 Ma trận hiệp sai:

Cho N mẫu X X1, 2, , XN với X i  x x i1, i2, ,x iMT i 1 N

là các vector M-chiều, xét tập mẫu X   X X1, 2, , XN

1

1 N

i i

Trang 14

 Between Scatter và Within Scatter:

Giả sử tập dữ liệu được mô hình như hình vẽ(Minh hoạ Với hai lớp dữliệu)

Trang 15

Between-scatter Matrix - Ma trận hiệp sai giữa các lớp

 i là Mean của lớp i

  là trung bình của cả tập mẫu.

 | i | là số mẫu của lớp i

Nhận xét:

Trang 16

 Ma trận SB đặc trưng cho sự phân bố trung bình của các mầu xungquanh trung bình của cả lớp.

 Ma trận SW đặc trưng cho sự phân bố các phần tử của lớp xung quanhtrung bình của lớp

2.2 Nhận dạng ảnh và phép biến đổi tuyến tính.

2.2.1 Nhận dạng ảnh:

Biểu diễn ảnh trong không gian

Hình 2.2.1.1 Biến đổi ảnh thành vector

Hình 2.2.1.2 Thể hiện ảnh trong không gian

Mỗi ảnh được chuyển về 1 vector, thông thường các ảnh còn giữ đượcnhững đặc trưng cơ bản của khuôn mặt có kích thước(100*100),(200*180)

Trang 17

như vậy mỗi một ảnh được biểu diễn là một điểm trong không gian 36.000chiều Ta nhận thấy có các đặc điểm sau:

 Các ảnh khuôn mặt người nằm trong một vùng nhỏ nhất định của hệkhông gian gọi là không gian mặt

 Các ảnh giống nhau thì gần nhau trong không gian mặt

 Các ảnh khác nhau thì xa nhau trong không gian mặt

 Nhận dạng một ảnh là tìm một khuôn mặt gần nó nhất trong không gianmặt, theo một độ đo nào đó(i.e Euclide…)

Nhược điểm:

 Khi có sự thay đổi nhỏ về ánh sang, cảm xúc, hướng đầu thì các giá trịảnh thay đổi rất nhiều và dẫn đến vị trí của chúng trong không gian mặtthay đổi rất nhanh như vậy quá trình nhận dạng sẽ kém chính xác

 Dung lượng để lưu các đặc trưng lớn

Giải pháp:

Giảm số chiều dữ liệu – thông qua phép biến đổi tuyến tính.

2.2.2 Phép biến đổi tuyến tính:

T

với Y  K, X  N  K  N  và các vector cột của AT trực giao

Ý nghĩa của phép biến đổi này cho phép ta giảm số chiều của dữ liệu (N

Trang 18

Làm sao để có các phép biến đổi tuyến tính hiệu quả? Nghĩa là ta phải tìm

A như thế nào? Sau đây ta nghiên cứu hai phương pháp Principal Component Analysis – PCA và Fisher’s Linear Discriment – FLD Dùng để xác định A.

Hai phương pháp này thực hiện giảm số chiều dữ liệu dựa trên phươngpháp thống kê để thực hiện trích chọn mẫu nhưng vẫn giữ được những đặctrưng cơ bản của các mẫu ban đầu (Sự phân bố các mẫu) Sau đây ta đi vàonghiên cứu từng phương pháp

2.3 Lý thuyết về PCA - Principal Component Analysis[5 Trang 331-340].

Phương pháp PCA:

 Thực hiện giảm số chiều và đảm bảo tối đa sự phân tán dữ liệu

 Ý nghĩa của sự phân tán dữ liệu là đảm bảo các đặc trưng trong khônggian mới phân bố rộng (tính khác nhau) như vậy các mẫu khác nhau thìđảm bảo xa nhau do vậy việc nhận dạng sẽ chính xác hơn

 Nghiên cưú phương pháp

Có nhiều tên cho Principal Components Analysis-PCA và nó đượcdung nhiều trong nghiên cứu và ứng dụng PCA cùng nghĩa vớiKarhunen-Loeve (KL) transform, Hoteling transform, EgenvalueAalysis, Eigenvector Dcomposion và Spectral Decomposion Trongphân tích ảnh nó được dung để giảm số chiều và tìm không gian con(subspace) mà trong đó việc nhận dạng tốt hơn trong khônng gian với

số chiều đầy đủ Không những thế nó còn có thuận tiện khi lưu trữ,chuyển đổi và xử lý thuận tiện

Xem tập quan sát gồm K-vectors

 1, , , , ,2 k K

Trong không gian M-chiều

Trang 19

Không gian của tập quan sát có thể được thể hiện qua một số cơ sở giảsử.

Việc chọn cơ sở có vấn đề gi? Có bởi vì trong ứng dụng chúng takhông đử tất cả các cơ sở M-chiều do nhiều lý do khác nhau như Mquá lớn Ta có thể biểu diễn mỗi quan sát N thông qua ít vector hơn

Trang 20

Nhận thấy điều khác nhau duy nhất giữa E.q 2.17 và 2.16 là số lấytổng N và M theo thứ tự mỗi phương trình của 2.17 được thể hiện qua2.17 ta được các vector

f1~, f2~, , fk~, , fK~ (2.18)Như vậy sai số của xấp xỉ mỗi quan sát là :

Trang 21

k k

Trang 22

  (2.28)Thoả mãn 12 N 0 là các trị riêng của S(Do S đối xứng lên

có các trị riêng thực  0 [Bổ đề 3])

Đây là ma trận phân bố các quan sát  Theo cách xây dựng thì S là

ma trận nửa xác định riêng nghĩa là 0g Sg T với  g E M thay

Trang 23

Ta nhận thấy xấp xỉ không lồi khi mà fk~  fk nghĩa là ta dungtất cả các vector cơ sở (i.e N=M Phương trình 2.24 và 2.27).

Biểu diễn 2.29 thể hiện khi ta chọn N-vectors riêng và sai số xấp

xỉ là nhỏ nhất và bằng tổng M-N trị riêng bé nhất của S (2.28) thành

1 2

1 2 1

 ~  f1~, f2~, , f K~,  f f1, , ,2 f N, N  1, 2, ,K (2.33)

với  1, 2, ,K là K-vectors riêng tương ứng với K-trị riêng lớnnhất của S(2.28)- ma trận hiệp sai của tập quan sát ban đầu

Như ta biết phép biến đổi trực giao không làm thay đổi Trace-Vết của

ma trận mà phép biến đổi cơ sở này giứ lại K-vectors riêng ứng với K-trịriêng lớn nhất Nghĩa là ta sự phân bố các mẫu trong tập dữ liệu mới thuđược luôn là lớn nhất

Theo các kết quả nghiên cứu thong thường ta chọn K sao cho

Trang 24

với ilà các trị riêng của ma trận hiệp sai và.1  2   N

2.4 Lý thuyết về FLD – Fisher’s Linear Discriminant[4, Trang 436-472]

Có hai kiểu tiêu chuẩn thường được sử dụng trong nghiên cứu Một là dựatrên họ các hàm về ma trận phân bố chúng được tính toán đơn giản và cho tamột hệ thống các thuật toán trích chọn đặc trưng Tiêu chuẩn để đo sự phân

bố của L-classcs thứ hai là họ các tiêu chuẩn cho ta biên trên của các lỗiBayes

Ma trận phân bố và tiêu chuẩn phân bố:

Trong phân tích phân biệt của thống kê, Ma trận phân bố trong lớp, ngoàilớp và của tất cả được sử dụng để tính các tiêu chuẩn phân lớp

Ma trận phân bố trong một lớp cho ta biết sự phân bố các mẫu tương ứngvới kỳ vọng của lớp và cho bởi công thức

Trang 25

Ma trận phân bố của cả tập là ma trận hiệp sai của tất cả các mẫu và đượcxác định theo công thức

Trong yêu cầu của các tiêu chuẩn phân lớp, ta cần chuyển ma trận thành

số để rễ đánh giá Giá trị này lớn khi sự phân bố giữa các lớp lớn hoặc sựphân bố trong các lớp nhỏ dưới đây là một số công thức điển hình

giá theo công thức (2.38) gọi là Fisher’s Linear Discriminant - FLD.

Xét trong biến đổi tuyến tính Một phép biến đổi tuyến tính N-chiều Xvào M-chiều Y (M<N) được thể hiện theo công thức

T

Y  A X (2.42)

Trang 26

với A[NxM] và các cột của A độc lập tuyến tính Da các ma trận

W

, or

S S S là các ma trận hiệp sai S S1, 2trong không gian Y-space có

thể được tính thong qua S S1, 2 trong không gian X-space theo công thức

2X 1X 2Y 1Y

 (2.46)Hai ma trận s ands1Y 2Y có thể được chéo hoá thành m và Imqua phépbiến đổi tuyến tính Z  B YT như sau:

B S B   B S B  (2.47)

Ở đây B là ma trận không suy biến và tồn tại B1

Ta nhận thấy giá trị điều kiện bất biến với phép biến đổi không suy biến từ

Y -> Z

Trang 27

       

1 1

Do vết của ma trận là tổng các trị riêng lên

Trang 28

Ta cần maximize J1(m) bằng cách chọn m trị riêng lớn nhất tương ứng với

m vector riêng của ma trận S S2X1 1X

thì J1(m) là tổng của m trị riêng tươngứng hơn thế nữa vơi bất kỳ ma trận chuyển đổi không suy biến không làmthay đổi giá trị của J1(m) do vậy gái trị này gắn với không gian và bất biến vớicác hệ toạ độ trong không gian

Do vậy ta có thể A là m vectors riêng tương ứng với m - trị riêng lớn nhất của S S21X 1X

2.3 Kết luận chung về hai phương pháp

Phương pháp PCA:

 Thực hiện giảm số chiều và đảm bảo tối đa sự phân tán dữ liệu

 Ý nghĩa của sự phân tán dữ liệu là đảm bảo các đặc trưng trong khônggian mới phân bố rộng (tính khác nhau) như vậy các mẫu khác nhau thìđảm bảo xa nhau do vậy việc nhận dạng sẽ chính xác hơn

Trang 29

CHƯƠNG 3 : BÀI TOÁN NHẬN DẠNG ẢNH MẶT NGƯỜI

3.1 Nhận dạng ảnh mặt người là gì(Identification, Recognition)

Xác nhận một người là ai trong cơ sở dữ liệu của hệ thống Là người gầnkhuôn mặt cần nhận dạng nhất theo một khoảng cách nào đó (e.g Euclide)

Trang 30

3.2 Các bước của quá trình nhận dạng

Tiền xử lý(Pre-Processing)

Chức năng này chuẩn hoá ảnh cần nhận dạng giúp cho việc tìm kiếmnhanh và chính xác hơn

 Chuẩn hóa kích thước khuôn mặt (Face Size Normalization)

 Hiệu chỉnh độ sang tối của ảnh(Histogram Equalization, GamaCorrelation)

 Lọc nhiễu (Median Filtering)

 Chuẩn hoá về tư thế và vị trí khuôn mặt(Translation and Rotational)

Trích chọn đặc trưng(Face - Extraction )

Tìm ra các đặc trưng chính của khuôn mặt, từ các đặc trưng này hìnhthành vector đặc trưng (feature vector), các vector này sẽ được dung để đốisánh sự giống nhau giữa ảnh khuôn mặt cần tìm và các ảnh trong cơ sở dữliệu

So sánh(Comparision)

Thực hiện việc so sánh giữa các vector đặc trưng để chọn ra khoảng cáchgiữa ảnh cần tìm và các ảnh trong có sở dữ liệu Một số độ đo hay sử dụngnhư Euclide, Mahalanobis…

3.3 Các nghiên cứu trước đây

Rất nhiều nghiên cứu tập trung vào lĩnh vực nhận dạng ảnh mặt ngườiđiển hình mhư:

Năm 1966, Bledsoe đã xây dựng hệ nhận dạng bán tự động đầu tiên có sựtương tác giữa người và máy Đặc trưng dùng để phân lớp là các dấu hiệu cơbản được con người thêm vào các ảnh Các tham số sử dụng trong quá trình

Trang 31

Năm 1971, phòng thí nghiệm Bell đưa ra hệ nhận dạng dựa vào vector đặctrưng chiều và sử dụng các kỹ thuật phân lớp mẫu để nhận dạng Tuy nhiên,các đặc trưng này được lựa chọn một cách rất chủ quan (như màu tóc, chiềudài vành tai,…) và rất khó khăn cho quá trình tự động hoá Fischer vàElschlager năm 1973 đã cố gắng đo lường các đặc trưng tương tự nhau mộtcách tự động Họ đưa ra một thuật toán tuyến tính so khớp các đặc trưng cục

bộ kết hợp với các độ đo thích nghi toàn cục để tìm kiếm và định lượng cácđặc trưng của gương mặt

Hệ thống của Kanade năm 1973 có lẽ là hệ thống đầu tiên và là một trong

số ít các hệ thống trong đó các bước nhận dạng được thực hiện hoàn toàn tựđộng, sử dụng chiến lược điều khiển từ trên xuống được định hướng bởi cácđặc trưng được chọn Hệ thống này tìm tập các tham số của gương mặt từ mộtảnh đưa vào, sau đó sử dụng các kỹ thuật nhận dạng để so khớp với tập tham

số của các ảnh đã biết Đây là kỹ thuật thống kê thuần tuý chủ yếu phụ thuộcvào phân tích histogram cục bộ và các giá trị độ xám tuyệt đối

Năm 1991, M Turk và A Pentland đã sử dụng phương pháp phân tích thành phần chính trong lý thuyết thông tin để đặc trưng cho các ảnh mặt người Ý tưởng chính của phương pháp này là tìm kiếm một không gian có số chiều nhỏ hơn, thực chất là tìm kiếm một hệ vector cơ sở sao cho hình chiếu của đám mây điểm trên chúng thể hiện rõ nét nhất hình dạng của đám mây điểm Đám mây điểm ở đây chính là tập các vector ảnh mặt trong không gian

có chiều bằng kích thước của ảnh Mỗi ảnh mặt người sau đó sẽ được chiếu lên không gian con này, và bộ thông số nhận được từ phép chiếu này được xem như vector đặc trưng cho từng ảnh mặt.

Năm 1998, K Okada, J Steffens, T Maurer, Hai Hong, E Elagin, H.Neven và Christoph đưa ra mô hình nhận dạng mặt người bằng sóng Gabor vàphương pháp phù hp đồ thị bó Với ý tưởng dùng đồ thị để biểu diễn gương

Trang 32

với một ảnh, các điểm chuẩn sẽ được trích ra từ ảnh và được so sánh với tất cảcác điểm chuẩn tương ứng trong các đồ thị khác nhau, và đồ thị nào phù hợpnhất với ảnh sẽ được chọn

Năm 1998, J Huang, C Liu và H Wechsler đề xuất thuật toán căn cứ trêntính tiến hoá và di truyền cho các tác vụ nhận dạng khuôn mặt Trong các tiếpcận này, hai mắt sẽ được dò tìm trước tiên và thông tin này được xem là vết

để quan sát gương mặt, trình xử lí dò tìm mắt được tiếp tục thực hiện bằngcách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hoá

Năm 1998, Oi Bin Sun, Chian Prong Lam và Jian Kang Wu sử dụngphương pháp tìm vùng hai chân mày, hai mắt, mũi miệng và cằm Ảnh khuônmặt thẳng ban đầu được chiếu theo chiều ngang để tìm các giá trị điềm ảnhthoả ngưỡng cho trước, đồ thị biểu diễn theo trục ngang sẽ định vị biên trên

và biên dưới của hình chữ nhật bao các đặc trưng cục bộ của khuôn mặt.Tương tự với chiều đứng để tìm ra đường biên bên trái và phải cho các vùngđặc trưng

Năm 1998, A Nefian và Monson H Hayes trình bày hướng tiếp cận theo

mô hình Marko ẩn (HMM) trong đó ảnh khuôn mặt được lượng hoá thànhchuỗi quan sát trên khuôn mặt theo quan niệm dựa trên thứ tự xuất hiện cácđặc trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm} Trongchuỗi quan sát đó, mỗi quan sát là một vector nhiều chiều sẽ được sử dụng đểđặc trưng cho mỗi trạng thái trong chuỗi trạng thái của HMM Mỗi người sẽđược ước lượng bởi một mô hình của HMM

Năm 2001, Guodong Guo, Stan Z Li, Kap Luk Chan sử dụng phươngpháp SVM để nhận dạng khuôn mặt, sử dụng chiến lược kết hợp nhiều bộphận loại nhị phân để xây dựng bộ phân loại SVM đa lớp

Trang 33

Nhận dạng mặt người là một trong những bài toán khó khăn nhất tronglĩnh vực nhận dạng ảnh Một khuôn mặt người không chỉ là đối tuợng bachiều mà còn là một thực thể mang tính động rất cao Ngoài ra, do ảnh mặtngười thường được chụp tronmg điều kiện môi trường tự nhiên nên thôngthường nền ảnh rất phức tạp và độ chiếu sáng có thể rất kém là một ví dụ vềmột bức ảnh với nền phức tạp có chứa mặt người.

Các yếu tố xuất hiện trên ảnh tạo nên khó khăn cho hệ thống nhận dạng cóthể được phân thành các loại sau đây

 Máy ảnh không rõ và nhiễu

 Nền phức tạp

 Độ sáng

 Sự dịch chuyển, xoay , biến đổi tỉ lệ giữa các thành phần

 Cảm xúc thể hiện trên gương mặt

 Hoá trang, kiểu tóc

Sự không rõ của máy ảnh và nhiễu là hai hạn chế rất cơ bản trong bài toánnhận dạng Nhiều nhà nghiên cứu đã đưa ra một số phưưong pháp nhằm giatăng tỉ lệ giữa độ lớn tín hiệu so với cường độ nhiễu Để giải quyết vấn đề nềnảnh phức tạp, các bộ nhận dạng hay phân lớp phải nhận được kết quả đáng tincậy từ bộ dò tìm gương mặt, vì thế bộ phận này phải được thiết kế với độchính xác cao Độ sáng cũng là một yếu tố tác động đến kêt quả nhận dạng, và

để làm giảm bớt tác động của nó, người ta thường sử dụng các kỹ thuật tăngcường ảnh như threshold động, cân bằng histogram, hoặc sử dụng mạngnơron để rút chích đặc trưng Một tiếp cận khác để giảm ảnh hưởng của dọsáng là sử dụng các mặt riêng nhận được thông qua phép phân tích thành phầnchính Chúng ta sẽ tìm hiểu phương pháp này một cách chi tiết ở phần sau

Sự chuyển dịch, xoay, hay tỉ lệ của ảnh mặt người cũng cần phải đượcgiải quyết trong giai đoạn dò tìm gương mặt Trong số các yếu tố này, yếu tố

Trang 34

cửa sổ (Window) Vấn đề tỉ lệ sẽ được giải quyết nến chúng ta biểu diễn mỗiảnh dưới dạng tập các ảnh với độ phân giải khác nhau Cuối cùng, thách thứcthực sự nằm ở các ảnh mặt bị xoay theo ba trục.

ảnh gương mặt với những trạng thái cảm xúc hay kiểu tóc khác nhau cũng

là hai vấn đề quan trọng Nếu đứng dưới góc độ thực thể tĩnh thì gương mặtđang mỉm cười và một gương mặt đang nhăn nhó là hai khuôn dạng ảnh hoàntoàn khác nhau Một phương pháp được đưa ra để giải quyết vấn đề thay đổicảm xúc trên gương mặt này là thay vì sử dụng toàn bộ gương mặt cho quátrình nhận dạng, người ta chỉ dùng vùng gương mặt “đáng kể nhất” Vùng nàynằm xung quanh tâm gương mặt và chỉ chứa hai mắt và lỗ mũi, loại bỏ đimiệng và hai lỗ tai Các kết quả thực nghiệm cho thấy, cảm xúc và kiểu tóckhông ảnh hưởng nhiều đến vùng mặt này, và do đó vùng mặt này vẫn có thể

sử dụng được trong quá trình nhận dạng Là ví dụ về vùng “đáng kể nhất”của gương mặt

Cuối cùng, việc hoá trang không tác động đáng kể đến quá trình dò tìmmặt, trừ trường hợp gương mặt được hoá trang qua mức như trog điện ảnhhay sân khấu Là kết quả của bộ dò tìm được áp dụng trên ảnh có gương mặtđược hoá trang Trong hình này, gương mặt của người đóng vai trò quỷ dữ đã

bị bõ qua bởi bộ dò tìm

thông thường cơ sở dữ liệu của các hệ thống nhận dạng mặt người khônglưu trữ ảnh mặt được hoá trang, vì vậy tất nhiên trong quá trình nhân dạngloại ảnh này cũng không được sử dụng

3.5 Áp dụng phương pháp PCA, FLD vào bài toán nhận dạng ảnh mặt người

3.5.1 Phương pháp PCA – Principal Component Analysis.

Lưu đồ thuật toán:

Định dạng
Số trang	67
Dung lượng	2,91 MB