Nhận dạng khuôn mặt là một trong số ít các phương pháp nhận dạng dựavào đặc trưng sinh lý cho kết quả chính xác cao đồng thời rất thuận tiện khi sửdụng.. Ta nhận thấy có các đặc điểm sau
Trang 1LỜI NÓI ĐẦU 3
CHƯƠNG 1 : MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ SỬ LÝ ẢNH SỐ 6
1.1 Một số khái niệm cơ bản 6
1.2 Biểu diễn ảnh 7
1.3 Biến đổi ảnh xám 9
CHƯƠNG 2 : LÝ THUYẾT VỀ PCA VÀ FLD 10
2.1 Phương pháp thống kê đối với bài toán nhận dạng mẫu 10
2.1.1 Trung bình, độ lệch chuẩn, phương sai 10
2.1.2 Hiệp sai, ma trận hiệp sai 13
2.2 Nhận dạng ảnh và phép biến đổi tuyến tính 18
2.2.1 Nhận dạng ảnh: 18
2.2.2 Phép biến đổi tuyến tính: 19
2.3 Lý thuyết về PCA - Principal Component Analysis 20
2.4 Lý thuyết về FLD – Fisher’s Linear Discriminant 26
2.3 Kết luận chung về hai phương pháp 29
CHƯƠNG 3 : BÀI TOÁN NHẬN DẠNG ẢNH MẶT NGƯỜI 31
3.1 Nhận dạng ảnh mặt người là gì(Identification, Recognition) 31
3.2 Các bước của quá trình nhận dạng 31
3.3 Các nghiên cứu trước đây 32
3.4 Một số khó khăn trong bài toán nhận dạng ảnh mặt người 34
3.5 Áp dụng phương pháp PCA, FLD vào bài toán nhận dạng ảnh mặt người 36
3.5.1 Phương pháp PCA – Principal Component Analysis 36
3.5.2 Phương pháp FLD - Fisher Linear Discriment 40
3.6 Dò mắt và mũi người 42
CHƯƠNG 4 : CÀI ĐẶT CHƯƠNG TRÌNH NHẬN DẠNG ẢNH MẶT NGƯỜI 45
4.1 Cài đặt 45
4.1.1 PCA – Principal Component Analysis 45
4.1.2 FLD – Fisher Linear Discriment 46
4.2 Hướng dẫn sử dụng chương trình 49
4.3 Kết quả thực nghiệm 53
4.3.1 Thực nghiệm với các ngưỡng khác nhau cho PCA 53
4.3.2 Kết quả thực nghiệm so sánh PCA và FLD với số người trong tập huấn luyện khác nhau 53
KẾT LUẬN 54
Tài liệu tham khảo 56
PHỤ LỤC 1 57
PHỤ LỤC 2 59
Trang 2LỜI NÓI ĐẦU
Thế giới ngày nay với sự phát triển mạnh mẽ của kỹ thuật số và mạngtoàn cầu, vấn đề đảm bảo an toàn về thông tin cũng như vật chất trở nên ngàycàng quan trọng và khó khăn Thỉnh thoảng chúng ta lại nghe nói đến những
vụ đánh cắp thẻ tín dụng, đột nhập trái phép vào các hệ thống máy tính haytoà nhà của cơ quan nhà nước, chính phủ Hơn 100 triệu đô la là con số đã bịthất thoát ở Mỹ vào năm 1998 do các vụ gian lận và xâm nhập nói trên (theoReuters, 1999) Trong đa số các vụ phạm pháp này, tội phạm đã lợi dụngnhững khe hở cơ bản trong quá trình truy cập vào các hệ thống thông tin vàkiểm soát Phần lớn những hệ thống này không thực hiện quyền truy cập củangười sử dụng dựa vào thông tin “chúng ta là ai” mà chỉ dựa vào “chúng ta cógì” Nói cách khác, thông tin mà người sử dụng cung cấp cho hệ thống khôngđặc trưng được cho bản thân họ, mà chỉ là những gì họ hiện đang sở hữu như
số chứng minh nhân dân, chìa khoá, mật mã, số thẻ tín dụng hoặc họ tên Rõràng những thông tin hay vật dụng này không mang tính đặc trưng mà chỉmang tính xác thực đối với người sử dụng, và nếu chúng bị đánh cắp hay saochép thì kẻ trộm hoàn toàn có quyền truy nhập, sử dụng dữ liệu hay phươngtiện của chúng ta bất cứ lúc nào họ muốn
Nhận dạng khuôn mặt là một trong số ít các phương pháp nhận dạng dựavào đặc trưng sinh lý cho kết quả chính xác cao đồng thời rất thuận tiện khi sửdụng Hơn nữa, trong số các đặc trưng sinh lý học, khuôn mặt của mỗi người
là yếu tố đầu tiên và quan trọng nhất cho việc nhận biết lẫn nhau cũng nhưbiểu đạt cảm xúc Khả năng nhận dạng nói chung và khả năng nhận biếtkhuôn mặt người nói riêng của con người thật đáng kinh ngạc Chúng ta cókhả năng nhận ra hàng ngàn khuôn mặt của những người mình đã gặp, đãgiao tiếp trong cuộc sống chỉ bằng một cái nhìn thoáng qua, thậm chí sau
Trang 3khuôn mặt người đã thu hút rất nhiều nhà triết học, nhà khoa học qua nhiềuthế kỷ, trong đó có cả Aristotle và Darwin Chính vì những lý do trên, từnhững năm 1970, nhận dạng mặt người đã thu hút sự quan tâm của nhiều nhànghiên cứu trong các lĩnh vực như bảo mật, tâm lý học, xử lý ảnh và thị giácmáy tính.
Nhằm nâng cao hiểu biết của mình về lĩnh vực nhận dạng mặt người nóiriêng và kỹ thuật xử lý ảnh nói chung em nhận đề tài:
“Nghiên cứu xây dựng phần mềm nhận dạng ảnh theo thuật toán PCA, FLD” cho đồ án tốt nghiệp của mình.
Đề tài đặt ra với mục tiêu:
Nghiên cứu hai phương pháp Principal Component Analysis – PCA,Fisher’s Linear Discriment – FLD áp dụng cho bài toán nhận dạng ảnh khuônmặt người và xây dựng ứng dụng nhận dạng ảnh mặt người theo hai phươngpháp này
Nội dung đồ án tốt nghiệp chia thành 4 chương, 2 phụ lục:
Chương 1: Một số vấn đề cơ bản về xử lý ảnh
Giới thiệu những khái niệm cơ bản về ảnh số, điểm ảnh, biểu diễn ảnh,ảnh xám, ảnh mầu, cách biến đổi ảnh xám
Chương 2: Lý thuyết về PCA, FLD
Giới thiệu những nội dung cơ bản của hai phương pháp PCA và FLD vàđưa ra những kết luận chung về hai phương pháp này Trong phần này Emcũng giới thiệu những kiến thức toán học liên quan như phương pháp thống
kê trong bài toán nhận dạng mẫu, phép biến đổi tuyến tính, ma trận hiệp sai
và đặc trưng của nó
Chương 3: Bài toán nhận dạng ảnh mặt người
Giới thiệu về bài toán nhận dạng ảnh mặt người Nhận dạng ảnh là gì, cácbước của quá trình nhận dạng, các nghiên cứu trước đây về bài toán nhậndạng ảnh mặt người, đưa ra những khó khăn trong bài toán nhận dạng ảnh mặt
Trang 4người Áp dụng thuật toán PCA và FLD cho bài toán nhận dạng ảnh mặtngười.
Chương 4: Cài đặt chương trình nhận dạng ảnh mặt người
Cài đặt chương trình đồng thời thể hiện các bước của quá trình nhận dạng
và giới thiệu ứng dụng đã xây dựng, cách sử dụng
Trong quá trình nhận và thực hiện đồ án của mình Em xin chân thành cám
ơn thầy giáo PGS.TS cùng các thầy cô trong khoa Công Nghệ Thông Tin
-đã tận tình giúp đỡ để Em hoàn thành đồ án tốt nghiệp của mình
CHƯƠNG 1 : MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ SỬ LÝ ẢNH SỐ
1.1 Một số khái niệm cơ bản
Pixel (picture element - điểm ảnh )
Trang 5tín hiệu liên tục thành tín hiệu rời rạc Một ảnh khi được số hoá là tập hợp
các điểm ảnh, nó được biểu diễn bởi mảng 2 chiều I(n,p) trong đó n- số
dòng, p- số cột Ta nói ảnh gồm nxp điểm ảnh, ký hiệu I(x, y) là giá trị
điểm ảnh tại vị trí dòng y cột x
Ảnh đen trắng, ảnh đa mức xám, ảnh màu
Ảnh đen trắng, ảnh đa cấp xám: gồm 2 màu (đen, trắng), người ta
phân các mức độ (L) đen trắng như sau:
+L=2: ảnh gồm 2 mức, mức 0 ứng với màu tối, mức 1 ứng với màu
sáng Ảnh này gọi là ảnh nhị phân Mỗi điểm ảnh được mã hoá trên
1 bit
+L>2: Ảnh đa mức xám, việc xác định số mức phụ thuộc vào tiêu
chuẩn lượng hoá, L thường được chọn là 32, 64, 126, 256 Thường
sử dụng mức 256, mỗi điểm ảnh được mã hoá bằng 8 bit (28= 256)
Ảnh màu là ảnh được tổ hợp từ 3 màu cơ bản: Red (đỏ), Green
(xanh lục), Blue (xanh lơ) Mỗi điểm ảnh gồm 3 thành phần màu cơ
bản:R, G, B Mỗi màu phân thành L cấp khác nhau (L thường là
256) Như vậy để lưu trữ một ảnh màu ta phải lưu trữ 3 lớp màu cơ
bản của ảnh, mỗi lớp màu tương đương với một ảnh đa cấp xám
Do đó không gian lưu trữ ảnh màu lớn gấp 3 lần so với không gian
lưu trữ ảnh xám cùng kích thước
1.2 Biểu diễn ảnh
Ảnh số đa mức xám được biểu diễn bằng ma trận 2 chiều f(x,y) trong
đó các phần tử là giá trị điểm màu của ảnh
1) - N f(1,
f(1,1)
f(1,0)
1) - N f(0,
f(0,1)
)
0 , 0 ( f )
,
f
Trang 6Như vậy nếu ta có một ảnh kích thước 800x600 thì khi biểu diễn thành
ma trận 2 chiều có số hàng là 600, số cột là 800, mỗi phần tử của ma trận có
giá trị từ 0-255
Đối với ảnh màu, mỗi phần tử của mảng 2 chiều là một bộ giá trị RGB
Phần tử f(i,j) của ma trận có dạng
f(i, j)=(B(i, j), G(i, j), R(i, j))
Giá trị điểm ảnh tại điểm (i, j) được tính:
f(i,j) = h (B(i, j), G(i, j), R(i, j))= B(i,j)*2562 + G(i, j)*256 + R(i, j)
Mô hình RGB:
Hệ này mô tả màu sắc thông qua 3 thành phần màu cơ bản là Red, Green và
Blue Có thể mô xem xét mô hình RGB trong không gian 3 chiều như hình
1.2.1
Mọi điểm nằm trong khối hộp chữ nhật có toạ độ (r,g,b) thể hiện một màu
Màu nằm trên đường chéo (0,0,0) - (1,1,1) (3 thành phần R, G, B bằng nhau)
->thể hiện mức xám
Red=(1,0,0) Black=(0,0,0)
Magenta=(1,0,1)
White=(1,1,1) Green=(0,1,0)
Yellow=(1,1,0)
Hinh 1.2.1 - Mô hình màu RGB
Ví dụ ma trận biểu diễn ảnh màu kích thước 3x3 như sau
Trang 7Thông thường các ảnh chúng ta gặp trong thực tế là các ảnh mầu gồm 3thành phần (R,G,B) như vậy trong quá trình nhận dạng mà ta dung cả 3 thànhphần mầu này thì kích thước ảnh nhận dạng quá lớn như vậy một điều đặt ra
là ta tìm một phép biến đổi sao cho có thể đưa ảnh về biểu diễn ở dạng toánhọc thuận tiện cho quá trình nhận dạng
Phép biến đổi xám đưa mỗi điểm ảnh mầu 3 thành phần về một thànhphần theo công thức:
Gray(i,j) = (byte)(114 * B(i,j) + 587 * G*(i,j) + 299 * R(i,j) / 1000;
Giá trị này được tính thong qua tỷ lệ đặc trưng của các mầu mà vẫn giữđược những đặc trưng cơ bản của ảnh
Ta nhận thấy kích thức của mẫu cần nhận dạng bằng 1/3 đôí với ảnh mầu.Như vậy một ảnh mầu MxN sẽ được đưa về một ma trận(MxN) mức xámGray(i,j) với 0<=i<=M,0<=j<=N
Hình 1.3.1 Biến đổi xám từ ảnh mầuVới Gray(i,j) được tính theo phương trình ở trên
Với biến đổi nhị phân thì Gray(i,j) = 0 nếu Gray(i,j)<= Threshold, Gray(i,j) =
1 nếu ngược lại với 0<=Threshold <=255
Trang 8CHƯƠNG 2 : LÝ THUYẾT VỀ PCA VÀ FLD
2.1 Phương pháp thống kê đối với bài toán nhận dạng mẫu
2.1.1 Trung bình, độ lệch chuẩn, phương sai
Trang 9>> X=[12 23 34 44 59 70 98];
>> mean(X)
ans = 48.5714
Xem đồ thị sự phân bố trong không gian 2 chiều
Hình 2.1.1.1 Phân bố Mean quanh giá trị trung bình
Ta nhận thấy Mean có xu hướng ở trung tâm của tập mẫu đã cho
Độ lệch chuẩn của tập X(Standard Deviation - SD):
Kí hiệu s
Tính theo công thức:
Trang 11Như vậy các phần tử của X2(Xanh) gần giá trị Mean hơn X1(Đỏ).Khi s = 0 thì tất cả các phần tử của tập bằng giá trị Mean.
Phương sai:
(Variance)Kí hiệu s2 có độ lớn là bình phương của độ lệch chuẩn, có
ý nghĩa như độ lệch chuẩn
1
n i i
kê cho ta biết mối quan hệ giữa các chiều
Trang 12“Tích sự sai lệch các phần tử của X với giá trị trung bình và sự sailệch của Y với trung bình chia cho (n-1)”.
Ví dụ: Xét mối quan hệ của kết quả học tập và thời gian học tập(sốliệu cho dưới bảng) với 2 chiều Hours(H)- Giờ học tập và Mark(M) –kết quả thu được
Trang 13Qua ví dụ ta nhận thấy:
Giá trị của Cov không quan trọng bằng dấu của chúng Khi có giátrị dương thì cho ta biết 2 chiều này tăng cùng nhau và khi giá trị âmthì một chiều tăng chiều kia giảm Qua thí dụ trên ta thấy một điều khigiờ học cao lên thì kết quả học tập cũng tôt lên
Khi Cov = 0 thì hai chiều độc lập nhau nghĩa là sao? Kết quả họctập không phụ thuộc vào giờ học
Ma trận hiệp sai:
Cho N mẫu X X1, 2, , XN với X i x x i1, i2, ,x iMT i 1 N
là các vector M-chiều, xét tập mẫu X X X1, 2, , XN
1
1 N
i i
Trang 14 Between Scatter và Within Scatter:
Giả sử tập dữ liệu được mô hình như hình vẽ(Minh hoạ Với hai lớp dữliệu)
Trang 15Between-scatter Matrix - Ma trận hiệp sai giữa các lớp
i là Mean của lớp i
là trung bình của cả tập mẫu.
| i | là số mẫu của lớp i
Nhận xét:
Trang 16 Ma trận SB đặc trưng cho sự phân bố trung bình của các mầu xungquanh trung bình của cả lớp.
Ma trận SW đặc trưng cho sự phân bố các phần tử của lớp xung quanhtrung bình của lớp
2.2 Nhận dạng ảnh và phép biến đổi tuyến tính.
2.2.1 Nhận dạng ảnh:
Biểu diễn ảnh trong không gian
Hình 2.2.1.1 Biến đổi ảnh thành vector
Hình 2.2.1.2 Thể hiện ảnh trong không gian
Mỗi ảnh được chuyển về 1 vector, thông thường các ảnh còn giữ đượcnhững đặc trưng cơ bản của khuôn mặt có kích thước(100*100),(200*180)
Trang 17như vậy mỗi một ảnh được biểu diễn là một điểm trong không gian 36.000chiều Ta nhận thấy có các đặc điểm sau:
Các ảnh khuôn mặt người nằm trong một vùng nhỏ nhất định của hệkhông gian gọi là không gian mặt
Các ảnh giống nhau thì gần nhau trong không gian mặt
Các ảnh khác nhau thì xa nhau trong không gian mặt
Nhận dạng một ảnh là tìm một khuôn mặt gần nó nhất trong không gianmặt, theo một độ đo nào đó(i.e Euclide…)
Nhược điểm:
Khi có sự thay đổi nhỏ về ánh sang, cảm xúc, hướng đầu thì các giá trịảnh thay đổi rất nhiều và dẫn đến vị trí của chúng trong không gian mặtthay đổi rất nhanh như vậy quá trình nhận dạng sẽ kém chính xác
Dung lượng để lưu các đặc trưng lớn
Giải pháp:
Giảm số chiều dữ liệu – thông qua phép biến đổi tuyến tính.
2.2.2 Phép biến đổi tuyến tính:
T
với Y K, X N K N và các vector cột của AT trực giao
Ý nghĩa của phép biến đổi này cho phép ta giảm số chiều của dữ liệu (N
Trang 18Làm sao để có các phép biến đổi tuyến tính hiệu quả? Nghĩa là ta phải tìm
A như thế nào? Sau đây ta nghiên cứu hai phương pháp Principal Component Analysis – PCA và Fisher’s Linear Discriment – FLD Dùng để xác định A.
Hai phương pháp này thực hiện giảm số chiều dữ liệu dựa trên phươngpháp thống kê để thực hiện trích chọn mẫu nhưng vẫn giữ được những đặctrưng cơ bản của các mẫu ban đầu (Sự phân bố các mẫu) Sau đây ta đi vàonghiên cứu từng phương pháp
2.3 Lý thuyết về PCA - Principal Component Analysis[5 Trang 331-340].
Phương pháp PCA:
Thực hiện giảm số chiều và đảm bảo tối đa sự phân tán dữ liệu
Ý nghĩa của sự phân tán dữ liệu là đảm bảo các đặc trưng trong khônggian mới phân bố rộng (tính khác nhau) như vậy các mẫu khác nhau thìđảm bảo xa nhau do vậy việc nhận dạng sẽ chính xác hơn
Nghiên cưú phương pháp
Có nhiều tên cho Principal Components Analysis-PCA và nó đượcdung nhiều trong nghiên cứu và ứng dụng PCA cùng nghĩa vớiKarhunen-Loeve (KL) transform, Hoteling transform, EgenvalueAalysis, Eigenvector Dcomposion và Spectral Decomposion Trongphân tích ảnh nó được dung để giảm số chiều và tìm không gian con(subspace) mà trong đó việc nhận dạng tốt hơn trong khônng gian với
số chiều đầy đủ Không những thế nó còn có thuận tiện khi lưu trữ,chuyển đổi và xử lý thuận tiện
Xem tập quan sát gồm K-vectors
1, , , , ,2 k K
Trong không gian M-chiều
Trang 19Không gian của tập quan sát có thể được thể hiện qua một số cơ sở giảsử.
Việc chọn cơ sở có vấn đề gi? Có bởi vì trong ứng dụng chúng takhông đử tất cả các cơ sở M-chiều do nhiều lý do khác nhau như Mquá lớn Ta có thể biểu diễn mỗi quan sát N thông qua ít vector hơn
Trang 20Nhận thấy điều khác nhau duy nhất giữa E.q 2.17 và 2.16 là số lấytổng N và M theo thứ tự mỗi phương trình của 2.17 được thể hiện qua2.17 ta được các vector
f1~, f2~, , fk~, , fK~ (2.18)Như vậy sai số của xấp xỉ mỗi quan sát là :
Trang 21k k
Trang 22 (2.28)Thoả mãn 12 N 0 là các trị riêng của S(Do S đối xứng lên
có các trị riêng thực 0 [Bổ đề 3])
Đây là ma trận phân bố các quan sát Theo cách xây dựng thì S là
ma trận nửa xác định riêng nghĩa là 0g Sg T với g E M thay
Trang 23Ta nhận thấy xấp xỉ không lồi khi mà fk~ fk nghĩa là ta dungtất cả các vector cơ sở (i.e N=M Phương trình 2.24 và 2.27).
Biểu diễn 2.29 thể hiện khi ta chọn N-vectors riêng và sai số xấp
xỉ là nhỏ nhất và bằng tổng M-N trị riêng bé nhất của S (2.28) thành
1 2
1 2 1
~ f1~, f2~, , f K~, f f1, , ,2 f N, N 1, 2, ,K (2.33)
với 1, 2, ,K là K-vectors riêng tương ứng với K-trị riêng lớnnhất của S(2.28)- ma trận hiệp sai của tập quan sát ban đầu
Như ta biết phép biến đổi trực giao không làm thay đổi Trace-Vết của
ma trận mà phép biến đổi cơ sở này giứ lại K-vectors riêng ứng với K-trịriêng lớn nhất Nghĩa là ta sự phân bố các mẫu trong tập dữ liệu mới thuđược luôn là lớn nhất
Theo các kết quả nghiên cứu thong thường ta chọn K sao cho
Trang 24với ilà các trị riêng của ma trận hiệp sai và.1 2 N
2.4 Lý thuyết về FLD – Fisher’s Linear Discriminant[4, Trang 436-472]
Có hai kiểu tiêu chuẩn thường được sử dụng trong nghiên cứu Một là dựatrên họ các hàm về ma trận phân bố chúng được tính toán đơn giản và cho tamột hệ thống các thuật toán trích chọn đặc trưng Tiêu chuẩn để đo sự phân
bố của L-classcs thứ hai là họ các tiêu chuẩn cho ta biên trên của các lỗiBayes
Ma trận phân bố và tiêu chuẩn phân bố:
Trong phân tích phân biệt của thống kê, Ma trận phân bố trong lớp, ngoàilớp và của tất cả được sử dụng để tính các tiêu chuẩn phân lớp
Ma trận phân bố trong một lớp cho ta biết sự phân bố các mẫu tương ứngvới kỳ vọng của lớp và cho bởi công thức
Trang 25Ma trận phân bố của cả tập là ma trận hiệp sai của tất cả các mẫu và đượcxác định theo công thức
Trong yêu cầu của các tiêu chuẩn phân lớp, ta cần chuyển ma trận thành
số để rễ đánh giá Giá trị này lớn khi sự phân bố giữa các lớp lớn hoặc sựphân bố trong các lớp nhỏ dưới đây là một số công thức điển hình
giá theo công thức (2.38) gọi là Fisher’s Linear Discriminant - FLD.
Xét trong biến đổi tuyến tính Một phép biến đổi tuyến tính N-chiều Xvào M-chiều Y (M<N) được thể hiện theo công thức
T
Y A X (2.42)
Trang 26với A[NxM] và các cột của A độc lập tuyến tính Da các ma trận
W
, or
S S S là các ma trận hiệp sai S S1, 2trong không gian Y-space có
thể được tính thong qua S S1, 2 trong không gian X-space theo công thức
2X 1X 2Y 1Y
(2.46)Hai ma trận s ands1Y 2Y có thể được chéo hoá thành m và Imqua phépbiến đổi tuyến tính Z B YT như sau:
B S B B S B (2.47)
Ở đây B là ma trận không suy biến và tồn tại B1
Ta nhận thấy giá trị điều kiện bất biến với phép biến đổi không suy biến từ
Y -> Z
Trang 27
1 1
Do vết của ma trận là tổng các trị riêng lên
Trang 28
Ta cần maximize J1(m) bằng cách chọn m trị riêng lớn nhất tương ứng với
m vector riêng của ma trận S S2X1 1X
thì J1(m) là tổng của m trị riêng tươngứng hơn thế nữa vơi bất kỳ ma trận chuyển đổi không suy biến không làmthay đổi giá trị của J1(m) do vậy gái trị này gắn với không gian và bất biến vớicác hệ toạ độ trong không gian
Do vậy ta có thể A là m vectors riêng tương ứng với m - trị riêng lớn nhất của S S21X 1X
2.3 Kết luận chung về hai phương pháp
Phương pháp PCA:
Thực hiện giảm số chiều và đảm bảo tối đa sự phân tán dữ liệu
Ý nghĩa của sự phân tán dữ liệu là đảm bảo các đặc trưng trong khônggian mới phân bố rộng (tính khác nhau) như vậy các mẫu khác nhau thìđảm bảo xa nhau do vậy việc nhận dạng sẽ chính xác hơn
Trang 29CHƯƠNG 3 : BÀI TOÁN NHẬN DẠNG ẢNH MẶT NGƯỜI
3.1 Nhận dạng ảnh mặt người là gì(Identification, Recognition)
Xác nhận một người là ai trong cơ sở dữ liệu của hệ thống Là người gầnkhuôn mặt cần nhận dạng nhất theo một khoảng cách nào đó (e.g Euclide)
Trang 303.2 Các bước của quá trình nhận dạng
Tiền xử lý(Pre-Processing)
Chức năng này chuẩn hoá ảnh cần nhận dạng giúp cho việc tìm kiếmnhanh và chính xác hơn
Chuẩn hóa kích thước khuôn mặt (Face Size Normalization)
Hiệu chỉnh độ sang tối của ảnh(Histogram Equalization, GamaCorrelation)
Lọc nhiễu (Median Filtering)
Chuẩn hoá về tư thế và vị trí khuôn mặt(Translation and Rotational)
Trích chọn đặc trưng(Face - Extraction )
Tìm ra các đặc trưng chính của khuôn mặt, từ các đặc trưng này hìnhthành vector đặc trưng (feature vector), các vector này sẽ được dung để đốisánh sự giống nhau giữa ảnh khuôn mặt cần tìm và các ảnh trong cơ sở dữliệu
So sánh(Comparision)
Thực hiện việc so sánh giữa các vector đặc trưng để chọn ra khoảng cáchgiữa ảnh cần tìm và các ảnh trong có sở dữ liệu Một số độ đo hay sử dụngnhư Euclide, Mahalanobis…
3.3 Các nghiên cứu trước đây
Rất nhiều nghiên cứu tập trung vào lĩnh vực nhận dạng ảnh mặt ngườiđiển hình mhư:
Năm 1966, Bledsoe đã xây dựng hệ nhận dạng bán tự động đầu tiên có sựtương tác giữa người và máy Đặc trưng dùng để phân lớp là các dấu hiệu cơbản được con người thêm vào các ảnh Các tham số sử dụng trong quá trình
Trang 31Năm 1971, phòng thí nghiệm Bell đưa ra hệ nhận dạng dựa vào vector đặctrưng chiều và sử dụng các kỹ thuật phân lớp mẫu để nhận dạng Tuy nhiên,các đặc trưng này được lựa chọn một cách rất chủ quan (như màu tóc, chiềudài vành tai,…) và rất khó khăn cho quá trình tự động hoá Fischer vàElschlager năm 1973 đã cố gắng đo lường các đặc trưng tương tự nhau mộtcách tự động Họ đưa ra một thuật toán tuyến tính so khớp các đặc trưng cục
bộ kết hợp với các độ đo thích nghi toàn cục để tìm kiếm và định lượng cácđặc trưng của gương mặt
Hệ thống của Kanade năm 1973 có lẽ là hệ thống đầu tiên và là một trong
số ít các hệ thống trong đó các bước nhận dạng được thực hiện hoàn toàn tựđộng, sử dụng chiến lược điều khiển từ trên xuống được định hướng bởi cácđặc trưng được chọn Hệ thống này tìm tập các tham số của gương mặt từ mộtảnh đưa vào, sau đó sử dụng các kỹ thuật nhận dạng để so khớp với tập tham
số của các ảnh đã biết Đây là kỹ thuật thống kê thuần tuý chủ yếu phụ thuộcvào phân tích histogram cục bộ và các giá trị độ xám tuyệt đối
Năm 1991, M Turk và A Pentland đã sử dụng phương pháp phân tích thành phần chính trong lý thuyết thông tin để đặc trưng cho các ảnh mặt người Ý tưởng chính của phương pháp này là tìm kiếm một không gian có số chiều nhỏ hơn, thực chất là tìm kiếm một hệ vector cơ sở sao cho hình chiếu của đám mây điểm trên chúng thể hiện rõ nét nhất hình dạng của đám mây điểm Đám mây điểm ở đây chính là tập các vector ảnh mặt trong không gian
có chiều bằng kích thước của ảnh Mỗi ảnh mặt người sau đó sẽ được chiếu lên không gian con này, và bộ thông số nhận được từ phép chiếu này được xem như vector đặc trưng cho từng ảnh mặt.
Năm 1998, K Okada, J Steffens, T Maurer, Hai Hong, E Elagin, H.Neven và Christoph đưa ra mô hình nhận dạng mặt người bằng sóng Gabor vàphương pháp phù hp đồ thị bó Với ý tưởng dùng đồ thị để biểu diễn gương
Trang 32với một ảnh, các điểm chuẩn sẽ được trích ra từ ảnh và được so sánh với tất cảcác điểm chuẩn tương ứng trong các đồ thị khác nhau, và đồ thị nào phù hợpnhất với ảnh sẽ được chọn
Năm 1998, J Huang, C Liu và H Wechsler đề xuất thuật toán căn cứ trêntính tiến hoá và di truyền cho các tác vụ nhận dạng khuôn mặt Trong các tiếpcận này, hai mắt sẽ được dò tìm trước tiên và thông tin này được xem là vết
để quan sát gương mặt, trình xử lí dò tìm mắt được tiếp tục thực hiện bằngcách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hoá
Năm 1998, Oi Bin Sun, Chian Prong Lam và Jian Kang Wu sử dụngphương pháp tìm vùng hai chân mày, hai mắt, mũi miệng và cằm Ảnh khuônmặt thẳng ban đầu được chiếu theo chiều ngang để tìm các giá trị điềm ảnhthoả ngưỡng cho trước, đồ thị biểu diễn theo trục ngang sẽ định vị biên trên
và biên dưới của hình chữ nhật bao các đặc trưng cục bộ của khuôn mặt.Tương tự với chiều đứng để tìm ra đường biên bên trái và phải cho các vùngđặc trưng
Năm 1998, A Nefian và Monson H Hayes trình bày hướng tiếp cận theo
mô hình Marko ẩn (HMM) trong đó ảnh khuôn mặt được lượng hoá thànhchuỗi quan sát trên khuôn mặt theo quan niệm dựa trên thứ tự xuất hiện cácđặc trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm} Trongchuỗi quan sát đó, mỗi quan sát là một vector nhiều chiều sẽ được sử dụng đểđặc trưng cho mỗi trạng thái trong chuỗi trạng thái của HMM Mỗi người sẽđược ước lượng bởi một mô hình của HMM
Năm 2001, Guodong Guo, Stan Z Li, Kap Luk Chan sử dụng phươngpháp SVM để nhận dạng khuôn mặt, sử dụng chiến lược kết hợp nhiều bộphận loại nhị phân để xây dựng bộ phân loại SVM đa lớp
Trang 33Nhận dạng mặt người là một trong những bài toán khó khăn nhất tronglĩnh vực nhận dạng ảnh Một khuôn mặt người không chỉ là đối tuợng bachiều mà còn là một thực thể mang tính động rất cao Ngoài ra, do ảnh mặtngười thường được chụp tronmg điều kiện môi trường tự nhiên nên thôngthường nền ảnh rất phức tạp và độ chiếu sáng có thể rất kém là một ví dụ vềmột bức ảnh với nền phức tạp có chứa mặt người.
Các yếu tố xuất hiện trên ảnh tạo nên khó khăn cho hệ thống nhận dạng cóthể được phân thành các loại sau đây
Máy ảnh không rõ và nhiễu
Nền phức tạp
Độ sáng
Sự dịch chuyển, xoay , biến đổi tỉ lệ giữa các thành phần
Cảm xúc thể hiện trên gương mặt
Hoá trang, kiểu tóc
Sự không rõ của máy ảnh và nhiễu là hai hạn chế rất cơ bản trong bài toánnhận dạng Nhiều nhà nghiên cứu đã đưa ra một số phưưong pháp nhằm giatăng tỉ lệ giữa độ lớn tín hiệu so với cường độ nhiễu Để giải quyết vấn đề nềnảnh phức tạp, các bộ nhận dạng hay phân lớp phải nhận được kết quả đáng tincậy từ bộ dò tìm gương mặt, vì thế bộ phận này phải được thiết kế với độchính xác cao Độ sáng cũng là một yếu tố tác động đến kêt quả nhận dạng, và
để làm giảm bớt tác động của nó, người ta thường sử dụng các kỹ thuật tăngcường ảnh như threshold động, cân bằng histogram, hoặc sử dụng mạngnơron để rút chích đặc trưng Một tiếp cận khác để giảm ảnh hưởng của dọsáng là sử dụng các mặt riêng nhận được thông qua phép phân tích thành phầnchính Chúng ta sẽ tìm hiểu phương pháp này một cách chi tiết ở phần sau
Sự chuyển dịch, xoay, hay tỉ lệ của ảnh mặt người cũng cần phải đượcgiải quyết trong giai đoạn dò tìm gương mặt Trong số các yếu tố này, yếu tố
Trang 34cửa sổ (Window) Vấn đề tỉ lệ sẽ được giải quyết nến chúng ta biểu diễn mỗiảnh dưới dạng tập các ảnh với độ phân giải khác nhau Cuối cùng, thách thứcthực sự nằm ở các ảnh mặt bị xoay theo ba trục.
ảnh gương mặt với những trạng thái cảm xúc hay kiểu tóc khác nhau cũng
là hai vấn đề quan trọng Nếu đứng dưới góc độ thực thể tĩnh thì gương mặtđang mỉm cười và một gương mặt đang nhăn nhó là hai khuôn dạng ảnh hoàntoàn khác nhau Một phương pháp được đưa ra để giải quyết vấn đề thay đổicảm xúc trên gương mặt này là thay vì sử dụng toàn bộ gương mặt cho quátrình nhận dạng, người ta chỉ dùng vùng gương mặt “đáng kể nhất” Vùng nàynằm xung quanh tâm gương mặt và chỉ chứa hai mắt và lỗ mũi, loại bỏ đimiệng và hai lỗ tai Các kết quả thực nghiệm cho thấy, cảm xúc và kiểu tóckhông ảnh hưởng nhiều đến vùng mặt này, và do đó vùng mặt này vẫn có thể
sử dụng được trong quá trình nhận dạng Là ví dụ về vùng “đáng kể nhất”của gương mặt
Cuối cùng, việc hoá trang không tác động đáng kể đến quá trình dò tìmmặt, trừ trường hợp gương mặt được hoá trang qua mức như trog điện ảnhhay sân khấu Là kết quả của bộ dò tìm được áp dụng trên ảnh có gương mặtđược hoá trang Trong hình này, gương mặt của người đóng vai trò quỷ dữ đã
bị bõ qua bởi bộ dò tìm
thông thường cơ sở dữ liệu của các hệ thống nhận dạng mặt người khônglưu trữ ảnh mặt được hoá trang, vì vậy tất nhiên trong quá trình nhân dạngloại ảnh này cũng không được sử dụng
3.5 Áp dụng phương pháp PCA, FLD vào bài toán nhận dạng ảnh mặt người
3.5.1 Phương pháp PCA – Principal Component Analysis.
Lưu đồ thuật toán: