Tiểu luận môn Nhận dạng Tìm hiểu phương pháp trích chọn đặc trưng cho khuôn mặt áp dụng PCA và ứng dụng xác thực thẩm định khuôn mặt Hơn một thập kỷ qua, có rất nhiều công trình nghiên cứu về bài toán xác định khuôn mặt người từ ảnh đen trắng, ảnh xám, đến ảnh màu như ngày nay.
Trang 1Trường đại học Bách Khoa Hà Nội
Viện công nghệ thông tin và truyền thông
Đề tài môn nhận dạng:
Tìm hiểu phương pháp trích chọn đặc trưng cho khuôn mặt áp dụng PCA và ứng dụng xác thực thẩm định khuôn mặt.
Giảng viên hướng dẫn:
Đặng Văn Huy.
Trương Quang Thịnh.
Hà Nội 14-12-2012
Trang 2Bảng phân công công việc.
Trang 3Ph l c ụ lục ụ lục.
1 Mở đầu 4
2 Các đặc trưng khuôn mặt 5
2.1 Đặc trưng của khuôn mặt và độ đo giữa các đặc trưng 5
2.1.1 Đặc trưng màu sắc 5
2.1.2 Đặc trưng kết cấu 6
2.1.3 Đặc trưng hình dạng 6
2.1.4 Đặc trưng cục bộ bất biến 7
2.2 Lựa chọn đặc trưng 9
3 Phương pháp trích chọn đặc trưng 10
3.1 Phương pháp phân tích thành phần chính PCA 10
3.1.1 Đặc điểm 10
3.1.2 Một số khái niệm toán học trong PCA: 11
3.1.3 Áp dụng trong xử lý ảnh 14
3.2 Đánh giá 15
4 Ứng dụng thẩm định khuôn mặt 16
4.1 Giới thiệu 16
4.2 Hệ thống xác thực thẩm định khuôn mặt 16
4.3 Quá trình học 17
4.3.1 Phân tích các thành phần chính 17
4.3.2 Học, huấn luyện 18
4.4 Quá trình nhận dạng 19
4.5 Đánh giá hệ thống 20
5 Kết luận 22
6 Tài liệu tham khảo 23
Trang 51 Mở đầu.
Hơn một thập kỷ qua, có rất nhiều công trình nghiên cứu về bài toán xácđịnh khuôn mặt người từ ảnh đen trắng, ảnh xám, đến ảnh màu như ngày nay.Các nghiên cứu đi từ bài toán đơn giản là ảnh chỉ chứa một khuôn mặt ngườinhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng, cho đến ảnh màuvới nhiều khuôn mặt người trong cùng ảnh, khuôn mặt có quay một góc nhỏ,hay bị che khuất một phần, và với ảnh nền của ảnh phức tạp (ảnh chụp ngoàithiên nhiên) nhằm đáp ứng nhu cầu thật sự cần thiết của con người
Bài toán xác định khuôn mặt người (Face detection) là một kỹ thuật máytính để xác định các vị trí và các kích thước của khuôn mặt trong ảnh bất kỳ(ảnh kỹ thuật số) Kỹ thuật này nhận biết các đặt trưng khuôn mặt và bỏ quanhững thứ khác như: toàn nhà, cây cối, cơ thể
Một số ứng dụng của bài toán xác định khuôn mặt là: hệ thống tương tácgiữa người và máy (điều kiển máy tính qua các cử động của khuôn mặt), hệthống nhận dạng người (giúp cho các cơ quan an ninh quản lý con người), hệthống quan sát theo dõi, hệ thống quản lý việc ra vào cho các cơ quan và công
ty, hệ thống kiểm tra người lái xe có ngủ gật hay không, hệ thống phân tích cảmxúc trên khuôn mặt, và hệ thống nhận dạng khuôn mặt cho các máy ảnh kỹthuật số
Trang 62 Các đặc trưng khuôn mặt.
2.1 Đặc trưng của khuôn mặt và độ đo giữa các đặc trưng.
Các đặc trưng của khuôn mặt được chia thành hai nhóm:
o Các đặc trưng của các phần tử của khuôn mặt
o Các đặc trưng tổng thể của khuôn mặt
Ngoài ra còn có thể xác định các đặc trưng khuôn mặt theo mô hình khuônmặt(thường áp dụng trong các ứng dụng 2D,3D) Ta sẽ tìm hiểu một số đặc tưngsau:
2.1.1 Đặc trưng màu sắc.
Một bức ảnh được phân tích dựa trên các lược đồ màu Một số lược đồ màuđược sử dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI cải tiến.Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất
h r , g ,b=N∗Pr ob{R=r , G=g , B=b}
Trong đó N là số lượng điểm ảnh
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau
đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, để thuận tiệnhơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất Mộtcách khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt đồ riêng biệt
mỗi điểm ảnh
Độ đo:
Một số độ đo tương đồng được sử dụng như: Đ ộ đo khoảng cách Ơclit, độ
đo Jensen-Shannon divergence (JSD)
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M Khi đócác loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại
độ đo tương ứng như sau:
Trang 7o Khoảng cách Ơclit: Đây là khoảng cách Ơclit thông thường giữa các Kbin.
Inter section(h (i) , H ( M ))=∑
j=1
K
√(h (i)−H (m))2.Hoặc
Inter section(h (i) , H ( M ))=∑
j=1
K
¿ (h (i)−H (m))∨¿ ¿
o Độ đo Jensen-Shannon divergence (JSD):
Trong đó : H và H’ là 2 biểu đồ màu được so sánh, Hm
là bin thứ m của biểu đồ H
2.1.2 Đặc trưng kết cấu.
Hiện tại, vẫn chưa có một định nghĩa chính thức cụ thể về kết cấu Kết cấu làmột đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớpnhững vùng đó
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc vàcường độ một ảnh Kết cấu được đặc trưng bởi sự phân bổ không gian của nhữngmức cường độ trong một khu vực láng giềng với nhau Kết cấu gồm các kết cấugốc hay nhiều kết cấu gộp lại đôi khi gọi là texel
Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như[18]:
o Kim tự tháp "có thể lái được" (the steerable pyramid)
o Biến đổi đường viền (the cotourlet transform)
o Biến đổi sóng Gabor (The Gabor Wavelet transform)
o Biểu diễn ma trận đồng hiện (co-occurrence matrix)
o Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter bank)
Độ đo: Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử
dụng độ đo Ơclit Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành
Trang 8các vector nhiềuchiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữacác đặc trưng của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu.
2.1.3 Đặc trưng hình dạng.
Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh.Trong khi đó, hình dạng không phải là một thuộc tính của ảnh Nói tới hình dạngkhông phải là nhắc đến hình dạng của một ảnh Thay vì vậy, hình dạng có khuynhhướng chỉ đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của mộtđối tượng nào đó trong ảnh
Hình dạng là một cấp cao hơn so với màu sắc và kết cấu Nó đòi hỏi sự phânbiệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng Các hệ thống tìmkiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn hình dạng sau :
o Biểu diễn hình dạng theo đường biên (cotour-based descriptor) : Biểu diễncác đường biên bao bên ngoài
o Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn
Độ đo: Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý
ảnh Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việcnhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hìnhdạng đặc biệt Lược đồ hình dạng là một ví dụ của độ đo đơn giản Kỹ thuật dùngđường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đốitượng gần giống với đường biên nhất Phương pháp vẽ phác họa là phương pháp cónhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn,
mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà ngườidùng vẽ hay cung cấp
Phần này trình bày phương pháp trích rút các đặc trưng cục bộ bất biến SIFTcủa ảnh Các đặc trưng này bất biến với việc thay đổi tỉ lệ ảnh, quay ảnh, đôi khi là
Trang 9thay đổi điểm nhìn và thêm nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh.Phương pháp được lựa chọn có tên là Scale-Invariant Feature Transform (SIFT) vàđặc trưng trích rút đựợc gọi là đặc trưng SIFT (SIFT Feature) Các đặc trưng SIFTnày được trích rút ra từ các điểm hấp dẫn cục bộ (Local Interest Point) Điểm hấpdẫn (Interest Point (Keypoint)): Là vị trí (điểm ảnh) "hấp dẫn" trên ảnh "Hấp dẫn"
ở đây có nghĩa là điểm đó có thể có các đặc trưng bất biến với việc quay ảnh, cogiãn ảnh hay thay đổi cường độ chiếu sáng của ảnh
Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theophương pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bướcsau:
Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection):Bước đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các tỉ lệ và vị trícủa ảnh Nó sử dụng hàm different-of-Gaussian để xác định tất cả các điểm hấpdẫn tiềm năng mà bất biến với quy mô và hướng của ảnh
Định vị các điểm hấp dẫn (keypoint localization): Một hàm kiểm tra sẽđược đưa ra để quyết định xem các điểm hấp dẫn tiềm năng có được lựa chọn haykhông?
Xác định hướng cho các điểm hấp dẫn (Orientation assignment): Xác địnhhướng cho các điểm hấp dẫn được chọn
Mô tả các điểm hấp dẫn (Keypoint descriptor): Các điểm hấp dẫn sau khiđược xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều
Độ đo tương đồng cho đặc trưng cục bộ bất biến:Một số độ đo tương
đồng cho ảnh sử dụng đặc trưng SIFT:
o Độ đo Cosin:
o Khoảng cách góc:
o Độ đo Euclide:
Trang 10o Độ đo Jensen-Shannon divergence :
2.2 Lựa chọn đặc trưng
Sau khi trích chọn được các đặc trưng nội dung của ảnh, tập các đặc trưng cóthể được tối ưu hóa bằng các phương pháp lựa chọn đặc trưng để tăng chất lượng
và hiệu quả khi sử dụng các tập đặc trưng
Một cách tổng quát, lựa chọn đặc trưng là phương pháp giảm thiểu các đặctrưng nhằm chọn ra một tập con các đặc trưng phù hợp trong học máy để xây dựng
mô hình học tốt nhất Mục đích của lựa chọn đặc trưng là tìm ra không gian concác đặc trưng tối ưu sao cho các tập ảnh “thích hợp” và “không thích hợp” đượctách biệt nhất
Có nhiều phương pháp lựa chọn đặc trưng được đề xuất như: phương pháptăng khuyếch đại (boosting manner) kết hợp với nền tảng Real Adaboost của WeiJian và Guihua Er Mingjing đưa ra tiêu chí lựa chọn các đặc trưng là: Mô hìnhtương phản đặc trưng được tổng quát hóa (Generalized Feature Contrast Model)dựa trên mô hình tương phản đặc trưng (Feature Contrast Model) Một số phươngpháp cổ điển khác như phương pháp dựa vào phân phối (distribution based).Phương pháp dựa vào phân tích biệt thức (Discriminant analysis DA) ví dụ nhưPhân tích đa biệt thức (Mutiple Discriminant analysis MDA)), phân tích biệt thứckhông đối xứng (biased Discriminant analysis BDA) Phương pháp tối đa khoảngcách tối thiểu đối xứng trong không gian con (symmetric maximized minimaldistance in subspace SMMS)
Hai mô hình phổ biến cho lựa chọn đặc trưng là: Mô hình Filter và mô hìnhWrapper
o Mô hình Filter: đánh giá mỗi phần tử bằng một vài tiêu chuẩn hay độ đo nào
đó, rồi chọn ra tập con các thuộc tính được đánh giá cao nhất
o Mô hình Wrapper: Sử dụng một thuật toán tìm kiếm để đánh giá tập con cácthuộc tính coi như là một nhóm hơn là một phần tử riêng lẻ Cốt lõi của mô
Trang 11hình Wrapper là một thuật toán học máy cụ thể Nó đánh giá độ tốt củanhững tập con đặc trưng tùy theo độ chính xác học của tập con, điều nàyxác định thông qua một tiêu chí nào đó
3 Phương pháp trích chọn đặc trưng.
Sau khi phát hiện được khuôn mặt trong ảnh đầu vào ta cần phải biểu diễn ảnhkhuôn mặt thành một véc tơ đặc trưng, tuy nhiên vì kích thước ảnh khuôn mặt quálớn nếu biểu diễn véc tơ là các pixel của ảnh khuôn mặt thì có thể làm cho quátrình huấn luyện và nhận dạng rất chậm, và xảy ra trường hợp quá khớp vì vậy bàitoán đặt ra là cần phải có phương pháp để biểu diễn ảnh khuôn mặt thành véc tơđặc trưng mà vẫn giữ lại được những thành phần quan trọng của ảnh
Có nhiều phương pháp đã được nghiên cứu để giải quết bài toán này, điểnhình là một số phương pháp sau: Sử dụng các đơn vị vận động trên khuôn mặt(Action units – AU), sử dụng PCA, AAM kết hợp tương quan điểm, sử dụng cácphương pháp học,… Mỗi phương pháp đều có ưu và nhược điểm riêng Đối vớicác phương pháp sử dụng PCA kết hợp mạng nơron, cần một tập dữ liệu chuẩn đểhuấn luyện Việc xây dựng các tập huấn luyện này cũng tương đối khó khăn và tốnkém vì cần nhiều người làm mẫu, những người này phải có khả năng diễn đạt cảmxúc tốt, ngoài ra còn cần sự đánh giá của các chuyên gia tâm lý Hiện nay có một
số tập huấn luyện chuẩn thường được dùng như JAFFE (Japanese Female FacialExpression) hay Cohn-kanade
Chúng ta sẽ tìm hiểu phương pháp phân tích thành phần chính PCA
3.1 Phương pháp phân tích thành phần chính PCA.
3.1.1 Đặc điểm.
PCA là 1 phương pháp để nhận dạng các mẫu trong dữ liệu và biểu diễn dữliệu bằng cách làm nổi bật sự giống và khác nhau Khi các mẫu trong dữ liệu rấtkhó nhận ra trong không gian nhiều chiều thì PCA là một công cụ mạnh để phântích chúng
Các bước cơ bản trong PCA:
o Bước1: Lấy dữ liệu
Trang 12o Bước2: Trừ trung bình mẫu.
o Với mỗi chiều dữ liệu giả sử ở chiều x, ta đều có 1 trung bình mẫu,công việc trong bước này là trừ tất cả giá trị trong chiều x cho trungbình mẫu x Kết thúc bước này ta sẽ có trung bình mẫu ở tất cả cácchiều là 0
o Bước 3: Tính ma trận hiệp phương sai
o Bước 4: Tính các vectơ riêng và giá trị riêng của ma trận hiệp phương sai
o Bước 5: Chọn các thành phần chính
Đây là bước cuối cùng trong PCA Trong bước này, tùy thuộc vào số lượngthành phần chính cần lấy, ta lấy lần lượt các thành phần (vectơ riêng) tươngứng với các giá trị riêng cao nhất
3.1.2 Một số khái niệm toán học trong PCA:
3.1.2.1 Độ lệch chuẩn.
Để hiểu độ lệch chuẩn, chúng ta cần một tập dữ liệu Giả sử ta có tập
X = [1 2 4 6 12 15 25 45 68 67 65 98]
X là ký hiệu đại diện cho tập số, mỗi số riêng biệt được ký hiệu Xi (Ví dụ X3 =
của mẫu có công thức:
Là ký hiệu trung bình của mẫu, tuy nhiên trung bình mẫu không nói lênđược nhiều điều ngoại trừ cho ta biết nó là một điểm giữa Ví dụ với 2 tập dữ liệu
khác nhau Sự khác biệt ở đây chính là khoảng cách của dữ liệu Và độ lệch chuẩn
là đại lượng để đo khoảng cách này Ta có thể hiêu độ lệch chuẩn là khoảng cáchtrung bình từ trung bình mẫu đến các điểm của dữ liệu Ta có công thức:
Tập hợp 1
Trang 13Dễ thấy phương sai chính là bình phương độ lệch chuẩn.
3.1.2.3 Hiệp phương sai.
Ta thấy rằng 2 đại lượng độ lệch chuẩn và phương sai chỉ sử dụng được trong 1chiều Trong thực tế dữ liệu có thể có rất nhiều chiều Một ví dụ đơn giản ta có dữliệu về cân nặng và điểm số của toàn bộ sinh viên trong lớp K51-KHMT Đối với
dữ liệu này, độ lệch chuẩn và phương sai chỉ tính được trên từng chiều riêng biệt
và ta không thấy được mối liên hệ giữa 2 chiều này
Tương tự phương sai, hiệp phương sai là đại lượng đo sự biến thiên giữa 2chiều Nếu tính hiệp phương sai giữa 1 chiều với chính nó ta được phương sai củachiều đó Nếu tập dữ liệu có 3 chiều x, y, z ta có thể tính hiệp phương sai của từng
Trang 14cặp chiều (x, y), (y, z), (z, x) Công thức của hiệp phương sai tương tự công thứccủa phương sai Công thức của phương sai được khai triển như sau:
Và công thức của hiệp phương sai:
Từ công thức hiệp phương sai ta thấy, nếu cov ( X , Y ) dương thì X, Y đồng biến,
cov ( X , Y ) âm thì X, Y nghịch biến, nếu bằng 0 thì X, Y độc lập
3.1.2.4 Ma trận hiệp phương sai.
Hiệp phương sai đó sự biến thiên giữa 2 chiều, do đó đối với tập dữ liệu có nchiều ta có giá trị hiệp phương sai khác nhau Và để thuận tiện cho việctính toán ta biểu diễn các giá trị này thông qua một ma trận gọi là ma trận hiệpphương sai Định nghĩa của ma trận như sau:
ma trận hiệp phương sai của 1 tập dữ liệu có 3 chiều x, y, z:
3.1.2.5 Vector riêng, trị riêng.
riêng (gọi tắt là trị riêng – kí hiệu GTR) của ma trận A, nếu tồn tại một vectơ
0 ¿u ∈ K n sao cho: A.u=λ.u
Khi đó vectơ u được gọi là vectơ riêng (VTR) của ma trận A ứng với giá trịriêng λ
Det ( A− λI )=0 được gọi là phương trình đặc trưng của ma trận A
Trang 15 Mỗi vectơ riêng chỉ ứng với một giá trị riêng duy nhất.
hợp này đa thức đặc trưng được coi là đa thức ma trận, nghĩa là biến
số của nó không phải là biến số thực mà là biến ma trận)
lại, nếu mọi GTR của A đều khác không thì A khả nghịch
Nếu λ là GTR của ma trận A thì λ k là giá trị riêng của ma trận A k
3.1.3 Áp dụng trong xử lý ảnh.
Mỗi bức ảnh được coi là một ma trận NxN, nhưng do thuật toán PCA ápdụng cho các vector một chiều nên ta thực hiện phép biến đổi:
phương pháp PCA để xác định các đặc trưng của ảnh.Với mỗi bức ảnh ta coi đó
o Tính sai lệch của các ảnh đầu vào so với trung bình: Φ i=Γ i−Ѱ
M∑
i=1
M
Φ i Φ i T=A A T; A={Φ1, Φ2… Φ M}
tìm vector riêng và trị riêng của ma trận L:
o L= A T A với L m , n=Φ m T Φ n