Trong đó, thông tin ảnh mặt là một thông tin bắt buộc dùng để đối sánh và nhận dạng bởi tuy các phương pháp nhận dạng bằng ảnh mặt thường cho chất lượng chưa cao bằng các phương pháp sử
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
- o0o -
PHẠM TRUNG KIÊN
TÌM KIẾM VÀ NHẬN DẠNG
KHUÔN MẶT NGƯỜI TRONG ẢNH
LUẬN VĂN CAO HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGÔ QUỐC TẠO
Hà Nội - 2007
Trang 2MỤC LỤC
MỞ ĐẦU 7
1 Chương 1 PHÁT BIỂU BÀI TOÁN 9
1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt 9
1.1.1 Hệ thống sinh trắc học 9
1.1.2 Hệ thống nhận dạng khuôn mặt 9
1.1.3 Hệ thống xác minh hay xác thực khuôn mặt là gì? 9
1.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động 10
1.1.4.1 Hệ thống nhận dạng tĩnh - tĩnh 10
1.1.4.2 Hệ thông nhận dạng tĩnh - động 10
1.1.4.3 Hệ thống nhận dạng động - động 10
1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt 10
1.1.6 Sai số trong hệ nhận dạng [20] 10
1.2 Các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt 11
1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt 13
1.3.1 Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ thống nhận dạng khuôn mặt 13
1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn 15
2 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU 16
2.1 Giới thiệu 16
2.1.1 Các thách thức trong việc dò tìm khuôn mặt 16
2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt nhanh 17
2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da 18
2.2.1 Giới thiệu [16] 18
2.2.2 Dò tìm da trên ảnh màu 19
2.2.2.1 Mô hình hóa da 20
2.2.3 Không gian màu cho mô hình da 23
2.2.3.1 Phân tách vùng da trong không gian màu rg 25
2.2.4 Xác định vùng da sử dụng entropy 28
2.2.4.1 Khái niệm về entropy 28
2.2.4.2 Phát hiện màu da bằng mô hình Entropy cực đại 29
2.2.5 Định vị khuôn mặt bên trong các vùng da 35
2.2.5.1 Giới thiệu 35
2.2.5.2 Định vị vùng khả năng mặt 36
2.2.5.3 Ra quyết định sử dụng đối sánh mẫu 39
2.2.6 Kết luận về tìm kiếm khuôn mặt dựa trên màu da 41
3 Chương 3 RÚT TRÍCH ĐẶC TRƯNG TỪ KHUÔN MẶT 42
3.1 Tiếp cận theo phương pháp phân tích thành phần chính (Principal Component Analysis hay PCA) 42 3.1.1 Vector riêng, Trị riêng và sự chéo hoá của ma trận 42
3.1.2 Kì vọng và phương sai trong thống kê đa chiều 43
3.2 Phương pháp phân tích thành phần chính (Principal Component Anlysis hay PCA) 43
3.2.1 Yêu cầu 43
3.2.2 Trích đặc trưng bằng phương pháp PCA 44
3.2.3 Kỹ thuật tính đặc trưng bằng PCA 46
3.3 Phương pháp PCA toàn cục và cục bộ 48
3.3.1 Phương pháp PCA toàn cục 48
3.3.2 Phương pháp PCA cục bộ 48
3.4 Đánh giá 49
3.4.1 Mộ số đánh giá quan trọng về rút trích đặc trưng bằng phương pháp PCA 49
3.4.2 So sánh phương pháp PCA toàn cục và PCA cục bộ 49
4 Chương 4 MÔ HÌNH MAKOV ẨN VÀ ỨNG DỤNG NHẬN DẠNG KHUÔN MẶT 50
Trang 34.1 Giới thiệu mô hình Makov ẩn 50
4.1.1 Mô hình Markov 50
4.1.2 Mô hình Markov ẩn [19] 51
4.1.2.1 Xác suất của chuỗi quan sát 52
4.1.2.2 Dãy trạng thái tối ưu 54
4.1.2.3 Hiệu chỉnh các tham số của mô hình 55
4.1.2.4 Khoảng cách giữa các mô hình Markov ẩn 55
4.1.3 Mô hình Markov ẩn và nhận dạng mặt người 58
4.1.3.1 Ý tưởng 58
4.1.3.2 Mô hình Markov ẩn biểu diễn ảnh mặt 59
4.1.3.3 Trích chọn đặc trưng 60
4.1.3.4 Luyện mô hình mặt 64
4.1.3.5 Nhận dạng khuôn mặt người trong ảnh 66
4.1.3.6 Tìm kiếm khuôn mặt người trong ảnh 67
4.1.3.7 Các dạng của mô hình Markov ẩn trong mô tả khuôn mặt 69
4.2 Kết chương 70
5 KẾT LUẬN 71
6 TÀI LIỆU THAM KHẢO 72
Trang 4DANH MỤC CÁC HÌNH
Hình 1-1 So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt 9
Hình 1-2 Hình biểu diễn hàm FRR và FAR 11
Hình 2-1 Ảnh màu với da và kết quả của sự dò tìm da 18
Hình 2-2 Mẫu da của mỗi người rất khác nhau 19
Hình 2-3 Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng 19
Hình 2-4 Những mạng SOM với những hệ thống khu lân cận 21
Hình 2-5 Phân phối màu cho các màu da khác nhau 27
Hình 2-6 Biểu diễn mô hình màu da bằng phân phối Gauss 27
Hình 2-7 Đường cong entropy của biểu diễn biến ngẫu nhiên 29
Hình 2-8 4 điểm lân cận và 8 điểm lân cận 30
Hình 2-9 Một ảnh mẫu từ tập phân phối thỏa mãn D, có năng lượng cực tiểu 33
Hình 2-10 Hình (a): ảnh gốc, hình (b): Baseline, hình (c): HMM, 35
Hình 2-11 Khuôn mặt mẫu của Chang và Robles 39
Hình 2-12 Khuôn mặt mẫu tổng hợp 39
Hình 2-13 Khuôn mặt mẫu được điều chỉnh kích thước 40
Hình 2-14 Khuôn mặt mẫu được xoay và điều chỉnh lại kích thước 40
Hình 4-5 Tính hội tụ của khoảng cách HMM khi độ dài chuỗi quan sát tăng 58
Hình 4-6.(a) Mô hình ergodic 4 trạng thái (b) Mô hình trái - phải 4 trạng thái 59
Hình 4-7 Mô hình mặt 6 trạng thái 60
Hình 4-8 Ảnh mặt và phương pháp trích chọn khối quan sát 61
Hình 4-9 Chiến lược huấn luyện mô hình Markov ẩn cho biểu diễn khuôn mặt 66
Hình 4-10 Nhận dạng mặt sử dụng mô hình Marov ẩn 67
Hình 4-11 Tìm kiếm khuôn mặt sử dụng mô hình Markov 68
Hình 4-12 Mô hình Markov ẩn nhúng với 3 siêu trạng thái 70
Trang 5BẢNG CÁC TỪ VIẾT TẮT
Organization
Tổ chức Hàng không Dân dụng Quốc tế
Trang 60 MỞ ĐẦU
Ngày nay, cùng với những tiến bộ vượt bậc của khoa học kỹ thuật nói chung,
bộ môn khoa học xử lý ảnh đã và đang thu được những thành tựu lớn lao và chứng
tỏ vài trò không thể thiếu với những ứng dụng sâu rộng trong khoa học kỹ thuật cũng như đời sống xã hội Một bộ phận của khoa học xử lý ảnh là lĩnh vực thị giác máy tính hiện đang thu hút rất nhiều sự quan tâm của các nhà nghiên cứu xử lý ảnh với mục tiêu xây dựng nên một thế giới trong đó hệ thống thị giác kỳ diệu của con người có thể được mô phỏng bởi các hệ thống máy tính, đem lại khả năng cảm nhận bằng thị giác cho các hệ thống về môi trường xung quanh Mơ ước về một hệ thống máy tính có thể hoà nhập vào thế giới con người với đầy đủ các giác quan trong đó thị giác đóng vai trò quan trọng đang dần dần được hiện thực hoá với những đóng góp nghiên cứu của các nhà khoa học trên phạm vi toàn thế giới
Đồng thời việc phát triển của các thiết bị phần cứng cả về phương diện thu nhận, hiển thị, tốc độ xử lý đã mở ra nhiều hướng mới cho công nghệ xử lý ảnh Nó
có thể giải quyết các bài toán như giám sát tự động phục vụ trong cơ quan, ngân hàng, kho bạc, hoặc trong việc giám sát giao thông tự động, phục vụ tại bãi đỗ xe, trạm thu phí tự động hoặc việc phát hiện và nhận dạng mặt người phục vụ trong công tác quân sự, an ninh v.v Đặc biệt trong lĩnh vực nhận dạng bằng sinh trắc học, sau sự kiện 11/9/2001, việc nghiên cứu và đưa vào ứng dụng thực tế lĩnh vực nhận dạng bằng sinh trắc đã được các nhà khoa học và chính phủ nhiều nước chú trọng Đơn cử có thể kể tới hệ thống kiểm soát (tự động) tại các cửa khẩu vào /ra ở
Mỹ, Úc, khối EU và ở một số nước châu Á (Singapore, Thái Lan, ) đã xử dụng thông tin sinh trắc vào trong quá trình kiểm soát xác định thật giả về giấy tờ và con người Cho đến nay, theo Tổ chức hàng không dân dụng thế giới - ICAO cho biết đã
có khoảng 34 quốc gia áp dụng việc đưa các thông tin sinh trắc vào hộ chiếu để chống làm giả và dùng trong các của kiểm soát tự động tại biên giới Trong đó, thông tin ảnh mặt là một thông tin bắt buộc dùng để đối sánh và nhận dạng bởi tuy các phương pháp nhận dạng bằng ảnh mặt thường cho chất lượng chưa cao bằng các phương pháp sử dụng các đặc điểm sinh trắc khác như vân tay hoặc tròng mắt do ảnh mặt thu nhận được thường bị ảnh hướng lớn của nhiễu, đặc biệt là môi trường
và chất lượng của các thiết bị thu nhận hình ảnh song ảnh mặt là một đặc điểm sinh trắc mà ta có thể thu nhận một cách nhanh chóng và dễ dàng nhất (sử dụng các camera quan sát tự động)
Tại Việt Nam, việc ứng dụng thông tin sinh trắc vào trong các giấy tờ (hộ chiếu, chứng minh thư, .) cũng đang được tích cực nghiên cứu để đưa vào ứng dụng (hộ chiếu điện tử dự kiến sẽ được thử nghiệm trong năm 2008)
Từ những lý do trên, tôi đã chọn đề tài luận văn: “Tìm kiếm và nhận dạng khuôn mặt người trong ảnh”
Trang 7Bố cục của luận văn gồm:
Chương 1: Phát biểu bài toán
Nêu lên một số khái niệm liên quan đến nhận dạng khuôn mặt; các ứng dụng tương tác người máy liên quan đến nhận dạng khuôn mặt; điểm qua một số phương pháp nhận dạng khuôn mặt được nghiên cứu và cải tiến trong thời gian gần đây
Chương 2: Dò tìm khuôn mặt người trong ảnh màu
Giới thiệu một số phương pháp dò tìm khuôn mặt người dựa trên màu da
Chương 3: Rút trích đặc trưng từ khuôn mặt người
Trình bày phương pháp phân tích các thành phần chính PCA (Principal Component Analysis) rút trích đặc trưng từ ảnh bản đầu
Chương 4: Mô hình Markov ẩn và ứng dụng nhận dạng khuôn mặt
Giới thiệu mô hình Markov ẩn, một số bài toán cơ bản của mô hình Markov
và ứng dụng mô hình trong nhận dạng khuôn mặt người
Chương 5: Kết luận
Trang 81 Chương 1 PHÁT BIỂU BÀI TOÁN
1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt
1.1.3 Hệ thống xác minh hay xác thực khuôn mặt là gì?
Hệ thống xác minh/xác thực khuôn mặt là một hệ thống được thiết kế để xác minh thông tin của một người Kĩ thuật xác minh là kiểm tra sự phù hợp trên phép
so sánh một-một cụ thể là đối chiếu thông tin mới nhận về một người với thông tin
đã lưu trữ về người này có khớp hay không dựa trên thông tin khuôn mặt
Hình 1-1 So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt
Hoàn toàn không biết thông tin Đã biết trước thông tin
Nhận dạng người (identification)
ngưòi này là ai ?
Xác minh người (verification)
Đây là Hùng phải không?
Trang 91.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động
1.1.4.1 Hệ thống nhận dạng tĩnh - tĩnh
Hệ thống nhận dạng tĩnh - tĩnh là hệ thống được thiết kế bằng cách sử dụng một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh tĩnh Kỹ thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống nhận dạng nói chung ở trên
1.1.4.2 Hệ thông nhận dạng tĩnh - động
Hệ thống nhận dạng tĩnh - động là hệ thống được thiết kế bằng cách sử dụng một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh động Kỹ thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống nhận dạng nói chung ở trên, song ảnh cần kiểm tra là các khung ảnh động trong các đoạn phim từ các máy camera Kỹ thuật này dĩ nhiên không thể chính xác vì chuyển động của mặt người trong đoạn phim khá phức tạp song thể hiện trong ảnh tĩnh để huấn luyện lại ít
1.1.4.3 Hệ thống nhận dạng động - động
Hệ thống nhận dạng động - động là hệ thống được thiết kế bằng cách sử dụng các ảnh động làm mẫu để nhận dạng khuôn mặt người trong ảnh động Kỹ thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống nhận dạng nói chung ở trên Tuy nhiên, kỹ thuật này chính xác hơn kỹ thuật
sử dụng trong hệ thống nhận dạng tĩnh - động do sự chuyển động phức tạp của khuôn mặt người cũng được huấn luyện bằng các khung ảnh động
1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt
Những biến đổi quá lớn giữa các ảnh khuôn mặt khác nhau từ một người cần nhận dạng gồm trạng thái cảm xúc trên khuôn mặt, ánh sáng, và các thay đổi vị trí của khuôn mặt vv
Giới hạn về số ảnh cần thiết cho việc nhận dạng, tập học không thể bao quát được tất cả các biến đổi có thể có trên khuôn mặt của một người cần nhận dạng trong thế giới thực
Có 2 đại lượng chính dùng để đo lường sai số của một hệ nhận dạng bằng sinh trắc:
Trang 10 Sai số bắt nhầm – FAR (False Acceptance Rate) có tài liệu gọi là FMR (False Match Rate)
Sai số bỏ sót – FRR (False Reject Rate) có tài liệu gọi là FNMR (False Non Match Rate)
Độ chính xác – TAR (True Accpetance Rate) là dẫn xuất của FRR
TAR = 1 - FRR
FAR và FRR là hàm số của t – ngưỡng xét trùng
FAR(t)
FRR(t)
ERR là điểm mà FRR = FAR
Hình 1-2 Hình biểu diễn hàm FRR và FAR
Để đánh giá chất lượng một hệ thống nhận dạng mặt người một cách khách quan cần:
Trang 11sản xuất kinh doanh, thương mại, tài chính, ngân hàng, Trong thời gian không xa, chi phí cho các thiết bị này sẽ giảm đáng kể Khi đó sẽ mở ra nhiều hướng nghiên cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng dụng trong giao tiếp giữa người với máy tính mà trong đó hệ thống nhận dạng mặt người đóng một vai trò không nhỏ Dưới đây là một số ứng dụng
Các ứng dụng chuyên biệt cho ngành hàng không
Đảm bảo sự truy cập và tính hợp lệ trong công việc cho từng nhân viên: Mỗi nhân viên làm việc tại cảng hàng không cũng như nhân viên phi hành đoàn được cung cấp quyền truy cập để đến vị trí làm việc Làm thế nào để xác minh nhân viên này vào đúng khu vực làm việc hay không?
Làm sao để đảm bảo trong số những hành khách không có sự trà trộn của một số kẻ khủng bố/tội phạm quốc gia/ quốc tế?
Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc
Quy định rằng, chỉ có những nhân viên của nhà trẻ mới được phép dẫn trẻ
em ra ngoài và trao tận tay cho bố mẹ đón về Nhưng trong xã hôi cũng có một số trường hợp giả danh nhân viên để bắt cóc trẻ em với mục đích xấu Làm thể nào để ngăn chặn hành vi xấu này?
Nhận dạng khuôn mặt được sử dụng kèm với thẻ quy cập
Trong các nước phát triển, hầu như mọi người dân đều dùng thẻ tín dụng
để mua bán, rút tiền, trao đổi hàng hóa Điều này rất nguy hiểm khi thẻ truy cập này bị người khác nhặt được hay biết được mật khẩu của sở hữu thẻ này? Làm cách nào có thể bảo đảm an toàn nhất?
Có thể dùng song mật khẩu: Có nghĩa sử dụng khuôn mặt như là một mật khẩu thứ hai để truy cập vào hệ thống cùng với thông tin từ card truy cập Để rút được tiền
• Đưa thẻ vào hệ thống
• Đưa khuôn mặt vào để nhận dạng
• Xác minh người này có phải là chủ sở hữu của thẻ hay không?
Nếu khớp thì hệ thống cho rút tiền Nếu không thì hệ thống không cho rút tiền
Kinh doanh thương mại điện tử
Với sự tiến bộ của khoa học công nghệ, nhiều hình thức kinh doanh thương mại xuất hiện, đặc biệt là thương mại điện tử Việc buôn bán và trao đổi giữa hai bên đối tác không cần diễn ra trực tiếp (mặt đối mặt), mà chỉ cần qua mạng với hình ảnh của người đại diện Tuy nhiên bên cạnh đó sẽ có nhiều mặt tiêu cực trên hình thức kinh doanh này, đó là các vụ lừa đảo, giả mạo, giả danh.v v Làm sao để biết được đối tác của mình là thật hay giả?
Trang 12 Ngăn chặn việc xuất/nhập cảnh bất hợp pháp
Một số người không được xuất/nhập cảnh vào nước, song họ cố tình khai gian giấy tờ để xuất/nhập cảnh bất hợp pháp Làm sao để ngăn chặn được sự gian lận này?
Lần dấu vết đi tìm kẻ khủng bố
Từ những bức ảnh số hay những đoạn video số đã được ghi lại tự động về hiện trường trước khi vụ khủng bố xảy ra Cần nhận dạng những đối tượng khả nghi của vụ khủng bố này?
Hệ thống giám sát công nhân và chấm công tự động
Hiện nay trong các khu công nghiệp hay những công ty sản xuất lớn có hàng ngàn công nhân vào ra mỗi ngày nên việc giám sát kẻ gian vào công ty cũng như công việc chấm công rất phức tạp Vậy làm thế nào để nhận ra từng nhân viên của công ty
Tóm lại: Nhu cầu sử dụng các hệ thống xử lý dùng trí tuệ nhân tạo ngày càng phát
triển, mà trong đó nhận dạng khuôn mặt để mã hóa mật khẩu cá nhân là một nhu cầu thiết yếu hiện nay và trong tương lai Đặc biệt vụ khủng bố ngày 11-9-2001 tại
Mỹ đã đánh dấu một bước ngoặc mới trong xu hướng nghiên cứu và giá trị thương mại của các hệ thống sinh trắc học ứng dụng trong quân sự và an ninh
1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt
1.3.1 Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng
chất lượng cho một hệ thống nhận dạng khuôn mặt
Bài toán nhận dạng khuôn mặt cần xác định hai vấn đề chính: dùng thông tin nào để nhận dạng: chân mày, cặp mắt, mũi, môi, tai, hay kết hợp các thông tin trên
Và dùng phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thông tin
đó Nhận dạng khuôn mặt trên máy tính đã trải qua nhiều bước thăng trầm, chúng ta
có thể liệt kê một số kết quả như sau:
Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John Weng (1998)[4] sử dụng phương pháp PCA (phân tích thành phần chính) kết hợp LDA (phân tích độc lập tuyến tính) Bước 1, chiếu ảnh khuôn mặt từ không gian ảnh thô sang không gian các không gian khuôn mặt (Mỗi lớp khuôn mặt được nhận dạng sẽ được mô hình hóa bằng một không gian khuôn mặt) dùng PCA Bước 2, sử dụng phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các lớp khuôn mặt
John Daugnman (1998), đưa ra phương pháp dùng đặc trưng về tròng của mắt để phân biệt cặp (trai/gái) song sinh
Emmanuel Viennet và Francoise Fogelman Soulie (1998), sử dụng phương pháp mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt
Trang 13Antonio J.Colmenarez và Thomas S.Huang (1998),[5] sử dụng kỹ thuật học thị giác và phù hợp mẫu 2-D Ông quan niệm bài toán dò tìm khuôn mặt là thao tác phân loại khuôn mặt trong đó khuôn mặt thuộc về một lớp và các đối tượng khác thuộc về lớp còn lại bằng cách ước lượng mô hình xác suất cho mỗi lớp, và việc dò tìm sử dụng luật quyết định Maximum-likelihood
Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor Elagin, Hartmut Neven, and Christoph (1998),[6] nhận dạng khuôn mặt dựa vào sóng Gabor và phương pháp phù hợp đồ thị bó Với ý tưởng dùng đồ thị để biểu diễn khuôn mặt, ảnh khuôn mặt được đánh dấu tại các vị trí đã được xác định trước trên khuôn mặt, gọi các vị trí này chính là các vị trí chuẩn Khi thực hiện thao tác so khớp đồ thị với một ảnh, các điểm chuẩn (Jets) sẽ trích ra từ ảnh và so sánh các điểm chuẩn này với tất cả các điểm chuẩn tương ứng trong các đồ thị khác nhau, và
đồ thị nào phù hợp nhất với ảnh sẽ được chọn
Baback Moghaddam và Alex Pentland (1998) [7], đưa ra phương pháp phù hợp thị giác trực tiếp từ các ảnh cần sử dụng cho mục đích nhận dạng khuôn mặt và dùng độ đo xác suất để tính độ tương tự
Massimo Tistaelli và Enrico Grosso (1998) [8], đưa ra kỹ thuật thị giác động
Vì khả năng quan sát các chuyển động của khuôn mặt và xử lý các tình huống theo
dự định là thông tin rất quan trọng, từ đó nhận được mô tả đầy đủ hơn về khuôn mặt cho mục đích thu thập mẫu và nhận dạng
Jeffrey Huang, Chengjun Liu, và Harry Wechsler (1998)[9], đề xuất thuật toán căn cứ trên tính tiến hóa (Evolutionary computation) và di truyền (Genetic) cho các tác vụ nhận dạng khuôn mặt Đối với cách tiếp cận này, hai mắt sẽ được dò tìm trước tiên và thông tin này được xem là vết để quan sát khuôn mặt, trình xử lý dò tiếp mắt bằng cách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hóa trong quá trình học
Daniel Bgraham và Nigel M Allinson (1998)[10], sử dụng phương pháp được gọi là tạo bản sao không gian đặc trưng để biểu diễn và nhận dạng hướng di chuyển của khuôn mặt
Oi Bin Sun, Chian Prong Lam và Jian Kang Wu (1998)[11], sử dụng phương pháp tìm vùng hai chân mày, hai mắt, mũi, miệng và cằm Ảnh khuôn mặt thẳng ban đầu được chiếu theo chiều ngang để tìm các giá trị điểm ảnh thỏa ngưỡng cho trước, đồ thị biểu diễn theo trục ngang sẽ định vị trí biên trên và biên dưới của hình chữ nhật bao các đặc trưng cục bộ khuôn mặt Tương tự với chiều đứng để tìm ra đường biên bên trái và phải cho các vùng đặc trưng
Ara V.Nefian và Monson H.Hayes III (1998) trình bày hướng tiếp cận theo
mô hình Markov ẩn (HMM) trong đó ảnh mẫu khuôn mặt được lượng hóa thành chuỗi quan sát trên khuôn mặt theo quan niệm dựa trên thứ tự xuất hiện các đặc trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm} Trong chuỗi quan sát đó, mỗi quan sát lại là một vector nhiều chiều và mỗi vector quan sát này được
Trang 14sử dụng để đặc trưng cho mỗi trạng thái trong chuỗi trạng trạng thái của HMM Mỗi người được ước lượng bằng một mô hình của HMM
Guodong Guo, Stan Z.Li, Kap Luk Chan (2001), dùng phương pháp SVM để nhận dạng khuôn mặt Sử dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để xây dựng bộ phân loại SVM đa lớp
1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn
Trong đề tài đi vào tìm hiểu phương pháp nhận dạng dùng HMM; tìm hiểu phương pháp PCA (phân tích thành phần chính) để trích chọn đặc trưng từ ảnh
Việc cô lập khuôn mặt trong ảnh đầu vào (ảnh chứa khuôn mặt) được thực hiện với phương pháp dò tìm dựa trên màu da kết hợp với mô hình Markov ẩn
Trang 152 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU
2.1 Giới thiệu
Dò tìm đối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thị giác máy tính Các kỹ thuật đã được áp dụng có thể chia thành một trong hai tiếp cận: so khớp các mô hình hình học hai, ba chiều vào ảnh [Seutens at al., 1992, Chin và Dyer, 1986, Besl và Jain, 1985], hay phương pháp so khớp các mô hình khung vào ảnh có chứa khuôn mặt cần dò tìm Các nghiên cứu trước đây cho thấy rằng các phương pháp dựa trên khung nhìn có thể dò tìm các khuôn mặt thẳng trong nền phức tạp một cách hiệu quả
Việc phát triển bộ dò tìm đối tượng dựa trên khung nhìn dùng máy học có ba vấn đề chính Thứ nhất, ảnh của các đối tượng (chẳng hạn khuôn mặt) biến đổi nhiều, tuỳ thuộc vào độ sáng, tình trạng che lấp, tư thế, biểu hiện khuôn mặt và tính giống nhau Thuật toán dò tìm giải quyết với càng nhiều biến đổi càng tốt Thứ hai, một hay nhiều mạng neural được huấn luyện để giải quyết với mọi biến đổi còn lại trong việc phân biệt đối tượng (object) với không phải đối tượng (non-object) Thứ
ba, đầu ra từ các bộ dò tìm phải được kết hợp lại thành một quyết định có biểu diễn đối tượng hay không
Hai bài toán dò tìm và nhận dạng đối tượng có liên quan mật thiết Hệ thống nhận dạng đối tượng có thể xây dựng mà không có tập bộ dò tìm đối tượng, mỗi bộ
dò tìm dò một đối tượng quan tâm Tương tự, bộ dò tìm đối tượng có thể được xây dựng mà không có hệ thống nhận dạng đối tượng; bộ nhận dạng đối tượng này cần phân biệt đối tượng mong muốn với mọi đối tương khác có thể xuất hiện hay là lớp đối tượng chưa biết Do đó hai bài toán là như nhau, dù trong thực hành hầu hết các
hệ thống nhận dạng đối tượng ít khi giải quyết nền tuỳ ý, và các hệ thống dò tìm đối tượng ít khi được huấn luyện trên đủ loại đối tượng để xây dựng hệ thống nhận dạng Điểm chú trọng khác nhau của các bài toán này dẫn đến các trình bày và thuật toán khác nhau
Thông thường, các hệ thống nhận dạng khuôn mặt làm việc bằng cách trước hết áp dụng bộ dò tìm khuôn mặt để định vị khuôn mặt, sau đó áp dụng thuật toán nhận dạng để nhận diện khuôn mặt
Bài toán dò tìm khuôn mặt nhanh trên ảnh là bài toán quan trọng vì là quá trình nhận dạng đối tượng sẽ thiếu chính xác nếu như thiếu bước dò tìm và định vị được đối tượng Bài toán dò tìm khuôn mặt nhanh có ý nghĩa rất quan trọng trong việc nhận dạng, theo vết các đối tượng chuyển động trong các đoạn video hay camera
2.1.1 Các thách thức trong việc dò tìm khuôn mặt
Việc dò tìm đối tượng là bài toán xác định cửa sổ con của ảnh có thuộc về tập các ảnh của đối tượng quan tâm hay không Do đó, đường biên quyết định của
Trang 16tập ảnh đối tượng phức tạp sẽ làm tăng độ khó của bài toán và có thể tăng số lỗi dò tìm
Giả sử ta muốn dò khuôn mặt nghiêng trong mặt phẳng ảnh, ngoài các khuôn mặt thẳng Việc thêm các khuôn mặt nghiêng vào tập các ảnh ta muốn dò tìm làm tăng độ biến thiên của tập, và có thể làm tăng độ phức tạp của đường biên quyết định của tập ảnh Độ phức tạp này làm bài toán dò tìm khó hơn Việc thêm ảnh mới vào tập ảnh đối tượng có thể làm đường biên quyết định đơn giản hơn và dễ học hơn Có thể tưởng tượng điều này là đường biên quyết định được làm trơn bằng việc thêm các ảnh vào tập
Có nhiều nguồn biến đổi trong bài toán dò tìm đối tượng, và cụ thể trong bài toán dò tìm khuôn mặt Có các nguồn biến đổi sau
Biến đổi trong mặt phẳng ảnh: loại biến đổi ảnh khuôn mặt đơn giản nhất có
thể được biểu diễn độc lập với khuôn mặt, bằng cách quay, dịch chuyển, biến đổi tỷ lệ và soi gương ảnh
Biến đổi độ sáng và ngữ cảnh: biến đổi do đối tượng và môi trường gây ra,
cụ thể các thuộc tính bề mặt của đối tượng và các nguồn sáng Các thay đổi
về nguồn sáng nói riêng có thể biến đổi hoàn toàn vẻ bề ngoài của khuôn mặt
Biến đổi nền: Trong luận văn của mình, Sung cho rằng với kỹ thuật nhận
dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dò tìm đối tượng chỉ thích hợp cho các đối tượng có “đường biên ảnh có thể dự đoán được” Khi đối tượng có hình dáng dự đoán được, ta có thể trích ra window chỉ chứa các pixel bên trong đối tượng, và bỏ qua nền
Biến đổi hình dáng: với khuôn mặt, loại biến đổi này bao gồm biểu lộ tình
cảm khuôn mặt, miệng và mắt mở hay đóng, và hình dáng khuôn mặt của từng người
Tuy nhiên, nếu việc dò tìm được tiến hành trên các đoạn video hay camera ta
có thể áp dụng các phương pháp xử lý các khung hình liên tục cùng một lúc như theo vết đối tượng, trừ ảnh v v…
2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt
Trang 17khuôn mặt người trong thời gian thực là phương pháp ASM (Active shape Models)
Hướng dò tìm khuôn mặt dựa trên thông tin hình ảnh gồm mạng nơron, các hướng thông kê (SVM, AdaBoost, …) Phương pháp SVM và mạng nơ ron cũng đạt được kết quả cao trong thời gian khá nhanh song cũng chỉ vài ảnh trong một giây nên khó có thể áp dụng trong việc nhận dạng thời gian thực Riêng phương pháp AdaBoost cho kết quả khả quan vì có thể xử lý đến khoảng 15-20 khung hình trong một giây
2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da
2.2.1 Giới thiệu [16]
Sự dò tìm da chính là phát hiện những điểm da con người từ một hình ảnh màu Đầu ra hệ thống là một hình ảnh dưới dạng nhị phân trên cùng lưới điểm như hình ảnh đầu vào với 1 biểu thị cho da và 0 biểu thị cho nền Hình 2.1 cho thấy một hình ảnh màu đầu vào và một ảnh đầu ra kết quả của sự dò tìm da
Hình 2-1 Ảnh màu với da và kết quả của sự dò tìm da
Sự dò tìm da đóng một vai trò quan trọng trong nhiều ứng dụng như sự dò tìm mặt, sự tìm kiếm và lọc nội dung ảnh trên mạng, sự phân đoạn vi đi ô và giám sát tự động,
Tuy nhiên sự dò tìm da không phải là một nhiệm vụ dễ Trước hết, màu da của mỗi người có thể rất khác nhau Trong hình 2.2, có người da trắng, người Châu Phi và người Chấu Á, … Hơn nữa, một khi những hình ảnh được thu nhận với những thiết bị có đặc điểm kỹ thuật khác nhau dưới nhiều điều kiện, chúng tùy thuộc vào tất cả các loại nhiễu và sự biến dạng Hình 2.3 cho thấy vài ví dụ
Trang 18Hình 2-2 Mầu da của một số chủng tộc người khác nhau
Hình 2-3 Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng
Một hệ thống dò tìm da thì không bao giờ hoàn hảo và những người dùng khác nhau sử dụng tiêu chuẩn khác nhau cho sự đánh giá
2.2.2 Dò tìm da trên ảnh màu
Nghiên cứu đã được thực hiện trên sự dò tìm của những điểm da con người trong những hình ảnh màu trên sự phân biệt giữa những điểm da và không da bằng việc sử dụng nhiều mô hình màu Có hai vấn đề chủ yếu mà chúng ta phải thực hiện
ở đây là làm sao để chúng ta có thể phân biệt những điểm da từ những điểm không phải da; và không gian màu nào sẽ được lựa chọn để tốt nhất cho việc thực hiện phân tích
Trang 192.2.2.1 Mô hình hóa da
Mục đích của việc mô hình hóa da là xây dựng cho một quy tắc quyết định những điểm da từ những điểm không phải da Công việc này có thể chia thành hai vùng chính: mô hình không tham số và mô hình tham số
Mô hình da không tham số
Kết quả của những phương pháp này đôi khi được viện dẫn như xây dựng bản đồ xác suất da, một xác suất đánh giá từng điểm trong mô tả không gian màu
Những mô hình Bayesian dựa vào histograms
Trong [17] [3] các tác giả mô hình những màu da và không da thông qua
mầu trong mỗi bin Nskin(c) đại diện cho lớp da và Nskin đại diện cho lớp không phải
da Cuối cùng, họ bình thường hóa mỗi bin để có phân phối p(c|skin)/p(c|skin) Để cho Nskin biểu thị số những điểm da và Nskin biểu thị số những điểm không da trong tập huấn luyện, chúng ta có:
skin
skin
N
c N skin c
skin
N N
N skin
N N
N skin
p
skin skin
)
|()()
|(
)()
|()
|(
skin p
skin c
p skin p skin c p
skin p skin c p c
Việc đưa ra quyết định được dựa trên một ngưỡng , 0 < < 1 Điểm được gọi
là điểm da nếu p(skin|c) > và ngược lại điểm không phải là da nếu p(skin|c) ≤
Mạng tự tổ chức (SOM)
Được đưa ra bởi Kohonen ở những năm đầu thập kỷ 80, ngày nay SOM đã trở thành phổ biến và được sử dụng rộng rãi trong những kiểu mạng nơron nhân tạo
L có liên hệ với một vectơ vi Rm mà được khởi tạo ngẫu nhiên khi bắt đầu Ở đây
Trang 20sử dụng không gian màu hai chiều nên m = 2 Mạng có thể là hình chữ nhật hoặc lục giác Hình 2.4 cho thấy những ví dụ của cả hai dạng cũng như khu lân cận của những nút trung tâm
Hình 2-4 Những mạng SOM với những hệ thống khu lân cận [2]
Trong thứ tự để huấn luyện SOM, chúng ta giới thiệu những vectơ huấn luyện tuần tự tới tất cả các nơron trong mạng Mỗi lúc vectơ đầu vào v được gửi vào trong SOM, một nơron vw thắng cuộc được xác định bởi
I i v
v v
- 256 Họ chỉ ra rằng sự thực hiện của SOM ở lề tốt hơn sự pha trộn Gaussian, trong khi thấp hơn những phương pháp trên histogram
Điểm tốt là nó tiêu thụ ít tài nguyên hơn những phương pháp dựa trên histogram và có thể được thực hiện trong phần cứng SOM nhanh và rẻ
Những lợi thế của những phương pháp không tham số:
Chúng nói chung nhanh trong cả sự huấn luyện và kiểm tra;
Trang 21 Phương pháp không quan tâm hình dạng những phân phối nằm bên dưới của dữ liệu huấn luyện, như vậy chúng ít ràng buộc hơn trong việc lựa chọn không gian màu
Tuy nhiên những mô hình này nói chung cần số lượng lớn của không gian lưu trữ và thiếu khả năng chèn thêm hoặc khái quát hóa dữ liệu huấn luyện
Để giảm số bin dùng để lưu trữ mỗi biểu đồ da/không da, người ta đã đề xuất giảm bớt số của những bin bằng cách đơn giản hóa không gian màu Ví dụ, nếu ta
), chúng ta cần 224 bin để cất giữ mỗi
bin là đủ để thể hiện các biểu đồ da/không da trong không gian màu RGB
Mô hình da tham số
Những mô hình tham số thì cần ít không gian lưu trữ hơn nhiều so với các
mô hình không tham số Chúng thể hiện tính đều đặn của những phân phối và cho phép phân tích về sau Chúng có khả năng chèn thêm dữ liệu huấn luyện khi nó thưa thướt Những hàm khác nhau có thể được áp dụng theo những vấn đề đặc biệt
)(
2
1exp2
1)
|
skin
T skin skin
c c
skin c
skin skin
C c
skin skin
Gaussians kết hợp
Mô hình Gaussian kết hợp là một mở rộng của Gaussian đơn, nó có khả năng đại diện nhiều phân phối phức tạp hơn Pdf dưới sự pha trộn của Gaussians được tính như sau:
Trang 221
)
| ( )
|
trong đó, pi là những nhân của Gaussian được định nghĩa trong (1.8), từng cái của chính nó là một phân phối Gaussian, k là số nhân của Gaussian, i trọng lượng tương ứng là nhân mà cộng lên tới 1 Chúng ta có thể xây dựng mô hình pha trộn cho lớp không da tương tự
Mô hình ranh giới hình bầu dục
Mô hình ranh giới hình bầu dục là mức trên của mô hình Gaussian đơn và sự pha trộn của Gaussians Động lực của mô hình này là mặt nghiêng của phân phối
da Để tính toán cho hình dạng thật của phân phối da, mà xấp xỉ là một hình ê-líp từ
sự quan sát của những mẫu huấn luyện, Lee và Yoo đề xướng để phân ra những vùng màu da và không da bởi một ranh giới hình bầu dục Mô hình được định nghĩa như sau:
) (
) (
T c
c C
1
T skin skin
skin skin
da nếu (c) < và không phải da nếu ngược lại Các tác giả đã thử mô hình này trên 6 không gian màu và qua nhiều thí nghiệm cho thấy mô hình này tốt hơn Gaussian và Gaussian kết hợp
Một hạn chế nhỏ của mô hình này là nó có thể chỉ đưa cho quyết định nhị phân, có nghĩa rằng nó thiếu thông tin liên tục do xác suất cung cấp hàm mật độ
2.2.3 Không gian màu cho mô hình da
Màu sắc là một phương tiện rất hiệu quả để phân biệt sự xuất hiện các đối tượng trong khi mức xám chỉ cung cấp được các thông tin về đặc trưng của ảnh Các nghiên cứu đã chỉ ra rằng các màu da người khác nhau gây ra rất ít sự phân nhóm trong không gian màu ngay cả khi xem xét các khuôn mặt thuộc các chủng
Trang 23tộc người khác nhau Điều này chứng tỏ rằng cấu trúc màu sắc của da người khác nhau rất ít giữa những người khác nhau
RGB
Một trong những mô hình màu được sử dụng nhiều nhất để mô hình màu sắc
da người là biểu diễn RGB trong đó những màu khác nhau được xác định bằng sự kết hợp của ba thành phần màu cơ bản là đỏ, xanh lục và xanh lơ Khi sự thay đổi chính của thể hiện màu da là do biến đổi độ chói gây nên, biểu diễn màu chuẩn hoá được sử dụng do đó có thể xác định được các thay đổi về độ chói Hệ màu được chuẩn hoá này có thể xác định được từ các thành phần RGB ban đầu:
B G R
R r
B G R
G g
B G R
B b
Từ các công thức tính trên, ta nhận ra rgb 1 Hệ màu chuẩn hoá do đó
có thể được biểu diễn hiệu quả thông qua hai thành phần r và g trong khi thành phần
b có thể đạt được thông qua công thức b1rg
Trong phân tích màu da người, biểu đồ phân bố dựa trên hai thành phần r và
g chỉ ra rằng màu khuôn mặt chỉ chiếm một vùng nhỏ trên biểu đồ Bằng cách so sánh các thông tin màu của một điểm ảnh lần lượt với các giá trị r và g trong vùng
đó, ta có thể tính toán được khả năng điểm ảnh đó thuộc về vùng da người
Bên cạnh mô hình màu RGB, có một số mô hình màu khác hiện đang được
sử dụng trong nghiên cứu tìm kiếm khuôn mặt người Biểu diễn mô hình màu HIS
đã chứng minh tính ưu điểm so với các mô hình khác khi chỉ ra sự khác biệt lớn giữa các nhóm đặc tính màu da Vì vậy, mô hình màu này được sử dụng để trích chọn các đặc tính mặt như mắt, môi và lông mày Khi sự biểu diễn hình ảnh liên quan ngày càng chặt chẽ đến sự cảm thụ màu sắc của con người thì mô hình màu này ngày càng được sử dụng rộng rãi trong các chiến lược phân vùng mặt
Mô hình màu YIQ cũng được sử dụng trong tìm kiếm khuôn mặt người Khi chuyển các màu trong mô hình RGB sang biểu diễn YIQ, có thể nhận thấy thành phần màu I, bao gồm dải màu từ màu vàng cam đến màu lục lam làm nổi bật vùng
da của người châu á Sự chuyển đổi hệ màu này xoá đi hiệu quả các vùng màu nền
và cho phép xác định các vùng mặt nhỏ trong môi trường tự nhiên
Các mô hình khác cũng được sử dụng trong tìm kiếm khuôn mặt người có thể kể đến HSV, YES, YCbCr, YUV, CIE-xyz, L*a*b*, L*u*v*,CSN…
Terrilon gần đây đã đưa ra một phương pháp nghiên cứu so sánh cách sử dụng một vài không gian màu được sử dụng nhiều trong tìm kiếm khuôn mặt Họ đã
so sánh các không gian màu TSL, rg, xyz và DSH, HSV,YIQ,
Trang 24CIE-L*u*v* và CIE L*a*b* bằng cách mô hình hoá phân phối màu da hoặc với mô hình phân phối Gaussian đơn giản hoặc với mô hình phân phối Gaussian kết hợp trong từng không gian màu Phương pháp mô men của Hu được sử dụng như là đặc trưng
và một mạng perceptron đa lớp được luyện để phân lớp các vùng có thể là mặt Nói chung, người ta đã chỉ ra rằng màu da người trong không gian độ sáng được chuẩn hoá có thể được mô hình với phân phối Gaussian đơn giản và hoạt động khá hiệu quả trong khi mô hình với phân phối Gaussian kết hợp có thể được áp dụng trong một số không gian không chuẩn hoá Trong các kiểm nghiệm tìm kiếm khuôn mặt người, mô hình màu TSL đem lại kết quả tốt nhất, nhưng một kết luận tổng quát có thể được rút ra là tiêu chuẩn quan trọng nhất trong tìm kiếm khuôn mặt người là mức độ gối nhau giữa phân phối màu da và không phải màu da trong các không gian màu (điều này phụ thuộc nhiều vào số lượng mẫu da và không phải da màu sử dụng trong quá trình học)
Phân vùng màu một cách cơ bản có thể được thực hiện thông qua sử dụng một ngưỡng màu da phù hợp trong đó màu da được mô hình thông qua biểu đồ hoặc
đồ thị màu Một số phương pháp phức tạp hơn sử dụng các tiêu chuẩn thống kê mà
mô hình mặt biến đổi bên trong một dải hình ảnh rộng Ví dụ, Oliver, Yang và Waibel đã sử dụng phân phối Gaussian để biểu diễn một nhóm các màu da của hàng nghìn mẫu màu da được lấy mẫu từ rất nhiều các màu da của các chủng tộc người
màu thông qua khoảng cách Mahalanobis Khoảng cách này sẽ đem lại ý niệm về sự tương đồng giữa màu sắc điểm ảnh với mô hình màu da Một ưu điểm của phương pháp mô hình màu thống kê là biến đổi về màu của một người khác có thể được thich nghi bởi mô hình tổng quát thông qua phương pháp học Sử dụng phương pháp thích nghi này, phương pháp dò tìm qua màu có thể rất hiệu quả khi thay đổi các nhân tố của môi trường như điều kiện chiếu sáng hoặc các đặc tính của thiết bị thu
2.2.3.1 Phân tách vùng da trong không gian màu rg
Mô hình màu da
Để có thể phân tách vùng da người khỏi các vùng không phải là da, ta cần có một mô hình màu tin cậy để có thể thích ứng được với sự đa dạng về chủng tộc người và các điều kiện chiếu sáng khác nhau Trong phần này, mô hình màu được lựa chọn là mô hình màu da trong không gian sắc độ màu
Trên thực tế mô hình màu được sử dụng nhiều nhất là mô hình RGB sử dụng trong biểu diễn ảnh màu Tuy nhiên, mô hình màu RGB không phù hợp để biểu diễn mô hình màu da Chính từ nguyên nhân này mà bài toán tìm mô hình màu biểu diễn màu da nảy sinh và nhiều mô hình màu được đề cập đến như đã chỉ ra trong phần tổng quan Trong không gian màu RGB, bộ ba (R,G,B) không chỉ biểu diễn màu mà còn biểu diễn độ chói của các mầu Độ chói có thể thay đổi tuỳ theo mặt
Trang 25người dựa trên điều kiện chiếu sáng xung quanh và không phải là đơn vị đo tin cậy
để có thể phân tách được các vùng da và vùng không phải là da Độ chói do đó có thể loại bỏ khỏi biểu diễn màu trong không gian sắc độ màu Các màu sắc độ hay còn gọi là màu nguyên bản do không có thành phần độ chói được định nghĩa thông qua quá trình chuẩn hoá sau:
B G R
R
, B G R
R r
Như đã trình bày trong phần tổng quan, các mô hình màu biểu diễn da người
đã được nghiên cứu rất nhiều Một kết luận rút ra từ các nghiên cứu đó đã khẳng định rằng phân phối màu da của những người khác nhau tụ lại thành vùng trong không gian sắc độ màu và một phân phối màu da có thể được biểu diễn bằng mô hình Gaussian N(m,C) trong đó:
Trang 26Hình 2-5 Phân phối màu cho các màu da khác nhau
Hình sau minh hoạ phân phối Gauss so khớp với biểu diễn phân phối màu da
Hình 2-6 Biểu diễn mô hình màu da bằng phân phối Gauss
Với mô hình màu da này, ta có thể tính được độ tương tự với màu da của từng điểm ảnh trong ảnh Do đó với một điểm ảnh, sau khi chuyển từ không gian màu RGB sang không gian sắc độ màu thì có một cặp màu sắc độ (r,b) Khi đó, độ tương tự với màu da được tính theo công thức sau:
Trang 27Độ tương tự = P(r,b) = exp[-0.5(x-m)T
C-1(x-m)]
với x = (r,b)T
và C-1 là ma trận nghịch đảo của ma trận hiệp biến C
Đến đây, thông qua mô hình màu sắc độ, một ảnh màu có thể chuyển thành ảnh đa mức xám tại từng điểm ảnh với giá trị của các điểm ảnh biểu diễn độ tương
tự với mô hình màu da hay các điểm ảnh nằm trên vùng da Với một phương pháp phân ngưỡng phù hợp, ảnh đa mức xám có thể được chuyển thành ảnh nhị phân (ảnh đã phân đoạn) biểu diễn các vùng da và các vùng nền
Phân đoạn vùng da
Mô hình màu da tính được trong các bước trên cho phép biến đổi ảnh màu đầu vào thành một ảnh đa mức xám chứa độ tương tự với màu da tại từng điểm ảnh Đến đây ta gặp lại bài toán phân đoạn ảnh với kết quả yêu cầu là các vùng da và không phải da được phân tách dựa trên thông tin mức xám vừa tính được
Phương pháp phân ngưỡng thích nghi dựa trên quan sát rằng nếu giảm giá trị ngưỡng xuống thì một cách trực quan có thể làm tăng vùng được phân đoạn Tuy nhiên, sự gia tăng về vùng phân đoạn sẽ giảm dần dần (khi tỉ lệ phần trăm các vùng
da tiếp cận đến 100%), nhưng sẽ gia tăng mạnh khi giá trị ngưỡng được coi là quá nhỏ đến mức các vùng không phải là vùng da cũng được kết hợp vào Như vậy, giá trị ngưỡng tại đó quan sát được sự tăng nhỏ nhất về kích cỡ vùng khi giảm dần từng bước giá trị ngưỡng sẽ là giá trị ngưỡng tối ưu Thường giá trị ngưỡng được giảm từ 0.65 đến 0.05 theo các các bước 0.1 Nếu sự gia tăng nhỏ nhất được quan sát khi giá trị ngưỡng chuyển từ 0,45 về 0,35 thì giá trị ngưỡng được lấy là 0.4 Thuật toán phân ngưỡng thích nghi là một thuật toán đem lại kết quả tốt khi sử dụng để phân ngưỡng các vùng
Đến đây, ta thu được một ảnh nhị phân mà các vùng ảnh là các vùng da xuất hiện trong ảnh màu ban đầu Vấn đề tiếp theo là tìm ra vị trí vùng mặt trong các vùng này vì thường trong một ảnh màu, bên cạnh vùng da mặt, các vùng da khác như chân, tay, đều có thể xuất hiện Tuy nhiên ta tạm chưa xét đến các bước tiếp theo để xem xét một mô hình khác có thể được sử dụng trong tìm kiếm khuôn mặt dựa trên màu da
2.2.4 Xác định vùng da sử dụng entropy
2.2.4.1 Khái niệm về entropy
Cho một biến ngẫu nhiên riêng biệt X với phân phối p, entropy của nó được định nghĩa như sau:
x p x p X
trong đó X là không gian của biến ngẫu nhiên x Chúng ta quy ước 0ln0 = 0 (limx->0 xlnx = 0) Như vậy việc thêm những xác suất zero không làm thay đổi
Trang 28entropy Chú ý rằng entropy là hàm phân phối của X Nó không phụ thuộc vào những giá trị thực tế được dữ bởi các biến ngẫu nhiên của X trên những xác suất Chúng ta ký hiệu kỳ vọng là E, như vậy nếu X có phân phối p, giá trị kỳ vọng của biến ngẫu nhiên f(X) được tính bởi:
X x
Có thể dễ dàng kiểm tra rằng entropy của biến ngẫu nhiên X luôn luôn không
âm Hình 2.7 cho thấy đường cong entropy H(x) của một biến nhị phân X đối với hàm mật độ xác suất Pr(X) của nó X có thể lấy hai giá trị riêng biệt 0 hoặc 1 Chúng ta có thể thấy entropy H(X) nhận giá trị max khi Pr(X = 0) = Pr(X = 1) = 0.5 và giảm bớt dần về mỗi phía H(X) = 0 khi X có giá trị 0 hoặc 1 với xác suất bằng 1
Hình 2-7 Đường cong entropy của biểu diễn biến ngẫu nhiên
2.2.4.2 Phát hiện màu da bằng mô hình Entropy cực đại
Một số ký hiệu
Gọi tập các giá trị màu là S, gán nhãn cho giá trị màu tại pixel s là xs, nhãn của pixel s là ys với ys = 1 nếu s là pixel màu da và ys = 0 nếu ys không phải màu da Ảnh màu được xem là một vector của các pixel màu, được ký hiệu là x và ảnh nhị phân tương ứng được tạo nên bởi các màu da ys là y
Giả sử biết được phân phối đồng thời của vector p(x,y), theo công thức Bayes sẽ tính được phân phối hậu nghiệm p(y|x) Mục tiêu cuối cùng là tính xác suất một giá trị là màu da p(ys=1|xs) từ phân phối hậu nghiệm
Nhưng trong thực nghiệm chúng ta không biết được phân phối p(x,y), thay vào đó có thể sử dụng CSDL Compaq (một tập khoảng 20.000 ảnh, đã được đánh giá các giá trị màu được xem là màu da và không phải màu da): {(x(1),y(1)),(x(2),y(2)),…,(x(n)
,y(n))}, trong đó 1 i n, x(i) là một ảnh màu, y(i) là ảnh nhị phân tương ứng, các mẫu là độc lập với nhau và có xác suất phân phối p(x,y)
Trang 29CSDL Compaq được chia ra làm hai tập một cách ngẫu nhiên, tập thứ nhất được sử dụng như tập huấn luyện, phần còn lại dùng làm tập kiểm tra Xác suất được thiết lập bởi kinh nghiệm và được ký hiệu bởi q
Bây giờ chúng ta sẽ xây dựng mô hình p(y|x), phân phối xác suất giá trị màu
và màu da với của một ảnh màu sử dụng mô hình entropy cực đại
Mô hình Baseline
Với mỗi ảnh x, xem sét các phân phối xác suất p(x,y) thông qua những ảnh nhị phân tương ứng:
0 , 1 , ( | ) ( | ) ,
, :
) (
s
x q y
s
y q x
y
trong tập dữ liệu học thông qua công thức Bayes:
)()
|()(
1)
|
s s
x q x y
)()
|()
(
s
y
s s
x q xs
q
Mô hình Markov ẩn (HMM)
Mô hình Baseline ở trên không có được nhiều chặt chẽ, thực tế cho thấy các vùng da không đơn thuần là phân phối ngẫu nhiên mà nó được cấu tạo nên bởi các vùng da rộng Vì vậy, cần tăng cường khả năng nhận dạng bằng cách ràng buộc thêm xác suất xuất hiện màu da cho các cặp điểm lân cận nhau
Ở đây, chúng ta sẽ sử dụng hệ thống 4 lân cận cho hai điểm lân cận s và t, ta quan sát (ys = a, yt = b) sẽ là q(a,b) với a = 0,1 và b = 0,1 tương ứng trên tập học
Hình 2-8 4 điểm lân cận và 8 điểm lân cận
Trang 30Giả sử rằng mô hình MaxEnt là đẳng hướng theo hai hướng ngang và dọc, có nghĩa rằng q(ys,yt) = q(ys',yt') theo cùng một hướng Ràng buộc HMM như sau:
1)(
1((exp)
|()
t s S
s
s
x q y
x
Ký hiệu có nghĩa là đẳng thức trên với một hàm tiêu chuẩn hóa, a0, a1 là các hằng số được chọn sao cho những sự ràng buộc được thỏa mãn Từ (2.22) ta thu được mô hình sau
S s
s
x q y p x y
t s t
y a a
a Z y p
~
1 0
1 0
))
1)(
1((exp),(
1)
y a a
a
~
1 0
1
Mô hình First_order
Mô hình Baseline được xây dựng để bắt chước một điểm của phân phối màu
da được quan sát từ CSDL mẫu Tiến đến trong việc xây dựng HMM chúng ta đã thêm vào những sự ràng buộc trên phân phối da để làm nhẵn mô hình Giờ, chúng ta
sẽ đưa ra một mô hình nữa của MaxEnt bằng cách thêm vào hai điểm lân cận, p(xs,xt,ys,yt) Với 4 điểm lân cận, s t quan sát trong tập dữ liệu huấn luyện Chúng
ta định nghĩa rằng buộc như sau:
),,,(),,,(
,1,0,
1,0,
,,
~
:
1
t s t s t
s t s
t s
t s
y y x x q y y x x p
y y
C x C x S S t s
t s t
x t s y
x p
~
),,,,,(exp),
t s t
x t s x
y p
~
),,,,,(exp)
|
Trang 31 Thiết lập tham số
Giải pháp thiết lập tham số thường được lựa chọn bằng cách tính xấp xỉ mẫu
để có thể đạt được một công thức mà lúc đó hàm phân hoạch bị triệt tiêu Chúng ta
sử dụng phương pháp lấy mẫu ảnh theo mô hình được định nghĩa trong (2.24) mà không cần biết các tham số a0 và a1
Thật vậy, mô hình được định nghĩa trong (2.24) được xem như là tập các ảnh
y tương ứng với các ràng buộc : py(0,0) = q(0,0) và py(1,1) = q(1,1), trong đó:
(.,.)
)0,0()0,0(
N
N p
N
N p
y y
y y
với N(.,.) là số các clique trong ảnh nhị phân y, Ny(0,0) và Ny(1,1) tương ứng
là các số clique có nhãn là (0,0) và (1,1) py(0,0) và py(1,1) là các xác suất hai điểm lân cận là màu da hoặc không phải là màu da của tập mẫu Trong một mạng lớn, một tập hợp đặc biệt của ảnh sẽ nhận hầu hết các xác suất, trong mỗi ảnh luôn có sự ràng buộc của chính nó Trong một mạng vô hạn, tập ảnh sẽ dần dần nhận xác suất
1 Mỗi ảnh thuộc cùng một tập sẽ có cùng một xác suất
cực đại Chúng ta xây dựng hàm năng lượng như sau:
1
)0,0()1)(
1((.,.)
1)
t s
t s y
q y y N
q y y
N y H
1
) 0 , 0 ( ) 1 )(
( (.,.) 1
~
~
y t
s t s y
y t t s t s y
p y
y N
p y y y N
(2.31)
và py(1,1) = q(1,1) đảm bảo thỏa mãn ràng buộc D
Áp dụng thuật toán Metropolis lấy mẫu theo phân phối Gibbs và cực tiểu hóa hàm năng lượng
Xét tập ảnh tuần tự y(0)
, y(1), …, y(n),…Tại bước thứ n, chúng ta chọn y(n)
như sau:
Trang 32Coi y’ là ảnh có được bởi các giá trị của pixel s tại y(n-1)
Nếu H( y’ ) H( y (n-1) ) thì y (n) y ’
Nếu H( y’ ) H( y (n-1) ) thì
y(n-1) y’ với xác suất exp((H(y)-H(y’)))
y(n) y(n-1)
với xác suất 1- exp((H(y)-H(y’)))
hạn thì dãy tuần tự y(n)
dần hội tụ tới một mẫu y* mà phân phối là đồng nhất trên toàn bộ ảnh, thỏa mãn ràng buộc D, hoặc có thể nói rằng toàn bộ ảnh có năng lượng
bé nhất
Trong bước tiếp theo, chúng ta sử dụng hình ảnh mẫu này để đánh giá tham
số a0 và a1 Điều này được thực hiện bằng cách tính đại lượng p(Ys=1|y(s)) là xác suất quan sát tại nhãn 1 của điểm s với mọi giá trị của yt, t S và t s Theo (2.24), ta có:
) 4 ) 1 ( ) ((
)
| 1 (Y y( ) a1 a0 n a0
Hình 2-9 Một ảnh mẫu từ tập phân phối thỏa mãn D, có năng lượng cực tiểu
Việc thiết lập các tham số từ hình ảnh này cho ta kết quả a0 3,76 và a1
3,94 Bây giờ có thể sử dụng các tham số này cho việc xác định các vùng da Chú ý rằng với việc chọn 4 điểm lân cận sẽ dẫn tới việc những viền nằm ngang và thẳng đứng thì thường được chú ý Đây là một sự thiên lệch trong các hệ thống lân cận, sử dụng 8 điểm lân cận có thể cải thiện trong tính toán
Trang 33j s
y n
) (
0 0
1
Thuật toán lấy mẫu Gibbs được thực hiện như thuật toán dưới đây
Chú ý rằng các vector u, y được định nghĩa trên lưới S và khi n ,sS,
us p(Ys=1|x), p(Ys = 1|y(s),x) được tính như sau:
))
; ( ( )
| (
x)
| y 1, p(Y x) , y
| 1 p(Ys (s) s (s) U x y
x y p
|(
)1
|(ln)y-(1a-y(qy)
U(x;
s
V t
t 0 t
Y x q
Y x q
trong đó là hàm 1/(1+exp(-x)) và V s là các lân cận của s
Thuật toán lấy mẫu Gibbs
u := u /(n – n0)
Trang 34Chọn mẫu bằng cách: nếu p(Y s = 1|y(s),x) > thì y s = 1 và ngược lại
chọn y s = 0
Kết quả thực nghiệm
Xây dựng hai mô hình Baseline và HMM để kiểm thử khả năng phát hiện màu da thì thấy, khả năng phát hiện da của ba phương pháp trên được sắp xếp như sau First-order tốt hơn HMM tốt hơn Baseline
Bước 1: định vị vùng khả năng mặt là vùng mà theo cách nào đó ta xác
định là có khả năng chứa khuôn mặt nhất
Bước 2: quyết định xem vùng khả năng mặt ấy có phải là mặt thật hay
không sử dụng một bộ ra quyết định nào đó Tại bước này, có rất nhiều
Trang 35phương pháp đã được sử dụng Hai phương pháp ra quyết định sử dụng đối sánh mẫu và mô hình Markov ẩn được giới thiệu
2.2.5.2 Định vị vùng khả năng mặt
Chúng ta có thể sử dụng kỹ thuật quét của sổ để tìm vị trí khuôn mặt trong
đó một cửa sổ kích thước nhỏ thường là 20x20 hoặc 32x32 được di chuyển trên toàn bộ ảnh đầu vào và mỗi vùng cửa sổ đi qua sẽ được xem xét xem có hay không
sự tồn tại của một khuôn mặt Trong phương pháp sử dụng màu da, khi mà các vùng
da đã được phân vùng, phạm vi tìm kiếm nếu sử dụng kỹ thuật quét cửa sổ đã được giảm đi rất nhiều Trong một số trường hợp, ví dụ như ảnh nhìn thẳng chỉ chứa một khuôn mặt thì kết quả phân đoạn có thể đã là kết quả cuối cùng Tuy nhiên, khi sử dụng phương pháp màu da, các cửa sổ quét không được sử dụng đến nữa mà thay vào đó là các thông tin về vùng da và các tri thức thu thập được về các vùng da người Dựa vào các thông tin đó, có thể tìm ra được các vùng khả năng mặt nhanh chóng và hiệu quả hơn
Ta đã biết ảnh đầu vào cho đến bước này được đã được xử lý để tách riêng các vùng da với nhau Vấn đề cần phải giải quyết ở đây là ta cần phải xác định được vùng da nào có thể chứa một khuôn mặt người Để giải quyết được vấn đề này, trước hết ta phải xác định được số lượng các vùng da và tách riêng từng vùng
Các vùng da
Một vùng da được định nghĩa là một vùng liên thông trong ảnh nhị phân biểu diễn các vùng da, trong một vùng da có thể có các lổ hổng Đường biên của vùng được biểu diễn bởi các điểm ảnh có giá trị 1 trong ảnh nhị phân Các lỗ hổng trong ảnh là các vùng điểm ảnh mang giá trị 0
Để xử lý từng vùng, ta phải tách riêng vùng đó ra khỏi các ảnh nhị phân ban đầu và đánh vùng đó Một vùng da thường được tách ra khỏi ảnh sử dụng tính liên thông của vùng Các điểm ảnh lân cận nhau sẽ được đánh cùng một nhãn cho đến khi không thể tìm ra được điểm lân cận chưa được đánh nhãn Các điểm ảnh có cùng một nhãn sẽ được trích ra để tạo thành một ảnh nhị phân mới được sử dụng như một mặt nạ trên ảnh màu để xác định vùng ảnh màu cần thao tác Phương pháp lặp sẽ quét trên ảnh nhị phân để tìm ra các vùng chưa được đánh nhãn
Một điểm cần chú ý khi thực hiện phân tách vùng da đó là thuật toán sử dụng
để đánh nhãn thường là thuật toán 8 láng giềng liên thông Đối với xử lý ảnh, đây là thuật toán tốt nhất nhưng cũng cần chú ý khi cài đặt bởi vì kích thước của một ảnh thường rất lớn, nếu sử dụng các phương pháp đệ quy thông thường có thể làm tràn
bộ nhớ với hầu hết các máy tính thông thường Cách giải quyết vấn đề là cài đặt thuật toán quay lui tự động (giả đệ quy) khi không còn điểm biên liên thông chưa được đánh nhãn
Trang 36Sau khi vùng da được tách riêng, các thao tác xử lý sẽ thực hiện trên duy nhất vùng này không quan tâm đến sự tồn tại các vùng da khác trong ảnh Một số thuộc tính của vùng được quan tâm đến
j
j i jB
1 1
,A
1x
j
j i iB
1 1
,A
1y
A là số điểm ảnh có trong vùng Với công thức tính trên, các vùng lỗ hổng không được tính với B[i,j]=0
Góc nghiêng
Phần lớn các ảnh mặt đều bị nghiêng theo chiều dọc Ta có thể tăng được khả năng tìm kiếm nếu tính toán được độ nghiêng của vùng so với trục thẳng đứng Để tính góc nghiêng này, ta sử dụng các đặc trưng dựa trên mô men đối với các đối tượng hình dạng
Công thức tính mô men bậc (p,q) đối với một vùng ảnh R như sau
p q )
, ( q
Góc nghiêng được định nghĩa là góc của trục có với mômen nhỏ nhất so với trục thẳng đứng Góc nghiêng này được tính theo công thức:
1,1 1
-μμ
2μtan
2
1θ
Trong trường hợp cụ thể đối với vùng da được tách riêng ra, góc nghiêng theta được tính:
2btan2
j
ij B i j x
1 1
2 '
,a
j ij
ij y B i j x
1 1
' '
,b