Trong khóa luận này chúng tôi đưa ra một phương pháp lai và xây dựng hệ thống áp dụng phương pháp lai này nhằm mục đích nhận dạng các điểm đặc trưng trong các bức ảnh mặt người thông qua
Trang 1
Nguyễn Thành Trung
TRÍCH CHỌN ĐẶC TRƯNG TRÊN KHUÔN MẶT
NGƯỜI
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Hà Nội – 2010
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
Nguyễn Thành Trung
TRÍCH CHỌN ĐẶC TRƯNG TRÊN KHUÔN MẶT
NGƯỜI
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
GV hướng dẫn: PGS.TS Bùi Thế Duy
Hà Nội – 2010
Trang 3i
Lời cảm ơn
Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Bùi Thế Duy, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua Em cũng xin chân thành cảm ơn các anh chị, thầy cô trong phòng tương tác người
- máy đã luôn chỉ bảo mỗi khi em có những vấn đề vướng mắc
Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua
Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn Cảm ơn tất cả bạn bè đã luôn sát cánh cùng tôi
Hà Nội, ngày 20 tháng 5 năm 2010
Nguyễn Thành Trung
Trang 4ii
Tóm tắt
Bài toán trích chọn đặc trưng trên ảnh mặt người là bài toán cơ bản và quan trọng trong nhóm các bài toán về xử lý ảnh mà đầu vào là ảnh 2D Đầu ra của nó được sử dụng làm đầu vào cho bài toán nhận dạng mặt, nhận dạng cảm xúc, Trong khóa luận này chúng tôi đưa ra một phương pháp lai và xây dựng hệ thống áp dụng phương pháp lai này nhằm mục đích nhận dạng các điểm đặc trưng trong các bức ảnh mặt người thông qua hướng tiếp cận trích chọn đặc trưng hình học Hệ thống của chúng tôi đã được xây dựng hoàn chỉnh và các kết quả chạy thử nghiệm trên bộ dữ liệu Cohn – Kanade thu được là khả quan
Trang 5iii
Mục lục
Lời cảm ơn i
Tóm tắt ii
Mục lục iii
Danh sách hình vẽ v
Danh sách bảng vii
Chương 1 Giới thiệu 1
Chương 2 Phát hiện khuôn mặt người trong ảnh 2D 3
2.1 Giới thiệu 3
2.2 Tổng quan về công nghệ phát hiện khuôn mặt 3
2.2.1 Chiến lược phát hiện khuôn mặt 3
2.2.2 Xác định hướng quay của đầu 5
2.2.3 Một số phương pháp dùng phát hiện khuôn mặt 7
2.3 Nhận dạng khuôn mặt dùng đặc trưng giống Haar và Adaboost 8
2.3.1 Cơ sở lý thuyết đặc trưng giống Haar 8
2.3.2 Phương pháp học máy Adaboost 9
Chương 3 Tổng quan về các phương pháp trích chọn đặc trưng 13
3.1 Các hướng tiếp cận 13
3.2 Phương pháp trích chọn đặc trưng hình học 14
3.2.1 Tổng quan 14
3.2.1 Xác định các điểm đặc trưng trên khuôn mặt 14
3.2.2 Phát hiện hình dáng các bộ phận trên khuôn mặt 16
3.2.3 Nhân trắc học và áp dụng với phương pháp trích chọn đặc trưng hình học 17
3.3 Trích chọn đặc trưng diện mạo 19
3.3.1 Tổng quan 19
3.3.2 Mã LBP 19
3.3.3 Bộ lọc Gabor 23
Trang 6iv
Chương 4 Xây dựng hệ thống nhận dạng các điểm đặc trưng 25
4.1 Tổng quan về hệ thống 25
4.2 Thiết kế hệ thống 27
4.3 Thực nghiệm 33
4.3.1 Phát hiện khuôn mặt trong ảnh 33
4.3.2 Xác định các vùng đặc trưng 36
4.3.3 Xác định 6 điểm đặc trưng 41
4.3.3 Xác định 14 điểm đặc trưng 46
Chương 5 Tổng kết và hướng phát triển 55
Tài liệu tham khảo 56
Trang 7v
Danh sách hình vẽ
Hình 1 −Xác định đường cắt của đầu 6
Hình 2 − Ví dụ về 3 hướng quay của đầu 7
Hình 3 – Ảnh tích hợp 9
Hình 4 − Sơ đồ hệ thống nhận dạng khuôn mặt .10
Hình 5 − Hệ thống nhận dạng khuôn mặt .12
Hình 6 − Lặp để xác định ngưỡng trên cửa sổ tìm kiếm 14
Hình 7 – Phép chiếu toàn bộ 15
Hình 9 − Sơ đồ hệ thống tự động xác định điểm đặc trưng .16
Hình 10 – Mô hình nhiều trạng thái với mặt trực diện .17
Hình 11 – Mô hình nhân trắc học của mặt (a) Các điểm mốc, (b) Khoảng cách .18
Hình 12 - Ví dụ về LBP và độ tương phản cục bộ C 20
Hình 13 - Tập hợp các điểm xung quanh P tt 20
Hình 14 – Phần thực của bộ lọc Gabor với 5 tần xuất và 8 hướng với w max = 𝝅/2, hàng ứng với sự thay đổi tần suất, cột ứng với sự thay đổi hướng .23
Hình 15 – Một ví dụ về ảnh sau khi nhân xoắn với 48 bộ lọc Gabor 24
Hình 16 – 20 điểm đặc trưng .25
Hình 17 – Hệ thống nhận dạng 20 điểm đặc trưng .27
Hình 18 – Vị trị, kích thước con ngươi .28
Hình 19 – Các vùng đặc trưng trên khuôn mặt .29
Hình 20 – Thuật toán 2 đỉnh .30
Hình 21 – Xác định đường biên chính bằng thuật toán đồ thị liên thông .31
Hình 22 – Một số ví dụ phát hiện khuôn mặt bằng đặc trưng giống Haar trên hệ cơ sở dữ liệu Conh – Kanade 36 Hình 23 – Kết quả nhận dạng khuôn mặt thời gian thực (sử dụng camera) .36
Hình 24 – Chia khuôn mặt thành 3 phần .37
Hình 25 – Một số ví dụ về xác định vùng mắt phải .39
Hình 26 – Một số ví dụ về xác định vùng mắt trái 40
Trang 8vi
Hình 27 – Một số ví dụ xác định vùng miệng (a) đúng, (b) sai .41
Hình 28 – Đánh dấu hàng có histogram lớn nhất .41
Hình 29 – Xác định vị trí mống mắt bằng histogram .42
Hình 32 – Xác định mống mắt là tâm vùng đặc trưng .42
Hình 31 – Một ví dụ dùng thuật toán phát hiện cạnh Canny sau khi lấy ngưỡng .43
Hình 32 – Ví dụ về xác định 2 lỗ mũi .43
Hình 33 – Xác định đường mép bằng histogram (a)Trường hợp chính xác, (b) Trường hợp không chính xác .44
Hình 34 – Ví dụ lấy ngưỡng trong khoảng [5 50] 45
Hình 35 – Ví dụ xác định cạnh bằng thuật toán Canny .45
Hình 36 – Ví dụ xác định 2 điểm khóe miệng .46
Hình 37 – Thực nghiệm 8 điểm đặc trưng .46
Hình 38 – Ví dụ về xác định 8 điểm đặc trưng .54
Trang 9vii
Danh sách bảng
Bảng 1 – Tỷ lệ khoảng cách giữa các mốc .18
Bảng 2 – Danh sách các điểm đặc trưng .26
Bảng 3 - Bộ cơ sở dữ liệu Cohn – Kanade .34
Bảng 4 – Kết quả nhận dạng khuôn mặt trên bộ cơ sở dữ liệu Cohn – Kanade .35
Bảng 5 – Các bộ phân lớp cascade .38
Bảng 6 – Kết quả xác định vùng mắt phải .39
Bảng 7 – Kết quả xác định vùng mắt trái .39
Bảng 8 – Kết quả xác định vùng miệng .40
Bảng 9 – Kết quả nhận dạng điểm mống mắt 42
Bảng 10 – Kết quả nhận dạng 2 lỗ mũi .43
Bảng 11 – Kết quả xác định 2 khóe miệng 44
Bảng 12 – Danh sách kích thước ảnh mẫu kiểm tra 50
Bảng 13 – Sai số trung bình .53
Bảng 14 – Kết quả xác định 2 điểm P7,P8 với 10 mẫu .54
Trang 10nhất trong đời sống của mỗi người và là yếu tố ảnh hưởng trực tiếp tới quá trình hình thành lên tâm sinh lý của con người Hơn thế nữa, giao tiếp giúp con người có thể truyền tải thông tin, học hỏi tri thức và thể hiện cảm xúc Nhờ có giao tiếp làm cho con người văn hóa, xã hội văn minh và đất nước phát triển Nhận thấy tầm quan trọng của hoạt động giao tiếp nên con người đã bỏ rất nhiều thời gian và công sức vào nghiên cứu yếu tố quyết định thành công của việc giao tiếp, không chỉ trong lĩnh vực giao tiếp giữa con người với con người, mà ngày nay con người đã bắt đầu nghiên cứu về các hệ thống tương tác người – máy Mặt khác, trong giao tiếp thì khuôn mặt là nơi con người thể hiện suy nghĩ, tình cảm, thái độ nên để con người và máy tính có thể tương tác với nhau tự nhiên hơn thì các hệ thống được xây dựng dựa trên nền tảng là những thay đổi của khuôn mặt Muốn xác định được các thay đổi đó cần trích chọn được ra các yếu tố
riêng biệt của từng khuôn mặt, trên khía cạnh đó bài toán Trích chọn đặc trưng trên
khuôn mặt ra đời là động lực to lớn thúc đẩy sự phát triển của các hệ thống tương tác
người – máy tự động Là một bài toán cơ bản và đã có rất nhiều các giải pháp trích chọn đặc trưng khác nhau được đưa ra nhưng hầu hết các giải pháp trước đó đều gặp khó khăn trong việc xử lý các bức ảnh khuôn mặt với độ phân giải khác nhau hay với những điều kiện ánh sáng không thuận lợi Trong khóa luận này, chúng tôi sẽ trình bày
về phương pháp lai để xác định các điểm đặc trưng trên khuôn mặt Phương pháp lai này sẽ khắc phục được những khó khăn mà các phương pháp trước đó gặp phải như ảnh hưởng của điều kiện ánh sáng hay một số nhiễu trong ảnh Dựa vào phương pháp lai này chúng tôi xây dựng lên một hệ thống để xác định 20 điểm đặc trưng, hệ thống
đã được chạy thử nghiệm trên bộ dữ liệu Cohn – Kanade và cho kết quả khả quan
Phần còn lại của khóa luận được trình bày như sau: tại Chương 2 chúng tôi giới thiệu
tổng quan về bài toán phát hiện khuôn mặt người trong ảnh 2D Tiếp theo, chúng tôi
Trang 112
trình bày tổng quan về các phương pháp trích chọn đặc trưng trên khuôn mặt người
trong Chương 3 Sau đó, tại Chương 4 chúng tôi trình bày về hệ thống nhận dạng các
đặc trưng trên khuôn mặt của mình Cuối cùng là phần tổng kết, đánh giá và hướng
phát triển chúng tôi trình bày trong Chương 5
Trang 123
Chương 2
Phát hiện khuôn mặt người trong ảnh 2D
2.1 Giới thiệu
Bài toán trích trọn đặc trưng trên ảnh khuôn mặt người đã được quan tâm từ khá lâu do
có rất nhiều ứng dụng như: Sử dụng trong hệ thống nhận dạng cảm xúc, hệ thống tương tác giữa người và máy (điều khiển máy tính qua các cử động của khuôn mặt), hệ thống nhận dạng người (giúp cho các cơ quan an ninh quản lý con người), hệ thống quan sát theo dõi như hệ thống quản lý việc ra vào cho các cơ quan và công ty, hệ thống kiểm tra người lái xe có ngủ gật hay không, hệ thống phân tích cảm xúc trên khuôn mặt, hệ thống nhận dạng khuôn mặt cho các máy ảnh kỹ thuật số,
Ngày nay, đã có rất nhiều các phương pháp trích chọn đặc trưng với những cách thức rất khác nhau nhưng tất cả các phương pháp đó đều bao gồm hai công đoạn chính là:
Để hiểu rõ hơn về bài toán trích chọn đặc trưng và các công đoạn trong bài toán trích chọn đặc trưng, đầu tiên chúng tôi sẽ trình bày tổng quan về công nghệ phát hiện khuôn mặt trong ảnh 2D
2.2 Tổng quan về công nghệ phát hiện khuôn mặt
2.2.1 Chiến lược phát hiện khuôn mặt
Hiện nay có rất nhiều phương pháp nhận dạng khuôn mặt người, dựa vào các tính chất của các phương pháp, ta có thể chia ra làm hai hướng tiếp cận chính như sau:
Hướng tiếp cận dựa trên đặc trưng cơ bản
Đây là phương pháp dựa chủ yếu trên những hiểu biết của con người về khuôn mặt Ví
dụ như những bộ phận trên khuôn mặt mắt, mũi, miệng, ngoài ra còn có thể về hình
Trang 134
dạng, đường nét hay cấu tạo của khuôn mặt Trong phướng pháp này có 2 chiến lược tiếp cận khác nhau là:
Từ dưới lên (Bottum-up): Cố gắng xác định từng đặc trưng riêng biệt sau đó nhóm
chúng lại với nhau và kiểm tra lại Phương pháp này có ưu điểm là không bị ảnh hưởng của hướng xoay hay di chuyển của khuôn mặt nhưng có một số giới hạn sau:
nhiễu trong ảnh
về thời gian nên không đáp ứng được yêu cầu thời gian thực
Từ trên xuống (Top-down): Tạo ra một mẫu hay model về khuôn mặt chuẩn có thể
là 2 chiều hoặc 3 chiều, sau đó cố gắng ghép mẫu đó vào bức ảnh Phương pháp này có những nét chính sau:
Hướng tiếp cận dựa trên diện mạo
Phương pháp này nhận dạng khuôn mặt tập trung vào vấn đề phân lớp chính là phân lớp một bức ảnh (có kích thước cố định) vào 2 lớp là mặt hoặc không Phương pháp học từ một tập ảnh huấn luyện mẫu để xác định khuôn mặt người Phương pháp này gồm một số bước chính sau:
pháp biểu diễn khuôn mặt như LBP, Gabor
ở vị trí và tỷ lệ khác nhau hoặc dùng trên toàn bộ bức ảnh
Trong hai hướng tiếp cận trên, hướng tiếp cận dựa trên đặc trưng diện mạo có ưu điểm vượt trội hơn so hướng tiếp cận cơ bản là không phụ thuộc vào hướng quay của đầu
Trang 145
trong bức ảnh Để trích chọn đặc trưng cơ bản được chính xác, chúng ta cần có thêm một bước tiền xử lý là xác định hướng quay của đầu trong ảnh, cụ thể về các phương pháp xác định hướng quay sẽ được trình bày trong phần 2.2.2
2.2.2 Xác định hướng quay của đầu
Xác định hướng nhìn là một vấn đề nảy sinh cần giải quyết trong nhận dạng khuôn mặt Một số phương pháp nhận dạng khuôn mặt trình bày ở trên có thế không bị ảnh hưởng của hướng nhìn thông thường là những phương pháp tiếp cận theo hướng diện mạo nhưng xác định hướng nhìn cần được xem xét như một phần riêng biệt trong nhận dạng khuôn mặt Hiện nay có rất nhiều phương pháp xác định hướng nhìn được đưa ra, tổng quan về các phương pháp được trình bày bởi Murphy – Chutorian và Trivedi [16] Tian [15] đã đưa ra một phương pháp xác định hướng nhìn Phương pháp trình bày xác định hướng của khuôn mặt đầu tiên thay vì xác định khuôn mặt như các phương pháp thông thường Những bước sử dụng để xác định được đường cắt của phần đầu trong bức ảnh:
(trục y) của bóng
đường viền của bóng
cắt) mục đích là đo độ dài của đường cắt
Trang 156
Hình 1 −Xác định đường cắt của đầu
Sau khi đường cắt L của đầu được xác định vùng đầu được xác định dễ dàng – là phần trên tính từ đường cắt Để xác định được vùng đầu chính xác đưa ra một trọng số của đầu là H = α * W với W là độ rộng của đầu và α = 1.4 Sau khi xác định được vị trí của phần đầu thì bức ảnh được chuyển sang định dạng gray-scale (đen - trắng) sau đó cân bằng histogram và điều chỉnh kích thước về độ phân giải đánh giá Sau đó sử dụng mạng nơron 3 tầng đề xác định hướng của đầu Đầu vào là bức ảnh (sau khi đã nhân xoắn với ma trận mặt nạ Gauss và 3 mẫu quay – bất biến Gabor) Đầu ra của mạng là 3 hướng quay của đầu : 1) trực diện hoặc gần trực diện 2) Nhìn sang hoặc nhìn nghiêng 3) Trường hợp nhìn ra sau hoặc không xác định được
Trang 167
Hình 2 − Ví dụ về 3 hướng quay của đầu
2.2.3 Một số phương pháp dùng phát hiện khuôn mặt
Ngày nay có rất nhiều các phương pháp nhận dạng khuôn mặt như: Eigenface [25],
FA (factor Analsys) [26], FLD (Fisher‟s Linear Discriminant) [27], Active Apperance Model [24],
Các phương pháp trên có một số nhược điểm như:
Vượt lên trên các phương pháp khác với tốc độ thực hiện nhanh và độ chính xác chấp nhận được Viola và Jones [30] đưa ra phương pháp nhận dạng khuôn mặt dùng đặc trưng giống Haar kết hợp với phương pháp học máy Adaboost Phương pháp gồm 2 bước cơ bản: Đầu tiên là trích chọn đặc trưng giống Haar của ảnh khuôn mặt người và không phải mặt người trong cơ sở dữ liệu Sau đó dùng bộ học máy mạnh là Adaboost
để xây dựng mô hình phân loại Cụ thể phương pháp được trình bày trong phần 2.3
Trang 178
2.3 Nhận dạng khuôn mặt dùng đặc trưng giống Haar và Adaboost
2.3.1 Cơ sở lý thuyết đặc trưng giống Haar
Một số đặc trưng giống Haar thường dùng như:
+ Đặc trưng cạnh (Edge Features):
+ Đặc trưng đường thẳng (Line Features):
+ Đặc trưng tâm – xung quanh (Center – surround Features):
Dùng các đặc trưng trên ta có thế tính được các giá trị của đặc trưng giống Haar bằng cách lấy hiệu tổng giá trị điểm ảnh trong vùng màu đen và tổng giá trị điểm ảnh trong vùng màu trắng theo công thức sau:
Như vậy, để tính giá trị của đặc trưng giống Haar thì phải tính tổng giá trị từng pixel
để tính giá trị của đặc trưng giống Haar cho tất cả vị trí trên ảnh cần chi phí tính toán quá lớn, không đáp ứng được yêu cầu thời gian thực Do đó Viola [25] đưa ra một cách thức tính mới như sau:
+ Tính từ một bức ảnh bình thường thông qua một số các toán tử trên pixel ta thu đuợc một bức ảnh mới gọi là ảnh tích hợp:
ii(x,y) = ∑(x‟,y‟) (x‟ < x,y „ <y)
Trang 189
s(x,y) là tổng các pixel theo hàng
+ Sau khi tính được ảnh tích hợp thì việc tính toán giá trị mức xám là rất đơn giản
Ví dụ:
Hình 3 – Ảnh tích hợp
Ta muốn tính tổng giá các pixel trong miền D:
D = A + B + C + D – ( A + B) – ( A + C ) + A Hay
𝑝𝑖𝑥𝑒𝑙𝐷 = 𝐴𝑝𝑖𝑥𝑒𝑙 + 𝐵𝑝𝑖𝑥𝑒𝑙 + 𝐶𝑝𝑖𝑥𝑒𝑙 + 𝐷𝑝𝑖𝑥𝑒𝑙 - { 𝐴𝑝𝑖𝑥𝑒𝑙 + 𝐵𝑝𝑖𝑥𝑒𝑙 } - {
𝑝𝑖𝑥𝑒𝑙𝐴 + 𝐶𝑝𝑖𝑥𝑒𝑙 } + 𝐴𝑝𝑖𝑥𝑒𝑙Nhưng trong ảnh tích hợp chúng ta chỉ phải thực hiện phép tính đơn giản:
Trong phương pháp Adaboost Yoav và Robrert [31] đưa thêm khái niệm trọng số
để đánh dấu các mẫu khó nhận dạng Trong quá trình huấn luyện, Adaboost gọi các bộ
Trang 1910
được cập nhật lại theo nguyên tắc: tăng trọng số của các mẫu nhận dạng sai và giảm trọng số của các mẫu nhận dạng đúng Mục tiêu là sau mỗi lần lặp thì bộ phân lớp yếu sau sẽ tập trung trên các mẫu nhận dạng sai để tăng độ chính xác
Thuật toán
Viola và Jones [30] dùng Adaboost kết hợp các bộ phân loại yếu và đặc trưng giống Haar như sau:
Hình 4 − Sơ đồ hệ thống nhận dạng khuôn mặt
(ví dụ điều kiện tối ưu có thế là số mẫu sai là ít nhất)
hj(x) = {1 𝑛ế𝑢 𝑝0 𝑛𝑔 ượ𝑐 𝑙ạ𝑖𝑗𝑓𝑗<𝑝𝑗𝜑𝑗
Trong đó :
Trang 2011
+ x : cửa sổ con (thường dùng là 24x24 pixel),
+ fj: giá trị đặc trưng giống Haar,
+ pj : hệ số quyết định chiều của phương trình
Mô tả thuật toán :
Có một tập các bức ảnh (x 1 , y 1 ) , … , (x n ,y n ) với y i = 0,1 ứng với các mẫu không
là khuôn mặt hoặc là khuôn mặt
Khởi tạo các trọng số w 1,I = 1/2m, 1/2l với y i tương ứng là 0 hoặc 1 với m, l là tổng các mẫu là khuôn mặt hoặc không là khuôn mặt ( m + l = n)
Trang 21bỏ bớt các đặc trưng không cần thiết để giảm số lượng các đặc trưng Các đặc trưng còn lại sẽ được đưa qua bộ phân lớp đề có quyết định xem có là mặt hay không Mỗi
bộ phân loại yếu sẽ quyết định kết quả cho một đặc trưng giống Haar, được xác định ngưỡng đủ nhỏ sao cho có thể vượt qua tất cả các bộ dữ liệu trong tập mẫu huấn luyện Trong quá trình xác định khuôn mặt người, mỗi vùng ảnh con sẽ được kiểm tra với các đặc trưng trong chuỗi đặc trưng giống Haar, nếu có một đặc trưng giống Haar nào đó không cho ra kết quả là khuôn mặt người thì các đặc trưng khác không cần xét nữa Thứ tự xét các đặc trưng giống Haar trong chuỗi sẽ được xác định dựa vào trọng số của đặc trưng đó, do Adaboost quyết định dựa vào số lần và thứ tự xuất hiện của các đặc trưng giống Haar
Trang 2213
Chương 3
Tổng quan về các phương pháp trích chọn đặc trưng
Trong chương này phần đầu chúng tôi sẽ trình bày tổng quan về các hướng tiếp cận
để trích chọn đặc trưng Tiếp đó chúng tôi sẽ trình bày về hai hướng tiếp cận chính là trích chọn đặc trưng là trích chọn đặc trưng hình học và đặc trưng diện mạo
3.1 Các hướng tiếp cận
Hiện nay có rất nhiều các phương pháp trích dẫn dữ liệu từ khuôn mặt, mỗi phương pháp có những ưu nhược điểm và đặc điểm riêng nhưng theo cách thức mà những phương pháp và hình thức của dữ liệu được trích dẫn thì chia ra làm 2 hướng tiếp cận chính:
Thứ nhất, hướng tiếp cận dựa trên đặc trưng hình học là hướng tiếp cận dựa vào các bức ảnh trực diện khuôn mặt lấy từ khâu phát hiện khuôn mặt, trích chọn đặc trưng
về hình học biểu diễn hình dáng, vị trí các phần của khuôn mặt như mắt, mũi, miệng, lông mày Cụ thể xác định một số các điểm đặc trưng trên khuôn mặt: 2 mống mắt, điểm chính giữa miệng, khóe miệng, một số các điểm khác ở vùng trán, mắt,…
Thứ hai, hướng tiếp cận dựa trên đặc trưng diện mạo là hướng tiếp cận dựa vào cấu trúc phân bổ của cường độ sáng của điểm ảnh trên bề mặt của bức ảnh để trích chọn
các đặc trưng
Trong đó trích chọn đặc trưng diện mạo có ưu điểm là ít phức tạp hơn phương pháp
trích chọn đặc trưng hình học, các khâu ít hơn nhưng độ chính xác thường thấp hơn Tùy thuộc vào yêu cầu hệ thống chúng ta có thể áp dụng các phương pháp khác nhau, Tuy nhiên kết quả tối ưu nếu chúng ta áp dụng cả hai phương pháp trên xuất hiện
phương pháp thứ ba là phương pháp lai (hybrid) giữa hai phương pháp sử dụng đặc
trưng hình học và đặc trưng diện mạo
Trang 233.2.1 Xác định các điểm đặc trưng trên khuôn mặt
Yang [3] đã phát triển một hệ thống thời gian thực để xác định và theo vết các điểm đặc trưng như mống mắt, khóe miệng hay lỗ mũi Phương pháp tìm kiếm 2 vùng mắt
là 2 vùng tối nhất và sử dụng các điều kiện về hình học như vị trí bên trong mặt, kích thước và hình dáng để xác định Phương pháp dùng phép lặp lấy ngưỡng để phát hiện
ra vùng tối nhất với điều kiện ánh sáng thay đổi Xác định lỗ mũi cũng tương tự như xác định 2 mống mắt
Hình 6 − Lặp để xác định ngưỡng trên cửa sổ tìm kiếm
Để xác định khóe môi, xác định vị trí theo chiều dọc sử dụng phép chiếu toàn bộ theo trục x Vị trí theo trục x được xác định bằng phép chiếu toàn bộ trên ảnh của cạnh miệng
Trang 2415
Hình 7 – Phép chiếu toàn bộ
Để dò tìm khóe miệng sử dụng hai phương pháp:
+ Tìm điểm ảnh có độ xám lớn nhất trong các vùng dự kiến sau đó tìm xác định điểm khóe miệng sẽ nằm trên đường giữa 2 môi
+ Tìm phần có giá trị điểm ảnh tối nhất trên đường giữa hai môi, chắc chắn khoảng cách giữa 2 vùng đảm bảo điều kiện thỏa mãn về khoảng cách giữa 2 khóe miệng trên thực tế và chọn vị trí có độ tương phản là cao nhất
Hình 8 − Xác định 2 đường biên ngang của môi
Phương pháp trên có một số những ưu điểm như thỏa mãn điều kiện thực thi với thời gian thực Một số phương pháp có thể áp dụng với những độ phân giải khác nhau (với
cả độ phân giải thấp), tuy nhiên vẫn có trường hợp phát hiện ra lông mày thay vì mắt Tian [4] đã giải quyết vấn đề bằng cách phát hiện cả vùng mắt và lông mày Bằng cách
đó, không chỉ trích chọn được thêm đặc trưng mà tỷ lệ chính xác còn được tăng lên Đối với xác định khóe miệng, trường hợp sai là khi miệng không ở trạng thái bình thường và phương pháp áp dụng đối với mặt trực diện hoặc gần trực diện
Vukadinovic & Pantic [5] sử dụng Gabor – wavalets và Gentle – Boost để xây dựng hệ thống nhận dạng tự động 20 điểm đặc trưng Trong phương pháp, họ chia khuôn mặt thành 20 vùng nhỏ (ROIs) và mỗi vùng ứng với một điểm đặc trưng Mỗi một vector
Trang 2516
đặc trưng ứng với vùng ảnh kích thước 13x13 pixel, có độ lớn là 13x13x(18+1) =
8281 Những vector đặc trưng được sử dụng để xây dựng một mô hình và dự đoán một điểm có là điểm đặc trưng hay không Trong khi huấn luyện, mô hình đặc trưng Gentle – boost sử dụng các vector đặc trưng trích chọn từ các ví dụ huấn luyện Trong khi kiểm tra, một của sổ kích thước 13x13 pixel được quét trên toàn bộ vùng quan tâm Với mỗi một vị trí của cửa sổ trượt, so sánh sự giống nhau giữa giá trị của cửa sổ trượt
và mô hình mẫu Sau khi quét hết vùng quan tâm thì điểm có độ lệch với mẫu là nhỏ nhất sẽ được chọn
Hình 9 − Sơ đồ hệ thống tự động xác định điểm đặc trưng
3.2.2 Phát hiện hình dáng các bộ phận trên khuôn mặt
Tian [17] phát triển phương pháp nhiều trạng thái để trích chọn đặc trưng hình học trong hình Hình 10 Một mô hình môi 3 trạng thái miêu tả trạng thái của môi: mở, đóng, ngậm chặt Mô hình 2 trạng thái được dùng cho mỗi mắt, mô hình một trạng thái cho má và lông mày Một số đặc trưng diện mạo sử dụng mô hình 2 trạng thái: có thể hiện và vắng mặt Đường viền của các đặc trưng và thành phần được điều chỉnh bằng tay trong bước khởi tạo Sau khi khởi tạo, tất cả các thay đổi của đặc trưng sẽ được dò tìm và phát hiện trong chuỗi ảnh Thuật toán sử dụng các trạng thái dò tìm khác nhau
là cải tiển của thuật toán Lucas-Kanade [11] Tuy nhiên có giới hạn là chuyển động của đầu
Trang 2617
Phương pháp có thể phát hiện 16 Aus với độ chính xác là 95.5% trên bộ cơ sở dữ liệu Cohn – Kanade
Hình 10 – Mô hình nhiều trạng thái với mặt trực diện
3.2.3 Nhân trắc học và áp dụng với phương pháp trích chọn đặc trưng hình học
Nhân trắc học là một ngành khoa học nghiên cứu về đo lường các thành phần khác nhau trên cơ thể con người Những thông tin về kích thước, vị trí của các thành phần trên cơ thể phụ thuộc vào tri thức về chủng tộc, nhóm người Sau khi đo đạc chính xác
Trang 2718
các chỉ số từ 300 bức ảnh của 150 người ở các vùng địa lý khác nhau có thể xây dựng một mô hình cho khuôn mặt dùng để định vị các vùng đặc trưng từ bức ảnh khuôn mặt Tốt hơn là sử dụng toàn bộ mốc như Farkas [28] đã dùng, trong mô hình chỉ sử dụng một lượng nhỏ các điểm làm mốc
Hình 11 – Mô hình nhân trắc học của mặt (a) Các điểm mốc, (b) Khoảng cách
Bảng 1 – Tỷ lệ khoảng cách giữa các mốc
D2/D1 Tỷ lệ khoảng cách giữa tâm mắt phải và tâm lông
mày phải với khoảng cách giữa 2 tâm mắt
~ 0.33
D3/D1 Tỷ lệ khoảng cách giữa tâm mắt trái và tâm lông
mày trái với khoảng cách giữa 2 tâm mắt
~0.33
D4/D1 Tỷ lệ khoảng cách giữa tâm 2 mắt và đỉnh mũi với
khoảng cách giữa 2 tâm mắt
~ 0.6
D5/D1 Tỷ lệ khoảng cách giữa tâm 2 mắt và điểm giữa
miệng với khoảng cách giữa 2 tâm mắt
~1.1
Trang 283.3.2 Mã LBP
LBP là viết tắt của Local Binary Pattern hay là mẫu nhị phân địa phương được Ojala [29] trình bày vào năm 1996 như là một đơn vị đo độ tương phản cục bộ của ảnh Phiên bản đầu tiên của LBP được dùng với 8 điểm ảnh xung quanh và sử dụng giá trị của điểm ảnh ở trung tâm làm ngưỡng Giá trị LBP được xác định bằng cách nhân các giá trị ngưỡng với trọng số ứng với mỗi điểm ảnh sau đó cộng tổng lại
Kể từ khi được đưa ra, theo định nghĩa là bất biến với những thay đổi đơn điệu trong ảnh đen trắng Để cải tiến phương pháp, bổ sung thêm phương pháp tương phản trực giao địa phương Hình dưới minh họa cách tính độ tương phản trực giao (C) là hiệu cấp độ xám trung bình của các điểm ảnh lớn hơn hoặc bằng ngưỡng với các điểm ảnh thấp hơn ngưỡng Phân phối hai chiều của mã LBP và độ tương phản cục bộ được lấy làm đặc trưng gọi là LBP/C
Trang 29Không mất thông tin, có thể trừ gp đi một lượng là gc
T = t(gc,g0 – gc ,…,gp - gc) Giả sử sự sai số giữa gp và gc là độc lập với gc, ta có thể nhân tử hóa gc như sau
T = t(gc)t(g0-gc,…,gp-1-gc)
ảnh cục bộ do đó có thể bỏ qua
T~t((g0 - gc),…,(gp-1-gc))
Trang 3021
Mặc dù tính bất biến ngược với độ thay đổi tỷ lệ xám của điểm ảnh, sự khác biệt ảnh hưởng bởi tỷ lệ Để thu được đặc điểm bất biến với bất kỳ một sự thay đổi nào của ảnh đen trắng (gray scale) chỉ quan tâm đến dấu của độ lệch:
T~t(s(g0 - gc),…,s(gp-1-gc))
0 𝑥 < 0
ảnh bên cạnh về một giá trị duy nhất
Theo Eq.2 cứ P pixel thì có 2p giá trị LBPP,R trong khoảng [0,2p – 1] nhưng để đơn giản ta có thể chọn một số giá trị trong 2p giá trị ký hiệu là 𝐿𝐵𝑃𝑃,𝑅𝑢2
Nguyên lý phân lớp không tham biến
Trong phân lớp, sự khác biệt giữa mẫu và mô hình phân phối LBP được đánh giả bởi kiểm tra thống kê không tham biến.Phương pháp tiếp cận này có ưu điểm là không cần phải có những giả thiết về phân phối của các đặc trưng
Thông thường, những kiểm tra thống kê được chọn cho mục đích là nguyên lý entropy được giới thiệu bởi Kullback (1968) Sau đó, Sokal và Rohlf (1969) gọi cách
cross-đo này là thống kê G
Trang 3122
Lớp C của một mẫu không xác định có thể được xác định bởi luật “hàng xóm gần nhất”:
C = argminiL(S,Mi) Bên cạnh đó , một thống kê log-likelihood có thể xem như đơn vị đo sự khác biệt và có thể sử dụng để liên kết nhiều bộ phân lớp giống như bộ phân lớp k-NN hoặc self-oganizing map ( SOM) Log-likelihood đúng trong một số trường hợp nhưng không
ổn định khi mà cỡ mẫu nhỏ.Trong trường hợp này Chi-square-distance thường cho kết quả tốt hơn :
𝐿𝐵𝑃𝑅,𝐼𝑟𝑖 = min { ROR(LBPP,R,i) i=0,1,…,P-1}
Trong đó ri là viết tắt của rotation invariant ( quay bất biến), ROR(x,i) dịch vòng tròn
số nhị phân P - bit (x) i lần theo chiều kim đồng hồ
Độ tương phản và kết cấu mẫu
Kết cấu có thể được coi là một hiện tượng hai chiều được đặc trưng bởi hai đặc tính trực giao: cấu trúc không gian (mô hình) và độ tương phản (độ mạnh của mô hình) Quay bất biến tương phản địa phương có thể được đo trong một hình tròn đối xứng xunh quanh giống như LBP:
VARP,R = 1
𝑃 𝑃−1𝑝=0 𝑔𝑝 − 𝜇 2
Trang 3223
𝑃 𝑃−1𝑝=0𝑔𝑝Tổng hợp lại ta có : 𝐿𝐵𝑃𝑃1,𝑅1𝑟𝑖 / VARP2,R2
3.3.3 Bộ lọc Gabor
Bộ lọc Gabor thực ra là một bộ lọc tuyến tính được sử dụng như là một phương pháp phát hiện cạnh trong xử lý ảnh Tần suất và hướng dùng để biểu diễn bộ lọc Gabor tương tự như hệ thống thị giác của con người và nó được tìm ra như một cách tiếp cận đặc biệt cho biểu diễn cấu trúc và sự phân biệt Trong miền không gian, bộ lọc
Gabor 2 chiều là một hàm nhân Gauss được điều chỉnh bởi một mặt phẳng sóng sin
Các bộ lọc Gabor tương tự nhau và tất cả bộ lọc được sinh ra từ Gabor-wavelet bởi sự
co giãn và xoay
ứng với sự thay đổi tần suất, cột ứng với sự thay đổi hướng
Một bộ lọc Gabor được định nghĩa như sau :
2𝜋𝜎2𝑒−𝑥′
2 + 𝑦′22𝜋 2 [𝑒𝑖𝜔𝑥′ − 𝑒−𝜔
Trang 3324
0 có nghĩa giá trị sin có thể bằng 0 Đặt 𝜎 = 𝜋/𝜔 thể hiện mối quan hệ giữa 𝜎 và 𝜔
Hầu hết các trường hợp của bộ lọc Gabor đều sử dụng với 5 tần suất và 8 hướng để
𝜔𝑚 = 𝜔𝑚𝑎𝑥 ∗ 𝜆−(𝑚−1) , m = 1,2,3,4,5 𝜆 = 2 , 𝜃𝑛 = 𝑛 − 1 𝜋/8 , n = 1,2,3,…,8
Biểu diễn đặc trưng Gabor
Biểu diễn đặc trưng Gabor của một bức ảnh I (x,y) được xác định bằng cách nhân xoắn
𝑂𝑚 ,𝑛 𝑥, 𝑦 = 𝐼 𝑥, 𝑦 ∗ 𝛾 𝑥, 𝑦, 𝜔, 𝜃 Trong đó * ký hiệu toán tử nhân xoắn Cường độ bức ảnh của kết quả nhân xoắn ứng với những bộ lọc Gabor được chỉ ra trong hình trên
Hình 15 – Một ví dụ về ảnh sau khi nhân xoắn với 48 bộ lọc Gabor