Khuôn mặt là một đối tượng động và điều đó sẽ hạn chế đáng kể hiệu quả của các phương phỏp dũ tỡm.[13] Hình 1.4: Một số trạng thái biểu cảm của khuôn mặt Sự hiện diện của các đối tượng
Trang 1TÓM TẮT KHÓA LUẬN
Trong những năm gần đây, công nghệ thông tin - đặc biệt là công nghệ phầncứng phát triển vượt bậc mở đường cho việc hiện thực hoá mong muốn đưa những bàitoán trong lĩnh vực trí tuệ nhân tạo đi vào ứng dụng trong thực tiễn
Dũ tìm khuôn mặt trong ảnh và video số là một bài toán như vậy Giai đoạn trướcnhững năm 90 của thế kỷ trước bài toán này đã được nghiên cứu và phát triển nhưngphần lớn dưới dạng học thuật mà chưa có nhiều ứng dụng thực tiễn do hạn chế về mặtcông nghệ Từ giữa những năm 90 đến nay những hạn chế đó dần được khắc phục,nhiều phương pháp dũ tỡm đối tượng đã được tiến hành thực nghiệm và thu đượcnhững kết quả khả quan
Đề tài “Dề TèM, PHÁT HIỆN KHUÔN MẶT TRONG ẢNH SỐ” lựa chọn
tìm hiểu về vấn đề dũ tỡm khuôn mặt trong ảnh số vì đây là bài toán ngày càng cónhiều ứng dụng thiết thực trong cuộc sống Hiện nay có khoảng hơn 150 phương phápkhác nhau để giải quyết bài toán này dựa trên hai hướng căn bản là dũ tỡm dựa trênảnh và dũ tỡm dựa trên đặc trưng hình học Đa số những phương pháp đã có gặp hạnchế trong việc ứng dụng để xây dựng một hệ thống dũ tỡm thời gian thực
Phương pháp dũ tỡm dựa trên thuật toán AdaBoost và các đặc trưng Haar cónhững ưu thế nổi bật để có thể xây dựng các hệ thống dũ tỡm trong thời gian thực vớihiệu quả dũ tỡm khá tốt Do vậy đề tài sẽ chú trọng tìm hiểu phương pháp này và bướcđầu tiến hành xây dựng thử nghiệm chương trình demo
Đề tài gồm 3 phần chính Chương 1 trình bày tổng quan về bài toán dũ tỡm khuôn mặt trong ảnh số và những hướng giải quyết đã được phát triển Chương 2 tìm hiểu phương pháp dũ tỡm khuôn mặt nhanh trong ảnh số Chương 3 bước đầu xây
dựng chương trình dũ tỡm khuôn mặt sử dụng AdaBoost và tổng kết một số kết quảđạt được
Trang 2Mục lục
TÓM TẮT KHÓA LUẬN 1
Mục lục 2
Danh sách cỏc hỡnh 5
Danh sách các bảng 6
Các từ viết tắt và thuật ngữ 6
Chương 1: TỔNG QUAN VỀ Dề TèM KHUÔN MẶT TRONG ẢNH SỐ 7
1.1 GIỚI THIỆU VỀ XỬ LÝ ẢNH 7
1.1.1 Biểu diễn ảnh số 7
1.1.2 Một số khái niệm cơ sở trong xử lý ảnh 8
1.1.3 Các giai đoạn trong xử lý ảnh 9
1.2 BÀI TOÁN DÒ TèM KHUÔN MẶT 11
1.2.1 Tóm tắt lịch sử .11
1.2.2 Những thách thức trong bài toán dũ tỡm khuôn mặt .12
1.2.3 Một số khái niệm cơ sở cần thiết .14
1.3 Dề TèM KHUÔN MẶT DỰA TRÊN ẢNH 15
1.3.1 Giới thiệu .15
1.3.2 Eigenface .16
1.3.3 Mạng Nơron .17
Trang 31.3.4 SVM 181.3.5 Mô hình Markov ẩn 191.4 Dề TèM KHUÔN MẶT DỰA TRÊN ĐẶC TRƯNG HÌNH HỌC 191.4.1 Giới thiệu 191.4.2 Các phương pháp Top – down 191.4.3 Các phương pháp Bottom – up 201.5 HƯỚNG TIẾP CẬN CỦA KHOÁ LUẬN 211.5.1 Ý tưởng chung 211.5.2 Hướng tiếp cận 22
Chương 2:Dề TèM KHUÔN MẶT NHANH BẰNG PHƯƠNG PHÁP
ADABOOST 24
2.1 GIỚI THIỆU 242.1.1 Lựa chọn phương pháp 242.1.2 Phạm vi của dũ tỡm khuôn mặt thẳng 242.1.3 Những bước chính để dũ tỡm khuôn mặt 252.2 CÁC ĐẶC TRƯNG VÀ ẢNH TÍCH PHÂN 252.2.1 Mô hình dựa trên điểm ảnh 252.2.2 Các đặc trưng Haar-like 27
Trang 42.2.3 Ảnh tích phân
31
2.3 HỌC VỚI ADABOOST 33
2.3.1 Tổng quan về AdaBoost .33
2.3.2 Bộ phân lớp yếu .36
2.3.3 Ngưỡng tối ưu .37
2.3.4 Thuật toán AdaBoost .38
2.3.4 Hoạt động của bộ phân lớp yếu .43
2.3.6 AdaBoost với vấn đề dũ tỡm khuôn mặt .44
2.4 SỰ PHÂN LOẠI VÀO CÁC TẦNG 46
2.4.1 Hiệu quả của việc phân tầng .46
2.4.2 Cải tiến bộ phân lớp .49
2.4.3 Huấn luyện các tầng cho bộ phân lớp .49
Chương 3: XÂY DỰNG CHƯƠNG TRÌNH VÀ MỘT SỐ KẾT QUẢ 54
3.1 CƠ SỞ DỮ LIỆU 54
3.2 KẾT QUẢ 55
3.2.1 Kết quả học .55
3.2.2 Kết quả kiểm tra .56
3.3 THỬ NGHIỆM BỘ Dề TèM KHUÔN MẶT 56
Trang 53.3.1 Dữ liệu
56
3.3.2 Kết quả thực nghiệm .57
3.3.3 Nhận xét .58
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59
PHỤ LỤC 1: Cấu trúc chương trình demo 61
PHỤ LỤC 2: Một số mẫu test chương trình demo 62
TÀI LIỆU THAM KHẢO 64
Trang 6
Danh sỏch cỏc hỡnh
Hình 1.1: Biểu diễn ảnh bằng hàm 8
Hình 1.2: Các bước cơ bản trong xử lý ảnh số 10
Hình 1.3: Các thành phần cơ bản của một hệ xử lý ảnh 12
Hình 1.4: Một số trạng thái biểu cảm của khuôn mặt 14
Hình 3.5: Ảnh trong những điều kiện ánh sáng khác nhau 15
Hình 1.6: Một số dạng khuôn mặt đặc trưng 15
Hình 1.7: Mẫu khuôn mặt với nền ảnh phức tạp 15
Hình 2.1: Mô hình khuôn mặt trước khi biến đổi 27
Hình 2.2: Mô hình ảnh sau khi trích chọn cỏc vựng quan trọng 27
Hình 2.3: Mẫu các đặc trưng hình chữ nhật nằm trong cửa sổ dũ tỡm 29
Hình 2.4: Các dạng đặc trưng Haar-like cơ bản 29
Hình 2.5: Các dạng đặc trưng Haar-like mở rộng 30
Hình 2.6: Hình chữ nhật ở phía trên bên phải cửa sổ 31
Hình 2.7: Minh họa các đặc trưng đường và đặc trưng cạnh được lựa chọn 31
Hình 2.8: Biểu diễn “ảnh tớch phõn” 32
Hình 2.9: Cỏch tính tổng các pixel trong hình chữ nhật D 34
Hình 2.10: Mô hình thuật toán AdaBoost 36
Hình 2.11: Phân phối mẫu cho mỗi đặc trưng và xấp xỉ Gauss tương ứng 39
Hình 2.12: Ngưỡng tối ưu với tỷ lệ phân lớp sai tối thiểu 39
Hình 2.13: Thuật toán AdaBoost 43
Hình 2.14: Minh hoạ thuật toán AdaBoost 45
Hình 2.15: Lược đồ mô tả quá trình dũ tỡm phân tầng 50
Hình 2.16: Cấu trúc phân tầng chi tiết 50
Hình 2.17: Thuật toán huấn luyện bộ dũ tỡm phân tầng 54
Trang 7Từ khóa: AdaBoost, Haar, đặc trưng, khuôn mặt.
Danh sách các bảng
Bảng 1: Các kiểu đặc trưng và số lượng tương ứng 31
Bảng 2: Kết quả trên tập dữ liệu CBCL 59
Bảng 3: Kết quả trên tập dữ liệu CMU 59
Bảng 4: Kết quả trên tập dữ liệu ORL 59
Bảng 5: Kết quả trên tập dữ liệu thu thập từ internet 59
Các từ viết tắt và thuật ngữ
Từ viết tắt Từ (cụm từ) viết đầy đủ
AdaBoost Adaptive Boosting
SVM Support Vector Machine
PCA Principal Components Analysis
Trang 8Chương 1: TỔNG QUAN VỀ Dề TèM KHUÔN MẶT TRONG ẢNH SỐ
1 GIỚI THIỆU VỀ XỬ LÝ ẢNH
1.1.1 Biểu diễn ảnh số
Đối với ảnh đơn giản (ảnh đen trắng) thì ảnh được biểu diễn bằng một hàm cường
độ sáng hai chiều f (X Y, ), trong đó X Y, là các giá trị toạ độ không gian và hàm giá trịcủa f tại một điểm ( , )X Y bất kỳ sẽ tỷ lệ với độ sáng hay mức xám của điểm ảnh tạiđiểm này [2,4]
Hình 1.1: Biểu diễn ảnh bằng hàm f (X Y, )Trong mộ số trường hợp hàm ảnh còn được biểu diễn với một trục thứ 3 gọi làhàm cường độ sáng (với hình 1.1,trục thứ 3 bằng 0)
Một ảnh số là một ảnh f (X Y, ) được gián đoạn theo không gian và cường độsáng Một ảnh số được xem như một ma trận với hàng và cột biểu diễn một điểm trongảnh và giá trị điểm ma trận tương ứng với mức xám tại điểm đú Cỏc phần tử của mộtdãy số như thế được gọi là các điểm ảnh
Ánh sáng có dạng năng lượng f (X Y, ) phải khác 0 và hữu hạn:
,
0 f (X Y) (1.1)Con người có khả năng nhận các hình ảnh từ ánh sáng phản xạ qua các vật thể
Cơ sở của f (X Y, ) được đặc trưng qua hai thành phần:
Số lượng ánh sáng nguồn rơi trên cảnh vật được nhìn thấy
Số lượng ánh sáng nguồn phản xạ từ vật thể ( trong cảnh vật)
Chúng được gọi gần đúng là sự phát sáng và các thành phần phản xạ, và đượcbiểu diễn tương ứng là i (X Y, ) và r (X Y, ) Bản chất của i (X Y, ) được xác định bằngnguồn sáng và của r (X Y, )được xác định bằng các đặc trưng của vật thể Hàm i (X Y, )
và r (X Y, ) kết hợp với nhau để cho hàm f (X Y, )
* P(X,Y)
Trang 9, ,
Trong lý thuyết, chỉ cần Lmin 0 và Lmaxhữu hạn Trong thực tế:
min min min max max max
Khoảng Lmin, Lmax được gọi là thang xám Ta có thể dịch khoảng này đến
0, L , trong đó l 0 là đen và l L là trắng trong thang xám Giá trị tức thời là các
dạng mức xám thay đổi liên tục từ đen đến trắng
1.1.2Một số khái niệm cơ sở trong xử lý ảnh Một số khái niệm cơ sở trong xử
lý ảnh
Để có thể xử lý bằng máy tính điện tử thì ảnh cần phải được số hóa Đó là quátrình biến đổi ảnh từ tín hiệu liên tục sang tín hiệu rời rạc thông qua việc lấymẫu và lượng tử hóa Trong quá trình này người ta sử dụng khái niệm “pixel”.Mỗi pixel được đặc trưng bởi một cặp tọa độ (X Y, ) và màu sắc của nó.[4]
Ảnh: Là một tập hợp các pixel có cấu trúc, ta có thể coi ảnh là một mảng haichiều I( , )n p có n dòng và p cột, ảnh sẽ có n p (pixel) Ta ký hiệuI( , )X Y để
Trang 10ảnh nhờ các hàm cơ sở), mô hình thống kê ( ảnh coi như một phần tử của mộttập hợp đặc trưng bởi kỳ vọng toán, hiệp biến, phướng sai, moment…).[4]
Tăng cường ảnh: Đây là một bước quan trọng bao gồm các kỹ thuật lọc độtương phản, khử nhiễu, nổi màu…
Biến đổi ảnh: Thao tác chủ yếu trên một tập các ma trận và sử dụng các kỹthuật để biến đổi ảnh qua ma trận: Biến đổi Furie, Sin, Cosin, tích Kronecker
Phân tích ảnh: Liên quan tới việc xác định các độ đo định lượng của một ảnh đểđưa ra một mô tả đầy đủ về ảnh Có những kỹ thuật cơ bản để hỗ trợ phân tíchảnh: Dũ biờn, lọc vi phân, dò theo quy hoạch động, phân vùng ảnh [4]
Nhận dạng ảnh: Quá trình này liên quan đến các mô tả đối tượng mà người tamuốn đặc tả nó Nhận dạng ảnh thường đi sau các quá trình trích chọn các đặctrưng chủ yếu của đối tượng.[1,4]
1.1.3 Các giai đoạn trong xử lý ảnh
Bài toán xử lý ảnh bao gồm các giai đoạn tổng quát như sau [1,2,4]
Hình 1.2: Các bước cơ bản trong xử lý ảnh số
Bước đầu tiên là thu nhận ảnh, thu ảnh số bằng bộ cảm biến ảnh với khả năng sốhóa tín hiệu của bộ cảm biến Bộ cảm biến có thể là một Camera truyền hình màu hoặcđen trắng, nó tạo ra một ảnh đầy đủ trong khoảng từ 1
25 đến 1 30 giây Ngoài ra ảnhcòn có thể được thu nhận từ vệ tinh hoặc tranh ảnh được quét bằng Scanner, máy ảnhsố
Tiền xử lý
Biểu diễn
Thu nhận
Trang 11Sau khi nhận được một ảnh số, bước tiếp theo là tiền xử lý ảnh Mục đích chủ yếucủa giai đoạn tiền xử lý ảnh là nâng cao khả năng để các quá trình tiếp theo đạt kết quảtốt, như các quá trình khử nhiễu, tăng độ tương phản….
Bước tiếp theo là phân đoạn: Phân đoạn ảnh là tách một ảnh đầu vào thành cácphần hoặc các vật thể Đây là một trong những giai đoạn khó khăn của xử lý ảnh Mộtmặt thuật toán phân đoạn ảnh thô là quỏ trình nâng cao độ phân giải ảnh Mặt khác,các thuật toán yếu hoặc gián đoạn sẽ gây ra sự mất mát
Đầu ra của quá trình phân đoạn ảnh thường là số liệu pixel chưa lọc, bao gồm cảcác liên kết của vùng hoặc tất cả các điểm ảnh trong vùng đó Trong cả hai trường hợp
ta cần biến đổi số liệu thành dạng thích hợp cho xử lý bằng máy tính Số liệu cần đượcbiểu diễn như một liên kết hoặc là một vùng tổng hợp Biểu diễn liên kết là một xấp xỉ,nếu tập trung vào các hình dạng bên ngoài, như là cỏc gúc hoặc đường cong Còn biểudiễn vùng là xấp xỉ, nếu chú ý đến các đặc tính bên trong như các đặc trưng hoặc cácdạng chủ yếu
Cuối cùng, ảnh sẽ được phân lớp, nhận dạng cho các mục đích khác nhau
Tri thức về phạm vi vật thể được mã hóa thành một hệ thống xử lý trong ảnh dướidạng cơ sở dữ liệu kiến thức Kiến thức này có thể là về cỏc vựng càng chi tiết thì càngđơn giản của một ảnh (cô lập các thông tin quan trọng) Cơ sở tri thức có thể rất phứctạp như một danh sách có liên quan với nhau về tất cả các hư hỏng chính có thể Ngoài
ra cơ sở tri thức còn hướng dẫn hoạt động của từng module xử lý bằng cách kiểm tratương tác giữa các module
Để xử lý các quá trình trên thi cần một hệ thống xử lý ảnh bao gồm một số thànhphần cơ bản sau đây:[4]
Trang 12Hình 1.3: Các thành phần cơ bản của một hệ xử lý ảnh
Bộ xử lý tương tự thực hiện các chức năng:
- Chọn Camera thích hợp nếu có nhiều Camera
- Chọn màn hình hiển thị tín hiệu
- Thu nhận tín hiệu video bởi bộ số hóa Thực hiện lấy mẫu và mã hóa
- Tiền xử lý ảnh khi thu nhận
Bộ xử lý ảnh số bao gồm nhiều bộ xử lý chuyên dụng: Xử lý lọc, trích chọn đặctrưng, nhị phân hóa ảnh
Máy chủ đóng vai trò điều khiển các thành phần khác
Bộ nhớ ngoài: Lưu trữ dữ liệu ảnh cũng như các kiểu dữ liệu khác để có thể chuyển giao cho các quá trình có nhu cầu
1.2.1 Tóm tắt lịch sử
Song song với sự phát triển của việc dũ tỡm khuôn mặt, những ứng dụng phântích khuôn mặt đã có những ứng dụng hết sức hữu ích và số lượng những ứng dụngngày càng tăng trong các hệ thống tự động được sử dụng trong cuộc sống: Nhận dạngkhuôn mặt, Định vị khuôn mặt, Theo vết khuôn mặt,… là những hướng nghiên cứuchính.[8,10]
Trang 13 Nhận dạng khuôn mặt bao gồm chỉ ra những người xuất hiện trong ảnh, theo cáchhiểu khác, chúng ta muốn gán một định danh cho mỗi ảnh dũ tìm được Chúngđược sử dụng trong các hệ thống an ninh, …
Định vị khuôn mặt là vấn đề tìm kiếm chính xác vị trí của một khuôn mặt mà đãbiết trong một ảnh mẫu khác
Theo dấu khuôn mặt với mục đích cho phép dũ tỡm khuôn mặt trong một dãy cácảnh hay một đoạn video trong thực tế
Nhận dạng cảm xúc khuôn mặt sẽ đỏnh giá trạng thái cảm xúc của khuôn mặtđược tìm thấy ( vui, buồn, đau khổ…)
Nhưng để tiến hành được những nhiệm vụ trờn thỡ trước tiên chúng ta phải tiếnhành dũ tỡm khuôn mặt trong các ảnh Hệ thống dũ tỡm khuôn mặt được phát triểnđầu tiên vào những năm 1970 nhưng những giới hạn của máy tính thời bấy giờ đã hạnchế việc tiếp cận các kỹ thuật nhân trắc học Đến năm 90 của thế kỷ trước, nhiềuphòng thí nghiệm kỹ thuật đã được xây dựng cùng với sự tiến bộ của kỹ thuật video và
sự cần thiết của việc nhận dạng khuôn mặt Trong những năm gần đõy nhiều thuậtkhác nhau đã được phát triển, đến nay đã có tới không dưới 150 phương pháp khácnhau
1.2.2Những thách thức trong bài toán dũ tỡm khuôn mặt Những thách thức trong bài toán dò tìm khuôn mặt
Nếu như dò tìm khuôn mặt tự động trước đõy không được phát triển đó là bởi vìnhững khó khăn trong việc xây dựng những bộ phân lớp mạnh, có khả năng dũ tỡmkhuôn mặt trong các tình huống ảnh khác nhau và các trạng thái của khuôn mặt thậmchí trong cả những trường hợp rất đơn giản đối với con người Trên thực tế, đối tượng
“Khuôn mặt” rất khó để định nghĩa chính xác, bởi những tính chất đa dạng và có thể
thay đổi, phụ thuộc vào đặc tính của khuôn mặt, điều kiện ánh sáng, trạng thái tâm lýcủa con người,…
Thách thức chính của bài toán dũ tỡm khuôn mặt là tìm kiếm bộ phân lớp có thếphân biệt các khuôn mặt từ tất cả các đối tượng có thể là khuôn mặt Vấn đề đầu tiên làtìm ra mô hình có khả năng bao quáttất cả các trạng thái có thể của khuôn mặt Một sốbiến đổi chính của khuôn mặt:[13]
Các thuộc tính chung của khuôn mặt
Trang 14Chúng ta có thể chỉ ra một số thuộc tính phổ biến của hầu hết khuôn mặt Khuônmặt theo cách nhìn tổng quát có thể được đỏnh giá bởi những loại ellipse nhưng
có những khuôn mặt thon dài, có những khuôn mặt tròn hơn…Màu da giữa ngườinày với người kia cũng khác nhau
Vị trí của người đối diện với máy ảnh là tốt nhất để ghi nhận toàn diện khungnhìn của khuôn mặt: khung nhìn trực diện, khung nhỡn nghiờng và tất cả các vịtrí trung gian, từ dưới lên…
Trạng thái biểu cảm của khuôn mặt
Diện mạo của khuôn mặt phụ thuộc nhiều vào trạng thái cảm xúc của con người.Các đặc trưng của khuôn mặt đang cười có thể khác xa so với một khuôn mặtlạnh lùng hay một khuôn mặt buồn bã Khuôn mặt là một đối tượng động và điều
đó sẽ hạn chế đáng kể hiệu quả của các phương phỏp dũ tỡm.[13]
Hình 1.4: Một số trạng thái biểu cảm của khuôn mặt
Sự hiện diện của các đối tượng khác
Chúng ta thường thấy các đối tượng khác xuất hiện trên ảnh khuôn mặt: cặp kính
có thể làm thay đổi đặc tớnh riờng của khuôn mặt, chúng có thể làm cho mắtkhông còn được thể hiện rõ ràng Những đặc trựng tự nhiên của mặt người như làrâu, ria mép hay tóc có thể chiếm một phần của khuôn mặt
Khuôn mặt được biểu diễn với các điều kiện ánh sáng khác nhau, loại ánh sáng,cường độ sỏng, các đặc trưng mà hệ thống thu được cần thiết cho việc tính toán.[13]
Trang 15Hình 3.5: Ảnh trong những điều kiện ánh sáng khác nhau
Hình vẽ dưới đõy mô tả một vài khuôn mặt khác nhau được lấy từ cơ sở dữ liệu CMU
Hình 1.7: Mẫu khuôn mặt với nền ảnh phức tạp
Trong phạm vi vấn đề này, có nhiều hướng tiếp cận đã được phát triển để dũ tỡmkhuôn mặt trong ảnh Nhưng dũ tỡm khuôn mặt là một nhiệm vụ khá phức tạp, mỗi
Trang 16phương pháp được xây dựng cho một mục đích rõ ràng và sẽ rất khó khăn để có thểxây dựng được một hệ thống đa năng
1.2.3 Một số khái niệm cơ sở cần thiết
Trước hết, chúng ta định nghĩa một số tiêu chuẩn cơ bản để xác định sự thực thi của
bộ dũ tìm [9, 10]
Tỷ lệ dò tỡm [10,11]
Tỷ lệ dũ tỡm d là tỷ lệ phần trăm số khuôn mặt trong ảnh được bộ dò phát hiện một
cách chính xác trên tổng số khuôn mặt thực tế cú trụng tập ảnh dũ tỡm
Tỷ lệ lỗi mẫu âm [10, 11]
Tỷ lệ lỗi mẫu âm là tỷ lệ phần trăm số khuôn mặt đã bị bộ dũ tỡm bỏ qua trên tổng số khuôn mặt thực tế có trong tập ảnh dũ tỡm.
Công thức: fn 1 d (1.7)
Tỷ lệ lỗi mẫu dương [10,11]
Tỷ lệ lỗi mẫu dương fp là tỷ lệ phần trăm những cửa số thực tế không phải khuôn mặt được bộ dũ tỡm xác định là khuôn mặt trên tổng số cửa sổ được bộ dũ tìm đỏnh giá là khuôn mặt.
Trong nhiều ứng dụng, chúng ta muốn có tỷ lệ dũ tỡm là cao nhất Nhờ có lượng cửa
sổ lớn trượt trên ảnh thông thường nên tỷ lệ lỗi mẫu dương này thường trong khoảng5
10 đến 10 6nhưng giá trị nhỏ bé này thường không mang nhiều ý nghĩa
Mục tiêu của bài toán dũ tỡm khuôn mặt là tối đa tỷ lệ dũ tìm d trong khi tốithiểu hoá tỷ lệ lỗi dương fp Tuy nhiên, trong nhiều ứng dụng thực tiễn, rất khó để
đạt được cả hai mục đích này, và đó là lý do tại sao chúng ta tìm cách điều hoà haitham số này Tất cả những phương pháp được trình bày dưới đõy sẽ thử nghiệm vớinhiều hướng tiếp cận khác nhau để tìm kiếm sự thoả hiệp giữa tỷ lệ lỗi dương và tỷ lệ
dũ tỡm Cuối cùng, chúng ta sẽ nhận thấy rằng sẽ rất khó khăn để so sánh các phươngpháp với nhau bởi vì vấn đề ước lượng hiệu quả và hoàn cảnh khác nhau
Trang 173 Dề TèM KHUÔN MẶT DỰA TRÊN ẢNH
1.3.1Giới thiệu Giới thiệu
Các phương pháp dựa trên ảnh còn được sử dụng nhiều cho đến ngày nay Chúng
ta gọi chúng là “dựa trên ảnh” bởi vì chúng được xây dựng từ việc sử dụng các mẫuảnh đối lập với một vài phương pháp khuôn mẫu mà cần có tiền đề tri thức về đốitượng khuôn mặt Các mẫu học hay dữ liệu đầu vào được xem xét như là các biếnngẫu nhiên x và hai lớp “khuụn mặt” và “khụng phải khuôn mặt” được mô tả đặc
điểm bởi các hàm mật độ có điều kiện: p x face ( | ) và p x non face ( | ) Điều đó cónghĩa là hàm mật độ không biết trước và mục tiờu chính của chúng ta là xấp xỉ chúngtheo sự phân biệt là khuôn mặt hay không phải khuôn mặt Sau đó là một loạt cácphương pháp để tỡm cỏc hàm phân tách với việc đưa các mẫu vào lớp khuôn mặt haylớp không phải khuôn mặt
Khó khăn chính của cách tiếp cận này là cỡ mẫu, thường cỡ mẫu x thường lớn vàmột bước quan trọng là giảm không gian mẫu này để tìm kiếm một hàm biệt thức cóthể phân tách các mẫu dương và các mẫu âm
1.3.2 Eigenface
1.3.2.1Khái niệm Khái niệm
Phương pháp dũ tỡm dựa trên ảnh đầu tiên mà chúng ta sẽ trình bày trong phầnnày là EigenFace Điểm mấu chốt của dũ tỡm khuôn mặt sử dụng Eigenface là trớchrỳt đặc trưng của chúng từ tập ảnh bởi PCA (Phân tích thành phần chính) và ước lượngnếu Eigenface được trớch rỳt phù hợp với các mẫu khuôn mặt đặc trưng Thực tế, tất
cả các ảnh vào có thể được thay thế bởi vectơ trọng số trong không gian riêng
1.3.2.2 Phân tích thành phần chính (PCA) [2, 7]
Bước đầu tiên của việc phân loại Eigenface là sử dụng PCA để trớch rỳtEigenface từ ảnh ban đầu PCA có thể hiểu là phương pháp cắt giảm số chiều củakhông gian đầu vào thông qua việc sử dụng phép chiếu tuyến tính làm mở rộng tối da
sự phân bố của tất cả các mẫu học đuợc chiếu
Đặt x1, , xN là tập N ảnh cú cỏc giá trị trong không gian đặc trưng nchiều Ma trận W sử dụng biến đổi tuyến tính từ không gian n-chiều sang không gian
Trang 18đặc trưng m-chiều với m < n (giảm số chiều) Khi đó ta có W Rn m , các vectơđặc trưng mới yk Rm được xác định bởi biến đổi tuyến tính.
x N
Tập w i i 1, ,m là những vectơ riêng n-chiều của ST , tương ứng với
các giá trị riêng i i 1, , m đã được giảm bậc
Phép chiếu trong không gian đặc trưng sử dụng Wopt T cho phép phân ly khoảng
cách giữa các mẫu và không gian khuôn mặt vào 2 phần: khoảng cách trong trongkhông gian đặc trưng DIFS (chiếu trong không gian m-chiều) và khoảng cách từkhông gian đặc trưng DIFS Biến đổi tuyến tính tối ưu Wopt cho bởi PCA gặp trở ngại
trong quá trình làm nổi bật các thành phần tiêu biểu khi thay đổi mức độ chiếu sáng.Một phương pháp khắc phục để xây dựng Egenface đầu tiên là mặc định rằng chúngchứa đựng hầu hết các biến đổi ánh sáng, điều đó tạo cho chúng khả năng thích nghivới những sự biến đổi ánh sáng tốt hơn
1.3.2.3 Các phương pháp khác trong không gian Eigen
Trang 19Những phương pháp khác dựa trên cơ sở cắt giảm số chiều trong không gian ảnh
đã được phát triển Hiệu quả nhất trong số đó là sự phân loại dựa trên mô hình đượcSung và Poggio xây dựng Phương pháp này chú trọng đến việc mô hình hóa cả sựphân loại của các mẫu khuôn mặt và các mẫu không phải khuôn mặt Phân loại khuônmặt là mô hình sử dụng 6 mẫu khuôn mặt nguyên mẫu được phân cụm bởi phiên bảncải tiến của thuật toán phân cụm k-mean Các perceptron đa tầng sẽ được sử dụng đểphân tách các mẫu dương và mẫu âm Hướng phát triển này khá mạnh nhưng cũng cóhạn chế vì để lựa chọn tất cả các tham số là điều không dễ dàng với những câu hỏi: Sốcụm tối ưu là bao nhiêu? Bao nhiêu mẫu nên được sử dụng để huấn luyện bộ phânlớp? Yêu cầu về chất lượng cơ sở dữ liệu huấn luyện như thế nào?
1.3.3 Mạng Nơron
Một trong những hệ thống dũ tỡm khuôn mặt tốt nhất đánh giá trên theo tỷ lệ lỗidương và tỷ lệ dũ tỡm là hệ thống dũ tỡm dựa trên mạng Nơron được xây dựng bởiRowley Hệ thống sử dụng mạng Nơron được kết nối dạng lưới để đánh giá một cửa sổcon có là khuôn mặt hay không Hệ thống dũ tỡm khuôn mặt hoạt động theo 2 giaiđoạn: trước hết áp dụng tập hợp các bộ dũ tỡm dựa trên mạng nơron vào ảnh, và sau
đó dùng bộ phân xử để kết hợp các đầu ra Các bộ dũ tỡm riêng lẻ khảo sát ở mỗi vị trítrong ảnh ở một tỷ lệ nhất định, tìm vị trí có thể chứa khuôn mặt Sau đó bộ phân xửkết hợp các kết quả dũ tỡm từ các mạng riêng lẻ và loại trừ cỏc dũ tỡm chồng lấp Thành phần đầu tiên của hệ thống là mạng nơron nhận đầu vào là cửa sổ ảnh
20 20 pixel và cho đầu ra là một giá trị thực nằm trong khoảng 1, 1, biểu thị có
là khuôn mặt hay không Để dũ tỡm khuôn mặt trong ảnh, mạng làm việc trên mọi vịtrí trong ảnh Để có thể dũ tỡm những khuôn mặt lớn hơn kích thước cửa sổ , ảnh đầuvào được giảm kích thước đi nhiều lần, sau đó áp dụng bộ dũ tỡm ở mỗi kích thước.Mạng có một hằng số với vị trí và kích thước, nhiệm vụ là xác định tỷ lệ và vị trí nóđược sử dụng Với hệ thống này cần sử dụng bộ lọc ở mọi vị trí ảnh, giảm tỷ lệ xuống1.2 ở mỗi bước phân tích ảnh tứ phân
Sau khi cửa sổ ảnh 20 20 pixel được trớch rỳt từ một vị trí và tỷ lệ nào đótrong ảnh nhập, nó được tiền xử lý qua các bước hiệu chỉnh độ sáng và cân bằng lược
đồ Cửa sổ sau khi được tiền xử lý sẽ được truyền qua mạng nơron Mạng cú cỏc liênkết tương tự như kiểu liên kết của võng mạng đến các tầng nhập Cửa sổ đầu vào đượcchia thành các mảnh nhỏ, 4 vùng 10 10 pixel, 16 vùng 5 5 pixel và 6 vùng chồnglấp 20 5 pixel Mỗi vựng cú liên kết đầy đủ với một đơn vị ẩn Dường như một đơn
vị ẩn được dùng cho mỗi vùng con đầu vào nhưng thực ra các đơn vị này có thể được
Trang 20tái tạo Chúng ta có thể sử dụng mạng với hai hay ba tập các đơn vị ẩn này Hình dángcủa cỏc vựng con này được chọn để cho phộp cỏc vựng ẩn dũ tỡm cỏc đặc trưng có íchcho việc dũ tỡm khuôn mặt Cụ thể, các sọc ngang cho phép các đơn vị ẩn dũ tỡm cỏcđặc trưng như miệng, cặp mắt, trong khi các đơn vị ẩn với vùng tiếp thu hình vuông cóthể dũ tỡm cỏc đặct trưng như từng mắt, mũi, hai gúc miệng….Hỡnh dạng chính xáccủa cỏc vựng này không thực sự quan trọng, điều quan trọng là đầu vào được chiathành cỏc vựng nhỏ thay vì dựng cỏc kết nối hoàn toàn với toàn bộ đầu vào Tương tựcác mẫu liên kết đầu vào thường được dùng trong việc nhận dạng tiếng nói và chữ viết[Waibel (1989), Le Cun (1989)] Mạng sẽ cho một đầu ra mang giá trị thực, chỉ ra cửa
sổ đầu vào có là khuôn mặt hay có chứa khuôn mặt hay không [2]
1.3.4 SVM
SVM là kỹ thuật học được giới thiệu bởi Vapnik Phương pháp này tỏ ra hiệu quảvới những cơ sở dữ liệu học lớn, lên tới hàng ngàn mẫu học Trong bài toán dũ tỡmkhuôn mặt chúng ta cần mô tả tất cả các mẫu khuôn mặt đặc trưng với một số lượnglớn vì đối tượng khuôn mặt được thể hiện rất đa dạng
Nguyên tắc căn bản là mở rộng tối đa lề giữa lớp khuôn mặt và lớp không phảikhuôn mặt Một loại lề đơn giản được sử dụng là khoảng cách giữa những điểm gầnnhất của 2 lớp Chúng được gọi là những vectơ hỗ trợ phân loại, chúng đóng vai trò rấtquan trọng vỡ chỳng định nghĩa ranh giới giữa hai lớp Trên thực tế, Osuna đã xâydựng hệ thống dũ tỡm khuôn mặt dựa trên SVM [2]
1.3.5 Mô hình Markov ẩn
Mô hình Markov ẩn đã được Samaria và Young sử dụng để định vị và nhận dạngkhuôn mặt Nguyên tắc là phân tách các mẫu khuôn mặt thành nhiều vùng con nhưtrán, mắt, mũi, miệng và cằm….Cỏc mẫu khuôn mặt sẽ được nhận dạng nếu nhữngđặc trưng này được nhận dạng theo thứ tự phù hợp Theo cách khác, mẫu khuôn mặt làmột chuỗi vectơ quan sát với mỗi vectơ là một tập các pixel liền kề nhau Ảnh đượclấy vào theo một thứ tự rõ ràng và việc quan sát được thực hiện trờn cỏc khuối pixel.Ranh giới giữa cỏc vựng điểm ảnh được mô tả bởi xác suất biến đổi giữa các trạng thái
và ảnh dữ liệu trong vùng được mô hình hóa bởi thuộc tính Gauss [2, 6]
1.4.1 Giới thiệu
Các phương pháp đã liệt kê ở trên dựa trên việc học để thu được mô hình khuônmặt từ tập mẫu dữ liệu dương và õm Chỳng không có liên quan trực tiếp đến các đặc
Trang 21trưng hình học của khuôn mặt Một số phương phỏp khỏc lại dựa trên những đặc trưnghình học của khuôn mặt Chúng được gọi là cơ sở hình học hay đặc trưng Nhiềuhướng tiếp cận vấn đề nhưng chúng ta có thể chia ra:
Hướng tiếp cận top – down: Một mô hình được tính toán cho một mức tỷ lệ
Hướng tiếp cận bottom – up: Các khuôn mặt được tìm kiếm bởi sự có mặt của
các đặc trưng của khuôn mặt
Ưu điểm chính của hướng tiếp cận theo các đặc trưng hình học là không bị giớihạn bởi những điều kiện ngoại cảnh Trên thực tế, các đặc trưng của khuôn mặt (mắt,mũi, màu da) được biễu diễn một cách độc lập với tư thế hay các điều kiện ánh sáng
1.4.2 Các phương pháp Top – down
Ý tưởng chính của những phương pháp này là sử dụng màu da để tìm kiếm khuônmặt trong ảnh Những hệ thống dũ tỡm đa được phát triển sử dụng một chuỗi các thuậttoán phân đoạn để trớch rỳt khuôn mặt trong ảnh Màu da là một đặc trưng nổi bậtđược quan tâm nhiều trong các hệ thống dũ tỡm và nhận dạng tự động Nhiều phươngpháp được lựa chọn sử dụng tùy theo những không gian màu khác nhau Ưu điểmchính của hướng phát triển này là tốc độ dũ tỡm rất nhanh Tuy nhiên, sẽ xảy ra vấn đềkhó khăn nếu như nền ảnh dũ tỡm cú phổ màu tương tự màu da Yang và Ahuaja đãxây dựng những hệ thống theo hướng này Mặc dù với mỗi mẫu ảnh khác nhau thìmàu da thường khác nhau nhưng chúng vẫn có thể được nhận dạng Thuộc tính nàyđược mô hình hóa bởi các thuộc tính Gauss Tất cả các điểm ảnh sẽ được kiểm tra vàchúng ta coi một điểm ảnh là màu da nếu đáp ứng của chúng lớn hơn một ngưỡng xácđịnh Cuối cùng, vùng ảnh sẽ được hệ thống đánh giá là khuôn mặt nếu hơn 70% điểmảnh trong vùng đó thỏa mãn điều kiện có thể coi là biểu diễn màu da Vấn đề đặt ra là
có những phần khỏc trờn cơ thể người cũng có thể được thể hiện trong ảnh và nhữngđặc trưng vùng da trên những phần đó hầu như không có sự khác biệt với vùng da mặt.Những phương pháp dũ tỡm dựa trên màu da chủ yếu được sử dụng làm tiền đề chonhững quá trình xử lý khác để đi đến kết luận vùng ảnh có biểu diễn không mặt haykhông
Saber và Tekalp thì theo phương pháp khác, họ sử dụng thuật toán để phân đoạnảnh Sau khi ảnh được phân đoạn, mỗi vùng sẽ được xấp xỉ bằng một Elip Tiếp theo
sẽ tiến hành tính toán độ lệch của những vùng Elip này với cơ sở dữ liệu ảnh chuẩntheo phương pháp đo lường độ lệch Hausdorff Nếu độ đo cuối cùng lớn hơn mộtngưỡng cho trước thỡ vựng đú sẽ bị loại bỏ Sau đó, các thủ tục tìm kiếm đặc trưng
Trang 22khuôn mặt sẽ được tiến hành trờn cỏc mẫu Elip còn lại để có thể đi đến kết luận đánhgiá mỗi Elip là khuôn mặt hay không.[5]
1.4.3 Các phương pháp Bottom – up
Nguyên tắc chung là tìm kiếm các đặc trưng bất biến của đối tượng khuôn mặt
Sự bất biến này được thể hiện độc lập với mọi tỷ lệ, tư thế, điều kiện ánh sáng và cácđiều kiện biến đổi khỏc Cỏc đặc trưng thông thường và tự nhiên thường được trớchrỳt từ khuôn mặt là mắt, mũi, miệng, chân mày Các kỹ thuật dũ tỡm biờn được sửdụng để trớch rỳt những đặc trưng này Phương pháp bottom-up tìm kiếm những đặctrưng này từ ảnh đầu vào và sau đó nhúm chỳng theo những mối quan hệ hình học
Sự khác nhau của những phương pháp được phát triển theo hướng bottom-up là ởcách thức lựa chọn các đặc trưng và thiết lập liên kết giữa chúng
Theo hướng này, một phương pháp đã được Govindaraju phát triển khá sớm.Trong phương pháp này các đặc trưng khuôn mặt được mô tả đặc điểm bởi nhữngđường cong và các mối quan hệ mang tính cấu trúc liên kết chúng lại Hai trạng tháiliên tục được áp dụng, đầu tiên các đường cong khuôn mặt được trớch rỳt từ ảnh đầuvào để tìm kiếm những đối tượng có khả năng là khuôn mặt Sau đó, các đặc trưngkhuôn mặt được nhóm lại bằng cách sử dụng các xử lý phù hợp (với hàm giá trị vàmột ngưỡng)
Một phương pháp khác được sử dụng bởi Yow và Cipolla, tập hợp các bộ lọc đạohàm được sử dụng để lựa chọn các đặc trưng cạnh như là góc của cặp mắt, sống mũi,
…Sau đó chỉ các điểm có những thuộc tính riêng biệt mới được giữ lại Các điểm cóliên quan sẽ được liên kết lại với nhau và chúng được sử dụng để xây dựng mô hìnhkhuôn mặt [5]
1.5.1 Ý tưởng chung
Dũ tìm khuôn mặt tự động là một vấn đề phức tạp với việc dũ tỡm một hay nhiềukhuôn mặt trong ảnh số hoặc trong một đoạn video Khó khăn nội tại trên thực tế làkhuôn mặt không phải là những đối tượng bất biến Khuôn mặt trên hai bức ảnh có thể
là của hai người khác nhau nhưng cũng có thể là của cùng một người, phụ thuộc vàođiều kiện ánh sáng, trạng thái cảm xúc hay tư thế của chủ thể Điều đó lý giải tại sao
có rất nhiều phương pháp đã được phát triển để giải quyết bài toán này Mỗi phươngpháp được phát triển theo một hướng riêng và chúng ta có thể sắp xếp những phươngpháp đó theo hai hướng chớnh: Cỏc phương pháp dựa trên hình ảnh và các phương
Trang 23pháp dựa trên đặc trưng Hướng thứ nhất sử dụng tập huấn luyện là các ảnh mẫu đểhuấn luyện cho bộ phân loại, sau đó bộ phân loại sẽ duyệt qua các ảnh kiểm tra để thựchiện phân loại và nhận dạng Hướng còn lại dựa trên việc dũ tỡm các đặc trưng củakhuôn mặt như mắt, miệng…
Dũ tìm khuôn mặt nhanh là một vấn đề đang ngày càng được quan tâm phát triển
vì những ứng dụng thực tiễn của chúng Cho đến nay đã có nhiều phương pháp được
sử dụng để dũ tỡm khuôn mặt nhanh được xây dựng và có thể tóm lại trong ba nhómgiải pháp chính:
Dũ tìm khuôn mặt dựa trên sự phân tích màu sắc của vùng da: Mặc dù việc sử
lý khá nhanh xong nhóm này có giới hạn chỉ xử lý trên ảnh màu và thường nhạycảm với điều kiện ánh sáng, thường chỉ sử dụng làm bước tiền xử lý cho cáchướng khác
Dũ tìm khuôn mặt dựa trên các đăc trưng: Nhóm này dựa vào các đặc trưng gầnbất biến và xuất hiện trên hầu hết các khuôn mặt Thành công nhất trong dũ tỡmkhuôn mặt người trong thời gian thực là phương pháp ASM (Active ShapeModel)
Hướng dũ tỡm khuôn mặt dựa trên thông tin hình ảnh gồm mạng nơron, cáchướng thống kê (SVM, AdaBoost…) Phương pháp SVM và mạng nơron cũngđạt được những kết quả cao trong thời gian khá nhanh xong cũng chỉ khoảngvài ảnh trong 1 giõy nờn khú áp dụng để xây dựng các hệ thống nhận dạng thờigian thực Riêng phương pháp AdaBoost cho kết quả khả quan vì một hệ thốnghoàn thiện có thể xử lý khoảng 15-20 khung hình trong một giây
Nếu có thể kết hợp phương pháp dựa trên đặc trưng hình học và ảnh truyềnthống để xây dựng hệ thống dũ tỡm thỡ sẽ phát huy được ưu điểm của mỗi phươngpháp và giảm thiểu những hạn chế AdaBoost là phương pháp có thể đáp ứng được yêucầu Những đặc trưng hình học là những đặc trưng rất chung của khuôn mặt như vị trícủa các đặc trưng riờng cú: mắt, mũi, miệng… Những đặc trưng dựa trên cơ sở ảnhcũng được sử dụng vì chúng ta sử dụng hình thức học thống kê với một tập dữ liệu đủ
lớn để xây dựng mô hình và hình thành khái niệm về đối tượng “khuôn mặt” một cách
tương đối đầy đủ
1.5.2 Hướng tiếp cận
Chúng ta lựa chọn làm việc trong ngữ cảnh phổ biến Mục tiêu của đề tài này là
dũ tỡm khuôn mặt có độ phân giải thấp một cách nhanh chóng trên nền phức tạp Tình
Trang 24huống này có thể tìm thấy trong rất nhiều ứng dụng như việc giám sát ở nơi công cộng.Phương pháp được sử dụng trong cả hai hướng dũ tỡm, dựa trên ảnh và trờn các đặctrưng Ở hướng thứ nhất sử dụng thuật toán học để huấn luyện bộ phân lớp với cácmẫu học đúng và các mẫu sai Ở hướng thứ hai, các đặc trưng được chọn lựa bởi cácthuật toán học liên quan tới các đặc trưng của khuôn mặt (vị trí mắt, sự khác biệt củasống mũi) Kỹ thuật học tăng cường cải tiến bộ phân lớp bằng việc cập nhật trọng sốcho các mẫu học Việc học sử dụng thuật toán tăng cường là đúng gúp chớnh củaphương phỏp dũ tỡm khuôn mặt này
Theo một cách khác, những bộ phân lớp đơn giản được ứng dụng trong học tăngcường là các đặc trưng tương tự Haar, chúng cho phép tính toán nhanh trong khi vẫnđảm bảo tốc độ dũ tỡm tốt
Mục tiêu của chúng ta là dũ tỡm khuôn mặt trong những nền ảnh đa dạng và độphân giải thấp Ưu điểm chính của các phương pháp dựa trên đặc trưng hình học lànhững đặc trưng hình học gần như bất biến Nhưng sẽ khó khăn nếu chúng ta chỉ sửdụng những phương pháp này
Tóm lại, đề tài này lựa chọn xây dựng hệ thống dũ tỡm khuôn mặt dựa trên thuậttoán AdaBoost vì những lý do căn bản:
Mục tiêu của đề tài là tìm hiểu và bước đầu xây dựng một hệ thống dũ tỡmkhuôn mặt nhanh mà vẫn đảm bảo tỷ lệ dũ tỡm, có thể ứng dụng để dũ tỡm trongthời gian thực
Phương pháp AdaBoost dựa trên sự kết hợp của hướng dũ tỡm dựa trên đặctrưng hình học và hướng dũ tỡm dựa trên ảnh í tưởng chính là xây dựng các bộ
dũ tỡm yếu với độ chính xác không cao nhưng lại có thời gian xử lý rất nhanh.Tuy nhiên, khi kết hợp các bộ dò tìm lại thì có thể cho kết quả chính xác cao
Phương pháp AdaBoost sử dụng các đặc trưng hình học đơn giản vốn được tínhtoán rất nhanh, thích hợp sử dụng để xây dựng hệ thống dũ tỡm thời gian thực
Các bộ phân loại AdaBoost có thể xây dựng phân tầng với độ phức tạp xử lý từthấp đến cao nhằm nhanh chóng loại bỏ phần lớn các ứng viên xấu ( không phảimặt người) vốn chiếm đại đa số trong các cửa sổ cần phân loại Sau đó sẽ tiến đến
bộ phân loại phức tạp hơn, sử dụng nhiều đặc trưng hơn nhưng chỉ phải làm việctrên một số ít đối tượng AdaBoost là mụt giải pháp điều hoà tốt giữa hai yếu tốhiệu quả và tốc độ dũ tỡm Tốc độ dũ tỡm tốt là do việc lựa chọn những đặc trưng
Trang 25đơn giản, tỷ lệ dũ tỡm tốt nhờ thuật toán học tăng cường AdaBoost có khả nănglựa chọn những đặc trưng tiêu biểu nhất trong tập dữ liệu lớn.
Chương 2:Dề TèM KHUÔN MẶT NHANH BẰNG PHƯƠNG PHÁP
ADABOOST 2.1GIỚI THIỆU GIỚI THIỆU
2.1.1Lựa chọn phương pháp Lựa chọn phương pháp
Trong chương này chúng ta sẽ trình bày về phương phỏp dũ tỡm khuụn mặt bằngthuật toán tăng cường với tốc độ dũ tỡm nhanh Bộ dũ tỡm này xuất phát từ ý tưởng dũtìm đối tượng trong thời gian thực của Viola và Jone Chúng ta có sự lựa chọn để xâydựng một mô hình sử dụng cách học thống kê các mẫu dương và mẫu âm Huấn luyện
bộ phân lớp bằng các đặc trưng trực quan, vì vậy chúng ta sẽ lý giải tại sao thuật toánnày lại thích hợp với dũ tỡm khuôn mặt và mô tả cách làm việc của chúng Chúng tacũng sẽ nhấn mạnh những đúng góp chủ yếu như là cách biểu diễn ảnh mới, sự lựachọn các đặc trưng trực quan
2.1.2Phạm vi của dũ tỡm khuôn mặt thẳng Phạm vi của dò tìm khuôn mặt thẳng
Trước khi đi vào chi tiết, chúng ta hãy để ý rằng những phương phỏp dũ tỡmkhuôn mặt được thiết kế trong những phạm vi riêng và cho những mục đích khácnhau, điều đó lý giải tại sao không phải khi nào cũng dễ dàng để so sánh hiệu quả củachúng Một vài bộ dũ tỡm chỉ hướng tới mục tiêu là dũ tỡm với tỷ lệ chính xác càngcao càng tốt, nhưng đề tài của chúng ta có khác biệt một chút trong một phạm vi khác:
Trang 26Ngoài việc muốn có một tỷ lệ dũ tỡm tốt, chúng ta muốn xây dựng một hệ dũ tỡmhướng thời gian thực Và vì vậy mục đích là muốn dũ tỡm hầu hết các khuôn mặt,thậm chí chúng ta chấp nhận tỷ lệ lỗi dương cao hơn (không phải khuôn mặt nhưngcũng được bộ dũ tỡm cho là khuôn mặt)
Trong trường hợp khác, camera được đặt ở sảnh sân bay, các khuôn mặt thường
có độ phân giải thấp, có kích cỡ khác nhau và nền ảnh khác phức tạp
Trong những trường hợp này chúng ta phải xây dựng bộ dũ tỡm thích hợp vớinhiều điều kiện ánh sáng, sự biến đổi hình dạng và kích thước của khuôn mặt Dũ tỡmkhuôn mặt là công đoạn phục vụ cho nhận dạng khuôn mặt, khi mà chỉ những khuônmặt nhìn trực diện mới có ích Điều đó lý giải cho việc lựa chọn tập huấn luyện được
sử dụng để huấn luyện các bộ phân lớp Tóm lại, dù lựa chọn phương pháp nào thìcũng phải đảm bảo có thể ứng dụng được trong thực tiễn và AdaBoost đáp ứng đượcyêu cầu này [9,10]
Sự lựa chọn đặc trưng này sẽ quyết định hiệu quả của việc dũ tỡm Khó khăn đặt ra làcần lựa chọn các đặc trưng đủ đơn giản để có thể phân biệt đối tượng là khuôn mặt haykhông Trong trường hợp này hàm cơ bản Haar là một trong những lựa chọn thích hợpnhất Thực tế, các đặc trưng đáp ứng không nhiều hơn sự khác biệt của 2, 3 hay 4 vùngchữ nhật ở những tỷ lệ và hình dạng khác nhau Để cải thiện tốc độ tính toán những
đặc trưng này chúng ta sẽ mô tả ảnh theo một cách mới gọi là “Ảnh tích phân” cho
phép tính toán vùng chữ nhật chỉ với những phép đơn giản
Sau quá trình này, chúng ta thu được một tập lớn các đặc trưng, AdaBoost được
sử dụng để lựa chọn một tập nhỏ trong số chúng để xây dựng lên một bộ phân lớpmạnh Chúng ta chỉ muốn giữ lại những đặc trưng có thể giúp phân loại tốt nhấtcỏcmẫu dương và mẫu âm Tại mỗi bước chọn lựa có một đăc trưng được chọn bởi bộphân lớp yếu vì vậy AdaBoost cung cõp thuật toán học hiệu quả và mạnh mẽ Cỏcvựng không phải khuôn mặt sẽ bị loại trừ một cách nhanh chóng và do càng đến cáctầng sau việc dũ tỡm càng diễn ra hiệu quả dẫn tới hầu hết những khuôn mặt đều được
dò tìm thấy.[9,10, 12]
Trang 272.2CÁC ĐẶC TRƯNG VÀ ẢNH TÍCH PHÂN CÁC ĐẶC TRƯNG VÀ ẢNH TÍCH PHÂN
Trong thời gian gần đây, đã có nhiều mô hình được sử dụng để huấn luyện bộ phânlớp bởi thuật toán học tăng cường Hai mô hình được đánh giá là hiệu quả và đã đượcphát triển nhiều là:
Mô hình dựa trên điểm ảnh
Mô hình dựa trên các đặc trưng Haar
2.2.1Mô hình dựa trên điểm ảnh Mô hình dựa trên điểm ảnh
Mô hình hóa khuôn mặt sử dụng các mô tả bởi điểm ảnh đã được sử dụng bởiPavlovic Trong cách huấn luyện bộ phân lớp của mình Pavlovic đã sử dụng sự kếthợp các bộ phân lớp yếu dựa trên các giá trị điểm ảnh Gọi X biểu thị ảnh được vộctơhóa của các giá trị cấp xám của điểm ảnh, X( )l là điểm ảnh thứ l Khi đó ta có bộ phânlớp yếu:
Hình 2.1: Mô hình khuôn mặt trước khi biến đổi
Trang 28Hình 2.2: Mô hình ảnh sau khi trích chọn cỏc vựng quan trọng
Hình thứ nhất mô tả khuôn mặt trung bình được lấy từ cơ sở dữ liệu huấn luyện.Hình thứ hai mô tả đặc trưng khuôn mặt được lấy mẫu bằng các hàm học sử dụngthuật toán tăng cường Mỗi vùng trắng trong ảnh thứ hai tương ứng với các điểm ảnhđược lựa chọn bởi thuậtt toán tăng cường
Phương pháp này đã được thực nghiệm chứng minh là khá hiệu quả bởi vì lýthuyết học tăng cường cho kết quả huấn luyện tốt Nhưng chỉ với một ảnh 24 24 chúng ta đó cú tới 576 điểm ảnh, chúng ta phải có tới 576 lần phân lớp yếu tương ứngvới số điểm ảnh đó xem chỳng cú là điểm quan trọng hay không, sau đó kết hợp chúnglại để có bộ phân lớp mạnh Vì vậy, thời gian tính toán lớn là một hạn chế của mô hìnhnày
2.2.2Các đặc trưng Haar-like Các đặc trưng Haar-like
So sánh các phương pháp mô hình hoá khuôn mặt và tính toán các đặc trưng cầnthiết cho ứng dụng của chúng ta, chúng ta đi tới kết luận rằng phương pháp dựa trênđặc trưng thích hợp hơn phương pháp dựa trên nền tảng điểm ảnh Đó là động lực thúcđẩy sử dụng các đặc trưng hơn là sử dụng các điểm ảnh một cách trực tiếp Một lý dophổ biến là các đặc trưng có thể có tác dụng giải mã những vùng tri thức đặc biệt,không theo quy luật vốn rất khó khăn để học sử dụng một lượng hạn chế của dữ liệuđào tạo Và như chúng ta sẽ nhìn thấy, các đặc trưng có thể thao tác nhanh hơn hệthống sử dụng pixel
Trong hệ thống dũ tỡm khuôn mặt này, chúng ta sử dụng các đặc trung rất đơngiản
Hàm răng cưa
Trang 291
2 1
Có 3 loại đặc trưng Haar-like cơ bản Giá trị của đặc trưng 2 hình chữ nhật là sựkhác biệt giữa tổng các pixel trong 2 vùng chữ nhật Cỏc vựng cú cựng kích cỡ và hìnhdạng và nằm liền kề nhau Đặc trưng 3 hình chữ nhật tính tổng của 2 hình chữ nhậtbên băng các được trừ từ tổng của hình chữ nhật trung tâm Cuối cùng, đặc trưng 4hình chữ nhật tính toán sự khác biệt giữa 2 cặp hình chữ nhật chéo
Trong trường hợp phổ biến, một ảnh 15 20 , tập các hình chữ nhật đặc trưng làkhá lớn: 37520 Hình dưới đõy trình bày về các mẫu 2-3-4 hình chữ nhật được sử dụngbởi bộ dũ tỡm
Hình 2.3: Mẫu các đặc trưng hình chữ nhật nằm trong cửa sổ dũ tỡm
Kết quả đặc trưng là tổng các pixel nằm trong hình chữ nhật màu trắng trừ đi tổngcủa các pixel trong các hình chữ nhật màu xám
Các đặc trưng Haar-like nguyên mẫu Vùng màu đen ứng với trọng số âm, vùngtrắng ứng với trọng số dương
Trang 30Hình 2.4: Các dạng đặc trưng Haar-like cơ bản
Ngoài ra còn có thể mở rộng các đặc trưng bằng cách xoay 45 và tạo ra một sốlượng đặc trưng lớn hơn rất nhiều
Hình 2.5: Các dạng đặc trưng Haar-like mở rộng
Số lượng các đặc trưng:
Số lượng các đặc trưng tính được theo mỗi nguyên mẫu là khá lớn và khác nhaugiữa nguyên mẫu này với nguyên mẫu khác và có thể được tính toán theo cách dướiđõy Đặt H và W là kích thước của của sổ điểm ảnh H x W và đặt w và h là kích cỡcủa một nguyên mẫu nằm trong cửa sổ như hình dưới:
Trang 31Window w
h
Sub-Window
H
W
Hình 2.6: Hình chữ nhật ở phía trên bên phải cửa sổ
Đặt U = [W/w], V = [H/h] là tỷ lệ co giãn lớn nhất theo chiều x và y, với kíchthước W H số lượng đặc trưng có thể được xác định bởi :
Bảng 1: Các kiểu đặc trưng và số lượng tương ứng
Trang 32Chúng ta chỉ cần sử dụng 3 loại đặc trưng thẳng dường như đã đủ để có thể xâydựng những bộ dũ tỡm hiệu quả Sự lựa chọn đặc trưng là quan trọng nhưng khôngmang tính quyết định như quá trình huấn luyện các bộ phân lớp, đó là quá trình kếthợp các bộ phân lớp yếu Sự lựa chọn và sử dụng chưa đầy đủ các loại đặc trưngkhông ảnh hưởng nhiều tới hiệu quả dũ tỡm, chỉ cần các đặc trưng cơ bản định hướngtheo chiều ngang và chiều dọc là đủ để biểu diễn tốt đối tượng “khuụn mặt” Vớinhững kiểu đặc trưng khác sẽ mở ra hướng phát triển cho đề tài trong tương lai.
Lựa chọn các đặc trưng hình chữ nhật dường như là khỏ thụ sơ nếu như chúng tađem so sánh với những lựa chọn khác, chẳng hạn như các bộ lọc điều khiển được Các
bộ lọc điều khiển được dường như thích hợp với việc dũ tỡm biờn, nộn ảnh và phântích cấu trúc ảnh Ngược lại, các đặc trưng hình chữ nhật nhạy hơn với các đường, sựxuất hiện của biên và các cấu trúc ảnh khá đơn giản Sự lựa chọn hướng phát triển là
sự điều hoà giữa lợi ích giữa đơn giản và tính toán nhanh với bộ lọc trực quan nhưngtốc độ chậm hơn.[9,14]
2.2.3Ảnh tích phân Ảnh tích phân
Chúng ta đã biết rằng chúng ta cần các đặc trưng Haar-like để huấn luyện các bộphân lớp Mục tiêu của phần này là giới thiệu một cách mụt tả ảnh mới gọi là “Ảnhtớch phõn”, tạo thuận lợi cho việc tính toán nhanh các đặc trưng
Giá trị của “Ảnh tớch phõn” tại toạ độ (X Y, )là tổng của tất cả các pixel ở phớatrờn-bờn trỏi của (X Y, ) như hình dưới
Hình 2.8: Biểu diễn “ảnh tớch phõn”
Giá trị Ảnh tích phân tại điểm (X Y, ) là tổng của tất cả các pixel ở phớa trờn-trỏicủa (X Y, )
*
Trang 33Đặt ii là ảnh tích phân của ảnh gốc i và i (X Y, ) là giá trị của ảnh tích phân ở điểm,
(X Y).Đây là quá trình chuyển đổi ảnh gốc với mỗi tọa độ ảnh là biểu diễn cấp xámsang ảnh tích phân với mỗi tọa độ ảnh là tích phân tại (X Y, ) của ảnh gốc)
Chúng ta có thể định nghĩa ảnh tích phân ii bởi:
Chúng ta sẽ sử dụng biểu diễn ảnh mới này để cải thiện thời gian tính toán, những
ưu điểm của cách mô tả này trong đề tài của chúng ta:
Đầu tiờn nó có thể được tính toán một cách hiệu quả bằng cách sử dụng cặp biểuthức:
Các đặc trưng 2 hình chữ nhật được tính toán với 6 hình liên quan bởi vì 2 hìnhchữ nhật là kề nhau Tương tự với đặc trưng 3 hình chữ nhật là 8 hình liên quan và vớiđặc trưng 4 hình chữ nhật là 9