3. Ý nghĩa khoa học và thực tiễn của đề tài
1.5.2. Đánh Giá Thuật Toán Viola-Jones
Để đánh giá hiệu quả phương pháp phát hiện khuôn mặt, chúng tôi sử dụng hàm Viola-Jones được cài đặt sẵn trong bộ thư viện OpenCV và kiểm tra trên các bộ dữ liệu chuẩn sau: Bao là bộ dữ liệu gồm 100 ảnh màu. Mỗi ảnh chứa một khuôn mặt người ở các vị trí khác nhau như nghiêng đầu, xoay mặt về trái, về phải bao gồm cả ảnh chứa nhiễu như bị mờ, nhòe, đội mũ, đeo kính, các biểu cảm khác nhau trên khuôn mặt, có cả ngoại cảnh và người đứng phía sau. Đối tượng trong bộ dữ liệu chủ yếu là người Châu Á với các độ tuổi khác nhau. AT&T là bộ dữ liệu của Đại Học Cambrigde gồm 100 ảnh xám của 10 người khác nhau. Cứ mỗi 10 ảnh là khuôn mặt của một người ở các góc độ, biểu cảm khác nhau. Đối tượng trong bộ dữ liệu là người châu âu độ tuổi từ thanh niên đến cao niên, có một số đối tượng đeo kính. Các ảnh trong bộ dữ liệu này chỉ chứa khuôn mặt, không có ngoại cảnh và các yếu tố gây nhiễu, chụp ở độ sáng cố định. JAFFE là bộ dữ liệu của Psychology Department, Kyushu University. Gồm 100 ảnh xám khuôn mặt chính diện của 6 cô gái người Nhật với các biểu cảm khác nhau, được chụp trong nhiều điều kiện chiếu sáng khác nhau. Ảnh được chụp với nền tĩnh và đơn sắc. Việc so khớp được thực hiện như sau:
Hình 1.8: Kiểm tra kết quả chương trình so với bộ dữ liệu test
Theo Hình 1.8, hình chữ nhật viền đậm là hình chữ nhật có chứa khuôn mặt được vẽ bằng tay. Hình chữ nhật viền mảnh là hình chữ nhật kết quả của chương trình vẽ ra. Ta tính vùng giao A của 2 hình chữ nhật này. Sau đó tính tổng vùng không giao của hai hình B + C rồi lấy tỉ lệ A/(B+C). Tỉ lệ này càng lớn chứng tỏ kết quả của chương trình càng chính xác. Các trạng thái của kết quả phát hiện khuôn mặt dựa trên tỉ lệ này như sau:
Nếu tỉ lệ này < 1 thì kết quả của chương trình là 1 false face.
Nếu tỉ lệ này >= 1 thì kết quả của chương trình là 1 correct face.
Miss face được xác định bằng độ chệnh lệch giữa số lượng khuôn mặt phát hiện được bằng chương trình với số lượng khuôn mặt được xác định bằng tay trước đó.
Bảng 1.1 đánh giá xác định 3 trạng thái của kết quả phát hiện khuôn mặt: Correct face (phát hiện đúng khuôn mặt), Miss face (không phát hiện ra khuôn mặt), False face (phát hiện ra vùng ảnh không chứa khuôn mặt)
- Database - Total face
Detect Status Hiệu suất = correct face/total face - Correct face - Miss face - False face AT&T 100 86 14 0 86% Bao 100 87 13 1 87% JAFFE 100 100 0 0 100%
Bảng 1.1: Bảng đánh giá thuật toán Viola - Jones
Thuật toán hoạt động khá ổn định trên 2 bộ dữ liệu khác nhau. Tuy nhiên, trong quá trình test, trạng thái miss face xuất hiện tập trung ở các khuôn mặt
nghiêng và đeo kính như Hình 1.9. Dễ thấy rằng, vì bộ huấn luyện sử dụng huấn luyện chủ yếu với các ảnh khuôn mặt chính diện và không đeo kính nên ảnh hưởng tới độ chính xác khi làm việc với các khuôn mặt loại này. Để khắc phục tình trạng trên, có thể tăng số ảnh huấn luyện bằng việc thêm vào các bộ ảnh khuôn mặt nghiêng và đeo kính.
Hình 1.9: Kết quả phát hiện khuôn mặt bị sai lệch với khuôn mặt đeo kính