a. Xây dựng tập dữ liệu khuôn mặt
Tập dữ liệu khuôn mặt bao gồm 2 tập ảnh là tập huấn luyện và tập ảnh kiểm tra.
Trong đó, tập ảnh huấn luyện gồm 5000 bức ảnh đen trắng được chia thành 2 tập con: tập positive ký hiệu là S+ bao gồm 2500 ảnh khuôn mặt và tập negative ký hiệu là S- bao gồm2500 ảnh không phải khuôn mặt.
Hình 4.2. Minh họa một số ảnh trong tập S+(hàng trên) và tập S-negative (hàng dưới).
Mỗi ảnh đầu vào được chuẩn hóa về kích thước 200x200, sau đó được cân bằng mức xám (histogram equalization) [15] để có tính đồng nhất về mức xám đồ trong tập ảnh cơ sở dữ liệu ban đầu.
Hình 4.3. Ảnh đầu vào có độ tương phản thấp và sau khi cân bằng mức xám.
Tiếp theo sẽ là quá trình trích chọn đặc trưng momen BVLC được sử dụng cho quá trình huấn luyện bộ phân loại SVM.
Hiệu suất bộ phân loại SVM đã huấn luyện, em đã sử dụng tập ảnh thử nghiệm gồm có 500 ảnh trong đó có 250 ảnh khuôn mặt và 250 ảnh không phải khuôn mặt, các ảnh này không có trong tập huấn luyện kể trên.
Bảng 4.1 dưới đây cho biết các thông số TP, TN, FN, FP, độ chính xác [9] tính toán được đối với tập ảnh thử nghiệm. Kết quả cho thấy việc sử dụng momen BVLC và bộ phân loại SVM cho tỷ lệ nhận dạng khuôn mặt chính xác rất cao.
Bảng 4.2. Kết quả kiểm tra
Mômen TP TN FP FN Độ chính
xác
BVLC 236 233 14 17 93.80%
Hiệu suất của đặc trưng BVLC còn được thể hiện qua đường cong ROC [14] dưới đây:
Hình 4.4. Đường cong ROC với đặc trưng BVLC
Đường cong ROC thể hiện hiệu xuất của việc sử dụng đặc trưng BVLC kết hợp với bộ phân loại SVM để nhận dạng khuôn mặt. Đường cong ROC được xây dựng trên giả thiết các mẫu trong tập S+ và S- được phân bố đồng đều. Hiệu suất của việc sử dụng đặc trưng BVLC với bộ phân loại SVM càng cao nếu đường cong ROC tiến gần tới góc trên bên trái của hình chữ nhật giới hạn bởi trục tung và trục hoành. Như thể hiện trong hình vẽ cho thấy, hiệu suất của phương pháp này là rất cao.
Một khái niệm nữa được sử dụng để đánh giá hiệu suất là diện tích dưới đường cong (area under the curve – AUC). Khi AUC =1, phương pháp có độ chính xác tuyệt đối. Việc sử dụng đặc trưng BVLC với bộ phân loại SVM trong hệ thống đề xuất có AUC = 0.95, được coi là khá chính xác.