Trong thực nghiệm, luận văn sử dụng 3 mạng, mỗi mạng được huấn luyện 400 ảnh gốc, số lượng ảnh sau khi biến đổi để huấn luyện là 6000 ảnh và được huấn luyện trong 200 giờ. Tập dữ liệu học là 800 ảnh thẻ của sinh viên trường ĐH Công nghệ, ĐHQG Hà nội, còn tập dữ liệu học âm tính được lấy ngẫu nghiên từ các ảnh không chứa mặt. Các ảnh này có cùng đặc điểm là các mặt đều ở hướng chính diện, nhưng góc quay của mặt không chính xác là thắng đứng, màu sắc nền ảnh không thống nhất, và kích thước ảnh đã được đưa về chuẩn 20 x 20.
Chương trình được chia làm hai thí nghiệm. Thí nghiệm thứ nhất là xác định khả năng có mặt người trong ảnh hay không? Các ảnh đầu vào của thí nghiệm này đều chứa không quá 1 mặt người ở hướng chính diện, mặt có góc quay bất kỳ. Kết quả thử nghiệm cho thấy độ chính xác của thuật toán là xấp xỉ 95%.
Thí nghiệm thứ hai kiểm tra khả năng xác định mặt trong ảnh có chứa nhiều mặt người. Các ảnh dùng trong thí nghiệm này đa dạng hơn, là các ảnh có nhiều mặt người xoay ở hướng chính diện, có phong cảnh và kích thước ảnh khá lớn (từ 480 x 360 đến 1580 x 1060). Thử nghiệm cho thấy độ chính xác của chương trình là 82%.
Ảnh gốc với trường hợp có 1 mặt trong ảnh
Kết quả khi chưa tách ngưỡng động
Kết quả khi ngưỡng = 0.999260
Vùng có da sau khi tách Kết quả khi chưa tách ngưỡng động
Kết quả khi ngưỡng = 0.999660
Hình 4.1 - Trường hợp ảnh chỉ chứa không quá một mặt người trong ảnh
Ảnh khi đã tách lấy vùng chứa da người
Ảnh trước khi tách ngưỡng động
Kết quả thu được khi ngưỡng = 0.999180
Bằng việc kết hợp mạng nơron và những kỹ thuật khác, các kết quả này cho thấy khả năng sử dụng mạng nơron để xây dựng một hệ thống xác định mặt là hoàn toàn chấp nhận được. Kết quả này có thể được dùng vào nhiều mục đích khác nhau, và một cách thể hiện rõ nhất là sử dụng cho pha nhận dạng cảm xúc ngay sau đây.