Tiến hành thử nghiệm cho từng lần huấn luyện bằng hệ thống test tự động của thƣ viện OpenCV đƣợc chỉnh sửa việc lấy đầu vào từ Webcam sang lấy ảnh từ thƣ mục ảnh tĩnh, các bƣớc thử nghiệm đối với từng lần huấn luyện áp dụng theo độ đo D1, F- Score. Ở đây, tôi chỉ trình bày chi tiết các bƣớc thử nghiệm cho lần huấn luyện thứ 4.
Tiến hành thử nghiệm trên tập cơ sở dữ liệu ảnh thử nghiệm 498 ảnh nghiêng trái từ 60 độ đến 90 độ, 496 ảnh nghiêng phải từ 30 độ đến 60 độ, 538 ảnh chụp thẳng và chính diện trên máy tính có cấu hình: CPU core 2 dual E6750 2.66 GHz, RAM 3.24GB. Sau khi thử nghiệm, thời gian phát hiện trung bình tính đƣợc là 16 ảnh/giây.
68
Với thời gian phát hiện nhƣ vậy đã đảm bảo tính thời gian thực và độ chính xác tính theo độ đo D1, F-Score nhƣ sau:
Tƣ thế khuôn mặt Số ảnh huấn luyện positive Số ảnh huấn luyện negative Kích thƣớc ảnh huấn luyện positive Số Stage huấn luyện Số ảnh test Số ảnh phát hiện đúng D1 F- Score Nghiêng trái 60 đến 90 độ 799 1500 21x30 23 500 470 0.94 0.92 Nghiêng trái 30 đến 60 độ 800 1500 21x25 24 500 488 0.97 0.95 Chụp chính diện 1000 1500 24x32 24 538 521 0.98 0.97 Nghiêng phải 30 đến 60 độ 800 1500 21x25 24 500 488 0.94 0.95 Nghiêng phải 60 đến 90 độ 799 1500 21x30 23 500 470 0.97 0.92 Kết hợp các tƣ thế Kết hợp Kết hợp 2538 2411 0.97 0.95
69 Độ chính xác theo D1 và F-Score 0.6 0.62 0.64 0.66 0.68 0.7 0.72 0.74 0.76 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1 Nghiêng trái 60o-90o Nghiêng trái 30o-60o
Chính diện Nghiêng phải 30o-60o Nghiêng phải 60o-90o Tổng hợp D1 F-Score
Hình 33 Biều đồ đánh giá độ chính xác theo D1 và F-Score
Dựa vào biểu đồ trên chúng ta có thể thấy các tƣ thế có đặc trƣng ít thì tỉ lệ phát hiện sẽ không cao. Nhƣ tƣ thế nghiêng trái 60o đến 90o và nghiêng trái 30o đến 60o, đƣợc huấn luyện với kích thƣớc mẫu tƣơng đƣơng nhau, nhƣng tỉ lệ phát hiện tƣ thế nghiêng trái 30o đến 60o cao hơn hẳn so với tỉ lệ phát hiện khuôn mặt nghiêng trái 60o đến 90o. Điều này có thể giải thích nhƣ sau: do đặc thù của khuôn mặt nghiêng trái 60o
đến 90o
có ít đặc trƣng hơn và độ che khuất nhiều hơn, có độ chênh lệch nhiều về mức xám trong khi cấu trúc trên vùng ảnh chứa khuôn mặt nghiêng trái 30o đến 60o đơn giản hơn, không có sự chênh lệch nhiều về mức xám.
70
KẾT LUẬN
Về vấn đề phân lớp đối tƣợng, tác giả trình bày một số thuật toán phân lớp đƣợc sử dụng nhiều trong bài toán phát hiện khuôn mặt nhƣ: SVM, mạng nơ-ron, AdaBoost…trong đó mỗi thuật toán có những ƣu điểm và lợi thế riêng. Tuy nhiên, trong bài toán phát hiện khuôn mặt đòi hỏi thuật toán phân loại phải đạt độ chính xác cao, đồng thời quá trình phát hiện phải nhanh để đáp ứng yêu cầu cho hệ thống hoạt động thời gian thực. AdaBoost là một thuật toán phân loại nhanh và cho độ chính xác cao đã đƣợc Viola và John áp dụng thành công cho bài toán nhận dạng khuôn mặt thẳng và chính diện ; bên cạnh đó thì Mathias Kolsch và Matthew Turk [29] đã áp dụng thuật toán AdaBoost cho bài toán nhận dạng cử chỉ tĩnh cũng thu đƣợc kết quả rất tốt với tỉ lệ nhận dạng đúng 95% trong khi tỉ lệ nhận dạng sai là 10-4. Do đó thuật toán AdaBoost xây dựng trên mô hình Cascade là một lựa chọn phù hợp cho bài toán phát hiện khuôn mặt nghiêng trong luận văn này.
Trong khuôn khổ luận văn này, tác giả đã tìm hiểu về lý thuyết phát hiện mặt ngƣời, từ đó xác định hƣớng tiếp cận tốt cho bài toán phát hiện khuôn mặt là hƣớng tiếp cận dựa trên diện mạo. Ngoài ra, tác giả cũng xác định đƣợc hai vấn đề quan trọng cần nghiên cứu để áp dụng cho bài toán phát hiện khuôn mặt theo hƣớng tiếp cận học máy là biểu diễn đặc đặc trƣng của đối tƣợng phát hiện và thuật toán học phân lớp. Qua tìm hiểu và tham khảo kết quả nghiên cứu trên thế giới, tác giả đã nhận thấy đặc trƣng Haar-like là một đặc trƣng tốt, phù hợp cho việc biểu diễn khuôn mặt với ƣu điểm tính toán nhanh dựa vào khái niệm “Ảnh tích phân” do Viola và John [23,24] đƣa ra.
Trong quá trình xây dựng hệ thống tác giả đã tự chụp và cắt bộ cơ sở dữ liệu huấn luyện gồm 3198 ảnh khuôn mặt đƣợc chụp từ 41 chủ thể và bộ ảnh thử nghiệm gồm 2538 ảnh khuôn mặt đƣợc chụp từ 5 chủ thể với các điều kiện tƣ thế chụp, ánh sáng, phông nền, cự li chụp khác nhau. Qua kết quả 4 lần huấn luyện hệ thống tác giả đã xây dựng thành công “Hệ thống phát hiện khuôn mặt nghiêng trên ảnh và video” với các tƣ thế nghiêng trái 30o
71
nghiêng phải 60o đến 90o kết hợp với tƣ thế khuôn mặt thẳng và chính diện của thƣ viện OpenCV, độ chính xác trên 95%.
Với mục tiêu đề ra, luận văn đã đạt đƣợc các kết quả tƣơng đối khả quan, nhƣng bên cạnh đó vẫn còn một số vấn đề cần đƣợc giải quyết thêm.
Trong phần đánh giá về tính thích nghi cho thấy hệ thống hoạt động chƣa tốt trong các điều kiện thiếu ánh sang. Bên cạnh đó, hệ thống hiện tại chỉ hoạt động tốt với các tƣ thế khuôn mặt thẳng, nghiêng trái đến 90o, nghiêng phải đến 90o, khuôn mặt đeo kính trắng; chƣa hoạt động tốt với các tƣ thế ngẩng lên, cúi xuống và các khuôn mặt bị che khuất nhiều bởi râu hàm rậm, mũ, kính đen … và khá nhạy cảm với khuôn mặt chuyển động nhanh.
Trong những nghiên cứu tiếp theo, tác giả sẽ tiếp tục nghiên cứu các vấn đề sau:
- Tìm hiểu các phƣơng pháp chuẩn hóa ánh sáng trƣớc khi đƣa vào phát hiện để hệ thống có thể thích nghi tốt hơn với các điều kiện ánh sáng thay đổi. - Để rút ngắn thời gian phát hiện, tác giả sẽ nghiên cứu các phƣơng pháp phát
hiện điểm ảnh màu da để khoanh vùng ảnh chứa khuôn mặt. Khi đó hệ thống chỉ nhận dạng trên các vùng ảnh có phân bố màu da lớn, điều này sẽ làm giảm đáng kể thời gian phát hiện cũng nhƣ loại bỏ đƣợc các trƣờng hợp phát hiện nhầm vùng nền thành khuôn mặt.
- Tìm hiểu phƣơng pháp dùng các kỹ thuật theo dõi đối tƣợng (tracking) để loại bỏ các lỗi gây ra trong quá trình phát hiện mặt ngƣời.
- Đƣa kết quả phát hiện mặt ngƣời làm đầu vào cho bài toán nhận dạng cảm xúc trên khuôn mặt.
Trên đây là những kết quả đạt đƣợc cũng nhƣ những hƣớng nghiên cứu tiếp theo của luận văn. Tuy luận văn đã đạt đƣợc những kết quả nhất định nhƣng do thời gian thực hiện có hạn nên không tránh khỏi những thiếu sót. Tác giả mong nhận đƣợc ý kiến đóng góp từ thầy cô và các bạn để tác giả tiếp tục hoàn thiện hơn trong những nghiên cứu tiếp theo.
72
TÀI LIỆU THAM KHẢO
1. T.Kanade, Picture Processing Computer Complex and Recognition of Human Faces 1973, Kyoto.
2. Marcel, S., P. Abbet, and M. Guillemot, Google portrait. 2007, IDIAP Research Institute.
3. A. T. Nghiem, F.B., M. Thomat, V. Valentin, ETISEO, performance evaluation for video surveillance systems. Project Orion, INRIA - Sophia Antipolis France, 2007.
4. G.Yang, T.S.H., ed. Human Face Detection in Complex BackgroundVol. 27. 1994. 53-63.
5. T.K.Leung, M.C.B., and P.Perona. Finding Faces in Cluttered Scenes Using Random Labeled Graph Matching,. in Computer Vision. 1995.
6. C. Garcia, G.Z.a.G.T. Face Detection in Color Images using Wavelet Packet Analysis. in On Multimedia Computing and System. 1999.
7. T.Sakai, M.N., and S.Fujibayash, ed. Line Extraction and Pattern Detection in a Photograph. ed. P. Recognition. 1969. 233 - 248.
8. I.Craw, H.E., and J.Lishman, ed. Automatic Extraction of Face Features. ed. P.R. Letters. Vol. 5. 1987. 183-187.
9. V.Govindaraju. Locating Human Faces in Photographs. in Computer Vision. 1996.
10. P.Sinha, ed. Object Recognition via Image Invariants. ed. Investigative Ophthal mology and Visual Science. 1994. 1735-1740.
11. A.Yuille, P.H., and D.Cohen. Feature Extraction from Faces Using Deformable Templates. in Computer Vision. 1992.
12. A.Lanitis, C.J.T., and T.F.Cootes, ed. An Automatic Face Identification System Using Flexible Appearance Models. ed. I.a.V. Computing. 1995. 393-401. 13. L.Sirovich, M.K.a., ed. Application of the Karhunen-Loeve Procedure for the
Characterization of Human Faces. ed. P.A.a.M. Intelligence. Vol. 12. 1990. 103-108.
14. A.Pentland, M.T.a., ed. Eigenfaces for Recognition. ed. C. Neuroscience. 1991. 71-86.
15. T.Poggio, K.-K.S.a., ed. Example-Based Learning for View-Based Human Face Detection. ed. P.A.a.M. Intelligence. Vol. 20. 1998. 39-51.
16. H.Rowley, S.B., and T.Kanade, ed. Human Face Detection in Visual Scenes. Advances in Neural Information Processing Systems 8. 1996. 875 - 881.
17. H.Rowley, S.B., and T.Kanade, ed. Neural Network- Based Face Detection. Computer Vision and Pattern Recognition. 1996. 203 208.
18. E.Osuna, R.F., and F.Girosi, Training Support Vector Machines : An Application to Face Detection, in Computer Vision and Pattern Recognition. 1997. p. 130-136.
19. Yoav Freund, R.E.S., A Short Introduction to Boosting. Journal of Japanese Society for Artificial Intelligence, 1990: p. 771-780.
73
21. Yuriy, C. Ultra Rapid Object Detection in Computer Vision Applications with Haar-like Wavelet Features. 10 Jul 2008 [cited; Available from: http://www.codeproject.com/KB/audio-video/haar_detection.aspx.
22. Weize Zhang, R.T., Jinxiang Dong, Boosting 2-Thresholded Weak Classifiers over Scattered Rectangle Features for Object Detection Dec 2009: Institute of Artificial Intelligence, Zhejiang University, Hangzhou, 310027, China. p. Journal of multimedia, Vol. 4, no. 6.
23. Viola, P. and M. Jones, Robust Real-time Object Detection, in Second International workshop on statistical and computational theories of vision- modeling, learning, computing and sampling. 2001: Canada.
24. Viola, P. and M. Jones, Robust Real-Time Face Detection, in International Journal of Computer Vision. 2004. p. 137-154.
25. lqj0808. IMM FACE DATABASE research Facial Expression Recognition
friends useful Oh. [cited; Available from:
http://en.pudn.com/search_db.asp?keyword=facial+expression+recognition.
26. Frontal Face Images [cited; Available from:
http://vasc.ri.cmu.edu/idb/html/face/frontal_images/
27 Vapnik, V., Support-Vector Networks. Machine Learning, 1995: p. 273-297 28 Kolsch, M. and M. Turk. Robust Hand Detection. in Conference on Automatic
Face and Gesture Recognition. 2004: IEEE Intl.
29 Kolsch, M. and M. Turk. Analysis of Rotational Robustness of Hand Detection with a Viola-Jones Detector. in Conference on Pattern Recognition. 2004: IEEE Intl.
30 ETISEO, Video understanding Evaluation.
31 Fuzhen Huang and Jianbo Su, “Multiple Face Contour Detection Using adaptive Flows”, Sinobiometrics 2004, LNCS 3338, pp. 137-143, Springer-Verlag Berlin Heidelberg, 2004.