Dữ liệu thử nghiệm

3. Ý nghĩa khoa học và thực tiễn của đề tài

3.2. Dữ liệu thử nghiệm

Hiệu quả của mô hình nhận dạng được đánh giá trên các bộ cơ sở dữ liệu chuẩn (chứa các khung hình được thu nhận từ các thiết bị camera, webcam khác nhau), được công bố dùng chung cho các nhóm nghiên cứu trên thế giới, được cung cấp tại http://www.face-rec.org/databases, Đây là các CSDL dùng chung cho các nhóm nghiên cứu. Thông tin của CSDL mẫu được mô tả cụ thể như sau:

3.2.1. Cơ sở dữ liệu UOF

Được cung cấp bởi trường đại học Essex của Anh (University of Essex, UK), bao gồm 4 tập dữ liệu: faces94, faces95, faces96 và grimace. Ảnh trong cơ sở dữ liệu là ảnh màu 24 bít định dạng dạng JPEG. Tập dữ liệu chứa một tập hợp các hình ảnh khuôn mặt gôm 395 cá nhân (cả nam và nữ) với 20 ảnh cho mỗi cá nhân, tổng cộng có 7900 hình ảnh. Tất cả khuôn mặt chủ yếu được thực hiện bởi các sinh viên đại học năm đầu tiên có độ tuổi từ 18 đến 20 và một số người lớn tuổi, một số cá nhân đeo kính và có râu, thuộc nhiều chủng tộc khác nhau (hình 3.1).

Hình 3.1: Cơ sở dữ liệu mẫu UOF 3.2.2. Cơ sở dữ liệu FEI

Bao gồm các tập dữ liệu: Fei_Pl, Fei_P2 và Fei_P3, với các ảnh khuôn mặt được chụp từ tháng 6 năm 2005 đến tháng 3 năm 2006 tại Phòng thí nghiệm Trí tuệ nhân tạo FEI ở Paulo, Brazil. Bao gồm 200 cá nhân (100 nam, 100 nữ), với 14 ảnh cho mỗi cá nhân, tổng cộng 2800 hình ảnh. Tất cả khuôn mặt chủ yếu được thực hiện bởi các sinh viên và nhân viên của FEI, có độ tuổi từ 19 đến 40, với ngoại hình, kiểu tóc và đồ trang điểm khác biệt, đều được chụp trên nền ảnh mầu trắng, ở vị trí đứng thẳng đứng và quay vòng lần lượt tới 1800. Kích thước của mỗi ảnh là 640x480 pixel (hình 3.2).

Hình 3.2: Cơ sở dữ liệu mẫu FEI 3.2.3. Cơ sở dữ liệu JAFFE

Chứa các khuôn mặt nữ Nhật Bản, được chụp tại khoa tâm lý học của Đại học Kyushu, Nhật Bản, bao gồm 213 hình ảnh của 7 biểu hiện khuôn mặt (6 biểu hiện

cảm xúc cơ bản trên khuôn mặt + 1 trung tính), được chụp bởi 10 người phụ nữ Nhật Bản (Hình 3.3).

Hình 3.3: Cơ sở dữ liệu mẫu JAFFE 3.2.4. Cơ sở dữ liệu LFW

Bao gồm những khuôn mặt được gắn nhãn trong tự nhiên. Bộ dữ liệu gồm 13233 hình ảnh khuôn mặt của 5749 người được thu thập từ web. Mỗi khuôn mặt được gắn nhãn với tên của người đó, trong đó 1680 người có từ 2 hình ảnh khác biệt trở lên (hình 3.28).

Hình 3.4: Cơ sở dữ liệu mẫu LFW

3.3. Kết quả thử nghiệm

Quá trình đánh giá thực nghiệm được chia thành 2 công đoạn: Đánh giá hiệu quả của mô hình phát hiện khuôn mặt người trên khung hình webcam và đánh giá

độ chính xác nhận dạng. Hiệu quả của mô hình phát hiện khuôn mặt được đánh giá dựa trên các độ đo được định nghĩa cụ thể trong phần sau đây:

■ Độ chính xác phát hiện khuôn mặt DP (Detection Precision):

DP = Số vùng khuôn mặt phát hiện đúng trên tổng số khuôn mặt cần phát hiện ■ Khả năng tìm hết DR (Detection Recall):

DR = Số vùng khuôn mặt phát hiện đúng /(Số vùng khuôn mặt phát hiện đúng + Số vùng không được phát hiện)

■ Độ trung bình điều hòa DM (Dectection F-Measure): DM = (2xFDP*FDR)/(FDP+FDR)

Bên cạnh đó, để các kết quả thực nghiệm chính xác và trực quan, trong quá trình thử nghiệm, chúng tôi đã so sánh hiệu quả của mô hình phát hiện khuôn mặt bằng đặc trưng HOG với mô hình phát hiện khuôn mặt sử dụng đặc trưng Haar wavelet và bộ phân lớp AdaBoost (được quy ước gọi tên là phương pháp Haar wavelet AdaBoost) [2]. Các kết quả thực nghiệm được mô tà cụ thể trên Bảng 3.1.

Dữ liệu thử nghiệm

Số mẫu

Sử dụng đặc trưng HOG Đặc trưng Harr wavelet

DP DR DM DP DR DM Faces96 3040 98,3 99,1 98,7 93,6 94,4 94,2 FEI_P1 700 98,33 98,43 98,43 80,71 80,73 80,71 FEI_P2 700 99,14 99,14 99,14 83,2 83,11 84 FEI_P3 700 97,43 97,43 97,43 79,43 79,5 79,45 JAFFE 213 100 100 100 100 100 100 LFW 13233 99,74 99,74 99,74 93,3 93,27 93,51

Bảng 3.1: Đánh giá hiệu quả phát hiện khuôn mặt

Hiệu quả của mô hình phát hiện được đánh giá dựa trên độ chính xác phát hiện, được định nghĩa cụ thể như sau:

Quá trình đánh giá thực nghiệm được thực hiện lần lượt trên từng tập dữ liệu. Mỗi tập dữ liệu được chia ngẫu nhiên thành 2 tập training và testing theo tỷ lệ 90/10 (90% số mẫu để huấn luyện mô hình và 10% số mẫu còn lại để kiểm thử).

Việc huấn luyện mô hình gồm 2 công đoạn: Huấn luyện bộ trích chọn đặc trưng (mô hình mạng neural học sâu FaceNet) và huấn luyện bộ phân lớp SVM. Quy trình huấn luyện được tiến hành cụ thể như sau: Từ tập mẫu huấn luyện đầu vào, trước tiên bộ phát hiện khuôn mặt sẽ tiến hành tìm kiếm, định vị và crop vùng ảnh khuôn mặt trên mỗi khung hình. Toàn bộ tập ảnh khuôn mặt crop sau đó sẽ được sử dụng làm đầu vào để huấn luyện mô hình trích chọn đặc trưng. Tập đặc trưng đầu ra của mô hình trích chọn đặc trưng sẽ được sử dụng làm đầu vào để huấn luyện mô hình phân lớp SVM. Các kết quả thực nghiệm được mô tả cụ thể trên Bảng 3 hiệu quả của phương pháp sử dụng đăc trưng HOG

Dữ liệu thử nghiệm Số khuôn mặt cần phát hiện R_Precision (%) sử dụng đặc trưng HOG Faces96 3040 98,03 FEI_P1 700 98,16 FEI_P2 700 98,74 FEI_P3 700 97,55 JAFFE 213 99,04 LFW 13233 95,26

Bảng 3.2: Đánh giá độ chính xác phát hiện mặt người

Từ các kết quả thực nghiệm cho thấy phương pháp sử dụng HOG đạt được độ chính xác cao (trên 95%) trên tất cả các tập dữ liệu thử nghiệm.

 Giao diện và hoạt động của chương trình

Chương trình thực nghiệm được cài đặt trong môi trường Visual Studio, sử dụng các thư viện C++ cho việc biểu diễn, lưu trữ và thao tác dữ liệu, thư viện opencv để thực hiện các thao tác xứ lý ảnh cơ bản

- Giao diện khi chương trình bắt đầu:

Hình 3.5: Giao diện chương trình

- Giao diện khi thực hiện chạy chương trình phát hiện khuôn mặt:

KẾT LUẬN

Luận văn đề xuất sử dụng đặc trưng HOG kết hợp với SVM trong việc phát hiện mặt người từ ảnh và video. Trong đó tập trung chính vào công đoạn phát hiện mặt người trên video. Hiệu quả của đặc trưng đã được đánh giá trên các tập dữ liệu chuẩn, dùng chung cho cộng đồng nghiên cứu về phát hiện và nhận dạng khuôn mặt người trên thế giới bao gồm cơ sở dữ liệu UOF, FEI, JAFFE và LFW.

Quá trình đánh giá thực nghiệm được chia thành 2 bước, trong đó hiệu quả là phương pháp phát hiện khuôn mặt được đánh giá dựa trên 3 độ đo là độ chính xác (Precision), khả năng tìm hết (recall) và độ đo F-measure, hiệu quả của mô hình phát hiện khuôn mặt được đánh giá dựa trên độ chính xác phát hiện.

Sau một thời gian tìm hiểu nghiên cứu, luận văn đã trình bày được các vấn đề: - Nghiên cứu Haar wavelet và Adaboost;

- Nghiên cứu thuật toán Viola - Johns; - Nghiên cứu đặc trưng HOG;

- Nghiên cứu cách sử dụng đặc trưng HOG với SVM trong phát hiện mặt người.

- Xây dựng bộ dữ liệu khuôn mặt để thử nghiệm; - Thực hiện huấn luyện và test;

- Phân tích, đánh giá kết quả thu được; so sánh kết quả thu được với kết quả của một số phương pháp nhận diện đã được công bố.

Hướng phát triển của đề tài:

Các kết quả thực nghiệm cho thấy mô hình đạt được độ chính xác cao và ổn định trong môi trường thực tế, có thể ứng dụng mô hình để giải quyết các bài toán ứng dụng điển hình như hệ thống camera giám sát cho phép phát hiện, nhận dạng và cảnh báo các đối tượng lạ mặt đột nhập tại các khu vực an ninh, nhà ga, sân bay, các cơ quan chính phủ, tòa nhà, chung cư, tra cứu thông tin tội phạm, chấm công, điểm danh tự động tại các khu công nghiệp, nhà máy, công trường, lớp học… cải thiện chất lượng của các thuật toán giao tiếp người-máy…

Một lần nữa học viên xin được cảm ơn Thầy giáo TS. Nguyễn Toàn Thắng đã tận tình giúp đỡ, hướng dẫn trong thời gian thực hiện đề tài, cảm ơn sự giúp đỡ của gia đình, bạn bè và các đồng nghiệp trong thời gian qua.

Thái Nguyên ngày tháng năm 2018

Người thực hiện

DANH MỤC TÀI LIỆU THAM KHẢO I.Tài liệu Tiếng Anh

[1] A. Yilmaz and M. Shah, "Object Tracking: A Survey," ACM Computing Surveys , pp. 7-15, December 2006.

[2] P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," International Journal of Computer Vision 57, p. 137–154, 2004.

[3] Y. Freund and R. Shapire, "A decisiontheoretic generalization of online learning and an application to boosting," Proceedings of the Second European Conference on Computational Learning Theory, pp. 23-37, 1995.

[4] P. Viola and M. Jones, "Robust real-time face detection," International Journal of Computer Vision 57, 2004.

[5] N. Dalal and B. Triggs, "Histogram of Oriented Gradients for Human Detection," in Computer Vision and Pattern Recognition CVPR 2005. IEEE Computer Society Conference on, vol. 1, pp. 886-893, 2005.

[6] C. Rasmussen and G. D. Hager, "Probabilistic data associationmethod for tracking multiple and compound visual objects," pp. 7-9, August 2000.

[7] V. Janbandhu, "Human Detection with Non Linear Classification Using Linear SVM," International Journal of Science and Research (IJSR); Volume 3 Issue 12, pp. 1347-1354, 12 2014.

[9] V. Kazcmi and J. Sullivan., "One millisecond face alignment with an ensemble of regression trees," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1867-1874, 2014.

[10] N. Kumar, A. C. Berg, P. N. Belhumeur and S. K. Nayar, "Attribute and simile classifiers for face verification," In Computer Vision, IEEE 12th International Conference oti, pp. 365-372, 2009.

[11] W. Jiang, "Human Feature Extraction in VS image Using HOG Algorithm". [12] A. Blake and M. Isard, "Active Contours".

[13] N. S. Vu and A. Caplier, "Illumination-robust face recognition using retina modeling," In Image Processing (ICIP), 2009 16th IEEE International Conference on, p. 3289–3292, 2009.

retina of fish (Cyprinidae)," J. Physiol, vol. 185, no. 3, p. 587–599, 1966. [16] J. Plat, "Fast Training of Support Vector Machines Using Sequential Minimal

Optimization," In Advences in Kernel Methods - Support Vector Learning, Cambridge, M.A, MIT Press, pp. 185-208, 1999.

II. Tài liệu tiếng Việt

[8] Nguyễn Thị Thanh Tân, Huỳnh Văn Huy và Ngô Quốc Tạo, "Phương pháp nhận dạng khuôn mặt người từ webcam," Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông, trang. 285-291, năm 2017.

[15] Phạm Anh Phương, Ngô Quốc Tạo và Lương Chi Mai, “Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt,” năm 2008.

[17] Trương Quốc Bảo, Trương Hùng Chen và Trương Quốc Định, “Phát hiện và nhận dạng biển báo giao thông đường bộ sử dụng đặc trung HOG và mạng nơrron nhân tạo,” Tạp chí khoa học trường Đại học Cần Thơ - Số chuyên đề Công nghệ thông tin, trang. 47-54, năm 2015.

Đánh Giá Thuật Toán Viola-Jones

Đánh Giá Thuật Toán Viola-Jones