Kết quả thử nghiệm và so sánh

Chương 3 Thử nghiệm và đánh giá 36

3.3 Kết quả thử nghiệm và so sánh

Trong phần này, ta sẽ so sánh kết quả của phương pháp đề xuất với kết quả của OpenFace, mà luận văn đã triển khai trong Mục 5.2. Dựa trên thống kê và so sánh các kết quả, có thể kết luận rằng ứng dụng đề xuất của luận văn đã mang lại nhiều lợi ích cho các ứng dụng nhận diện khuôn mặt. Bên dưới sẽ được trình bày một số bảng thống kê và biểu đồ.

Các Bảng 5.1, 5.2 và 5.3 thể hiện các bảng thống kê mà luận văn đã xây dựng nhằm mục đích so sánh độ chính xác, độ nhớ và thời gian suy luận, tương ứng, giữa OpenFace và quy trình của luận văn đề cập sử dụng các vector khuôn mặt số có các kích thước khác nhau trong khoảng [256, 512, 2048] cho các thuật toán chuyển đổi vector thành chuỗi token. Những bảng này cũng cho thấy ảnh hưởng của số lượng vị trí và cụm trong thuật toán mã hóa lên các chỉ số đánh giá.

Điều quan trọng cần lưu ý là độ chính xác của thử nghiệm vượt trội hoàn toàn so với OpenFace trong tất cả các bản ghi của ba bảng. Trong hai cột recall, kết quả của thử nghiệm tương đương hoặc cao hơn, đặc biệt trong Bảng 5.2 và 5.3. Hơn nữa, bằng cách mã hóa các vector đa chiều thành các token chuỗi, hệ thống có thể đạt được hiệu suất tương đương với OpenFace. Thư viện OpenFace chỉ sử dụng các vector khuôn mặt 128 chiều, trong khi trong thử nghiệm sử dụng các vector có số chiều cao hơn nhiều, bao gồm nhiều đặc trưng khuôn mặt hơn, nhưng vẫn đạt thời gian suy luận tương đương.

Cụ thể, trong Bảng 5.3, cả độ chính xác và recall của thử nghiệm đều tốt hơn nhiều so với OpenFace, nhưng thời gian truy xuất khuôn mặt chưa phù hợp cho thời gian thực.

Trong Bảng 5.1 và 5.2, đã chia thành ba nhóm để thể hiện hiệu suất: 64 vị trí, 32 vị trí và 16 vị trí, với số cụm từ 19 đến 22 (và thêm cụm 23 trong Bảng 5.2). Với nhóm 64 vị

Bảng 3.1: Các chỉ số đánh giá ảnh hưởng bởi N vị trí và N cụm với vector khuôn mặt 256 chiều của thử nghiệm và OpenFace

Độ chính xác [%] Recall Thời gian suy luận [s]

N vị trí N cụm TN OpenFace TN OpenFace TN OpenFace

64 19 90.93 87.92 88.40 87.90 0.078 0.0445

64 20 90.74 87.92 88.33 87.90 0.097 0.0445

64 21 91.03 87.92 87.66 87.90 0.106 0.0445

64 22 91.52 87.92 87.84 87.90 0.083 0.0445

32 19 90.97 87.92 86.76 87.90 0.064 0.0445

32 20 91.2 87.92 86.84 87.90 0.063 0.0445

32 21 91.47 87.92 86.89 87.90 0.06 0.0445

32 22 91.39 87.92 87.18 87.90 0.055 0.0445

16 19 92.51 87.92 81.21 87.90 0.042 0.0445

16 20 92.97 87.92 81.24 87.90 0.039 0.0445

16 21 91.95 87.92 81.84 87.90 0.041 0.0445

16 22 92.05 87.92 81.32 87.90 0.03 0.0445

Bảng 3.2: Các chỉ số đánh giá bị ảnh hưởng bởi N vị trí và N cụm với vector khuôn mặt 512 chiều của thử nghiệm và OpenFace

Độ chính xác [%] Recall Thời gian suy luận [s]

N vị trí N cụm TN OpenFace TN OpenFace TN OpenFace

64 19 90.03 87.92 89.67 87.90 0.147 0.0445

64 20 90.88 87.92 90.07 87.90 0.087 0.0445

64 21 91.03 87.92 89.01 87.90 0.078 0.0445

64 22 90.89 87.92 89.81 87.90 0.095 0.0445

64 23 91.78 87.92 89.48 87.90 0.095 0.0445

32 19 92.62 87.92 84.95 87.90 0.044 0.0445

32 20 92.50 87.92 83.78 87.90 0.052 0.0445

32 21 92.77 87.92 85.07 87.90 0.054 0.0445

32 22 92.21 87.92 84.42 87.90 0.067 0.0445

32 23 92.52 87.92 84.36 87.90 0.055 0.0445

16 19 93.94 87.92 79.02 87.90 0.050 0.0445

16 20 93.89 87.92 79.78 87.90 0.049 0.0445

16 21 93.47 87.92 80.50 87.90 0.044 0.0445

16 22 93.57 87.92 80.83 87.90 0.039 0.0445

16 23 93.68 87.92 80.49 87.90 0.046 0.0445

Bảng 3.3: Các chỉ số đánh giá bị ảnh hưởng bởi N vị trí và N cụm với vector khuôn mặt 2048 chiều của thử nghiệm và OpenFace

Độ chính xác [%] Recall Thời gian suy luận [s]

N vị trí N cụm TN OpenFace TN OpenFace TN OpenFace 128 32 93.52 87.92 91.59 87.90 0.175 0.0445

64 32 93.40 87.92 90.70 87.90 0.131 0.0445

32 32 94.02 87.92 88.56 87.90 0.100 0.0445

trí, đã đạt độ chính xác và recall cao hơn, nhưng thời gian tìm kiếm trung bình mất 0,09 giây mỗi truy vấn. Trong nhóm 32 vị trí, quy trình của thử nghiệm hiệu quả hơn với độ chính xác cải thiện đáng kể.

Về các chỉ số khác như recall và thời gian suy luận, OpenFace vượt trội hơn thực nghiệm trong một số trường hợp. Nhóm cuối cùng với 16 vị trí nổi bật với thời gian tìm kiếm nhanh và độ chính xác đạt khoảng 94%, nhưng độ nhạy(recall) khá khiêm tốn.

Khi xem xét Bảng 5.1 và 5.2, Bảng 5.2 thể hiện hiệu quả hơn với độ chính xác và recall cao hơn, nhưng thời gian phản hồi chậm hơn một chút so với Bảng 5.1. Trong Hình 5, biểu đồ cột về độ chính xác đã được xây dựng, recall và thời gian tìm kiếm, giúp lựa chọn số lượng vị trí và cụm tốt nhất cho các thuật toán mã hóa của các vector biểu diễn khuôn mặt có số chiều khác nhau.

Dựa trên các kết quả thử nghiệm, phương pháp của luận văn đề cập đã rất linh hoạt trong việc chọn số lượng vị trí và cụm để đạt được thời gian suy luận và độ chính xác cũng như recall mong muốn.

Hình 3.1: Kết quả so sánh với độ chính xác, recall và thời gian suy luận

Kết Luận

Trong bài luận văn này, đã đề xuất một phương pháp mới cho ứng dụng nhận dạng khuôn mặt end-to-end với một quy trình đầy đủ cho cả phát triển và triển khai. Phương pháp của luận văn nhằm cung cấp một giải pháp toàn diện cho việc nhận dạng khuôn mặt, từ khâu thiết kế, huấn luyện cho đến triển khai thực tế, đảm bảo tính hiệu quả và độ chính xác cao trong mọi giai đoạn, phương pháp này đã được công bố tại hội nghị ICCSA và Computer Science với hai bài báo tương ứng làA Novel Approach to End-to-End Facial Recognition Framework with Virtual Search Engine ElasticSearch [14] và Hybrid end-to-end Approach Integrating Online Learning with Face-identification System[13]

Như đã thể hiện trong phân tích đánh giá ở trên, quy trình của luận văn đạt được độ chính xác dự đoán ấn tượng khi đối mặt với bộ dữ liệu rất thách thức, giúp giải quyết vấn đề thiếu hụt dữ liệu khuôn mặt. Điều này cho thấy phương pháp của luân văn đề cập có khả năng hoạt động hiệu quả ngay cả trong những tình huống khó khăn, nơi dữ liệu không đầy đủ hoặc không chất lượng cao.

Thêm vào đó, quy trình mà luận văn đề xuất đã mang lại thời gian phản hồi dự đoán cực kỳ nhanh chóng trong các ứng dụng thời gian thực. Điều này đặc biệt quan trọng trong các hệ thống yêu cầu phản hồi ngay lập tức, như an ninh hoặc nhận dạng trong đám đông, nơi mỗi giây đều quý giá.

Hơn thế nữa, bằng cách áp dụng thuật toán chuyển đổi vector thành chuỗi ký tự (vector-to-string token) thì có thể huấn luyện mô hình trực tiếp trên máy tính thông thường mà không cần đến GPU. Điều này có nghĩa là chi phí cho các thiết bị phần cứng đắt tiền thường cần thiết cho việc huấn luyện mô hình có thể được giảm đáng kể. Việc này mở ra khả năng tiếp cận rộng rãi hơn cho nhiều cá nhân và tổ chức không có điều

Cuối cùng, thay vì sử dụng mô hình học sâu truyền thống để nhận dạng khuôn mặt, thử nghiệm đã tận dụng ES để lưu trữ, tạo và truy xuất danh tính khuôn mặt một cách hiệu quả hơn. Bằng cách này, các vấn đề liên quan đến học trực tuyến trong các ứng dụng nhận dạng khuôn mặt cũng được giải quyết triệt để. Điều này không chỉ cải thiện hiệu suất mà còn tăng khả năng mở rộng và linh hoạt của hệ thống.

Trong tương lai, thử nghiệm sẽ tập trung nghiên cứu để tìm ra các giải pháp nâng cao độ chính xác của thuật toán chuyển đổi vector thành chuỗi ký tự, nhằm đạt được kết quả nhận dạng khuôn mặt tốt hơn nữa. Mục tiêu là không ngừng cải thiện hiệu suất và độ tin cậy của hệ thống, đáp ứng nhu cầu ngày càng cao trong các ứng dụng thực tế.

Tài liệu tham khảo

[1] Ahonen, Timo, Hadid, Abdenour andPietik¨ainen, Matti. “Face Description with Local Binary Patterns: Application to Face Recognition”.inIEEE Transactions on Pattern Analysis and Machine Intelligence: 28.12 (2006),pages2037–2041.DOI: 10.1109/TPAMI.2006.244.

[2] Ahonen, Timo, Hadid, Abdenour and Pietik¨ainen, Matti. “Face description with local binary patterns: Application to face recognition”. inIEEE Transactions on Pattern Analysis and Machine Intelligence: 28.12 (2006),pages2037–2041.

[3] Ahonen, Timo, Hadid, AbdenourandPietik¨ainen, Matti. “Face Recognition with Local Binary Patterns”.inProceedings of the European Conference on Computer Vision: Springer, 2004, pages 469–481. DOI: 10 . 1007 / 978 - 3 - 540 - 24670 - 1_36.

[4] Almabdy, SoadandElrefaei, Lamiaa. “Deep Convolutional Neural Network-Based Approaches for Face Recognition”.inApplied Sciences: 9 (october2019),page4397.

DOI:10.3390/app9204397.

[5] Ammar, Sirineandothers. “Towards an Effective Approach for Face Recognition with DCGANs Data Augmentation”.inoctober2020: ISBN: 978-3-030-64555-7.

DOI:10.1007/978-3-030-64556-4_36.

[6] Amos, Brandon, Ludwiczuk, BartoszandSatyanarayanan, Mahadev. “OpenFace:

A General-Purpose Face Recognition Library with Mobile Applications”.inCMU School of Computer Science: (2016).

[7] Baltruˇsaitis, Tadas, Robinson, Peter and Morency, Louis-Philippe. “OpenFace:

An open source facial behavior analysis toolkit”.in2016 IEEE Winter Conference on Applications of Computer Vision (WACV): 2016, pages1–10. DOI:10.1109/

[8] Belhumeur, P. N., Hespanha, J. P. and Kriegman, D. J. “Eigenfaces vs. Fisher- faces: Recognition using class specific linear projection”.inIEEE Transactions on Pattern Analysis and Machine Intelligence: 19.7 (1997),pages711–720.

[9] Belhumeur, Peter N., Hespanha, Joao P.and Kriegman, David J. “Eigenfaces vs.

Fisherfaces: Recognition Using Class Specific Linear Projection”.inIEEE Trans- actions on Pattern Analysis and Machine Intelligence: 19.7 (1997),pages711–720.

DOI:10.1109/34.598228.

[10] Blanz, Volkerand Vetter, Thomas. “Face recognition based on fitting a 3D mor- phable model”. inIEEE Transactions on Pattern Analysis and Machine Intelli- gence: 25.9 (2003),pages1063–1074.

[11] Collobert, Ronan, Kavukcuoglu, KorayandFarabet, Clément.Torch7: A Matlab- like Environment for Machine Learning. In BigLearn, NIPS Workshop. 2011.

[12] Dalal, Navneetand Triggs, Bill. “Histograms of Oriented Gradients for Human Detection”. inProceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition: IEEE, 2005, pages 886–893. DOI: 10.1109/CVPR.2005.177.

[13] Dat, Sonandothers. “A Hybrid End-to-End Approach Integrating Online Learn- ing into Face Identification System”. inComputer Science: 24 (october 2022).

DOI:10.7494/csci.2023.24.2.4840.

[14] Dat, Sonandothers. “A Novel Approach to End-to-End Facial Recognition Frame- work with Virtual Search Engine ElasticSearch”. inseptember 2021: ISBN: 978- 3-030-86969-4. DOI:10.1007/978-3-030-86970-0_32.

[15] Deb, Debayan, Nain, Neeta and Jain, Anil K. Longitudinal Study of Child Face Recognition. 2017. arXiv:1711.03990 [cs.CV]. URL: https://arxiv.org/

abs/1711.03990.

[16] Deng, Jiankang andothers. “ArcFace: Additive Angular Margin Loss for Deep Face Recognition”.inProceedings of the IEEE/CVF Conference on Computer Vi- sion and Pattern Recognition: 2019,pages4690–4699.

[17] Deng, Jiankang andothers. “ArcFace: Additive Angular Margin Loss for Deep Face Recognition”.inIEEE Transactions on Pattern Analysis and Machine Intelli- gence: 44.10 (october2022),pages5962–5979.ISSN: 1939-3539.DOI:10.1109/

tpami.2021.3087709. URL: http://dx.doi.org/10.1109/TPAMI.2021.

3087709.

[18] Goldstein, A. Jay, Harmon, Leon D. and Lesk, A. B. “Identification of human faces”. in1971: URL: https : / / api . semanticscholar . org / CorpusID : 57690561.

[19] Goodfellow, Ianandothers. “Generative adversarial nets”.inAdvances in Neural Information Processing Systems: 2014,pages2672–2680.

[20] Guo, Yandong andothers. “MS-Celeb-1M: A dataset and benchmark for large- scale face recognition”. inEuropean Conference on Computer Vision: Springer, 2016,pages87–102.

[21] Howard, Andrew Gandothers. “Mobilenets: Efficient convolutional neural networks for mobile vision applications”.inarXiv preprint arXiv:1704.04861: (2017).

[22] Hu, Jiwen, Lu, Jiwen and Tan, Yap-Peng. “Deep Transfer Metric Learning for Cross-Modal Face Recognition”.inIEEE Transactions on Image Processing: 28.4 (2019),pages1825–1839.

[23] Huang, Gary B andothers. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. techreport. Technical Report 07- 49, University of Massachusetts, Amherst, 2008.

[24] Illinois General Assembly.Biometric Information Privacy Act. Available at:http:

/ / www . ilga . gov / legislation / publicacts / fulltext . asp ? Name = 095 - 0994. 2008.

[25] Kazemi, VahidandSullivan, Josephine. “One Millisecond Face Alignment with an Ensemble of Regression Trees”. inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 2014,pages1867–1874.

[26] King, Davis E. “Dlib-ml: A machine learning toolkit”. inJournal of Machine Learning Research: 10 (2009),pages1755–1758.

[27] Kirby, M.andSirovich, L. “Application of the Karhunen-Loeve procedure for the characterization of human faces”. inIEEE Transactions on Pattern Analysis and Machine Intelligence: 12.1 (1990),pages103–108. DOI:10.1109/34.41390.

[28] LeCun, Yannandothers. “Gradient-Based Learning Applied to Document Recog- nition”. inProceedings of the IEEE: 86.11 (1998), pages 2278–2324. DOI: 10 . 1109/5.726791.

[29] Li, Chenandothers. “RGB-D Based Face Recognition: A Survey”.inIEEE Trans- actions on Human-Machine Systems: 45.4 (2015),pages393–405.

[30] Liu, Wei andothers. “SSD: Single shot multibox detector”. inEuropean confer- ence on computer vision: Springer. 2016,pages21–37.

[31] Liu, Weiyang andothers. “Large-Margin Softmax Loss for Convolutional Neu- ral Networks”. inProceedings of the 33rd International Conference on Machine Learning: 2016,pages507–516.

[32] Lowe, David G. “Distinctive Image Features from Scale-Invariant Keypoints”.

inInternational Journal of Computer Vision: 60.2 (2004),pages91–110.DOI:10.

1023/B:VISI.0000029664.99615.94.

[33] Mu, Cun andothers. Towards Practical Visual Search Engine within Elastic- search. 2019. arXiv: 1806.08896 [cs.CV]. URL: https://arxiv.org/abs/

1806.08896.

[34] Ng, Hong-Wei and Winkler, Stefan. “A data-driven approach to cleaning large face datasets”.in2014 IEEE International Conference on Image Processing (ICIP):

2014,pages343–347. DOI:10.1109/ICIP.2014.7025068.

[35] Ng, HuyandWinkler, Stefan. “FaceScrub: A Dataset of Over 100,000 Face Im- ages of 530 People”.inarXiv preprint arXiv:1407.4761: (2014).

[36] Parkhi, Omkar M., Vedaldi, AndreaandZisserman, Andrew. “Deep Face Recog- nition”.inProceedings of the British Machine Vision Conference: 2015.

[37] Parkhi, Omkar M., Vedaldi, AndreaandZisserman, Andrew. “Deep Face Recog- nition”.inBritish Machine Vision Conference: 2015.

[38] Schroff, Florian, Kalenichenko, Dmitry and Philbin, James. “FaceNet: A Uni- fied Embedding for Face Recognition and Clustering”.inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 2015,pages815–823.

[39] Schroff, Florian, Kalenichenko, Dmitry and Philbin, James. “FaceNet: A unified embedding for face recognition and clustering”. in2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): IEEE, june 2015. DOI: 10.1109/cvpr.2015.7298682. URL: http://dx.doi.org/10.1109/CVPR.

2015.7298682.

[40] Schroff, Florian, Kalenichenko, DmitryandPhilbin, James. “FaceNet: A unified embedding for face recognition and clustering”.inProceedings of the IEEE Con- ference on Computer Vision and Pattern Recognition: 2015,pages815–823.

[41] Sengupta, Soumyadipandothers. “Frontal to Profile Face Verification in the Wild”.

in2016 IEEE Winter Conference on Applications of Computer Vision: 2016,pages1–9.

[42] Shi, Yichun, Otto, CharlesandJain, Anil K. “Face Clustering: Representation and Pairwise Constraints”. inIEEE Transactions on Information Forensics and Secu- rity: 13.7 (2018),pages1626–1640. DOI:10.1109/TIFS.2018.2796999.

[43] Taigman, Yanivandothers. “DeepFace: Closing the Gap to Human-Level Perfor- mance in Face Verification”.inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 2014,pages1701–1708.

[44] Taigman, Yaniv andothers. “DeepFace: Closing the gap to human-level perfor- mance in face verification”. inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 2014,pages1701–1708.

[45] Turk, Matthew and Pentland, Alex. “Eigenfaces for Recognition”. inJournal of Cognitive Neuroscience: 3.1 (1991),pages71–86.DOI:10.1162/jocn.1991.3.

1.71.

[46] Turk, Matthew and Pentland, Alex. “Eigenfaces for recognition”. inJournal of Cognitive Neuroscience: 3.1 (1991),pages71–86.

[47] Viola, PaulandJones, Michael. “Rapid object detection using a boosted cascade of simple features”. inProceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 2001,pages511–518.

[48] Viola, PaulandJones, Michael. “Rapid object detection using a boosted cascade of simple features”.inProceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition:volume1. IEEE. 2001,pagesI–I.

Các Khái niệm và Thuật ngữ Cơ bản

Lập chỉ mục và tìm kiếm dữ liệu