Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

7 17 0
Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong bài viết này, nhóm tác giả sẽ phân tích cũng như đưa ra một số phương pháp cải tiến cho mô hình Facenet để ứng dụng trong việc xây dựng và phát triển một hệ thống nhận diện đáp ứng được với số lượng lớn sinh viên phục vụ cho việc điểm danh và quản lý sinh viên tại trường Đại học Công nghiệp Hà Nội.

SCIENCE - TECHNOLOGY P-ISSN 1859-3585 E-ISSN 2615-9619 ỨNG DỤNG MÔ HÌNH FACENET TRONG VIỆC XÂY DỰNG VÀ PHÁT TRIỂN HỆ THỐNG NHẬN DIỆN KHUÔN MẶT TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI FACENET MODEL APPLICATION IN THE CONSTRUCTION AND DEVELOPMENT OF FACE RECOGNITION SYSTEM AT HANOI UNIVERSITY OF INDUSTRY Phạm Việt Anh1,*, Lê Xuân Hải , Vương Trung Hiếu1 TĨM TẮT Hệ thống nhận diện khn mặt ứng dụng dựa tảng xử lý ảnh phương pháp học máy, giúp máy tính tự động xác định nhận dạng người từ ảnh hay khung hình video Có nhiều thuật tốn đề cập số chúng kể tới việc so sánh đặc điểm khn mặt trích chọn từ hình ảnh với sở liệu khuôn mặt thu thập từ trước (one-to-many matching) [1] Tuy nhiên, sử dụng thuật toán đơn với sở liệu ảnh nhỏ, hệ thống nhận diện tốn nhiều tài ngun thời gian việc tính tốn mà đưa dự đốn có độ xác thấp Trong năm gần đây, với phát triển mạnh mẽ học sâu mà đặc biệt phát triển mạng neural tích chập hệ thống nhân diện trọng cải tiến đáng kể hết Mơ hình Facenet mắt vào năm 2015 ứng dụng vào hầu hết hệ thống nhận diện mang ưu điểm trội từ việc phát triển kiến trúc mạng Siamese kết hợp với việc sử dụng hàm mát linh hoạt để huấn luyện liệu ảnh lớn Trong báo này, nhóm tác giả phân tích đưa số phương pháp cải tiến cho mơ hình Facenet để ứng dụng việc xây dựng phát triển hệ thống nhận diện đáp ứng với số lượng lớn sinh viên phục vụ cho việc điểm danh quản lý sinh viên trường Đại học Cơng nghiệp Hà Nội Từ khóa: Mạng neural tích chập, học sâu - nhận diện khn mặt ABSTRACT The face recognition system is one of applications, based on the foundation of photography editing and machine learning methodology, which assists computers in confirming and recognising someone from a picture or a video frame There have been a lot of algorithms mentioned and one of them can be listed as the comparison of facial characteristics determined from pictures with a database of faces collected previously (one-to-many matching) [1] However, the fact that using those common algorithms solely, even with a small image database, can lead to the waste of resources and time for the recognition system in calculations while the accuracy rate of a prediction remains low In recent years, the significant development of deep learning, especially the development of convolution neural networks, has contributed to the focus and enhance more than ever of the recognition systems The Facenet model was introduced in 2015, which has been applied to almost all recognition systems until now, having a remarkable advantage in the development of Siamese network architecture, co-operated with the utilization of a flexible loss function for the training in large image databases In this article, the authorities will analyse as well as provide methodologies to enhance Facenet model for the application in constructing and developing a suitable recognition system meeting the requirement of large numbers of students in taking attendance and managing students at Hanoi University of Industry Keywords: Convolutional network neurral, Deep Learning, Face recognition Trường Đại học Công nghiệp Hà Nội Email: anhpv@haui.edu.vn Ngày nhận bài: 10/01/2021 Ngày nhận sửa sau phản biện: 15/3/2021 Ngày chấp nhận đăng: 25/10/2021 * Website: https://tapchikhcn.haui.edu.vn GIỚI THIỆU Hệ thống nhận diện khn mặt tích hợp nhiều hệ thống an ninh, thực thi luật, chăm sóc sức khỏe, giải trí,… Hệ thống nhận diện khuôn mặt ứng dụng dựa tảng xử lý ảnh học máy, giúp máy tính tự động xác định nhận dạng người từ ảnh hay khung hình video Một hệ thống nhận diện mong muốn có khả tự động nhận diện kiểm chứng cá nhân video hình ảnh Bài tốn nhận diện khn mặt nghiên cứu từ lâu có nhiều thuật toán đưa để thực điều này, số chúng kể tới việc so sánh đặc điểm khn mặt trích chọn từ hình ảnh với sở liệu khuôn mặt thu thập (one-to-many matching) [1] Tuy nhiên, sử dụng thuật toán đơn với sở liệu ảnh nhỏ, hệ thống Vol 57 - No (Oct 2021) ● Journal of SCIENCE & TECHNOLOGY 49 KHOA HỌC CÔNG NGHỆ nhận diện tốn nhiều tài nguyên thời gian việc tính tốn mà đưa dự đốn có độ xác thấp Trong q trình phát triển, nhà nghiên cứu đưa nhiều thư viện để hỗ trợ cho việc xây dựng ứng dụng nhận diện khuôn mặt Việc sử dụng thư viện sẵn có tiết kiệm thời gian cài đặt, thời gian thu thập liệu lại có hạn chế việc ứng dụng nơi có số lượng người lớn việc khơng đảm bảo tính ổn định việc dự đốn sở liệu ảnh gia tăng cách đáng kể Trong năm gần đây, với phát triển mạnh mẽ học sâu mà đặc biệt phát triển mạng neural tích chập mà hệ thống nhân diện trọng cải tiến đáng kể hết Thuật toán nhận diện khn mặt dựa mơ hình học sâu đề xuất [2, 3] đạt hiệu suất tốt thời gian xử lý có độ xác cao [4-6] Mơ hình Facenet mắt vào năm 2015 ứng dụng vào hầu hết hệ thống nhận diện mang ưu điểm trội từ việc phát triển kiến trúc mạng Siamese kết hợp với việc sử dụng hàm mát linh hoạt để huấn luyện liệu ảnh lớn Kiến trúc mạng Siamese mơ hình Facenet dựa tảng mạng neural tích chập loại bỏ lớp kết nối đầy đủ (fully connected), đầu vào ba ảnh tập liệu với hai ảnh thuộc lớp để huấn luyện dựa hàm mát có khả học đồng thời tương đồng ảnh thuộc lớp khác biệt ảnh không thuộc lớp [7] Kết cuối việc huấn luyện tạo mã hóa ảnh thành vector 128 chiều Các vector (vector embedding) mang đặc điểm riêng biệt khuôn mặt người có khác biệt so với vector khơng thuộc nhóm với Như vậy, việc nhận diện khuôn mặt người việc phân lớp vector từ ảnh khn mặt người so với lớp vector mã hóa tồn sở liệu ảnh Ưu điểm Facenet trội mơ hình cần thu thập liệu ảnh chỉnh tối ưu vùng cắt mặt đáp ứng hiệu suất vô ổn định với số lượng liệu ảnh lớn Trong báo này, nhóm nghiên cứu trình bày mơ hình Facenet cải tiến giúp nâng cao hiệu suất mơ hình để từ ứng dụng vào việc xây dựng hệ thống nhận diện khuôn mặt phục vụ việc quản lý, giám sát điểm danh sinh viên trường Đại học Công nghiệp Hà Nội P-ISSN 1859-3585 E-ISSN 2615-9619 đoạn Mỗi ảnh đầu vào chép thay đổi kích thước theo tỷ lệ khác Trong giai đoạn đầu, P-Net hoạt động việc sử dụng cửa sổ trượt có kích thước 12x12 chạy qua hình để tìm kiếm khn mặt Sau lớp tích chập thứ ba, mạng chia thành hai lớp nhỏ, lớp đưa xác suất mà khn mặt nằm miền xác định lớp cịn lại cung cấp tọa độ miền xác định Trong giai đoạn tiếp theo, R-Net hoạt động tương tự P-Net số lớp R-Net nhiều nhằm mục đích tinh chỉnh lại tọa độ miền xác định từ P-Net Cuối cùng, O-Net lấy miền xác định từ R-Net làm đầu vào đưa ba kết đầu bao gồm: xác suất khuôn mặt nằm miền xác định, tọa độ tinh chỉnh cuối miền xác định tọa độ phận khuôn mặt Khi xác định vị trí khn mặt, hình ảnh gốc tập liệu có kích thước x pixels × y pixels thực cách cắt theo vùng khn mặt đưa kích thước 160 × 160 Kết thực qua hình Hình Q trình xác định khn mặt ảnh dựa phương pháp MTCNN 2.2 Tăng cường liệu ảnh Khi học sâu [10] trở nên phổ biến liệu huấn luyện trở nên quan trọng hết [12] Một mơ hình học sâu cần có lượng liệu lớn để hoạt động tốt [11] Về chất, mơ hình Facenet mạng học sâu nên để nâng cao độ xác cần cung cấp số lượng liệu ảnh lớn Trong nghiên cứu này, nhóm tác giả sử dụng số kỹ thuật để tăng cường liệu ảnh, phục vụ cho trình huấn luyện liệu mơ hình học sâu Kỹ thuật tăng giảm độ sáng: Quá trình tăng giảm độ sáng liệu ảnh cho phép mơ hình có khả dự đốn tốt với điều kiện ánh sáng khác thực tế Tuy nhiên việc tăng giảm độ sáng cần phải lưu ý với giá trị hợp lý, tránh giảm ảnh tối q sáng khiến mơ hình phải học liệu khơng tốt Q TRÌNH TIỀN XỬ LÝ ẢNH 2.1 Xác định vị trí khn mặt ảnh Trong giai đoạn tiền xử lý, việc xác định vị trí khuôn mặt ảnh bước thực dựa mơ hình MTCNN (Multi-task Cascaded Convolutional Neural Networks) phát triển dựa mạng neural tích chập [8] Lý thuyết MTCNN trình bày chi tiết [9] với việc dựa hoạt động ba mạng neural tích chập P-Net, R-Net O-Net thực ba giai 50 Tạp chí KHOA HỌC VÀ CƠNG NGHỆ ● Tập 57 - Số (10/2021) Hình Tăng cường liệu ảnh với kỹ thuật tăng giảm độ sáng Website: https://tapchikhcn.haui.edu.vn SCIENCE - TECHNOLOGY P-ISSN 1859-3585 E-ISSN 2615-9619 Kỹ thuật xoay ảnh: Phép xoay ảnh xoay hình ảnh cách ngẫu nhiên theo kim đồng hồ với góc định từ khoảng tới 360 độ Phép xoay ảnh sử dụng nhiều việc tạo liệu khuôn mặt lẽ thực tế, viêc tính tốn thực nhiều góc độ khác khn mặt max bảo đảm mối quan hệ giá trị liệu gốc, phát lỗi vượt giới hạn có giá trị đầu vào vượt khoảng giá trị cho phép Ở đây, giá trị đặc trưng điểm ảnh nên min(x) = max(x) = 255 Kết sử dụng phương pháp chuẩn hóa min-max thể hình MƠ HÌNH FACENET VÀ Q TRÌNH HUẤN LUYỆN DỮ LIỆU 3.1 Lựa chọn mạng tích chập Hình Tăng cường liệu ảnh với kỹ thuật xoay ảnh 2.3 Chuẩn hóa liệu ảnh Xét với liệu toán liệu ảnh màu đọc từ máy tính biểu diễn dạng ma trận ba chiều với giá trị điểm ảnh số nguyên nằm khoảng từ tới 255 Nhận thấy rằng, miền giá trị điểm ảnh có trải dài có chênh lệch rõ rệt giá trị điểm ảnh lớn với điểm ảnh nhỏ Nếu sử dụng thuật toán học sâu hay học máy với miền giá trị gây hai vấn đề, thứ việc thuật toán phải xử lý làm việc với liệu có giá trị lớn, điều làm cho việc tính tốn nhiều thời gian, khơng ổn định khó hội tụ Thứ hai, liệu đầu vào trước đưa vào mạng học sâu để huấn luyện lưu trữ vào nhớ (RAM - Random Access Memory), với việc huấn luyện nhiều liệu với giá trị cao dễ xảy tượng tràn nhớ ảnh hưởng tới trình tính tốn Để khắc phục vấn đề này, nhóm nghiên cứu sử dụng phương pháp chuẩn hóa liệu để điều chỉnh giá trị liệu tỉ lệ miền giá trị Hình Kết sử dụng phương pháp chuẩn hóa min-max cho ảnh Chuẩn hóa min-max coi phương pháp đơn giản việc ánh xạ giá trị phạm vi [0,1] Công thức phương pháp chuẩn hóa min-max: x − min(x) x = max(x) − min(x) Với x giá trị ban đầu, x giá trị sau chuẩn hóa, min(x) giá trị nhỏ đặc trưng max(x) giá trị lớn đặc trưng Chuẩn hóa min- Website: https://tapchikhcn.haui.edu.vn Với việc xây dựng dựa ưu điểm Inception module Residual block trình bày [13] mà Inception Resnet V1 mạng lựa chọn để phục vụ việc huấn luyện liệu hình ảnh khn mặt thu thập Residual block [14] giúp cho việc huấn luyện mạng dễ dàng nhiều tạo kết tốt Mỗi Residual block cần thêm đầu vào block (x) tới đầu lớp ℱ(x) để thu kết G(x) công thức: G(x) = ℱ(x) + x (1) Hình Residual block Khái niệm Inception module đề cập [15] nhóm nghiên cứu Google phát triển công bố mạng GoogLeNet Inception module mạng tích chập giúp mạng huấn luyện sâu nhanh thay việc phải tạo nhiều lớp dễ dẫn tới trường hợp mơ hình bị overfitting (khái niệm overfitting trình bày [23]) gia tăng số lượng tham số [16] Inception module tính tốn kernel có kích thước khác từ đầu vào lớp trước sau nối đầu lại với để tạo thành đầu Ưu điểm kernel × để giảm số chiều số lượng tham số tính tốn Về Inception Resnet V1 mạng tích chập khác gồm có thành phần Thành phần thứ khối chứa lớp tích chập (hidden layers), thành phần thứ hai khối chứa lớp phân lớp Tại thành phần thứ nhất, mạng thực hàng loạt phép tích chập pooling để phát đặc trưng quan trọng ảnh Các pooling mạng tích chập cịn có mục đích đạt bất biến việc thay đổi vị trí độ sáng ảnh tổng hợp kết đầu dựa giá trị nằm vùng mà kernel ánh xạ [17] Tại thành phần thứ hai lớp với liên kết đóng vai trò phân lớp đặc trưng rút trích từ trước Đầu cuối mạng đưa xác suất đối tượng tương ứng với ảnh đầu vào Vol 57 - No (Oct 2021) ● Journal of SCIENCE & TECHNOLOGY 51 KHOA HỌC CÔNG NGHỆ P-ISSN 1859-3585 E-ISSN 2615-9619 Bảng Cấu trúc mạng Inception Resnet V1 Layer Size-in Size-out Kernel Stride, Padding Params ReLU Scale ConV_BN_ReLU 160 × 160 × 79 × 79 × 32 3×3×3 2,0 32 × × × True − ConV_BN_ReLU 79 × 79 × 32 77 × 77 × 32 × × 32 1,0 32 × × × 32 True − ConV_BN_ReLU 77 × 77 × 32 77 × 77 × 64 × × 32 1,1 64 × × × 32 True − MaxPool2D 77 × 77 × 64 38 × 38 × 64 3×3 2, − True − ConV_BN_ReLU ConV_BN_ReLU ConV_BN_ReLU 5×Inception A Reduction A 10×Inception B Reduction B 5×Inception C 38 × 38 × 64 38 × 38 × 80 36 × 36 × 192 17 × 17 × 256 17 × 17 × 256 × × 896 × × 896 × × 1792 38 × 38 × 80 36 × 36 × 192 17 × 17 × 256 17 × 17 × 256 × × 896 × × 896 × × 1792 × × 1792 × × 64 × × 80 × × 192 Inception A Reduction A Inception B Redution B Inception C 1.0 1,0 2,0 − − − − − 80 × × × 64 192 × × × 80 256 × × × 192 − − − − − True True True True True True True True − − − 0,17 − 0,1 − 0,2 Inception C × × 1792 × × 1792 Inception C − − False 1,0 AvgPool2D Flatten Fully Connected L2 × × 1792 × × 1792 × × 128 × × 128 × × 1792 × × 1792 × × 128 × × 128 3×3 − − − 1, − − − − − − − − − − − − − − − 3.2 Sử dụng hàm mát Triplet Như trình bày phần trên, mơ hình Facenet có ưu điểm việc phát triển kiến trúc mạng Siamese kết hợp với việc sử dụng hàm mát linh hoạt để huấn luyện liệu ảnh lớn Số lượng đầu mạng neural tích chập (3.1) số lượng lớp khn mặt sở liệu ảnh Như vậy, số lượng người cần dự đốn tăng lên cách đáng kể lớp cuối mạng chứa nhiều neural, điều làm cho q trình tính tốn huấn luyện trở nên phức tạp chưa kể việc phải huấn luyện lại tồn mạng có lớp tạo Kiến trúc Siamese tạo để giải vấn đề chọn ngẫu nhiên từ liệu ảnh đầu mạng vector embedding tương ứng với ảnh từ đầu vào mạng Hai vector thể cho đặc trưng ảnh q trình tính tốn qua nhiều lớp tích chập mạng Cuối cùng, hai vector đưa vào hàm mát (loss function) để đo lường khác biệt chúng Thông thường, hàm mát sử dụng hàm norm chuẩn bậc Trong hình 6, mơ hình đưa vector x x biểu diễn cho ảnh ảnh Gọi f(x) hàm có tác dụng tương tự phép biến đổi qua lớp fully connected mạng neural để tạo phi tuyến giảm chiều liệu kích thước nhỏ Khi x , x người thì: d(x , x ) = ‖f(x ) − f(x )‖ đạt (2) x , x hai người khác thì: d(x , x ) = ‖f(x ) − f(x )‖ đạt max Hình Kiến trúc mạng Siemese Kiến trúc Siamese dựa tảng mạng tích chập loại bỏ lớp đầu sử dụng để mã hóa ảnh thành vector gọi vector embedding Đầu vào mạng Siamese hai ảnh lựa (3) Mục tiêu Siamese việc tìm cách ánh xạ ảnh không gian vector n chiều không thiết phải lựa chọn hàm mát binary cross entropy [18] toán phân loại nhị phân khác Mơ hình Facenet dạng Siemese với tác dụng biểu diễn ảnh không gian vector n chiều cho khoảng cách vector embedding nhỏ mức độ thuộc lớp ảnh tương ứng lớn Việc ánh xạ ảnh có mục đích quan trọng giảm chiều liệu, giúp tăng tốc khả tính tốn thuật tốn giữ độ xác nhận diện Thơng thường, số phần tử vector embedding 128 tương ứng với 128 điểm trích chọn khn mặt 52 Tạp chí KHOA HỌC VÀ CƠNG NGHỆ ● Tập 57 - Số (10/2021) Website: https://tapchikhcn.haui.edu.vn SCIENCE - TECHNOLOGY P-ISSN 1859-3585 E-ISSN 2615-9619 Đối với hàm mát thông thường tính tốn khoảng cách hai ảnh, với lần huấn luyện mơ hình học hai khả giống hai ảnh lớp khác hai ảnh khác lớp mà học lúc hai việc lượt huấn luyện Mơ hình Facenet khắc phục điều đưa hàm mát Triplet với đầu vào ba ảnh anchor, positive negative ký hiệu A, P N Ý tưởng hàm mát đảm bảo với ảnh anchor A (là ảnh định xét) gần với tất ảnh positive P (là toàn ảnh người đó) so với ảnh negative N ảnh khơng phải người [19] Tương tự xác định ảnh N cho có khoảng cách gần với ảnh A: argmin f(A ) − f(N ) (10) Trong đó, i, j nhãn ảnh ảnh P N lúc gọi hard positive hard negative Tuy nhiên, thực tế khơng thể tính tốn argmin argmax tồn tập huấn luyện dẫn tới việc mơ hình huấn luyện ảnh khn mặt gán nhãn sai có chất lượng nhiều hard positive hard negative Trong [19] trình bày hai cách để giải vấn đề này: - Tạo ba ảnh offline sau n bước, tính tốn hard positive hard negative lưu vào checkpoint tập liệu Hình Quá trình huấn luyện Facenet [19] Khoảng cách ảnh anchor tới positive nhỏ so với ảnh anchor tới negative, nên: d(A, P) < d(A, N) → ‖f(A) − f(P)‖ + α < ‖f(A) − f(N)‖ (5) ∀( f(A), f(P), f(N)) ∈ → ‖f(A) − f(P)‖ − ‖f(A) − f(N)‖ + α < (6) (4) Trong đó, hệ số α > có giá trị nhỏ thêm vào để tạo lề khoảng cách các cặp ảnh positive negative tập hợp tất ba tập huấn luyện Hàm mát Triplet viết đầy đủ: ℒ(A, P, N) = ∑ ‖f(A) − f(P)‖ − ‖f(A) − f(N)‖ + α (7) Trong công thức (7), n tổng số ba tập huấn luyện mơ hình Mục tiêu Triplet loss chất giảm thiểu trường hợp mơ hình nhận diện sai ảnh negative thành positive loại bỏ ảnh hưởng trường hợp mà mơ hình nhận diện negative positive lên hàm mát Để thể xác mục tiêu, hàm Triplet (7) điều chỉnh dạng sau: ℒ(A, P, N) = ∑ max(‖f(A) − f(P)‖ − ‖f(A) − f(N)‖ + α, 0) (8) 3.3 Lựa chọn ba ảnh đầu vào Việc lựa chọn ba ảnh đầu vào có ảnh hưởng lớn tới chất lượng mơ hình Facenet mơ hình hội tụ nhanh đồng thời đưa kết dự báo tốt Việc lựa chọn ngẫu nhiên ba ảnh đầu vào chất thực xác suất tỉ lệ chọn cặp ảnh ngẫu nhiên thuộc lớp nhỏ sở liệu ảnh hệ thống nhận diện lớn Tuy nhiên việc dẫn tới khó hội tụ mơ hình điều khơng mong muốn việc cải thiện mơ hình điều hướng tới Trong [19] đưa chiến lược lựa chọn ba ảnh đầu vào Hard Triplets Với ảnh A cần xác định ảnh P Website: https://tapchikhcn.haui.edu.vn cho có khoảng cách xa với ảnh A tức phải tìm nghiệm của: argmax ‖f(A ) − f(P )‖ (9) - Tạo ba ảnh online cách chọn mẫu hard positive hard negative mini-batch HUẤN LUYỆN MƠ HÌNH VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Huấn luyện mơ hình Như trình bày phần trước, q trình huấn luyện liệu tồn mạng thực dựa kiến trúc mạng Inception ResNet V1 với tập liệu 200 người thu thập gán nhãn kết hợp với trình sử dụng pre-trained liệu CASIA-WebFace Hình Quy trình huấn luyện đánh giá mơ hình Việc tiến hành huấn luyện liệu thực thi máy chủ tính tốn hiệu cao (HPC) trang bị card đồ họa GPU NVIDIA TesLa P100 16GB Kiến trúc Siamese dựa tảng mạng tích chập loại bỏ lớp đầu sử dụng để mã hóa ảnh thành vector gọi vector embedding Đầu vào mạng Siamese hai ảnh lựa chọn ngẫu nhiên từ liệu ảnh đầu mạng vector embedding tương ứng với ảnh từ đầu vào mạng Hai vector thể cho đặc trưng ảnh q trình tính tốn qua nhiều lớp tích chập mạng Cuối cùng, hai vector đưa vào hàm mát (loss function) để đo lường khác biệt chúng Thông thường, hàm mát sử dụng hàm norm chuẩn bậc Vol 57 - No (Oct 2021) ● Journal of SCIENCE & TECHNOLOGY 53 KHOA HỌC CÔNG NGHỆ P-ISSN 1859-3585 E-ISSN 2615-9619 Bảng Quá trình huấn luyện với tốc độ học 0,1 Epoch Learning-rate Optimizer Number Image 39 0,1 ADAGRAD 453.953 39 0,1 ADAM 453.953 39 0,1 RMSPROP 453.953 Bảng Quá trình huấn luyện với tốc độ học 0,01 Epoch Learning-rate Optimizer Number Image 50 0,01 ADAGRAD 453.953 50 0,01 ADAM 453.953 50 0,01 RMSPROP 453.953 140 ảnh đưa vào để mã hóa huấn luyện, 140 ảnh lại sử dụng để đánh giá độ xác Nhóm nghiên cứu tiến hành đánh giá dựa giải thuật SVM (Support Vector Machine)[22] thư viện FAISS (Facebook AI Similarity Search) Facebook Bảng Kết dự đoán dựa phương pháp phân lớp vector Method Normalization Face alignment Processed time Result FAISS False False 9,98223 5,10% SVM False False 7,89074 5,10% FAISS False True 9,04781 8,02% SVM False True 8,06475 6,56% FAISS True False 11,0754 85,4% SVM True False 7,83187 80,2% FAISS True True 8,81791 89,7% SVM True True 8,15443 88,3% Từ kết nghiên cứu phát triển, nhóm tác giả thực thử nghiệm xây dựng nên hệ thống nhận diện điểm danh khn mặt phịng lab mơ tính tốn hiệu cao Viện Cơng nghệ HaUI, Trường Đại học Công nghiệp Hà Nội Kết thể hình Hình Kết thử nghiệm xây dựng hệ thống nhận diện KẾT LUẬN Quá trình huấn luyện sử dụng thuật toán lan truyền ngược [20] dựa hàm mát kết hợp với giải thuật tối ưu khác Adam, Adagrad, Rmsprop trình bày chi tiết [21] để tìm trọng số tốt cho mạng neural Quá trình học thể rõ giá trị hàm mát giảm dần hội tụ sau lần học Ngồi ra, nhóm nghiên cứu tiến hành huấn luyện dựa giá trị tốc độ học, số lượng epochs, Kết cuối trình huấn luyện trả file trọng số mạng neural Bài báo trình bày mơ hình Facenet việc ứng dụng cho tốn nhận diện khn mặt Trong đó, ưu điểm mơ hình phân tích thử nghiệm dựa liệu sinh viên thu thập Các kết đánh giá dựa nhiều phương pháp phân lớp khác để đưa độ xác cao Hướng phát triển nghiên cứu tối ưu giải thuật để làm giảm thời gian tính tốn với đề xuất phương pháp chống giả mạo cho toán nhận diện điểm danh sinh viên, cải thiện tốt trình nhận diện xây dựng hệ thống điểm danh phục vụ cho trường Đại học Công nghiệp Hà Nội LỜI CẢM ƠN 4.2 Đánh giá kết nhận diện Dựa file trọng số tính tốn, nhóm nghiên cứu tiến hành mã hóa ảnh sở liệu thành vector 128 chiều Số lượng ảnh thu thập bao gồm 280 ảnh 140 sinh viên trường Đại học Công nghiệp Hà Nội, Nghiên cứu thực thử nghiệm phịng Lab mơ tính tốn hiệu cao thuộc Viện Cơng nghệ HaUI, Trường Đại học Công nghiệp Hà Nội đề tài cấp trường mã số 21-2020-RD/HĐ-ĐHCN 54 Tạp chí KHOA HỌC VÀ CÔNG NGHỆ ● Tập 57 - Số (10/2021) Website: https://tapchikhcn.haui.edu.vn SCIENCE - TECHNOLOGY P-ISSN 1859-3585 E-ISSN 2615-9619 TÀI LIỆU THAM KHẢO [1] Jiang X.D., Mandal B., Kot A., 2009 Complete discriminant evaluation and feature extraction in kernel space for face recognition Machine Vision and Applications, Springer 20(1), 35-46 [2] M Korkmaz, N Yilmaz, 2015 Face Recognition by Using Back Propagation Artificial Neural Network and Windowing Method 2015 2nd International Conference on Artificial Intelligence (ICOAI 2015), vol 4, no 1, pp 15-19, 2015 [3] O M Parkhi, A Vedaldi, A Zisserman, 2015 Deep Face Recognition Proceedings of the British Machine Vision Conference 2015, no Section 3, pp 41.1-41.12 [4] F Schroff, D Kalenichenko, J Philbin, 2015 Facenet: A unified embedding for face recognition and clustering in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 815-823 [5] Y Sun, D Liang, X Wang, X Tang, 2015 Deepid3: Face recognition with very deep neural networks arXiv preprint arXiv:1502.00873, 2015 [6] Y Taigman, M Yang, M A Ranzato, L Wolf, 2014 Deepface: Closing the gap to human-level performance in face verification in Proceedings of the IEEE conference on computer Vision and Pattern Recognition [7] K Q Weinberger, J Blitzer, L K Saul, 2006 Distance metric learning for large margin nearest neighbor classification In NIPS MIT Press, 2, [8] F Rahman, I J Ritun, N Farhin, JiaUddin, 2019 An Assistive Model for Visually Impaired People using YOLO and MTCNN ICCSP '19 Proceedings of the 3rd International Conference on Cryptography, Security and Privacy, pp 225-230 [9] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Yu Qiao, 2016 Joint Face Detection and Alignment using Multi-task Cascaded Convulotional Networks in IEEE Signal Processing Letters (SPL), vol.23, no 10, pp 1499-1503 [10] H Li, Z Lin, X Shen, J Brandt, G Hua, 2015 A convolutional neural network cascade for face detection in IEEE Conference on Computer Vision and Pattern Recognition, pp 5325-5334 [11] I Goodfellow, Y Bengio, A Courville, 2016 Deep Learning The MIT Press [12] S H Bach, B D He, A Ratner, C Re, 2017 Learning the structure of generative models without labeled data in ICML, pp 273–282 [13] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi, 2016 Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning in ICLR [14] K He, X Zhang, S Ren, J Sun, 2016 Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778 [15] Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A., 2015 Going deeper with convolutions In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1–9 [16] Min Lin, Qiang Chen, Shuicheng Yan, 2013 Network in network CoRR, abs/1312.4400 [17] Krizhevsky A., Sutskever I., Hinton G E., 2012 ImageNet classification with deep convolutional neural networks In: NIPS, vol [18] A Usha Ruby, Prasannavenkatesan Theerthagiri, I Jeena Jacob, Y Vamsidhar, 2020 Binary cross entropy with deep learning technique for Image Website: https://tapchikhcn.haui.edu.vn classification In: International Journal of Advanced Trends in Computer Science and Engineering, vol 9, No.4 [19] Florian Schroff, Dmitry Kalenichenko, James Philbin, 2015 FaceNet: A Unified Embedding for Face Recognition and Clustering arxiv 1503.03832 [20] Chauvin Y., D E Rumelhart, 1995 Backpropagation: Theory, Architectures and Applications Erlbaum, Mahwah, NJ., ISBN: 080581258X, pp: 561 [21] Raniah Zaheer, Humera Shaziya, 2019 A Study of the Optimization Algorithms in Deep Learning International Conference on Inventive System and Control (ICISC 2019), IEEE Xplore Part Number: CFP19J06-ART; ISBN:978-1-53863950-4 [22] Boser B E., Guyon I M., Vapnik V N., 1992 A training algorithm for optimal margin classifiers In D Haussler, editor, 5th Annual ACM Workshop on COLT, pp 144–152, Pittsburgh, PA ACM Press [23] Xue Ying, 2019 An Overview of Overfitting and Solutions IOP Conf.Series: Journal of Physics: Conf.Series 1168, 022022 AUTHORS INFORMATION Pham Viet Anh, Le Xuan Hai, Vuong Trung Hieu Hanoi University of Industry Vol 57 - No (Oct 2021) ● Journal of SCIENCE & TECHNOLOGY 55 ... phát triển, nhóm tác giả thực thử nghiệm xây dựng nên hệ thống nhận diện điểm danh khn mặt phịng lab mơ tính tốn hiệu cao Viện Cơng nghệ HaUI, Trường Đại học Công nghiệp Hà Nội Kết thể hình Hình... liệu ảnh lớn Trong báo này, nhóm nghiên cứu trình bày mơ hình Facenet cải tiến giúp nâng cao hiệu suất mơ hình để từ ứng dụng vào việc xây dựng hệ thống nhận diện khuôn mặt phục vụ việc quản lý,... độ xác cao [4-6] Mơ hình Facenet mắt vào năm 2015 ứng dụng vào hầu hết hệ thống nhận diện mang ưu điểm trội từ việc phát triển kiến trúc mạng Siamese kết hợp với việc sử dụng hàm mát linh hoạt

Ngày đăng: 10/12/2021, 10:49

Hình ảnh liên quan

Hình 1. Quá trình xác định khuôn mặt trên ảnh dựa trên phương pháp MTCNN - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Hình 1..

Quá trình xác định khuôn mặt trên ảnh dựa trên phương pháp MTCNN Xem tại trang 2 của tài liệu.
Khi xác định được vị trí khuôn mặt, hình ảnh gốc trên tập dữ liệu có kích thước là x pixels ×  y pixels sẽ được thực  hiện  bằng  cách  cắt  theo  vùng  khuôn  mặt  và  đưa  về  kích  thước 160 × 160 - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

hi.

xác định được vị trí khuôn mặt, hình ảnh gốc trên tập dữ liệu có kích thước là x pixels × y pixels sẽ được thực hiện bằng cách cắt theo vùng khuôn mặt và đưa về kích thước 160 × 160 Xem tại trang 2 của tài liệu.
Hình 4. Kết quả sử dụng phương pháp chuẩn hóa min-max cho ảnh - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Hình 4..

Kết quả sử dụng phương pháp chuẩn hóa min-max cho ảnh Xem tại trang 3 của tài liệu.
Hình 3. Tăng cường dữ liệu ảnh với kỹ thuật xoay ảnh - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Hình 3..

Tăng cường dữ liệu ảnh với kỹ thuật xoay ảnh Xem tại trang 3 của tài liệu.
Kỹ thuật xoay ảnh: Phép xoay ảnh sẽ xoay hình ảnh một cách ngẫu nhiên theo kim đồng hồ với một góc nhất định  từ trong khoảng 0 tới 360 độ - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

thu.

ật xoay ảnh: Phép xoay ảnh sẽ xoay hình ảnh một cách ngẫu nhiên theo kim đồng hồ với một góc nhất định từ trong khoảng 0 tới 360 độ Xem tại trang 3 của tài liệu.
Hình 6. Kiến trúc của mạng Siemese - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Hình 6..

Kiến trúc của mạng Siemese Xem tại trang 4 của tài liệu.
Như đã trình bày ở phần trên, mô hình Facenet có một ưu điểm là việc phát triển kiến trúc mạng Siamese kết hợp  với việc sử dụng một hàm mất mát linh hoạt để huấn luyện  trên  bộ  dữ  liệu  ảnh lớn.Số  lượng đầu  ra  của  mạng neural  tích chập trong (3.1 - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

h.

ư đã trình bày ở phần trên, mô hình Facenet có một ưu điểm là việc phát triển kiến trúc mạng Siamese kết hợp với việc sử dụng một hàm mất mát linh hoạt để huấn luyện trên bộ dữ liệu ảnh lớn.Số lượng đầu ra của mạng neural tích chập trong (3.1 Xem tại trang 4 của tài liệu.
Hình 7. Quá trình huấn luyện của Facenet [19] - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Hình 7..

Quá trình huấn luyện của Facenet [19] Xem tại trang 5 của tài liệu.
Bảng 4. Kết quả dự đoán dựa trên các phương pháp phân lớp vector - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Bảng 4..

Kết quả dự đoán dựa trên các phương pháp phân lớp vector Xem tại trang 6 của tài liệu.
Bảng 3. Quá trình huấn luyện với tốc độ học 0,01 - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Bảng 3..

Quá trình huấn luyện với tốc độ học 0,01 Xem tại trang 6 của tài liệu.
Bảng 2. Quá trình huấn luyện với tốc độ học 0,1 - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Bảng 2..

Quá trình huấn luyện với tốc độ học 0,1 Xem tại trang 6 của tài liệu.
Hình 9. Kết quả thử nghiệm được xây dựng trên hệ thống nhận diện - Ứng dụng mô hình Facenet trong việc xây dựng và phát triển hệ thống nhận diện khuôn mặt tại trường Đại học Công nghiệp Hà Nội

Hình 9..

Kết quả thử nghiệm được xây dựng trên hệ thống nhận diện Xem tại trang 6 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan