Nhận diện khuôn mặt sử dụng mạng nơron tích chập xếp chồng và mô hình facenet

7 15 0
Nhận diện khuôn mặt sử dụng mạng nơron tích chập xếp chồng và mô hình facenet

Đang tải... (xem toàn văn)

Thông tin tài liệu

KHOA HỌC CÔNG NGHỆ P-ISSN 1859-3585 E-ISSN 2615-9619 NHẬN DIỆN KHN MẶT SỬ DỤNG MẠNG NƠRON TÍCH CHẬP XẾP CHỒNG VÀ MƠ HÌNH FACENET A FACE RECOGNITION SYSTEM USING MULTI-TASK CASCADED CONVOLUTIONAL NETWORKS AND FACENET MODEL Trần Hồng Việt1,*, Đỗ Đình Tiến1, Nguyễn Thị Trà1, Trần Lâm Qn2 TĨM TẮT Mạng nơ-ron tích chập (CNN) mơ hình học sâu hiệu lĩnh vực nhận diện khn mặt, vùng hình ảnh khác ln sử dụng đồng thời trích xuất đặc trưng hình ảnh, thực tế, phần khn mặt đóng vai trị khác việc nhận diện Trong báo này, sử dụng mối tương quan phát hiệu chỉnh để nâng cao hiệu suất mạng nơ-ron tích chập xếp chồng (MTCNN) Ngồi ra, chúng tơi sử dụng framework FaceNet Google để tìm hiểu cách ánh xạ từ hình ảnh khn mặt đến khơng gian Euclide, nơi khoảng cách tương ứng trực tiếp với độ đo độ tương tự khn mặt để trích xuất hiệu suất thuật tốn đặc trưng khn mặt Thuật tốn gộp trung bình có trọng số áp dụng cho mạng FaceNet thuật tốn nhận dạng khn mặt dựa mơ hình FaceNet cải tiến đề xuất Thực nghiệm ứng dụng thử nghiệm cho thấy thuật toán nhận dạng khn mặt đề xuất có độ xác nhận dạng cao sử dụng phương pháp nhận dạng khuôn mặt dựa học sâu Từ khóa: Nhận diện khn mặt, học sâu, FaceNet, mạng nơ-ron tích chập, mạng nơ-ron tích chập xếp chồng ABSTRACT The convolutional neural networks (CNN) is one of the most successful deep learning model in the field of face recognition, the different image regions are always treated equally when extracting image features, but in fact different parts of the face play different roles in face recognition In this paper, we use the inherent correlation between detection and calibration to enhance their performance in a deep multitask cascaded convolutional neural network (MTCNN) In addition, we utilize Google’s FaceNet framework to learn a mapping from face images to a compact Euclidean space, where distances directly correspond to a measure of face similarity to extract the performance of facial feature algorithms The weighted average pooling algorithm is applied to the FaceNet network, and a face recognition algorithm based on the improved FaceNet model is proposed The experiments and apply system show that the proposed face recognition algorithm has high recognition accuracy using face recognition method based on deep learning Keywords: Face recognition, deep learning, faceNet, convolutional neural networks, multi-task cascaded convolutional neural network GIỚI THIỆU Mạng nơ-ron tích chập (CNN) [1, 2, 3] mô hình học sâu thành cơng lĩnh vực nhận dạng khn mặt, vùng hình ảnh khác ln sử dụng đồng thời trích xuất đặc trưng hình ảnh, thực tế, phần khác khn mặt đóng vai trị khác nhận diện khuôn mặt Mỗi khuôn mặt người có độc đáo nét đặc trưng riêng biệt Hình Q trình nhận dạng khn mặt (Nguồn: https://core.ac.uk/download/pdf/208977767.pdf) Hình mơ tả q trình nhận diện khn mặt Trường hợp ảnh đầu vào (image input) gồm khơng gian có chứa khn mặt người muốn định danh ta cần phát vùng ảnh chứa khn mặt người (face detection) Đây toán tập trung nghiên cứu [4, 5] Ảnh khn mặt tiền xử lý (cân chỉnh chẳng hạn - face alignment) nhằm đảm bảo chất lượng cho nhận diện Khn mặt người trích chọn biểu diễn thông qua véc-tơ đặc trưng (feature extraction) nhằm mô tả đặc điểm riêng biệt khn mặt người để so sánh với khuôn mặt khác Việc so sánh khuôn mặt đầu vào với sở liệu khuôn mặt lưu trữ (existing database) trở thành việc tính tốn mức độ gần véc-tơ đặc trưng (feature matching), từ tìm khn mặt giống sở liệu Khoa Công nghệ thông tin, Trường Đại học Kinh tế Kỹ thuật Công nghiệp Trung tâm ứng dụng khoa học hàng không, VietnamAirlines * Email: thviet79@gmail.com Ngày nhận bài: 12/4/2021 Ngày nhận sửa sau phản biện: 20/5/2021 Ngày chấp nhận đăng: 25/6/2021 64 Tạp chí KHOA HỌC VÀ CƠNG NGHỆ ● Tập 57 - Số (6/2021) Hình Các bước hệ thống nhận dạng khuôn mặt Website: https://tapchikhcn.haui.edu.vn SCIENCE - TECHNOLOGY P-ISSN 1859-3585 E-ISSN 2615-9619 Một hệ thống nhận diện mặt người thông thường bao gồm bốn bước xử lý sau: Phát khuôn mặt (Face Detection) Phân đoạn khn mặt (Face Alignment hay Segmentation) Trích chọn đặc trưng (Feature Extraction) Nhận diện (Recognition) hay Phân lớp khuôn mặt (Face Classification) Bên cạnh bước nêu trên, ta cịn áp dụng thêm số bước khác tiền xử lý, hậu xử lý nhằm làm tăng độ xác cho hệ thống Sau bước phát khn mặt, ta thực bước tiền xử lý (Preprocessing) bao gồm bước chỉnh ảnh (face image alignment) chuẩn hóa ánh sáng (illumination normalization) Do vài thông số như: tư khuôn mặt, độ sáng, điều kiện ánh sáng,… phát khn mặt đánh giá bước khó quan trọng so với bước lại hệ thống Trong nghiên cứu này, không tập trung tìm hiểu bước phát khn mặt mà tập trung chủ yếu vào bước nhận diện khuôn mặt qua việc đề xuất sử dụng phương pháp nhận diện khn mặt với mạng đa tích chập xếp chồng xây dựng ứng dụng nhận diện khuôn mặt cho đối tượng sinh viên cán giảng viên số liệu thu thập Cách tiếp cận chúng tơi sử dụng mơ hình đạt độ xác cao nhận diện khn mặt dựa mạng nơron tích chập với chế học sâu, kiểm tra mơ hình liệu mẫu thử nghiệm với tốn nhận diện khn mặt Bài báo cấu trúc gồm: Phần giới thiệu tốn nhận diện khn mặt; Phần trình bày nghiên cứu liên quan; Phần giới thiệu phương pháp đề xuất nêu bật số ưu điểm hạn chế; Phần thực nghiệm phân tích kết quả; Phần kết luận số định hướng nghiên cứu CÁC NGHIÊN CỨU LIÊN QUAN Hình Một minh họa kiến trúc dạng khối mơ hình CNN (Nguồn: Researchgate.net) Những năm gần đây, phát triển mạnh mẽ công nghệ học sâu (deep learning) với mạng nơron tích chập (convolutional neural network - CNN) ứng dụng thành công nhiều toán thực tế [3, 5] CNN cấu trúc mạng nơron nhân tạo gồm ba loại lớp nơron (hình 3): lớp nơron tích chập (convolution layer), lớp nơron gộp chung (pooling layer) lớp nơron kết nối đầy đủ (fully Website: https://tapchikhcn.haui.edu.vn connected layer) Hai lớp nơron đầu (tích chập gộp chung) thực vai trị trích chọn đặc trưng ảnh khuôn mặt, lớp thứ ba (kết nối đầy đủ) thực vai trò ánh xạ đặc trưng trích chọn thành đầu cuối cùng, tức định danh người nhận diện Lớp nơron tích chập đóng vai trị quan trọng CNN, bao gồm chồng phép toán tích chập, loại phép tuyến tính chuyên biệt Lớp nơron gộp chung đóng vai trị làm giảm số chiều khơng gian đặc trưng trích chọn (hay gọi subsampling) nhằm tăng tốc độ xử lý trình nhận diện Quá trình học mạng nơron điều chỉnh tham số học mạng (trainable parameters) gồm trọng số liên kết lớp nơron tích chập lớp nơron kết nối đầy đủ Thuật tốn học điển hình mạng nơron dạng lan truyền ngược sai số với mục tiêu giảm thiểu sai số kết nhận diện mạng Ngoài ra, mạng cịn có tham số cần phải thiết lập trước áp dụng kích thước nhân phép tích chập, độ trượt phép tích chập, hàm kích hoạt, phương pháp tính lớp nơron gộp chung tham số mạng Nhiều nghiên cứu ứng dụng CNN nhận diện khuôn mặt với cải tiến ngày hiệu chất lượng cao hơn, ứng dụng đa dạng vào toán thực tế Nghiên cứu [6] phân tích tính hiệu CNN so với phương pháp nhận diện gồm: phân tích thành phần (PCA), mơ hình biểu đồ mẫu nhị phân cục (LBPH) láng giềng gần (KNN) Thử nghiệm sở liệu ORL cho thấy LBPH đạt kết tốt PCA KNN, CNN đề xuất cho độ xác nhận diện tốt (98,3% so với ba phương pháp chưa đến 90%) Qua phần khẳng định phương pháp dựa CNN hiệu phương pháp khác Nghiên cứu [7] phân tích đánh giá với kiến trúc CNN cải tiến khác cho nhận diện khuôn mặt Thứ kiến trúc chứa 22 lớp nơron với 140 triệu tham số học cần 1,6 tỷ FLOPS (floating-point operations per second) cho ảnh Dạng kiến trúc thứ hai dựa mơ hình mạng Interception GoogleNet gồm phiên với kích thước đầu vào khác nhằm làm giảm không gian tham số học mạng Các kiến trúc ứng dụng vào phạm vi khác nhau, kiến trúc CNN có kích thước lớn cho kết cao phù hợp với ứng dụng máy tính lớn với CNN nhỏ nhỏ phù hợp với ứng dụng thiết bị di động cầm tay đảm bảo kết chấp nhận Nhằm tăng hiệu cao hơn, nghiên cứu [8] đề xuất kiến trúc CNN với quy mô “rất sâu” gồm 11 khối với 37 lớp nơron, khối đầu đóng vai trị trích chọn đặc trưng khối sau thực chức phân lớp để nhận diện Kiến trúc CNN chạy quy mô liệu học mạng lớn (LFW YTF với hàng nghìn định danh hàng triệu ảnh) cho kết (98,95% LFW 97,3% YTF) tốt so với mơ hình CNN khác Nghiên cứu [4, 14] đề xuất hệ thống mạng nơron tích chập cho nhận diện khn mặt với cải tiến dựa kiến trúc CNN VGG (Visual Geometry Group - Vol 57 - No (June 2021) ● Journal of SCIENCE & TECHNOLOGY 65 KHOA HỌC CƠNG NGHỆ P-ISSN 1859-3585 E-ISSN 2615-9619 University of Oxford) Đó sử dụng mơ-đun CReLu (hàm kích hoạt nơron) thay cho mơ-đun hàm kích hoạt (ReLu) thơng thường, mơ-đun CReLu thực ghép nối ReLu chọn phần dương với ReLu chọn phần âm kích hoạt Ở điểm gấp đơi mức độ phi tuyến hàm kích hoạt CNN xác định cho chất lượng kết tốt Dựa mơ hình đề xuất này, xây dựng hệ thống nhận diện khuôn mặt theo thời gian thực với mạng nơron tích chập nhiều lớp (“rất sâu”) phân tích thử nghiệm cho kết tốt so với kết thu sử dụng mơ hình ban đầu P-Net (Proposal Network) nhằm dự đốn vùng ảnh ví dụ vùng chứa khn mặt, mạng tinh chế R-Net (Refine Network) sử dụng đầu P-Net để loại bỏ vùng khuôn mặt mạng đầu (Output Network): sử dụng đầu R-Net để đưa kết cuối với điểm đánh dấu khuôn mặt: điểm mắt, điểm mũi điểm khóe miệng Facenet sản phẩm nghiên cứu Google giới thiệu năm 2015, với model đầu vào ảnh kích thước cho đầu vector 128 features cho khn mặt Sau dùng SVM để phân nhóm vector vào nhóm để biết véc-tơ mặt Nghiên cứu [8] cải tiến chất lượng nhận diện cho mơ hình dựa CNN cách áp dụng phương pháp học mạng nơron với kỹ thuật “triplet loss” Một số nghiên cứu khác tập trung vào vấn đề nhận diện biểu cảm khuôn mặt với kỹ thuật đề xuất Nghiên cứu [9] sử dụng mơ hình CNN để thiết kế hệ thống nhận diện loại biểu cảm khuôn mặt khác với việc đưa vào tiền xử lý hình ảnh trước nhận diện Nghiên cứu [10] sử dụng kết hợp mô hình nhị phân cục (LBP) mơ hình CNN để nhận diện biểu cảm khn mặt Theo đó, hình ảnh khuôn mặt chuyển thành đồ đặc trưng LBP, sau đồ đặc trưng LBP sử dụng làm đầu vào CNN để huấn luyện mạng nhận diện Hình Kiến trúc dạng khối mơ hình MTCNN (Nguồn: https://tinhte.vn/ thread/mi-ai-nhan-dien-khuon-mat-trong-video-bang-mtcnn-va-facenet.3013864/) PHƯƠNG PHÁP ĐỀ XUẤT 3.2 Trích chọn đặc trưng (FaceNet) Trong phần này, chúng tơi thiết kế mơ hình nhận diện khuôn mặt tập trung chủ yếu vào bước nhận diện khuôn mặt qua việc đề xuất sử dụng phương pháp nhận diện khn mặt với mạng đa tích chập xếp chồng sử dụng mơ hình Facenet mơ hình VGG16 Facenet hệ thống nhúng cho việc nhận dạng phân cụm khuôn mặt đề xuất nhóm tác giả làm việc Google[13] dựa việc nhúng ảnh vào không gian Euclide cách sử dụng mạng CNN Thuật tốn nhận diện khn mặt trước facenet tìm cách biểu diễn khn mặt vector embedding (là vector chuyển liệu chữ viết thô thành liệu số thực) thông qua layer bottleneck (nút thắt cổ chai có tác dụng giảm chiều liệu Trong facenet, trình encoding mạng convolutional neural network giúp ta mã hóa ảnh 128 chiều Sau vector làm đầu vào cho hàm loss function đánh giá khoảng cách vector Để áp dụng triple loss, trình học thực với ba mẫu học gồm, hình ảnh người cụ thể (gọi ảnh neo - anchor), ảnh khác người với ảnh (gọi ảnh dương - positive) hình ảnh người khác (gọi ảnh âm - negative) Mục tiêu học mạng nơron (điều chỉnh trọng số mạng) cho phản hồi mạng nơron với cặp mẫu gần 3.1 Tiền xử lý ảnh đầu vào Phần áp dụng số phương pháp tiền xử lý hình ảnh đầu vào, bao gồm phát cắt xén để lấy vùng ảnh chứa khuôn mặt, cải thiện chất lượng ảnh Trong thực tế ứng dụng, ảnh đầu vào thường trích xuất từ camera nên bao gồm khơng gian nền, đó, ta phải thực giai đoạn tìm kiếm phát khn mặt (gọi face detection) nhằm xác định vùng ảnh chứa khuôn mặt cần xử lý cắt bỏ không gian ảnh Để thực điều này, tác giả sử dụng phương pháp phát vùng ảnh có chứa khn mặt dựa vào MTCNN Khi ảnh khn mặt phát hiện, thực cắt vùng ảnh khuôn mặt từ nền, cải thiện chất lượng ảnh khn mặt việc chuyển đổi hình ảnh đầu vào thành hình ảnh đa cấp độ xám áp dụng phép cân mức xám, co giãn kích thước với đầu vào mạng nơron thiết kế để thực trích chọn đặc trưng phân lớp MTCNN (Multi-task Cascaded Convolutional Networks) gồm mạng CNN (Convolution, Relu, Max Pooling, Fully Connected Layers) xếp chồng đồng thời hoạt động detect khuôn mặt Kiến trúc MTCNN thể hình Mỗi mạng có cấu trúc khác đảm nhiệm vai trò khác task MTCNN hoạt động theo ba bước, bước dùng mạng noron riêng là: mạng đề xuất 66 Tạp chí KHOA HỌC VÀ CƠNG NGHỆ ● Tập 57 - Số (6/2021) Hàm triplet loss lấy ảnh làm input trường hợp kì vọng: d(A, P) < d(A, N) (1) Để làm cho khoảng cách vế trái vế phải lớn hơn, ta cộng thêm vào vế trái hệ số α khơng âm nhỏ Khi (1) trở thành: d(A, P) + α ≤ d(A, N) → ‖f(A) − f(P)‖ + α ≤ ‖f(A) − f(N)‖ → ‖f(A) − f(P)‖ − ‖f(A) − f(N)‖ + α ≤ Website: https://tapchikhcn.haui.edu.vn SCIENCE - TECHNOLOGY P-ISSN 1859-3585 E-ISSN 2615-9619 Như hàm loss function là: ℒ(A, P, N) = ∑ ‖f(A) − f(P)‖ − ‖f(A) − f(N)‖ + α (2) Trong n số lượng hình ảnh đưa vào huấn luyện Mục tiêu hàm loss function tối thiểu hóa khoảng cách ảnh chúng negative tối đa hóa khoảng cách chúng positive Hình Sai số ba tối thiểu hóa khoảng cách ảnh (Anchor) ảnh (Positive) tối đa hóa khoảng cách ảnh (Anchor) ảnh (Negative) Do để loại bỏ ảnh hưởng trường hợp nhận diện Negative Positive lên hàm loss function Ta điều chỉnh giá trị đóng góp vào hàm loss function Tức nếu: ‖f(A) − f(P)‖ − ‖f(A) − f(N)‖ + α ≤ (3) điều chỉnh Khi hàm loss function trở thành: ℒ(A, P, N) = ∑ max (‖f(A ) − f(P )‖ − ‖f(A ) − f(N )‖ + α, 0) (4) Như áp dụng Triple loss vào mơ hình convolutional neural network ta tạo biểu diễn vector tốt cho ảnh Những biểu diễn véctơ phân biệt tốt ảnh Negative giống ảnh Positive Và đồng thời ảnh thuộc label trở nên gần không gian chiếu Euclidean 3.3 Nhận dạng phân lớp (VGG16) vị trí phát đối tượng vị trí haivề phân loại ảnh thi ILSVRC 2014., sau train mạng VGG16 đạt độ xác cao nằm top-5 test liệu ImageNet gồm 14 triệu hình ảnh thuộc 1000 lớp khác Kiến trúc VGG16 mô tả hình Kiến trúc bao gồm 13 lớp tích chập, lớp max-pooling lớp kết nối đầy đủ Số lớp có tham số điều chỉnh 16 (13 lớp tích chập lớp kết nối đầy đủ) Số lượng lọc khối 64, số nhân đôi khối đạt 512 Mơ hình hồn thiện hai lớp ẩn kết nối đầy đủ lớp đầu Hai lớp kết nối đầy đủ có số nơ-ron 4096 Lớp đầu bao gồm 1000 nơ-ron tương ứng với số loại tập liệu Imagenet Trong bước nhận dạng hay phân lớp tức xác định danh tính (identity) hay nhãn ảnh (label) - ảnh ai, bước nhận dạng/phân lớp, sử dụng phương pháp VGG16 VGG16 tiến hành phân lớp ảnh tập huấn luyện, đưa ảnh vào nhận dạng so sánh, tìm ảnh thuộc vào lớp Thực nghiệm liệu cộng đồng đánh giá sử dụng (trong phần 4.1) Từ xây dựng ứng dụng nhận diện khuôn mặt cho đối tượng sinh viên cán giảng viên số liệu thu thập Cách tiếp cận sử dụng mơ hình đạt độ xác cao hiệu việc nhận diện khuôn mặt Để kết hợp phương pháp nhận dạng khuôn mặt nhằm đạt hiệu cao, phương pháp đề xuất, đưa phương pháp phát khn mặt (MTCNN), trích chọn đặc trưng (FaceNet), phân lớp nhận diện khuôn mặt (VGG16) THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Mô tả liệu Bộ liệu ngồi có liệu mẫu AT&T Yale công bố sử dụng rộng rãi cho tốn nhận diện khn mặt [6, 16, 17] gồm có thêm liệu thu thập thêm gồm ảnh 15 sinh viên, 36 giảng viên khoa CNTT 455 giảng viên Trường Đại học Kinh tế Kỹ thuật Cơng nghiệp Hà Nội Hình Các ảnh đối tượng “s1” liệu AT&T Hình Kiến trúc VGG16 (Nguồn: https://nttuan8.com/bai-6convolutional-neural-network) VGG16 mạng CNN đề xuất K Simonyan and A Zisserman, University of Oxford [13] Mơ hình giành Website: https://tapchikhcn.haui.edu.vn Hình Ảnh người liệu AT&T Bộ liệu khuôn mặt AT&T (hay gọi liệu ORL) tạo Phòng thí nghiệm AT&T thuộc Đại học Vol 57 - No (June 2021) ● Journal of SCIENCE & TECHNOLOGY 67 KHOA HỌC CÔNG NGHỆ Cambridge, năm 2002 Dữ liệu gồm 400 hình ảnh 40 người với 10 biểu cảm khuôn mặt khác cho người, biểu cảm tương ứng hình ảnh Tất hình ảnh chụp đồng tối màu với đối tượng tư thẳng đứng, chụp từ phía trước số trường hợp có nghiêng sang trái phải, lên xuống Ảnh khuôn mặt người quan sát được, tức không bị che đặc trưng liên quan Tất hình ảnh ảnh đa mức xám với kích thước 112(cao) × 92(rộng) pixel Hình 7, minh hoạ hình ảnh với trạng thái khác người tập liệu Bộ liệu khuôn mặt Yale tạo Trung tâm điều khiển thị giác máy tính Đại học Yale, New Haven Tập liệu gồm 165 hình ảnh khn mặt chụp từ phía trước dạng đa cấp xám 15 người khác Có 11 hình ảnh cho người mô tả biểu cảm khuôn mặt điều kiện khác ánh sáng (ánh sáng phía bên phải, ánh sáng trung tâm ánh sáng phía bên trái), trạng thái nét mặt (bình thường, buồn, vui, ngạc nhiên, buồn ngủ nháy mắt), gồm ảnh có đeo kính khơng đeo kính Kích thước tệp tin hình ảnh tất 243(cao) × 320(rộng) Hình 9, 10 minh hoạ hình ảnh với độ sáng, trạng thái khác người tập liệu Tập liệu ORL Yale chia làm tập tập luyện (processed) tập thử nghiệm (raw) nhận diện thơng qua ảnh Các tập liệu cịn lại chia làm tập ORL Yale theo tỷ lệ tập thử nghiệm tập luyện nhận diện thơng qua webcam Hình Một phần tập thử nghiệm tập liệu ORL P-ISSN 1859-3585 E-ISSN 2615-9619 ảnh đối tượng tư đứng, chụp từ phía trước số trường hợp có nghiêng sang trái phải, lên xuống dưới, độ tương phản, ánh sáng khác nhau, gồm ảnh có đeo kính khơng đeo kính, có mũ khơng mũ Ảnh khn mặt người quan sát được, tức không bị che đặc trưng liên quan Hình 11 đưa minh họa phần tập ảnh huấn luyện (processed) sau tìm cắt khn mặt Hình 11 Minh họa phần ảnh huấn luyện Hình 12 đưa mẫu tập ảnh thử nghiệm (raw) Hình 12 Minh họa ảnh thử nghiệm ban đầu 4.2 Kết thử nghiệm Quá trình thử nghiệm thực hệ thống máy chủ với cấu hình xử lý GPU, giới nhớ 16Gb RAM 16Gb GPU Hệ thống cài đặt môi trường Python, frameworks thư viện cho học máy (machine learning) numpy, matplotlib, tensorflow, keras, thuận lợi cho việc tổ chức liệu phục vụ chạy thử nghiệm lưu trữ kết Theo đó, chương trình thử nghiệm chúng tơi xây dựng môi trường Python sử dụng frameworks tensorflow với giao diện thư viện keras, thư viện cung cấp tính mạnh mẽ cho xử lý ảnh cho mơ hình Neural network Kết liệu AT&T Yale so sánh phương pháp, trình bày bảng Để so sánh mơ hình tơi sử dụng phương pháp CNN làm tiêu chuẩn phương pháp cho tỉ lệ accuracy đạt 95% Đề xuất ban đầu dùng phương pháp MTCNN, FaceNet sử dụng SVM để phân lớp nhiên tỷ lệ đạt 95,1% tương đương với CNN Chúng đưa đề xuất cải tiến dùng phương pháp thay sử dụng SVM chúng tơi sử dụng VGG16 phương pháp cho kết tốt đạt 97,0% cao so với hai phương pháp trước Bảng Kết thử nghiệm mơ hình tập liệu Yale, AT&T Phương pháp CNN MTCNN, FaceNet sử dụng SVM (*) MTCNN, FaceNet sử dụng VGG16 (**) Hình 10 Các ảnh đối tượng “subject01” liệu Yale (Nguồn:https://colab.research.google.com/drive/1OTSK9mJdtpuzArCTsEKh5eIq5 OmOyq2o) Bộ liệu thu thập để chạy ứng dụng gồm 15 sinh viên, 36 giảng viên khoa CNTT 455 cán giảng viên khác trường Đại học Kinh tế Kỹ thuật Công nghiệp Dữ liệu gồm 68 Tạp chí KHOA HỌC VÀ CƠNG NGHỆ ● Tập 57 - Số (6/2021) Tỉ lệ train model 95,0% 95,1% 97,0% Kết trình huấn luyện VGG16 hai tập liệu AT&T Yale thể hình 13 Đồ thị thể tỉ lệ huấn luyện liệu sử dụng VGG16 tập AT&T Yale Kết thể hiệu số epoch độ xác q trình huấn luyện Đây kết 10 lần chạy thử nghiệm Kết hai tập liệu cho kết độ xác phân lớp (accuracy) tốt Website: https://tapchikhcn.haui.edu.vn SCIENCE - TECHNOLOGY P-ISSN 1859-3585 E-ISSN 2615-9619 Từ kết trên, xây dựng ứng dụng cho việc nhận diện khuôn mặt cho liệu thu thập sinh viên cán giảng viên mô tả mục 4.1 Ứng dụng thực PyCharm Community Edition, sử dụng Python 3.7 virtualenv Hình 13 Đồ thị tỉ lệ huấn luyện liệu sử dụng VGG16 tập AT&T, Yale Hình 14 Minh họa ứng dụng liệu cán giảng viên Khoa Công nghệ thông tin Website: https://tapchikhcn.haui.edu.vn KẾT LUẬN Trong báo này, đề xuất mơ hình dựa mạng nơron tích chập xếp chồng (MTCNN) để nhận diện khn mặt người Mơ hình bao gồm mạng CNN xếp chồng đồng thời hoạt động detect khn mặt Mỗi mạng có cấu trúc khác đảm nhiệm vai trò khác task Đầu mơ hình vị trí khn mặt điểm mặt như: mắt, mũi, miệng Trong mơ hình phát khn mặt MTCNN, trích xuất đặc trưng Facenet dùng SVM để phân lớp nhận diện mặt Bên cạnh chúng tơi cải tiến MTCNN, trích xuất đặc trưng Facenet kết hợp việc phân lớp mơ hình VGG16 Giải pháp có nhiều ưu điểm như: nhận diện mặt nhiều góc khác nhau, khơng cần nhìn thẳng, nhận diện xác hơn, trích xuất nhiều đặc trưng khuôn mặt Chúng tiến hành thực nghiệm MTCNN sử dụng mơ hình Facenet MTCNN sử dụng mơ hình VGG16 để so sánh độ xác Các mơ hình đảm bảo độ xác cao việc nhận diện mặt nhiều góc độ đảm bảo đầu đặc trưng khuôn mặt Dựa mơ hình chúng tơi tiến hành xây dựng ứng dụng nhận diện khuôn mặt với tập liệu cán giảng viên sinh viên Thời gian tới, nghiên cứu cải thiện hiệu phân lớp mơ hình đạt kết cao AlexNet, VGG, Inception [17, 18, 19] , phân tích điều chỉnh số lớp CONV lớp nơron Bên cạnh đó, chúng tơi thiết kế hệ thống thu thập liệu hình ảnh để tạo liệu huấn luyện cho mơ hình Việc xây dựng ứng dụng nhận diện khuôn mặt cho đối tượng sinh viên, giảng viên bước đầu đạt kết tốt có tính thực tiễn cao Đây sở chúng tơi phát triển tiếp xây dựng ứng dụng cho toán thực tiễn hệ thống điểm danh khuôn mặt sinh viên lớp học, hệ thống nhận diện cán quan, hệ thống chấm công, hệ thống nhận diện cư dân… TÀI LIỆU THAM KHẢO [1] Jing C., Song T., Zhuang L., Liu G., Wang L., Liu K., 2018 A survey of face recognition technology based on deep convolutional neural networks Comput Appl Softw 35(1), 223-231 https://doi.org/10.3969/j.issn.1000386x.2018.01.039 [2] Mao Y., 2017 Research on Face Recognition Algorithms Based on Deep Neural Networks Master, Zhejiang University [3] Y LeCun, Y Bengio, 1995 Convolutional networks for images, speech, and time-series In M A Arbib, editor, The Handbook of Brain Theory and Neural Networks MIT Press [4] Lionel Landry S De o, Elie T Fute, Emmanuel Tonye, 2018 CNNSFR: A Convolutional Neural Network System for Face Detection and Recognition International Journal of Advanced Computer Science and Applications, Vol 9, No 12, pp.240-244 [5] Mei Wang, Weihong Deng, 2021 Deep face recognition: A survey Neuro computing Volume 429, Pages 215-244 https://doi.org/10.1016/j.neucom.2020.10.081 Vol 57 - No (June 2021) ● Journal of SCIENCE & TECHNOLOGY 69 KHOA HỌC CÔNG NGHỆ P-ISSN 1859-3585 E-ISSN 2615-9619 [6] Patrik Kamencay, Miroslav Benco, Tomas Mizdos, Roman Radil, 2017 A New Method for Face Recognition Using Convolutional Neural Network Digital Image Processing and Computer Graphics, Vol 15, No 4, pp.663-672 [7] James Philbin, Florian Schro, Dmitry Kalenichenko, 2015 FaceNet: A Unified Embedding for Face Recognition and Clustering IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [8] Omkar M Parkhi, Andrea Vedaldi, Andrew Zisserman, 2015 Deep Face Recognition University of Oxford [9] Kevin Santoso, Gede Putra Kusuma, Kevin Santoso, Gede Putra Kusuma, 2018 Face Recognition Using Modified OpenFace 3rd International Conference on Computer Science and Computational Intelligence, Procedia Computer Science, No.135, pp.510–517 [10] Sonali Sawardekar, Sowmiya Raksha Naik, 2018 Facial Expression Recognition using Efficient LBP and CNN International Research Journal of Engineering and Technology (IRJET), e-ISSN: 2395-0056, Volume: 05, Issue: 06, p-ISSN: 2395-0072, pp.2273-2277 [11] Andre Teixeira Lopes, Edilson de Aguiar, Thiago Oliveira-Santos, 2015 A Facial Expression Recognition System Using Convolutional Networks 28th SIBGRAPI on Conference Graphics, Patterns and Images [12] Ekberjan Derman and Albert Ali Salah, 2018 Continuous Real-Time Vehicle Driver Authentication Using Convolutional Neural Network Based Face Recognition 13th IEEE International Conference on Automatic Face & Gesture Recognition [13] F Schroff, D Kalenichenko, J Philbin, 2015 FaceNet: A unified embedding for face recognition and clustering 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 815-823, doi: 10.1109/CVPR.2015.7298682 [14] K Simonyan, Andrew Zisserman, 2015 Very Deep Convolutional Networks for Large-Scale Image Recognition In Journal CoRR, volume abs/1409.1556 [15] Hoda Mohammadzade, Amirhossein Sayyafan, Benyamin Ghojogh, 2018 Pixel-Level Alignment of Facial Images for High Accuracy Recognition Using Ensemble of Patches Journal of the Optical Society of America A 35(7) [16] M A Abuzneid, A Mahmood, 2018 Enhanced Human Face Recognition Using LBPH Descriptor, Multi-KNN, and BPNN IEEE Access, Vol 6, pp.2064120651 [17] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, 2012 Imagenet classification with deep convolutional neural networks In F.Pereira, C J C Burges, L Bottou, and K Q Weinberger, editors, Advances in Neural Information Processing Systems 25, pages 1097–1105 Curran Associates, Inc [18] Karen Simonyan, Andrew Zisserman, 2014 Very Deep Convolutional Networks for Large-Scale Image Recognition arXiv e-prints, page arXiv:1409.1556 [19] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott E Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, 2015 Going deeper with convolutions 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–9 AUTHORS INFORMATION Tran Hong Viet1, Do Dinh Tien1, Nguyen Thi Tra1, Tran Lam Quan2 Faculty of Information Technology, University of Economics - Technical for Industries Center of Aviation Science Application, VietnamAirlines 70 Tạp chí KHOA HỌC VÀ CƠNG NGHỆ ● Tập 57 - Số (6/2021) Website: https://tapchikhcn.haui.edu.vn ... mơ hình nhận diện khuôn mặt tập trung chủ yếu vào bước nhận diện khuôn mặt qua việc đề xuất sử dụng phương pháp nhận diện khn mặt với mạng đa tích chập xếp chồng sử dụng mơ hình Facenet mơ hình. .. sử dụng phương pháp nhận diện khn mặt với mạng đa tích chập xếp chồng xây dựng ứng dụng nhận diện khuôn mặt cho đối tượng sinh viên cán giảng viên số liệu thu thập Cách tiếp cận sử dụng mô hình. .. tích chập xếp chồng (MTCNN) để nhận diện khuôn mặt người Mô hình bao gồm mạng CNN xếp chồng đồng thời hoạt động detect khuôn mặt Mỗi mạng có cấu trúc khác đảm nhiệm vai trị khác task Đầu mơ hình

Ngày đăng: 27/02/2023, 08:28

Tài liệu cùng người dùng

Tài liệu liên quan