Từ mơ hình cấu trúc huấn luyện trên từ ảnh vào, lấy khn mặt, sau đó chỉnh chính diện dựa vào mơ hình 3D (Frontalization), tiếp theo là các lớp lọc Tích chập (C1) – Pooling (M2) – Tích chập (C3), sau đó là 3 lớp Liên thơng Địa phƣơng (L4 – L6) và 2 lớp Liên thông Đầy đủ (F7 – F8). Mạng có hơn 120 ngàn tham số với 95% tập trung ở Liên thông Địa phƣơng và Liên thông Đầy đủ.
Ƣu điểm của phƣơng pháp DeepFace DeepFace là một trong những thuật tốn nhận dạng khn mặt có độ chính xác thuộc dạng “top performing”.
Nhƣợc điểm của phƣơng pháp DeepFace huấn luyện với bộ dữ liệu riêng, bao gồm hàng triệu ảnh truyền thơng, xã hội có kích thƣớc lớn hơn các bộ dữ liệu
hiện hữu trong nghiên cứu học thuật, vì vậy tốc độ chậm hơn nhiều so với các phƣơng pháp khác. Mơ hình nhận diện khn này chƣa đƣợc facebook công bố mã nguồn mở, mà chỉ công bố bài báo khoa học cho nên việc nghiên cứu và sử dụng nó để thực hiện điểm danh tạm thời chƣa đầy đủ. Tuy nhiên để sử dụng đƣợc mơ hình này thì cần cấu hình máy tính cực tốt để có thể thực hiện điểm danh đƣợc [9].
Vì vậy, để nghiên cứu hệ thống nhận dạng khuôn mặt với quy mô lớn hơn, luận văn sẽ giới thiệu về hệ thống nhận diện sử dụng thƣ viện Arc-Face. Bản chất của quá trình nhận dạng là đƣa các dữ liệu đã đƣợc xử lý qua các hàm để phân lớp đối tƣợng. Thách thức lớn nhất trong q trình này là thiết kế đƣợc hàm thích hợp để nâng cao khả năng phân biệt giữa các lớp. Để thực hiện nhiệm vụ này, hệ thống nhận dạng khuôn mặt sẽ sử dụng thƣ viện Arc-Face, phƣơng pháp này có tốc độ xử lý rất tốt theo thực nghiệm kiểm định và nhóm tác giả cơng bố thì phƣơng pháp này kiểm định trên bộ dữ liệu Dữ liệu công khai Labeled Faces in the Wild (LWF) trên thế giới Bộ dữ liệu bao gồm 13.332 bức ảnh gƣơng mặt của 5.749 ngƣời nổi tiếng, trong đó có 1.680 ngƣời có hai hoặc nhiều bức ảnh. Thì phƣơng pháp này có thể nhận đúng 99,38%. Phƣơng pháp này còn thƣờng xuyên c ậ p nh ậ t và phát tri ể n, tháng 8 năm 2019 phƣơng pháp này đã xế p th ứ 2 ở cuộc thi nh ậ n d ạ ng khuôn m ặ t
WIDER Face Detection Challenge 2019 . Tháng 4 Năm 2020 pre -train model c ủ a
Arc-Face đƣợc ch ọ n là pre-train model ngoài duy nh ấ t c ủ a cu ộc thi iQIYI iCartoonFace challenge. Tháng 9 năm 2020 phƣơng pháp này đã thự c hi ệ n ki ể m định với b ộ dữ liệ u l ớn (360.000 ids) đạt đƣợc độ chính xác 99,1% ...
Chƣơng 4 GIẢI PHÁP NHẬN DẠNG KHUÔN MẶT 4.1 Đề xuất giải pháp tổng thể
Nhƣ đã trình bày ở trên, có rất nhiều giải pháp cũng nhƣ hƣớng tiếp cận khác nhau đã đƣợc đƣa ra để giải quyết bài tốn nhận dạng khn mặt. Từ những điểm tồn tại của các phƣơng pháp đã đƣợc đƣa ra, trong giới hạn nghiên cứu luận văn đề xuất phƣơng pháp nhận dạng tối ƣu cho bài tốn nhận dạng khn mặt. Giải pháp đƣợc đề xuất gồm hai nội dung chính Phát hiện và xác định khuôn mặt sử dụng MTCNN và Nhận dạng khuôn mặt bằng Arc-Face.
4.2 Phát hiện và căn chỉnh khuôn mặt sử dụng MTCNN4.2.1 Giới thiệu về mạng Nơ - ron tích chập 4.2.1 Giới thiệu về mạng Nơ - ron tích chập
Để dạy thuật tốn nh ậ n di ện đối tƣợng trong hình ả nh, ta s ử dụng một lo ạ i mạng Nơ -ron nhân t ạ o (Artificial Neural Network – ANN) là mạng Nơron Tích chậ p (Convolutional Neural Networks – CNNs hay Convnets). Tên c ủa nó đƣợc dự a trên phép tính quan tr ọng đƣợc sử d ụ ng trong mạng đó là Tích chập. Đây là một trong nh ữ ng mơ hình Deep Learning tiên ti ế n giúp chúng ta xây d ựng đƣợc hệ thống thơng minh tiên với độ chính xác cao nhƣ ngày nay.
4.2.1.1 Convolution (Tí ch chập)
Trong tốn h ọ c và đặ c bi ệ t là trong giả i tích hàm, tích ch ậ p là 1 phép toán thự c hi ện đố i v ớ i 2 hàm s ố f và g, k ế t qu ả cho ra 1 hàm s ố thứ 3. Phép tích ch ậ p khác v ớ i tƣơng quan chéo ở chỗ nó c ầ n lậ t kernel theo chi ề u ngang và d ọc trƣớc khi tính t ổng c ủa tích. Nó đƣợc ứ ng d ụng trong xác su ấ t, th ống kê, thị giác máy
tính (computer vision), xử lý ả nh, xử lý tín hi ệ u, k ỹ thu ật điệ n, học máy, và
các phƣơng trình vi phân . Tích ch ậ p c ủ a hàm s ố f và g đƣợc vi ế t là f*g, là m ột bi ến đổi tích phân đặ c biệ t def ∞ ( f * g )(t ) = −∞ f (τ ) g (t −τ )dτ = ∞∫ −∞ f (t − τ ) g (τ )dτ (2-1)
Một cách tổng quát, nếu f và g là hàm số phức trong khơng gian Rd, thì tích chập của chúng đƣợc định nghĩa nhƣ sau
( f * g)(x) = ∫ f ( y)g(x − y)dy = ∫ f (x − y)g( y)dy (2-2)