Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

20 172 1
Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết này đề xuất một thiết kế mô hình mạng nơron CNN với độ phức tạp vừa phải nhưng vẫn đảm bảo chất lượng và hiệu quả phân lớp. Các thử nghiệm đánh giá mô hình trên hai tập dữ liệu khá thông dụng là AT&T và Yale đã cho những kết quả khả quan và tiềm năng ứng dụng.

Nghiên trao ● Research-Exchange of 58 opinion Tạp chí cứu Khoa họcđổi - Viện Đại học Mở Hà Nội (08/2019) 1-20 MỘT PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT DỰA TRÊN MẠNG NƠRON TÍCH CHẬP A FACE RECOGNITION METHOD USING CONVOLUTIONAL NEURAL NETWORK Dương Thăng Long*, Bùi Thế Hùng† Ngày tòa soạn nhận báo: 4/02/2019 Ngày nhận kết phản biện đánh giá: 5/8/2019 Ngày báo duyệt đăng: 26/8/2019 Tóm tắt: Các nghiên cứu phương pháp xử lý ảnh nhận dạng khuôn mặt quan tâm nhiều tác giả, đó, mơ hình dựa cơng nghệ mạng nơron học sâu (hay cịn gọi mạng nơron tích chập, CNN) đề cập nhiều báo cho kết tốt Hơn nữa, mơ hình đem lại ứng dụng thành công thực tiễn ứng dụng phát nhận dạng khuôn mặt ảnh người dùng Facebook với công nghệ DeepFace Bài báo đề xuất thiết kế mơ hình mạng nơron CNN với độ phức tạp vừa phải đảm bảo chất lượng hiệu phân lớp Các thử nghiệm đánh giá mơ hình hai tập liệu thông dụng AT&T Yale cho kết khả quan tiềm ứng dụng Từ khóa: Mạng nơron tích chập, nhận dạng khn mặt, kết quả, tiềm ứng dụng Abstract: Studies on image processing and facial recognition methods are of interest to many authors, in which models based on deep neural network technology (also known as convolutional neural networks, CNN) are mentioned in many articles with good results Moreover, this model has brought successful practical applications such as applications in detecting and identifying faces on Facebook users’ photos with DeepFace technology This paper proposes a design of CNN neural network model with moderate complexity but still ensures the quality and efficiency of classification Tests of model evaluation on two popular data sets, AT&T and Yale, have given positive results and potential applications Keywords: Convolutional neural networks, face recognition, results, potential applications * Trường Đại học Mở Hà Nội † Viện Khoa học công nghệ Quân Nghiên cứu trao đổi ● Research-Exchange of opinion Đặt vấn đề Khoa học công nghệ phát triển thúc đẩy ứng dụng vào lĩnh vực thực tiễn sâu rộng, đặc biệt cơng nghệ nhận dạng dựa hình ảnh phương pháp sinh trắc học ứng dụng định danh cá nhân người dùng hệ thống Theo [Gui17], việc sử dụng sinh trắc học để định danh phương pháp tự động nhận biết định danh cá nhân với sở đặc điểm sinh học hành vi Công nghệ sinh trắc học khơng cần đến khóa, thẻ, mật thiết bị khác người dùng Đây trình tương tự trình mà người thường nhận dạng người khác khía cạnh thể chất, giọng nói họ cách họ bộ, v.v Trong số phương pháp sinh trắc học yêu cầu hành động từ người dùng, phương pháp nhận dạng khn mặt sử dụng cách thụ động, tức hệ thống tự động nhận dạng xác định danh tính dựa khn mặt chụp tự động từ thiết bị ghi hình Thị giác máy tính (computer vision) lĩnh vực nghiên cứu sôi động nay, với phương pháp dựa lực tính tốn ngày mạnh mẽ hệ thống máy tính với tốn ứng dụng thực tiễn có giá trị to lớn Phương pháp sinh trắc học để nhận dạng yếu tố người nghiên cứu mạnh mẽ ứng dụng vào hệ thống nhận dạng sở đặc điểm thể chất hành vi người Trong đó, nhận dạng khn mặt lĩnh vực nghiên cứu sôi động lĩnh vực nhận dạng mẫu thị giác máy tính Khn mặt người giới có độc đáo nét đặc trưng riêng biệt Đó coi sắc riêng người Nhận dạng khuôn mặt có tính nên sử dụng để xác thực danh tính kiểm sốt người ứng dụng khác [Ary18] Nhận dạng khuôn mặt việc sử dụng phương pháp sinh trắc học để thiết lập định danh cá nhân dựa đặc điểm khuôn mặt người Quá trình nhận dạng khn mặt hoạt động cách sử dụng ứng dụng thiết bị máy tính chụp ảnh khn mặt cá nhân (cũng lấy từ khung hình từ video) so sánh với hình ảnh sở liệu lưu trữ trước (Hình 1.1) Trường hợp ảnh đầu vào (image input) gồm khơng gian có chứa khn mặt người muốn định danh cần phát vùng ảnh chứa khn mặt người (face detection) Đây toán nghiên cứu sơi động [Def18] Ảnh khn mặt tiền xử lý (cân chỉnh chẳng hạn face alignment) nhằm đảm bảo chất lượng cho nhận dạng Khuôn mặt người trích chọn biểu diễn thơng qua véc-tơ đặc trưng (feature extraction) nhằm mô tả đặc điểm riêng biệt khn mặt người để so sánh với khuôn mặt khác Việc so sánh khuôn mặt đầu vào với sở liệu khuôn mặt lưu trữ (existing database) trở thành việc tính tốn mức độ gần véc-tơ đặc trưng (feature matching), từ tìm khuôn mặt giống sở liệu Nếu mức độ gần khn mặt tìm ngưỡng cho phép định danh người Rất khó để có hệ thống sinh trắc học hồn hảo phù hợp với tất nhu cầu ứng dụng Tất hệ thống biết có ưu điểm nhược điểm Nghiên cứu trao đổi ● Research-Exchange of opinion riêng chúng Một vài nghiên cứu tập trung vào việc cải thiện bảo mật học tập trực tuyến cách sử dụng hệ thống sinh trắc học, số hạn chế số giải xác thực người học liên tục Trong [Fay14] có đề cập, Flior Kowalski thảo luận phương pháp cung cấp xác thực người dùng sinh trắc học liên tục kỳ thi trực tuyến thông qua động lực gõ phím Tuy nhiên, sinh trắc học gõ phím có nhược điểm nó, chẳng hạn khác biệt lớn xảy theo thời gian thay đổi kiểu gõ, mỏi tay sau thời gian gõ cải thiện kỹ gõ người học Các nhà nghiên cứu tìm kiếm phương pháp xác định sinh trắc học tốt giúp xác nhận danh tính người học q trình học tập trực tuyến tham dự kỳ thi Hệ thống nhận dạng khn mặt thân thiện với người chúng khơng u cầu tiếp xúc khơng cần có phần cứng bổ sung (với điều kiện hầu hết máy tính thiết bị đầu cuối có camera) Quan trọng hơn, hệ thống nhận dạng khn mặt sử dụng để xác thực liên tục người học toàn thời gian học tập kiểm tra Hình 1.1- Quá trình chung nhận dạng khn mặt Những cơng trình liên quan Trong báo này, giới thiệu phương pháp nhận dạng Mạng nơron nhân tạo (ANN) khuôn mặt ứng dụng điểm danh sinh hướng nghiên cứu có nhiều triển vọng viên lớp học Cách tiếp cận nhiều tác giả quan tâm Trong mơ hình sử dụng tiến [Abu18] đề cập đến cải tiến gần nhận dạng khn mặt nhằm tăng độ xác nhận dạng dựa mạng nơron tích chập với nhiều ứng dụng thời gian thực Trong thực chế học sâu, kiểm tra mơ hình tế, phức tạp khuôn mặt người liệu mẫu thử nghiệm với toán thay đổi hiệu ứng khác định danh sinh viên lớp học khiến cho việc thiết kế Các phần báo gồm: thực hệ thống tính tốn mạnh Phần tóm tắt nghiên cứu liên quan; mẽ để nhận dạng khuôn mặt người trở Phần giới thiệu phương pháp đề xuất nên khó khăn Các tác giả sử dụng nêu bật số ưu điểm hạn chế; kết hợp mạng nơron với thuật tốn học lan Phần trình bày phương án kịch thử truyền ngược sai số (BPNN) với việc trích nghiệm phân tích kết quả; cuối cùng, chọn đặc trưng dựa mối tương Phần kết luận số định hướng quan hình ảnh đưa vào học mạng nghiên cứu Theo đó, mối tương quan ảnh tạo Nghiên cứu trao đổi ● Research-Exchange of opinion nên liệu học BPNN (T-Dataset) từ tập liệu học ban đầu cung cấp độ phân biệt cao hình ảnh đào tạo nhằm giúp BPNN hội tụ nhanh đạt độ xác tốt Họ sử dụng sơ đồ kết hợp gồm mô hình LBPH để trích chọn đặc trưng, mơ hình KNN với kiểu độ đo khoảng cách để xác định mối tương quan mơ hình BPNN Tuy nhiên, năm gần đây, phát triển mạnh mẽ cơng nghệ học sâu (deep learning) với mạng nơron tích chập (convolutional neural network CNN) ứng dụng thành cơng nhiều tốn thực tế [Yam18] CNN cấu trúc mạng nơron nhân tạo gồm ba loại lớp nơron (minh hoạ Hình 1.2): lớp nơron tích chập (convolution layer), lớp nơron gộp chung (pooling layer) lớp nơron kết nối đầy đủ (fully connection layer) Hai lớp nơron đầu (tích chập gộp chung) thực vai trị trích chọn đặc trưng ảnh khn mặt, lớp thứ ba (kết nối đầy đủ) thực vai trị ánh xạ đặc trưng trích chọn thành đầu cuối cùng, tức định danh người nhận dạng Lớp nơron tích chập đóng vai trò quan trọng CNN, bao gồm chồng phép tốn tích chập, loại phép tuyến tính chun biệt Lớp nơron gộp chung đóng vai trị làm giảm số chiều không gian đặc trưng trích chọn (hay cịn gọi subsampling) nhằm tăng tốc độ xử lý trình nhận dạng Quá trình học mạng nơron điều chỉnh tham số học mạng (trainable parameters) gồm trọng số liên kết lớp nơron tích chập lớp nơron kết nối đầy đủ Thuật tốn học điển hình mạng nơron dạng lan truyền ngược sai số với mục tiêu giảm thiểu sai số kết nhận dạng mạng Ngồi ra, mạng cịn có tham số cần phải thiết lập trước áp dụng kích thước nhân phép tích chập, độ trượt phép tích chập, hàm kích hoạt, phương pháp tính lớp nơron gộp chung tham số khác đề cập chi tiết [Yam18] Hình 1.2- Minh hoạ kiến trúc mạng nơron tích chập‡ ‡ https://www.kaggle.com/cdeotte/how-to-choose-cnn-architecture-mnist Nghiên cứu trao đổi ● Research-Exchange of opinion Hiện có nhiều nghiên cứu ứng dụng CNN nhận dạng khuôn mặt với cải tiến ngày hiệu chất lượng cao hơn, ứng dụng đa dạng vào toán thực tế Các tác giả [Kam17] phân tích tính hiệu CNN so với ba phương pháp nhận dạng khuôn mặt kinh điển bao gồm phân tích thành phần (PCA), mơ hình biểu đồ mẫu nhị phân cục (LBPH) láng giềng gần (KNN) Thử nghiệm sở liệu ORL cho thấy LBPH đạt kết tốt PCA KNN, CNN đề xuất cho độ xác nhận dạng tốt (98,3% so với phương pháp chưa đến 90%) Qua phần khẳng định phương pháp dựa CNN vượt trội phương pháp khác Trong [Phi15] phân tích đánh giá với kiến trúc CNN cải tiến khác cho nhận dạng khuôn mặt Thứ kiến trúc chứa 22 lớp nơron với 140 triệu tham số học cần 1.6 tỷ FLOPS (floatingpoint operations per second) cho ảnh Dạng kiến trúc thứ hai dựa mô hình mạng Interception GoogleNet gồm phiên với kích thước đầu vào khác nhằm làm giảm khơng gian tham số học mạng Các kiến trúc ứng dụng vào phạm vi khác nhau, kiến trúc CNN có kích thước lớn cho kết cao phù hợp với ứng dụng máy tính lớn với CNN nhỏ nhỏ phù hợp với ứng dụng thiết bị di động cầm tay đảm bảo kết chấp nhận Nhằm tăng hiệu cao hơn, tác giả [Par15] đề xuất kiến trúc CNN với quy mô “rất sâu” gồm 11 khối với 37 lớp nơron, khối đầu đóng vai trị trích chọn đặc trưng khối sau thực chức phân lớp để nhận dạng Kiến trúc CNN chạy quy mô liệu học mạng lớn (LFW YTF với hàng nghìn định danh hàng triệu ảnh) cho kết (98.95% LFW 97.3% YTF) tốt so với mơ hình CNN khác Các tác giả [Def18] đề xuất hệ thống mạng thần kinh tích chập cho nhận diện khuôn mặt với cải tiến dựa kiến trúc CNN VGG (Visual Geometry Group University of Oxford) Đó sử dụng mơđun CReLu (hàm kích hoạt nơron) thay cho mơ-đun hàm kích hoạt (ReLu) thông thường, mô-đun CReLu thực ghép nối ReLu chọn phần dương với ReLu chọn phần âm kích hoạt Ở điểm gấp đơi mức độ phi tuyến hàm kích hoạt CNN xác định cho chất lượng kết tốt Dựa mơ hình đề xuất này, tác giả xây dựng hệ thống nhận dạng khuôn mặt theo thời gian thực với mạng nơron tích chập nhiều lớp (“rất sâu”) phân tích thử nghiệm cho kết tốt so với kết thu sử dụng mơ hình ban đầu Trong phương pháp nhận dạng khuôn mặt dựa mạng nơron tích chập (CNN), cặp khuôn mặt so sánh độc lập đưa vào CNN để trích chọn đặc trưng Đối với hai khn mặt, phép nhân (kernels) giống nơron tích chập áp dụng biểu diễn khn mặt cố định so sánh với Tuy nhiên, người chúng ta, thường tập trung vào đặc điểm khác khn mặt so sánh với người khác Vì vậy, [Han18] đề xuất cấu trúc CNN gọi tích chập tương phản, đặc biệt tập trung vào đặc điểm khác Nghiên cứu trao đổi ● Research-Exchange of opinion biệt hai khuôn mặt để so sánh, nghĩa đặc điểm tương phản chúng Kết thử nghiệm cho thấy phép tích chập tương phản đề xuất cải thiện đáng kể so với CNN thông thường hứa hẹn tính ưu việt ứng dụng Phép tích chập tương phản có lợi nhờ vào việc sinh tự động kết tích chập dựa cặp khn mặt đưa vào tính tốn Phép tích chập tương phản kết hợp vào loại kiến ​​trúc CNN Nhằm nâng cao chất lượng nhận dạng cho mơ hình dựa CNN, số nghiên cứu áp dụng phương pháp học mạng nơron với kỹ thuật “triplet loss” [Amo16, Han18, Par15, Phi15, San18] Theo đó, q trình học thực với ba mẫu học gồm, hình ảnh người cụ thể (gọi ảnh neo - anchor), ảnh khác người với ảnh (gọi ảnh dương - positive) hình ảnh người khác (gọi ảnh âm - negative) Mục tiêu học mạng nơron (điều chỉnh trọng số mạng) cho phản hồi mạng nơron với cặp mẫu gần so với cặp mẫu Có thể mơ tả hình ảnh minh hoạ trực quan (Hình 1.3) hình thức hố biểu thức sau: Hình 1.3- Minh hoạ kỹ thuật học dựa “triplet loss” Trong đó, f(X) phản hồi mạng nơron mẫu liệu X, tập mơ tả đặc trưng (embeddings) trích chọn mạng nơron phép xác định độ đo (metric) liệu X khoảng cách hai tập đặc trưng, α tham số ngưỡng đảm bảo phân biệt tối thiểu tập đặc trưng đối tượng so với đối tượng khác Như vậy, trình học điều chỉnh trọng số mạng nơron cho hai liệu khác đối tượng cho phản hồi gần hai liệu hai đối tượng khác cho phản hồi xa Khi tập ba “triplet” chọn từ tập liệu huấn luyện, cần cực tiểu hóa hàm L sau nhằm giảm thiểu sai số nhận dạng mơ hình mạng CNN Trong [Phi15] phương pháp lựa chọn tập “triplet” gồm “offline” chọn trước huấn luyện mạng, “online” chọn trình huấn luyện, tức bên tập liệu “mini-batch” kỹ thuật huấn luyện mạng CNN Trong tốn nhận dạng khn mặt, số nghiên cứu tập trung vào vấn đề nhận dạng biểu cảm khuôn mặt với kỹ thuật đề xuất Theo dõi an ninh, điều trị bệnh nhân lĩnh vực y tế, tương tác người máy, nghiên cứu tiếp thị học tập điện tử số ứng dụng nhận dạng biểu cảm khuôn mặt Các tác giả [Lop15] sử dụng mơ hình CNN để thiết kế hệ thống nhận dạng loại biểu cảm khuôn mặt khác (Angry, Disgust, Fear, Happy, Sab, Surprise) với việc đưa vào tiền xử lý hình ảnh trước nhận dạng Một số tiền xử lý nhằm nâng cao chất lượng nhận dạng gồm chuẩn hoá không gian ảnh (xoay ảnh trạng thái cân đối), sinh tổng hợp nhiều hình ảnh khác từ ảnh ban đầu cách xoay ảnh ngẫu nhiên góc giới hạn nhằm tạo nhiều Nghiên cứu trao đổi ● Research-Exchange of opinion liệu huấn luyện cho CNN để kỳ vọng nâng cao chất lượng, thu nhỏ hình ảnh nhằm giảm kích thước đầu vào CNN để giảm nhớ trình xử lý, chuẩn hoá cường độ ảnh bao gồm độ sáng độ tương phản Trong [Saw18] lại sử dụng kết hợp mơ hình nhị phân cục (LBP) mơ hình CNN để nhận dạng biểu cảm khn mặt Theo đó, hình ảnh khn mặt chuyển thành đồ đặc trưng LBP, sau đồ đặc trưng LBP sử dụng làm đầu vào CNN để huấn luyện mạng nhận dạng So với mơ hình CNN thơng thường nhận đầu vào ảnh khn mặt t, việc học CNN cấp độ thấp mức pixel, “tri ​​thức” có học mạng CNN tri ​​thức đường biên hình ảnh xử lý Một số ứng dụng hữu ích phát triển từ phương pháp sinh trắc học toán nhận dạng khuôn mặt Chẳng hạn, [Der18], tác giả xây dựng hệ thống nhận dạng khuôn mặt dựa CNN để xác thực liên tục thời gian thực người lái xe việc ngăn chặn vụ trộm xe, giám sát trình điều khiển người lái xe Đối với lĩnh vực giáo dục, tác giả [Ami16] đề xuất mơ hình dựa phương pháp sinh trắc học hành vi với phương pháp học máy để tích hợp vào hệ thống học tập trực tuyến nhằm liên tục định danh xác thực người học tất hoạt động học tập kiểm tra Tuy nhiên, để có chất lượng cao cho mơ hình này, [Fay14] cung cấp giải pháp cho hệ thống thi trực tuyến cách sử dụng nhận dạng khuôn mặt để xác thực người học tham dự kỳ thi trực tuyến Quan trọng hơn, hệ thống liên tục (với khoảng thời gian ngắn, 30 giây chẳng hạn) kiểm tra danh tính người học tồn thời gian thi để đảm bảo người học bắt đầu kiểm tra người tiếp tục kết thúc ngăn chặn khả gian lận tình người học nhìn kết máy tính người khác đọc từ tờ giấy bên Hệ thống đưa cảnh báo sớm cho người học hành vi đáng ngờ hệ thống ý Cả giáo viên sinh viên tin gian lận giảm thực hệ thống nhận diện khuôn mặt thúc đẩy sinh viên học tập chăm Trong nghiên cứu này, tác giả khuyến cáo ứng dụng hệ thống nhận dạng khuôn mặt vào giám sát việc tham dự lớp học trực tuyến Qua đó, đo lường tỷ lệ tham gia học tập hệ thống trực tuyến sử dụng kết để phần đánh giá trình học tập người học Phương pháp nghiên cứu Trong phần này, chúng tơi thiết kế mơ hình nhận dạng khn mặt dựa cơng nghệ CNN Mơ hình khẳng định hiệu quả, chúng tơi kỳ vọng ứng dụng vào hệ thống tích hợp với hệ thống học tập trực tuyến nhằm liên tục ghi nhận hình ảnh định danh người học tham gia học tập hệ thống trực tuyến để góp phần đánh giá trình học tập người học, hạn chế gian lận học tập trực tuyến giúp nâng cao chất lượng học tập Mơ hình nhận dạng chúng tơi chia thành bước (Hình 3.1), bao gồm: bước tiền xử lý để phát trích chọn vùng ảnh chứa khn mặt tăng cường chất lượng ảnh; bước trích chọn đặc trưng khuôn mặt bước phân loại ảnh khn mặt dựa đặc trưng trích chọn Cả hai bước thiết kế tích hợp CNN 8 Nghiên cứu trao đổi ● Research-Exchange of opinion Hình 3.1- Sơ đồ quy trình mơ hình nhận dạng khn mặt 3.1 Tiền xử lý ảnh đầu vào có chứa khn mặt dựa kỹ thuật HaarPhần áp dụng số cascade [Abu18] Độ nhiễu độ rọi phương pháp tiền xử lý hình ảnh đầu vào, giảm xuống cách chuyển đổi hình ảnh bao gồm phát cắt xén để lấy vùng ảnh đầu vào thành hình ảnh đa cấp độ xám áp chứa khuôn mặt, cải thiện chất lượng ảnh dụng phép cân mức xám nhằm giúp nâng Trong thực tế ứng dụng, ảnh đầu vào thường cao chất lượng hệ thống nhận diện khn trích xuất từ camera nên bao gồm mặt Kỹ thuật Haar-cascade sử dụng cửa sổ không gian nền, đó, phải thực trượt ảnh (từ trái sang phải, từ xuống giai đoạn tìm kiếm phát khn mặt (gọi dưới), trích rút đặc trưng Haar-like (Hình face detection) nhằm xác định vùng ảnh chứa 3.2) cửa sổ xét dựa biểu đồ mức khuôn mặt cần xử lý cắt bỏ không xám HOG (Histogram of Oriented Gradients), gian ảnh Để thực điều này, chúng đưa vào mơ hình phân lớp AdabBoost theo sử dụng phương pháp phát vùng ảnh chế phân tầng [zKhang17, Cui17] Hình 3.2- Các dạng đặc trưng Haar-like Ưu điểm của phương pháp cho tốc từ các tầng đầu tiên, chỉ xét rất ít vùng ứng độ nhanh tính tốn nhờ việc rút trích đặc viên ở các tầng cuối So với công cụ phát trưng dạng Haar-like so với các phương pháp khuôn mặt thư viện OpenCV phổ biến, rút trích đặc trưng khác Ngoài ra, mô hình kỹ thuật phát khuôn mặt Haar-cascade phân tầng AdaBoost đã loại bỏ hầu hết sử dụng thuật toán Viola-Jones các vùng ứng viên không phải là khuôn mặt cài đặt thư viện Dlib cho kết tốt Nghiên cứu trao đổi ● Research-Exchange of opinion hơn, số tình khó khăn hạn chế ảnh [Der18] 3.2 Mơ hình nhận dạng khuôn mặt dựa CNN Khi ảnh khuôn mặt phát hiện, chúng tơi cắt vùng ảnh khn mặt từ nền, cải thiện chất lượng ảnh khuôn mặt việc cân sáng co giãn kích thước với đầu vào mạng nơron thiết kế để thực trích chọn đặc trưng phân lớp Trong báo này, thử nghiệm thực tế với kích thước ảnh khn mặt đầu vào mạng CNN 100×90 pixels Mơ hình CNN thiết kế gồm hai phần chức trích chọn đặc trưng ảnh khuôn mặt phân lớp đối tượng dựa đặc trưng chọn Mơ hình CNN bao gồm nhiều lớp, số lớp nơron độ lớn (số nơron) lớp ảnh hưởng đến chất lượng độ phức tạp tính tốn mạng nơron Các nghiên cứu thường điều chỉnh hai yếu tố tuỳ theo toán ứng dụng để đạt chất lượng mong muốn đồng thời đảm bảo phức tạp tính tốn chấp nhận Hình 3.3- Kiến trúc dạng khối mơ hình CNN Mỗi lớp nơron mơ hình CNN lấy mảng nhiều chiều gồm số làm đầu vào tạo mảng số nhiều chiều khác đầu (sau trở thành đầu vào lớp tiếp theo) Khi phân loại hình ảnh khn mặt, đầu vào lớp nơron kích thước hình ảnh đầu vào Kích thước đầu lớp cuối tập hợp khả lớp khác phân loại cho ảnh đầu vào Chúng sử dụng ba loại lớp nơron để xây dựng kiến ​​trúc CNN bao gồm: lớp tích chập (CONV), lớp nơron gộp chung hay gọi lớp nơron tổng hợp (POOL) lớp nơron kết nối đầy đủ để phân loại (gọi lớp Dense) Mỗi lớp CONV kết nối theo sau lớp POOL, áp dụng chế kích hoạt ReLu (Rectified Linear Unit, mặc định max(x,0)) sau lớp CONV để đảm bảo đầu vào không âm cho lớp nơron Theo nguyên tắc xếp chồng lớp nơron giảm không gian mẫu (downsampling) kết đầu chúng, CNN thực trích xuất đặc trưng ngày trừu tượng phức tạp hơn, đồng thời, bất biến 10 Nghiên cứu trao đổi ● Research-Exchange of opinion phép biến dạng chuyển đổi [Kam17] Hơn nữa, để khắc phục tượng khớp (overfit) huấn luyện mạng nơron, mơ hình sử dụng thêm kỹ thuật Dropout sau lớp POOL Kỹ thuật Dropout giới thiệu sử dụng chủ yếu gần đây, thực chọn ngẫu nhiên hàm kích hoạt với lượng theo tỷ lệ (được đặt trước) nơron đặt thành (tức đầu nơron chọn 0) q trình huấn luyện mạng, mơ hình trở nên nhạy cảm với trọng số cụ thể mạng Giá trị tỷ lệ cho lớp Dropout mơ hình thiết lập theo phương pháp heuristic dựa trình thử nghiệm Mạng tích chập CNN mơ hình chia thành 12 khối (Hình 3.3) • Khối B1 ảnh đầu vào có kích thước H×W×1 (cao × rộng × sâu) Để giảm bớt không gian nhớ trình tính tốn mạng nơron nên chúng tơi sử dụng ảnh đầu vào đa cấp xám (số chiều thứ (độ sâu) kích thước ảnh 1) Hình vẽ sau minh hoạ cho ảnh đầu vào: Hình 3.4- Một ảnh đầu vào kích thước 100×90×1 (đa cấp xám) • Khối B2 lớp nơron tích chập có 32 lọc đặc trưng với kích thước cửa sổ hàm nhân 3×3 Hàm kích hoạt ReLu sử dụng lớp nơron Hiệu ứng nhằm cải thiện đặc trưng thưa toàn mạng tránh phụ thuộc vào việc truyền tham số nơron • Khối B3 lớp POOL kết hợp với hàm kích hoạ kiểu MaxPooling, cửa sổ xử lý có kích thước 2×2 sử dụng đầu bị loại bỏ (đặt 0) ngẫu nhiên với xác suất 0,25 Lớp giảm không gian mẫu (downsampling) sử dụng phương pháp max-pooling với việc giữ lại thơng tin hữu ích cắt giảm lượng liệu cần xử lý bước Hình 3.4 minh hoạ kết xử lý lớp nơron tích chập CONV khối B2 lớp nơron POOL (max-pooling) khối B3, tương ứng ảnh số 16 lọc (chỉ số tiêu đề ảnh từ #1 đến #16) Với ảnh đầu vào Hình 3.4, kích thước ảnh sau xử lý đến bước 50×45 kích thước cửa sổ xử lý POOL 2×2 (chia đôi chiều cao rộng ảnh đầu vào) • Các khối B4, B6, B8 tương tự khối B2 số lọc (filters) tăng dần từ 32, 64, đến 128 Các khối B5, B7, B9 tượng tự khối B3, khối kết nối theo sau khối tích chập CONV để thực cắt giảm khơng gian mẫu Thơng thường, có nhiều bước sử dụng phép tích chập hội trích chọn nhiều đặc trưng phức tạp hơn, qua kỳ vọng mơ hình đề xuất học để nhận biết đối tượng mức tốt [Kam17] Chẳng hạn, phân loại hình ảnh, mơ hình CNN học để phát đặc trưng cạnh từ pixel thơ lớp CONV đầu tiên, sau sử dụng đặc trưng cạnh để phát đặc trưng hình dạng đơn giản lớp CONV thứ hai, sau sử dụng đặc trưng hình dạng để phát đặc trưng mức cao hơn, chẳng hạn hình dạng khn mặt lớp cao Nghiên cứu trao đổi ● Research-Exchange of opinion 11 Hình 3.5- Hình ảnh sau xử lý khối B2 lớp nơron POOL Trong Hình 3.6/a/b/c minh “mờ”, thể khả trừu tượng hoá hoạ kết xử lý lọc biểu diễn đặc trưng chung khối B4, B6, B8 với lớp nơron POOL khuôn mặt cá nhân, dù chụp sau chúng (tương ứng B5, B7, B9), góc độ Hay nói đặc trưng kích thước hình ảnh sau bước xử cá nhân có độ bất biến cao đối lý giảm dần với hệ số ½ (sau B5 25×23, sau với hình ảnh khác họ B7 13×12, sau B9 7×6) Kết minh dù dạng thức, độ sáng tối, màu sắc, hoạ trực quan cho thấy sau hình ảnh kích thước khác Hình 3.6- Hình ảnh kết xử lý sau B5, B7 B9 • Khối B10 lớp nơron kết nối đầy trước, chúng tơi thiết kế số nơron đủ đủ (fully connection layers) Lớp lớn, báo đặt với lớp khối B12 nhằm mục tiêu phân 50 lần số lớp đối tượng cần phân loại, hàm lớp đặc trưng trích chọn lớp kích hoạt ReLu áp dụng Tiếp sau 12 Nghiên cứu trao đổi ● Research-Exchange of opinion khối B11 áp dụng nhằm loại bỏ ngẫu nhiên đầu nơron với xác xuất 0,25 Dữ liệu sau đầu 30 nơron khối B10, giá trị xem biểu diễn dạng số đặc trưng khuôn mặt tương ứng với ảnh đầu vào [[ 2.7693045 5.4206185 15.310658 -6.4730997 6.9566865 15.353586 -3.10478 -12.028505 -0.8017185 -3.1157708 -1.0826927 -6.028521 0.03128495 5.4889393 -10.470362 0.82493985 -9.085897 -8.883919 -10.903969 7.554482 -21.584223 7.0113654 1.1755116 -12.392871 -22.468472 -6.1380725 4.9964366 5.609535 -18.629263 -1.6224866 ]] • Khối B12 lớp nơron đầu cuối cùng, phân bố cho phân loại lớp đối tượng khác với tính hàm kích hoạt Softmax Áp dụng phương pháp hồi quy Softmax lớp đầu mạng CNN nhằm thẩm định cho trình huấn luyện mạng Cơ chế thẩm Định danh cá nhân Ảnh đầu vào định đảm bảo mơ hình CNN khơng bị q khớp (overfiting) liệu học có khả dự đoán tốt [Der18] Cơ chế thực thông qua việc chia liệu học thành hai phần, phần để tính tốn cập nhật điều chỉnh trọng số mạng, phần để tính tốn sai số đưa vào pha cập nhật thay đổi trọng số mạng Đầu phân lớp cuối mô hình xác định dựa giá trị cực đại hàm Softmax nơron tương ứng, với mơ hình CNN có lớp (tức có nơron lớp ra) ta có cơng thức xác định sau: Trong đó, 0k đầu nơron thứ lớp nơron cuối tương ứng với lớp đối tượng Ck Bảng 3.1 minh hoạ liệu gồm giá trị sau kết đầu lớp nơron cuối (khối B12), tương ứng với kết phân lớp ảnh đầu vào Kết đầu mơ hình CNN tương ứng với ảnh đầu vào gồm giá trị (ở minh hoạ với lớp) Giá trị cao vị trí (tính theo số từ từ trái sang phải) giá trị đầu định danh cá nhân (vị trí tương ứng giá trị số in đậm) liệu ảnh đầu vào Dữ liệu đầu cuối CNN #0 [[9.9911207e-01; 3.1407521e-09; 8.8795216e-04]] #1 [[5.6778632e-13; 9.9634629e-01; 3.6537468e-03]] #2 [[4.3675252e-10; 7.0972305e-06; 9.9999285e-01]] Bảng 3.1- Ví dụ liệu phân lớp mơ hình CNN Nghiên cứu trao đổi ● Research-Exchange of opinion Kết thí nghiệm 4.1 Dữ liệu kịch thử nghiệm Để kiểm tra mơ hình đề xuất trên, sử dụng liệu mẫu AT&T Yale công bố sử dụng rộng rãi cho toán nhận dạng khuôn mặt [Kam17, Abu18, Sya14, Moh18, Olo18] 1) Bộ liệu khn mặt AT&T (hay cịn gọi liệu ORL) tạo Phịng thí nghiệm AT&T thuộc Đại học Cambridge, năm 2002 [Kam17, Moh18, Abu18] Dữ liệu gồm 400 hình ảnh 13 40 người với 10 biểu cảm khuôn mặt khác cho người, biểu cảm tương ứng hình ảnh Tất hình ảnh chụp đồng tối màu với đối tượng tư thẳng đứng, chụp từ phía trước số trường hợp có nghiêng sang trái phải, lên xuống Ảnh khuôn mặt người quan sát được, tức không bị che đặc trưng liên quan Tất hình ảnh ảnh đa mức xám với kích thước 112(cao) × 92(rộng) pixel Hình vẽ sau minh hoạ hình ảnh với trạng thái khác người tập liệu Hình 4.1- Các ảnh đối tượng “s1” liệu AT&T 2) Bộ liệu khuôn mặt Yale tạo nhau, lần chạy thử nghiệm lấy Trung tâm điều khiển thị giác máy tính phần để kiểm tra hiệu mơ hình, cịn lại k Đại học Yale, New Haven [Kam17, Moh18, - phần dùng để huấn luyện mơ hình, gọi k Abu18] Tập liệu gồm 165 hình ảnh folds cross-validation Như vậy, ứng với khn mặt chụp từ phía trước dạng đa giá trị k cần chạy k lần chạy Để đảm cấp xám 15 người khác Có 11 hình bảo ảnh người dùng cho ảnh cho người mô tả biểu cảm khuôn pha huấn luyện pha thử nghiệm, việc chia mặt điều kiện khác ánh sáng (ánh tập liệu thực tất ảnh sáng phía bên phải, ánh sáng trung tâm ánh sáng phía bên trái), trạng thái nét mặt (bình người, sau ghép nối thường, buồn, vui, ngạc nhiên, buồn ngủ phần người lại để tạo thành k folds nháy mắt), gồm ảnh có đeo kính khơng Trong báo này, chúng tơi thử nghiệm với đeo kính Kích thước tệp tin hình ảnh tất trường hợp k={2,5,10}, tính kết 243(cao) × 320(rộng) Hình vẽ sau minh hiệu mơ hình trường hợp hoạ hình ảnh với độ sáng, trạng thái khác k trung bình tất k lần chạy Tham số người tập liệu huấn luyện mơ hình CNN gồm số lần học Để chạy thử nghiệm, chia (epochs) 100 kích thước gói liệu ngẫu nhiên tập liệu thành k phần lần đưa vào để huấn luyện (batch_size) 32 14 Nghiên cứu trao đổi ● Research-Exchange of opinion Hình 4.2- Các ảnh đối tượng “subject02” liệu Yale 4.2 Kết thử nghiệm chấp cuối mơ hình CNN đề Quá trình thử nghiệm thực xuất Một biểu diễn trực quan hệ thống máy chủ ảo cung cấp Google thể mức độ tập trung (hay quan tâm) dạng Colaboratory địa https:// lớp nơron tích chập ảnh xử lý colab.research.google.com với cấu hình phương pháp “Gradient-based Localization” xử lý Tesla K80 GPU, nhiên dịch vụ [Sel17], hay gọi đồ nhiệt lớp cho phép 12 thực thi liên tục cho đối tượng kích hoạt Hình 4.3 đồ phiên làm việc giới nhớ khoảng 4Gb nhiệt ảnh khuôn mặt Hình RAM 14Gb GPU, lý 4.1 lần thử nghiệm thứ 2-folds Các chọn liệu quy mô vừa phải để thử hình ảnh “(s1.1)” “(s1.4)” cho kết nghiệm Hệ thống Google Colab phân lớp sai (#C21 #C38) so với hình cài đặt mơi trường Python, frameworks ảnh cịn lại (đều phân lớp #C39) Thứ thư viện cho học máy (machine tự lớp đối tượng xác định đọc learning) numpy, matplotlib, tensorflow, liệu thử nghiệm, khơng tương ứng keras, Môi trường Google Colab với thứ tự đối tượng (ở đây, đối tượng cung cấp khả kết nối đến dịch vụ lưu “s1” ứng với lớp “#C39”, “s2” lớp “#C38”, trữ trực tuyến Google Drive, “s24” lớp “#C21”) Trực quan đồ thuận lợi cho việc tổ chức liệu phục vụ nhiệt ta thấy, vùng ảnh mà lớp nơron tích chạy thử nghiệ m lưu trữ kết Theo đó, chập quan tâm khơng nằm khn mặt mà chương trình thử nghiệm chủ yếu vùng ảnh khuôn mặt xây dựng môi trường Python sử dụng Trong đó, ảnh cịn lại cho thấy frameworks tensorflow với giao diện thư đồ nhiệt tập trung vào vùng ảnh viện keras, thư viện cung cấp tính khn mặt, chẳng hạn, ảnh “(s1.2)” cho thấy mạnh mẽ cho xử lý ảnh cho mô đồ nhiệt tập trung vào vùng trán, vùng hình CNN má vùng cằm, chí trường hợp Trong mơ hình CNN giới thiệu nhất, ảnh “(s1.5)” cho thấy đồ nhiệt trên, khối nơron tích chập (CONV) tập trung vào vùng nhỏ trán vùng đóng vai trị mơ-đun trích chọn tai Một cách tự nhiên, điều cho thấy đặc trưng khuôn mặt Sau không quan tâm đến vùng ảnh khuôn mặt đưa số biểu diễn thể vai trò khó nhận dạng định danh việc trích chọn đặc trưng lớp nơron tích người Nghiên cứu trao đổi ● Research-Exchange of opinion 15 Hình 4.3- Bản đồ nhiệt ảnh đối tượng “s1” Hình 4.4 đồ nhiệt ảnh đồ nhiệt Hình 4.3, thấy đồ khn mặt Hình 4.2 lần thử nghiệm nhiệt tập trung vào vùng đặc thứ (tính từ 0) 10-folds (ký hiệu “t02” điểm khn mặt, Hình tiêu đề ảnh viết tắt ký tự cuối 4.3 cịn có phân bố chưa tập trung vào đối tượng “subject02”) Tất hình vùng đặc điểm khn mặt Điều ảnh Hình 4.4 phân lớp giải thích trường hợp (#C2) tương ứng giá trị đầu mạng thử nghiệm 2-folds số mẫu liệu học lớp cao (giá trị 1.0) Bản đồ nhiệt cho thấy vùng ảnh quan tâm mô nhỏ (50%) nên khả tập trung vào hình CNN chủ yếu vùng đặc trưng đặc điểm khn mặt chưa cao, khn mặt, gồm vùng hai mắt, vùng sử dụng số mẫu liệu học nhiều (90%) miệng mũi, vùng trán tóc So sánh với cho kết tốt Hình 4.4- Bản đồ nhiệt ảnh đối tượng “subject02” Kết trình huấn luyện mơ hình lớp (accuracy) tốt từ lần học thứ 40, tiếp tục CNN hai tập liệu AT&T Yale ổn định nâng cao kết qủa học từ lần thể Hình 4.5 (AT&T (a), Yale học đến cuối (đường màu đỏ) (b)) Đây kết 10 lần chạy thử nghiệm Tuy nhiên, liệu AT&T, có trường trường hợp 10-folds Kết hai hợp thể ổn định không cao tập liệu cho kết độ xác phân trình học lần học khoảng thứ 55 sau 16 Nghiên cứu trao đổi ● Research-Exchange of opinion xung quanh 70 (Hình 4.5a) Trong đó, tỷ lệ “loss” áp dụng theo [Yam18] mô hình trình học giảm mạnh lần học khoảng thứ 10, sau trì giảm đến cuối (đường màu xanh) đặc điểm với hình ảnh lớp “s22”, mơ hình CNN huấn luyện chưa đạt đến phân biệt hình ảnh hai lớp đối tượng Lớp “s22” nhận sai số nhầm lẫn đến từ lớp khác nhiều Có lượt mẫu liệu lớp “s10”, “s11”, “s16”, “s17”, “s16”, “s29” phân lớp nhầm sang lớp khác, tương ứng “s8”, “s14”, “s24”, “s3”, “s28”, “s39” Riêng lớp “s1” có lượt mẫu liệu tổng số 170 lượt sử dụng phân lớp nhầm, đó, lượt phần lớp sang “s2”, lượt phân lớp sang “s24” lượt phân lớp sang “s35” Trong tập liệu AT&T, có 16 lớp khơng bị nhầm lẫn tất lượt áp dụng mẫu liệu đánh giá gồm: s4, s6, s7, s9, s12, s13, s15, s18, s20, s21, s23, s25, s30, s32, s34, s38 Do bảng ma trận nhầm lẫn lớn nên loại bỏ lớp việc thể lại 24 lớp Hình 4.6 Hình 4.5- Biểu đồ tỷ lệ accuracy loss trình huấn luyện Hai hình vẽ sau thể ma trận nhầm lẫn (“confusion matrix”) trường hợp thử nghiệm (2-folds, 5-folds, 10-folds) hai tập liệu (ATT&T Hình 4.6 Yale Hình 4.7) Mỗi lần chạy thử nghiệm xác định ma trận nhầm lẫn, kết cộng tổng 2+5+10=17 lần chạy, dẫn đến có tối đa 17 lần số mẫu liệu lớp, cụ thể 17×10=170 AT&T 17×11=187 Yale (tương ứng với lớp đối tượng) Đối với liệu AT&T, lớp đối tượng “s14” có giá trị nhầm lẫn cao 10, phân lớp nhầm sang lớp “s22” Điều giải thích liệu hình ảnh lớp “s14” có tương đồng Đối với liệu Yale, lớp đối tượng “subject08” có giá trị nhầm lẫn cao với lượt mẫu liệu phân lớp sang “subject10”, “subject13”, “subject15” (2 lượt mẫu liệu phân lớp nhầm sang lớp), lượt mẫu liệu phân lớp nhầm sang “subject03” Lớp “subject01” có giá trị nhầm lẫn cao thứ hai với lượt mẫu liệu phân lớp sang “subject02”, phân lớp sang “subject15” phân lớp sang “subject08” Có lớp “subject03”, “subject05”, “subject15” với lượt mẫu liệu phân lớp nhầm sang lớp khác Còn lại lớp “subject04”, “subject06”, “subject09” có từ đến trường hợp nhầm lẫn sang lớp khác Trong tập liệu này, có hai lớp “subject03” “subject15” nhận sai sót nhầm lẫn nhiều phân lớp từ liệu lớp khác với trường hợp Trong tập liệu này, có lớp “subject07” khơng bị nhầm lẫn tất lượt thử nghiệm đánh giá Nghiên cứu trao đổi ● Research-Exchange of opinion Hình 4.6- Ma trận nhầm lẫn tập liệu AT&T Hình 4.7- Ma trận nhầm lẫn tập liệu Yale 17 18 Nghiên cứu trao đổi ● Research-Exchange of opinion Bảng 4.1 Bảng 4.2 thể kết phân lớp mơ hình, kết tính trung bình (tỷ lệ % số mẫu phân lớp tập kiểm tra) tất lần chạy thử nghiệm trường hợp 2-folds, 5-folds, 10-folds so sánh với kết công bố khác Các trường hợp cho kết cao in đậm Ký hiệu dấu “*” phương pháp thể không sử dụng kịch thử nghiệm k-fold cross-validation, tức lấy phần tỷ lệ liệu tập mẫu để huấn luyện, phần lại để kiểm tra (tương ứng tỷ lệ số mẫu liệu cho huấn luyện kiểm tra 50:50, 80:20, 90:10) Do đó, chúng tơi lấy trường hợp cao (dấu “*” bên cạnh số in đậm) lần chạy thử nghiệm k-folds để so sánh với kịch thử nghiệm Các phương pháp đề xuất [Abu18, Moh18] khơng sử dụng mơ hình CNN, họ tập trung vào kỹ thuật xử lý ảnh để tinh chỉnh, cải thiện chất lượng ảnh trước áp dụng mơ hình, sau sử dụng kết hợp kỹ thuật truyền thống LBPH, KNN, BPNN hay Fisher LDA Phương pháp đề xuất [Kam17, Olo18] sử dụng mơ hình CNN để nhận dạng hình ảnh khn mặt, sử dụng để so sánh cho tính tương thích phương pháp mơ hình Phương pháp Mô tả chi tiết 50:50 2-folds 80:20 5-folds 90:10 10-folds [Abu18] (không sử dụng CNN)* Proposed Proposed Eye-aligned Proposed Mơ hình CNN Mơ hình CNN - Mức cao - Kết toàn liệu 97.5 98.0 97.5 97.50 97.50 98.75* 62.0 94.0 98.3 97.75 98.75* 99.55* 98.75 100* 99.63* Phương pháp Mô tả chi tiết 50:50 2-folds 80:20 5-folds 90:10 10-folds [Abu18] (không sử dụng CNN)* Proposed Proposed Eye-aligned Proposed IIA MP[20] MG[20] Proposed CNN Mơ hình CNN - Mức cao - Kết toàn liệu 96.7 97.7 93.46 97.50 96.67 74.0 99.0 95.27 100* 99.03* 88.2 90.8 92.3 94.6 96.31 100* 99.64* [Moh18] (không sử dụng CNN) [Kam17]* Phương pháp đề xuất Bảng 4.1- Kết thử nghiệm mơ hình tập liệu AT&T (ORL) Đối với liệu AT&T, kết 50:50 cho kết cao 97.7, kết [Abu18] cao Trường hợp 80:20, kết [Moh18] cho cao thử nghiệm 5-folds, đạt 98.75 cao nhất, tính theo cịn kết 95.27 (thấp 5-folds kết 97.75 Trong đó, với tỷ 2.43%) lần chạy cao đạt 100 Đối lệ 90:10 phương pháp đề xuất đạt 100, với trường hợp 10-folds, kết mơ hình đề tính theo 10-folds 98.75 Trong kết xuất cao (96.31) [Olo18] tập liệu Yale, trường hợp 50:50 [Abu18] đạt 92.3 (thấp 2.3%) [Moh18] (không sử dụng CNN) [Olo18] Phương pháp đề xuất Bảng 4.2- Kết thử nghiệm mơ hình tập liệu Yale Nghiên cứu trao đổi ● Research-Exchange of opinion 19 Trường hợp đánh giá toàn tập liệu cho mơ hình CNN huấn luyện, kết thể dòng cuối chữ in nghiêng So sánh với [Kam17], họ thực đánh giá toàn liệu, kết đề xuất liệu AT&T cao hai kịch thử nghiệm 2-folds (98.75 so với 97.5) 5-folds (99.55 so với 98.3) lớp nơron dạng FC mơ hình CNN, phân tích điều chỉnh số lớp CONV lớp nơron dạng Inception [San18, Amo16, Phi15] Tiếp theo, thiết kế hệ thống thu thập liệu hình ảnh để tạo liệu huấn luyện cho mơ hình, từ xây dựng ứng dụng cho tốn thực tiễn hệ thống điểm danh sinh viên có mặt lớp học, hệ thống giám sát cá vào/ra cổng quan, Kết luận hệ thống theo dõi định danh liên tục Trong báo này, chúng tơi đề trình học tập người học trực tuyến xuất mơ hình dựa mạng nơron tích chập (CNN) để nhận dạng khn mặt Tài liệu tham khảo: người Mơ hình có lớp nơron tích chập [1] [Abu18] M A Abuzneid, A Mahmood, (CONV) lớp nơron liên kết đầy đủ (FC), “Enhanced Human Face Recognition Using tổng số tham số khoảng 12 triệu Trong LBPH Descriptor, Multi-KNN, and BPNN”, đó, mơ hình [Def18, Cao18] dựa IEEE Access, Vol 6, pp.20641-20651, 2018 kiến trúc VGG gồm 13 lớp CONV lớp [2] [Ami16] Alexander Amigud et al., “A FC, số lượng khoảng 138 triệu tham số, gấp Behavioral Biometrics Based and Machine 10 lần Mơ hình CNN [Han18] có Learning Aided Framework for Academic 16 lớp CONV, mơ hình [Phi15] có 11 lớp Integrity in E-Assessment”, International CONV lớp FC, mơ hình [San18] có Conference on Intelligent Networking and lớp CONV lớp FC, tất có độ Collaborative Systems, pp.225-262, 2016 phức tạp mơ hình lớn chúng tơi [3] [Amo16] Brandon Amos, Bartosz Ludwiczuk Tuy nhiên, mơ hình [Kam17] có and Mahadev Satyanarayanan, “OpenFace: A lớp CONV tích hợp giai đoạn general-purpose face recognition library with tiền xử lý hình ảnh chi tiết phức tạp, mobile applications”, 2016 [Olo18] sử dụng mơ hình ResNet với [4] [Ary18] Shraddha Arya, Arpit Agrawal, “Face độ phức tạp lớn, phiên thấp Recognition with Partial Face Recognition and lên đến 17 lớp CONV Như vậy, Convolutional Neural Network”, International khẳng định mơ hình chúng tơi có độ phức Journal of Advanced Research in Computer tạp mức vừa phải, phù hợp với hệ thống Engineering & Technology (IJARCET), Vol.7, tính tốn mức trung bình đem lại tiềm Iss.1, pp.91-94, ISSN: 2278 – 1323, 2018 khả thi ứng dụng thực tiễn [5] [Cao18] Qiong Cao, Li Shen, Weidi Xie, Omkar Mặc dù độ phức tạp mơ hình mức thấp so với mơ hình khác, kết thử nghiệm cho thấy tính hiệu phân lớp cao Hiện điều kiện tính tốn nên chúng tơi áp dụng số lần huấn luyện thấp, huấn luyện mức độ sâu kỳ vọng đem lại kết cao Trong thời gian tới, nghiên cứu cải thiện hiệu phân lớp cách áp dụng mơ hình phân lớp SVM thay cho M Parkhi and Andrew Zisserman, “VGGFace2 A dataset for recognising faces across pose and age”, IEEE Conference on Automatic Face and Gesture Recognition, http://www.robots.ox.ac.uk/ ~vgg/data/vgg face2/, 2018 [6] [Def18] Lionel Landry S Deffo, Elie T Fute, Emmanuel Tonye, “CNNSFR: A Convolutional Neural Network System for Face Detection and Recognition”, International Journal of Advanced Computer Science and Applications, Vol 9, No 12, pp.240-244, 2018 20 Nghiên cứu trao đổi ● Research-Exchange of opinion [7] [Der18] Ekberjan Derman and Albert Ali Salah, “Continuous Real-Time Vehicle Driver Authentication Using Convolutional Neural Network Based Face Recognition”, 13th IEEE International Conference on Automatic Face & Gesture Recognition, 2018 [8] [Fay14] Ayham Fayyoumi, Anis Zarrad, “Novel Solution Based on Face Recognition to Address Identity Theft and Cheating in Online Examination Systems”, Advances in Internet of Things, 4, pp.5-12, 2014 [9] [Gui17] Francisco D Guillen-Gamez, “Biometrics and education: a review about facial authentication software for the identification and verification of students who use virtual learning platform (LMS)”, Advances in Educational Technology and Psychology, pp.1-8, Clausius Scientific Press, Canada, 2017 [10] [Han18] Chunrui Han, Shiguang Shan, Meina Kan, Shuzhe Wu, and Xilin Chen, “Face Recognition with Contrastive Convolution”, European Conference on Computer Vision: Computer Vision – ECCV, pp.120-135, 2018 [11] [Kam17] Patrik Kamencay, Miroslav Benco, Tomas Mizdos and Roman Radil, “A New Method for Face Recognition Using Convolutional Neural Network”, Digital Image Processing and Computer Graphics, Vol 15, No 4, pp.663-672, 2017 [12] [Lop15] Andre Teixeira Lopes, Edilson de Aguiar, Thiago Oliveira-Santos, “A Facial Expression Recognition System Using Convolutional Networks”, 28th SIBGRAPI Conference on Graphics, Patterns and Images, 2015 [13] [Moh18] Hoda Mohammadzade, Amirhossein Sayyafan, Benyamin Ghojogh, “Pixel-Level Alignment of Facial Images for High Accuracy Recognition Using Ensemble of Patches”, Journal of the Optical Society of America A 35(7), 2018 [14] [Par15] Omkar M Parkhi, Andrea Vedaldi, Andrew Zisserman, “Deep Face Recognition”, University of Oxford, 2015 [15] [Phi15] James Philbin, Florian Schroff, Dmitry Kalenichenko, “FaceNet: A Unified Embedding for Face Recognition and Clustering”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 [16] [San18] Kevin Santoso, Gede Putra Kusuma, Kevin Santoso, Gede Putra Kusuma, “Face Recognition Using Modified OpenFace”, 3rd International Conference on Computer Science and Computational Intelligence, Procedia Computer Science, No.135, pp.510–517, 2018 [17] [Saw18] Sonali Sawardekar, Sowmiya Raksha Naik, “Facial Expression Recognition using Efficient LBP and CNN”, International Research Journal of Engineering and Technology (IRJET), e-ISSN: 2395-0056, Volume: 05, Issue: 06, p-ISSN: 2395-0072, pp.2273-2277, 2018 [18] [Sya14] R Syafeeza et al., “Convolutional Neural Network for Face Recognition with Pose and Illumination Variation”, International Journal of Engineering and Technology (IJET), pp.44-57, 2014 [19] [Olo18] Muhtahir O Oloyede et al., “Improving Face Recognition Systems Using a New Image Enhancement Technique, Hybrid Features and the Convolutional Neural Network”, IEEE Access, vol 6, pp 75181-75191, 2018 [20] [Cui17] Li Cuimei, Qi Zhiliang, Jia Nan and Wu Jianhua, “Human face detection algorithm via Haar cascade classifier combined with three additional classifiers”, IEEE 13th International Conference on Electronic Measurement & Instruments, pp.483-487, 2017 [21] [Sel17] Ramprasaath R Selvaraju et al., “Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization”, IEEE International Conference on Computer Vision (ICCV), Electronic ISSN: 2380-7504, 2017 Địa tác giả: Trường Đại học Mở Hà Nội Email: duongthanglong@hou.edu.vn ... Trong phương pháp nhận dạng khuôn mặt dựa mạng nơron tích chập (CNN), cặp khn mặt so sánh độc lập đưa vào CNN để trích chọn đặc trưng Đối với hai khuôn mặt, phép nhân (kernels) giống nơron tích chập. .. cải tiến gần nhận dạng khn mặt nhằm tăng độ xác nhận dạng dựa mạng nơron tích chập với nhiều ứng dụng thời gian thực Trong thực chế học sâu, kiểm tra mơ hình tế, phức tạp khuôn mặt người liệu... so với phương pháp chưa đến 90%) Qua phần khẳng định phương pháp dựa CNN vượt trội phương pháp khác Trong [Phi15] phân tích đánh giá với kiến trúc CNN cải tiến khác cho nhận dạng khuôn mặt Thứ

Ngày đăng: 10/07/2020, 09:49

Hình ảnh liên quan

Hình 1.2- Minh hoạ về kiến trúc của một mạng nơron tích chập‡ - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 1.2.

Minh hoạ về kiến trúc của một mạng nơron tích chập‡ Xem tại trang 4 của tài liệu.
Hình 3.1- Sơ đồ quy trình của mô hình nhận dạng khuôn mặt - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 3.1.

Sơ đồ quy trình của mô hình nhận dạng khuôn mặt Xem tại trang 8 của tài liệu.
3.2. Mô hình nhận dạng khuôn mặt dựa trên CNN - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

3.2..

Mô hình nhận dạng khuôn mặt dựa trên CNN Xem tại trang 9 của tài liệu.
Hình 3.5- Hình ảnh sau khi xử lý của khối B2 và lớp nơron POOL - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 3.5.

Hình ảnh sau khi xử lý của khối B2 và lớp nơron POOL Xem tại trang 11 của tài liệu.
Trong Hình 3.6/a/b/c dưới đây minh hoạ kết quả xử lý ở bộ lọc đầu tiên của các  khối B4, B6, B8 cùng với lớp nơron POOL  ngay sau chúng (tương ứng ở B5, B7, B9), do  đó kích thước của hình ảnh sau mỗi bước xử  lý giảm dần với hệ số ½ (sau B5 là 25×23, sau - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

rong.

Hình 3.6/a/b/c dưới đây minh hoạ kết quả xử lý ở bộ lọc đầu tiên của các khối B4, B6, B8 cùng với lớp nơron POOL ngay sau chúng (tương ứng ở B5, B7, B9), do đó kích thước của hình ảnh sau mỗi bước xử lý giảm dần với hệ số ½ (sau B5 là 25×23, sau Xem tại trang 11 của tài liệu.
Để kiểm tra mô hình được đề xuất ở trên, chúng tôi sử dụng bộ dữ liệu mẫu  AT&T và Yale được công bố và sử dụng khá  rộng rãi cho bài toán nhận dạng khuôn mặt  [Kam17, Abu18, Sya14, Moh18, Olo18]. - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

ki.

ểm tra mô hình được đề xuất ở trên, chúng tôi sử dụng bộ dữ liệu mẫu AT&T và Yale được công bố và sử dụng khá rộng rãi cho bài toán nhận dạng khuôn mặt [Kam17, Abu18, Sya14, Moh18, Olo18] Xem tại trang 13 của tài liệu.
Hình 4.2- Các ảnh của đối tượng “subject02” trong dữ liệu Yale - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 4.2.

Các ảnh của đối tượng “subject02” trong dữ liệu Yale Xem tại trang 14 của tài liệu.
Hình 4.3- Bản đồ nhiệt trên các ảnh của đối tượng “s1” - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 4.3.

Bản đồ nhiệt trên các ảnh của đối tượng “s1” Xem tại trang 15 của tài liệu.
Hình 4.4 là bản đồ nhiệt đối với các ảnh khuôn mặt trong Hình 4.2 ở lần thử nghiệm  thứ 2 (tính từ 0) của 10-folds (ký hiệu “t02”  trên tiêu đề ảnh là viết tắt bằng 3 ký tự cuối  của đối tượng “subject02”) - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 4.4.

là bản đồ nhiệt đối với các ảnh khuôn mặt trong Hình 4.2 ở lần thử nghiệm thứ 2 (tính từ 0) của 10-folds (ký hiệu “t02” trên tiêu đề ảnh là viết tắt bằng 3 ký tự cuối của đối tượng “subject02”) Xem tại trang 15 của tài liệu.
là xung quanh 70 (Hình 4.5a). Trong khi đó, tỷ lệ “loss” được áp dụng theo [Yam18]  của mô hình trong quá trình học giảm mạnh  ở lần học khoảng thứ 10, sau đó duy trì và  giảm đến cuối (đường màu xanh). - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

l.

à xung quanh 70 (Hình 4.5a). Trong khi đó, tỷ lệ “loss” được áp dụng theo [Yam18] của mô hình trong quá trình học giảm mạnh ở lần học khoảng thứ 10, sau đó duy trì và giảm đến cuối (đường màu xanh) Xem tại trang 16 của tài liệu.
Hình 4.6- Ma trận nhầm lẫn trên tập dữ liệu AT&T - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 4.6.

Ma trận nhầm lẫn trên tập dữ liệu AT&T Xem tại trang 17 của tài liệu.
Hình 4.7- Ma trận nhầm lẫn trên tập dữ liệu Yale - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Hình 4.7.

Ma trận nhầm lẫn trên tập dữ liệu Yale Xem tại trang 17 của tài liệu.
Bảng 4.1 và Bảng 4.2 thể hiện kết quả phân lớp của mô hình, kết quả này được tính  trung bình (tỷ lệ % số mẫu phân lớp đúng trong  tập kiểm tra) trên tất cả các lần chạy thử nghiệm  trong từng trường hợp 2-folds, 5-folds, 10-folds  và so sánh với các kết  - Một phương pháp nhận dạng khuôn mặt dựa trên mạng nơron tích chập

Bảng 4.1.

và Bảng 4.2 thể hiện kết quả phân lớp của mô hình, kết quả này được tính trung bình (tỷ lệ % số mẫu phân lớp đúng trong tập kiểm tra) trên tất cả các lần chạy thử nghiệm trong từng trường hợp 2-folds, 5-folds, 10-folds và so sánh với các kết Xem tại trang 18 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan