Nhận diện khuôn mặt bằng Deep Learning

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HỒNG MINH NHẬN DIỆN KHN MẶT BẰNG DEEP LEARNING Ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG - HCM Cán hướng dẫn khoa học: TS Lê Thành Sách Cán chấm nhận xét 1: PGS.TS Lê Hoàng Thái Cán chấm nhận xét 2: TS Nguyễn Hồ Mẩn Rạng Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 26 tháng 12 năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Quản Thành Thơ TS Phạm Hoàng Anh PGS.TS Lê Hoàng Thái TS Nguyễn Hồ Mẩn Rạng TS Nguyễn An Khương Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Hoàng Minh MSHV: 1570740 Ngày, tháng, năm sinh: 03/06/1992 Nơi sinh: TP HCM Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: Nhận diện khuôn mặt Deep Learning (Face recognition with deep learning) II NHIỆM VỤ VÀ NỘI DUNG: Đề tài tìm hiểu thực phương pháp nhận diện khn mặt Deep Learning Từ đề xuất cải tiến phương pháp định hướng triển khai ứng dụng IH NGÀY GIAO NHIỆM VỤ : 26/02/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2018 V CÁN BỘ HƯỚNG DẪN: TS Lề Thành Sách Tp HCM, ngày tháng năm CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) (Họ tên chữ ký) LỜI CẢM ƠN Khoảng thời gian theo học chương trình cao học trường Đại học Bách Khoa thành phố Hồ Chí Minh mang lại nhiều trải nghiệm hữu ích kiến thức, sống Những người bên cạnh xuyên suốt, đặc biệt giai đoạn thực luận văn, mang đến cho nguồn động viên, quan tâm giúp đỡ gia đình, thầy cơ, bạn bè Tơi xin gửi lời cảm ơn sâu sắc đến với gia đình nhỏ mình, người chung tổ ấm: ba, mẹ anh trai Sau học, làm mệt mỏi ngày, nơi ta trở khơng đâu khác nhà Ba mẹ tơi ln động viên âm thầm đứng sau ủng hộ lúc tơi khó khăn Lời cảm ơn chân thành mà tơi muốn gửi đến người thầy tận tâm hướng dẫn suốt thời gian vừa qua, Tiến sĩ Lê Thành Sách Thầy người giỏi chuyên môn, giải đáp thắc mắc định hướng giải vấn đề cho năm qua Thầy người dìu dắt, mở chân trời kiến thức chập chững bắt đầu nghiên cứu đề tài từ giai đoạn Tôi xin gửi lời cảm ơn đến ban quản lý phòng thí nghiệm ACLab phòng 301B9 tạo điều kiện cho tơi có khơng gian nghiên cứu làm luận văn tốt Bên cạnh đó, tơi cảm ơn đến thành viên thuộc nhóm nghiên cứu GVLab thầy Lê Thành Sách dành thời gian hỗ trợ thời gian vừa qua Một lời cảm ơn khơng thể thiếu nguồn tài ngun máy tính hỗ trợ đến từ nhóm nghiên cứu HPCLab thầy Thoại Nam Tôi xin cảm ơn đến thầy cô khoa Khoa học Kỹ thuật Máy tính, đặc biệt thầy tham gia giảng dạy mơn chương trình cao học mà theo học Các thầy cô người trang bị, trau dồi thêm cho kiến thức tảng, kĩ nghiên cứu, kĩ tìm hiểu giải vấn đề học thuật sống thực tế Cuối muốn gửi lời cảm ơn to lớn đến trường Đại học Bách Khoa thành phố Hồ Chí Minh, nơi tơi theo học từ quãng thời gian đại học Tôi xin cảm ơn ban giám hiệu nhà trường, thầy phòng sau đại học, văn phòng khoa Khoa học Kỹ thuật Máy tính, nhân viên trường tạo môi trường học tập thật tốt cho nhiều sinh viên, học viên Một lần nữa, tơi xin chân thành cảm ơn! Nguyễn Hồng Minh 02/12/2018 TÓM TẮT LUẬN VĂN Những tiến vượt bậc công nghệ mang đến nhiều ứng dụng nhiều lĩnh vực đời sống Đặc biệt, ngành cơng nghệ thơng tin ngành có tốc độ phát triển nhanh giúp cải thiện rõ rệt sống Nhũng năm gần đây, cải tiến mạng nơ-ron nhân tạo lĩnh vực học sâu mang đến kết vượt trội so với phương pháp xử lý ảnh kiểu truyền thống Từ đó, hàng loạt ứng dụng thơng minh dần tiếp cận tới người như: nhận diện khuôn mặt, nhận diện giọng nói, nhận diện biển số xe, đếm đối tượng, theo vết đối tượng, chẩn đoán ảnh y khoa, Trong đó, ứng dụng liên quan đến giám sát an ninh xã hội quan trọng giành nhiều quan tâm từ quan quản lý Nhận diện khuôn mặt cách thức để giám sát an ninh An toàn xã hội cần thiết nơi, số địa điểm / đơn vị cần mức độ an ninh cao bình thường là: cửa hàng siêu thị, tòa nhà cơng ty, chung cư cao cấp, trung tâm mua sắm, tòa nhà cao tầng, quan công an, doanh trại quân đội, an ninh quốc phòng, Việc kiểm sốt rõ ràng vào theo danh tính khn mặt góp phần đảm bảo an ninh việc tự động giám sát qua camera Nhận diện danh tính qua khn mặt khơng lõi cốt yếu ngành an ninh, mà áp dụng nhiều lĩnh vực khác như: chăm sóc khách hàng doanh nghiệp, điểm danh học sinh / sinh viên ngành giáo dục, giám sát trẻ nhỏ lớp học (từ phát cảnh báo bất thường), ứng dụng nhận diện khuôn mặt áp dụng với ứng dụng thông minh khác nhằm mang đến giải pháp quản lý giám sát hoàn thiện ứng dụng nhận diện khn mặt từ hình ảnh có hai thành phần cốt lõi: phát khuôn mặt ảnh nhận diện danh tính khn mặt Hai thành phần nối liên tiếp tạo thành ứng dụng hoàn chỉnh cho phép nhận diện khn mặt hình ảnh / video Hình ảnh khn mặt phát mơ-đun phát khn mặt trích xuất chuyển qua mô-đun nhận diện Phát khuôn mặt toán kinh điển xử lý ảnh, đề tài luận văn khảo sát báo phát khuôn mặt Nhận diện ảnh khuôn mặt đề tài nóng hổi báo gần cách áp dụng mạng học sâu nơ-ron nhân tạo Báo cáo nêu thí nghiệm cải tiến cho bước phương pháp nhận diện khuôn mặt ABSTRACT Nowadays, computer science grows quickly and it brings many applications to human life Especially, information technology is one of the fastest growing domains in the world, it makes human life become better In recent years, neural networks in deep learning outperforms with the traditional methods in image processing So, there are many smart applications such as: face recognition, voice recognition, licence plate recognition, object counting, object tracking, medical image 3D visualization, Security surveillance is very important and takes many attentions from government Face recognition is one of many ways to get security surveillance Safe social is necessary, some places I units requhe high security level such as: supermarkets, buildings, apartments, malls, skyscrapers, military areas, We are able to control the security by recognizing human face automatically with multiple of cameras Face recognition is not only an essential core of security domain, but also it applies to many other domains: customer service, checking student attendance, children surveillance for safety, Face recognition application together with other smart technologies give US a solution in security surveillance Face recognition in wild has two parts: face detection and face recognition These two parts are the essential components of face recognition flow in video The faces detected by face detection module will be fed to the recognition module Face detection has been researched for a long time, this report surveys many papers related to face detection Face recognition is also a hot subject of many recent papers by applying deep neural network The report proposes an improvement for face recognition flow V LỜI CAM ĐOAN Các tài liệu, báo, trang web mà tơi tham khảo q trình thực luận văn trích dẫn đầy đủ rõ ràng nguồn gốc trình bày mục tài liệu tham khảo Tơi xin cam đoan ngồi trích dẫn tham khảo trên, toàn nội dung báo cáo tự soạn thảo từ kết nghiên cứu tham gia thực kết nhóm nghiên cứu GVLab thầy Lê Thành Sách hướng dẫn, không chép từ tài liệu khác Tơi hồn tồn chịu xử lý theo qui định có sai phạm so với lời cam kết Nguyễn Hoàng Minh MỤC LỤC TÔNG QUAN 1.1 Giới thiệu đề tài .1 1.2 Mục tiêu đề tài .2 1.3 Ý nghĩa đề tài 1.3.1 Ý nghĩa thực tiễn 1.3.2 Ý nghĩa khoa học 1.4 Phạm vi đề tài 1.5 Bố cục luận văn .3 CÁC CƠNG TRÌNH NGHIÊN cúu LIÊN QUAN 2.1 T quan hướng nghiên cứu toán nhận diện khuôn mặt 2.2 Tổng quan phương pháp phát khuôn mặt 2.1.1 Multi-task Cascaded Convolutional Networks (MTCNN) 2.2.2 Single Shot MultiBox Detector (SSD) 2.2.3 Single Shot Scale-invariant Face Detector (S3FD) 2.3 Tổng quan phương pháp nhận diện khuôn mặt 2.3.1 Facenet: triplet loss 2.3.2 Center Loss .9 2.3.3 Sphereface 11 2.4 Tổng kết nhận xét 12 Cơ SỞ LÝ THUYẾT .13 3.1 Chuẩn hóa liệu (data normalization) 13 3.2 Làm giàu liệu (data augmentation) 13 3.3 Tích chập miền rời rạc (convolution) 15 3.4 Mạng nơ-ron truyền thẳng nhiều lớp 17 3.4.1 Mạng nơ-ron truyền thẳng nhiều lớp (MLP) 17 3.4.2 Hàm kích hoạt sigmoid 18 3.4.3 Hàm kích hoạt .19 3.4.4 Giải thuật Gradient Descent 19 3.5 Mạng nơ-ron tích chập (CNN) 19 3.6 Hàm lỗi cross entropy 21 3.7 Kết nối dày đặc (dense connection) 21 PHƯƠNG PHÁP ĐỀ XUẤT 23 4.1 Cải tiến kiên trúc mạng Sphereface .23 4.2 Triển khai mơ hình nhận diện Jetson TX2 24 CÁC IHÍ NGHỆM VÀ KẾT QUẢ THÍ NGHỆM 26 5.1 Tập liệu .26 5.1.1 Tập liệu huấn luyện 26 5.1.2 Tập liệu đánh giá 27 5.2 Phương pháp đánh giá 28 5.2.1 Kiểm thử chéo 28 5.2.2 Chỉ số độ xác mAP .29 5.3 Thí nghiệm phương pháp nhận diện .30 5.3.1 Thí nghiệm huấn luyện mạng nhận diện Sphereface 30 5.3.2 Thí nghiệm huấn luyện Sphereface theo phương pháp đề xuất 32 5.3.3 Thí nghiệm huấn luyện mơ hình phát nhận diện khuôn mặt triển khai Jetson TX2 32 5.4 Kết thí nghiệm 34 5.4.1 Biểu đồ thống kê trình huấn luyện 34 5.4.2 Kết đánh giá mơ hình 36 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .42 DANH MỤC TÀI LỆU THAM KHẢO 43 DANH MỤC HÌNH ẢNH Hình 2-1 Mơ hình nhận diện khuôn mặt ảnh tự nhiên .4 Hình 2-2 Kiến trúc mạng MTCNN .5 Hình 2-3 Các chặng xử lý MTCNN Hình 2-4 Kiến trúc mạng SSD300 Hình 2-5 Kiến trúc mạng phát khn mặt S3FD Hình 2-6 Minh họa ý tưởng Triplet Loss Hình 2-7 Hiệu ứng hành xử mơ hình học bang Center Loss cho toán phân loại ký tự MNIST 10 Hình 2-8 Kiến trúc mạng phương pháp Center Loss 10 Hình 2-9 Các cấu hình kiến trúc mạng Sphereface 11 Hình 3-1 Ảnh từ trái qua: ảnh gốc, ảnh lật ngang, ảnh lật dọc 14 Hình 3-2 Ảnh gieo nhiễu 14 Hình 3-3 Ảnh biến đổi xám .15 Hình 3-4 Ảnh điều chỉnh màu ngẫu nhiên 15 Hình 3-5 Ví dụ ảnh đầu vào cho phép convolution 16 Hình 3-6 Ảnh đầu sau áp dụng toán tử convolution .17 Hình 3-7 Minh họa mạng nơ-ron truyền thẳng nhiều lớp (MLP) .18 Hình 3-8 Minh họa việc tính tốn giá trị nút 18 Hình 3-9 Các kiến trúc mạng học sâu VGG [11], mạng điển hình CNN 20 Hình 3-10 Biểu đồ hàm mát q trình huấn luyện mơ hình mạng CenterLoss .21 Hình 3-11 Kết nối phép cộng kết nối dày đặc .22 Hình 4-1 Kiến trúc mạng cải tiến dùng phép nối thay phép cộng skip connection .23 Hình 4-2 Quy trình triển khai mơ hình từ framework Pytorch sang TensorRT chạy máy Jetson TX2 25 Hình 5-1 Một số hình ảnh trích từ tập CASIA Webface 26 Hình 5-2 Các hiệu ứng tập liệu WIDER FACE 27 Hình 5-3 Một số hình ảnh tập liệu LFW .27 Hình 5-4 Một số hình ảnh từ tập liệu PEOPLE20 .28 Hình 5-5 Bo nhúng Jetson TX2 hộp nhơm 30 Hình 5-6 Biểu đồ huấn luyện thí nghiệm .34 Hình 5-7 Biểu đồ huấn luyện thí nghiệm .35 Hình 5-8 Biểu đồ huấn luyện thí nghiệm .35 Hình 5-9 Biểu đồ huấn luyện thí nghiệm .36 Thí nghiệm 3: huấn luyện mạng nhận diện Sphereface 20 lớp vói kết nối dày đặc (dense connection) Thí nghiệm muốn kiểm chứng tính hiệu kết nối dày đặc so với kết nối đồ đặc trưng phép cộng • Thí nghiệm tiến hành kiến trúc mạng Sphereface 20 lớp, ta thay phép cộng residual block thành phép nối (concat), kết nối dày đặc giúp mạng dễ học đặc trưng trích xuất tốt kết hợp khối đồ đặc trưng lại với • Tập liệu huấn luyện: CASIA Webface • Tập liệu đánh giá: LFW • Áp dụng chuẩn hóa khn mặt dựa landmark (warping) • Làm giàu liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5) • Kích thước bó (batch size): 256 ảnh • Huấn luyện: 67 epoch (biểu đồ hàm lỗi gần khơng giảm nữa) • Hệ số học: 0.1 Momentum: 0.9 Weight Decay: 0.0005 • Giảm hệ số học epoch: 16, 32, 40 Hệ số giảm: 0.1 • Đánh giá: độ xác tốc độ xử lý • Q trình huấn luyện thực máy P100 5.3.3 Thí nghiệm huấn luyện mơ hình phát nhận diện khn mặt triển khai Jetson TX2 Thí nghiệm 4: huấn luyện mơ hình phát dùng kiến trúc mạng SSD300 Mạng phát khn mặt cho triển khai chương trình nhận diện khn mặt Jetson TX2 dùng SSD300 huấn luyện tập liệu khuôn mặt WIDER FACE Ưu điểm lớn phương pháp SSD nói chung là: end-to-end, tốc độ nhanh, độ xác tốt • Kiến trúc mạng: SSD300 • Tập liệu huấn luyện: WIDER FACE • Tập liệu đánh giá: PEOPLE20 • Làm giàu liệu: chỉnh màu ngẫu nhiên, chỉnh xám ngẫu nhiên, ngẫu nhiên cắt ảnh, ngẫu nhiên mở rộng ảnh, ngẫu nhiên lật ngang ảnh, ngẫu nhiên làm mờ, ngẫu nhiên gieo nhiễu, chuẩn hóa ảnh (mean = [104.0, 117.0, 123.0], std = [255.0, 255.0, 255.0]) • Kích thước bó (batch size): ảnh • Huấn luyện: 200 epoch (biểu đồ hàm lỗi gần khơng giảm nữa) • Hệ số học: 0.001 Momentum: 0.9 Weight Decay: 0.0005 • Giảm hệ số học epoch: 60,100, 130,150 Hệ số giảm: 0.5 • Đánh giá: độ xác tốc độ xử lý • Q trình huấn luyện thực máy P100 • Triển khai thực máy Jetson TX2 Thí nghiệm 5: huấn luyện mơ hình nhận diện Sphereface tương thích vói mơ hình phát SSD300 Mạng nhận diện khn mặt cần đầu vào chuẩn hóa theo quy cách xác định Vì ta phát khn mặt SSD cần dùng mơ hình mạng để phát khn mặt Từ đó, kết phát đầu SSD đưa vào mạng nhận diện Sphereface • Thí nghiệm tiến hành kiến trúc mạng Sphereface 20 lớp • Tập liệu huấn luyện: CASIA Webface • Tập liệu đánh giá: LFW • Áp dụng chuẩn hóa khn mặt dựa khn mặt phát mơ hình SSD300 huấn luyện thí nghiệm • Làm giàu liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cat ảnh ngẫu nhiên thêm biên ảnh pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5) • Kích thước bó (batch size): 256 ảnh • Huấn luyện tiếp từ mơ hình Sphereface trải qua: • Huấn luyện Sphereface phương pháp gốc đến epoch thứ 45 • Huấn luyện tiếp từ epoch thứ 45 đến epoch thứ 73 cho phép chuẩn hóa chỉnh khơng dùng warping (tương tự thí nghiệm 2) • Hệ số học: 0.01 Momentum: 0.9 Weight Decay: 0.0005 • Huấn luyện huấn luyện thêm epoch • Đánh giá: độ xác tốc độ xử lý • • Quá trình huấn luyện thực máy 1080, P100 Triển khai thực máy Jetson TX2 5.4 Kết thí nghiệm 5.4.1 Biểu đồ thống kê trình huấn luyện Các biểu đồ hàm lỗi, độ xác q trình huấn luyện kiểm thử Hệt kê hình bên Biểu đồ q trình huấn luyện mơ hình thí nghiệm 1: Hình 5-6 Biểu đồ huấn luyện thí nghiệm Sau huấn luyện 25 epoch tập liệu CASIA Webface, nhận thấy mơ hình huấn luyện để đạt lỗi nhỏ với độ xác cao Dùng mơ hình lưu epoch thứ 25 để tiếp tục huấn luyện đường lỗi gần không giảm dừng epoch thứ 70 Biểu đồ trình huấn luyện mơ hình thí nghiệm 2: Hình 5-7 Biểu đồ huấn luyện thí nghiệm checkpoint (training time: 55:01:43.028) Các hệ số học giảm giá trị thời điểm epoch 25, 40 50 Ta dễ dàng nhận thấy đường lỗi giảm mạnh epoch 24 40 Mơ hình hội tụ epoch 60 Biểu đồ q trình huấn luyện mơ hình thí nghiêm 3: Evaluation of Training #params=48,158,464; best accuracy =93.11% at chpt 17 9.0 8.1 7.2 6.3 5.4 s 4.5 3.6 2.7 £ 0.100 CT 00 Z = 0.050 E 0.025 1.8jB 0.000 0.9 15 22 29 36 43 50 57 64 69 checkpoint (training time: 39:04:41.214) Hình 5-8 Biểu đồ huấn luyện thí nghiệm MƠ hình huấn luyện hội tụ epoch thứ 43 Ở 20 epoch sau lỗi giảm độ xác kiểm thử tăng khơng nhiều Biểu đồ q trình huấn luyện mơ hình thí nghiệm 4: 8.0 Evaluation of Training #params=23r206J140; best accuracy =69.87% at chpt 150 7.2 6.4 5.6 4.8 s 40 3.2 2.4 1.6 0.8 a 0.00100 ’ 0.00075 g 0.00050 Ẹ 0.00025 0.00000 21 41 61 81 101 121 141 161 checkpoint (training time: 20:08:55.8041 181 200 Hình 5-9 Biểu đồ huấn luyện thí nghiệm Bộ liệu WIDER FACE với khuôn mặt nhỏ thử thách lớn SSD300 Do độ xác ước lượng huấn luyện kiểm thử đạt khoảng 60% Các khn mặt có kích thước nhỏ khơng nhận diện (hoặc bỏ qua) ảnh đầu vào có 300x300 Biểu đồ q trình huấn luyện mơ hình thí nghiêm 5: Hình 5-10 Biểu đồ huấn luyện thí nghiệm Qua nhiều lần transfer learning, mơ hình epoch để điều chỉnh chuẩn hóa ảnh đầu vào Mơ hình lưu epoch thứ 77 5.4.2 Kết đánh giá mơ hình Đánh giá độ xác cho phương pháp nhận diện Bảng thống kê kết đánh giá độ xác phương pháp: Bảng 5-1 Kết đánh giá mơ hình nhận diện khn mặt Mơ hình Dữ liệu Dữ liệu huấn luyện đánh giá Đơ xác (%) Ngưỡng đề xuất Sphereface gốc CASIA LFW 98.72 +- 0.50 0.3434 +0.0052 Sphereface khơng chuẩn hóa landmark CASIA LFW 98.60 +- 0.37 0.3221 +0.0009 CASIA LFW 98.88 +- 0.33 CASIA LFW 97.85 +- 0.43 Sphereface cai tiến Sphereface triển khai 0.3364 +0.0003 0.3426 +0.0009 Phương pháp Sphereface thực huấn luyện từ đầu đạt độ xác 98.72% tập đánh giá LFW Sphereface khơng dùng chuẩn hóa landmark đạt 98.60%, 0.12% Phương pháp đề xuất Sphereface cải tiến dùng kết nối dày đặc đạt độ xác cao 98.88%, tăng 0.16% so với phương pháp gốc Sphereface triển khai huấn luyện tiếp để tinh chỉnh đầu vào đạt độ xác 97.85% Qua số liệu thống kê ta thấy phép chuẩn hóa khn mặt giúp tăng độ xác so với khơng dùng Kiến trúc Sphereface dense connection cho thấy tính hiệu làm tăng nhẹ độ xác Sphereface triển khai huấn luyện tiếp thêm epoch nên chưa hội tụ hết, qua ta thấy việc làm tốt (refine) mơ hình từ trọng số huấn luyện sẵn mơ hình có giúp ta tiết kiệm nhiều thời gian huấn luyện deep learning Đây điểm ưu việt deep learning mà ta khai thác để huấn luyện đa dạng mơ hình tiếp mơ hình có Một số ảnh kết định tính cho kết nhận diện dùng mơ hình Sphereface: Hình 5-11 Nhận diện khn mặt nguực sáng ’ ’ 37 Hình 5-12 Nhận diện phân biệt nhiều khn mặt Hình 5-13 Nhận diện ngưòi lạ Đánh giá độ xác cho phưong pháp phát Kết đánh giá mAP cho mơ hình phát khn mặt SSD300 đạt giá trị 0.91 tập liệu đánh giá PEOPLE20 Tập liệu chứa hình ảnh khn mặt người có kích thước từ trung bình đến to toàn ảnh Giá trị mAP cao tập liệu thể phương pháp phát khuôn mặt SSD300 hoạt động tốt tập liệu đánh giá Nhược điểm SSD300 phát đối tượng nhỏ chưa tốt Muốn phát khuôn mặt nhỏ dùng S3FD [3] với đầu vào ảnh 640x640 để phát mặt với kích thước nhỏ trở lên Đánh đổi phát đối tượng đa dạng kích thước tốc độ xử lý Ảnh đầu vào lớn cho mạng deep learning thường nhiều thời gian huấn luyện tốc độ xử lý mặt triển khai ứng dụng hệ thống bo mạch Jetson TX2 dùng phương pháp SSD300 hợp lý Hình 5-14 Một số hình kết phát phương pháp SSD300 Kết đánh giá thời gian xử lý mơ hình Tốc độ thời gian inference mơ hình đánh giá dòng máy có card P4, 1080 P100 Các thí nghiệm đánh giá chạy card với cấu hình batch size 1, 4, 8, 16 Tốc độ khung hình giây (FPS) đo riêng cho inference mơ hình Các bước tiền, hậu xử lý khơng tính vào bảng kết đo bên Bảng 5-2 Tốc độ xử lý mơ hình nhận diện vái batch-size = Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 66.61 89.58 116.59 Sphereface cải tiến 64.82 91.96 113.78 Sphereface triển khai 71.36 93.26 121.90 Bảng 5-3 Tốc độ xử lý mơ hình nhận diện với batch-size = Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 153.49 169.38 361.19 Sphereface cải tiến 154.15 171.91 365.34 Sphereface triển khai 154.91 172.70 368.26 Bảng 5-4 Tốc độ xử lý mơ hình nhận diện vái batch-size = Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 164.15 181.00 396.85 Sphereface cải tiến 160.25 182.86 398.79 Sphereface triển khai 163.45 183.19 399.72 Bảng 5-5 Tốc độ xử lý mô hình nhận diện với batch-size = 16 Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 169.61 188.14 417.51 Sphereface cải tiến 167.86 189.22 419.15 Sphereface triển khai 168.76 189.41 416.92 Nhằm mục đích có nhìn trực quan so sánh tốc độ xử lý mơ hình học sâu dòng card đồ họa Biểu đồ so sánh tốc độ xử lý mơ hình mạng Sphereface cải tiến biểu diễn hình bên Đánh giá tốc độ xử lý mơ hình Sphereface cải tiến ■ P4 Hình 5-15 Biểu đồ so sánh tốc độ xử lý mơ hình Sphereface cải tiến máy Qua bảng thống kê tốc độ xử lý kiến trúc mơ hình nhận diện Sphereface nói phiên bảng Sphereface có tốc độ xử lý ngang Tốc độ xử lý P100 cao nhất, thấp máy P4 Dòng card P4 loại card chun cho tính tốn inference hỗ trợ framework NVIDA cung cấp TensorRT, Deepstream Máy 1080 có tốc độ xử lý tốt, 40 lượng GPU RAM ổn Dòng card vừa thích hợp cho render đồ họa game thử nghiêm huấn luyện mơ hình deep learning nhờ giá thành hợp lý Tốc độ xử lý phát nhận diện khuôn mặt chạy Jetson TX2 đạt 5.45 EPS Đo đạt tốc độ bao gồm tát bước từ tiền xử lý, inference hậu xử lý cho hai bước phát nhận diện Tốc độ khoảng khung hình giây board nhúng chạy mơ hình deep learning số hợp lý Vì thơng thường người ta phải dùng card đồ họa khác mạnh hom để chạy mơ hình deep learning tính chất nố cố khối lượng tính tốn cục lớn mà chưa thể làm tốt CPU Máy Jetson TX2 có kích thước nhỏ gọn giá thành rẻ so với dòng card P4, 1080 nên phù hợp cho việc triển khai ứng dụng thực tế Hình bên hình chụp ứng dụng demo máy Jetson TX2 Hình 5-16 Xử lý trực tuyến nhận diện khuôn mặt Jetson TX2 KẾT LUẬN VÃ HƯỚNG PHÁT TRIỂN Đề tài thí nghiệm huấn luyện mơ hình phát nhận khuôn mặt học sâu (deep learning) Các kết cho thấy khả nhận diện khuôn mặt mô hình deep learning mạnh mẽ Bên cạnh đó, tảng phần cứng card đồ họa hệ thống nhúng đủ đáp ứng cho mô hình phát nhận diện khn mặt Deep learning xu ngày nhiều ứng dụng thông minh dần xâm nhập vào đời sống người Nhận diện khuôn mặt phần nhỏ lĩnh vực giám sát an ninh lại có vai trò cốt lõi Thơng tin nhận diện người không riêng khuôn mặt, số thông tin khác hữu ích chưa khai thác nhiều dáng đi, hình thể người Trong tương lai khơng xa, giám sát an ninh kết hợp nhận diện khn mặt, nhận diện hình thể nhận diện giọng nói để tạo nên giải pháp giám sát an ninh thông minh Một giải pháp an ninh thông minh triển khai sâu rộng mang đến xã hội an toàn văn minh đặt bên tảng trí tuệ nhân tạo vững DANH MỤC TÀI LIỆU THAM KHẢO [1] w Liu, Y Wen, z Yu, M Li, B Raj and L Song, "Sphereface: Deep hypersphere embedding for face recognition," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 [2] K Zhang, z Zhang, z Li and Y Qiao, "Joint face detection and alignment using multitask cascaded convolutional networks," IEEE Signal Processing Letters, vol 23, pp 1499-1503, 2016 [3] s Zhang, X Zhu, z Lei, H Shi, X Wang and s z Li, "S' 3FD: Single Shot ScaleInvariant Face Detector," in Computer Vision (ICCV), 2017 IEEE International Conference on, 2017 [4] s Ren, K He, R Ghshick and J Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," in Advances in neural information processing systems, 2015 [5] Y Wen, K Zhang, z Li and Y Qiao, "A discriminative feature learning approach for deep face recognition," in European Conference on Computer Vision, 2016 [6] F Schroff, D Kalenichenko and J Philbin, "Facenet: A unified embedding for face recognition and clustering," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015 [7] o M Parkhi, A Vedaldi, A Zisserman and others, "Deep face recognition.," in BMVC, 2015 [8] p Viola and M J Jones, "Robust real-time face detection," International journal of computer vision, vol 57, pp 137-154, 2004 [9] V Jain and E Learned-Miller, "FDDB: A Benchmark for Face Detection in Unconstrained Settings," 2010 [10] w Liu, D Anguelov, D Erhan, c Szegedy, s Reed, C.-Y Fu and A c Berg, "Ssd: Single shot multibox detector," in European conference on computer vision, 2016 [11] K Simonyan and A Zisserman, "Very deep convolutional networks for largescale image recognition," arXiv preprint arXiv:1409.1556, 2014 [12] J Redmon, s Divvala, R Ghshick and A Farhadi, "You only look once: Unified, real-time object detection," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 [13] J Redmon and A Farhadi, "YOLO9000: better, faster, stronger," arXiv preprint, 2017 [14] J Redmon and A Farhadi, "Yolov3: An incremental improvement," arXiv preprint arXiv:1804.02767, 2018 [15] I J Goodfellow, D Warde-Farley, M Mhza, A Courville and Y Bengio, "Maxout networks," arXivpreprint arXiv:1302.4389, 2013 [16] K He, X Zhang, s Ren and J Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 [17] G Huang, z Liu, L Van Der Maaten and K Q Weinberger, "Densely connected convolutional networks.," in CVPR, 2017 [18] "Pytorch," [Online] Available: https://pytorch.org/ [Accessed 12 2018] [19] "TensorRT," [Online] Available: https://developer.nvidia.com/tensorrt [Accessed 12 2018] [20] "Tensorflow," [Online] Available: https://www.tensorflow.org/ [Accessed 12 2018] [21] "MXNet," [Online] Available: https://mxnet.apache.org/ [Accessed 12 2018] [22] "ONNX," [Online] Available: https://github.com/onnx/onnx [Accessed 12 2018], [23] "onnx-tensorrt," [Online] Available: https://github.com/onnx/onnx-tensorrt [Accessed 12 2018] [24] s Yang, p Luo, C.-C Loy and X Tang, "Wider face: A face detection benchmark," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 LÝ LỊCH TRÍCH NGANG • Họ tên: Nguyễn Hoàng Minh Ngày, tháng, năm sinh: 03/06/1992 Nơi sinh: TP Hồ Chí Minh Địa liên lạc: 8/72A, Lý Thường Kiệt, Hóc Mơn, TP HCM Q TRÌNH ĐÀO TẠO Thời gian Trường 2010-2015 2016-2018 Q TRÌNH CƠNG TÁC Thời gian Đại học Bách Khoa TP HCM (Sinh viên đại học) Đại học Bách Khoa TP HCM (Học viên cao học) Nơi công tác Chức vụ 2016-2017 Công ty Novobi Lập trình viên 2016-2018 Bộ mơn khoa học máy tính Trợ giảng 2017-hiện Phòng thí nghiệm GVLab Nghiên cứu viên ... I TÊN ĐỀ TÀI: Nhận diện khuôn mặt Deep Learning (Face recognition with deep learning) II NHIỆM VỤ VÀ NỘI DUNG: Đề tài tìm hiểu thực phương pháp nhận diện khn mặt Deep Learning Từ đề... nhận diện khuôn mặt tiên tiến Từ tìm hiểu nghiên cứu để đưa đề xuất cải tiến hiệu cho tốn nhận diện khn mặt từ hình ảnh / camera cách sử dụng deep learning 1.3 Ý nghĩa đề tài Việc nhận diện khuôn. .. LIÊN QUAN 2.1 Tông quan hướng nghiên cứu tốn nhận diện khn mặt Bài tốn nhận diện khuôn mặt ảnh tự nhiên xử lý qua giai đoạn: phát khuôn mặt nhận diện khn mặt Hai mơ hình mạng độc lập nhau, đàu mạng

Định dạng
Số trang	59
Dung lượng	1,01 MB