Nhận diện khuôn mặt bằng deep learning

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HỒNG MINH NHẬN DIỆN KHN MẶT BẰNG DEEP LEARNING Ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG - HCM Cán hướng dẫn khoa học: TS Lê Thành Sách…………………………… ……………………………………………………………………………… Cán chấm nhận xét 1: PGS.TS Lê Hoàng Thái ………………………… ……………………………………………………………………………… Cán chấm nhận xét 2: TS Nguyễn Hồ Mẫn Rạng……………………… ……………………………………………………………………………… Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 26 tháng 12 năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Quản Thành Thơ TS Phạm Hoàng Anh PGS.TS Lê Hoàng Thái TS Nguyễn Hồ Mẫn Rạng TS Nguyễn An Khương Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KTMT i ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Hoàng Minh MSHV: 1570740… Ngày, tháng, năm sinh: 03/06/1992 Nơi sinh: TP HCM Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: Nhận diện khuôn mặt Deep Learning (Face recognition with deep learning)……………………………………………………………… …………………………………………………………………………………… II NHIỆM VỤ VÀ NỘI DUNG: Đề tài tìm hiểu thực phương pháp nhận diện khuôn mặt Deep Learning Từ đề xuất cải tiến phương pháp định hướng triển khai ứng dụng……………………………………………… III NGÀY GIAO NHIỆM VỤ : 26/02/2018…………………………………… IV NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2018………………………… V CÁN BỘ HƯỚNG DẪN: TS Lê Thành Sách………………………………… ……………………………………………………………………………………… Tp HCM, ngày … tháng … năm … CÁN BỘ HƯỚNG TRƯỞNG KHOA KH & KTMT DẪN (Họ tên chữ ký) (Họ tên chữ ký) ii LỜI CẢM ƠN Khoảng thời gian theo học chương trình cao học trường Đại học Bách Khoa thành phố Hồ Chí Minh mang lại nhiều trải nghiệm hữu ích kiến thức, sống Những người bên cạnh xuyên suốt, đặc biệt giai đoạn thực luận văn, mang đến cho nguồn động viên, quan tâm giúp đỡ gia đình, thầy cơ, bạn bè Tôi xin gửi lời cảm ơn sâu sắc đến với gia đình nhỏ mình, người chung tổ ấm: ba, mẹ anh trai Sau học, làm mệt mỏi ngày, nơi ta trở khơng đâu khác nhà Ba mẹ động viên âm thầm đứng sau ủng hộ tơi lúc tơi khó khăn Lời cảm ơn chân thành mà muốn gửi đến người thầy tận tâm hướng dẫn suốt thời gian vừa qua, Tiến sĩ Lê Thành Sách Thầy người giỏi chuyên môn, giải đáp thắc mắc định hướng giải vấn đề cho năm qua Thầy người dìu dắt, mở chân trời kiến thức chập chững bắt đầu nghiên cứu đề tài từ giai đoạn Tôi xin gửi lời cảm ơn đến ban quản lý phịng thí nghiệm ACLab phòng 301B9 tạo điều kiện cho tơi có khơng gian nghiên cứu làm luận văn tốt Bên cạnh đó, tơi cảm ơn đến thành viên thuộc nhóm nghiên cứu GVLab thầy Lê Thành Sách dành thời gian hỗ trợ thời gian vừa qua Một lời cảm ơn thiếu nguồn tài ngun máy tính hỗ trợ đến từ nhóm nghiên cứu HPCLab thầy Thoại Nam Tôi xin cảm ơn đến thầy khoa Khoa học Kỹ thuật Máy tính, đặc biệt thầy cô tham gia giảng dạy mơn chương trình cao học mà tơi theo học Các thầy cô người trang bị, trau dồi thêm cho kiến thức tảng, kĩ nghiên cứu, kĩ tìm hiểu giải vấn đề học thuật sống thực tế Cuối muốn gửi lời cảm ơn to lớn đến trường Đại học Bách Khoa thành phố Hồ Chí Minh, nơi tơi theo học từ qng thời gian đại học Tôi xin cảm ơn ban giám hiệu nhà trường, thầy phịng sau đại học, văn phịng khoa Khoa học Kỹ thuật Máy tính, cô nhân viên trường tạo môi trường học tập thật tốt cho nhiều sinh viên, học viên Một lần nữa, xin chân thành cảm ơn! Nguyễn Hồng Minh 02/12/2018 iii TĨM TẮT LUẬN VĂN Những tiến vượt bậc công nghệ mang đến nhiều ứng dụng nhiều lĩnh vực đời sống Đặc biệt, ngành công nghệ thơng tin ngành có tốc độ phát triển nhanh giúp cải thiện rõ rệt sống Những năm gần đây, cải tiến mạng nơ-ron nhân tạo lĩnh vực học sâu mang đến kết vượt trội so với phương pháp xử lý ảnh kiểu truyền thống Từ đó, hàng loạt ứng dụng thơng minh dần tiếp cận tới người như: nhận diện khuôn mặt, nhận diện giọng nói, nhận diện biển số xe, đếm đối tượng, theo vết đối tượng, chẩn đoán ảnh y khoa, Trong đó, ứng dụng liên quan đến giám sát an ninh xã hội quan trọng giành nhiều quan tâm từ quan quản lý Nhận diện khuôn mặt cách thức để giám sát an ninh An toàn xã hội cần thiết nơi, số địa điểm / đơn vị cần mức độ an ninh cao bình thường là: cửa hàng siêu thị, tịa nhà cơng ty, chung cư cao cấp, trung tâm mua sắm, tịa nhà cao tầng, quan cơng an, doanh trại quân đội, an ninh quốc phòng, Việc kiểm sốt rõ ràng vào theo danh tính khn mặt góp phần đảm bảo an ninh việc tự động giám sát qua camera Nhận diện danh tính qua khn mặt khơng lõi cốt yếu ngành an ninh, mà cịn áp dụng nhiều lĩnh vực khác như: chăm sóc khách hàng doanh nghiệp, điểm danh học sinh / sinh viên ngành giáo dục, giám sát trẻ nhỏ lớp học (từ phát cảnh báo bất thường), Ứng dụng nhận diện khn mặt cịn áp dụng với ứng dụng thông minh khác nhằm mang đến giải pháp quản lý giám sát hồn thiện Ứng dụng nhận diện khn mặt từ hình ảnh có hai thành phần cốt lõi: phát khn mặt ảnh nhận diện danh tính khn mặt Hai thành phần nối liên tiếp tạo thành ứng dụng hoàn chỉnh cho phép nhận diện khn mặt hình ảnh / video Hình ảnh khuôn mặt phát mô-đun phát khuôn mặt trích xuất chuyển qua mơ-đun nhận diện Phát khn mặt tốn kinh điển xử lý ảnh, đề tài luận văn khảo sát báo phát khuôn mặt Nhận diện ảnh khn mặt đề tài nóng hổi báo gần cách áp dụng mạng học sâu nơ-ron nhân tạo Báo cáo nêu thí nghiệm cải tiến cho bước phương pháp nhận diện khuôn mặt iv ABSTRACT Nowadays, computer science grows quickly and it brings many applications to human life Especially, information technology is one of the fastest growing domains in the world, it makes human life become better In recent years, neural networks in deep learning outperforms with the traditional methods in image processing So, there are many smart applications such as: face recognition, voice recognition, licence plate recognition, object counting, object tracking, medical image 3D visualization, … Security surveillance is very important and takes many attentions from government Face recognition is one of many ways to get security surveillance Safe social is necessary, some places / units require high security level such as: supermarkets, buildings, apartments, malls, skyscrapers, military areas, We are able to control the security by recognizing human face automatically with multiple of cameras Face recognition is not only an essential core of security domain, but also it applies to many other domains: customer service, checking student attendance, children surveillance for safety, Face recognition application together with other smart technologies give us a solution in security surveillance Face recognition in wild has two parts: face detection and face recognition These two parts are the essential components of face recognition flow in video The faces detected by face detection module will be fed to the recognition module Face detection has been researched for a long time, this report surveys many papers related to face detection Face recognition is also a hot subject of many recent papers by applying deep neural network The report proposes an improvement for face recognition flow v LỜI CAM ĐOAN Các tài liệu, báo, trang web mà tơi tham khảo q trình thực luận văn trích dẫn đầy đủ rõ ràng nguồn gốc trình bày mục tài liệu tham khảo Tơi xin cam đoan ngồi trích dẫn tham khảo trên, toàn nội dung báo cáo tự soạn thảo từ kết nghiên cứu tham gia thực kết nhóm nghiên cứu GVLab thầy Lê Thành Sách hướng dẫn, khơng chép từ tài liệu khác Tơi hồn tồn chịu xử lý theo qui định có sai phạm so với lời cam kết Nguyễn Hoàng Minh vi MỤC LỤC TỔNG QUAN 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài 1.3 Ý nghĩa đề tài 1.3.1 Ý nghĩa thực tiễn 1.3.2 Ý nghĩa khoa học 1.4 Phạm vi đề tài 1.5 Bố cục luận văn CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 2.1 Tổng quan hướng nghiên cứu tốn nhận diện khn mặt 2.2 Tổng quan phương pháp phát khuôn mặt 2.1.1 Multi-task Cascaded Convolutional Networks (MTCNN) 2.2.2 Single Shot MultiBox Detector (SSD) 2.2.3 Single Shot Scale-invariant Face Detector (S3FD) 2.3 Tổng quan phương pháp nhận diện khuôn mặt 2.3.1 Facenet: triplet loss 2.3.2 Center Loss 2.3.3 Sphereface 11 2.4 Tổng kết nhận xét 12 CƠ SỞ LÝ THUYẾT 13 3.1 Chuẩn hóa liệu (data normalization) 13 3.2 Làm giàu liệu (data augmentation) 13 3.3 Tích chập miền rời rạc (convolution) 15 3.4 Mạng nơ-ron truyền thẳng nhiều lớp 17 3.4.1 Mạng nơ-ron truyền thẳng nhiều lớp (MLP) 17 3.4.2 Hàm kích hoạt sigmoid 18 vii 3.4.3 Hàm kích hoạt 19 3.4.4 Giải thuật Gradient Descent 19 3.5 Mạng nơ-ron tích chập (CNN) 19 3.6 Hàm lỗi cross entropy 21 3.7 Kết nối dày đặc (dense connection) 21 PHƯƠNG PHÁP ĐỀ XUẤT 23 4.1 Cải tiến kiến trúc mạng Sphereface 23 4.2 Triển khai mơ hình nhận diện Jetson TX2 24 CÁC THÍ NGHIỆM VÀ KẾT QUẢ THÍ NGHIỆM 26 5.1 Tập liệu 26 5.1.1 Tập liệu huấn luyện 26 5.1.2 Tập liệu đánh giá 27 5.2 Phương pháp đánh giá 28 5.2.1 Kiểm thử chéo 28 5.2.2 Chỉ số độ xác mAP 29 5.3 Thí nghiệm phương pháp nhận diện 30 5.3.1 Thí nghiệm huấn luyện mạng nhận diện Sphereface 30 5.3.2 Thí nghiệm huấn luyện Sphereface theo phương pháp đề xuất 32 5.3.3 Thí nghiệm huấn luyện mơ hình phát nhận diện khuôn mặt triển khai Jetson TX2 32 5.4 Kết thí nghiệm 34 5.4.1 Biểu đồ thống kê trình huấn luyện 34 5.4.2 Kết đánh giá mơ hình 36 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 DANH MỤC TÀI LIỆU THAM KHẢO 43 viii DANH MỤC HÌNH ẢNH Hình 2-1 Mơ hình nhận diện khn mặt ảnh tự nhiên Hình 2-2 Kiến trúc mạng MTCNN Hình 2-3 Các chặng xử lý MTCNN Hình 2-4 Kiến trúc mạng SSD300 Hình 2-5 Kiến trúc mạng phát khuôn mặt S3FD Hình 2-6 Minh họa ý tưởng Triplet Loss Hình 2-7 Hiệu ứng hành xử mơ hình học Center Loss cho toán phân loại ký tự MNIST 10 Hình 2-8 Kiến trúc mạng phương pháp Center Loss 10 Hình 2-9 Các cấu hình kiến trúc mạng Sphereface 11 Hình 3-1 Ảnh từ trái qua: ảnh gốc, ảnh lật ngang, ảnh lật dọc 14 Hình 3-2 Ảnh gieo nhiễu 14 Hình 3-3 Ảnh biến đổi xám 15 Hình 3-4 Ảnh điều chỉnh màu ngẫu nhiên 15 Hình 3-5 Ví dụ ảnh đầu vào cho phép convolution 16 Hình 3-6 Ảnh đầu sau áp dụng toán tử convolution 17 Hình 3-7 Minh họa mạng nơ-ron truyền thẳng nhiều lớp (MLP) 18 Hình 3-8 Minh họa việc tính tốn giá trị nút 18 Hình 3-9 Các kiến trúc mạng học sâu VGG [11], mạng điển hình CNN 20 Hình 3-10 Biểu đồ hàm mát q trình huấn luyện mơ hình mạng CenterLoss 21 Hình 3-11 Kết nối phép cộng kết nối dày đặc 22 Hình 4-1 Kiến trúc mạng cải tiến dùng phép nối thay phép cộng skip connection 23 Hình 4-2 Quy trình triển khai mơ hình từ framework Pytorch sang TensorRT chạy máy Jetson TX2 25 Hình 5-1 Một số hình ảnh trích từ tập CASIA Webface 26 Hình 5-2 Các hiệu ứng tập liệu WIDER FACE 27 Hình 5-3 Một số hình ảnh tập liệu LFW 27 Hình 5-4 Một số hình ảnh từ tập liệu PEOPLE20 28 Hình 5-5 Bo nhúng Jetson TX2 hộp nhôm 30 Hình 5-6 Biểu đồ huấn luyện thí nghiệm 34 Hình 5-7 Biểu đồ huấn luyện thí nghiệm 35 Hình 5-8 Biểu đồ huấn luyện thí nghiệm 35 Hình 5-9 Biểu đồ huấn luyện thí nghiệm 36 ix Mục đích thí nghiệm dựng lại phương pháp Sphereface báo gốc [1] Kiến trúc mạng lựa chọn Sphereface 20 lớp khơng q sâu kết độ xác báo cáo báo gốc mức tương đối cao (99.26%) gần đạt Sphereface 64 lớp (99.42%) • Thí nghiệm tiến hành kiến trúc mạng Sphereface 20 lớp • Tập liệu huấn luyện: CASIA Webface • Tập liệu đánh giá: LFW • Áp dụng chuẩn hóa khn mặt dựa landmark (warping) • Làm giàu liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5) • Kích thước bó (batch size): 256 ảnh • Huấn luyện: 70 epoch (biểu đồ hàm lỗi gần khơng giảm nữa) • Hệ số học: 0.1 Momentum: 0.9 Weight Decay: 0.0005 • Giảm hệ số học epoch: 10, 15, 18 Hệ số giảm cho hệ số học: 0.1 • Sau huấn luyện 25 epoch đầu, dùng tiếp mơ hình lưu epoch thứ 25 để huấn luyện tiếp với hệ số học 0.01 Thiết lập giảm hệ số học epoch 45, 60 • Đánh giá: độ xác tốc độ xử lý • Q trình huấn luyện thực máy 1080 Thí nghiệm 2: huấn luyện mạng nhận diện Sphereface 20 lớp với cách chỉnh khuôn mặt kiểu đơn giản Thử nghiệm mục đích kiểm chứng kiến trúc mạng đầu vào ảnh khơng áp dụng chuẩn hóa chỉnh khn mặt Thay vào đó, từ điểm landmark, ta áp dụng tính tốn đơn giản để cắt vùng khn mặt chỉnh kích thước ảnh cao 112 pixel rộng 96 pixel • Thí nghiệm tiến hành kiến trúc mạng Sphereface 20 lớp • Tập liệu huấn luyện: CASIA Webface • Tập liệu đánh giá: LFW • Áp dụng cắt ảnh khn mặt quanh vùng landmark • Làm giàu liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5) • Kích thước bó (batch size): 256 ảnh • Huấn luyện: 60 epoch (biểu đồ hàm lỗi gần khơng giảm nữa) 31 • Hệ số học: 0.1 Momentum: 0.9 Weight Decay: 0.0005 • Giảm hệ số học epoch: 25, 40, 50 Hệ số giảm: 0.1 • Đánh giá: độ xác tốc độ xử lý • Q trình huấn luyện thực máy 1080 5.3.2 Thí nghiệm huấn luyện Sphereface theo phương pháp đề xuất Thí nghiệm 3: huấn luyện mạng nhận diện Sphereface 20 lớp với kết nối dày đặc (dense connection) Thí nghiệm muốn kiểm chứng tính hiệu kết nối dày đặc so với kết nối đồ đặc trưng phép cộng • Thí nghiệm tiến hành kiến trúc mạng Sphereface 20 lớp, ta thay phép cộng residual block thành phép nối (concat), kết nối dày đặc giúp mạng dễ học đặc trưng trích xuất tốt kết hợp khối đồ đặc trưng lại với • Tập liệu huấn luyện: CASIA Webface • Tập liệu đánh giá: LFW • Áp dụng chuẩn hóa khn mặt dựa landmark (warping) • Làm giàu liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5) • Kích thước bó (batch size): 256 ảnh • Huấn luyện: 67 epoch (biểu đồ hàm lỗi gần khơng giảm nữa) • Hệ số học: 0.1 Momentum: 0.9 Weight Decay: 0.0005 • Giảm hệ số học epoch: 16, 32, 40 Hệ số giảm: 0.1 • Đánh giá: độ xác tốc độ xử lý • Q trình huấn luyện thực máy P100 5.3.3 Thí nghiệm huấn luyện mơ hình phát nhận diện khn mặt triển khai Jetson TX2 Thí nghiệm 4: huấn luyện mơ hình phát dùng kiến trúc mạng SSD300 Mạng phát khn mặt cho triển khai chương trình nhận diện khuôn mặt Jetson TX2 dùng SSD300 huấn luyện tập liệu khuôn mặt WIDER FACE Ưu điểm lớn phương pháp SSD nói chung là: end-to-end, tốc độ nhanh, độ xác tốt • Kiến trúc mạng: SSD300 32 • Tập liệu huấn luyện: WIDER FACE • Tập liệu đánh giá: PEOPLE20 • Làm giàu liệu: chỉnh màu ngẫu nhiên, chỉnh xám ngẫu nhiên, ngẫu nhiên cắt ảnh, ngẫu nhiên mở rộng ảnh, ngẫu nhiên lật ngang ảnh, ngẫu nhiên làm mờ, ngẫu nhiên gieo nhiễu, chuẩn hóa ảnh (mean = [104.0, 117.0, 123.0], std = [255.0, 255.0, 255.0]) • Kích thước bó (batch size): ảnh • Huấn luyện: 200 epoch (biểu đồ hàm lỗi gần khơng giảm nữa) • Hệ số học: 0.001 Momentum: 0.9 Weight Decay: 0.0005 • Giảm hệ số học epoch: 60, 100, 130, 150 Hệ số giảm: 0.5 • Đánh giá: độ xác tốc độ xử lý • Q trình huấn luyện thực máy P100 • Triển khai thực máy Jetson TX2 Thí nghiệm 5: huấn luyện mơ hình nhận diện Sphereface tương thích với mơ hình phát SSD300 Mạng nhận diện khuôn mặt cần đầu vào chuẩn hóa theo quy cách xác định Vì ta phát khn mặt SSD cần dùng mơ hình mạng để phát khn mặt Từ đó, kết phát đầu SSD đưa vào mạng nhận diện Sphereface • Thí nghiệm tiến hành kiến trúc mạng Sphereface 20 lớp • Tập liệu huấn luyện: CASIA Webface • Tập liệu đánh giá: LFW • Áp dụng chuẩn hóa khn mặt dựa khn mặt phát mơ hình SSD300 huấn luyện thí nghiệm • Làm giàu liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5) • Kích thước bó (batch size): 256 ảnh • Huấn luyện tiếp từ mơ hình Sphereface trải qua: • Huấn luyện Sphereface phương pháp gốc đến epoch thứ 45 • Huấn luyện tiếp từ epoch thứ 45 đến epoch thứ 73 cho phép chuẩn hóa chỉnh khơng dùng warping (tương tự thí nghiệm 2) • Hệ số học: 0.01 Momentum: 0.9 Weight Decay: 0.0005 • Huấn luyện huấn luyện thêm epoch • Đánh giá: độ xác tốc độ xử lý 33 • Q trình huấn luyện thực máy 1080, P100 • Triển khai thực máy Jetson TX2 5.4 Kết thí nghiệm 5.4.1 Biểu đồ thống kê trình huấn luyện Các biểu đồ hàm lỗi, độ xác trình huấn luyện kiểm thử liệt kê hình bên Biểu đồ trình huấn luyện mơ hình thí nghiệm 1: Hình 5-6 Biểu đồ huấn luyện thí nghiệm Sau huấn luyện 25 epoch tập liệu CASIA Webface, nhận thấy mơ hình cịn huấn luyện để đạt lỗi nhỏ với độ xác cao Dùng mơ hình lưu epoch thứ 25 để tiếp tục huấn luyện đường lỗi gần khơng giảm dừng epoch thứ 70 Biểu đồ q trình huấn luyện mơ hình thí nghiệm 2: 34 Hình 5-7 Biểu đồ huấn luyện thí nghiệm Các hệ số học giảm giá trị thời điểm epoch 25, 40 50 Ta dễ dàng nhận thấy đường lỗi giảm mạnh epoch 24 40 Mơ hình hội tụ epoch 60 Biểu đồ q trình huấn luyện mơ hình thí nghiệm 3: Hình 5-8 Biểu đồ huấn luyện thí nghiệm Mơ hình huấn luyện hội tụ epoch thứ 43 Ở 20 epoch sau lỗi giảm độ xác kiểm thử tăng khơng nhiều Biểu đồ q trình huấn luyện mơ hình thí nghiệm 4: 35 Hình 5-9 Biểu đồ huấn luyện thí nghiệm Bộ liệu WIDER FACE với khuôn mặt nhỏ thử thách lớn SSD300 Do độ xác ước lượng huấn luyện kiểm thử đạt khoảng 60% Các khn mặt có kích thước nhỏ khơng nhận diện (hoặc bỏ qua) ảnh đầu vào có 300x300 Biểu đồ q trình huấn luyện mơ hình thí nghiệm 5: Hình 5-10 Biểu đồ huấn luyện thí nghiệm Qua nhiều lần transfer learning, mơ hình epoch để điều chỉnh chuẩn hóa ảnh đầu vào Mơ hình lưu epoch thứ 77 5.4.2 Kết đánh giá mơ hình Đánh giá độ xác cho phương pháp nhận diện Bảng thống kê kết đánh giá độ xác phương pháp: 36 Bảng 5-1 Kết đánh giá mơ hình nhận diện khn mặt Mơ hình Dữ liệu huấn luyện Dữ liệu đánh giá Độ xác (%) Ngưỡng đề xuất Sphereface gốc CASIA LFW 98.72 +- 0.50 0.3434 +0.0052 Sphereface khơng chuẩn hóa landmark CASIA LFW 98.60 +- 0.37 0.3221 +0.0009 Sphereface cải tiến CASIA LFW 98.88 +- 0.33 0.3364 +0.0003 Sphereface triển khai CASIA LFW 97.85 +- 0.43 0.3426 +0.0009 Phương pháp Sphereface thực huấn luyện từ đầu đạt độ xác 98.72% tập đánh giá LFW Sphereface khơng dùng chuẩn hóa landmark đạt 98.60%, 0.12% Phương pháp đề xuất Sphereface cải tiến dùng kết nối dày đặc đạt độ xác cao 98.88%, tăng 0.16% so với phương pháp gốc Sphereface triển khai huấn luyện tiếp để tinh chỉnh đầu vào đạt độ xác 97.85% Qua số liệu thống kê ta thấy phép chuẩn hóa khn mặt giúp tăng độ xác so với khơng dùng Kiến trúc Sphereface dense connection cho thấy tính hiệu làm tăng nhẹ độ xác Sphereface triển khai huấn luyện tiếp thêm epoch nên chưa hội tụ hết, qua ta thấy việc làm tốt (refine) mơ hình từ trọng số huấn luyện sẵn mơ hình có giúp ta tiết kiệm nhiều thời gian huấn luyện deep learning Đây điểm ưu việt deep learning mà ta khai thác để huấn luyện đa dạng mơ hình tiếp mơ hình có Một số ảnh kết định tính cho kết nhận diện dùng mơ hình Sphereface: Hình 5-11 Nhận diện khn mặt ngược sáng 37 Hình 5-12 Nhận diện phân biệt nhiều khn mặt Hình 5-13 Nhận diện người lạ Đánh giá độ xác cho phương pháp phát Kết đánh giá mAP cho mơ hình phát khn mặt SSD300 đạt giá trị 0.91 tập liệu đánh giá PEOPLE20 Tập liệu chứa hình ảnh khn mặt người có kích thước từ trung bình đến to toàn ảnh Giá trị mAP cao tập liệu thể phương pháp phát khuôn mặt SSD300 hoạt động tốt tập liệu đánh giá Nhược điểm SSD300 phát đối tượng nhỏ chưa tốt Muốn phát khuôn mặt nhỏ dùng S3FD [3] với đầu vào ảnh 640x640 để phát mặt với kích thước nhỏ trở lên Đánh đổi phát đối tượng đa dạng kích thước tốc độ xử lý Ảnh đầu vào lớn cho mạng deep learning thường nhiều thời gian huấn luyện tốc độ xử lý Về mặt triển khai ứng dụng hệ thống bo mạch Jetson TX2 dùng phương pháp SSD300 hợp lý 38 Hình 5-14 Một số hình kết phát phương pháp SSD300 Kết đánh giá thời gian xử lý mơ hình Tốc độ thời gian inference mơ hình đánh giá dịng máy có card P4, 1080 P100 Các thí nghiệm đánh giá chạy card với cấu hình batch size 1, 4, 8, 16 Tốc độ khung hình giây (FPS) đo riêng cho inference mơ hình Các bước tiền, hậu xử lý khơng tính vào bảng kết đo bên Bảng 5-2 Tốc độ xử lý mơ hình nhận diện với batch-size = Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 66.61 89.58 116.59 Sphereface cải tiến 64.82 91.96 113.78 Sphereface triển khai 71.36 93.26 121.90 Bảng 5-3 Tốc độ xử lý mô hình nhận diện với batch-size = Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 153.49 169.38 361.19 Sphereface cải tiến 154.15 171.91 365.34 Sphereface triển khai 154.91 172.70 368.26 39 Bảng 5-4 Tốc độ xử lý mơ hình nhận diện với batch-size = Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 164.15 181.00 396.85 Sphereface cải tiến 160.25 182.86 398.79 Sphereface triển khai 163.45 183.19 399.72 Bảng 5-5 Tốc độ xử lý mơ hình nhận diện với batch-size = 16 Mơ hình Tốc độ xử lý (FPS) P4 1080 P100 Sphereface gốc 169.61 188.14 417.51 Sphereface cải tiến 167.86 189.22 419.15 Sphereface triển khai 168.76 189.41 416.92 Nhằm mục đích có nhìn trực quan so sánh tốc độ xử lý mô hình học sâu dịng card đồ họa Biểu đồ so sánh tốc độ xử lý mơ hình mạng Sphereface cải tiến biểu diễn hình bên Hình 5-15 Biểu đồ so sánh tốc độ xử lý mơ hình Sphereface cải tiến máy Qua bảng thống kê tốc độ xử lý kiến trúc mơ hình nhận diện Sphereface nói phiên bảng Sphereface có tốc độ xử lý ngang Tốc độ xử lý P100 cao nhất, thấp máy P4 Dòng card P4 loại card chun cho tính tốn inference hỗ trợ framework NVIDA cung cấp TensorRT, Deepstream Máy 1080 có tốc độ xử lý tốt, 40 lượng GPU RAM ổn Dịng card vừa thích hợp cho render đồ họa game thử nghiệm huấn luyện mơ hình deep learning nhờ giá thành hợp lý Tốc độ xử lý phát nhận diện khuôn mặt chạy Jetson TX2 đạt 5.45 FPS Đo đạt tốc độ bao gồm tất bước từ tiền xử lý, inference hậu xử lý cho hai bước phát nhận diện Tốc độ khoảng khung hình giây board nhúng chạy mơ hình deep learning số hợp lý Vì thơng thường người ta phải dùng card đồ họa khác mạnh để chạy mơ hình deep learning tính chất có khối lượng tính toán cực lớn mà chưa thể làm tốt CPU Máy Jetson TX2 có kích thước nhỏ gọn giá thành rẻ so với dòng card P4, 1080 nên phù hợp cho việc triển khai ứng dụng thực tế Hình bên hình chụp ứng dụng demo máy Jetson TX2 Hình 5-16 Xử lý trực tuyến nhận diện khuôn mặt Jetson TX2 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Đề tài thí nghiệm huấn luyện mơ hình phát nhận khuôn mặt học sâu (deep learning) Các kết cho thấy khả nhận diện khuôn mặt mơ hình deep learning mạnh mẽ Bên cạnh đó, tảng phần cứng card đồ họa hệ thống nhúng đủ đáp ứng cho mơ hình phát nhận diện khn mặt Deep learning xu ngày nhiều ứng dụng thông minh dần xâm nhập vào đời sống người Nhận diện khuôn mặt phần nhỏ lĩnh vực giám sát an ninh lại có vai trị cốt lõi Thơng tin nhận diện người không riêng khuôn mặt, số thơng tin khác hữu ích chưa khai thác nhiều dáng đi, hình thể người Trong tương lai không xa, giám sát an ninh kết hợp nhận diện khn mặt, nhận diện hình thể nhận diện giọng nói để tạo nên giải pháp giám sát an ninh thông minh Một giải pháp an ninh thông minh triển khai sâu rộng mang đến xã hội an toàn văn minh đặt bên tảng trí tuệ nhân tạo vững 42 DANH MỤC TÀI LIỆU THAM KHẢO [1] W Liu, Y Wen, Z Yu, M Li, B Raj and L Song, "Sphereface: Deep hypersphere embedding for face recognition," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 [2] K Zhang, Z Zhang, Z Li and Y Qiao, "Joint face detection and alignment using multitask cascaded convolutional networks," IEEE Signal Processing Letters, vol 23, pp 1499-1503, 2016 [3] S Zhang, X Zhu, Z Lei, H Shi, X Wang and S Z Li, "Sˆ 3FD: Single Shot Scale-Invariant Face Detector," in Computer Vision (ICCV), 2017 IEEE International Conference on, 2017 [4] S Ren, K He, R Girshick and J Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," in Advances in neural information processing systems, 2015 [5] Y Wen, K Zhang, Z Li and Y Qiao, "A discriminative feature learning approach for deep face recognition," in European Conference on Computer Vision, 2016 [6] F Schroff, D Kalenichenko and J Philbin, "Facenet: A unified embedding for face recognition and clustering," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015 [7] O M Parkhi, A Vedaldi, A Zisserman and others, "Deep face recognition.," in BMVC, 2015 [8] P Viola and M J Jones, "Robust real-time face detection," International journal of computer vision, vol 57, pp 137-154, 2004 [9] V Jain and E Learned-Miller, "FDDB: A Benchmark for Face Detection in Unconstrained Settings," 2010 [10] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed, C.-Y Fu and A C Berg, "Ssd: Single shot multibox detector," in European conference on computer vision, 2016 [11] K Simonyan and A Zisserman, "Very deep convolutional networks for largescale image recognition," arXiv preprint arXiv:1409.1556, 2014 43 [12] J Redmon, S Divvala, R Girshick and A Farhadi, "You only look once: Unified, real-time object detection," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 [13] J Redmon and A Farhadi, "YOLO9000: better, faster, stronger," arXiv preprint, 2017 [14] J Redmon and A Farhadi, "Yolov3: An incremental improvement," arXiv preprint arXiv:1804.02767, 2018 [15] I J Goodfellow, D Warde-Farley, M Mirza, A Courville and Y Bengio, "Maxout networks," arXiv preprint arXiv:1302.4389, 2013 [16] K He, X Zhang, S Ren and J Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 [17] G Huang, Z Liu, L Van Der Maaten and K Q Weinberger, "Densely connected convolutional networks.," in CVPR, 2017 [18] "Pytorch," [Online] Available: https://pytorch.org/ [Accessed 12 2018] [19] "TensorRT," [Online] [Accessed 12 2018] Available: https://developer.nvidia.com/tensorrt [20] "Tensorflow," [Online] Available: https://www.tensorflow.org/ [Accessed 12 2018] [21] "MXNet," [Online] Available: https://mxnet.apache.org/ [Accessed 12 2018] [22] "ONNX," [Online] Available: https://github.com/onnx/onnx [Accessed 12 2018] [23] "onnx-tensorrt," [Online] Available: https://github.com/onnx/onnx-tensorrt [Accessed 12 2018] [24] S Yang, P Luo, C.-C Loy and X Tang, "Wider face: A face detection benchmark," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016 44 LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Hoàng Minh Ngày, tháng, năm sinh: 03/06/1992 Nơi sinh: TP Hồ Chí Minh Địa liên lạc: 8/72A, Lý Thường Kiệt, Hóc Mơn, TP HCM QUÁ TRÌNH ĐÀO TẠO Thời gian Trường 2010-2015 Đại học Bách Khoa TP HCM (Sinh viên đại học) 2016-2018 Đại học Bách Khoa TP HCM (Học viên cao học) QUÁ TRÌNH CƠNG TÁC Thời gian Nơi cơng tác Chức vụ 2016-2017 Cơng ty Novobi Lập trình viên 2016-2018 Bộ mơn khoa học máy tính Trợ giảng 2017-hiện Phịng thí nghiệm GVLab Nghiên cứu viên 45 ... ảnh khuôn mặt (crop), ảnh khuôn mặt cắt ảnh đầu vào mạng nhận diện Quy trình bước cho nhận diện khn mặt mơ tả hình qua ví dụ phương pháp Sphereface [1]: Hình 2-1 Mơ hình nhận diện khuôn mặt ảnh... QUAN 2.1 Tổng quan hướng nghiên cứu toán nhận diện khn mặt Bài tốn nhận diện khn mặt ảnh tự nhiên xử lý qua giai đoạn: phát khuôn mặt nhận diện khuôn mặt Hai mơ hình mạng độc lập nhau, đầu mạng... pháp phát nhận diện khuôn mặt Các phương pháp nhận diện khuôn mặt khác có độ xác tốc độ xử lý hình ảnh khác Đề tài thực thí nghiệm nghiên cứu đo đạc hiệu suất phương pháp nhận diện khn mặt Phần

Định dạng
Số trang	58
Dung lượng	4,57 MB