Nghiên cứu các kỹ thuật học sâu và ứng dụng

NGUYỄN VIẾT HƢNG BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyễn Viết Hƣng KỸ THUẬT ĐIỆN TỬ NGHIÊN CỨU CÁC KỸ THUẬT HỌC SÂU VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: Kỹ thuật điện tử KHOÁ CH2016A Hà Nội – 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Viết Hƣng NGHIÊN CỨU CÁC KỸ THUẬT HỌC SÂU VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: Kỹ thuật điện tử NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS TS Nguyễn Đức Minh Hà Nội – 2018 MỤC LỤC MỤC LỤC i DANH MỤC HÌNH VẼ ii DANH MỤC BẢNG BIỂU iv DANH MỤC CÁC TỪ VIẾT TẮT v LỜI CẢM ƠN LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP HỌC SÂU 1.1 Khái niệm 1.2 Phân loại 1.2.1 Mạng nơ-ron tích chập 1.2.2 Mạng nơ-ron hồi quy 19 1.3 Kết luận chƣơng 33 CHƢƠNG : KỸ THUẬT HỌC SÂU CHO BÀI TỐN NHẬN DẠNG KHN MẶT…………………… 35 2.1 Phát khuôn mặt 37 2.1.1 P-Net 37 2.1.2 R-Net 39 2.1.3 O-Net 40 2.2 Trích chọn đặc trƣng 40 2.3 Nhận dạng khuôn mặt 49 2.4 Kết luận chƣơng 51 CHƢƠNG : XÂY DỰNG CHƢƠNG TRÌNH CHẠY THỬ NGHIỆM 52 3.1 Đặt vấn đề 52 3.2 Xây dựng chƣơng trình 55 3.3 Kiểm thử đánh giá 57 3.4 Kết luận chƣơng 60 CHƢƠNG 4: KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 i DANH MỤC HÌNH VẼ Hình 1.1: Vị trí học sâu lĩnh vực trí tuệ nhân tạo Hình 1.2: Cấu tạo nơ-ron sinh học [1] Hình 1.3: Perceptron – mơ hình đơn giản mạng neron nhân tạo Hình 1.4: Cấu trúc mạng MultiLayer Perceptron với lớp ẩn [2] Hình 1.5: Ví dụ lọc CNN [4] 10 Hình 1.6: Nhân chập lọc F1 với ma trận ảnh đầu vào số [4] 11 Hình 1.7: Phép tính tích chập lọc F1 [4] 12 Hình 1.8: Bộ lọc cạnh (đứng phải, đứng trái, ngang dƣới, ngang trên) với đầu vào ảnh MNIST [4] 12 Hình 1.9: Ma trận đầu vào đƣợc bao quanh đƣờng viền phụ kích thƣớc p (giá trị 0) [4] 13 Hình 1.10: Nhân tích chập với bƣớc sải s = [4] 14 Hình 1.11: Phép nhân chập khối với ảnh RGB [4] 14 Hình 1.12: Hai lọc kích thƣớc 3x3x3 đƣợc dùng để phát cạnh đứng cạnh ngang [4] 15 Hình 1.13: Pooling theo giá trị cực đại [4] 16 Hình 1.14: Ví dụ mạng CNN đầy đủ dùng cho tốn phân loại kí tự viết tay MNIST [4] 17 Hình 1.15: Một mạng RNN điển hình [5] 20 Hình 1.16: Mạng RNN cho dịch máy [9] 22 Hình 1.17: Sử dụng liên kết trực quan ngữ nghĩa để tạo mô tả cho ảnh [12] 23 Hình 1.18: Hàm mát trạng thái ẩn 24 Hình 1.19: Lan truyền ngƣợc RNN 25 Hình 1.20: Hàm đạo hàm [13] 27 Hình 1.21: Mơ hình RNN chuẩn chứa lớp [14] 29 Hình 1.22: Mơ hình LSTM chứa bốn lớp [14] 29 Hình 1.23: Trạng thái tế bào LSTM [14] 30 Hình 1.24: Lớp cổng quên (Forget Gate layer) LSTM [14] 30 Hình 1.25: Lớp cổng cập nhật (Update Gate layer) [14] 31 Hình 1.26: Cập nhật trạng thái tế bào [14] 31 Hình 1.27: Cập nhật đầu tế bào [14] 32 Hình 1.28: Cấu tạo GRU [14] 33 Hình 2.1: Các thành phần hệ thống nhận dạng khuôn mặt 36 Hình 2.2: Tạo ảnh với kích thƣớc khác [21] 38 Hình 2.3: Kiến trúc mạng P-Net [21] 38 Hình 2.4: Non-Maximum Suppression [21] 39 Hình 2.5: Kiến trúc mạng R-Net [21] 39 Hình 2.6: Kiến trúc mạng O-Net [21] 40 ii Hình 2.7: Kiến trúc mạng Inception-ResNet V1 [25] 41 Hình 2.8: Cấu tạo khối Inception-A Reduction-A [25] 42 Hình 2.9: Cấu tạo khối Inception-B Reduction-B [25] 43 Hình 2.10: Cấu tạo khối Inception-C [25] 44 Hình 2.11: Phƣơng pháp chọn ba để huấn luyện 45 Hình 2.12: Mạng Siamese 46 Hình 2.13: Triplet loss trƣớc sau huấn luyện 46 Hình 2.14: Cách chọn ba để huấn luyện mơ hình 48 Hình 2.15: Mini-batch tập huấn luyện 49 Hình 2.16: Sử dụng One-shot-learning để đăng kí khn mặt cho nhân viên 50 Hình 2.17: Các bƣớc nhận dạng khn mặt 50 Hình 3.1: Một vài trƣờng hợp bị nhận sai chạy dự đốn trọng số có sẵn 53 Hình 3.2: Bộ liệu CASIA-WebFace VGGFace2 54 Hình 3.3: Bộ liệu Asian-Celeb TSDVFace 54 Hình 3.4: Căn chỉnh ảnh đầu vào 55 Hình 3.5: Quá trình huấn luyện dự đoán 56 Hình 3.6: Kết trình huấn luyện 58 Hình 3.7: Visualize chạy dự đoán sau huấn luyện sử dụng t-SNE 59 iii DANH MỤC BẢNG BIỂU Bảng 1-1: Bảng tổng kết số lƣợng tham số lớp CNN 18 Bảng 3-1: Kết chạy dự đoán với trọng số huấn luyện trƣớc 52 Bảng 3-2: Cách tạo số cặp dựa vào số lƣợng ảnh 55 Bảng 3-3: Bảng giá trị siêu tham số 56 Bảng 3-4: Thơng tin cấu hình máy huấn luyện 57 Bảng 3-5: Thông tin phần mềm để huấn luyện 57 Bảng 3-6: Kết trƣớc sau tinh chỉnh mơ hình 58 iv DANH MỤC CÁC TỪ VIẾT TẮT Cụm từ Tiếng Anh Tiếng Việt ANN Artificial Neural Network Mạng nơ-ron nhân tạo BPTT Backpropagation Through Time Lan truyền ngƣợc liên hồi CNN Convolutional Neural Network Mạng nơ-ron tích chập COCO Common Objects in Context Bộ liệu đối tƣợng phổ biến ngữ cảnh khác GRU Gated Recurrent Units Đơn vị cổng hồi quy LSTM Long-Short Term Memory Kiến trúc nhớ dài-ngắn hạn LWF Labeled Faces in the Wild Bộ liệu gán nhãn mặt ngƣời tự nhiên MLP MultiLayer Perceptron Mạng Perceptron nhều lớp MNIST Modified National Institute of Bộ chữ số viết tay Standards and Technology Multi-task Cascaded Mạng tích chập Cascaded đa Convolutional Network nhiệm vụ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NMS Non-Maximum Suppression Chặn không cực đại O-Net Output Network Mạng đầu P-Net Proposal Network Mạng đề xuất RGB Red-Green-Blue Không gian màu RGB R-Net Refinement Network Mạng tinh lọc RNN Recurrent Neural Network Mạng nơ-ron hồi quy MTCNN RMSPROP RMSprop Optimizer Hàm tối ƣu RMSprop VGG Nhóm hình học trực quan Visual Geometry Group v LỜI CẢM ƠN Trong trình hoàn thành luận văn, thầy IC lab 618 trƣờng Đại học Bách Khoa Hà Nội giúp đỡ tạo điều kiện cho học viên nhiều Học viên xin gửi lời cảm ơn chân thành đến thầy cô viện Điện tử viễn thông, viện đào tạo sau Đại học đặc biệt PGS TS Nguyễn Đức Minh IC lab 618 bảo, hƣớng dẫn học viên thực đề tài: “Nghiên cứu kỹ thuật học sâu ứng dụng” Học viên muốn gửi lời cảm ơn sâu sắc đến gia đình, đồng nghiệp cơng ty động viên giúp đỡ suốt trình nghiên cứu, học tập hoàn thiện đề tài Bƣớc đầu làm quen với cơng việc nghiên cứu cịn nhiều bỡ ngỡ hạn chế kiến thức nhƣ kinh nghiệm nên không tránh khỏi thiếu sót định Rất mong nhận đƣợc góp ý thầy, bạn để đề tài đƣợc hoàn thiện Xin chân thành cảm ơn! LỜI MỞ ĐẦU Nhận dạng khuôn mặt trở thành công nghệ phát triển có nhiều ứng dụng thực tế Mục tiêu luận văn phát triển hệ thống nhận dạng khuôn mặt dùng cho doanh nghiệp Việt Nam để hỗ trợ tiến tới thay hệ thống chấm công nhờ vào việc sử dụng kỹ thuật học sâu Hệ thống nhận dạng khn mặt sử dụng mạng nơ-ron tích chập để trích chọn đặc trƣng Dựa đặc trƣng đƣợc trích chọn để so sánh khn mặt với Ngồi hệ thống cịn học trực tuyến cách đăng kí khn mặt vào sở liệu, điều có ý nghĩa lớn việc ứng dụng vào nhu cầu thực tế doanh nghiệp Mục đích đề tài: Mục đích đề tài nguyên cứu kỹ thuật học sâu áp dụng vào hệ thống nhận dạng khuôn mặt Đối tƣợng phạm vi nghiên cứu: Đối tượng nghiên cứu đề tài: - Đầu vào liệu khuôn mặt ngƣời Châu Á Microsoft liệu khuôn mặt ngƣời doanh nghiệp Việt Nam, liệu đƣợc tự tạo trích từ camera giám sát doanh nghiệp - Kỹ thuật học sâu phƣơng pháp nhận dạng khuôn mặt Phạm vi nghiên cứu đề tài: - Dựa lý thuyết học sâu nhận dạng để đƣa phƣơng pháp cụ thể nhận dạng khuôn mặt dƣới dạng ảnh đầu vào - Xây dựng chƣơng trình chạy thử nghiệm Luận điểm đóng góp mới: Đƣa kết nghiên cứu mặt lý thuyết sở kỹ thuật học sâu nhận dạng khuôn mặt ngƣời Việt Nam Xây dựng đƣợc chƣơng trình thử nghiệm đánh giá dựa tập học liệu Microsoft khuôn mặt ngƣời Châu Á tập kiểm tra đƣợc tạo từ khuôn mặt nhân viên cơng ty Việt Nam, từ nêu số vấn đề ứng dụng thực tế Phƣơng pháp nghiên cứu: Cơ sở lý thuyết nhận dạng khuôn mặt ngƣời kỹ thuật học sâu từ cài đặt thử nghiệm tập liệu mẫu khuôn mặt ngƣời Châu Á Microsoft để nhận xét, đánh giá phƣơng pháp tìm hiểu đƣợc Luận văn đƣợc trình bày chƣơng, cụ thể nhƣ sau: Chƣơng 1: Tổng quan phƣơng pháp học sâu: Trình bày khái niệm, nội dung phƣơng pháp học sâu nhƣ hai loại học sâu phổ biến Chƣơng 2: Kỹ thuật học sâu cho tốn nhận dạng khn mặt: Nghiên cứu cụ thể áp dụng kỹ thuật học sâu cho tốn nhận dạng khn mặt Chƣơng 3: Xây dựng chƣơng trình, cài đặt, thử nghiệm đánh giá: Trên sở lý thuyết trình bày chƣơng để cài đặt chạy thử nghiệm đánh giá kết đạt đƣợc Chƣơng 4: Tổng kết lại kết đạt đƣợc luận văn, hạn chế nhƣ hƣớng phát triển hệ thống nhận dạng khuôn mặt cho công ty Việt Nam Hình 2.16: Sử dụng One-shot-learning để đăng kí khuôn mặt cho nhân viên Với ảnh cần nhận dạng khuôn mặt, ta so sánh với tất ảnh nhân viên sở liệu Nếu khoảng cách Euclide ảnh đầu vào gần với ảnh sở liệu khn mặt ảnh đầu vào ảnh từ ngƣời Tuy nhiên khoảng cách Euclide mà ngƣời định trƣớc ảnh đầu vào khn mặt ngƣời khơng có sở liệu Các bƣớc thực nhƣ hình dƣới đây: Hình 2.17: Các bƣớc nhận dạng khn mặt Có ba bƣớc q trình nhận dạng khn mặt đƣợc mơ tả hình Đầu tiên camera trích xuất ảnh nhờ thuật tốn phát khn mặt nhƣ mục 2.1 cho ta đƣợc tập ảnh chứa khuôn mặt ngƣời đƣợc chỉnh Ảnh chứa khuôn mặt ngƣời chỉnh đƣợc trích chọn đặc trƣng nhƣ trình bày 50 phần 2.2 nhờ sử dụng phƣơng pháp One-shot-learning để tạo embedding tƣơng ứng cho ảnh Bƣớc cuối so sánh embedding với tồn embedding sở liệu (đã đăng kí trƣớc đó) Khoảng cách Euclide embedding gần với embedding khn mặt ngƣời cần nhận dạng ngƣời Tuy nhiên, nhiều trƣờng hợp khn mặt đầu vào chƣa có có sở liệu Lúc này, ta cần phải xét ngƣỡng để quy định điều Nếu độ lớn khoảng cách Euclide lớn ngƣỡng khn mặt ngƣời lạ (khơng có sở liệu) 2.4 Kết luận chƣơng Chƣơng hai trình bày cách tiếp cận cho toán nhận dạng khuôn mặt nhƣ bƣớc để xử lý chúng Hiện nhận dạng khuôn mặt thƣờng trải qua bƣớc bản: phát khuôn mặt, trích chọn đặc trƣng, nhận diện khn mặt Trong bƣớc có nhiều nghiên cứu kèm, nhiên khuôn khổ luận văn sử dụng mạng FaceNet [26] làm sở để tiến hành áp dụng vào hệ thống nhận dạng khuôn mặt công ty Bƣớc hệ thống cần phải phát đƣợc khn mặt có bƣớc ảnh đƣợc cắt từ camera Trong luận văn có sử dụng mạng MTCNN để phát khuôn mặt với độ xác cao MTCNN mạng tích hợp ba mạng cho ba trình là P-net, R-Net O-Net Khi phát đƣợc khuôn mặt ta trích chọn đặc trƣng khn mặt dựa vào mạng học sâu Để trích chọn đƣợc đặc trƣng khuôn mặt, luận văn sử dụng mạng Inception-Resnet V1 để trích chọn đặc trƣng cho kết tốt (bảng [26]) kích thƣớc đầu vào 160x160x3 khơng q lớn Embedding đặc trƣng cho khuôn mặt 128 chiều (bảng [26]) kết tốt Để huấn luyện mạng học sâu ta sử dụng ba Triplet để huấn luyện nhƣ đƣợc mô tả kĩ mục 2.2 Cuối dựa vào vec-tơ đặc trƣng tạo đƣợc ta tiến hành nhận dạng khuôn mặt dựa vào khoảng cách Euclide đƣợc miêu tả mục 2.3 51 CHƢƠNG : XÂY DỰNG CHƢƠNG TRÌNH CHẠY THỬ NGHIỆM 3.1 Đặt vấn đề Có nhiều mơ hình với trọng số đƣợc huấn luyện trƣớc (pre-trained weighted) [26] Tuy nhiên áp dụng để chạy thử nghiệm với liệu ảnh từ camera công ty (TSDVFace) lại cho kết chƣa thực tốt so với kết chạy với liệu LWF [26] Bảng 3-1: Kết chạy dự đoán với trọng số huấn luyện trƣớc Tập liệu LWF TSDVFace Độ xác 99.63% 91.6% Khi phân tích trƣờng hợp bị sai, ta có số nhận xét nhƣ sau:  Vì liệu đầu vào ảnh trích từ camera nên có nhiều ảnh chất lƣợng khơng thực tốt (nhịe, mờ)  Những trƣờng hợp bị nhận sai có số đặc điểm chung nhƣ: có góc chụp giống nhau, khn mặt biểu cảm giống đeo kính (hoặc khơng đeo kính)  Dữ liệu nhân viên cơng ty tồn ngƣời châu Á (Việt Nam, Nhật Bản), nhƣng mơ hình lại đƣợc huấn luyện tập CASIAWebFace VGGFace2, dự liệu phổ biến để huấn luyện nhƣng chủ yếu ngƣời gốc Châu Âu Châu Mỹ Đặc điểm khác màu da, màu mắt, cấu tạo mũi, … làm ảnh hƣởng đến mơ hình chạy dự đoán tập liệu ngƣời Châu Á 52 Hình 3.1: Một vài trƣờng hợp bị nhận sai chạy dự đốn trọng số có sẵn Trong luận văn có sử dụng mơ hình sẵn có phần phát khuôn mặt tiến hành tinh chỉnh mơ hình phần trích chọn đặc trƣng nhận dạng khn mặt nhƣ hình 3.2 Hình 3.2: Mơ hình xây dựng chƣơng trình thử nghiệm Việc tinh chỉnh đƣợc thực cách tìm liệu chuẩn khuôn mặt ngƣời Châu Á tiến hành tinh chình tập liệu Luận văn sử dụng liệu khuôn mặt ngƣời tiếng Châu Á có tên gọi Asian-Celeb, liệu đƣợc cung cấp từ Microsoft bị loại trừ hai tập liệu tiếng LFW (Labeled Faces in the Wild Home) MS-Celeb-1M-v1c Tập liệu có 93979 ngƣời khác với tổng cộng 2830146 ảnh đƣợc chỉnh (aligned) Tuy nhiên giới hạn tài ngun tính tốn (resource computing) thời gian thực hiện, sử dụng ngẫu nhiên phần liệu để tinh chỉnh mơ hình Cụ thể có 18662 ngƣời với tổng cộng 606735 ảnh khn mặt ngƣời 53 Hình 3.3: Bộ liệu CASIA-WebFace VGGFace2 Đối với liệu khn mặt nhân viên cơng ty (cịn gọi đánh giá – validation set) đƣợc thu thập đƣợc từ camera với thông số độ phân giải 720x1280 Việc lấy liệu đƣợc thực tuần làm việc với hai vị trí khác để lấy đƣợc khn mặt góc khác Tuy nhiên ảnh từ camera thƣờng bị nhòe mờ đặc biệt khung ảnh liên tiếp thƣờng giống Những ảnh lấy đƣợc từ camera sau đƣợc tiến hành lọc để loại bớt tất ảnh bị mờ, nhòe Những ảnh liên tiếp giống đƣợc loại bỏ để đảm bảo cho đánh giá đƣợc đa dạng không nhiều nhiễu Tổng hợp lại đƣợc liệu đánh giá (validation set) gồm 53 nhân viên với tổng cộng 743 ảnh, nhƣ số lƣợng ảnh ngƣời khác Hình 3.4: Bộ liệu Asian-Celeb TSDVFace Sau tạo liệu khuôn mặt công ty để đánh giá, ta cần phải xây dựng cách đánh giá có hiệu Việc đánh giá tập liệu khuôn mặt công ty đƣợc tạo tƣơng tự với đánh giá giữ liệu LFW [26] Cụ thể ta cần phải tạo hai loại cặp (pairs): 54  Loại cặp thứ hai ảnh ngƣời, số ảnh nhỏ tạo ngẫu nhiên cặp ngƣời Tƣơng tự, cụ thể nhƣ sau: Bảng 3-2: Cách tạo số cặp dựa vào số lƣợng ảnh Số ảnh (n) n= 20 Số cặp 10 15 25  Loại cặp thứ hai hai ngƣời với nhau, ngƣời đƣợc cặp với ngẫu nhiên 10 ngƣời lại tập liệu Trong 10 ngƣời đó, ta lại chọn số lƣợng ảnh nhƣ bảng Tổng cộng ta có 8700 cặp đƣợc xáo trộn ngẫu nhiên lên để tạo đƣợc liệu đánh giá chuẩn 3.2 Xây dựng chƣơng trình Đầu tiên với liệu Asian-Celeb liệu ảnh khuôn mặt công ty ta phải chỉnh khuôn mặt (aliged) cho tất liệu Theo nhƣ [26] có sử dụng hai kích thƣớc sau chỉnh khuôn mặt 182x182 160x160 pixels Trong luận văn tơi sử dụng kích thƣớc 182x182 cho ảnh chỉnh, huấn luyện mô hình sử dụng cắt ngẫu nhiên (random crop) để đƣa kích thƣớc ảnh 160x160 phục vụ trình huấn luyện Hình 3.5: Căn chỉnh ảnh đầu vào 55 Q trình huấn luyện dự đốn đƣợc họa nhƣ hình dƣới đây: Hình 3.6: Quá trình huấn luyện dự đốn Việc tinh chỉnh mơ hình cần phải cài đặt số siêu tham số (hyperparameters) mơ hình đƣợc huấn luyện theo nhƣ mong muốn Các giá trị siêu tham số đƣợc liệt kê nhƣ bảng dƣới đây: Bảng 3-3: Bảng giá trị siêu tham số STT Giá trị Hyperparameters Số lƣợng epochs 400 Số lƣợng batchs epoch 1000 Số lƣợng ngƣời batch 45 Số lƣợng ảnh xử lý batch 90 Lề positive negative (margin) 0.2 Số chiều vec-tơ (embedding) 128 Learning rate epoch 1-99: 0.1 epoch 100-199: 0.01 epoch 200-399: 0.001 Hàm tối ƣu RMSPROP 56 3.3 Kiểm thử đánh giá Quá trình huấn luyện đƣợc thực máy chủ (server) cơng ty có thơng số nhƣ sau: Bảng 3-4: Thơng tin cấu hình máy huấn luyện Items Value Vendor ID GenuineIntel Mainboard X99A Model name Intel® Core™ i7-6800K CPU @ 3.4 GHz Processor 12 RAM x 16GB 2133 Mhz Storage SSD: 500GB SS EVO HDD: 2TB WD GPU GPU NVIDIA 1080Ti Bảng 3-5: Thông tin phần mềm để huấn luyện Library Version Ubuntu 16.04.4 LTS Python 2.7 Tensorflow-gpu 1.9.0 Scikit-learn 0.19.0 Numpy 1.14.2 Scipy 1.0.1 Opencv-contrib-python 3.3.0.10 Pandas 0.22.0 Matplotlib 2.2.2 Việc huấn luyện đƣợc thực thời gian khoảng 40 liên tục cho 400 epochs Dƣới số kết trình huấn luyện bao gồm hàm mát (loss function) độ xác (accuracy) liệu TSDVFace: 57 Hình 3.7: Đƣờng mát (loss) q trình huấn luyện Hình 3.8: Độ xác (accuracy) trình huấn luyện Bảng 3-6: Kết trƣớc sau tinh chỉnh mơ hình Độ xác Trƣớc tinh chỉnh Sau tinh chỉnh 91.6% 94.7% 58 Q trình huấn luyện tinh chỉnh mơ hình tốn nhiều thời gian, từ kết hình 3.8 ta thấy qua q trình huấn luyện mơ hình tăng độ xác từ 91.6% lên 94.7% Kết thu đƣợc đƣợc tiến hành trực quan hóa (visualize) cách sử dụng kỹ thuật t-SNE [27] Cụ thể ta chạy dự đoán sử dụng One-shot-learning để tạo embedding cho khuôn mặt Với embedding có đƣợc sử dụng kỹ thuật tSNE có sẵn thƣ viện scikit-learn (một thƣ viện máy học phần mềm miễn phí cho ngơn ngữ lập trình Python) để mơ trực quan Dựa vào hình 3.9 ta thấy phần lớn khuôn mặt ngƣời đƣợc phân cụm Hình 3.9: Visualize chạy dự đoán sau huấn luyện sử dụng t-SNE 59 Qua q trình huấn luyện ta có số đánh giá sau:  Áp dụng hệ thống nhận dạng khuôn mặt vào công ty khả thi, nhiên cần phải tinh chỉnh thêm mơ hình để đạt kết cao  Bộ liệu khuôn mặt công ty chƣa thật đầy đủ (có tổng cộng 53 nhân viên tổng số 300 nhân viên) Việc thu thập liệu, lọc liệu thời gian công sức Tuy nhiên, việc cần thiết để mơ hình trở lên tin cậy 3.4 Kết luận chƣơng Chƣơng trình bày vấn đề đặt thực tế áp dụng hệ thống nhận dạng khuôn mặt Với việc liệu thực tế có khác biệt khó khăn so với liệu chuẩn (CASIA-WebFace VGGFace2) yêu cầu cần phải tinh chỉnh mơ hình để đáp ứng đƣợc hệ thống thật Trong luận văn có sử dụng phần liệu khuôn mặt ngƣời châu Á (Asian-Celeb) để tinh chỉnh mô hỉnh đánh giá mô hình tập liệu cơng ty (TSDVFace) Bƣớc đầu mơ hình cho kết tốt độ xác tăng lên (91.6% lên 94.7%), nhiên để đạt đƣợc độ tin cậy cao cần phải tinh chỉnh thêm Một vấn đề quan trọng kết huấn luyện đánh giá cịn mang tính đặc thù với liệu công ty Nếu áp dụng mơ hình sang cơng ty khác cần phải có liệu phụ cơng ty đánh giá đƣợc tính xác mơ hình Hơn nữa, chạy thời gian thực với khung hình liên tiếp từ camera độ sai số lớn, đặc biệt trƣờng hợp khung hình bị nhịe mờ, mặt ngƣời bị lập góc nghiêng q lớn Chính để áp dụng đƣợc trực tiếp cho cơng ty, cần phải tiến hành phân cụm thêm xét luật đảm bảo đƣợc độ xác, trƣờng hợp muốn thay hệ thống chấm cơng vốn địi hỏi độ xác phải cao Khi ta phải thu thập sàng lọc lại liệu, phải yêu cầu ngƣời dùng chụp ảnh 60 thay trích xuất khung hình từ camera Có số hƣớng để tiếp tục nâng cao độ tin cậy mơ hình:  Thay huấn luyện phần liệu Asian-Celeb, ta huấn luyện tập liệu  Cần thu thập thêm nhiều liệu cơng ty để tạo liệu đủ lớn để đánh giá tính tin cậy hệ thống  Mơ hình huấn luyện luận văn dừng 400 epochs, nhiên tăng thời gian huấn luyện lên áp dụng với liệu Asian-Celeb đầy đủ 61 CHƢƠNG : KẾT LUẬN Gần kỹ thuật học sâu đƣợc áp dụng thành công nhiều lĩnh vực liên quan đến xử lý liệu lớn Một ứng dụng bật áp dụng kỹ thuật học sâu lĩnh vực thị giác máy tính Các mơ hình mạng nơ-ron tích chập đƣợc sử dụng để nhận dạng đối tƣợng, gán nhãn tự động cho ảnh video đạt đƣợc độ xác cao Luận văn nghiên cứu áp dụng mạng nơ-ron tích chập hệ thống nhận dạng khuôn mặt triển khai thử nghiệm cho doanh nghiệp Việt Nam Ngoài luận văn đề xuất đƣợc phƣơng pháp để tăng độ xác cho mơ hình cách huấn luyện liệu chuyên biệt Châu Á Tuy nhiên nhiều hạn chế cần đƣợc tiếp tục thực nhƣ nêu phần 3.4 Trong cần phải thu thập làm liệu để hệ thống trở lên tin cậy Tuy chƣa có đóng góp nhiều mặt học thuật lĩnh vực nhận dạng khuôn mặt nhƣng luận văn có đóng góp ý nghĩa mặt triển khai thực tế hệ thống 62 TÀI LIỆU THAM KHẢO https://en.wikipedia.org/wiki/Neuron Simon Haykin (2009), “Neural Networks and Learning Machines”, Third Edition, pp 124 Justin Johnson, Andrej Karpathy (2017), “CS231n Convolutional Neural Networks for Visual Recognition”, Module 2: Convolutional Networks https://dlapplications.github.io/2018-07-17-cnn-introduction/ https://dominhhai.github.io/vi/ T Mikolov, M Karafiat, L Burget, J Cernocky, S Khudanpur (2010), “Recurrent neural network based language model”, pp 1-4 T Mikolov, S Kombrink, L Burget, J Cernocky, S Khudanpur (2011), “Extentrions of Recurrent Neural Network Language Model”, pp 1-4 M Nieto, M Berglund, T Raiko (2016), “Unsupervised Learning of Multiple Languages Using Recurrent Neural Networks”, pp 1-10 R Socher (2017), “Lecture 8: Recurrent Neural Networks CS224d Deep NLP”, slide 1-38 10 S Liu, N Yang, M Li, M Zhou (2014), “A Recursive Recurrent Neural Network for Statistical Machine Translation”, pp 1-10 11 I Sutskever, O Vinyals, Q Le (2014), “Sequence to Sequence Learning with Neural Networks”, pp 1-9 12 A Graves, N Jaitly (2016), “Towards End-to-End Speech Recognition with Recurrent Neural Networks”, pp 1-9 13 R Pascanu, T Mikolov, Y Bengio (2012), “On the difficulty of training recurrent neural networks”, pp 1-9 14 https://colah.github.io/posts/2015-08-Understanding-LSTMs/ 15 S Hochreiter, F Informatik, J Schmidhuber (1997), “Long Short-Term Memory”, pp 1-32 63 16 K Cho, D Bahdanau, F.Bougares, Y Bengio (2014), “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation” pp 1-15 17 J Chung, C Gulcehre, K Cho, Y Bengio (2014), “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling”, pp 2-8 18 R Jozefowicz, W Zaremba, I Sutskever (2015), “An Empirical Exploration of Recurrent Network Architectures” pp 2-7 19 P Viola and M J Jones (2004), “Robust real-time face detection International journal of computer vision,” vol 57, no 2, pp 137-154 20 Q Zhu, M C Yeh, K T Cheng, and S Avidan (2006), “Fast human detection using a cascade of histograms of oriented gradients,” in IEEE Computer Conference on Computer Vision and Pattern Recognition, pp 1491-1498 21 K Zhang, Z Zhang, Z Li, Yu Qiao (2016), “Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks” 22 S S Farfade, M J Saberian, and L J Li (2015), “Multi-view face detection using deep convolutional neural networks,” in ACM on International Conference on Multimedia Retrieval, pp 643-650 23 Y Sun, X Wang, and X Tang (2014), “Deep learning face representation by joint identification-verification,” CoRR, abs/1406.4774 24 Y Taigman, M Yang, M.Ranzato, and L Wotf Deepface (2014), “Closing the gap to human-level performance in face verification,” In IEEE Conf on CVPR 25 C Szegedy, S Ioffe, V Vanhoucke, A Alemi (2016), “Inception-ResNet and the Impact of Residual Connections on Learning”, pp 1-12 26 F Schroff, D Kalenichenko, J Philbin (2015), “FaceNet: A Unified Embedding for Face Recognition and Clustering”, pp 1-8 27 L Maaten, G Hinton (2008), “Visualizing Data using t-SNE”, in Journal of Machine Learning Research 9, pp 1-27 64 ... pháp học sâu: Trình bày khái niệm, nội dung phƣơng pháp học sâu nhƣ hai loại học sâu phổ biến Chƣơng 2: Kỹ thuật học sâu cho tốn nhận dạng khn mặt: Nghiên cứu cụ thể áp dụng kỹ thuật học sâu cho...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Viết Hƣng NGHIÊN CỨU CÁC KỸ THUẬT HỌC SÂU VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: Kỹ thuật điện tử... việc ứng dụng vào nhu cầu thực tế doanh nghiệp Mục đích đề tài: Mục đích đề tài nguyên cứu kỹ thuật học sâu áp dụng vào hệ thống nhận dạng khuôn mặt Đối tƣợng phạm vi nghiên cứu: Đối tượng nghiên

Định dạng
Số trang	71
Dung lượng	3,87 MB