Ứng dụng mạng học sâu cho nhận diện khuôn mặt luận văn thạc sĩ ngành kỹ thuật điện tử

107 24 0
Ứng dụng mạng học sâu cho nhận diện khuôn mặt luận văn thạc sĩ ngành kỹ thuật điện tử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng mạng học sâu cho nhận diện khuôn mặt luận văn thạc sĩ ngành kỹ thuật điện tử Ứng dụng mạng học sâu cho nhận diện khuôn mặt luận văn thạc sĩ ngành kỹ thuật điện tử Ứng dụng mạng học sâu cho nhận diện khuôn mặt luận văn thạc sĩ ngành kỹ thuật điện tử Ứng dụng mạng học sâu cho nhận diện khuôn mặt luận văn thạc sĩ ngành kỹ thuật điện tử Ứng dụng mạng học sâu cho nhận diện khuôn mặt luận văn thạc sĩ ngành kỹ thuật điện tử

Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khn mặt” TĨM TẮT Trong năm gần đây, nhận diện khuôn mặt đạt tiến vượt bậc nhờ vào phát triển mạng nơ-ron tích chập (CNN) Tùy thuộc vào mục đích sử dụng khác mà cấu trúc mạng CNN thiết kế, điều chỉnh cho phù hợp Trong luận văn này, ba tập liệu ảnh khuôn mặt FEI Face, CASIA-WebFace tập ảnh tự thu thập sử dụng cho huấn luyện kiểm tra nhận diện khuôn mặt Ảnh ngõ vào chuẩn hóa để phù hợp với cấu trúc mơ hình mạng CNN VGG-16 Hơn nữa, mơ hình mạng CNN phân tích mơ tả việc tính tốn lớp nhằm phục vụ việc hiệu chỉnh mạng cho phù hợp để hiệu suất nhận biết đạt kết cao Quá trình thực nghiệm thay đổi số lớp mạng mơ hình CNN VGG-16 để so sánh ảnh hưởng độ sâu đến hiệu suất mạng, đồng thời thực so sánh hai thuật toán tối ưu dùng huấn luyện RMSprop Adam Hiệu suất hai mơ hình đánh giá qua độ xác tập kiểm tra tương ứng với ba tập liệu kết đạt khoảng 95% Cuối cùng, luận văn cịn thực việc so sánh độ xác với mơ hình mạng khác thực tập liệu khuôn mặt FEI Face nhằm phục vụ cho mục đích cải tiến hiệu suất nhận dạng đối tượng khuôn mặt tương lai HVTH: Trần Giang Nam xi GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” ABSTRACT In recent years, face recognition has made great progress thanks to the development of convolutional neural networks (CNN) For the different purposes, the CNN network is designed and adapted accordingly In this thesis, three face image datasets of FEI, CASIA-WebFace and self-collected are used for training and testing in the CNN The input datasets will be standardized for applying in the CNN model with VGG-16 Moreover, this CNN model is analyzed for the calculation of layers in it for increasing the recognition performance In the simulation process, the change of the number of layers in the CNN model- VGG-16 is to compare the effect on the performance of the networks and two optimization algorithms of RMSprop and Adam The performance of the two models is estimated by the accuracy of each testing set corresponding to the three datasets and the result is approximately over 95% Finally, the thesis represents the accuracy of the network model compared with other network models based on FEI Face's datasets for the purpose of improving the face recognition performance in the future HVTH: Trần Giang Nam xii GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” MỤC LỤC Quyết định giao đề tài …i Biên hội đồng chấm luận văn tốt nghiệp thạc sĩ ii Phiếu nhận xét luận văn thạc sĩ giảng viên phản biện .iii Phiếu nhận xét luận văn thạc sĩ giảng viên phản biện …v Lý lịch khoa học vii Lời cam đoan ix Lời cảm ơn x Tóm tắt xi Abstract xii Mục lục xiii Danh sách hình ảnh xvi Danh sách bảng xix Danh sách từ viết tắt xx Thuật ngữ Anh – Việt xxi CHƯƠNG 1: TỔNG QUAN 1.1 Đặt vấn đề 1.2 Các nghiên cứu công bố 1.3 Mục tiêu 1.4 Nhiệm vụ giới hạn 1.4.1 Nhiệm vụ 1.4.2 Giới hạn 1.5 Phương pháp nghiên cứu 1.6 Tóm tắt chương CHƯƠNG 2: CƠ SỞ LÝ THUYẾT HVTH: Trần Giang Nam xiii GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” 2.1 Những ứng dụng nhận dạng mặt người 2.2 Mộ số phương pháp nhận dạng khuôn mặt 2.3 Một số thuật toán tối ưu dùng huấn luyện mạng nơ-ron 11 CHƯƠNG 3: TIỀN XỬ LÝ ẢNH KHUÔN MẶT 13 3.1 Chuẩn hóa hình ảnh 13 3.2 Lấy mẫu ảnh khuôn mặt 15 3.3 Lọc ảnh dùng phương pháp tích chập 16 CHƯƠNG 4: NHẬN DẠNG KHN MẶT SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP 4.1 20 Giới thiệu mơ hình mạng nơ-ron tích chập VGG-16 20 4.1.1 Cấu trúc mạng nơ-ron tích chập 20 4.1.2 Tính tốn cho lớp mạng 24 4.1.3 Mơ hình mạng nơ-ron tích chập VGG-16 27 4.1.4 Thuật toán tối ưu dùng huấn luyện 33 4.2 Áp dụng mạng nơ-ron tích chập VGG-16 cho nhận diện khn mặt 35 4.2.1 Giới thiệu tập liệu 35 4.2.2 Mô tả phương pháp huấn luyện 36 4.2.3 Mô tả phương pháp nhận dạng 39 4.3 Đánh giá độ xác kết nhận dạng 40 CHƯƠNG 5: KẾT QUẢ VÀ THẢO LUẬN 42 5.1 Minh họa tập liệu 42 5.2 Kết phân tích ảnh qua lớp tích chập 44 5.3 Kết huấn luyện mạng 48 5.3.1 Áp dụng thuật toán RMSProp 49 5.3.2 Áp dụng thuật toán Adam 55 5.4 Kết nhận dạng 60 5.5 So sánh hiệu suất với mạng khác 68 HVTH: Trần Giang Nam xiv GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 70 6.1 Kết Luận 70 6.2 Hướng Phát Triển 70 TÀI LIỆU THAM KHẢO 71 PHỤ LỤC 74 HVTH: Trần Giang Nam xv GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” DANH SÁCH CÁC HÌNH Hình 2.1: Mơ tả thuật toán Viola-Jones bao gồm bốn giai đoạn quan trọng Hình 2.2: Mơ tả tính hình chữ nhật hiển thị liên quan đến cửa sổ phát Hình 2.3: Mơ tả q trình phân loại thuật tốn Viola-Jones Hình 2.4: Cách tính tốn c LBP Hình 2.5: Sơ đồ khối thuật toán LBP Hình 2.6: Sơ đồ nguyên lý thuật toán phân loại K-NN 10 Hình 3.1: Q trình thực nhận dạng khn mặt 13 Hình 3.2: Mơ tả cách ghép ảnh từ kênh thành kênh màu 14 Hình 3.3: Quá trình dị tìm khn mặt thuật tốn Viola-Jones 15 Hình 3.4: Các khn mặt trình dị phát 15 Hình 3.5: Ảnh khn mặt đối tượng sau tách từ ảnh hình 3.4 16 Hình 3.6: Tích chập ngõ vào cửa sổ lọc 17 Hình 4.1: Mạng nơ-ron tích chập 21 Hình 4.2: Hoạt động lớp ReLU 22 Hình 4.3: Hoạt động Max pooling 22 Hình 4.4: Lớp kết nối đầy đủ 23 Hình 4.5: Kỹ thuật drop-out CNN 24 Hình 4.6: Hoạt động tích chập ảnh ngõ vào X với lọc W 25 Hình 4.7: Hoạt động lớp Pooling 26 Hình 4.8: Mơ hình mạng VGG-16 27 Hình 4.9: Mơ hình VGG-16 Deep Network Designer - Matlab 28 Hình 4.10: Lưu đồ trình huấn luyện mạng 38 Hình 4.11: Nhận diện khuôn mặt 39 HVTH: Trần Giang Nam xvi GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” Hình 4.12: Lưu đồ q trình nhận diện khn mặt 40 Hình 5.1: Hình ảnh đối tượng tập FEI Face 42 Hình 5.2: Ảnh đối tượng CASIA-WebFace 42 Hình 5.3: Quá trình thu thập ảnh đối tượng 43 Hình 5.4: Ảnh đối tượng tập ảnh thu thập 44 Hình 5.5: Ảnh khn mặt ngõ vào 44 Hình 5.6: Ảnh sau qua lọc lớp chập conv1_1 conv1_2 45 Hình 5.7: Ảnh sau qua lọc lớp chập conv2_1 conv2_2 45 Hình 5.8: Ảnh sau qua lọc lớp chập conv3_1, conv3_2 conv3_3 46 Hình 5.9: Ảnh sau qua lọc lớp chập conv4_1, conv4_2 conv4_3 47 Hình 5.10: Ảnh sau qua lọc lớp chập conv5_1, conv5_2 conv5_3 48 Hình 5.11: Biểu đồ huấn luyện 15 epoch tập FEI Face 49 Hình 5.12: Biểu đồ huấn luyện 15 epoch tập CASIA-WebFace 50 Hình 5.13: Biểu đồ huấn luyện 15 epoch tập tự thu 51 Hình 5.14: Biểu đồ huấn luyện 15 epoch mơ hình VGG-16 chỉnh sửa tập FEI Face 52 Hình 5.15: Biểu đồ huấn luyện 15 epoch mơ hình VGG-16 chỉnh sửa tập CASIA-WebFace 52 Hình 5.16: Biểu đồ huấn luyện 15 epoch mơ hình VGG-16 chỉnh sửa tập tự thu 53 Hình 5.17: Biểu đồ độ xác nhận dạng tập liệu ảnh 54 Hình 5.18: Biểu đồ thời gian huấn luyện qua tập liệu ảnh 54 Hình 5.19: Biểu đồ huấn luyện 15 epoch dùng thuật tốn Adam FEI Face 55 Hình 5.20: Biểu đồ huấn luyện 15 epoch dùng Adam CASIA-WebFace 56 Hình 5.21: Biểu đồ huấn luyện 15 epoch dùng thuật toán Adam tập ảnh tự thu 56 HVTH: Trần Giang Nam xvii GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khn mặt” Hình 5.22: Biểu đồ độ xác huấn luyện dùng hai thuật toán tối ưu mơ hình VGG-16 57 Hình 5.23: So sánh hai biểu đồ lỗi huấn luyện với (a) Adam (b) RMSProp 58 Hình 5.24: Biểu đồ thời gian huấn luyện dùng RMSProp Adam 58 Hình 5.25: Đánh giá độ xác ma trận nhầm lẫn 59 Hình 5.26: Ảnh nhận diện đơn nhân vật Alyssa Milano 60 Hình 5.27: Ảnh nhận diện nhân vật Alyssa Milano nhóm 61 Hình 5.28: Ảnh nhận diện đơn nhân vật Christian Slater 62 Hình 5.29: Ảnh nhận diện nhân vật Christian Slater nhóm 62 Hình 5.30: Ảnh nhận diện đơn nhân vật Julia Roberts 63 Hình 5.31: Ảnh nhận diện nhân vật Julia Roberts nhóm 63 Hình 5.32: Ảnh nhận diện đơn nhân vật Teri Hatcher 64 Hình 5.33: Ảnh nhận diện nhân vật Teri Hatcher nhóm 64 Hình 5.34: So sánh độ xác thời gian nhận diện bốn đối tượng ảnh 65 Hình 5.35: Nhận diện ảnh đơn tập ảnh tự thu 66 Hình 5.36: Nhận diện nhiều đối tượng sinh viên với mơ hình mạng VGG-16 67 Hình 5.37: Nhận diện nhiều đối tượng sinh viên với mơ hình mạng VGG-16 chỉnh sửa 68 HVTH: Trần Giang Nam xviii GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” DANH SÁCH CÁC BẢNG Bảng 3.1: Mô tả số lọc 17 Bảng 4.1: Mô tả lớp mạng mơ hình 29 Bảng 4.2: Bảng Ma trận nhầm lẫn 41 Bảng 5.1: So sánh hiệu suất nhận dạng mơ hình mạng nghiên cứu với mơ hình khác tập liệu FEI Face 69 HVTH: Trần Giang Nam xix GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” DANH SÁCH TỪ VIẾT TẮT CNN Convolutional Neural Network LBP Local Binary Patterns K-NN K-Nearest Neighbours DNN Deep Neural Network GD Gradient Descent SGD Stochastic Gradient Descent AdaGrad Adaptive Gradient Algorithm RMSProp Root Mean Square Propagation Adam Adaptive Moment Estimation HVTH: Trần Giang Nam xx GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt”  conv1_1: lớp tích chập, sử dụng 64 lọc với lọc có kích thước 3x3 pixels, stride padding (tạo đường viền áp lên ngõ vào), liệu ngõ lớp có kích cỡ 224 x 224 x 64 Theo đó, ta có (3 x x 3) x 64 = 1728 trọng số 64 bias, tổng cộng số lượng tham số (trọng số bias) 1792 Lớp relu1_1 hàm kích hoạt ReLU  conv1_2: lớp tích chập, sử dụng 64 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 224 x 224 x 64 Theo đó, ta có (3 x x 64) x 64 = 36864 trọng số 64 bias, tổng cộng số lượng tham số 36928 Lớp relu1_2 hàm kích hoạt ReLU  pool1: lớp max pooling với kích thước cửa sổ 2×2 stride 2, liệu ngõ lớp có kích cỡ 112 x 112 x 64  conv2_1: lớp tích chập, sử dụng 128 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 112 x 112 x 128 Theo đó, ta có (3 x x 64) x 128 = 73728 trọng số 128 bias, tổng cộng số lượng tham số 73856 Lớp relu2_1 hàm kích hoạt ReLU  conv2_2: lớp tích chập, sử dụng 128 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 112 x 112 x 128 Theo đó, ta có (3 x x 128) x 128 = 147456 trọng số 128 bias, tổng cộng số lượng tham số 147584 Lớp relu2_2 hàm kích hoạt ReLU  pool2: lớp max pooling với kích thước cửa sổ 2×2 stride 2, liệu ngõ lớp có kích cỡ 56 x 56 x 128  conv3_1: lớp tích chập, sử dụng 256 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 56 x 56 x 256 Theo đó, ta có (3 x x 128) x 256 = 294912 trọng số 256 bias, tổng cộng số lượng tham số 295168 Lớp relu3_1 hàm kích hoạt ReLU  conv3_2: lớp tích chập, sử dụng 256 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 56 x 56 x 256 Theo đó, ta có (3 x HVTH: Trần Giang Nam 82 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” x 256) x 256 = 589824 trọng số 256 bias, tổng cộng số lượng tham số 590080 Lớp relu3_2 hàm kích hoạt ReLU  conv3_3: lớp tích chập, sử dụng 256 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 56 x 56 x 256 Theo đó, ta có (3 x x 256) x 256 = 589824 trọng số 256 bias, tổng cộng số lượng tham số 590080 Lớp relu3_3 hàm kích hoạt ReLU  pool3: lớp max pooling với kích thước cửa sổ 2×2 stride 2, liệu ngõ lớp có kích cỡ 28 x 28 x 256  conv4_1: lớp tích chập, sử dụng 512 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 28 x 28 x 512 Theo đó, ta có (3 x x 256) x 512 = 1179648 trọng số 512 bias, tổng cộng số lượng tham số 1180160 Lớp relu4_1 hàm kích hoạt ReLU  conv4_2: lớp tích chập, sử dụng 512 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 28 x 28 x 512 Theo đó, ta có (3 x x 512) x 512 = 2359296 trọng số 512 bias, tổng cộng số lượng tham số 2359808 Lớp relu4_2 hàm kích hoạt ReLU  conv4_3: lớp tích chập, sử dụng 512 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 28 x 28 x 512 Theo đó, ta có (3 x x 512) x 512 = 2359296 trọng số 512 bias, tổng cộng số lượng tham số 2359808 Lớp relu4_3 hàm kích hoạt ReLU  pool4: lớp max pooling với kích thước cửa sổ 2×2 stride 2, liệu ngõ lớp có kích cỡ 14 x 14 x 512  conv5_1: lớp tích chập, sử dụng 512 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 14 x 14 x 512 Theo đó, ta có (3 x x 512) x 512 = 2359296 trọng số 512 bias, tổng cộng số lượng tham số 2359808 Lớp relu5_1 hàm kích hoạt ReLU HVTH: Trần Giang Nam 83 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt”  conv5_2: lớp tích chập, sử dụng 512 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 14 x 14 x 512 Theo đó, ta có (3 x x 512) x 512 = 2359296 trọng số 512 bias, tổng cộng số lượng tham số 2359808 Lớp relu5_2 hàm kích hoạt ReLU  conv5_3: lớp tích chập, sử dụng 512 lọc với kích thước 3x3 pixels, stride padding 1, liệu ngõ lớp có kích cỡ 14 x 14 x 512 Theo đó, ta có (3 x x 512) x 512 = 2359296 trọng số 512 bias, tổng cộng số lượng tham số 2359808 Lớp relu5_3 hàm kích hoạt ReLU  pool5: lớp max pooling với kích thước cửa sổ 2×2 stride 2, liệu ngõ lớp có kích cỡ x x 512  fc6: lớp kết nối đầy đủ có 4096 nơ-ron Theo đó, ta có 4096 x 25088 = 102760448 trọng số 4096 bias, tổng cộng số lượng tham số 102764544 Lớp relu6 hàm kích hoạt ReLU  drop6: drop out áp dụng với tỉ lệ 0.5, tức có 50% nơ-ron lớp fc6 bị tắt trình huấn luyện, nhằm hạn chế tượng khớp (overfitting) vốn nhược điểm lớn mạng nơ-ron nhân tạo  fc7: lớp kết nối đầy đủ thứ hai có 4096 nơ-ron Theo đó, ta có 4096 x 4096 = 16777216 trọng số 4096 bias, tổng cộng số lượng tham số 16781312 Lớp relu7 hàm kích hoạt ReLU  drop7: drop out 50% số node mạng liên kết lớp fc7  fc8: lớp kết nối đầy đủ cuối có số nơ-ron tương ứng với số danh tính cần nhận dạng Đi cùng với hàm kích hoạt softmax Ví dụ ta có 13 đối tượng cần nhận dạng ngõ số nơ-ron lớp 13 Theo đó, ta có 13 x 4096 = 53248 trọng số 13 bias, tổng cộng lại số lượng tham số 53261  classoutput : lớp phân loại tính toán tổn thất cross entropy cho vấn đề phân loại đa lớp với lớp loại trừ lẫn 2.4 Thuật toán tối ưu dùng huấn luyện HVTH: Trần Giang Nam 84 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khn mặt”  Thuật tốn lan truyền bình phương trung bình bậc hai Thuật tốn lan truyền bình phương trung bình bậc hai (RMSProp) [9] phương pháp tỷ lệ học tập thích ứng đề xuất Geoffrey Hinton Thuật toán giữ trung bình di động bình phương phần tử tham số độ dốc E[ g ]t  E[ g ]t 1  (1   ) g t (3) E[g] trung bình di chuyển bình phương độ dốc, gt độ dốc hàm chi phí trọng số, η tỷ lệ học tập β tham số trung bình di chuyển (giá trị mặc định thường 0,9) Thuật toán sử dụng trung bình di động để chuẩn hóa cập nhật tham số riêng lẻ  t 1   t   E[ g ]t   gt (4) Sử dụng thuật tốn có hiệu làm giảm tốc độ học tập tham số với độ dốc lớn tăng tốc độ học tập tham số với độ dốc nhỏ, ɛ số nhỏ bổ sung vào để mẫu tránh  Ước lượng mơ men thích ứng Ước lượng mơ men thích ứng (Adam) [10] phương pháp khác để tính tốn tỷ lệ học tập thích ứng cho tham số Ngồi việc giữ trung bình phân rã theo cấp số nhân bình phương độ dốc q khứ v t , giữ mức trung bình phân rã theo cấp số nhân độ dốc khứ mt : mt  1mt 1  (1  1 ) gt (5) vt   vt 1  (1   ) g t2 mt v t ước lượng mơ men (giá trị trung bình) mô men thứ hai (phương sai không kiểm soát) độ dốc tương ứng Những bias thêm vào để điều chỉnh sai lệch ước lượng mô men thứ thứ hai mˆ t  vt mt vˆ  t , t   2t  1 (6) Và cuối ta có quy tắc cập nhật cho thuật toán: HVTH: Trần Giang Nam 85 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt”  t 1   t   mˆ t vˆt   (7) Thông thường cho β1 = 0,9, β2 = 0,999, ε = 10-8 2.5 Mô tả phương pháp huấn luyện Việc huấn luyện nhằm mục đích phân loại đối tượng theo mong muốn, nghĩa ngõ xác định trước Nhiệm vụ mạng điều chỉnh thông số cho ngõ gần với mục tiêu Quá trình gọi huấn luyện có giám sát Sau xây dựng mạng chuẩn bị liệu ảnh khn mặt, mơ tả việc huấn luyện mạng theo lưu đồ hình Bắt đầu Khởi tạo thông số ban đầu (weight, bias, learning rate, ) Cho liệu qua lớp mạng Tính tốn sai số ngõ Cập nhật trọng số Sai Đủ số chu kỳ huấn luyện? Đúng Lưu lại mạng huấn luyện Kết thúc Hình Lưu đồ q trình huấn luyện mạng 2.6 Mơ tả phương pháp nhận dạng HVTH: Trần Giang Nam 86 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” Ảnh trước đưa vào nhận dạng cần lấy mẫu phần chứa khn mặt định kích cỡ đầu vào 224 x 224 x Sau đưa ảnh qua mạng huấn luyện để phân loại đưa kết Quá trình nhận dạng đối tượng tóm tắt qua lưu đồ hình Bắt đầu Load mơ hình mạng huấn luyện Đọc ảnh cần nhận diện Sai Phát khuôn mặt Đúng Trích xuất khn mặt, định kích cỡ, chuẩn hóa ảnh Mạng CNN phân loại danh tính đối tượng Hiển thị danh tính khơng Kết thúc Hình Lưu đồ q trình nhận diện 2.7 Đánh giá độ xác nhận dạng Để đánh giá độ xác ta dùng Ma trận nhầm lẫn (Confusion matrix) [11], ma trận tổng quát thể kết phân loại xác kết phân loại sai tạo mơ hình phân loại cách so sánh với giá trị thật biến mục tiêu tập kiểm tra Ví dụ HVTH: Trần Giang Nam 87 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” cho ma trận nhầm lẫn 2x2 phân loại liệu theo biến mục tiêu có hai giá trị Positive Negative mô tả bảng Bảng 1: Bảng Ma trận nhầm lẫn Predicted Class Positive Actual Class Negative Positive True Positive (TP) False Negative (FN) Negative False Positive (FP) True Negative (TN) Từ đây, độ xác mơ hình (Accuracy) tính sau: Acc  TP  TN TP  TN  FP  FN (8) KẾT QUẢ VÀ THẢO LUẬN 3.1 Kết huấn luyện mạng Việc huấn luyện mạng thực 15 epoch ba tập liệu ảnh khuôn mặt Kết thể qua biểu đồ xác lỗi tương ứng  Áp dụng thuật toán RMSProp Trong phần này, mơ hình đề xuất huấn luyện với tập ảnh dùng thuật toán tối ưu RMSProp tiến hành thay đổi độ sâu mạng cách bỏ lớp kết nối đầy đủ fc7 hai lớp relu7, drop7 theo sau thu kết Gọi mơ hình mơ hình VGG-16 chỉnh sửa Hình Biểu đồ độ xác nhận dạng Độ xác nhận dạng mơ hình đạt cao qua ba tập liệu tương ứng FEI Face, CASIA-WebFace tập ảnh tự thu 96,67%, 97,78% 100% đối vối mơ hình VGG- HVTH: Trần Giang Nam 88 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khn mặt” 16 Trong mơ hình chỉnh sửa nó, tỉ lệ thấp với 94,17%, 97,27% 99.83% Kết so sánh độ xác nhận dạng mơ hình VGG-16 mơ hình chỉnh sửa mơ tả biểu đồ hình Cụ thể, trục đứng thể độ xác (%), trục ngang thể tập liệu ảnh với màu sắc tương ứng Màu xanh dương tập FEI Face, màu cam tập CASIA-WebFace màu xanh tập ảnh tự thu thập Như qua biểu đồ thấy, cùng tập liệu hiệu suất nhận dạng bị ảnh hưởng độ sâu lớp mạng Nhưng bù lại thời gian đào tạo nhanh mơ hình sâu Hình Biểu đồ thời gian huấn luyện Đối với thời gian huấn luyện mơ hình VGG-16 tương ứng với ba tập liệu 618 phút, 820 phút, 1288 phút, mơ hình chỉnh sửa cho kết nhanh với 602 phút, 604 phút, 1273 phút Hình biểu đồ so sánh thời gian huấn luyện hai mơ hình Cụ thể, trục đứng thể thời gian huấn luyện (phút), trục ngang thể tập liệu ảnh với màu sắc tương ứng  Áp dụng thuật tốn Adam Hình 10 Biểu đồ độ xác huấn luyện dùng hai thuật tốn tối ưu HVTH: Trần Giang Nam 89 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” Khi tiến hành so sánh độ xác mơ hình mạng VGG-16 huấn luyện dùng hai thuật toán tối ưu ba tập liệu, nhận thấy dùng RMSProp cho độ xác cao so với Adam Cụ thể với tập liệu FEI Face cao 1,67%, tập CASIA-WebFace 0,85% tập ảnh tự thu 0,08% mơ tả hình 10 Như vậy, nghĩa lỗi huấn luyện mạng dùng RMSProp Adam khuôn khổ ba tập liệu Để mô tả rõ phương pháp đánh giá độ xác nhận dạng kết trình bày phần trên, ma trận nhầm lẫn phân loại thực tập CASIA-WebFace đưa tập kiểm tra qua mơ hình mạng huấn luyện Hình 11 Đánh giá độ xác ma trận nhầm lẫn Trong hình 11, hàng tương ứng với lớp dự đoán (Output Class) cột tương ứng với lớp thực (Target Class) Các ô chéo màu xanh tương ứng với phân loại xác, ngồi đường chéo tương ứng với phân loại khơng xác Cột phía bên phải ma trận Precision - tỷ lệ phần trăm tất mẫu dự đốn lớp phân loại xác (chữ xanh) khơng xác (chữ đỏ) Hàng cùng ma trận Recal - tỷ lệ phần trăm tất mẫu lớp phân loại xác khơng xác Ô cùng bên phải ma trận độ xác tổng thể (Accuracy) dùng để đánh giá HVTH: Trần Giang Nam 90 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” luận văn Cụ thể, độ xác nhận dạng mơ hình mạng VGG-16 tập CASIAWebFace 97,8%, lỗi 2,2% 3.2 Kết nhận dạng Tiến hành cho nhận dạng đối tượng tập CASIA-WebFace tập ảnh tự thu  Tập CASIA-WebFace Hình 12 Ảnh nhận diện nhân vật Alyssa Milano HVTH: Trần Giang Nam 91 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khn mặt” Hình 13 Ảnh nhận diện nhân vật Julia Roberts Kết nhận diện ảnh đơn ảnh nhân vật Alyssa Milano, Julia Roberts nhóm với nhiều góc độ khác nhận diện xác mơ tả hình 13 hình14  Tập tự thu Hình 14 Ảnh nhận diện đơn tập tự thu HVTH: Trần Giang Nam 92 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khn mặt” Hình 15 Ảnh nhận diện nhiều đối tượng tập tự thu Trong nhận diện ảnh đơn sinh viên ngồi đối diện camera hình 14 Kết nhận diện đạt kết tốt mô hình mạng VGG-16 mơ hình chỉnh sửa Trong nhận diện nhiều đối tượng sinh viên hình 15, khn mặt ảnh trình dị khn mặt xác định vị trí kích cỡ Sau khuôn mặt đưa vào mạng huấn luyện để nhận diện Kết đạt mô hình VGG-16 khả quan, nhận diện xác tất đối tượng với thời gian 6,72 giây Đối với mơ hình mạng VGG-16 chỉnh sửa có nhận diện sai ba danh tính mơ tả hình 16 với thời gian nhận diện tồn khn mặt ảnh 6,63 giây Hình 16 Nhận diện nhiều đối tượng sinh viên với mơ hình mạng VGG-16 chỉnh sửa 3.3 So sánh hiệu suất với mạng khác Việc so sánh độ xác nhận dạng với mơ hình khác nhằm để đánh giá hiệu suất mạng, từ có cải tiến hay lựa chọn mơ hình cho phù hợp, tối ưu Đánh giá thực tập FEI Face đạt độ xác nhận dạng cao với mơ hình VGG- HVTH: Trần Giang Nam 93 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” 16 (RMSProp) 96,67%, mô hình VGG-16 (Adam) 95%, mơ hình VGG-16 chỉnh sửa (RMSProp) 94,17%, mô tả cụ thể bảng Bảng 2: So sánh hiệu suất nhận dạng mơ hình mạng nghiên cứu với mơ hình khác tập liệu FEI Face Mơ hình mạng Độ xác nhận dạng (%) Mơ hình J Cai cộng [12] 61,31% AlexNet + SVM [13] 97,50% Transfer learning (AlexNet) [13] 98,70% ResNet-50 + SVM [13] 98,50% Mơ hình VGG-16 (RMSProp) 96,67% Mơ hình VGG-16 (Adam) 95% Mơ hình VGG-16 chỉnh sửa (RMSProp) 94,17% KẾT LUẬN Nghiên cứu xây dựng hệ thống cho phát nhận diện khuôn mặt người dùng mơ hình mạng CNN VGG-16 Trong đó, hai thí nghiệm tiến hành để đánh giá hiệu suất ảnh hưởng độ sâu mạng huấn luyện nhận diện, phân loại khuôn mặt so sánh hai thuật toán tối ưu dùng huấn luyện mạng RMSProp Adam Trong hệ thống này, ảnh khuôn mặt đầu vào lấy mẫu cân chỉnh kích cỡ cho phù hợp với đầu vào mạng Sau đó, ảnh đưa vào mạng để huấn luyện phân loại Nghiên cứu thực ba tập ảnh FEI Face, CASIA-WebFace tập ảnh tự thu thập Hiệu suất hai mơ hình mạng đánh giá qua độ xác tập kiểm tra tương ứng với ba tập liệu Cụ thể mơ hình VGG-16 có phạm vi xác từ 95% đến 100%, mơ hình VGG-16 chỉnh sửa có phạm vi xác từ 94,17% đến 99,83% Vậy với mạng có độ sâu nhận diện xác hơn, nhiên thời gian tiêu tốn cho huấn luyện nhận diện nhiều Về vấn đề so sánh lỗi huấn luyện dùng RMSProp Adam cho thấy độ dốc lỗi hai thuật toán không khác biệt nhiều HVTH: Trần Giang Nam 94 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” LỜI CẢM ƠN Các tác giả muốn gửi lời cảm ơn đến trường Đại học Sư Phạm Kỹ Thuật Tp HCM tạo điều kiện thuận lợi để hoàn thành nghiên cứu Hơn nữa, chúng tơi cịn muốn gửi lời cảm ơn đến sinh viên Trường Cao Đẳng Lý Tự Trọng TP.HCM tham gia thu thập liệu, đóng góp phần khơng nhỏ thành cơng nghiên cứu TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] Ojala T, Pietikäinen M & Mäenpää T Multiresolution gray-scale and rotation invar ia nt texture classification with local binary patterns IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002 Nugrahaeni, R A and K Mutijarsa Comparative analysis of machine learning KNN, SVM, and random forests algorithm for facial expression classification International Seminar on Application for Technology of Information and Communication (ISemantic) 2016 David G.Lowe Object Recognition from Local Scale-Invariant Features International Conference on Computer Vision 1999 Yang, J., Jiang, Y.-G., Hauptmann, A G., and Ngo, C.-W Evaluating bag-of-visua lwords representations in scene classification Proceedings of the International Workshop on Multimedia Information Retrieval (ACM) 2007 Z Zhu, P Luo, X Wang, and X Tang Recover canonicalview faces in the wild with deep neural networks arXiv:1404.3543 2014 Y Taigman, M Yang, M Ranzato, and L Wolf Deepface: Closing the gap to humanlevel performance in face verification In IEEE Conf on CVPR 2014 Florian Schroff, Dmitrv Kalcnichenko, and James Philbin Facenet: A unified embedding for face recognition and clustering In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2015 Karen Simonyan, Andrew Zisserman Very deep convolutional networks for large-scale image recognition ICLR 2015 Tijmen Tieleman and Geoffrey Hinton Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude COURSERA: neural networks for machine learning 2012 Kingma, D P., & Ba, J L Adam: a Method for Stochastic Optimization International Conference on Learning Representations 2015 Sofia Visa, B Ramsay, A Ralescu, and E VanDerKnaap Confusion Matrix-Based Feature Selection Proceedings of The 22nd Midwest Artificial Intelligence and Cognitive Science Conference 2011 Cai, J.; Chen, J.; Liang, X Single-sample face recognition based on intra-class differences in a variation model Sensors 2015 Soad Almabdy, Lamiaa Elrefaei Deep Convolutional Neural Network-Based Approaches for Face Recognition MDPI 2019 HVTH: Trần Giang Nam 95 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: “Ứng dụng mạng học sâu cho nhận diện khuôn mặt” Thơng tin liên hệ tác giả (người chịu trách nhiệm viết): Họ tên: Trần Giang Nam Đơn vị: Trường Cao Đẳng Lý Tự Trọng Tp.HCM Điện thoại: 0903371549 Email: namxpro@gmail.com HVTH: Trần Giang Nam 96 GVHD: PGS.TS Nguyễn Thanh Hải ... Hải Luận văn Thạc sĩ: ? ?Ứng dụng mạng học sâu cho nhận diện khuôn mặt? ?? CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Những ứng dụng nhận dạng mặt người Hiện giới ứng dụng nhận dạng khuôn mặt nhiều Sau ứng dụng. .. Thanh Hải Luận văn Thạc sĩ: ? ?Ứng dụng mạng học sâu cho nhận diện khuôn mặt? ?? 2.1 Những ứng dụng nhận dạng mặt người 2.2 Mộ số phương pháp nhận dạng khuôn mặt 2.3 Một số thuật toán... đại diện cho khuôn mặt cần nhận dạng HVTH: Trần Giang Nam 23 GVHD: PGS.TS Nguyễn Thanh Hải Luận văn Thạc sĩ: ? ?Ứng dụng mạng học sâu cho nhận diện khuôn mặt? ??  Drop out: Trong mạng nơ-ron, kỹ thuật

Ngày đăng: 04/12/2021, 13:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan