ĐỀ TÀI CÁC PHƯƠNG PHÁP TẠO MẪU ảo TRONG NHẬN DIỆN KHUÔN MẶT

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA ĐIỆN – ĐIỆN TỬ BỘ MÔN VIỄN THÔNG -o0o - BÁO CÁO THỰC TẬP TỐT NGHIỆP ĐỀ TÀI: CÁC PHƯƠNG PHÁP TẠO MẪU ẢO TRONG NHẬN DIỆN KHUÔN MẶT GVHD: Đặng Nguyên Châu Sinh viên thực hiện: Phùng Thanh Phong MSSV: 1813532 TP HỒ CHÍ MINH, THÁNG 08 NĂM 2021 Lời cảm ơn GVHD: Đặng Nguyên Châu LỜI CẢM ƠN Trước tiên em xin gửi lời cảm ơn đến tất thầy cô giáo trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh, tạo điều kiện hỗ trợ, giúp đỡ em suốt trình hoc tập Và đăc biệt em xin gửi lời cảm ơn sâu sắc thầy Đặng Nguyên Châu hướng dân em thực Báo cáo Thực tập tốt nghiệp Tuy nhiên q trình thực khơng thể tránh khỏi sai sót, em mong q thầy góp ý bổ sung để em rút kinh nghiệm cho trình học tập làm việc sau Em xin chân thành cảm ơn! Tp Hồ Chí Minh, ngày tháng năm Sinh viên Phùng Thanh Phong i GHVD: Đặng Nguyên Châu Báo cáo thực tập tốt nghiệp MỤC LỤC Chương 1: GIỚI THIỆU TỔNG QUAN 1.1 Giới thiệu: 1.2 Tiếp cận: 1.3 Virtual Image Generation (Tạo hình ảnh ảo): Chương 2: CÁC PHƯƠNG PHÁP TẠO HÌNH ẢNH ẢO 2.1 Nhận dạng khuôn mặt sử dụng mạng thần kinh kiến trúc sâu: 2.2 Phân tách đặc trưng biến thể với Manifold Interaction: 13 2.3 Deep Lambertian Networks: 18 2.4 Mạng tích chập cho việc tạo khuôn mặt người theo hướng thuộc tính bảo tồn danh tính: 24 2.5 Biểu diễn đa chế độ xem (Multi-View Representation) Deep Learning để nhận dạng khuôn mặt: 29 2.6 Tái tạo mẫu với Deep Autoencoder (DA) cho mẫu người nhận dạng khuôn mặt: 37 2.7 Few-Shot Adversarial Learning Realistic Neural talking Head Models: 47 2.8 Tạo khuôn mặt để học low-shot sử dụng Generative Adversarial Networks (GAN): 54 TÀI LIỆU THAM KHẢO 61 ii GHVD: Đặng Nguyên Châu Báo cáo thực tập tốt nghiệp TĨM TẮT Nhận dạng khn mặt lĩnh vực nghiên cứu tích cực lĩnh vực nhận dạng đối tượng, đặc biệt phát triển Deep Learning năm gần Tuy nhiên, số tình thực tế, danh tính tập huấn luyện có mẫu Loại tình gọi Mẫu đơn cho người - Single Sample Per Person (SSPP), mang đến thách thức lớn việc đào tạo hiệu mơ hình học sâu Để giải vấn đề để giải phóng tồn tiềm học sâu (Deep Learning), nhiều nhận dạng khuôn mặt SSPP dựa Deep Learning đề xuất năm gần Đã có số khảo sát toàn diện cho phương pháp truyền thống dựa phương pháp tiếp cận nhận dạng khuôn mặt SSPP, phương pháp dựa tham gia Trong báo cáo tập trung vào phương pháp sâu, phân loại chúng phương pháp mẫu ảo Trong phương pháp mẫu ảo, hình ảnh khn mặt ảo đặc điểm khn mặt ảo tạo để mang lại lợi ích cho việc đào tạo mơ hình sâu GHVD: Đặng Nguyên Châu Báo cáo thực tập tốt nghiệp Chương 1: GIỚI THIỆU TỔNG QUAN 1.1 Giới thiệu: Trong năm gần đây, mơ hình học sâu mạnh mẽ Mạng thần kinh tích chập (CNN) khai thác nhận dạng khn mặt, độ xác chí vượt q tiêu chuẩn người Ưu điểm nhận dạng khuôn mặt dựa học sâu Deep Learning mơ hình học cách trích xuất tính mạnh mẽ tập hợp đào tạo quy mơ lớn có hiệu Tuy nhiên, loại ứng dụng nhận dạng khuôn mặt khác nhau, chẳng hạn nhận dạng chứng minh nhân dân, nhận dạng hộ chiếu, xác nhận tư pháp kiểm sốt nhập học, thường có mẫu đào tạo cho danh tính Các tốn gọi nhận dạng khuôn mặt mẫu cho người - Single Sample Per Person (SSPP), mẫu cho người - One Sample Per Person (OSPP), ảnh cho người - Single Image Per Person (SIPP), nhận dạng khn mặt lần Độ xác nhận dạng khả tổng quát hóa phương pháp truyền thống phương pháp học sâu giảm tình SSPP Do đó, nhận dạng khn mặt tình SSPP vấn đề thách thức Hình 1.1 Mối liên hệ vùng nghiên cứu Trong Hình 1.1, nhận dạng khn mặt SSPP (xanh lam) thuộc vấn đề học lần (xanh lục) thường đề cập đến nhiệm vụ học tập với mẫu gán nhãn cho lớp Nó có nhiều nghiên cứu ứng dụng lĩnh vực nhận dạng hình ảnh, Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu dịch máy phân tích ngữ nghĩa Với gia tăng học sâu, học lần dựa học sâu ngày ý Tuy nhiên, phương pháp lần sâu khác áp dụng trực tiếp cho nhận dạng khn mặt SSPP, khác biệt lớp tác vụ lần nói chung lớn, nhận dạng khuôn mặt SSPP nhiệm vụ phân loại chi tiết, có khác biệt lớp nhỏ Do đó, làm để áp dụng hiệu học sâu vào nhận dạng khuôn mặt SSPP vấn đề cấp thiết 1.2 Tiếp cận: Các phương pháp nhận dạng khuôn mặt SSPP dựa học sâu có chia thành hai loại: phương pháp mẫu ảo phương pháp học chung Áp dụng mơ hình nhận dạng Deep Learning (DL) thông thường cho nhiệm vụ SSPP với tập hợp đào tạo mẫu đơn ban đầu thường dẫn đến overfitting Vì vậy, ý tưởng trực tiếp tạo mẫu ảo để phóng to tập training chuyển đổi nhiệm vụ nhận dạng khuôn mặt SSPP thành nhiệm vụ nhận dạng khuôn mặt đa mẫu chung Loại phương pháp gọi phương pháp mẫu ảo 1.3 Virtual Image Generation (Tạo hình ảnh ảo): Tóm tắt - Các phương pháp tạo hình ảnh ảo dựa Deep Learning chủ yếu dựa Bộ mã hóa tự động - Auto Encoders (AE) mạng đối phương chung - Generative Adversarial Networks (GAN) Các phương pháp dựa AE thử trước rộng rãi Phương pháp áp dụng học sâu để tạo ảnh ảo phương pháp dựa fully Connected AE đề xuất [10] [11] Chúng tách hình dạng xác thực thành phần biến tiềm ẩn cách học khơng giám sát, sau điều chỉnh thành phần hình dạng phép giải mã tạo mẫu ảo với kiểu dạng khác Reed cộng [12] áp dụng AE Máy Boltzmann Hạn chế (RBM) có cấu trúc tương tự, họ sử dụng cách tiếp cận giám sát phần để tách biệt thông tin nhận dạng biến thể nội Đối với biến đổi độ chiếu sáng, Deep Lambertian Networks (DLN) [13] Hinton cộng đề xuất cho khuôn mặt Lambertian Dựa Deep Belief Net (DBN), chúng sử dụng bề mặt bình thường hệ Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu số phản xạ albedo để đại diện cho thông tin nhận dạng, sử dụng vectơ góc ánh sáng để biểu thị biến thể lớp Ba mơ hình AE sử dụng quy trình tạo "mã hóa - phân tách điều chỉnh biến tiềm ẩn - giải mã" Một số phương pháp khác sử dụng cấu trúc mạng trình tạo khác Li cộng [14] coi việc tạo mẫu ảo vấn đề tối ưu hóa, họ tạo mẫu đích cách giảm thiểu tổn thất thuộc tính danh tính Zhu cộng [15] khai thác thơng tin nhận dạng trích xuất mã hóa lấy mẫu ngẫu nhiên nhiễu để phối hợp tạo mẫu ảo Zhang cộng [16] huấn luyện AE tập liệu phụ trợ, sau chuyển biến thể nội lớp sang mẫu Để đảm bảo chất lượng tạo lưu giữ thông tin nhận dạng, biến thể lớp đến từ mẫu lân cận mẫu đơn, điều hạn chế khả tạo biến thể lớp Bên cạnh đó, số phương pháp tạo mẫu ảo với trợ giúp GANs, Zakharov cộng [17] sử dụng điểm đặc trưng khuôn mặt trích xuất để đại diện cho biến đổi lớp chiến lược siêu học sử dụng để làm cho mơ hình tạo mẫu ảo chất lượng cao đào tạo đối tượng Choe cộng [18] đề xuất phương pháp tạo mẫu ảo dựa Mạng đối phương tạo cân (BEGAN) Phương pháp nhập biến tiềm ẩn điều chỉnh cụ thể vào trình tạo BEGAN đào tạo để thu mẫu ảo Tuy nhiên, phương pháp nội suy biến tiềm ẩn khuôn mặt nhân đơi để chuyển đổi tư gây thay đổi thông tin nhận dạng mẫu ảo thu được, đặc biệt khn mặt có đặc điểm phân biệt dựa không đối xứng Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu Hình 1.2 Kết phương pháp tạo ảnh ảo dựa học sâu Do tập hợp đào tạo khác hình ảnh khn mặt mẫu đơn đầu vào khác nhau, thật khó để biết phương pháp có khả tạo tốt Vì vậy, làm để đánh giá chất lượng mẫu ảo tạo câu hỏi mở So sánh mức độ xác nhận dạng cách tiếp cận tiềm năng, bị ảnh hưởng nhiều cấu trúc mơ hình nhận dạng khn mặt GHVD: Đặng Nguyên Châu Báo cáo thực tập tốt nghiệp Chương 2: CÁC PHƯƠNG PHÁP TẠO HÌNH ẢNH ẢO 2.1 Nhận dạng khuôn mặt sử dụng mạng thần kinh kiến trúc sâu: 2.1.1 Giới thiệu: Trong viết này, tác giả đề xuất mơ hình mạng thần kinh lấy cảm hứng từ mạng não tổng hợp phân tích hai chiều học ánh xạ phi tuyến khơng gian hình ảnh khơng gian thành phần Sử dụng mơ hình mạng nơron sâu, cố gắng tách thành phần tư từ người, sau sử dụng chúng để tổng hợp hình ảnh ảo liệu thử nghiệm nhiều tư điều kiện ánh sáng khác Những hình ảnh ảo sử dụng để đào tạo phân loại mạng thần kinh Kết quả: Đào tạo phân loại thần kinh với hình ảnh ảo mang lại hiệu suất tốt so với trình phân loại đào tạo với hình ảnh xem trực diện Thiết kế mạng neural sâu mơ hình xử lý thơng tin hình ảnh phi tuyến tính Tất hình ảnh khn mặt bao gồm hai loại thơng tin chính: tư thơng tin người Bằng cách trích xuất thành phần độc lập, ta tách hai loại thơng tin Sau phân biệt chúng deep neural network tổng hợp hình ảnh ảo dựa hình ảnh nhìn trực diện thành phần trích xuất giai đoạn trước Hình 2.1.1 Sơ đồ khối quy trình hệ thống nhận dạng khn mặt 2.1.2 Chi tiết phương pháp: Hướng giải quyết: • Chuẩn hóa hình ảnh tư khác cách phi tuyến tính • Mở rộng kích thước tập training cách kết hợp thơng tin trước Ở đây, mạng xử lý thông tin thần kinh phi tuyến áp dụng để tổng hợp biểu diễn hình ảnh đầu vào Mạng nơ-ron mã tự động quy định Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu hóa bao gồm mạng nhận dạng mạng chung Mạng nhận dạng xem mã hóa chuyển đổi đầu vào thành mã có chiều thấp mạng tổng hợp coi giải mã chuyển đổi mã trở lại thành tái tạo đầu vào Mục đích ước tính đa dạng phi tuyến biến thể tư Do đó, mơ hình xử lý thơng tin thần kinh phi tuyến áp dụng để phân tách tư thông tin người A Nonlinear neural information processing: Xử lý thông tin thần kinh phi tuyến Giả sử 𝑥̅ hình ảnh trực diện, nhúng vào nhiều thứ khác tương ứng, ta có: 𝑋̅𝑗 = 𝑥 + 𝑣𝑗 (1) Trong đó: 𝑋̅𝑗 biểu thị tư thứ j, 𝑣𝑗 loại giá trị áp dụng cho hình ảnh xem trực diện khơng gian hình ảnh đầu vào để có tư Để ước tính đa dạng biến thể tư cách xác, nên ước lượng 𝑣𝑗 Ngoài ra, việc tách 𝑣𝑗 khỏi 𝑥̅ nên thực xác có sẵn 𝑋𝑗 Do thành phần phi tuyến tín hiệu từ nguồn khác nhau, nên trích xuất thành phần độc lập phi tuyến tương ứng với tư khác Sau đó, cách kết hợp thành phần thành phần liên quan đến hình ảnh xem trực diện tạo hình ảnh ảo khác Vì vậy, sử dụng mạng nơron sâu tự động tương tác minh họa hình 2.1.3, để tách thành phần Hình 2.1.2 Sơ đồ tách thơng tin người khỏi thông tin tư Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu 2.7 Few-Shot Adversarial Learning Realistic Neural talking Head Models: Phương pháp tạo mẫu ảo với trợ giúp GANs, Zakharov cộng [17] sử dụng điểm đặc trưng khuôn mặt trích xuất để đại diện cho biến đổi lớp chiến lược siêu học sử dụng để làm cho mơ hình tạo mẫu ảo chất lượng cao đào tạo đối tượng 2.7.1 Giới thiệu: Hình 2.7.1 Kết việc tổng hợp hình ảnh khn mặt nói chuyện cách sử dụng dấu vết mốc khn mặt trích xuất từ chuỗi video khác người (ở bên trái) sử dụng mốc khuôn mặt người khác (ở bên phải) Kết điều chỉnh dựa mốc lấy từ khung đích, khung nguồn ví dụ từ tập huấn luyện Các mơ hình khn mặt biết nói bên trái đào tạo cách sử dụng tám khung, mơ hình bên phải đào tạo lần Trong báo này, nhóm tác giả coi trọng việc tạo mơ hình khn mặt nói chuyện thực tế ảnh cá nhân hóa, tức hệ thống tổng hợp chuỗi video hợp lý cách diễn đạt bắt chước giọng nói cá nhân cụ thể Cụ thể hơn, xem xét vấn đề tổng hợp hình ảnh đầu cá nhân hóa ảnh thực với tập hợp đặc điểm (landmarks) khuôn mặt, điều thúc đẩy hoạt ảnh mơ hình Tổng hợp chuỗi khn mặt nói chuyện thực tế khó khăn, lý do: Đầu tiên, khn mặt người có độ phức tạp cao trắc quang, hình học động học Sự phức tạp không bắt nguồn từ việc tạo mẫu khuôn mặt (nơi có số lượng lớn phương pháp tạo mẫu) mà từ việc tạo mẫu khoang miệng, tóc quần áo 47 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu Thứ hai nhạy bén hệ thống thị giác người sai sót nhỏ việc tạo mơ hình ngoại hình khn mặt Khả chịu đựng sai lầm mơ hình thấp giải thích phổ biến hình đại diện giống phim hoạt hình phi thực tế nhiều hệ thống hội nghị từ xa triển khai thực tế Bài báo trình bày hệ thống để tạo mơ hình mặt biết nói từ số ảnh (được gọi few-shot learning) với thời gian đào tạo giới hạn Trên thực tế, hệ thống tạo kết hợp lý dựa ảnh (one-shot learning) thêm vài ảnh làm tăng độ trung thực q trình cá nhân hóa Các đầu nói chuyện tạo mơ hình ConvNets sâu tổng hợp khung hình video theo cách trực tiếp chuỗi hoạt động phức tạp cách uốn cong Khả học tập vài lần có nhờ trình mở rộng pre-training (học tập tổng hợp) kho liệu lớn video đầu nói chuyện tương ứng với diễn giả khác có ngoại hình đa dạng Trong q trình meta-learning, hệ thống mơ nhiệm vụ học tập vài lần chụp học cách chuyển đổi vị trí mốc thành ảnh cá nhân hóa trơng thực tế, cung cấp hình ảnh đào tạo nhỏ với người Trong thử nghiệm, cung cấp so sánh đầu biết nói hệ thống tạo với mơ hình đầu biết nói thần kinh thay thông qua phép đo định lượng nghiên cứu người dùng, phương pháp tạo hình ảnh đủ chân thực độ trung thực cá nhân hóa Thiết kế hệ thống vay mượn nhiều từ tiến gần việc tạo mơ hình tổng hình ảnh Do đó, kiến trúc ta sử dụng đào tạo đối nghịch cụ thể ý tưởng đằng sau yếu tố phân biệt có điều kiện, bao gồm yếu tố phân biệt dự báo Giai đoạn meta-learning sử dụng chế chuẩn hóa phiên thích ứng, chứng minh hữu ích nhiệm vụ tạo có điều kiện quy mơ lớn 2.7.2 Chi tiết phương pháp: a Kiến trúc ký hiệu: 48 GHVD: Đặng Nguyên Châu Báo cáo thực tập tốt nghiệp Hình 2.7.2 Kiến trúc meta-learning liên quan đến mạng embedder ánh xạ hình ảnh khn mặt (với đặc điểm khn mặt ước tính) với vectơ nhúng, chứa thơng tin độc lập với tư Mạng trình tạo ánh xạ mốc khuôn mặt đầu vào vào khung đầu thông qua tập hợp lớp chập, điều chế vectơ nhúng thông qua chuẩn hóa phiên thích ứng Trong q trình meta-learning, chuyển tập hợp khung từ video qua trình nhúng, tính trung bình kết lần nhúng sử dụng chúng để dự đoán thơng số thích ứng trình tạo Generator Sau đó, chuyển điểm mốc khung hình khác qua Generator, so sánh hình ảnh thu với ground truth Giả sử sẵn có M chuỗi video, chứa khn mặt biết nói người khác Biễu diễn xi (t) - chuỗi video thứ i khung hình thứ t Sử dụng mã chỉnh khn mặt có sẵn để lấy đường nét đặc điểm khn mặt Trong meta-learning, có mạng network đào tạo: Embedder: , lấy khung hình video xi (s), hình ảnh mốc liên quan yi (s), ánh xạ đầu vào thành vectơ N chiều êi (s) Generator: lấy hình ảnh cột mốc yi (t) cho khung video mà trình nhúng khơng nhìn thấy, dự đoán video nhúng êi xuất khung video tổng hợp Bộ tạo generator đào tạo để tối đa hóa giống đầu khung ground truth Tất tham số chia thành loại: tham số chung 𝜓̂ tham số riêng 49 GHVD: Đặng Nguyên Châu Báo cáo thực tập tốt nghiệp người 𝜓̂𝑖 𝜓̂ huấn luyện trực tiếp, 𝜓̂𝑖 dự đoán từ vectơ nhúng cách sử dụng ma trận chiếu huấn luyện : Discriminator: , lấy khung hình video xi (t), hình ảnh mốc liên quan yi (t) số trình tự huấn luyện i Ở đây, θ, W, w0 b biểu thị tham số học kết hợp với phân biệt Bộ phân biệt chứa phần ConvNet V (xi (t), yi (t); θ) ánh xạ khung đầu vào hình ảnh mốc thành vectơ N chiều Bộ phân biệt dự đốn điểm vơ hướng (điểm số thực) r, cho biết liệu khung đầu vào xi (t) có phải khung thực chuỗi video thứ i hay khơng liệu có khớp với tư đầu vào yi (t) hay không, dựa kết đầu phần ConvNet tham số W, w0, b Các thông số ba mạng đào tạo theo kiểu đối nghịch b Giai đoạn học tổng hợp (Meta-learning): Nó thực cách mô tập K-shot learning (K = thí nghiệm chúng ta) Trong tập, vẽ ngẫu nhiên chuỗi video đào tạo i khung hình t từ chuỗi Ngồi t, ta vẽ ngẫu nhiên thêm K khung s1, s2, , sK từ dãy Sau đó, tính ei ước tính lần nhúng video thứ i cách đơn giản lấy trung bình lần nhúng êi (sk) dự đốn cho khung hình bổ sung Việc tái tạo ˆxi (t) khung thứ t, dựa phép nhúng ước tính êi, sau tính: Các tham số trình tạo nhúng trình tạo sau tối ưu hóa để giảm thiểu Do đó, có hai loại video nhúng hệ thống: loại trình nhúng tính toán loại tương ứng với cột ma trận W phân biệt 50 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu c Học vài lần cách tinh chỉnh: Sau trình meta-learning, sử dụng trình nhúng siêu học để ước tính việc nhúng cho chuỗi phần đầu biết nói mới: Sử dụng lại tham số φ ước tính trước Một cách đơn giản để tạo khung hình mới, tương ứng với hình ảnh mốc mới, sau áp dụng trình tạo cách sử dụng phép nhúng ước tính êNEW tham số siêu học ψ, ma trận phép chiếu P Q trình tinh chỉnh coi phiên đơn giản hóa siêu học với chuỗi video số lượng khung hình nhỏ hơn, bao gồm: Bộ tạo generator: G (y (t), êNEW; ψ, P) thay G ′ (y (t); ψ, ψ ′) Như trước đây, lấy ảnh mốc y (t) xuất khung tổng hợp ˆx (t) Quan trọng là, tham số tạo dành riêng cho người, mà ký hiệu ψ ′, tối ưu hóa trực tiếp với tham số chung người ψ Chúng ta sử dụng phép nhúng tính tốn êNEW ma trận chiếu P ước tính giai đoạn siêu học để khởi tạo ψ ′, tức bắt đầu với ψ ′ = PêNEW Bộ phân biệt: D ′ (x (t), y (t); θ, w ′, b), trước đây, tính điểm số thực Các tham số θ phần ConvNet V (x (t), y (t); θ) độ lệch b khởi tạo từ kết giai đoạn siêu học 2.7.3 Kết thí nghiệm: Hình 2.7.3 So sánh tập liệu VoxCeleb1 51 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu Đối với phương pháp so sánh, thực học lần vài lần video người không nhìn thấy trình học meta đào tạo trước Ta đặt số khung huấn luyện T (cột bên trái) Một khung đào tạo hiển thị cột nguồn Source Các cột hiển thị hình ảnh trung thực Ground truth, lấy từ phần thử nghiệm chuỗi video kết tạo phương pháp so sánh Hình 2.7.4 Kết cho mơ hình tốt tập liệu VoxCeleb2 Trong biến thể chuyển tiếp cho phép tìm hiểu nhanh (thời gian thực) hình đại diện mới, việc tinh chỉnh cuối mang lại độ chân thực độ trung thực tốt 52 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu Hình 2.7.5 Áp dụng vào ảnh tĩnh 2.7.4 Kết luận: Bài báo trình bày khn khổ để học tổng hợp mơ hình tổng hợp đối nghịch, đào tạo khn mặt ảo biết nói có độ thực tế cao dạng mạng generator sâu Điều quan trọng, cần số ảnh (ít một) để tạo mơ hình Hiện tại, hạn chế phương pháp biểu diễn bắt chước Sử dụng điểm mốc người khác dẫn đến khơng phù hợp tính cách 53 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu 2.8 Tạo khn mặt để học lần sử dụng Generative Adversarial Networks (GAN): 2.8.1 Giới thiệu: Nhóm tác giả điều chỉnh trình tạo từ Generative Adversarial Networks (GAN) để tăng kích thước cho tập liệu đào tạo, bao gồm tập sở, tập liệu có sẵn tập mới, tập liệu giới hạn định, đồng thời áp dụng học chuyển giao backend Dựa nghiên cứu thử nghiệm,nhóm tác giả tiến hành phân tích phương pháp nâng cao liệu khác nhau, quan sát mức độ ảnh hưởng phương pháp đến độ xác nhận dạng Cuối cùng, kết luận thuật toán đề xuất để tạo khn mặt có hiệu việc cải thiện độ xác nhận dạng độ bao phủ độ xác 99% cách sử dụng tập sở tập Low-shot Learning nghiên cứu tích cực để giải vấn đề tập liệu hạn chế nhận dạng cách bắt chước q trình não người, người nhận sau học vài hình ảnh đối tượng, đơi chí hiểu cách trực quan mà không cần học Trong báo sử dụng phương pháp Transfer Learning Thrun đề xuất để đào tạo mơ hình với tập liệu lớn (tức tập sở) để xây dựng trích xuất tính Sau đó, tinh chỉnh để học nhãn thực tế đối tượng tập liệu hình ảnh mới, nhỏ (tức tập mới) không trùng lặp với tập sở Sử dụng học chuyển giao Transfer Learning phần mềm phụ trợ (backend), nhóm tác giả triển khai nhiều tạo liệu khác để tăng tập sở tập nhằm đạt độ xác cao nhận dạng Đối với việc tạo hình ảnh, báo trình bày mơ hình đào tạo kết hợp việc học chuyển giao tạo liệu cho nhận dạng khuôn mặt 54 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu Hình 2.8.1 Tổng quan thuật toán đề xuất Phần 2, sử dụng biến thể GAN để tạo khn mặt nhiều tư thuộc tính khác Sử dụng liệu sở để đào tạo GAN nhằm xây dựng tạo mặt Phần 3, phân tích kết nhận dạng khn mặt cách sử dụng kết hợp khác để tăng tập liệu Đối với tập liệu, tập sở dựa MS-Celeb-1M Challenge-2 CelebA 2.8.2 Chi tiết phương pháp: a Cơng trình liên quan: Low-shot learning: Ở báo sử dụng phương pháp tạo cách tăng cường cách sử dụng liệu định để mở rộng tập liệu Data augmentation generation: Phương pháp đơn giản tạo liệu tăng cường thông qua chuyển đổi hình ảnh đơn giản: sử dụng dịch hình ảnh, xoay, thêm nhiễu pha trộn màu sắc để biến đổi hình ảnh gốc nhằm tạo liệu bổ sung Tuy nhiên, phương pháp tạo phiên trùng lặp liệu gốc; tập liệu thiếu biến thể lớp Để xử lý vấn đề này, có nỗ lực tinh chỉnh 55 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu liệu để chuyển đổi liệu ban đầu thành features, đó, thay đổi tập liệu tăng lên Generative adversarial network (GAN): mơ hình mạnh mẽ để mơ hình hóa tạo hình ảnh theo cách khơng giám sát Mạng họ bao gồm tạo phân biệt hoạt động đối nghịch để học cách tổng quát hóa tập liệu cho Tuy nhiên, khác biệt nhỏ thông số lựa chọn cấu trúc dẫn đến kết khơng đều, kém, khiến cho việc đào tạo ứng dụng trở nên khó khăn Variational Autoencoder VAE / GAN: điều chỉnh Bộ mã tự động biến đổi (VAE) thành GAN để tối đa hóa lợi hai mơ hình, sử dụng phân biệt GAN để tính tốn feature-wise loss cho giải mã đào tạo VAE Feature-wise loss cải thiện hiệu suất đáng kể so với pixel-wise loss Hình 2.8.2 Các khn mặt tái tạo VAE / GAN Hàng trên: Các khuôn mặt đầu vào Hàng dưới: Các khuôn mặt tái tạo tương ứng Nhóm tác giả sử dụng BEGAN vào mơ phương tiện để tạo ảnh tập liệu ảnh low-shot BEGAN đề xuất Berthelot cộng sự, để giải vấn đề cân tạo phân biệt cách đưa hệ số cân vào mơ hình Những nỗ lực họ cải thiện đáng kể hiệu suất trình tạo hình ảnh, hiển thị thành cơng hình ảnh khn mặt xây dựng lại mịn sắc nét 56 Báo cáo thực tập tốt nghiệp GHVD: Đặng Ngun Châu Hình 2.8.3 Các khn mặt tái tạo BEGAN Hàng cùng: Hình ảnh đầu vào Hàng giữa: Đầu từ BEGAN mà không bỏ qua kết nối Hàng cùng: Hình ảnh tạo từ BEGAN với kết nối bỏ qua Các đầu có kết nối bỏ qua giống với hình ảnh đầu vào b Tạo khuôn mặt để nhận dạng khuôn mặt: Trong phần mô tả chi tiết khung nhận dạng khuôn mặt Trước tiên, xem xét mạng generation mạng nhận dạng khn mặt, sau giới thiệu phương pháp nâng cao liệu đề xuất chương trình đào tạo mạng • Mạng Generation: Bài báo sử dụng VAE / GAN BEGAN cho mạng Generation Trong VAE / GAN, số học thay pixel tương đồng sử dụng kiến trúc GAN ban đầu Chỉ số tương đồng học đo khoảng cách features trích xuất từ phân biệt Discriminator Trong BEGAN, mã hóa tự động (AE) sử dụng phân biệt hàm mát sử dụng lỗi tái tạo lại Không giống biến có GAN, hàm mát BEGAN bao gồm số hạng cân để cân mát phân biệt tạo Để trì thành phần tần số cao hình ảnh tái tạo, BEGAN giới thiệu kết nối bỏ qua để tạo 57 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu điều kiện cho lan truyền gradient, kết nối bỏ qua có hiệu để tạo hình ảnh sắc nét • Mạng nhận dạng khn mặt: ResNet mơ hình sử dụng rộng rãi nhiệm vụ phân loại ảnh, nhờ lớp sâu với kết nối bỏ qua lượng lớn liệu Vì chế độ low-shot, lượng liệu nhỏ, viết sử dụng ResNet-10 làm mạng nhận dạng khuôn mặt để tránh bị overfitting đạt hiệu đào tạo ResNet-10 bao gồm lớp tích chập, bốn lớp bao gồm hai khối dư lớp full connected • Data augmentation: Data augmentation sử dụng rộng rãi để cải thiện độ xác ổn định đào tạo mạng phân loại hình ảnh Classical data augmentation: phương pháp điển hình đơn giản (lật, bổ sung nhiễu) Chuyển đổi tư sử dụng GAN: trích xuất biến tiềm ẩn hình ảnh từ phân biệt GAN sửa đổi mặt số học với biến tiềm ẩn Đối với chuyển đổi tư thế, trích xuất biến tiềm ẩn hình ảnh phiên lật ngang nội suy tuyến tính hai biến tiềm ẩn Tăng thuộc tính GAN: sử dụng tập liệu bổ sung, CelebA, biễu diễn thuộc tính khác Thơng tin chi tiết sở liệu CelebA mơ tả Bảng Tính tốn trung bình tiềm ẩn cho tập thuộc tính tồn tập hợp, giả định khác biệt hai giá trị tiềm ẩn đại diện cho thuộc tính tương ứng Bảng Thông tin Dataset 58 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu Để tránh sai lệch giới tính, chia thành nhóm nữ nam, tính giá trị trung bình nhóm Sau đó, thu trung bình có trọng số trung bình hai giới với tỷ lệ giới tập thuộc tính cụ thể Tính tốn 40 biến tiềm ẩn tương đương với 40 thuộc tính sở liệu CelebA • Network training: Bao gồm hai giai đoạn Mạng nhận dạng khuôn mặt đào tạo trước với tập sở sau tinh chỉnh với tập sở, tập tập tăng cường Tuy nhiên, dựa quan sát thực nghiệm, hiệu suất nhận dạng khuôn mặt bị suy giảm với số liệu tăng cường Một số hình ảnh thơng qua tăng cường giữ lại thông tin nhận dạng, đặc biệt hình ảnh thu mạng Generation Do đó, sử dụng liệu tăng cường thành cơng việc nhận dạng mạng xác minh Mạng xác minh (Verification network) đào tạo trước với tập sở tinh chỉnh với tập để nhận dạng khuôn mặt tập Ở đây, nhóm tác giả chọn tập hợp liệu tăng cường với mạng xác minh Cuối cùng, mạng nhận dạng khuôn mặt tinh chỉnh với tập sở gốc, tập tập tăng cường 2.8.3 Kết thí nghiệm: Hình 5: Kết việc tăng thuộc tính BEGAN (a) Thêm kính (b) Thêm nụ cười 59 Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu Bảng 2: Kết xác minh liệu Bỏ qua kết nối ký hiệu SC Mạng xác minh xác minh liệu tăng cường BEGAN tạo Kết xác thực mạng hệ với kết nối bỏ qua tạo hình ảnh chất lượng hơn, bảo tồn danh tính tốt 2.8.4 Kết luận: Các kỹ thuật tạo hình ảnh hấp dẫn ứng dụng thị giác máy tính khác nhau, đặc biệt khó khăn việc thu thập liệu gắn nhãn để đào tạo Trong số phương pháp tạo hình ảnh khn mặt với số thuộc tính tư cách sử dụng GAN, phóng to tập hợp để đạt hiệu suất cao tác vụ nhận dạng khuôn mặt chế độ chụp thấp Mặc dù biến tiềm ẩn sử dụng cơng việc có hiệu việc tạo liệu, điều khơng phải tối ưu để phân biệt Phát triển thêm: nghiên cứu biểu diễn tiềm ẩn khuôn mặt cho mục đích nhận dạng khn mặt 60 GHVD: Đặng Ngun Châu Báo cáo thực tập tốt nghiệp TÀI LIỆU THAM KHẢO [10] Abdolali F, Seyyedsalehi S A Face recognition from a single image per person using deep architecture neural networks[C] // Proceedings of the 3rd International Conference on Computer and Electrical Engineering (ICCEE) Chengdu, China: IEEE, 2010: 1: 70-73 [11] Abdolali F, Seyyedsalehi S A Improving face recognition from a single image per person via virtual images produced by a bidirectional network[J] Procedia-Social and Behavioral Sciences, 2012, 32: 108116 [12] Reed S, Sohn K, Zhang Y, et al Learning to disentangle factors of variation with manifold interaction[C] //Proceedings of the 31st International Conference on Machine Learning (ICML) Beijing, China: IMLS, 2014: 1431-1439 [13] Tang Y, Salakhutdinov R, Hinton G Deep lambertian networks[J] ArXiv Preprint, ArXiv:1206.6445, 2012 [14] Li M, Zuo W, Zhang D Convolutional network for attribute-driven and identity-preserving human face generation[J] ArXiv Preprint, ArXiv:1608.06434, 2016 [15] Zhu Z, Luo P, Wang X, et al Multi-view perceptron: A deep model for learning face identity and view representations[C] //Proceedings of the 2014 International Conference on Neural Information Processing Systems (NIPS) Kuching, Malaysia: MIT Press, 2014: 217-225 [16] Zhang Y, Peng H Sample reconstruction with deep autoencoder for one sample per person face recognition[J] IET Computer Vision, 2017, 11(6): 471-478 [17] Zakharov E, Shysheya A, Burkov E, et al Few-shot adversarial learning of realistic neural talking head models[C] //Proceedings of the 2019 IEEE International Conference on Computer Vision (ICCV) Seoul, Korea: IEEE, 2019: 9459-9468 [18] Choe J, Park S, Kim K, et al Face generation for low-shot learning using generative adversarial networks[C] //Proceedings of the 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) Venice, Italy: IEEE, 2017: 1940-1948 61 ... (trong ngoặc) OSPP-DA, ESRC, UP, SSRC SRC (LBP) Hình 2.6.8 Trong sở liệu AR (a) Các mẫu đối tượng đơn mẫu, (b) Các mẫu đối tượng đa mẫu giống nhất, (c) Các mẫu tái tạo tương ứng Hình 2.6.9 Trong. .. Sự phân bố chung chức năng lượng xác định sau: Trong Z hàm phân vùng, Wik trọng số đơn vị ẩn thứ i thứ k, bk thành kiến ẩn ci thành kiến hiển thị Trong RBM, đơn vị lớp độc lập có điều kiện so... toán EM, giới hạn log-likelihood trở thành: Trong đó, trọng số Bước E lấy mẫu tế bào thần kinh ẩn ngẫu nhiên, tức hvs ∼U (0, 1), bước M tính tốn gradient, Trong gradient tính cách lấy trung bình

Định dạng
Số trang	64
Dung lượng	4,15 MB

Tài liệu tham khảo	Loại	Chi tiết
[10] Abdolali F, Seyyedsalehi S A. Face recognition from a single image per person using deep architecture neural networks[C] // Proceedings of the 3rd International Conference on Computer and Electrical Engineering (ICCEE). Chengdu, China: IEEE, 2010: 1: 70-73	Khác
[11] Abdolali F, Seyyedsalehi S A. Improving face recognition from a single image per person via virtual images produced by a bidirectional network[J]. Procedia-Social and Behavioral Sciences, 2012, 32: 108- 116	Khác
[12] Reed S, Sohn K, Zhang Y, et al. Learning to disentangle factors of variation with manifold interaction[C] //Proceedings of the 31st International Conference on Machine Learning (ICML). Beijing, China: IMLS, 2014: 1431-1439	Khác
[13] Tang Y, Salakhutdinov R, Hinton G. Deep lambertian networks[J]. ArXiv Preprint, ArXiv:1206.6445, 2012	Khác
[14] Li M, Zuo W, Zhang D. Convolutional network for attribute-driven and identity-preserving human face generation[J]. ArXiv Preprint, ArXiv:1608.06434, 2016	Khác
[15] Zhu Z, Luo P, Wang X, et al. Multi-view perceptron: A deep model for learning face identity and view representations[C] //Proceedings of the 2014 International Conference on Neural Information Processing Systems (NIPS). Kuching, Malaysia: MIT Press, 2014: 217-225	Khác
[16] Zhang Y, Peng H. Sample reconstruction with deep autoencoder for one sample per person face recognition[J]. IET Computer Vision, 2017, 11(6): 471-478	Khác
[17] Zakharov E, Shysheya A, Burkov E, et al. Few-shot adversarial learning of realistic neural talking head models[C] //Proceedings of the 2019 IEEE International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019: 9459-9468	Khác
[18] Choe J, Park S, Kim K, et al. Face generation for low-shot learning using generative adversarial networks[C] //Proceedings of the 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). Venice, Italy: IEEE, 2017: 1940-1948	Khác