5 KẾT QUẢ MÔ PHỎNG
6.1 Mối quan hệ giữa các nghiên cứu về học sâu
một lớp (intra-class variation) của bài toán SSPP thì nhỏ hơn so với sự thay đổi trong cùng một lớp của các bài toán one-shot khác. Do đó việc ứng dụng hiệu quả các phương pháp học sâu để giải quyết bài toán SSPP vẫn còn là một bài toán mới cần được nghiên cứu nhiều [93]. Trong khoảng 5 năm trở lại đây, các nhà nghiên cứu đã bắt đầu đề xuất các phương pháp dựa trên học sâu trong việc giải quyết bài toán SSPP của nhận dạng khuôn mặt. Các phương pháp học sâu để giải quyết bài toán SSPP được tập trung trong 02 hướng chính của bài toán SSPP là: các phương pháp tạo ra các mẫu ảo để huấn luyện (Virtual sample generation based) và các phương pháp sử dụng thêm một tập chung để huấn luyện (Generic dataset based). Nhìn chung, các phương pháp này có tỷ lệ nhận dạng rất cao và ít bị ảnh hưởng bởi các điều kiện khác nhau của ảnh đầu vào. Tuy nhiên, thời gian huấn luyện lớn cũng như khó mở rộng hệ thống là nhược điểm của các phương pháp này.
Nhóm phương pháp tạo thêm mẫu ảo để huấn luyện sử dụng các mô hình học sâu để học các đặc trưng ảo và sử dụng các đặc trưng này để tạo thêm các ảnh ảo để tăng số lượng mẫu cho mỗi lớp. Các phương pháp này sử dụng các mô hình học sâu như Auto Encoders (AE) hoặc Generative Adversarial Networks (GAN) để giúp tạo thêm ảnh ảo.
Phương pháp [94] đề xuất một mô hình AE để tạo thêm ảnh ảo, trong đó hàm mất mát của mô hình là tổng của hàm mất mát về thuộc tính và hàm mất mát về tính đồng nhất giữa ảnh ảo và ảnh gốc. Phương pháp [95] sử dụng mô hình AE trên một tập dữ liệu phụ để học được các đặc trưng ảo mô tả sự thay đổi trong cùng một lớp và áp dụng vào tập mẫu để tạo ra thêm các ảnh ảo. Nhìn chung các ảnh ảo được tạo ra từ các phương pháp này có chất lượng rất tốt. Tuy nhiên nhược điểm chung của việc sử dụng các mô hình AE là các mô hình này chỉ học được một cách hạn chế các đặc trưng mô tả sự thay đổi trong cùng một lớp cũng như việc mất mát thông tin của ảnh do sử dụng mô hình AE.
Phương pháp [96] huấn luyện mô hình Boundary Equilibrium Generative Adversarial Networks (BEGAN) trên một tập dữ liệu rất lớn và sử dụng phương pháp transfer
learning để áp dụng mô hình này trên tập mẫu để tạo ảnh ảo. Phương pháp [97] huấn luyện mô hình GAN trên một tập dữ liệu rất lớn để học cách trích các đặc trưng về sự thay đổi trong cùng một lớp. Các đặc trưng này kết hợp cùng phân bộ Gaussian để mô hình tạo ra thêm ảnh ảo cho tập mẫu. Phương pháp [98] sử dụng một tập dữ liệu lớn để huấn luyện mô hình học cách xây dựng một từ điển các đặc trưng về sự thay đổi trong một lớp và sử dụng từ điển này để tạo ảnh ảo cho tập mẫu. Phương pháp [99] đề xuất dùng mô hình Feature Rectification GAN (FR-GAN), trong đó các mẫu ảo được tạo ra dựa trên việc giảm sự thay đổi trong cùng một lớp. Ưu điểm của mô hình GAN so với AE là tránh được việc mất đi một số thông tin của ảnh đầu vào, nhưng mô hình GAN có nhược điểm là rất khó hội tụ.
Nhóm phương pháp sử dụng thêm tập chung sẽ sử dụng một tập chung rất lớn để huấn luyện các mô hình học sâu cách trích đặc trưng, sau đó áp dụng các mô hình này ngược lại trên tập mẫu. Facenet [100] là một mô hình nhận dạng khuôn mặt rất nổi tiếng của Google, trong đó một mô hình CNN được huấn luyện trên một tập chung 300 triệu ảnh với hàm mục tiêu sẽ là làm tối thiểu sự khác nhau của cặp vector đặc trưng của cùng một người và cực đại sự khác nhau của cặp vector đặc trưng của hai người khác nhau. Phương pháp này cho kết quả nhận dạng rất tốt trong điều kiện SSPP. Tuy nhiên việc huấn luyện trên tập ảnh người châu Âu nên mô hình này cần được huấn luyện lại khi sử dụng cho tập mẫu là ảnh của người không phải là châu Âu. Phương pháp Tranditional and Deep Learning (TDL) [12] đề xuất một cách thức kết hợp giữa các phương pháp truyền thống và học sâu, trong đó các phương pháp truyền thống được sử dụng để tạo thêm nhiều ảnh ảo cho tập mẫu sao cho các ảnh ảo càng giống tập kiểm tra nhất càng tốt. Sau đó các ảnh ảo cùng tập mẫu sẽ kết hợp với một tập dữ liệu chung rất lớn để huấn luyện cho mạng CNN. Mạng CNN sau khi huấn luyện sẽ được sử dụng để nhận dạng tập kiểm tra. Phương pháp [11] cũng kết hợp giữa phương pháp truyền thống và học sâu. Một mô hình DCNN được huấn luyện trên một tập chung rất lớn để trích đặc trưng ảnh, các đặc trưng sau đó được áp dụng phương pháp k-class feature transfer (KCFT) để tạo ra thêm các vector đặc trưng ảo. Các đặc trưng cùng đặc trưng ảo được kết hợp lại trước khi đưa vào lớp softmax. Phương pháp [11] cho kết quả tốt hơn phương pháp [12] nhưng phải sử dụng một mạng CNN phức tạp hơn rất nhiều. Cũng là sự kết hợp giữa phương pháp truyền thống và học sâu, phương pháp Fisher Discrimination Dictionary Learning (FDDL) [101] sử dụng một tập dữ liệu chung rất lớn để huấn luyện một mạng CNN cách trích đặc trưng. Các đặc trưng này kết hợp với nhau để tạo thành từ điển và các ảnh được trích đặc trưng trên từ điển dựa vào biểu diễn không tuyến tính. Phương pháp [102] đề xuất sử dụng một mạng CNN đã được huấn luyện sẵn để trích đặc trưng ảnh và phương pháp Semi-Supervised Sparse Representation (S3RC) được sử dụng để biểu diễn và nhận dạng ảnh.
Các phương pháp nhận dạng khuôn mặt dựa trên việc sử dụng các mô hình học sâu học cách trích đặc trưng trên tập dữ liệu chung cũng có những nhược điểm. Việc phải tìm được các tập mẫu chung có sự tương đồng lớn với tập kiểm tra là một vấn đề chưa thể giải quyết. Tuy nhiên vấn đề lớn nhất là việc mất cân bằng giữa tập dữ liệu chung và tập mẫu. Các tập dữ liệu chung có kích thước lớn hơn rất nhiều so với tập mẫu, và việc mất cân bằng này sẽ dẫn đến các mô hình học sâu sẽ gặp phải hai vấn đề. Một là, các mô hình có thể bị rơi vào trạng thái quá thích nghi, hay là hiện tượng over-fitting. Các mô hình học sâu sẽ học rất tốt trên tập dữ liệu chung và học được rất ít thông tin trên tập mẫu. Hai là, các mô hình có thể bị rơi vào trạng thái học được quá nhiều thông tin từ tập dữ liệu chung dẫn đến không thể áp dụng một cách hiệu quả các thông tin này vào tập mẫu. Vì vậy việc đảm bảo rằng mô hình học đủ tốt các thông tin trên tập dữ liệu chung để áp dụng vào tập mẫu thì vẫn còn là một bài toán chưa có lời giải.
6.2 Kết hợp khoảng cách LT-MHD cùng mô hình học sâu để trích đặc trưng ảnh khuôn mặt
Việc nghiên cứu về một phương pháp nhận dạng khuôn mặt trong điện kiện SSPP dựa trên học sâu vốn không phải là mục tiêu ban đầu của nghiên cứu này. Tuy nhiên vì đây là hướng nghiên cứu còn mới và đang rất phát triển nên nghiên cứu này cũng hướng đến việc áp dụng một số kết quả có được từ phần trước của nghiên cứu này vào trong hướng phát triển này. Trong nghiên cứu này không hướng đến việc đề xuất một phương pháp nhận dạng khuôn mặt trong điều kiện SSPP mà chỉ đề xuất một mô hình trích đặc trưng ảnh khuôn mặt dựa trên học sâu trong điều kiện SSPP.
Một mô hình mạng CNN để trích đặc trưng của ảnh khuôn mặt sẽ được đề xuất, trong đó khoảng cách LT-MHD được sử dụng như hàm mất mát của mạng CNN này. Để xây dựng một mạng CNN từ đầu, ngoài việc phải xây dựng kiến trúc mạng, mạng còn cần phải được huấn luyện với một tập dữ liệu ảnh rất lớn để mô hình có thể học được các trọng số. Điều này là rất khó khăn đối với một nghiên cứu riêng lẻ. Vì vậy, trong nghiên cứu này, một mô hình mạng CNN đã được huấn luyện sẵn sẽ được sử dụng. Sau đó lớp đầu ra của mạng CNN này sẽ được định nghĩa lại, trong đó khoảng cách LT-MHD được sử dụng như hàm mất mát của mô hình và sử dụng bộ dữ liệu ảnh khuôn mặt để huấn luyện lại một số lớp cuối cùng của mạng CNN. Mạng CNN mà được chọn lựa dùng để trích đặc trưng của ảnh khuôn mặt là mạng InceptionV3. Mạng CNN InceptionV3 là một mạng nơ-ron tích chập đã được huấn luyện sẵn với hơn một triệu ảnh từ tập cơ sở dữ liệu ảnh Imagenet. Mạng InceptionV3 bao gồm 48 lớp và được huấn luyện để nhận dạng với khoảng 1000 lớp đầu ra, bao gồm các ảnh về bàn phím, chuột, bút chì hay động vật... Hình 6.2 biển diễn một cấu trúc thu gọn của một mạng InceptionV3.