Tái tạo mẫu với Deep Autoencoder (DA) cho một mẫu mỗi người trong nhận

Một phần của tài liệu BÁO cáo THỰC tập tốt NGHIỆP đề tài các PHƯƠNG PHÁP tạo mẫu ảo TRONG NHẬN DIỆN KHUÔN mặt (Trang 40 - 50)

Chương 2 : CÁC PHƯƠNG PHÁP TẠO HÌNH ẢNH ẢO

2.6 Tái tạo mẫu với Deep Autoencoder (DA) cho một mẫu mỗi người trong nhận

nhận dạng khuôn mặt:

2.6.1 Giới thiệu:

Trong nghiên cứu này, các tác giả đề xuất một thuật toán mới để tổng quát hóa các biến thể nội lớp của các đối tượng nhiều mẫu thành các đối tượng mẫu đơn bằng bộ mã hóa tự động học sâu và tái tạo lại các mẫu mới. Trong thuật toán, một bộ mã tự động sâu tổng quát được đào tạo đầu tiên với tất cả các hình ảnh trong thư viện, sau đó một a class- specific deep autoencoder (CDA) được tinh chỉnh cho từng đối tượng mẫu đơn với mẫu

đơn của nó. Các mẫu của đối tượng nhiều mẫu, giống đối tượng mẫu đơn nhất, là đầu vào CDA tương ứng để tạo lại các mẫu mới.

Bài báo này đề xuất một thuật toán OSPP mới dựa trên DA (OSPP-DA).

Tìm hiểu một hàm phi tuyến tính của DA để tổng qt hóa các biến thể trong lớp từ các đối tượng nhiều mẫu thành các đối tượng mẫu đơn và tái tạo lại các mẫu mới cho các đối tượng một mẫu. Đầu tiên thuật toán học Generalised DA (GDA) có trọng số và độ lệch được đào tạo bởi tất cả các mẫu trong thư viện. Sau đó, GDA được tinh chỉnh riêng biệt theo từng mẫu đơn của từng đối tượng để học DA dành riêng cho từng lớp (CDA). GDA chứa tất cả các biến thể trong lớp và giữa các lớp của hình ảnh thư viện và CDA được điều chỉnh để tổng quát hóa các biến thể trong lớp cho lớp cụ thể. Các mẫu của đối tượng nhiều mẫu tương tự nhất với đối tượng mẫu đơn được chọn, được đưa vào CDA tương ứng để tạo lại các mẫu mới.

Sau đó, nhận dạng khn mặt OSPP chuyển thành nhận dạng khuôn mặt nhiều mẫu cho mỗi người. Cuối cùng, khoảng cách L2 tối thiểu, phân tích thành phần chính (PCA), SRC và hồi quy softmax được sử dụng để cung cấp kết quả phân loại. Các thử nghiệm trên Cơ sở dữ liệu khuôn mặt Yale mở rộng B, cơ sở dữ liệu AR và cơ sở dữ liệu CMU PIE được cung cấp để cho thấy tính hợp lệ của thuật tốn được đề xuất.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Ngun Châu

Hình 2.6.1. Ý tưởng chính của thuật tốn được đề xuất.

Ý tưởng chính của OSPP-DA: (a) Đào tạo DA bằng tất cả các hình ảnh trong thư viện để tạo GDA, (b) Tinh chỉnh GDA với từng mẫu đơn để tạo CDA, (c) Tạo lại mẫu mới cho các đối tượng mẫu đơn, (d ) Được phân loại theo khoảng cách tối thiểu L2, hồi quy PCA, SRC hoặc hồi quy softmax.

Sau đây là những ý chính:

(i) khám phá cách tổng quát hóa các biến thể trong lớp của các đối tượng nhiều mẫu thành các đối tượng mẫu đơn có DA.

(ii) thực hiện nhiều thử nghiệm để kiểm tra thuật tốn được đề xuất.

Phần cịn lại của bài viết này được tổ chức như sau. Trong Phần 2, giới thiệu thuật tốn OSPP-DA. Kết quả thí nghiệm được biểu diễn trong Phần 3. Và kết luận được trình bày trong Phần 4.

2.6.2 Chi tiết phương pháp:

DA: là một mạng nơron sâu học tập khơng giám sát, có thể tự động khám phá cấu trúc phi tuyến tính phức tạp của các mẫu đào tạo.

a. Deep autoencoder (DA):

DA bao gồm hai phần: bộ mã hóa và bộ giải mã. Có ba giai đoạn để đào tạo một DA: pretraining, unrolling và global fine-tuning. DA bao gồm một bộ mã hóa với các lớp có kích thước (21 × 21) -200-100-50-25 và một bộ giải mã đối xứng được lấy làm ví dụ.

Hình 2.6.2. Ba giai đoạn tạo DA: (a) Pretraining, (b) Unrolling, (c) Global fine-tuning Pretraining: Đầu tiên, DA được đào tạo mỗi hai lớp. Mỗi mạng hai lớp là một ‘máy Boltzmann hạn chế’ (RBM).

Hình 2.6.3. Một RBM với bốn đầu vào và ba đầu ra. Đầu vào và đầu ra của RBM được gọi là đơn vị 'hiển thị' và 'ẩn' tương ứng.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

[ , , , ] là data đầu vào, [b1, b2, b3, b4] là vector bias đầu vào, [h1, h2, h3] là data

đầu ra, [b1, b2, b3] là vector bias đầu ra, wij, i = 1, 2, 3, 4, j = 1, 2, 3 là trọng số giữa đầu

vào và đầu ra.

Với mỗi đầu vào v, trạng thái nhị phân của mỗi đơn vị ẩn j được đặt thành 1 với xác suất trạng thái nhị phân của mỗi đơn vị ẩn j được đặt thành 1 với xác suất.

Với là hàm logistic sigmoid. Khi trạng thái của các đơn vị ẩn được quyết định, các trạng thái ước tính của đơn vị hiển thị được tái tạo với xác suất:

Với vi, hj là trạng thái nhị phân của đơn vị 'hiển thị' i và đơn vị 'ẩn' j, sự thay đổi trọng số của RBM được đưa ra bởi:

Với là tỷ lệ học tập, là kỳ vọng dữ liệu đầu vào, là kỳ vọng về sự tái tạo. RBM được đào tạo với sự phân kỳ tương phản. Sau khi học một RBM, các đơn vị ẩn sẽ trở thành các đơn vị hiển thị của RBM tiếp theo và RBM mới được huấn luyện theo cách tương tự.

Unrolling: sau khi pretraining, giai đoạn thứ hai "unrolling" tạo ra decoder networks bằng cách xây dựng bộ giải mã có cùng trọng số và độ lệch của bộ mã hóa, Hình 2b.

Global fine-tuning: Sau 2 bước trên, DA đã được tạo, nhưng sai số tái tạo lại lớn. Giai đoạn thứ 3 sẽ giảm sai số đó: trọng số và độ lệch được cập nhật bằng cách nhân giống ngược thơng qua tồn bộ DA để giảm thiểu cross-entropy error.

b. GDA và CDA:

(N1 đối tượng và M ảnh cho mỗi đối tượng).

Hình ảnh đối tượng mẫu đơn (thường là hình ảnh trung tính):

(N2 đối tượng và 1 ảnh cho mỗi đối tượng). Hình ảnh truy vấn được ký hiệu là y.

GDA có được bằng cách đào tạo DA với tất cả các hình ảnh trong thư viện . Sau khi học GDA, CDA được tạo ra bằng cách tinh chỉnh GDA với mẫu đơn của mỗi đối tượngglobal fine-tuning GDA với các bản sao của để tạo ra

.

GDA cung cấp một đa tạp chứa tất cả các biến thể trong dữ liệu đào tạo. Đối với CDA, việc tinh chỉnh sẽ kéo đa tạp phù hợp với mẫu đơn để tái tạo lại các mẫu mới cho đối tượng cụ thể, như:

Hình 2.6.4. (a) GDA, (b) CDA.

c. Tái tạo và nhận dạng mẫu:

*Tái tạo mẫu:

Để tái tạo, dựa theo khoảng cách L2 tối thiểu giữa ảnh trung tính sẽ chọn đối tượng đa mẫu giống nhất với đối tượng mẫu đơn i. Sau đó, các mẫu của đối tượng đa mẫu đó được đưa vào tương ứng để tạo lại các mẫu mới (Hình 1c).

*Ba bước để tái thiết:

(i) Tính khoảng cách L2 giữa các ảnh trung tính của nhiều đối tượng mẫu

và mẫu đơn . Lấy ID của chủ thể có nhiều mẫu giống nhau nhất.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

(ii) Đầu vào của CDA và ngõ ra là các mẫu tái

tạo của đối tượng mẫu đơn i.

(iii) Chạy i = 1 đến N2, lặp lại (i) và (ii), và tất cả các mẫu tái tạo là:

*Nhận dạng mẫu:

Thư viện mới bao gồm các mẫu được tái tạo và các mẫu ban đầu: . Bài toán OSPP trở thành trở thành nhận dạng khuôn mặt nhiều mẫu cho mỗi người.

d. OSPP dựa trên DA:

Hình 2.6.5. Thuật tốn 1: Nhận dạng khn mặt OSPP dựa trên DA

Hình 2.6.6. Trong Extended Yale FaceDatabase B (a) Các mẫu đối tượng mẫu đơn, (b) Các mẫu của các đối tượng nhiều mẫu giống nhau nhất, (c) Các mẫu được tái tạo tương ứng. Các hình ảnh được tái tạo có các biến thể về độ chiếu sáng. Các biến thể chiếu sáng được thêm vào tương tự như của các mẫu đầu vào.

Hình 2.6.7. Cho thấy tỷ lệ nhận dạng trung bình thay đổi theo số lần sao chép khác nhau (1, 2, 4, 8, 16 và 32) trong đào tạo GDA. Nó chỉ ra rằng tỷ lệ nhận dạng đầu tiên tăng lên và sau đó giảm dần khi tăng các bản sao. Tăng số lần sao chép cũng giống như tăng số lần lặp lại. Khi tỷ lệ nhận dạng giảm, điều đó có nghĩa là OSPP-DA đã overfitting. Vì vậy, trong các thí nghiệm sau, số lần sao chép là 2 khi GDA được huấn luyện.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Bảng 1. Tỷ lệ nhận dạng trung bình (%) với độ lệch chuẩn (trong ngoặc) của OSPP-DA,

ESRC, UP, SSRC và SRC (pixel).

Nó chỉ ra rằng OSPP-DA đạt hiệu suất cao hơn so với các thuật toán được thử nghiệm khác. Để phân loại, hồi quy softmax cho kết quả tốt nhất so với các phương pháp phân loại khác.

Bảng 2. Tỷ lệ nhận dạng trung bình (%) với độ lệch chuẩn (trong ngoặc) của OSPP-DA,

ESRC, UP, SSRC và SRC (Gabor).

Bảng 3. Tỷ lệ nhận dạng trung bình (%) với độ lệch chuẩn (trong ngoặc) của OSPP-DA, ESRC, UP, SSRC và SRC (LBP).

Hình 2.6.8. Trong cơ sở dữ liệu AR (a) Các mẫu đối tượng đơn mẫu, (b) Các mẫu đối tượng đa mẫu giống nhau nhất, (c) Các mẫu được tái tạo tương ứng.

Hình 2.6.9. Trong cơ sở dữ liệu CMU PIE (a) Mẫu đối tượng đơn mẫu, (b) Mẫu đối tượng nhiều mẫu giống nhau nhất, (c) Mẫu được tái tạo tương ứng.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

2.6.4 Kết luận:

Phương pháp trên đề xuất một thuật tốn nhận dạng khn mặt OSPP mới dựa trên DA. Thuật tốn cố gắng tổng qt hóa các biến thể trong lớp của các đối tượng đa mẫu thành các đối tượng mẫu đơn thơng qua các mạng nơron sâu. GDA tìm hiểu các tính năng chung thơng qua tồn bộ mẫu đào tạo và sau đó CDA được đào tạo bằng các bản sao của mẫu đơn của mỗi đối tượng. Kết quả thực nghiệm cho thấy:

(i) CDA có thể tổng hợp các mẫu mới bao gồm các biến thể khác nhau của các đối tượng mẫu đơn.

(ii) Hình ảnh được tái tạo bao gồm các biến thể giống với hình ảnh đầu vào.

Điều rất thú vị là mạng nơ-ron sâu có thể tạo ra những hình ảnh mới trơng giống như được chụp trong mơi trường xung quanh tương tự như hình ảnh đầu vào. Nó có nghĩa là mạng nơ-ron sâu có thể tổng quát hóa các biến thể nội lớp cho các đối tượng mẫu đơn. Điều đó sẽ rất quan trọng đối với việc giải quyết vấn đề nhận dạng khuôn mặt OSPP. Trong các thí nghiệm, các biến thể về ánh sáng và ngụy trang được tái tạo lại, nhưng các biến thể về biểu cảm và tư thế không được tái tạo đúng cách. Ngun nhân chính có thể là do lỗi tái tạo trung bình được giảm thiểu trong quá trình đào tạo. Trong các cơ sở dữ liệu đã thử nghiệm, các biến thể về độ sáng và ngụy trang tạo nên phần lớn lỗi tái tạo trung bình, và các biến thể về tư thế và biểu cảm là một phần nhỏ trong số đó. Vì vậy, nếu trọng số của các biến thể tư thế và biểu cảm được tăng lên, hiệu suất tái tạo có thể được cải thiện.

Một phần của tài liệu BÁO cáo THỰC tập tốt NGHIỆP đề tài các PHƯƠNG PHÁP tạo mẫu ảo TRONG NHẬN DIỆN KHUÔN mặt (Trang 40 - 50)