Chương 2 : CÁC PHƯƠNG PHÁP TẠO HÌNH ẢNH ẢO
2.5 Biểu diễn đa chế độ xem (Multi-View Representation) trong Deep Learning để
Learning để nhận dạng khuôn mặt:
2.5.1 Giới thiệu:
Multi-view perceptron (MVP) có thể gỡ rối các đặc điểm nhận dạng và chế độ xem, đồng thời suy ra một phổ đầy đủ các hình ảnh đa chế độ xem, với một hình ảnh khuôn mặt 2D duy nhất. Các đặc điểm nhận dạng của MVP đạt được hiệu suất vượt trội trên tập dữ liệu MultiPIE. MVP cũng có khả năng nội suy và dự đốn hình ảnh dưới dạng khơng giám sát trong dữ liệu đào tạo.
Hình 2.5.1. Hình ảnh trong hai hàng cuối cùng là của cùng một người. Các tính năng trích xuất của MVP liên quan đến danh tính và chế độ xem được vẽ tương ứng bằng màu xanh lam và màu da cam. Chúng ta có thể quan sát thấy rằng các đặc điểm nhận dạng của cùng một người là tương tự nhau, mặc dù các đầu vào được chụp ở các chế độ xem rất khác nhau, trong khi các đặc điểm chế độ xem của các hình ảnh trong cùng một chế độ xem là tương tự nhau, mặc dù chúng ở các danh tính khác nhau.
Một số đóng góp chính:
(i) Đề xuất một perceptron đa chế độ xem Multi-view perceptron (MVP) và thuật tốn học tập của nó để phân biệt nhân tố và xem các biểu diễn với các tập hợp tế bào thần kinh khác nhau, làm cho các tính năng đã học trở nên phân biệt và mạnh mẽ hơn.
(ii) MVP có thể tái tạo lại tồn bộ quang phổ với một hình ảnh 2D duy nhất, bắt chước khả năng nhận thức khn mặt đa góc nhìn trong não người. Tồn bộ các khung nhìn có thể phân biệt rõ hơn các danh tính, vì các danh tính khác nhau có thể trơng giống nhau
Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu
trong một khung nhìn cụ thể nhưng khác nhau ở những khung nhìn khác như được minh họa trong Hình 1.
(iii) MVP có thể nội suy và dự đốn các hình ảnh dưới góc nhìn khơng quan sát được, theo một nghĩa nào đó là bắt chước khả năng suy luận của con người.
2.5.2 Chi tiết phương pháp:
Thay vì sử dụng bất kỳ mơ hình hình học nào, thơng tin chế độ xem được mã hóa bằng một số lượng nhỏ tế bào thần kinh, có thể khơi phục tồn bộ quang phổ cùng với các tế bào thần kinh nhận dạng.
a. Multi-View Perceptron:
Giả sử rằng dữ liệu huấn luyện là một tập hợp các cặp hình ảnh:
L = ,
Trong đó Xij là hình ảnh đầu vào của nhận dạng thứ i trong khung nhìn thứ j, Yik biểu thị hình ảnh đầu ra của cùng một danh tính trong khung nhìn thứ k và Vik là nhãn khung nhìn của đầu ra. Vik là vectơ nhị phân M chiều, với phần tử thứ k là 1 và phần tử còn lại là 0. MVP được học từ dữ liệu huấn luyện sao cho đầu vào x, nó có thể tuần tự xuất ra các hình ảnh y có cùng nhận dạng ở các chế độ xem khác nhau và nhãn chế độ xem của chúng v. Sau đó, kết quả đầu ra v và y được tạo ra:
Trong đó F là một hàm phi tuyến tính và Θ là một tập hợp các trọng số và độ lệch cần học. Có ba loại nơ-ron ẩn, ℎ , ℎ và ℎ ,
chúng trích xuất các đặc điểm nhận dạng, xem các đặc điểm và các đặc điểm để tái tạo lại hình ảnh khn mặt đầu ra, tương ứng.
: biểu thị một biến nhiễu.
Hình 2. Cấu trúc mạng của MVP, có sáu lớp, bao gồm ba lớp chỉ có các nơ-ron xác định (tức là các lớp được tham số hóa bởi trọng số của U0, U1, U4) và ba lớp có cả nơ-ron xác định và ngẫu nhiên (tức là trọng số của U2 , V2, W2, U3, V3, U5, W5).
Quá trình tạo ra y và v bắt đầu từ x, chảy qua các tế bào thần kinh trích xuất đặc điểm nhận dạng ℎ , kết hợp với biểu diễn chế độ xem ẩn ℎ để mang lại đặc trưng phục hồi khuôn mặt ℎ . Sau đó, ℎ tạo ra y. Trong khi đó, cả ℎ và y đều hợp nhất để tạo ra v.
ℎ và ℎ là các nơron ẩn nhị phân xác định, trong khi ℎ là các nơron ẩn nhị phân ngẫu nhiên được lấy mẫu từ phân phối q (ℎ ). Các ℎ được lấy mẫu khác nhau tạo ra các y khác nhau, làm cho khả năng nhận thức của nhiều góc nhìn. ℎ thường có số chiều thấp, xấp xỉ mười, vì mười nơ-ron nhị phân có thể lập mơ hình lý tưởng cho 210 chế độ xem khác nhau.
Để rõ ràng hơn về dẫn xuất, lấy một ví dụ về MVP chỉ chứa một lớp ẩn ℎ và ℎ . Nhiều lớp hơn có thể được
thêm vào và bắt nguồn theo cách tương tự. Ta xem xét một phân phối chung, loại bỏ các nơ-ron ẩn ngẫu nhiên:
b. Learning Procedure: Quá trình học
Trọng số và độ lệch của MVP được học bằng cách cực đại hóa khả năng (maximum likelihood estimation – MLE) để ước lượng tham số. Giới hạn dưới của MLE:
Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu
Phương trình (3) đạt được bằng cách phân tách log-likelihood thành 2 phần:
Giới hạn dưới ở trên có thể được tối đa hóa bằng cách sử dụng Tối đa hóa kỳ vọng Monte Carlo (MCEM). Với quy tắc Bayes, true posterior của MVP là:
,
Trong đó p (y, v | hv) đại diện cho lỗi nhận thức nhiều chế độ xem, p (hv) là phân phối trước trên hv và p(y, v) là hằng số chuẩn hóa. Để ước tính true posterior, ta đặt:
Nó được ước lượng gần đúng bằng cách lấy mẫu hv từ phân phối đồng đều, tức là hv ∼U (0, 1), được tính theo trọng số quan trọng p (y, v | hv; Θold). Với thuật tốn EM, giới hạn dưới của log-likelihood trở thành:
Trong đó, là trọng số. Bước E lấy mẫu các tế bào thần kinh ẩn ngẫu nhiên, tức là hvs ∼U (0, 1), trong khi bước M tính tốn gradient,
Trong đó gradient được tính bằng cách lấy trung bình trên tất cả các gradient đối với các mẫu quan trọng.
Hai bước phải được lặp lại. Khi cần nhiều mẫu hơn để ước tính phần sau, độ phức tạp của khơng gian sẽ tăng lên đáng kể, bởi vì ta cần lưu trữ một loạt dữ liệu, các mẫu được đề xuất và đầu ra tương ứng của chúng ở mỗi lớp của mạng sâu. Khi triển khai thuật toán với GPU, người ta cần phải cân bằng giữa kích thước của dữ liệu và độ chính xác của ước tính, nếu như bộ nhớ GPU không đủ cho dữ liệu đào tạo quy mô lớn.
Trong forward pass, ta lấy mẫu một số hv dựa trên thơng số hiện tại Θ, sao cho chỉ mẫu có trọng số lớn nhất mới cần được lưu trữ. Chứng minh trong thử nghiệm rằng một số lần nhỏ (ví dụ: <20) là đủ để tìm ra đề xuất tốt. Trong backward pass, ta tìm cách cập nhật các tham số bằng gradient,
Continuous View: Trong phần thảo luận trước, v được giả định là một vectơ nhị phân. Lưu ý rằng v cũng có thể được mơ hình hóa như một biến liên tục với phân phối Gauss,
trong đó v là một đại lượng vơ hướng tương ứng với các khung nhìn khác nhau từ −90◦ đến + 90◦. Trong trường hợp này, chúng ta có thể tạo ra các khung nhìn khơng được trình bày trong dữ liệu huấn luyện bằng cách nội suy v, như thể hiện trong Hình 6.
2.5.3 Kết quả thí nghiệm:
a. Multi-View Face Recognition:
Nhận dạng khuôn mặt trên các chế độ xem:
Sử dụng tập dữ liệu MultiPIE, bao gồm 754.204 hình ảnh của 337 danh tính, Mỗi danh tính được chụp dưới 15 góc nhìn từ −90◦ đến + 90◦ và 20 ánh sáng khác nhau. Đây là tập dữ liệu lớn nhất và thách thức nhất để đánh giá nhận dạng khn mặt dưới góc nhìn và các biến thể ánh sáng.
Bảng 1: Độ chính xác nhận dạng khn mặt trên các chế độ xem.
Nhận dạng khuôn mặt qua các chế độ xem và ánh sáng:
Sử dụng một tập hợp con lớn hơn của MultiPIE, chứa các hình ảnh từ −60◦ đến + 60◦ và 20 lần chiếu sáng.
Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu
Bảng 2: Độ chính xác nhận dạng khn mặt qua các góc nhìn và ánh sáng.
Hình 2.5.3. Phân tích MVP trên tập dữ liệu MultiPIE.
(a) So sánh độ hội tụ, sử dụng số lượng mẫu khác nhau để ước tính true posterior.
(b) So sánh độ thưa thớt của trọng số mẫu.
(c) So sánh độ hội tụ, sử dụng mẫu có trọng số lớn nhất và sử dụng giá trị trung bình có trọng số trên tất cả các mẫu để tính gradient.
b. Reconstruction Quality:
Hình 2.5.4. Độ chính xác nhận dạng khn mặt. LDA được áp dụng cho các pixel thô của ảnh gốc và ảnh được tái tạo.
Hình 2.5.5. Sai số của ước lượng chế độ xem.
Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu
Hình 2.5.6. Áp dụng các hình ảnh ở 0◦, 30◦ và 60◦ để đào tạo và kiểm tra xem MVP có thể phân tích và tái tạo lại các hình ảnh dưới 15◦ và 45◦ hay khơng. Các hình ảnh được tái tạo (bên trái) và ground truths (bên phải) được thể hiện trong (a). (b) hiển thị toàn bộ quang phổ của các hình ảnh được tái tạo, khi các hình ảnh ở chế độ xem khơng được quan sát được sử dụng làm đầu vào (cột đầu tiên).
2.5.4 Kết luận:
Bài báo đã trình bày một mạng lưới sâu rộng, được gọi là Multi-View Perceptron (MVP), để bắt chước khả năng nhận thức nhiều góc nhìn trong não người. MVP có thể phân loại danh tính và xem các biểu diễn từ hình ảnh đầu vào, và cũng có thể tạo ra tồn bộ các chế độ xem của hình ảnh đầu vào. Các thử nghiệm đã chứng minh rằng các đặc điểm nhận dạng của MVP đạt được hiệu suất nhận dạng khuôn mặt tốt hơn so với các phương pháp hiện đại. Mơ hình hóa chế độ xem như một biến liên tục cho phép MVP nội suy và dự đốn hình ảnh dưới góc nhìn, những hình ảnh khơng được quan sát thấy trong dữ liệu đào tạo, bắt chước năng lực suy luận của não người. MVP cũng có tiềm năng được mở rộng để tính đến các biến thể khác trên khn mặt như tuổi tác và biểu cảm.