Phân rã thưa tiên đoán (Predictive Sparse Decompos- 123docz.net

Phân rã thưa tiên đoán (Predictive Sparse Decomposition - PSD) là

một mô hình lai ghép giữa mã thưa và bộ tự mã hoá có tham số (Kavukcuoglu cùng cộng sự, 2008). Bộ mã hóa có tham số được huấn luyện để tiên đoán đầu ra của hệ quả lặp lại. PSD đã được áp dụng trong lĩnh vực học đặc trung không giám sát để nhận dạng đối tượng bằng hình ảnh và video (Kavukcuoglu cùng cộng sự, 2009, 2010; Jarrett cùng cộng sự, 2009; Farabet cùng cộng sự, 2011), cũng như âm thanh (Hena cùng cộng sự, 2011). Mô hình này bao gồm một bộ mã hóa f(x) và một bộ giải mã g(h), cả hai bộ đều mang tính có tham số. Trong quá trình huấn luyện, hh được điều khiển bởi thuật toán tối ưu hóa. Qúa trình huấn luyện được thực hiện bằng cách cực tiểu hoá giá trị:

∥x−g(h)∥2+λ|h|1+γ∥h−f(x)∥2 (14.19) Như trong mã hóa thưa, thuật toán huấn luyện liên tục thay đổi giữa việc

cực tiểu hóa đoạn mã h và việc cực tiểu hóa các tham số mô hình. Sự cực thiểu

hóa ứng với h diễn ra nhanh vì f(x) cung cấp giá trị khởi tạo tốt cho h, và hàm

chi phí ràng buộc h có giá trị gần với f(x) bằng mọi giá. Phép trượt gradient đơn

giản có thể thu được các giá trị hợp lý của h chỉ trong mười bước trượt.

Quá trình huấn luyện được sử dụng bởi PSD khác so với quá trình huấn luyện đầu tiên một mô hình mã thưa, sau đó huấn luyện f(x) để dự đoán các giá trị của các đặc trưng được mã hóa thưa. Qúa trình huấn luyện PSD này ràng buộc phần giải mã sử dụng các tham số để hàm f(x) có thể suy ra những giá trị đoạn mã tốt.

Mã thưa có thể dự đoán được là một ví dụ về một hình suy luận gần đúng có thể học. Trong phần 19.5, chủ đề này sẽ được trình bày cụ thể hơn. Các công cụ được trình bày trong chương 19 sẽ nói cụ thể việc PSD có thể được giải thích như việc huấn luyện một mô hình xác suất mã thưa trực tiếp bằng cách tối đa hóa giới hạn dưới trên hàm hợp lý logarit của mô hình.

Trong các ứng dụng thực tế của PSD, sự tối ưu hóa lặp lại chỉ được sử dụng trong thời gian huấn luyện. Bộ mã hóa có tham số f được sử dụng

để tính toán các đặc trưng được học khi mô hình được triển khai. Định tính (evaluating) f có chi phí tính toán ít hơn so với suy luận h thông qua trượt gradient. Bởi vì f là một hàm có tham số khả vi, các mô hình PSD có thể được xếp chồng lên nhau và được sử dụng để khởi tạo một mạng đa tầng để được huấn luyện với một mục đích khác.

Phân rã thưa tiên đoán (Predictive Sparse Decomposition)