Decoders)
Các bộ tự mã hóa là các mạng lan truyền thuận. Các hàm mất mát và các loại đơn vị đầu ra tương tự được sử dụng trong các mạng lan truyền thuận thường dùng cũng có thể được sử dụng trong các bộ tự mã hóa.
Như được mô tả trong phần 6.2.2.4, chiến lược chung cho thiết kế các đơn vị đầu ra và hàm mất mát trong mạng lan truyền thuận là định dạng một phân bố đầu ra p(y∣x) và cực tiểu hoá logarit hàm hợp lý - logp(y∣x). Khi thiết lập, y là một vectơ của các mục tiêu, chẳng hạn như các nhãn của lớp.
Trong một bộ tự mã hóa, x vừa là mục tiêu cũng vừa là đầu vào. Tuy nhiên, chúng ta vẫn có thể áp dụng cùng một cơ cấu như như ở trên. Với đoạn mã hhẩn, chúng ta có thể nghĩ về bộ giải mã như cung cấp phân phối có điềukiện pbộ giải mã(x∣h). Chúng ta có thể huấn luyện bộ tự mã hoá này bằng cách cực tiểuhoá −logpdecoder(x|h). Hình thức chính xác của hàm mất mát này sẽ thay đổi tùy theo hình thức của pbộ giải mã. Như với các mạng lan truyền thuận truyền thống, chúng ta thường sử dụng các đơn vị đầu ra tuyến tính để tham số hoá trung bình của một phân phối Gaussian nếu x là số thực. Trong trường hợp đó, đối số của logarit hợp lý sẽ tạo ra một tiêu chuẩn sai số trung bình bình phương. Tương tự, các giá trị nhị phân x tương ứng với phân phối Bernoulli có tham số được cho bởi một đơn vị đầu ra sigmoid, các giá trị x rời rạc thì tương ứng với phân phối trung bình mũ, v.v. Thông thường, các biến đầu ra được coi là độc lập có điều kiện với h cho trước cho nên phân bố xác suất này không tốn kém khi đánh giá, nhưng trong một số kỹ thuật, chẳng hạn như các đầu ra mật độ hỗn hợp (mixture density
outputs), cho phép mô hình hóa đầu ra có thể điều chỉnh được bằng những sự tương quan.
Để khởi đầu hiệu quả hơn ở các mạng lan truyền thuận đã nhắc tới trước đây, chúng ta có thể khái quát hóa khái niệm về một hàm mã hóa f(x)
(encoding function) thành bộ mã hóa phân
phối pbộ mã hóa(h∣x) (encoding distribution), như minh họa trong hình 14.2.
Hình 14.2: Cấu trúc của bộ mã hóa ngẫu nhiên, trong đó cả bộ mã hóa và bộ giải mã không phải là các hàm đơn giản mà thay vào đó có một số phép nội xạ gây nhiễu, có nghĩa là đầu ra của chúng có thể được xem là mẫu lấy từ phân phối pbộ mã hoá(h∣x) cho bộ mã hóa và pbộ giải mã(x∣h) cho bộ
giải mã.
Bất kỳ mô hình biến tiềm ẩn nào Pmô hình(h,x) đều cấu thành nên bộ mã hóa ngẫu nhiên:
Pbộ mã hoá(h∣x) = Pmô hình(h∣x) (14.12)
và một bộ giải mã ngẫu nhiên:
Pbộ giải mã(x∣h) = Pmô hình(x∣h) (14.13)
Nói chung, các bản phân phối của bộ mã hóa và bộ giải mã không nhất thiết phải có những phân phối có điều kiện tương thích cùng với một bản phân phối chung đơn nhất pmô hình(x,h). Alain cùng cộng sự (2015) cho thấy rằng việc huấn luyện bộ mã hóa và bộ giải mã như một bộ tự mã hóa khử nhiễu sẽ khiến chúng tiệm cận tương thích (trong trường hợp mô hình đủ dung lượng và ví dụ huấn luyện).
14.5. Bộ tự mã hóa khử nhiễu (Denoising Autoencoders)
Bộ tự tự mã hóa khử nhiễu (DAE) là bộ tự mã hóa nhận đầu vào là điểm dữ liệu sai hỏng và được huấn luyện để dự đoán đầu ra là điểm dữ liệu gốc không bị sai hỏng.
Quy trình huấn luyện DAE được minh họa trong hình 14.3. Chúng tôi giới thiệu một quy trình gây sai hỏng C(x˜∣x), đại diện cho phân bố có điều kiện đối với các mẫu sai hỏng x˜cho trước một mẫu dữ liệu x. Sau đó, bộ tự mã hóa sẽ tìm hiểu việc khôi phục lại phân phối pkhôi phục(x∣x˜) ước tính từ các cặp huấn luyện (x,x˜) như sau:
2. Lấy mẫu phiên bản bị làm sai hỏng x˜ từ C(x˜∣x=x).
3. Sử dụng (x,x˜) làm ví dụ huấn luyện để ước tính phân phối tái thiết bộ tự mã hóa pkhôi phục(x∣x˜) = pbộ giải mã(x∣h) với h là đầu ra của bộ mã hóa f(x˜) và pbộ giải mã thường được xác định bởi một hàm giải mã g(h)
Hình 14.3: Biểu đồ tính toán của hàm chi phí cho bộ tự mã hóa khử nhiễu, được huấn luyện để tái thiết lại điểm dữ liệu sạch xx từ phiên bản sai hỏng x˜ của nó. Điều này được thực hiện bằng cách cực tiểu hóa L =
−logpbộ giải mã(x∣h=f(x˜)), trong đó x˜ là phiên bản sai hỏng của ví dụ dữ
liệu x, thu được thông qua một quá trình sai hỏng đã cho C(x˜∣x). Thông
thường, phân phối pbộ giải mã là phân phối giai thừa có tham số trung bình được tạo ra từ một mạng lan truyền thuận g.
Thông thường, chúng ta chỉ có thể thực hiện cực tiểu hóa gần đúng dựa trên gradient (chẳng hạn như phép trượt gradient theo lô nhỏ) trên số đối của logarit hàm hợp lý −logpbộ giải mã(x∣h). Miễn là bộ mã hóa được xác định, bộ tự mã hóa khử nhiễu là một mạng lan truyền thuận và có thể được huấn luyện với các kỹ thuật tương tự như bất kỳ mạng lan truyền thuận nào khác.
Chúng ta có thể kì vọng DAE thực hiện phép trượt gradient ngẫu nhiên như sau: