Ước tính điểm số

Đối sánh điểm (Hyvärinen, 2005) là một thay thế cho hợp lý cực đại. Nó cung cấp một ước tính nhất quán của phân bố xác suất dựa trên việc khuyến khích mô hình có cùng điểm số với việc phân phối dữ liệu tại mỗi điểm huấn luyện x. Trong trường hợp này, điểm số là một trường gradient cụ thể:

∇xlog p(x). (14.15)

Đối sánh điểm số sẽ được thảo luận thêm ở phần 18.4. Với phần này, khi chúng ta đang bàn đến bộ tự mã hoá, có thể một cách khái quát rằng rằng việc học các trường gradient của log pdata là một cách học cấu trúc pdata của chính nó.

Một thuộc tính rất quan trọng của các DAE là tiêu chí huấn luyện của chúng (với phân bố Gauss có điều kiện p(x|h)) là cho các bộ tự mã hoá học một trường vector (g(f(x) - x)), thứ ước lượng các điểm số của phân phối dữ liệu. Điều này được minh họa trong hình 14.4.

Hình 14.4: Một bộ tự mã hoá khử nhiễu được huấn luyện để ánh xạ điểm dữ liệu bị hỏng x˜ trở lại điểm dữ liệu ban đầu x. Chúng tôi minh hoạ huấn luyện ví dụ x là các điểm gạch chéo màu đỏ nằm gần một đa tạp có số chiều thấp, minh hoạ bởi đường màu đen đậm. Chúng tôi minh hoạ quá trình gây sai hỏng C(x˜| x) bằng một đường tròn màu xám tập hợp những sự sai hỏng

có cùng xác suất. Mũi tên màu xám thể hiện cách một ví dụ huấn luyện biến đổi thành một mẫu từ quá trình gây sai hỏng này này. Khi bộ tự mã hoá khử nhiễu được huấn luyện để cực tiểu hoá sai số bình phương trung bình ||

g(f(x˜)−x)||2, khi đó hàm tái tạo g(f(x˜)) ước tính Ex,x˜∼pdata(x)C(x˜|x)[x|x˜].

Vector g(f(x˜))−x˜ này một cách xấp xỉ trỏ tới điểm gần nhất trên đa tạp, bởi vì g(f(x˜)) ước tính trọng tâm khối của các điểm sạch (chưa bị làm hỏng) x, các điểm mà có thể làm nảy sinh x˜ Do đó, bộ tự mã hoá học một trường vector g(f(x))−x được biểu diễn bởi các mũi tên màu xanh lá cây. Trường vector này ước lượng giá trị ∇xlog pdata(x) cho đến một số nhân là trung

bình các căn của giá trị lỗi tái thiết trung bình bình phương.

Huấn luyện khử nhiễu là một loại bộ tự mã hoá đặc biệt (các đơn vị sigmoid ẩn, các đơn vị tuyến tính tái tạo) sử dụng nhiễu Gauss (Gaussian noise) và chi phí tái thiết là sai số bình phương trung bình (Vincent, 2011) để huấn luyện một mô hình xác suất vô hướng gọi là RBM với các đơn vị Gauss hiện hữu (Gaussian visible units). Đây là loại mô hình sẽ được mô tả chi tiết trong phần 20.5.1; trong phần thảo luận này, có thể hiểu đó là một mô hình cung cấp một xác suất hiện hữu pmodel(x;θ). Khi RBM được huấn luyện sử dụng đối sánh điểm khử nhiễu (denosing score matching) (Kingma and LeCun, 2010), thuật toán học của nó về bản chất giống với huấn luyện khử nhiễu trong bộ tự mã hoá. Với một mức nhiễu cố định, đối sánh điểm có kiểm soát là một ước lượng không nhất quán; thay vào đó nó khôi phục một phiên bản bị không rõ ràng của phân phối này. Nếu mức độ nhiễu được chọn tiệm cận 0 khi số lượng ví dụ tiệm cận tới vô cực, khi đó tính nhất quán được phục hồi. Đối sánh điểm khử nhiễu sẽ được thảo luận chi tiết hơn ở phần 18.5.

Các mối liên hệ khác giữa bộ tự mã hoá và các RBM cũng tồn tại. Đối sánh điểm được áp dụng cho các RBM sản sinh ra một hàm chi phí giống với lỗi tái thiết kết hợp với một số hạng kiểm soát giống với mức phạt chèn ép của CAE (Sersky và các cộng sự, 2011). Bengio và Delallean (2009) đã cho thấy rằng một gradient của bộ tự mã hoá cung cấp một xấp xỉ cho việc huấn luyện chèn ép phân kì (contrastive divergence traning) của các RBM.

Đối với giá trị liên tục x, các tiêu chí khử nhiễu với sự sai hỏng theo phân bố Gauss và phân phối tái thiết tạo ra một ước lượng của điểm số được áp dụng chung cho việc tham số hoá bộ mã hoá và bộ giải mã thông thường (Alain và Bengio, 2013). Điều này có nghĩa là kiến trúc tổng quan của bộ mã hoá và giải mã có thể được thực hiện để ước lượng điểm số bằng cách huấn luyện với tiêu chí lỗi bình phương:

||g(f(x˜)−x)||2 (14.16)

C(x˜=x˜|x) = N(x˜;μ=x,Σ=σ2I) (14.17)

với tham số độ nhiễu biến thiên σ2. Xem hình 14.5 để hiểu cách hoạt động của

chúng.

Nói chung, không có gì đảm bảo rằng hàm tái thiết g(f(x)) trừ đi đầu vào x tương ứng với gradient của bất kỳ hàm nào, không kể đến điểm số. Đó là do các kết quả ban đầu (Vincen, 2011) được cụ thể cho những các nhóm tham số nhất định, ở đó g(f(x)) - x có thể thu được bằng việc lấy đạo hàm của một hàm khác. Kamyshanska và Memisevie (2015) đã tổng quá hoá các kết quả của Vincent (2011) bằng việc định nghĩa một họ các bộ tự mã hoá nông sao cho g(f(x)) - x tương ứng với một điểm số cho tất cả các thành viên của họ đó.

Cho đến nay chúng tôi chỉ mô tả làm thế nào bộ tự mã hoá khử nhiễu học cách biểu diễn phân phối xác suất. Khái quát hơn, ta có thể muốn sử dụng bộ tự mã hoá như một mô hình sinh mẫu và tạo ra các tập mẫu từ phân phối này. Ý tưởng này sẽ được mô tả cụ thể hơn trong phần 20.11.

Phân rã thưa tiên đoán (Predictive Sparse Decomposition)