3 Học chuyển giao dựa trên đặc trưng
3.3.2 Đặc trưng universal sâu
Được thúc đẩy bởi việc sử dụng mã hóa thưa thớt để học dặc trưng universal, Glorot (2011) đề xuất áp dụng mã hóa tự động sâu để học các đặc trưng cao hơn như là đặc trưng universal. Đặc biệt, cho một đầu vàox, một mã hóa sauf(.)ánh xạ nó tới một mã ẩn là h=f(x)và một bộ giải mã sâu g(.)nhằm mục đích tái cấu trúc đầu vào với mã ẩn thông quaxˆ=g(h). Vì bộ mã hóa và giải mã được train với các miền phụ khác nhau, đầu ra của mã hóa, h, được xem là một đại diện đặc trưng universal cho mỗi thực thể của mã hóa tự động, cụ thể là bộ khử nhiễu tự động xếp chồng biên, để cải thiện hiệu quả và tính hiệu quả cho việc tìm hiểu các đặc trưng universal trên toàn miền.
Bên cạnh việc sử dụng tái cấu trúc tổn thất như được sử dụng trong mã hóa và bộ chống mã hóa thưa để học các đặc trưng universal, một số nhà nghiên cứu đề xuất sử dụng phân cụm trên các tác vụ phụ để học các đặc trưng universal. So với tái cấu trúc tổn thất, phân cụm là học không giám sát với trọng số nhỏ trong điều kiện phức tạp. Nó cũng có thể làm tăng tính dễ hiểu của các đại diện đã học. Như trong hình 3.4, Liao et al (2016) kiểm tra một số kiểu hàm mất mátk−meansnhư phân cụm mẫu, phân cụm không gian và đồng bộ hóa.
Giả sử rằng đại diện của một tầng trong mạng nơ-ron là tensor 4D:Y ∈RN×C×H×W, trong đóN, C, H
vàW là kích thước của một mini-batch, số lượng các đơn vị ẩn, chiều dài và chiều rộng tương ứng của đại diện (biểu diễn). Cụ thể, bằng cách đưa ra từng trường hợp dữ liệu thành một ma trận T{N}×{H,W,C}, tổn thất cho phân cụm mẫu được xác định:
Rmau(Y, µ) = 1 2N CHW N X n=1 kT{N}×{H,W,C}(Y)n−µznk2. (3.12)
Hình 3.4: (a) Phân cụm mẫu; (b) Phân cụm không gian
Đại diện của một ví dụ có thể được coi là "hình ảnh" kênh C. Các pixel bao gồm các kênh C có thể được phân cụm theo cụm không gian như sau:
Rspatial(Y, µ) = 1 2N CHW N HW X i=1 kT{N,H,W}×{C}(Y)i−µzik2. (3.13)
Ngoài ra, phân cụm có thể được xác định trên kênh bằng cách sử dụng tổn thất sau:
Rspatial(Y, µ) = 1 2N CHW N C X i=1 kT{N,C}×{H,W}(Y)i−µzik2. (3.14)
Trong Liao (2016), tác giả tập trung vào việc xác định xem đại diện cho phân cụm có được áp dụng cho các danh mục không nhìn thấy hay không, đây là một vấn đề học không có điểm nhấn. Với những đặc điểm được đào tạo bởi sự mất mát. Với những đặc trưng được đào tạo bởi sự mất mát trong (3.12), có thể học embedding đầu raE thông qua một SVM có cấu trúc mà không cần chính quy hóa như:
min E 1 N N X n=1 max y∈Y{0,∆(yn,y)+xT nE[φ(y)−φ(yn)]}, (3.15) trong đóxnvàyn là đặc trưng và lớp nhãn của mẫu thứ n,∆là hàm tổn thất 0-1, vàφlà ma trậng thuộc tính của lớp được cung cấp bởi Caltech-UCSD (University of California, San Diego) tập dữ liệu chịm với với mỗi mục cho biết khả năng một thuộc tính có mặt trong một lớp nhất định.