3 Học chuyển giao dựa trên đặc trưng
3.4 Đặc trưng tăng cường
Daumé III (2007) đề xuất một cách tiếp cận đơn giản cho việc thích ứng miền, nó làm tăng vectơ đặc trưng cho cả dữ liệu miền nguồn và dữ liệu miền đích bằng cách sử dụng thông tin cụ thể của miền và coi chúng là đầu vào mới cho việc học thuật toán .
ChoXvàY là không gian đầu vào và đầura tương ứng. Giả sử không gian vào ban đầu được kí hiệu là X∈RF. Phương pháp đề xuất tăng không gian đầu vào ban đầuX˜ ∈R3F. Hàm ánh xạΦs,Φt:
X−→X˜ cho miền nguồn và miền đích được định nghĩa:
Φs(x) =hx, x,0i,Φt(x) =hx,0, xi, (3.16)
trong đó 0 biểu thị vec to ) trong không gian F chiều. Phần đầu tiên của đặc trưng tăng cường thể hiện các đặc trưng chung, tương ứng.
Thật dễ dàng để khái quát phương pháp này thành một phiên bản kernel. Giả sử rằng mỗi điểm dữ liệu
xđược chiếu tới RKHS với kernel tương ứng k:X×X −→R, kcó thể được viết lại như là tích của hai vec tơk(x, x0) =hΦ(x),Φ(x0)iX. Chúng ta có thể định nghĩaΦsvàΦt trongΦ:
Φs(x) =hΦ(x),Φ(x),0i,Φt(x) =hΦ(x),0,Φ(x)i. (3.17)
Kí hiệu kernel được mở rộng là ˜k(x, x0).Khi x và x0 là cùng một miền, k˜(x, x0) = hΦ(x),Φ(x0)iX+
hΦ(x),Φ(x0)iX= 2k(x, x0). Khixvàx0 ở hai miền khác nhau,k˜(x, x0) =hΦ(x),Φ(x0)iX=k(x, x0). Xem xét kernel như là một sự đo lường cho sự tương đồng, công thức kernel thỏa mãn các điểm dữ liệu từ cùng một miền, vốn đã lớn gấp đôi so với các điểm trong miền. Xem xét thử nghiệm (testing) trên dữ liệu đích, dữ liệu huấn luyện (training) trong miền đích có ảnh hưởng gấp đôi so với điểm nguồn. Chú ý rằng phương pháp đặc trưng tăng cường này, phương pháp phân tách một giả thuyết thành ba giả thuyết phụ làh=hhc, hs, hti, tương đương với việc học hai giả thuyết về miền cụ thể:ws=hc+hsvà
wt=hc+ht. Phương pháp này có thể được mở rộng một cách tự nhiên sang cài đặt học bán giám sát bằng cách giả sử rằng x, s thỏa thuận về từng ví dụ thống trị mục tiêu không được gắn nhãn.
ws·xi≈wt·xi⇐⇒ hhc, hs, htih0, xi0−xii (3.18)
Sau đó, bất kỳ phân loại học bán giám sát tiêu chuẩn nào cũng có thể được áp dụng với các đặc trưng ánh xạ được xác định cho dữ liệu được gắn nhãn miền nguồn và dữ liệu miền đích được gắn nhãn và không nhãn.
Chương 4
Học dựa trên mô hình