Phần này mô tả một thuật toán Perceptron đã đượcc cải tiến. Không giống như Perceptron chuẩn, thuật toán Perceptron cải tiến đảm bảo rằng vt.u
tăng nghĩa là lỗi của vt giảm đơn điệu. Một sự khác biệt nữa của bản cải tiến chuẩn (so với các bản khác) là độ lớn của các giả thuyết hiện thời luôn luôn là 1. Điều này rất thuận lợi cho việc phân tích.
Perceptron cải tiến
chiều d và số lần cập nhật M
#; ;. ; --với dữ liệu đầu tiên ; ;
For t=1 to M:
3 3 là dữ liệu tiếp theo với #3 . ' #3:; #3 2#3. 33
Trong thuật toán perceptron chuẩn hình 3.1, bước cập nhật perceptron chuẩn vt+1 = vt + xt.yt là cùng hướng nhưng khác độ lớn (được chia theo hệ số 2|vt.xt|)
Các thuật toán Perceptron cải tiến chuẩn được đưa ra trong hình 3.2. Ta có
||vt||=1 (3.3)
Và D#3:;DE D#3DE F#3. 3ED3DE F#3. 3E . (3.4)
Ngược lại, đối với bản cải tiến Perceptron chuẩn, mức độ của vt tăng đều đặn. Với bản cải tiến đã sửa, lỗi có thể chỉ giảm bởi vì vt.u cũng chỉ giảm.
#3:; , #3. , 2#3. 3. 3. , #3. , 2<#3. 3<<3. ,<. (3.5) Biểu thức thứ 3.4 xảy ra theo thực tế là vt phân lớp nhầm xt. Do vậy vt.u tăng, và sự tăng có thể bị chặn từ dưới bằng cách chỉ ra <#3. 3<<3. ,< là lớn.
Trước đây Hamson và Kibler đã từng sử dụng bản cập nhật này cho việc học bộ phân tách tuyến tính [34], gọi là “Reflection” (Sự phản ánh), dựa trên phương pháp “Reflexion” của Motzkin and Schoenberg [40].
3. #3:; 3. #3 23. #33. 3 3. #3 (3.6) Nói chung, biểu thức (3.6) có thể coi là bản cập nhật sửa của dạng #3:; #3 G#3. 33, dạng này tương đương với phương pháp “Reflexion” trong
việc giải bất đẳng thức tuyến tính [30][40]. Khi α≠2, vector vt không còn giữ độ dài cố định nữa, tuy nhiên cũng có thể xác minh được rằng các vector đơn vị tương ứng #53thỏa mãn:
#53:;. , #53. , G<#53. 3<<3. ,<HI G2 G#53. 3E, (3.7)
Và do vậy bất kỳ sự lựa chọn nào α∈[0,2] cũng đảm bảo rằng lỗi không tăng. Blum và cộng sự[4] đã sử dụng α=1 bảo đảm rằng sự phát triển trong mẫu số (phân tích của họ đã không dựa vào tiến bộ trong tử số) miễn là #53. , và
#53. 3E bị chặn ở 0. Phương pháp tiếp cận của họ được sửa dụng một loạt
như là một phần của thuật toán phức tạp hơn cho học noise_tolerant. Trong khung làm việc tuần tự, có thể chặn <#53. 3<<3. ,< bởi 0, dưới sự phân tán thống nhất, và do đó sự lựa chọn α=2 là thuận lợi nhất, nhưng α=1 sẽ có thể tốt hơn.
Hình 3.3 Quy tắc học tích cực là truy vấn các nhãn cho các điểm x trong L, L được xác định bởi ngưỡng st trên |vt.xt| [32]