tiến (feedforward) đa mức 2.1 Lý thuyết học và vấn đề nhận dạng mẫu
2.2.7 Hội tụ nhanh cho quá trình học Back-propagation
Nh− đã bàn tới trong phần tr−ớc, thuật toán back-propagation không đ−ợc coi là ph−ơng pháp học cho ta khả năng hội tụ nhanh chóng. Trong phần này, chúng ta sẽ đề cập tới một số kinh nghiệm có khả năng mang lại cho chúng ta những chỉ dẫn hữu ích trong việc làm thế nào để tăng tốc sự hội tụ của thuật toán back-propagation thông qua việc thích nghi tham số tốc độ học.
Kinh nghiệm thứ nhất
Mọi tham số mạng có thể điều chỉnh đ−ợc của hàm giá nên có tham số tốc độ học riêng biệt.
ở đây, chúng ta chú ý rằng thuật toán back-propagation hội tụ chậm có thể là do việc sử dụng cùng một tham số tốc độ học. Tham số cố định này có khả năng không phù hợp đ−ợc với tất cả các vị trí của bề mặt lỗi. Nói cách khác, một tham số tốc độ học thích hợp cho việc điều chỉnh một trọng số synapse không nhất thiết là thích hợp cho việc điều chỉnh các trọng số khác trong mạng. Kinh nghiệm thứ nhất khuyến cáo sử dụng các tham số tốc độ học khác nhau cho các trọng số synapse khác nhau trong mạng.
Kinh ngiệm thứ hai
Mọi tham số tốc độ học nên đ−ợc phép thay đổi sau mỗi vòng lặp.
Bề mặt lỗi th−ờng có đặc tính khác nhau trong những vùng khác nhau khi ta xét dọc theo một chiều trọng số nhất định. Chính vì sự biến thiên này mà kinh nghiệm thứ hai khuyến cáo rằng tham số tốc độ học cũng nên biến thiên từ vòng lặp nằy sang vòng lặp khác. Điều thú vị là kinh nghiệm này đ−ợc hình thành từ những nghiên cứu về các đơn vị xử lý tuyến tính.
Kinh ngiệm thứ ba
Khi đạo hàm của hàm giá theo một trọng số synapse có cùng một dấu đại số với trong một số vòng lặp kế tiếp nhau của thuật toán, tham số tốc độ học cho trọng số synapse này nên đ−ợc tăng lên.
Điểm biểu diễn trạng thái hiện thời trong không gian trọng số có thể nằm trên một vùng bằng phẳng của bề mặt lỗi dọc theo một chiều trọng số xác định.
Điều này thể hiện bằng việc giữ nguyên dấu của đạo hàm hàm giá (gradient của bề mặt lỗi) theo trọng số synapse đó; và nh− vậy là vector gradient có cùng một chiều
trong một số vòng lặp kế tiếp nhau của thuật toán. Kinh nghiệm thứ ba khuyến cáo rằng trong tr−ờng hợp nh− vậy, số l−ợng các vòng lặp cần để đi qua vùng bằng phẳng này có thể đ−ợc giảm bớt bằng cách tăng tham số tốc độ học một cách phù hợp.
Kinh nghiệm thứ t−
Khi dấu đại số của đạo hàm hàm giá theo một trọng số xác định là liên tục thay đổi trong một số vòng lặp của thuật toán, tham số tốc độ học cho trọng số nên đ−ợc giảm xuống.
Khi điểm biểu diễn trạng thái hiện thời trong không gian trọng số nằm trên một vùng của bề mặt lỗi dọc theo một chiều trọng số xác định mà có nhiều chỗ lồi lõm. Nh− vậy có nghĩa là đạo hàm hàm giá theo trọng số đó có khả năng liên tục thay đổi dấu trong một số vòng lặp kế tiếp . Để tránh không để việc điều chỉnh trọng số bị giao động quá nhiều, kinh nghiệm thứ t− khuyến cáo rằng tham số tốc độ học cho các trọng số nh− vậy nên đ−ợc giảm đi một cách phù hợp.
Ch−ơng 3