Hội tụ nhanh cho quá trình học Back-propagation

Một phần của tài liệu ĐỒ ÁN TỐT NGHIỆP Đề tài “Lý thuyết mạng Neuron và ứng dụng trong nhận dạng tiếng nói” (Trang 54 - 57)

PHƯƠNG PHÁP HỌC CHO MẠNG TIẾN (FEEDFORWARD) ĐA MỨC

2.2.7Hội tụ nhanh cho quá trình học Back-propagation

Như đã bàn tới trong phần trước, thuật toán back-propagation không được coi là phương pháp học cho ta khả năng hội tụ nhanh chóng. Trong phần này,

chúng ta sẽ đề cập tới một số kinh nghiệm có khả năng mang lại cho chúng ta những chỉ dẫn hữu ích trong việc làm thế nào để tăng tốc sự hội tụ của thuật toán back-propagation thông qua việc thích nghi tham số tốc độ học.

Kinh nghiệm thứ nhất

Mọi tham số mạng có thể điều chỉnh được của hàm giá nên có tham số tốc độ học riêng biệt.

Ở đây, chúng ta chú ý rằng thuật toán back-propagation hội tụ chậm có thể là do việc sử dụng cùng một tham số tốc độ học. Tham số cố định này có khả năng không phù hợp được với tất cả các vị trí của bề mặt lỗi. Nói cách khác, một tham số tốc độ học thích hợp cho việc điều chỉnh một trọng số synapse không nhất thiết là thích hợp cho việc điều chỉnh các trọng số khác trong mạng. Kinh nghiệm thứ nhất khuyến cáo sử dụng các tham số tốc độ học khác nhau cho các trọng số synapse khác nhau trong mạng.

Kinh ngiệm thứ hai

Mọi tham số tốc độ học nên được phép thay đổi sau mỗi vòng lặp.

Bề mặt lỗi thường có đặc tính khác nhau trong những vùng khác nhau khi ta xét dọc theo một chiều trọng số nhất định. Chính vì sự biến thiên này mà kinh nghiệm thứ hai khuyến cáo rằng tham số tốc độ học cũng nên biến thiên từ vòng lặp nằy sang vòng lặp khác. Điều thú vị là kinh nghiệm này được hình thành từ những nghiên cứu về các đơn vị xử lý tuyến tính.

Kinh ngiệm thứ ba

Khi đạo hàm của hàm giá theo một trọng số synapse có cùng một dấu đại số với trong một số vòng lặp kế tiếp nhau của thuật toán, tham số tốc độ học cho trọng số synapse này nên được tăng lên.

Điểm biểu diễn trạng thái hiện thời trong không gian trọng số có thể nằm trên một vùng bằng phẳng của bề mặt lỗi dọc theo một chiều trọng số xác định. Điều này thể hiện bằng việc giữ nguyên dấu của đạo hàm hàm giá (gradient của bề mặt lỗi) theo trọng số synapse đó; và như vậy là vector gradient có cùng một chiều trong một số vòng lặp kế tiếp nhau của thuật toán. Kinh nghiệm thứ ba khuyến cáo

rằng trong trường hợp như vậy, số lượng các vòng lặp cần để đi qua vùng bằng phẳng này có thể được giảm bớt bằng cách tăng tham số tốc độ học một cách phù hợp.

Kinh nghiệm thứ tư

Khi dấu đại số của đạo hàm hàm giá theo một trọng số xác định là liên tục thay đổi trong một số vòng lặp của thuật toán, tham số tốc độ học cho trọng số nên được giảm xuống.

Khi điểm biểu diễn trạng thái hiện thời trong không gian trọng số nằm trên một vùng của bề mặt lỗi dọc theo một chiều trọng số xác định mà có nhiều chỗ lồi lõm. Như vậy có nghĩa là đạo hàm hàm giá theo trọng số đó có khả năng liên tục thay đổi dấu trong một số vòng lặp kế tiếp . Để tránh không để việc điều chỉnh trọng số bị giao động quá nhiều, kinh nghiệm thứ tư khuyến cáo rằng tham số tốc độ học cho các trọng số như vậy nên được giảm đi một cách phù hợp.

Chương 3

Một phần của tài liệu ĐỒ ÁN TỐT NGHIỆP Đề tài “Lý thuyết mạng Neuron và ứng dụng trong nhận dạng tiếng nói” (Trang 54 - 57)