Chiều của vector gradient âm có thể chỉ theo hớng- 123docz.net

tiểu của mặt phẳng lỗi, và nh vậy thì các điều chỉnh trọng số có xu hớng làm cho thuật toán đi sai hớng.

Theo một số nghiên cứu thực nghiệm, tốc độ hội tụ cục bộ của thuật toán back-propagation có tính chất tuyến tính, và có thể chính đó là nguồn gốc của các nguyên nhân gây ra sự chậm trễ của thuật toán. Gợi ý này đa chúng ta đến một quan điểm nh sau: Có thể các phơng pháp tính toán với tốc độ hội tụ bậc cao hơn

(có tính phi tuyến cao) sẽ cho phép hội tụ nhanh hơn nhng yêu cầu nhiều nỗ lực tính toán hơn.

1.2.7 Hội tụ nhanh cho quá trình học Back-propagation

Nh đã bàn tới trong phần trớc, thuật toán back-propagation không đợc coi là phơng pháp học cho ta khả năng hội tụ nhanh chóng. Trong phần này, chúng ta sẽ đề cập tới một số kinh nghiệm có khả năng mang lại cho chúng ta những chỉ dẫn hữu ích trong việc làm thế nào để tăng tốc sự hội tụ của thuật toán back- propagation thông qua việc thích nghi tham số tốc độ học.

Kinh nghiệm thứ nhất

Mọi tham số mạng có thể điều chỉnh đợc của hàm giá nên có tham số tốc độ học riêng biệt.

ở đây, chúng ta chú ý rằng thuật toán back-propagation hội tụ chậm có thể là do việc sử dụng cùng một tham số tốc độ học. Tham số cố định này có khả năng không phù hợp đợc với tất cả các vị trí của bề mặt lỗi. Nói cách khác, một tham số tốc độ học thích hợp cho việc điều chỉnh một trọng số synapse không nhất thiết là thích hợp cho việc điều chỉnh các trọng số khác trong mạng. Kinh nghiệm thứ nhất khuyến cáo sử dụng các tham số tốc độ học khác nhau cho các trọng số synapse khác nhau trong mạng.

Kinh ngiệm thứ hai

Mọi tham số tốc độ học nên đợc phép thay đổi sau mỗi vòng lặp.

Bề mặt lỗi thờng có đặc tính khác nhau trong những vùng khác nhau khi ta xét dọc theo một chiều trọng số nhất định. Chính vì sự biến thiên này mà kinh nghiệm thứ hai khuyến cáo rằng tham số tốc độ học cũng nên biến thiên từ vòng lặp nằy sang vòng lặp khác. Điều thú vị là kinh nghiệm này đợc hình thành từ những nghiên cứu về các đơn vị xử lý tuyến tính.

Kinh ngiệm thứ ba

Khi đạo hàm của hàm giá theo một trọng số synapse có cùng một dấu đại số với trong một số vòng lặp kế tiếp nhau của thuật toán, tham số tốc độ học cho trọng số synapse này nên đợc tăng lên.

Điểm biểu diễn trạng thái hiện thời trong không gian trọng số có thể nằm trên một vùng bằng phẳng của bề mặt lỗi dọc theo một chiều trọng số xác định. Điều này thể hiện bằng việc giữ nguyên dấu của đạo hàm hàm giá (gradient của bề mặt lỗi) theo trọng số synapse đó; và nh vậy là vector gradient có cùng một chiều trong một số vòng lặp kế tiếp nhau của thuật toán. Kinh nghiệm thứ ba khuyến cáo rằng trong trờng hợp nh vậy, số lợng các vòng lặp cần để đi qua vùng bằng phẳng này có thể đợc giảm bớt bằng cách tăng tham số tốc độ học một cách phù hợp.

Khi dấu đại số của đạo hàm hàm giá theo một trọng số xác định là liên tục thay đổi trong một số vòng lặp của thuật toán, tham số tốc độ học cho trọng số nên đợc giảm xuống.

Khi điểm biểu diễn trạng thái hiện thời trong không gian trọng số nằm trên một vùng của bề mặt lỗi dọc theo một chiều trọng số xác định mà có nhiều chỗ lồi lõm. Nh vậy có nghĩa là đạo hàm hàm giá theo trọng số đó có khả năng liên tục thay đổi dấu trong một số vòng lặp kế tiếp . Để tránh không để việc điều chỉnh trọng số bị giao động quá nhiều, kinh nghiệm thứ t khuyến cáo rằng tham số tốc độ học cho các trọng số nh vậy nên đợc giảm đi một cách phù hợp.

Đánh giá :Do thời gian có hạn mà chỉ có hai ngời nên chúng em chỉ tìm hiểu đợc một phần nhỏ về kiến thức chung của mạng Nơ Ron đó là các khái niệm và các kiến thức cơ bản về mạng nơ ron và các phơng pháp học cho mạng nơ ron

Không tránh khỏi các sai sót trong quá trình phân tích đánh giá là điều chúng em luôn nghĩ ,chúng em mong nhận đợc sự nhận xét và cho các ý kiến từ thầy chúng em xin trân thành cảm ơn thầy.

Chiều của vector gradient âm có thể chỉ theo hớng đi xa khỏi cực tiểu của mặt phẳng lỗi, và nh vậy thì các điều chỉnh trọng số có xu hớng làm