Huấn luyện cho mạng lan truyền ngược:

3. Ngày giao nhiệm vụ luận văn:

3.3.8.2 Huấn luyện cho mạng lan truyền ngược:

Mạng được huấn luyện để xấp xỉ một hàm phi tuyến, một mô hình liên kết hay phân lớp. Trong suốt quá trình huấn luyện, các trọng số và các giá trị ngưỡng sẽ được điều chỉnh một cách hợp lí để làm tối thiểu giá trị hàm lỗi của mạng. Hàm lỗi mặc định cho mạng lan truyền ngược là trung bình bình phương lỗi (mean square error hay mse) – lỗi trung bình bình phương giữa ngõ ra thực tế và ng ra tính toán được. Sau đây là một vài thuật toán huấn luyện cho mạng lan truyền ngược . Tất cả các thuật toán này đều d ng độ dốc (gradient) của hàm lỗi để điều chỉnh các trọng số sao cho tối thiểu hàm lỗi. Độ dốc được tính toán dựa vào một kĩ thuật gọi là lan truyền ngược.

Nguyên lý chung:

Nếu gọi ( )w là hàm lỗi (hay hàm chi phí) và w* là trọng số tối ưu cần tìm thì: *

( )w (w )  

Để tìm được giá trị nhỏ nhất của hàm ( )w hay trọng số tối ưu w*, ta tiến hành lấy đạo hàm hàm lỗi thông qua phép gradient. Và ta sẽ có (w*)0

Đặt 1 2 , ,..., T N w w w              là toán tử gradient ( )w 

  là vector gradient của hàm lỗi.

Nguyên lý chung của việc tìm ra trọng số tối ưu là:

 Khởi tạo trọng ban đầu w(0).

 Lặp tìm trọng số thứ n, w(n) sao cho ( ( )) w n ( (w n1))

Sơ lược về một số giải thuật cơ bản thường được dùng trong huấn luyện mạng lan truyền ngược:

 Giảm dốc nhất ( steepest decent gradient ):

Trong thuật toán lan truyền ngược, vector gradient của mặt phẳng sai số sẽ được tính toán. Vector này chỉ ra đường giảm dốc nhất và vị trí hiện tại, vì thế chúng ta biết rằng nếu chúng ta di chuyển dọc theo nó một “khoảng ngắn”, cuối cùng chúng ta sẽ đạt được giá trị nhỏ nhất.

Tuy nhiên, khó khăn ở đây là quyết định độ lớn của t ng bước di chuyển. Bước lớn có thể hội tụ nhanh hơn, nhưng có thể vượt quá điểm cần đến hay đi ra khỏi

vùng có cực tiểu (nếu mặt phẳng sai số bị lệch tâm). Ngược lại, bước quá nhỏ có thể đi đến đúng hướng nhưng chúng ta cần phải thực hiện phép lặp nhiều lần. Trong thực tế, kích thước bước tỷ lệ với độ dốc và hằng số đặc biệt: tốc độ học. Giá trị chính xác của tốc độ học phụ thuộc vào t ng ứng dụng cụ thể, và thường được chọn qua thực tiễn.

Lưu ý: Thuật toán thường có thêm khái niệm momentum. Momentum sẽ thúc đẩy di chuyển đi theo một hướng xác định. Nếu sau khi qua nhiều bước đi c ng một hướng, thuật toán sẽ di chuyển nhanh hơn, đưa đến khả năng thoát khỏi vùng giá trị cực tiểu cục bộ và cũng có thể di chuyển nhanh chóng qua vùng bằng phẳng.

Ưu nhược điểm :

Những neural ẩn thuộc các lớp giữa có khả năng làm cho mạng học được những phần việc phức tạp bằng cách trích dần dần nhiều hơn những nét có ý nghĩa t những mẫu vector nhập. Ngoài ra, ta có thể nhận thấy là mạng có mức độ liên thông cao.

Như đã đề cập trong nguyên tắc hoạt động, thuật toán này có thể xảy ra vấn đề cực tiểu cục bộ. Bên cạnh đó, trong không gian mô phỏng, MLP dàn trải nên ngoại suy ra xa dữ liệu huấn luyện thì thường nguy hiểm và không đúng.

 Qui tắc học thích nghi:

Phương pháp này thực ra rất đơn giản .Mỗi trọng số sẽ có một hệ số học e khác nhau. Và khi cập nhật trọng số, nếu hướng lỗi hiện hành c ng bước với hướng trước thì cho e lớn, còn nếu ngược với hướng ở bước trước thì e sẽ nhỏ.

Hướng lỗi được xác định là dấu của dm , là đạo hàm riêng của hàm lỗi theo trọng số ở bước m. Nếu dm dương, lỗi giảm khi trọng số giảm, nếu dm âm, lỗi giảm khi trọng số tăng. Phương pháp học thích nghi vận dụng khái niệm hướng lỗi “v a mới “ giảm. Ta có thể định nghĩa hướng này như một hàm theo d như sau:

fm+1=  fm + (1- ) dm ,

Nếu  = 0 thì fm+1=0.5 dm + 0.5 fm . Nhưng vì fm được xác định t những giá trị quá khứ của d, nên thực sự có thể nói rằng :

fm+1=0.5 dm + 0.25 dm + 0.125 dm-2 +....

và cứ thế, trở về đến bước 1. Khi  tiến về 1, giá trị dm hiện tại giảm và giá trị quá khứ của d được tính bới fm lại tăng.

Nếu ta cho f là trung bình trọng số của các đạo hàm hiện tại và quá khứ ,  là trọng số cho biết đạo hàm đã qua và (1- ) là trọng số cho biết đạo hàm hiện tại. Nếu f dương, thì có thể biết mới đây là lỗi “giảm khi trọng giảm” và ngược lại, cũng như đối với chính đạo hàm.

Dựa vào dấu của dm và fm , ta có thể đo chính xác của cả hướng mà lỗi hiện đang giảm, lẫn hướng mà lỗi v a mới giảm. Nếu chúng cùng dấu, việc giảm lỗi xảy ra theo c ng hướng cũ, nếu khác dấu, hướng sẽ ngược với hướng cũ.

Hệ số học thích nghi được tính theo công thức: em = em -1 +  , dm fm > 0

em = em x  , dm fm < 0

Trong đó  và  là các tham số. Nếu “sắp” đi theo cùng một hướng , e sẽ tăng một lượng bằng hằng số . Nếu đổi hướng , e được nhân với một lượng bằng

.

Khi đã xác định được e, biến thiên trọng số sẽ được xác định theo  với 0 <  <1

Khi đã xác định được e, biến thiên trọng số sẽ được xác định theo công thức : cm = - em dm

Hay nếu dùng moment, cm = cm-1 – (1- ) em dm

Ưu nhược điểm:

Trong thực hành, hệ thống không nhạy cảm lắm đối với việc chọn lựa các giá trị của mạng. Thường các giá trị sau được các nhà thiết kế mạng kinh nghiệm sử dụng.

 = 0.1;

 = 0.5;  = 0.7;

Phương pháp sử dụng hệ số học thích nghi cho mỗi trọng số sẽ làm tăng tốc độ học. Để đạt được sai số như phương pháp thông thường thì chỉ cần khoảng 1/10 số bước luyện so với phương pháp thông thường

Phương pháp này cho kết quả hội tụ nhanh hơn phương pháp truyền thống, được sử dụng phổ biến vì sử dụng ít bộ nhớ và tính toán cũng không phức tạp

Huấn luyện cho mạng lan truyền ngược:

Dựa vào nguồn cung cấp cho thẻ

Các thành phần chính của đầu đọc