Các hệ số học trong thuật tốn lan truyền ngược- 123docz.net

- Hàm kích hoạt g đĩng vai trị biến đổi từ Nét sang tín hiệu đầu ra out

b. Mạng truyền thẳng đa lớp (Multilayer feedforward networks) 1 Lan truuyền ngược (Back propagation)

b.2 Các hệ số học trong thuật tốn lan truyền ngược

- Khới tạo giá trị trọng số liên kết neuron (Intial weights): Trong mạng truyền thẳng, giá trị trọng số được khởi tạo ban đầu cĩ ảnh hưởng quan trọng đến kết quả cuối cùng. Chúng được gán ngẫu nhiên với giá trị tương đối nhỏ, vì nếu quá lớn thì hàm sigmoid sẽ dễ bảo hịa ngay lúc bắt đầu, dẫn đén hệ thống sẽ bị “nghẽn” tại giá trị địa phương nhỏ nhất hoặc rất ổn định ở lân cận điểm bắt đầụ Do đĩ,tầm hợp lý của giá trị trọng số khởi tạo ban đầu thường nằm trong khoảng [- 3/ki, 3/ki], trong đĩ ki là số đầu vào nối vào neuron I [Wessels and Barnard, 1992]

- Hằng số học (learning constant): Một hệ số quan trọng khác cũng làm ảnh hưởng đến hiệu quả và sự hội tụ của thuật tốn lan truyền ngược, đĩ là hằng số học η . Sẽ khơng cĩ một giá trị hằng số hhọc cố định cho các trường hợp huấn luyện

khác nhau, mà thường chúng được chọn thử nghiệm cho từ ng bài tốn cụ thể. Một hằng số học cĩ giá trị lớn cĩ thể làm gia tăng tốc độ hội tụ, nhưng kết quả cũng cĩ thể sẽ bị c ường đi ệu; Trong khi một hằng số học cĩ giá trị nhỏ hơ n thì cĩ tác dụng ngược lạị tầm gái trị hằng số họcη thường dao động trong khoảng từ 10-3 đến 10.

Một vấn đề khác cũng được đặt ra là hằng số hằng sẽ được tốt nhất ở lúc bắt đầu huấn luyện, tuy nhiên sẽ khơng cịn tốt nữa sau vài lần huấn luyện. Do đĩ, tốt nhất là dùng hằng số học thích nghị Phương pháp trực giác để xác định hằng số học này là kiểm sốt riêng lẻ quá trình cập nhật trọng số để làm giảm hàm sai số; nếu khơng thì giảm dần chúng nếu kết quả cường điệu; hoặc trong tr ường hợp khi nhiều bước lặp đều cĩ sự suy giảm hàm sai số dẫn đến bài tốn quá hội tụ, thì nên tăng dần hằng số học lên. Cụ thể nhất, hằng số học nên được cập nhật theo các quy luật sau

η −bη,ΔΕ0 (3.18)

trong đĩ:

ΔΕ là độ lệch hàm sai số; a,b là các hằng số dương

Hoặc trong trường hợp dựa trên các bước huấn luyện trước thì:

 a, D(t1)λ(t)0 −bη(t), D(t−1)λ(t)0 (3.19) 0, trong đĩ: λ(t)  ∂∂Εw (3.20) ij D(t)(1−c)λ(t)cD(t−1),c [0,1] là hằng số (3.21)

- Hàm sai số (Cost functions): Trong cơng thức tính hàm sai số (3.11), thành

phầ n sai số bình phương (di-yi)2 cĩ thể thay thế bởi bất kỳ một hàm F(di,yi) nào khác sao cho hàm này cĩ thể đạt cực tiểu khi argument của di và yi bằng nhaụ Và tương

ứng với hàm sai số mới này, qui luật cập nhật trọng số từ (3.11) đến (3.16) nêu trên sẽ thay đổị

Tuy nhiên, dễ dàng nhận thấy rằng chỉ cĩ cơng thức tính δoi (3.13) và δhq (3.16) là thay đổi theo

hàm sai số, cịn các cơng thức khác thì hầu nhưkhơng

thay đổị

- Động l ượng (Momentum): Sự suy giảm gradient cĩ thể sẽ rất chậm nếu hằng số học η quá lớn. Do đĩ , phương pháp làm chênh lệch đi khả năng dao động biên

độ nhưng vẫn cho phép sử dụng hằng số học lớn là đưa thêm vào trọng số thành phần “động lượng” theo cơng thức sau:

w(t)−η Ε(t)α w(t −1) (3.22)

trong đĩ: α [0,1] là tham số động lượng và thường chọn giá trị là 0,9.

Các hệ số học trong thuật tốn lan truyền ngược

Bộ não và neuron sinh học