Chƣơng 2 MẠNG NƠ-RON
2.5 Đánh giá các nhân tố của quá trình học
2.5.1 Khởi tạo các trọng số
Kỹ thuật lan truyền ngƣợc hội tụ đến một giải pháp mà nó tối thiểu hoá đƣợc sai số trung bình bình phƣơng vì cách thức hiệu chỉnh trọng số và hệ số bias của thuật toán là ngƣợc hƣớng với vectơ Gradient của hàm sai số trung bình bình phƣơng đối với trọng số. Tuy nhiên, đối với mạng MLP thì hàm sai số trung bình bình phƣơng thƣờng phức tạp và có nhiều cực trị cục bộ, vì thế các phép lặp huấn luyện mạng có thể chỉ đạt đƣợc đến cực trị cục bộ của hàm sai số trung bình bình phƣơng mà hông đạt đến đƣợc cực trị tổng thể. Các giá trị khởi tạo của các trọng số ảnh hƣởng rất mạnh đến lời giải cuối cùng. Các trọng số này thƣờng đƣợc khởi tạo bằng những số ngẫu nhiên nhỏ. Việc khởi tạo tất cả các trọng số bằng nhau sẽ làm cho mạng học không tốt. Nếu các trọng số đƣợc khởi tạo với giá trị lớn thì ngay từ đầu tổng tín hiệu vào đã có giá trị tuyệt đối lớn và làm cho hàm sigmoid chỉ đạt 2 giá trị 0 và 1. Điều này làm cho hệ thống sẽ bị tắc ngay tại một cực tiểu cục bộ hoặc tại một vùng bằng phẳng nào đó gần ngay tại điểm xuất phát. Giá trị khởi tạo ban đầu của các trọng số trên lớp thứ l của mạng sẽ đƣợc chọn ngẫu nhiên nhỏ trong khoảng [-1/n, 1/n], trong đó n là số trọng số nối tới lớp l. Do bản chất của giải thuật học lan truyền ngƣợc sai số là phƣơng pháp giảm độ lệch gradient nên việc khởi tạo các giá trị ban đầu của các trọng số các giá trị nhỏ ngẫu nhiên sẽ làm cho mạng hội tụ về các giá trị cực tiểu khác nhau. Nếu gặp may thì mạng sẽ hội tụ đƣợc về giá trị cực tiểu tổng thể.
2.5.2 Bước học α
Một nhân tố khác ảnh hƣởng đến hiệu lực và độ hội tụ của giải thuật lan truyền ngƣợc sai số là bƣớc học α. Không có một giá trị xác định nào cho các bài toán khác nhau. Với mỗi bài toán, bƣớc học thƣờng đƣợc lựa chọn bằng thực
đƣợc qua các cực tiểu cục bộ và vì vậy dẫn đến học mãi mà không hội tụ. Do vậy, việc chọn hằng số học ban đầu là rất quan trọng. Với mỗi bài toán ta lại có phƣơng án chọn hệ số học khác nhau. Nhƣ vậy, khi một quá trình huấn luyện theo kỹ thuật lan truyền ngƣợc hội tụ, ta chƣa thể khẳng định đƣợc nó đã hội tụ đến phƣơng án tối ƣu. Ta cần phải thử với một số điều kiện ban đầu để đảm bảo thu đƣợc phƣơng án tối ƣu.
2.5.3 Hằng số quán tính
Tốc độ học của giải thuật làm truyền ngƣợc sai số có thể dao động khi hằng số học lớn. Một phƣơng pháp thƣờng dùng cho phép sử dụng hằng số học lớn là thêm thành phần quán tính vào các phƣơng trình hiệu chỉnh các trọng số. Ngoài ra, hằng số quán tính ngăn cản sự thay đổi đột ngột của các trọng số theo hƣớng khác với hƣớng mà lời giải đang di chuyển đến. Mặt trái của việc sử dụng thành phần quán tính là chúng ta phải tăng đáng ể bộ nhớ của máy tính gần nhƣ gấp đôi để lƣu trữ các giá trị hiệu chỉnh ở chu kỳ trƣớc.