Trọng thường được khởi tạo bằng phương pháp thử sai, nó mang tính chất kinh nghiệm và phụ thuộc vào từng bài toán. Việc định nghĩ thế nào là một bộ trọng tốt cũng không hề đơn giản. Một số quy tắc khi khởi tạo trọng:
♦ Khởi tạo trọng sao cho mạng nơron thu được là cân bằng (với đầu vào ngẫu nhiên thì sai số lan truyền ngược cho các ma trận trọng số là xấp xỉ bằng nhau):
|ΔW1/W1| = |ΔW2/W2| = |ΔW3/W3|
Nếu mạng nơron không cân bằng thì quá trình thay đổi trọng số ở một số ma trận là rất nhanh trong khi ở một số ma trận khác lại rất chậm, thậm chí không đáng kể. Do đó để các ma trận này đạt tới giá trị tối ưu sẽ mất rất nhiều thời gian.
♦ Tạo trọng sao cho giá trị kết xuất của các nút có giá trị trung gian. (0.5 nếu hàm truyền là hàm Sigmoid). Rõ ràng nếu ta không biết gì về giá trị kết xuất thì giá trị ở giữa là hợp lý. Điều này cũng giúp ta tránh được các giá trị thái quá.
Thủ tục khởi tạo trọng thường được áp dụng:
– B1: Khởi tạo các trọng số nút ẩn (và các trọng số của các cung liên kết trực tiếp giữa nút nhập và nút xuất, nếu có) giá trị ngẫu nhiên, nhỏ, phân bố đều quanh 0.
– B2: Khởi tạo một nửa số trọng số của nút xuất giá trị 1, và nửa kia giá trị -1.
3.2.3. Vấn đề lãng quên (catastrophic forgetting)
Catastrophic forgetting là vấn đề một mạng quên những gì nó đã học được trong các mẫu trước khi đang học các mẫu mớị Nguyên nhân là do sự thay đổi các trọng số theo các mẫu mới, nếu như các mẫu cũ trong một thời gian không được đưa vào huấn luyện. Để tránh điều này, ta thường thực hiện việc huấn luyện luân phiên giữa mẫu cũ và mẫu mớị
Hình 22: Huấn luyện luân phiên trên hai tập mẫu
Xét ví dụ mạng được huấn luyện luân phiên với hai tập mẫu A và B (hình 2-10). Tại mỗi chu kỳ mạng sẽ học tập mẫu A sau đó học tập mẫu B. Khi bước vào chu kỳ thứ hai, lỗi lúc bắt đầu học tập mẫu A cao hơn là ở chu kỳ thứ nhất khi vừa học xong tập Ạ Điều này là do giữa hai lần học tập mẫu A mạng đã học tập mẫu B. Tuy nhiên nếu xét trên cả chu kỳ thì lỗi huấn luyện sẽ giảm xuống. Tức là lỗi lúc bước vào chu kỳ thứ ba sẽ nhỏ hơn lúc bước vào chu kỳ thứ haị
Có nhiều phương pháp để huấn luyện dữ liệu mớị Chẳng hạn sau khi một số mẫu mới được học, một vài mẫu cũ được chọn ngẫu nhiên trong số các mẫu trước đó để đưa vào học. Vấn đề sẽ khó khăn hơn khi các mẫu cũ không còn nữạ Khi đó các mẫu giả
(pseudoexamples) có thể được sử dụng để lưu giữ các trọng số càng gần các trọng số trước
càng tốt.
3.2.4. Vấn đề quá khớp