Trên đây là thuật toán lan truyền ngược cơ bản, sau đây ta sẽ bàn vềcác khía cạnh ứng dụng của thuật toán lan truyền ngược như chọn lựa cấu trúc mạng, sự hội tụ và khả năng tổng quát hóa.
2.1. Chọn lựa cấu trúc mạng
Nhưta đã biết, thuật toán lan truyền ngược có thể được sử dụng để xấp xỉ bất kỳ một hàm số học nào nếu nhưta có đủ số neural trong các lớp ẩn. Mặc dù vậy, phát biểu trên chưa cho ta được một số cụ thể các lớp và số neural trong mỗi lớp cần sử dụng. Ta sẽ dùng một ví dụ đểcó được cái nhìn chi tiết hơn về vấn đềnày.
trong đó i nhận các giá trị1, 2, 4 và 8. Khi i tăng thì hàm sốcần xét sẽtrởnên phức tạp hơn do ta sẽ nhận được nhiều chu kỳcủa hình sin trong phạm vi [-2, 2]. Khi đó, mạng neural với một số neural cố định sẽ khó có thể xấp xỉ được hàm nếu i tăng. Trong phần sau, ta sẽsửdụng ví dụFunction Approximation trong thư viện của bộMatlab 5.3 (file nnd11fa.m). Ở đây, mạng sử dụng có 1 lớp ẩn, 1 lớp ra; đương nhiên, mạng có 1 đầu vào và một đầu ra. Lớp ẩn sửdụng hàm sigmoid, lớp ra dùng hàm đồng nhất:
Số neural trong lớp ẩn là 4, kết quảxấp xỉcủa mạng trong các trường hợp i = 1, 2, 4, 8 như trong các hình vẽ dưới đây. Các đường màu đen là trả lời của mạng, còn các đường mờ hơn là hàm cần xấp xỉ.
Hình 8: Các xấp xỉ hàm (1)
Khi ta tăng số neural trong lớp ẩn lên thì khảnăng xấp xỉ hàm số của mạng sẽ tốt hơn. Chẳng hạn, xét trường hợp sử dụng 9 neural trong lớp ẩn và i = 8 ta có được kết quả sau:
khi tăng số neural.
Hình 9: Các xấp xỉ hàm (2)
Điều đó có nghĩa là nếu ta muốn xấp xỉmột hàm số mà có số điểm cần xấp xỉlà lớn thì ta sẽ cần số neural lớn hơn trong lớp ẩn.
2.2. Sự hội tụ
Trong phần trên ta đã thấy các trường hợp mạng neural không trảlại kết quảchính xác mặc dù thuật toán lan truyền ngược đã thực hiện tối thiểu hóa trung bình bình phương lỗi. Điềuđó là do khảnăng của mạng bịgiới hạn bởi sốneural trong lớp ẩn. Tuy nhiên, cũng có trường hợp mà thuật toán lan truyền ngược không cho ta các tham sốcó thểdẫn đến kết quảchính xác nhưng mạng vẫn có thểxấp xỉ được hàm số. Điều này xảy ra là do trạng thái khởi đầu của mạng, sau khi luyện, mạng có thểrơi vào điểm cực tiểu toàn cục hoặc rơi vào điểm cực tiểu địa phương.
Cần chú ý rằng trong thuật toán trung bình bình phương tối thiểu, điểm cực trịtoàn cục là luôn tồn tại bởi lẽhàm trung bình bình phương lỗi của thuật toán trung bình bình phương tối thiểu là một hàm bậc hai, hơn nữa, do là hàm bậc hai nên đạo hàm bậc hai của hàm lỗi sẽlà hằng số, do vậy mà độcong của hàm theo một hướng cho trước là không thay đổi. Trong khi đó, thuật toán lan truyền ngược áp dụng cho các mạng nhiều lớp sửdụng các hàm chuyển phi tuyến sẽcó nhiều điểm cực trị địa phương và độcong của hàm lỗi có thểkhông cố định theo một hướng cho trước.
2.3. Sự tổng quát hóa (Generalization):
Trong phần lớn các trường hợp, mạng neural truyền thẳng nhiều lớp được luyện bởi một sốcố định các mẫu xác định sựhoạt động đúng của mạng:
trong đó, pilà các đầu vào, tương ứng với nó là các đầu ra mong muốn ti. Tập huấn luyện này thông thường là thểhiện của sốlớn nhất các lớp có thểcác cặp. Một điều rất quan trọng là mạng neural có khảnăng tổng quát hóa được từnhững cái nó đã học. Nếu có được điều đó, mặc dù dữliệu có nhiễu thì mạng vẫn có khảnăng hoạt động tốt (trảlại kết quảgần với đích mong muốn).
“Đểmột mạng có khảnăng tổng quát hóa tốt, nó cần có sốtham sốít hơn sốdữliệu có trong tập huấn luyện”. Trong các mạng neural, cũng nhưcác bài toán mô hình hóa, ta thường mong muốn sửdụng một mạng đơn giản nhất có thểcho kết quảtốt trên tập huấn luyện.
Một cách khác đó là dừng luyện mạng trước khi mạng xảy ra tình trạng thừa ăn khớp. Kỹthuật này liên quan đến việc chia tập dữliệu thu được thành ba tập: tập huấn luyện sửdụng đểtính toán gradient và cập nhật các trọng sốcủa mạng, tập kiểm định được dùng đểkiểm tra điều kiện dừng của mạng và tập kiểm tra được sửdụng đểso sánh khảnăng tổng quát hóa của mạng đối với các bộtham sốcủa mạng sau các lần huấn luyện.