2.3 .Hàm xử lý
2.6. Thuật toán lan truyền ngược (Back-Propagation Algorithm)
2.6.2. Sử dụng thuật toán lan truyền ngược của mạng
Sử dụng phương pháp của thuật toán lan truyền ngược như chọn lựa cấu trúc mạng, sự hội tụ và khả năng khái quát hoá.
Chọn lựa được cấu trúc mạng
Thuật toán lan truyền ngược chúng được sử dụng để đo xấp xỉ bất kỳ một hàm số học nào nếu như có đủ số nơron trong các lớp ẩn. Mặc dù vậy, phương pháp này chưa cho một số cụ thể các lớp và số nơron trong mỗi lớp cần sử dụng.
Ví dụ: chúng ta có thể nhìn chi tiết hơn về vấn đề này muốn xấp xỉ hàm số sau [9]: 𝑓(𝑥) = 1 + sin (𝑖𝜋
4 𝑥) 𝑣ớ𝑖 − 2 ≤ 𝑥 ≤ 2
cần xét sẽ phức tạp hơn rất nhiều do ta sẽ nhận thấy nhiều chu kỳ của hình sin trong phạm vi [-2,2]. Khi đó, mạng nơron với một số nơron cố định sẽ khó có thể đạt xấp xỉ được hàm nếu I tăng. Sử dụng ví dụ Function approximation trong thư viện của bộ Matlab 6.0 (tệp nnd11fa.m). Ở đây mạng sử dụng có một lớp ẩn, một lớp ra, mạng có một đầu vào và một đầu ra.
Lớp ẩn sử dụng hàm Sigmoid, lớp ra dùng hàm tuyến tính. Số nơron trong lớp ẩn là 3, kết quả xấp xỉ của mạng trong các trường hợp i=1,2,4,8 như trong các hình dưới đây.[14]
a, Trường hợp i=1
b,Trường hợp i=2
d,Trường hợp i=8
Xấp xỉ hàm 𝒇(𝒙) = 𝟏 + 𝒔𝒊𝒏 (𝒊𝝅
𝟒 𝒙) 𝒗ớ𝒊 − 𝟐 ≤ 𝒙 ≤ 𝟐
Chúng ta tăng số nơron trong lớp ẩn lên một mức lớn thì khả năng xấp xỉ hàm số của mạng sẽ tốt hơn nhiều. Chẳng hạn, khi ta xét trường hợp sử dụng 8 nơron trong lớp ẩn và i=8 ta có được một kết quả sau:
Trường hợp i=8 và số nơron lớp ẩn là 8
Tỉ lệ xấp xỉ hàm𝒇(𝒙) = 𝟏 + 𝒔𝒊𝒏 (𝒊𝝅
𝟒 𝒙) 𝒗ớ𝒊 − 𝟐 ≤ 𝒙 ≤ 𝟐 khi số nơron tăng Như vậy nếu ta muốn xấp xỉ một hàm số mà có số điểm cần xấp xỉ là lớn thì ta sẽ cần số nơron lớn hơn trong lớp ẩn.
Sự hội tụ
Trong phần trên có những trường hợp mạng nơron khơng trả lại kết quả chính xác dù cho thuật tốn lan truyền ngược đã thực hiện tối thiểu hố trung bình, bình phương lỗi. Điều đó là do khả năng của mạng bị chặn bởi số nơron trong lớp ẩn. Nhưng cũng có trường hợp thuật tốn lan truyền ngược khơng thể cho ta các tham số có thể dẫn đến kết quả tương đối chính xác. Điều này xảy ra là do thời điểm khởi đầu của mạng, sau khi quá trình huấn luyện, mạng có thể rơi vào điểm cực tiểu tồn cục hoặc rơi vào điểm cực tiểu địa phương trong đồ thị. [14]
Lưu ý rằng trong thuật tốn LMS, điểm cực trị tồn cục là luôn luôn tồn tại bởi lẽ hàm trung bình, bình phương lỗi của thuật toán LMS là hàm bậc hai, do là hàm bậc hai vì vậy đạo hàm bậc hai của hàm lỗi sẽ là hằng số, vì thế mà độ cong của hàm theo một hướng cho trước là không thay đổi. Trong khi đó thuật tốn lan truyền ngược được áp dụng cho các mạng nhiều lớp sử dụng các hàm kích hoạt phi tuyến sẽ có rất nhiều điểm cực trị địa phương và độ cong của hàm lỗi có thể khơng cố định theo một chiều hướng cho trước.
Sự tổng quát hoá
Trong rất nhiều các trường hợp, mạng nơron truyền thẳng nhiều lớp được huấn luyện bởi một hay nhiều số cố định các mẫu xác định sự hoạt động đúng của mạng:
{(𝑝1, 𝑡1), (𝑝2, 𝑡2), … , (𝑝𝑞, 𝑡𝑞)}
ở đây pi là các đầu vào, ti là đầu ra mong muốn tương ứng. Tập ví dụ huấn luyện này thông thường là thể hiện của số lớn nhất các lớp ví dụ huấn luyện có thể. Một điều đặc biệt là mạng nơron có khả năng tổng qt hố từ những cái nó đã học. Dù cho dữ liệu có nhiễu thì mạng vẫn có khả năng hoạt động tốt.
Để một hệ thống mạng có khả năng tổng qt hố tốt, nó cần có số tham số ít hơn số tập dữ liệu có trong tập ví dụ huấn luyện. Trong các mạng nơron, cũng như các bài tốn mơ hình hố, ta thường mong muốn sử dụng một mạng đơn giản nhất mà có thể cho kết quả tốt trên tập ví dụ huấn luyện.
Một cách khác đó là việc dừng luyện mạng trước khi mạng xảy ra tình trạng khớp quá. Phương pháp này liên quan đến việc chia tập dữ liệu thu được thành ba tập: tập ví dụ huấn luyện để tính tốn bằng phương pháp gradient và cập nhật các trọng số của mạng, tập kiểm định được dùng để kiểm tra các điều kiện dừng của mạng và tập kiểm tra được sử dụng để có thể so sánh khả năng tổng quát hoá của mạng đối với các bộ tham số của mạng sau các lần huấn luyện.[16]