Một mạng nơron truyềnthẳngcó cấu trúc gồm nhiềulớp. Mỗi lớp chứa các nơron nhận tín hiệu vàotừ các nơron ở lớp trực tiếp phía dƣới và gửi tínhiệu ra
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
của chúng cho một lớp trực tiếp phía trên. Không có kết nối nào giữa các nơron trong cùng một lớp. Các nơron vàoNi truyền tín hiệuđến lớp đầu tiên của các nơron ẩn Nh,1. Không xử lý nào đƣợc thực hiện ở các nơron vào. Hàm kích hoạt tạimột nơron ẩn là một hàm Fi của các tín hiệu vàocó trọng số cộng với một bias nhƣ công thức (3.3). Tín hiệu ra của các nơron ẩn này đƣợc phân bổtrên lớp tiếp theo của các nơron ẩn Nh,2, cứ thế tiếp tục đến lớp cuối cùng của các nơron ẩn, ở đó các tín hiệu ra của chúng sẽ đƣợc truyền đến một lớp các nơron ra No (hình 3.3).
Hình 3.3. Mạng nơron l lớp
Do các nơron ởđây đƣợc sử dụngvới hàm kích hoạt phi tuyến, nên có thểtổng quát hóa quy tắc delta đã trình bày ở trên cho các hàm tuyến tính để có thể sử dụng với các hàm phi tuyến.Hàm kích hoạt là một hàm khả vi củatín hiệu vàotổng, đƣợc cho bởi:
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Để tổng quát hóa chính xác quy tắc delta ta đặt
Hàm lỗiEpđƣợcđịnh nghĩa là tổng lỗi bình phƣơng của mẫup tại các nơron ra:
trong đó là tín hiệu ra mong muốn với đơn vị o khi mẫu p đƣa vào. Đặt là tổng lỗi bình phƣơng. Ta có thể viết:
Theo công thức (3.14), nhân tử thứ hai là:
Khi đó có định nghĩa:
quy tắc mới nhận đƣợc nàytƣơng đƣơng với quy tắc delta ở trên, trả về kết quảđộ dốc giảm dần trên mặt phẳng lỗi nếu trọng sốđƣợc thay đổitheo công thức:
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Cách làm ở đây là nhằmxác định vai trò của đối với mỗi đơn vị k trong mạng. Kết quảlà có sự tính toán hồi quy đơn giản của các này và có thể cài đặt bằng cách lan truyền ngƣợc các tín hiệu lỗi trong mạng.
Để tính ,theo quy tắc chuỗi, đạo hàm riêng phần này đƣợc viết lại thànhtích của hai nhân tử, một nhân tử phản ánh sự biến đổi của lỗi nhƣ một hàm của tín hiệu ra của nơron, còn một nhân tử phản ánh sự biến đổi của tín hiệu ra nhƣ một hàm của sự biến đổi tín hiệu vào:
Vớinhân tử thứ hai, theo công thức (3.13) ta có:
chính là đạo hàm của hàm F với nơron thứ k, đƣợc tính tại nơron vào đến nơron đó. Để tính nhân tử thứ nhất trong công thức (3.21), ta xét hai trƣờng hợp. Thứ nhất, giả sử nơron k là nơron ra k = o của mạng, khi đó theo định nghĩa của Ep
kết quả này giống nhƣ khi sử dụng quy tắc delta chuẩn. Thay thế kết quả này và kết quả ở công thức (3.22) vào công thức (3.21):
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
với nơron ra o bất kỳ. Trƣờng hợp thứ hai, nếu k không phải là nơron ra mà là nơron ẩnk = h, khi đó không xác định đƣợc sự đóng góp của nơron này vào lỗi ra của mạng. Tuy nhiên, công thức tính lỗi có thể đƣợc viết nhƣ là một hàm của các tín hiệu vàotừ lớp ẩn đến lớp ra; và ta sử dụng quy tắc chuỗi để viết:
Thay thế kết quả này vào công thức (3.21):
Công thức (3.24) và (3.21) xác định một thủ tục đệ quy để tính của tất cả các nơron trong mạng, và sau đó sử dụng để tính sự thay đổi trọng số theo công thức (3.20). Thủ tục này chính là quy tắc delta tổng quát dùng cho mạng truyền thẳng phi tuyến.
Các công thức nhận đƣợc ở trên có thể là chính xác về mặt toán học, nhƣng thực tế chúng có ý nghĩa gì? Liệu có cách nào để hiểu đƣợc bản chất của lan truyền ngƣợc?
Thực tế, toàn bộ quá trình lan truyền ngƣợc là rất trực quan. Khi một mẫu học đƣợcđƣa vào, các giá trị kích hoạt sẽ đƣợc lan truyền đến các nơron ra và tín hiệu ra thực sự của mạng đƣợc so sánh với tín hiệu ra mong muốn, thông thƣờng làkết thúc với một lỗi nào đó trong các nơron ra. Gọi lỗi này là eo với mỗi nơron ra o. Mụcđích là phải làm cho eo bằng 0.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Cách đơn giản nhất để thực hiện việc này là làm theo thuật toán tham lam: thay đổi các kết nối trong mạng để dần dần eo bằng 0 với mẫu học này. Theo quy tắc delta, để giảm lỗi, các trọng số đƣợcchỉnh sửa theo
Nhƣng chỉ vậy thì chƣa đủ: khi chỉ áp dụng quy tắc này, các trọng số từ nơron vàođến các nơron ẩn sẽ không đƣợc thay đổi và sẽ không có đƣợc khả năng biểu diễn đẩy đủ của mạng truyền thẳng. Để có thể chỉnh sửa đƣợc trọng số từ nơron vàođến các nơron ẩn, cần tiếp tục áp dụng quy tắc delta. Tuy nhiên, trƣờng hợp này lại không có giá trị cho các nơron ẩn. Điều đó có thể giải quyết bằng quy tắc chuỗi nhƣ sau: phân tán lỗi của một nơron ra o cho tất cả các nơron ẩn nối tới nó, theo trọng số bằng kết nối này. Mỗinơron ẩn h
nhận một từ mỗi nơron ra o bằng của nơron ra đó với trọng số là trọng số của kết nối giữa những nơron đó: . Cần có hàm kích hoạt của nơron ẩn; F’ phải đƣợc sử dụng cho delta, trƣớc khi việc lan truyền ngƣợc đƣợc tiếp tục.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
CHƢƠNG 4. THỰC NGHIỆM