Mạng TKNT là một hệ thống thích ứng để xấp xỉ một hàm (một ánh xạ) từ tập số liệu (tập nhân tố dự báo) tới một tập số liệu khác (tập yếu tố dự báo). Thích ứng có nghĩa là các tham số của mạng đợc thay đổi trong suốt quá trình vận hành, và thờng đợc gọi là pha luyện mạng. Sau khi luyện, các tham số của mạng đợc cố định và hệ thống đợc kiểm nghiệm với một vấn đề sắp xảy ra (pha kiểm tra).
Mạng TKNT đợc thiết kế từng bớc sao cho tối u hóa những điều kiện cho trớc hoặc theo một trình tự xác định trớc, đợc biết đến nh những quy tắc học. Số liệu đầu và và đầu ra của tập mẫu luyện rất quan trọng đối với kỹ thuật mạng thần kinh bởi chúng bao gồm những thông tin cần thiết để "khám phá" ra điểm "tối u". Bản chất phi tuyến của các nhân tố mạng TKNT cung cấp cho hệ thống nhiều khả năng để biểu diễn đợc chính xác bất kỳ ánh xạ nào (toàn ánh).
Ngoài quy tắc học, một thành phần quan trọng nữa của mạng TKNT đó là các phần tử hoạt động. Bản chất của các phần tử hoạt động chính là hàm ánh xạ trong nó. Đó có thể làm hàm logic với chỉ hai giá trị đúng hoặc sai, cũng có thể đó là hàm tang hypebol (tanh) hoặc là hàm giới hạn với chỉ ba giá trị -1, 0 và 1...
Dới đây là minh họa cho một vài loại hàm ánh xạ và toán tử phi tuyến trong các phần tử hoạt động thông dụng:
Hình 14: Phần tử hoạt động và các toán tử phi tuyến dạng S thông dụng Có thể nhận thấy: mạng nhận thức đa lớp, mạng truy hồi, kỹ thuật lan truyền ngợc và phần mở rộng của nó, mạng thời gian trễ, mạng thời gian trễ theo thời gian... là những thành viên nổi bật trong đại gia đình mạng TKNT. Trong luận văn này, tôi sẽ trình bày lý thuyết cũng nh có một vài nhận xét về u nhợc điểm của từng loại mạng cũng nh yêu cầu cần đáp ứng khi luyện mạng.
a. Mạng nhận thức đa lớp
Mạng nhận thức đa lớp là một sự sắp xếp theo lớp của các phần tử hoạt động nh trong hình dới đây
Hình 15: Mạng nhận thức đa lớp với một lớp ẩn
Lớp nhận các giá trị đầu vào đợc gọi là lớp nhập, lớp tạo ra các giá trị đầu ra gọi là lớp xuất. Các lớp không có liên hệ trực tiếp đối với thế giới bên ngoài gọi là các lớp ẩn. Một mạng chỉ bao gồm lớp nhập và lớp xuất đợc gọi là mạng nhận thức. Khi mạng có thêm các lớp ẩn, chúng đợc gọi là mạng nhận thức đa lớp. Mỗi kết nối giữa các phần tử hoạt động đợc định lợng bởi giá trị wi, gọi là trọng số, và đợc điều chỉnh trong suốt quá trình luyện mạng.
Các phần tử hoạt động trong mạng nhận thức đa lớp bao gồm một toán tử tổng và một toán tử phi tuyến làm trơn dạng S (hình 14). Các toán tử phi tuyến làm trơn dạng S thông dụng nhất bao gồm: hàm logic, hàm tang hypebol, và đôi khi là
hàm giới hạn.
Sức mạnh của mạng nhận thức đa lớp thể hiện ở chỗ, nó là một ánh xạ phổ dụng (thực hiện một ánh xạ bất kỳ giữa lớp nhập và lớp xuất) khi nó đợc cấu tạo với ít nhất hai lớp ẩn và số phần tử hoạt động thích hợp trong từng lớp ẩn đó [Haykin, 1994]. Thậm chí, mạng nhận thức đa lớp với một lớp ẩn cũng có thể xấp xỉ các ánh xạ liên tục giữa lớp nhập và lớp xuất. Điều này có nghĩa là chúng ta hiếm khi phải chọn một mạng nhận thức đa lớp với nhiều hơn hai lớp ẩn. Điều này thực sự có ý nghĩa trong thực tế, do nhu cầu về thời gian tính toán, khối lợng tính toán... nên một mạng nhỏ, đơn giản... sẽ là rất hữu ích. Tuy nhiên, khó khăn đối với mạng nhận thức đa lớp lại là việc chọn số lớp ẩn (0, 1 hoặc 2) và số phần tử hoạt động trong mỗi lớp nếu muốn đạt đợc một kết quả tốt nhất.
Rất nhiều bài toán kỹ thuật có thể đợc hình dung theo cách chuyển đổi thông tin từ không gian nhập sang thông tin trong không gian xuất. Ví dụ, chia số liệu thành các lớp, các pha khác nhau; tìm trạng thái của lớp xuất khi biết trạng thái của các phần tử nhập, [Bishop, 1995]; tơng tự, việc xác định một hệ thống cha biết cũng có thể coi là một xấp xỉ hàm (ánh xạ) từ lớp nhập đến lớp xuất [Kung, 1993]. Mạng nhận thức đa lớp rất thích hợp cho các ứng dụng dạng này.
Để đánh giá xem mạng nhận thức đa lớp tốt đến mức nào, ta sử dụng sai số sau bình phơng trung bình (MSE):
( ) ∑ ∑ = = − = P P N n n n y d P E 1 1 2 2 1 1 (2.33) Trong đó: P là số lần luyện (kiểm tra), N là số mẫu luyện (kiểm tra), dn là kết xuất của mạng và yn là kết xuất mong muốn (kết xuất đích).
ảnh hởng của dung lợng mẫu đến hiệu quả của mạng
Một bài toán đơn giản đợc lấy làm ví dụ: một hàm y = f(x) phải đợc xấp xỉ bằng mạng TKNT. Mạng bao gồm 5 nút ẩn với hàm tác động dạng S và lớp xuất tuyến tính. Giả sử rằng chúng ta chỉ có một mẫu luyện nhỏ (ví dụ là 4 mẫu) và mạng đợc luyện trên mẫu này. Quá trình luyện kết thúc khi sai số không tiếp tục giảm. Hàm gốc (hàm đích) là đờng đứt trong hình 16a. Mẫu luyện và hàm xấp xỉ của mạng đợc biểu diễn trên cùng một hình. Có thể dễ dàng nhận thấy sai số luyện rất nhỏ (đờng xấp xỉ đi qua mọi điểm trong tập mẫu) nhng sai số kiểm tra lại rất lớn.
Hình 16: Tác động của kích thớc tập mẫu đến kết quả của mạng. Đờng đứt là hàm đích, mẫu luyện là các vòng tròn và hàm xấp xỉ bởi mạng là đờng liền đậm. Mạng có 5 nút
ẩn. a) Mẫu có 4 phần tử b) Mẫu có 20 phần tử
Khi dung lợng mẫu tăng lên 20 phần tử (hình 16b), sai số luyện lớn hơn trờng hợp có 4 mẫu luyện nhng sai số kiểm tra lại nhỏ hơn rất nhiều. Thí nghiệm này đợc lặp lại nhiều lần với nhiều dung lợng mẫu khác nhau, với mỗi dung lợng mẫu, thí nghiệm đợc lặp lại 10 lần. Tỷ lệ giữa sai số luyện và sai số kiểm tra là một hàm của dung lợng mẫu đợc cho trong hình sau đây:
Hình 17: ảnh hởng của dung lợng mẫu đến sai số.
Từ đó ta nhận thấy, sai số luyện tăng và sai số kiểm tra giảm khi dung lợng mẫu tăng. Nói cách khác, sai số luyện nhỏ không đảm bảo rằng mạng là tốt. Khi tăng dung lợng mẫu, đến một lúc nào đó, hai sai số này sẽ bằng nhau. Đó là trờng hợp lý tởng. Giá trị này phụ thuộc vào khả năng đặc trng của mạng: nếu ta có đợc một tập trọng số tối u, kết xuất của mạng sẽ tốt đến mức nào? Sai số này phụ thuộc vào số nút ẩn và hàm tác động. Nếu giá trị sai số luyện không hội tụ với sai số kiểm tra, thủ tục học đã không tìm đợc cực tiểu toàn cầu. (Có thể nó đã rơi vào một cực tiểu địa phơng nào đó trong không gian trọng số). [22]
ảnh hởng của số nút ẩn đến hiệu quả của mạng
Ta vẫn sử dụng hàm trong phần trên với 12 mẫu luyện, nhng lần này ta thay đổi số nút ẩn của mạng. Hàm đích, mẫu luyện và các xấp xỉ của mạng đợc cho trong hình 18a với 5 nút ẩn và hình 18b với 20 nút ẩn.
Hình 18b là minh họa về trờng hợp mạng quá khớp. Mạng đã đi qua toàn bộ các mẫu luyện, nhng do số lợng nút ẩn quá lớn, hàm xấp xỉ bởi mạng quá "gồ ghề" so với hàm đích. Cá biệt trong những trờng hợp mẫu luyện có chứa nhiễu (điều này luôn có trong thực tế), mạng sẽ khớp với tất cả các thông tin nhiễu đó của mẫu luyện thay vì tạo ra một xấp xỉ trơn nh hàm đích.
Hình 18: ảnh hởng của số nút ẩn đến hiệu quả của mạng. Đờng đứt là hàm đích, các vòng tròn đánh dấu các mẫu luyện, và đờng liền là hàm xẫp xỉ của mạng. Sử dụng 12 mẫu
luyện. a) 5 nút ẩn và b) 20 nút ẩn
Ví dụ trên cho ta thấy nếu có quá nhiều nút ẩn sẽ dẫn đến sai số luyện mạng nhỏ nhng không cho ta sai số kiểm tra nhỏ. Việc thêm số nút ẩn luôn giúp cho giảm sai số luyện. Tuy nhiên, việc thêm nút ẩn, lúc đầu cũng sẽ giúp giảm sai số kiểm tra, nhng ngay sau đó sẽ làm tăng sai số này. Hiệu ứng này đợc gọi là "hiệu ứng đỉnh
điểm"8 [22]. Sai số luyện và kiểm tra trung bình là một hàm của số nút ẩn đợc cho trong hình dới đây:
Hình 19: Sai số luyện và kiểm tra trung bình là một hàm của số nút ẩn
b. Mạng truy hồi
ý tởng cho sự ra đời của mạng truy hồi xuất phát từ mạng lan truyền tiến, với câu hỏi đợc đặt ra: Mạng nhận thức đa lớp là mạng phổ biến nhất nhng lại chỉ là mạng lan truyền tiến, chỉ có khả năng xử lý các thông tin tức thời. Chuyện gì sẽ xảy ra nếu ta thêm vào một vòng lặp, ví dụ ta liên kết một nút ẩn với chính nó thông qua trọng số liên kết, hoặc liên kết các nút ẩn khác, và thậm chí là liên kết tất cả các phần tử của mạng với nhau? Mặc dù, nh chúng ta đã biết, khả năng tính toán của mạng nh vậy sẽ không tăng, nhng chúng ta có thể giảm kích thớc của mạng (số lớp ẩn, số nút ẩn) khi giải cùng một bài toán (vì khi này, xét về mặt lý thuyết, thông tin giữa các thành phần của mạng đợc trao đổi qua lại, mạng học nhanh hơn và khả năng tổng quát của mạng cũng đợc cải thiện).
Một câu hỏi quan trọng nữa chúng ta phải xem xét đó là: chúng ta muốn học đợc cái gì từ mạng truy hồi? Trên hết, khi một ai đó xem xét mạng truy hồi, họ mong muốn có thể tiếp tục truyền các giá trị tác động đến vô cùng, hay đến khi đạt đợc một điểm ổn định! Câu trả lời là có. Với mạng truy hồi, ta có thể đa ra một ng- ỡng để mạng ngừng quá trình lan truyền và điều chỉnh trọng số (nh bất kỳ một loại mạng nào khác). Hai ví dụ cổ điển về mạng truy hồi là mạng Jordan và mạng Elman. Trong mạng Jordan (Jordan, 1986), các giá trị tác động của lớp xuất đợc đa trở lại nút nhập thông qua một tập hợp các nơron phụ đợc gọi là nút trạng thái (state units). Các liên kết giữa lớp xuất và các nơron phụ có trọng số không đổi là +1; việc
luyện chỉ có ở các liên kết giữa lớp nhập và lớp ẩn và giữa các lớp ẩn và lớp xuất. Do đó, tất cả các quy tắc học của mạng nhận thức đa lớp đều có thể sử dụng với loại mạng này.
Mạng Elman (Elman, 1990), một tập hợp nơron ngữ cảnh thay thế cho các nơron phụ trong mạng Jordan, và nó đa thông tin từ lớp ẩn trở lại lớp nhập. Do đó, về nguyên tắc cũng giống nh mạng Jordan, trừ việc nó đa thông tin trở lại từ nút ẩn chứ không phải từ nút xuất và trong tập hợp nơron ngữ cảnh, các nơron không liên kết lẫn nhau. [22]
Hình 20: Mạng Jordan. Giá trị tác động của lớp xuất đợc đa trở lại lớp nhập tới một tập hợp các nơron phụ đợc gọi là nút trạng thái (state units)
Hình 21: Mạng Elman, thông tin từ lớp ẩn đợc đa trở lại lớp nhập thông qua tập hợp nơron ngữ cảnh
Dới đây tôi sẽ trình bày cụ thể hơn loại một trong những loại mạng truy hồi xuất hiện sớm nhất và nổi tiếng nhất: mạng Hopfield.
Năm 1982, Hopfield đa ra một lý thuyết hoàn chỉnh về toán học của mạng truy hồi dựa trên những lý thuyết trớc đó của mạng Kohonen; sau đó đợc phát triển thành mô hình "Ising spin" (Amit, Gutfreund và Sompolinsky, 1986) [22]
Mạng Hopfield bao gồm tập hợp N nơron liên kết lẫn nhau (hình 22) và chúng cập nhật giá trị tác động một cách liên tục và độc lập. Mọi nơron đều vừa là nơron nhập và xuất. Các giá trị tác động dới dạng mã nhị phân (1 và 0). Trạng thái của hệ thống đợc cho bởi các giá trị tác động y = yk. Tập hợp giá trị nhập sk(t+1) của nơron thứ k tại vòng t+1 đợc lấy tổng có trọng số:
( + )=∑ j( ) jk + k
k t y t w
s 1 θ (2.34)
Một hàm giới hạn đơn giản đợc sử dụng cho tập hợp nhập để thu đợc giá trị tác động mới yi(t+1) ở thời điểm t+1:
( ) − + = + ) ( 1 1 1 t y t y k k (2.35)
Hình 22: Mạng tự liên kết. Tất cả các nơron đều vừa là nơron nhập và xuất; mạng lặp cho đến khi đạt đợc trạng thái ổn định, đầu ra của mạng là tập hợp các giá trị tác động
của các nơron. Mạng Hopfield đặc biệt có u thế trong bài toán phân lớp và bài toán tối u hóa.
Nếu sk(t+1) > Uk Nếu sk(t+1) < Uk Trờng hợp còn lại
c. Mạng thời gian trễ
Nhận thức đa lớp là thuật toán mạng phổ biến nhất, nhng nó chỉ có thể giải quyết các thông tin đồng thời, do trong hệ thống của nó không có bộ nhớ và chỉ là lan truyền tiến. Trong khoa học, kỹ thuật, việc xử lý các tín hiệu, các đại lợng tồn tại theo thời gian có liên hệ với nhau, đòi hỏi các hệ thống phải có bộ nhớ (điều này đặc biệt có ý nghĩa trong khí tợng, khi các đại lợng khí tợng đều có quán tính, tơng đối đồng nhất theo thời gian). Một động lực nữa đòi hỏi phải sử dụng bộ nhớ đó là hồi tiếp, hay đơn giản là sử dụng có hiệu quả các thông tin sẵn có (đó cũng chính là lý do cho sự ra đời của mạng truy hồi; nhng các mạng truy hồi đầy đủ (toàn diện) rất khó luyện và đạt đợc trạng thái ổn định). Việc xây dựng một thuật toán khác (không phải thuật toán truy hồi), dựa trên mạng nhận thức đa lớp nhng có thêm một hệ thống con để chứa các thông tin trong quá khứ là cần thiết và thích hợp hơn. Những hệ thống con này đợc gọi là các cấu trúc bộ nhớ ngắn hạn (De Vries và Principe, 1992). Sự kết hợp của mạng nhận thức đa lớp và các cấu trúc bộ nhớ ngắn hạn đợc gọi là mạng thời gian trễ9, các cấu trúc bộ nhớ thậm chí có thể là truy hồi, nhng chỉ là hồi tiếp địa phơng, do đó tính ổn định dễ đảm bảo hơn. Khi sự kết hợp là giữa mạng truy hồi và các cấu trúc bộ nhớ thì ta có mạng truy hồi thời gian trễ10. Thông thờng, với một mạng thời gian trễ tổng quát nhất, bộ nhớ sẽ đợc đặt ở tất cả các thành phần của mạng, điều đó sẽ tăng khả năng của mạng rất nhiều nhng cũng sẽ mất rất nhiều thời gian để luyện và số liệu cũng cần nhiều để đảm bảo tính đặc trng của mạng. Một trong những thuật toán giúp đơn giản vấn đề này là thuật toán tập trung11, trong đó bộ nhớ chỉ đợc đặt ở lớp nhập. Chức năng của bộ nhớ ngắn hạn trong mạng thời gian trễ tập trung là chứa các thông tin, tín hiệu trong quá khứ của
lớp nhập, trong khi các phần tử hoạt động phi tuyến cung cấp các ánh xạ tơng tự nh ở mạng nhận thức đa lớp. Trong luận văn này, mạng truy hồi thời gian trễ là lựa chọn số một cho bài toán phân tích chuỗi thời gian dự báo tổng xạ.
Hình 23: Mạng thời gian trễ với thuật toán tập trung 9 Time-Lagged Network – TLN
Cấu trúc bộ nhớ đơn giản nhất đợc xây dựng từ chuỗi trì hoãn12 hay bộ nhớ trễ. Bộ nhớ trễ là một hệ thống nhập đơn – xuất đa, có duy nhất một tham số là kích thớc chuỗi K. Loại bộ nhớ này đợc sử dụng rất hiệu quả cùng với mạng thời gian trễ13 trong việc nhận dạng giọng nói và xác định hệ thống. (Kung, 1993) (Hình 24)
Một cơ chế khác cho bộ nhớ tuyến tính đó là hồi tiếp (Hình 25). Hối tiếp cho phép hệ thống nhớ các sự kiện trọng quá khứ do sự giảm nhanh của kết xuất mô hình. Bộ nhớ hồi tiếp cung cấp cho hệ thống luyện có tham số à, dùng để điều chỉnh