MỤC LỤC
Các bước mô tả trên đều dựa trên một giả định, đó là dữ liệu huấn luyện, xác minh và kiểm tra phải đại diện cho mô hình cơ sở (hơn nữa, ba tập này phải độc lập). Nếu dữ liệu huấn luyện không đặc trưng thì giá trị mô hình chỉ là một sự dàn xếp, xấu nhất có thể không sử dụng được.
Khi xử lý huấn luyện, các mặt phẳng đáp ứng của các neuron được xoay và dời đến các vị trí tương ứng, biên độ của các trọng số thay đổi để mô phỏng các vùng cụ thể của mặt phẳng đáp ứng đích. Mạng hai lớp ẩn có một số hàm dãi kết hợp với nhau – số dãi tương ứng với số neuron trong lớp thứ hai, và số cạnh của mỗi dãi tương ứng với số neuron trong lớp thứ nhất.
Leverberg – Marquardt thường có tốc độ huấn luyện nhanh nhất, nhưng có một vài giới hạn, đặc biệt chỉ sử dụng ở mạng cú một ngừ ra, chỉ cú thể sử dụng hàm sai số tổng bỡnh phương và yêu cầu bộ nhớ tỷ lệ với W2 (với W là số trọng số trong mạng, điều này làm cho thuật toán không thực tế đối với mạng lớn). Ngược lại Leverberg–Marquardt với kích thước bằng 4 thực hiện tính toán sử dụng toàn bộ tập dữ liệu, vì thế tăng số trường hợp có thể làm chậm đáng kể mỗi epoch, nhưng không cải thiện hiệu suất cần thiết trên epoch đó (không cải thiện hiệu suất nếu dữ liệu là thừa, nếu dữ liệu ít thì việc thêm dữ liệu sẽ làm cho mỗi epoch tốt hơn).
Backpropagation điều chỉnh sai số từng trường hợp một nên dữ liệu thừa không làm ảnh hưởng đến mạng (ví dụ, nếu ta tăng gấp đôi kích thước tập dữ liệu bằng cách lặp lại từng mẫu, mỗi epoch sẽ kéo dài gấp đôi, nhưng có cùng tác dụng nếu ta đưa hai lần epoch của tập dữ liệu cũ, vì thế không có thiệt hại). Rừ ràng giỏ trị trọng số và ngưỡng trong neuron radial hoàn toàn khác so với neuron tuyến tính, và thuật ngữ này rất nguy hiểm nếu chúng ta không nhớ điều này : trọng số neuron radial tạo thành một điểm và một ngưỡng trong neuron radial thực sự là độ lệch.
Trong trường hợp phân loại, nếu chúng ta xây dựng bảng ước lượng các hàm pdf của các lớp có thể có, chúng ta có thể so sánh xác suất của các lớp khác nhau, và chọn ra lớp có xác suất lớn nhất. Giống như mạng RBF, hệ số này được chọn sao cho có độ phủ hợp lý – độ lệch quá nhỏ gây ra phép ước lượng rất nhọn không thể tổng quát hóa, độ lệch quá lớn sẽ làm bằng các chi tiết.
Ma trận này nhân với các ước lượng xác suất của lớp thứ ba và lớp có tổn thất ước lượng nhỏ nhất sẽ được chọn. Hệ số phẳng là hệ số điều khiển độ nhạy của mạng Neural Networks xác suất (nghĩa là độ lệch của hàm Gaussian trong neuron radial). Giống như mạng RBF, hệ số này được chọn sao cho có độ phủ hợp lý – độ lệch quá nhỏ gây ra phép ước lượng rất nhọn không thể tổng quát hóa, độ lệch quá lớn sẽ làm bằng các chi tiết. Ưu điểm lớn nhất của PNN là tính thống kê và tốc độ huấn luyện. Huấn luyện một PNN thực sự chỉ sao chép các mẫu huấn luyện vào mạng, và vì thế huấn luyện gần như ngay tức thời. Khuyết điểm lớn nhất của mạng là kích thước : mạng PNN chứa tất cả tập huấn luyện, và do đó tốn nhiều không gian và chạy chậm. mẫu huấn luyện, nhưng số neuron của mạng vẫn lớn).
Rừ ràng bất cứ nỗ lực nào để biểu diễn không gian N chiều vào không gian hai chiều sẽ làm mất đi tính chất cụ thể, tuy nhiên, kỹ thuật này có thể rất tốt cho phép người sử dụng nhận ra dữ liệu mà các phương pháp khác không thể hiểu được. Vì vậy, bằng cách gán nhãn tất cả neuron và cài đặt ngưỡng chấp nhận tương ứng, mạng Kohonen có thể hoạt động như là bộ phát hiện sự thay đổi bất thường (nó sẽ thông báo chưa quyết định nếu mẫu vào không đủ đồng dạng với tất cả các bán kính neuron).
Mỗi lớp trong mạng đảm nhiệm vai trũ khỏc nhau, lớp cho kết quả ở đầu ra của mạng được gọi là lớp ngừ ra _ output layer, tất cả các lớp còn lại được gọi là lớp ẩn _ hidden layers. Kiểu đầu vào xảy ra đồng thời được mô phỏng trong mạng tĩnh (không có hồi tiếp hoặc trễ), thứ tự của các vector đầu vào không quan trọng và chúng không ảnh hưởng lẫn nhau.
Mạng Perceptron gồm cú một lớp đơn cú S neuron perceptron kết nối với R ngừ vào kết hợp với một tập trọng số wi,j (j là ngừ vào thứ j và i là neuron thứ i). Quy luật học tập là một qui trình sửa đổi trọng số và ngưỡng của một mạng (quy trình này cũng có thể hiểu là thuật toán huấn luyện), có hai loại học tập giám sát và không giám sát.
Hay viết ngắn gọn dùng hàm trainwh , hàm này sẽ tính toán cho đến khi tìm được sai số có thể chấp nhận (goal) còn nếu không nó sẽ thực hiện đến giá trị epoch lớn nhất. Ngừ ra của đường trễ kết nối (tapped delay line_TDL) là một vector N chiều, tạo thành từ tín hiệu vào hiện tại và các tín hiệu trước đó.
Loại này có ba kỹ thuật tối ưu hóa số dùng để huấn luyện mạng Neural Networks : conjugate gradient (traincgf, traincgb, traincgp, trainscg), quasi _ Newton (trainbfg, trainoss) và Levenberg _ Marquardt (trainlm). Đõy chớnh là vấn đề được đề cập khi sử dụng giải thuật độ dốc lớn nhất để huấn luyện mạng đa lớp dùng hàm sigmoid, vì gradient có thể có biên độ rất nhỏ, và do đó trọng số và ngưỡng chỉ thay đổi nhỏ, cho dù trọng số và ngưỡng ở rất xa giá trị tối ưu.
Tương tự như newrbe, thông số SPREAD phải đủ lớn để các neuron radbas đáp ứng đủ phủ vựng khụng gian ngừ vào, nhưng nếu quỏ lớn thỡ cỏc neuron đỏp ứng tương tự nhau. Cõu trả lời là với mụ hỡnh mạng feddforward cỏc neuron sigmoid cú ngừ ra đỏp ứng được trờn một khụng gian rộng ngừ vào, cũn mụ hỡnh mạng radial basis thỡ cỏc neuron radbas chỉ cú thể đỏp ứng trờn khụng gian hẹp của ngừ vào.
Các neuron được thêm vào mạng cho đến khi tổng bình phương sai số nhỏ hơn sai số đích hoặc đã đạt được số neuron tối đa. Mạng radial basis, ngay cả khi thiết kế mạng có hiệu quả cao bằng hàm newrbe, cũng có nhiều neuron hơn mạng feed-forward với neuron tansig hoặc logsig trong lớp aồn.
Cuối cựng, hàm truyền cạnh tranh ở ngừ ra của lớp thứ hai lấy thành phần cú xỏc suất lớn nhất, và cho giỏ trị ngừ ra là 1 đối với lớp đú và 0 đối với tất cả cỏc lớp khác. Tuy nhiên do số neuron radial basis tỉ lệ với kớch thước khụng gian ngừ vào và độ phức tạp của vấn đề nờn mạng radial basis lớn hơn mạng backpropagation.
Vỡ thế thậm chớ với hai mạng Elman cú cựng trọng số và ngưỡng, cú ngừ vào giống nhau ở cựng thời điểm, ngừ ra cú thể khỏc nhau do trạng thỏi hồi tiếp khỏc nhau. Hàm train lấy cỏc vector này và trọng số, ngưỡng của mạng, huấn luyện mạng sử dụng phương pháp backpropagation tốc độ học thay đổi có quán tính, và trả về trọng số và ngưỡng mới.
Mạng Elman không tin cậy bằng những mạng khác bởi vì cả hàm train và adapt đều sử dụng hàm gần đúng sai số gradient. Với một tập hợp các điểm cân bằng cho trước (ma trận đích T), hàm newhop trả về trọng số và ngưỡng cho mạng đệ quy.
Hàm truyền cạnh tranh nhận vector ngừ vào mạng cho một lớp và trả ra giỏ trị 0 cho tất cả cỏc neuron ngoại trừ neuron thắng, neuron thắng là neuron cú thành phần ngừ vào mạng n1 dương nhất. Nói cách khác có một vài vector trọng số neuron có thể bắt đầu từ rất xa với bất kì cỏc vector ngừ vào và sẽ khụng bao giờ thắng trong cuộc cạnh tranh cho dự thời gian huấn luyện có lâu đi nữa.
Thứ nhất nếu neuron không bao giờ thắng trong cuộc cạnh tranh vì trọng số của nú rất xa so với cỏc vector ngừ vào, cuối cựng ngưỡng của nú sẽ cú giỏ trị đủ lớn để neuron này có thể thắng. Vỡ thế nếu một vựng của khụng gian ngừ vào cú nhiều neuron đỏp ứng hơn cỏc vựng khác, thì mạng sẽ phân bố lại chia vùng đó thành nhiều vùng con.