2.3.2. Hàm kết hợp
Hàm kết hợp (combination function) là hàm thực hiện việc kết hợp các giá trị đầu vào thông qua các liên kết với các đơn vị khác và được xác định bằng một luật lan truyền cụ thể [7].
2.3.3. Hàm kích hoạt
Đa số các đơn vị trong mạng nơ ron chuyển dữ liệu đầu vào bằng cách sử dụng một hàm vô hướng (scalar-to-scalar function) gọi là hàm kích hoạt, kết quả của hàm này là một giá trị gọi là mức độ kích hoạt của đơn vị (unit's activation). Giá trị kích hoạt được đưa vào một hay nhiều đơn vị khác để loại trừ khả năng đơn vị đó thuộc lớp đầu ra. Các hàm kích hoạt thường bị khống chế vào một khoảng giá trị xác định, do vậy các hàm đó thường được gọi là các hàm bẹp (squashing). Người ta thường sử dụng các hàm kích hoạt như:
Hàm đồng nhất (Linear function, Identity function): là hàm mà các đầu vào là một đơn vị. Ngoài ra một hằng số được nhân với net-input cũng có thể tạo ra một hàm đồng nhất.
Hàm bước nhị phân (Binary step function, Hard limit function): thường được sử dụng trong các mạng chỉ có một lớp. Ngoài ra nó cũng có tên gọi khác là "Hàm ngưỡng" (Threshold function hay Heaviside function).
Hàm sigmoid (Sigmoid function (logsig)): Hàm này hữu ích cho các mạng được huấn luyện bởi sử dụng thuật toán Lan truyền ngược (back-propagation), nguyên nhân là do nó có thể lấy đạo hàm một cách dễ dàng, cho nên trong quá trình huấn luyện sẽ giảm đáng kể việc tính toán.
Hàm sigmoid lưỡng cực (Bipolar sigmoid function (tansig)): Các thuộc tính của hàm này tương tự hàm sigmoid. Các ứng dụng có đầu ra nằm trong trong khoảng [-1,1] hoạt động tốt đối với hàm sigmoid lưỡng cực [7].
Khả năng biểu diễn các hàm phi tuyến giúp cho các mạng nhiều tầng có khả năng hoạt động tốt trong các ánh xạ phi tuyến. Đối với luật học lan truyền ngược, hàm phải khả vi (differentiable) và sẽ cho kết quả tối ưu nếu như hàm được gắn trong một khoảng nào đó. Do vậy, hàm sigmoid là hàm thông dụng nhất.
2.4. Mạng truyền thẳng nhiều lớp và thuật toán lan truyền ngược
2.4.1.Mạng truyền thẳng nhiều lớp 2.4.1.1. Kiến trúc mạng 2.4.1.1. Kiến trúc mạng
Một mạng truyền thẳng nhiều lớp sẽ bao gồm một lớp vào (Input Layer), một lớp ra (Output Layer) và một hoặc nhiều lớp ẩn (Hidden Layers). Các lớp đầu vào nhận tín hiệu vào và cung cấp cho các nơron trong lớp ẩn. Các nơ ron đầu vào sẽ không thực hiện chức năng phân tích, thống kê. Các nơron lớp ẩn sẽ tìm ra các tính năng của các nơ ron đại diện cho các tính năng ẩn của lớp đầu vào. Những tính năng này sẽ được phân tích và sử dụng bởi các lớp đầu ra để xác định mô hình đầu ra [7], [20].
Trong mạng nơ ron truyền thẳng các giá trị đầu vào x được truyền thông qua trọng số kết nối tới các nơ ron lớp ẩn sau đó đưa tới lớp ra. Trọng số kết nối từ phần tử vào thứ i tới nơ ron ẩn thứ j được ký hiệu là wij, trọng số kết nối từ nơ ron ẩn thứ j
Hình 2.4. Mạng truyền thẳng nhiều lớp Với nơ ron ẩn thứ j: