Perceptron
Một perceptron là một mạng ANN chỉ bao gồm một phần tử tính toán và sử dụng hàm kích hoạt là dạng hàm bước nhị phân (hard-limit, threshold) chỉ nhận các giá trị 0 hoặc 1 (Hình 51). Với cấu trúc như vậy, perceptron cho phép phân loại các tín hiệu đầu vào thành hai loại. Khi giá
trị tính toán sau bộ cộng (n) nhỏ hơn 0, hàm kích hoạt sẽ cho giá trị 0. Trường hợp ngược lại, hàm kích hoạt sẽ cho giá trị 1 khi giá trị tính toán lớn hơn hoặc bằng 0.
Hình 51: Mô hình perceptron
Như vậy, một perceptron với hàm hard-limit sẽ chia không gian dữ liệu đầu vào thành hai vùng tách biệt tuyến tính. Như vậy, perceptron có thể sử dụng cho bài toán phân loại với điều kiện dữ liệu được phân tách tuyến tính (linear separable). Việc thêm tín hiệu độ lệch b là để đảm bảo đường phân chia không nhất thiết đi qua trục tọa độ (Hình 52). Trong trường hợp dữ liệu không chia tách tuyến tính, sẽ cần sử dụng cấu trúc mạng khác.
Hình 52: Dữ liệu phân tách tuyến tính và không tuyến tính
Trong trường hợp có nhiều hơn hai nhóm, cần sử dụng cấu trúc với nhiều perceptron như ở Hình 53.
By Assoc. Prof. PhD. Le Van Diem – Faculty of Marine Engineering VIETNAM MARITIME UNIVERSITY
Hình 53: Mạng với nhiều perceptrons
Mạng nơ ron tuyến tính
Nếu trong các mô hình ở Hình 51 và 53, hàm kích hoạt nhị phân được thay bằng hàm tuyến tính, mạng perceptrons khi đó sẽ trở thành mạng tuyến tính (Hình 54).
Hình 54: Mạng nơ ron tuyến tính
Tương tư như perceptron, mạng nơ ron tuyến tính cho phép chia không gian dữ liệu thành các vùng bằng các mặt (hyperlane) tuyến tính. Chỉ khác là giá trị output của nơ ron có thể là bất kỳ. Như vậy, mạng nơ ron tuyến tính có thể sử dụng cho bài toán xấp xỉ hàm tuyến tính. Cũng
tương tự như perceptron, mạng nơ ron tuyến tính chỉ cho kết quả hội tụ nếu không gian dữ liệu là tuyến tính.
Multi-layer feed forward và thuật toán Back- Propagation
Những bài toán đa tham số (nhiều thông số đầu vào), đa mục tiêu (nhiều giá trị đầu ra) và phi tuyến (quan hệ giữa inputs/outputs là không tuyến tính) có thể được giải bằng mô hình mạng ANN truyền thẳng nhiều lớp như ở Hình 55.
Cấu trúc mạng truyền thẳng nhiều lớp thường sử dụng hàm kích hoạt là dạng phi tuyến như tan-sigmoid hay log-sigmoid. Ưu điểm của cấu trúc mạng này là chúng có thể học từ các dữ liệu phi tuyến. Trong trường hợp nếu cần các giá trị output ngoài khoảng quy định bởi các hàm tan- sigmoid và log-sigmoid, có thể sử dụng hàm kích hoạt tuyến tính ở lớp nơ ron đầu ra.
Giải thuật Back – Propagation
Mạng nơ ron truyền thẳng nhiều lớp thường được huấn luyện bằng thuật toán lan truyền ngược lỗi. Trong quá trình học, giá trị đầu vào được đưa vào mạng và theo dòng chảy trong mạng, giá trị đầu ra được tính toán.
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng với giá trị ra mong muốn. Nếu hai giá trị này giống nhau hoặc sai số nhỏ hơn giá trị quy định thì không thay đổi gì cả và quá trình huấn luyện mạng kết thúc. Tuy nhiên, nếu có một sai lệch giữa hai giá trị này vượt quá giá trị sai số mong muốn thì đi ngược mạng từ đầu ra về đầu vào để thay đổi giá trị các hệ số trọng của các liên kết.
Hình 55: Mạng truyền thẳng nhiều lớp
Đây là một quá trình lặp liên tục và có thể không dừng khi không tìm các giá trị w sao cho đầu ra tạo bởi mạng bằng đúng đầu ra mong muốn. Do đó trong thực tế người ta phải thiết lập tiêu chuẩn dựa trên một giá trị sai số nào đó của hai giá trị này, hay dựa trên một số lần lặp xác định. Hình 56 mô tả thuật toán huấn luyện mạng theo giải thuật lan truyền ngược.
By Assoc. Prof. PhD. Le Van Diem – Faculty of Marine Engineering VIETNAM MARITIME UNIVERSITY
Hình 56: Huấn luyện mạng bằng thuật toán lan truyền ngược
Như vậy tuỳ theo hàm hoạt động ta có thể tính dễ dàng tính toán các giá trị điều chỉnh trọng số cho từng trọng số tương ứng theo thuật toán Back – Propagation.