Học theo tham số

Phương pháp học tham số (Parameter Learning) nhằm tìm kiếm ma trận trọng số tối ưu để mạng cho ra các giá trị đầu ra sát với giá trị đầu ra mục tiêu. Tức là, tìm ma trận trọng số tối ưu để tối thiểu hóa sai số giữa giá trị đầu ra tính toán với giá trị đầu ra mục tiêu. Dạng tổng quát của phương pháp học tham số được mô tả như sau:

Trong đó:

Δwji: thể hiện sự thay đổi của trọng số kết nối từ nơ-ron i đến nơ-ron j Xi: tín hiệu vào được xem như là nơ-ron i

: tỷ lệ học (Learning rate), được giới hạn trong khoảng (0;1) r: tín hiệu học

n: số nơ-ron đầu vào m: số nơ-ron đầu ra

Tín hiệu học r được xác định để điều chỉnh trọng số của mạng. Phương pháp học tham số có thể chia thành 2 loại chính: học có giám sát (Supervised learning) và học không có giám sát (Unsupervised learning). Do đó, việc xác định r phụ thuộc vào từng loại học.

Học có giám sát

Mạng được huấn luyện trên một tập dữ liệu huấn luyện có dạng: { | [ ]} Trong đó:

X = (X1, X2, …, Xn) là véc-tơ n chiều đặc trưng cho các biến đầu vào của mẫu huấn luyện.

d = (d1, d2, …, dm) là véc-tơ m chiều tương ứng thể hiện cho các biến đầu ra mục tiêu của mạng (Desired Output).

Nhiệm vụ của mạng lúc này là phải thiết lập mối quan hệ giữa các biến đầu vào và các biến đầu ra trên tập huấn luyện sao cho với mỗi véc-tơ đầu vào X thì sai số giữa giá trị đầu ra tính toán của mạng Y và giá trị mục tiêu tương ứng d là nhỏ nhất. Trong trường hợp này, tín hiệu học r chính là sai số giữa Y và d, r = Y - d. Sai số hay tín hiệu học này sẽ được truyền ngược đến đầu vào để điều chỉnh trọng số của mạng. Quá trình này cứ thế tiếp diễn cho đến khi sai số được tối thiểu hóa và kết quả nhận được là ma trận trọng số tối ưu. Nói cách khác, điều chỉnh Δwji sao cho rmin, từ đó thu được ma trận trọng số tối ưu Wji.

Với r = Y - d, (1) trở thành:

̅̅̅̅̅ ̅̅̅̅̅̅

Từ công thức trên, chúng ta thấy rằng việc điều chỉnh trọng số phụ thuộc vào giá trị đầu ra mục tiêu d, nghĩa là giá trị đầu ra mục tiêu d đã được đưa vào mạng để giám sát quá trình huấn luyện của mạng, tức mạng học có giám sát.

Huấn luyện mạng có thể được thực hiện theo 2 cách. Một là, trọng số và sai số được điều chỉnh sau khi mỗi mẫu dữ liệu được đưa vào cho quá trình huấn luyện, gọi là

huấn luyện từng dòng (On-Line Training). Hai là, sau khi tất cả các dữ liệu trong tập huấn luyện được đưa vào mạng thì mạng sẽ thực hiện huấn luyện, điều chỉnh trọng số và sai số, gọi là huấn luyện hàng loạt (Batch Training). Về mặt lý thuyết, hai cách huấn luyện tương đương nhau, nhưng huấn luyện từng dòng đôi khi có ưu điểm hơn huấn luyện hàng hoạt trong một vài trường hợp phức tạp.

Học không có giám sát

Đối với cách học không giám sát, tập dữ liệu huấn luyện có dạng: D = (X1, X2, …, Xn), trong đó (X1, X2, … , Xn) là véc-tơ n chiều đặc trưng cho các biến đầu vào của mẫu huấn luyện. Véc-tơ đầu ra mục tiêu d sẽ không được đưa vào mạng. Không giống như học có giám sát, học không có giám sát không có một tập hợp ban đầu của các nhóm mẫu đã được phân loại về các nhân tố tác động đầu vào mà Mạng thần kinh phải tự triển khai các mẫu riêng cho nó. Nhiệm vụ của mạng là phải tự học, tự nhận ra cấu trúc, đặc trưng nổi bật của các đầu vào hay mạng được huấn luyện. Từ đó, mạng phân chia tập dữ liệu thành các nhóm, mỗi nhóm chứa các đầu vào có đặc trưng giống nhau. Khi mỗi nhóm dữ liệu được nhận ra, chúng có thể được đặt tên, lúc này mạng có thể thực hiện phân loại. Như vậy, đầu ra của mạng là nhóm dữ liệu được đặt tên và là các giá trị rời rạc. Các giá trị đầu ra được huấn luyện nhằm đáp ứng lại các nhóm mẫu của các biến đầu vào và dữ liệu đầu vào của mạng bị nén lại để cho ra đầu ra của mạng là một tập con của tập huấn luyện D. Do đó, dữ liệu đầu ra của toàn mạng trùng với dữ liệu đầu vào của mạng. Như vậy, mạng được huấn luyện không phụ thuộc vào các tín hiệu bên ngoài (đầu ra mục tiêu d), không nhận thông tin phản hồi từ môi trường, tức mạng đã thực hiện một quá trình huấn luyện với việc học không giám sát.

Hình thức đơn giản nhất của phương pháp học không giám sát được thể hiện trong quy tắc học Hebb. Khi nơ-ron i và nơ-ron j được kích hoạt đồng thời, liên kết giữa chúng được tăng cường. Nếu nơ-ron j nhận tín hiệu đầu vào nơ-ron i, thì trọng số kết nối giữa chúng sẽ được điều chỉnh: , trong trường hợp này r = xi.

Mạng thần kinh truyền thẳng đa lớp

Mạng thần kinh nhân tạo hồi tiếp