Huấn luyện mạng nơ ron

Huấn luyện mạng nơ ron có nghĩa là học các mẫu từ dữ liệu. Mục tiêu của huấn luyện là tìm ra được tập trọng sốliên kết giữa các nơ ron sao cho hàm lỗi (hàm giá) là nhỏ nhất. Nếu một mô hình không rơi vào trạng thái overfiting thì tập trọng số liên kết có thể cung cấp khả năng tổng quát hóa tốt. Thuật toán lan truyền ngược sai số như đã giới thiệu ở chương 2 là thuật toán phổbiến và hiệu quảnhất đểhuấn luyện mạng. Tuy nhiên, thuật toán này cũng không đảm bảo có được một cực tiểu toàn cục, thuật toán có thểbị mặc kẹt vào một cực tiểu địa phương nào đó.

Có hai vấn đề mà ta quan tâm khi huấn luyện mạng noron đó là tiêu chuẩn dừng và tốc độhọc.

Tiêu chuẩn dừng

Thuật toán lan truyền ngược không thể xác định được là đã hội tụ hay chưa, và như vậy không có một tiêu chuẩn tuyệt đối nào cho việc dừng của thuật toán. Tuy nhiên vẫn có một số tiêu chuẩn có thể coi là chấp nhận được. Dưới đây tôi xin giới thiệu hai tiêu chuẩn dừng [2]:

Tiêu chuẩn thứnhất dựa vào sự ổn định của hàm giá (được xác định trong công thức (2.2)) quanh một giá trị nào đó. Chúng ta có tiêu chuẩn hội tụ như sau:

Mạng noron được xem là hội tụkhi tỷlệlỗi tuyệt đối của lỗi bình phương trung bình

1. Cho chuỗi Rh(1),Rh(2), . . . ,Rh(n), thời gian t

và kích thước cửa sổ w

2. Xây dựng mô hình với tập dữ liệu huấn luyện Rh(t−w−1), . . . ,Rh(t−1)

3. LẶP

a. Dự đoán giá trị cho Rh(t) b. Ghi lại tỉ lệ lỗi dự đoán

c. Thêm Rh(t) vào tập huấn luyện và xóa Rh(t−w−1) ra khỏi tập huấn luyện

d. Xây dựng mô hình mới với tập huấn luyện mới e. Đặt t = t + 1

Tỷ lệ lỗi bình phương trung bình được coi là đủ nhỏ nếu nó nằm trong giới hạn từ 0.1 đến 1 phần trăm trong một lần huấn luyện. Nhưng tiêu chuẩn này có hạn chếlà có thể dẫn đến sựkết thúc vội vàng của quá trình học.

Tiêu chuẩn thứ hai để xác định điểm dừng cho việc huấn luyện mạng là khi độ lớn Euclide của vector gradient đạt tới một ngưỡng gradient đủ nhỏ. Tuy nhiên tiêu chuẩn này thời gian học dài và phải tính toán vector gradient.

Ngoài hai tiêu chuẩn đã nêu, còn có phương pháp vừa học vừa kiểm tra tính năng nhận dạng trên một tập dữliệu mẫu kiểm tra khác với tập hợp tích lũy. Trong trường hợp này, thuật toán được xem là hội tụ khi nó tích lũy đủ lâu và khả năng nhận dạng trên tập kiểm tra đạt tới một giá trị cho phép nào đó.

Tốc độhọc

Về mặt lý tưởng, tất cả các neron trong mạng nên học với cùng một tốc độ. Mức cuối cùng của mạng thường có gradient cục bộ lớn hơn các mức ở phía trước. Như vậy tốc độ học nên được gán một giá trị nhỏ hơn. Các noron nhiều đầu vào nên có một tham sốtốc độhọc nhỏ hơn để giữ một thời gian học tương tự nhau cho tất cảcác noron trong mạng.

Tốc độ học nhận giá trị trong khoảng [0, 1]. Trong suốt quá trình huấn luyện, tốc độ học quá cao làm cho các trọng số liên kết thay đổi lớn dẫn đến mạng không ổn định. Ngược lại tốc độ học quá thấp thì sự thay đổi trọng sốliên kết chậm, quỹ đạo không gian trọng số càng trơn. Tuy nhiên điều này lại làm cho việc học bịchậm lại

Hầu hết các chương trình mô hình mạng đều để mặc định giá trị tốc độhọc. Tốc độ học khởi tạo có miền ưu tiên khá rộng từ 0.1 đến 0.9. Việc lựa chọn một tốc độ học phù hợp cũng sẽ làm tăng khả năng của mạng noron lên khá nhiều.

Thuật toán lan truyền ngược (back – propagation)

Mô hình mạng noron cho việc dự báo