Huấn luyện mạng nơ ron

Huấn luyện mạng nơ ron cĩ nghĩa là học các mẫu từ dữ liệu. Mục tiêu của huấn luyện là tìm ra được tập trọng sốliên kết giữa các nơ ron sao cho hàm lỗi (hàm giá) là nhỏ nhất. Nếu một mơ hình khơng rơi vào trạng thái overfiting thì tập trọng số liên kết cĩ thể cung cấp khả năng tổng quát hĩa tốt. Thuật tốn lan truyền ngược sai số như đã giới thiệu ở chương 2 là thuật tốn phổbiến và hiệu quảnhất đểhuấn luyện mạng. Tuy nhiên, thuật tốn này cũng khơng đảm bảo cĩ được một cực tiểu tồn cục, thuật tốn cĩ thểbị mặc kẹt vào một cực tiểu địa phương nào đĩ.

Cĩ hai vấn đề mà ta quan tâm khi huấn luyện mạng noron đĩ là tiêu chuẩn dừng và tốc độhọc.

Tiêu chuẩn dừng

Thuật tốn lan truyền ngược khơng thể xác định được là đã hội tụ hay chưa, và như vậy khơng cĩ một tiêu chuẩn tuyệt đối nào cho việc dừng của thuật tốn. Tuy nhiên vẫn cĩ một số tiêu chuẩn cĩ thể coi là chấp nhận được. Dưới đây tơi xin giới thiệu hai tiêu chuẩn dừng [2]:

Tiêu chuẩn thứnhất dựa vào sự ổn định của hàm giá (được xác định trong cơng thức (2.2)) quanh một giá trị nào đĩ. Chúng ta cĩ tiêu chuẩn hội tụ như sau:

Mạng noron được xem là hội tụkhi tỷlệlỗi tuyệt đối của lỗi bình phương trung bình

1. Cho chuỗi Rh(1),Rh(2), . . . ,Rh(n), thời gian t

và kích thước cửa sổ w

2. Xây dựng mơ hình với tập dữ liệu huấn luyện Rh(t−w−1), . . . ,Rh(t−1)

3. LẶP

a. Dự đốn giá trị cho Rh(t) b. Ghi lại tỉ lệ lỗi dự đốn

c. Thêm Rh(t) vào tập huấn luyện và xĩa Rh(t−w−1) ra khỏi tập huấn luyện

d. Xây dựng mơ hình mới với tập huấn luyện mới e. Đặt t = t + 1

Tỷ lệ lỗi bình phương trung bình được coi là đủ nhỏ nếu nĩ nằm trong giới hạn từ 0.1 đến 1 phần trăm trong một lần huấn luyện. Nhưng tiêu chuẩn này cĩ hạn chếlà cĩ thể dẫn đến sựkết thúc vội vàng của quá trình học.

Tiêu chuẩn thứ hai để xác định điểm dừng cho việc huấn luyện mạng là khi độ lớn Euclide của vector gradient đạt tới một ngưỡng gradient đủ nhỏ. Tuy nhiên tiêu chuẩn này thời gian học dài và phải tính tốn vector gradient.

Ngồi hai tiêu chuẩn đã nêu, cịn cĩ phương pháp vừa học vừa kiểm tra tính năng nhận dạng trên một tập dữliệu mẫu kiểm tra khác với tập hợp tích lũy. Trong trường hợp này, thuật tốn được xem là hội tụ khi nĩ tích lũy đủ lâu và khả năng nhận dạng trên tập kiểm tra đạt tới một giá trị cho phép nào đĩ.

Tốc độhọc

Về mặt lý tưởng, tất cả các neron trong mạng nên học với cùng một tốc độ. Mức cuối cùng của mạng thường cĩ gradient cục bộ lớn hơn các mức ở phía trước. Như vậy tốc độ học nên được gán một giá trị nhỏ hơn. Các noron nhiều đầu vào nên cĩ một tham sốtốc độhọc nhỏ hơn để giữ một thời gian học tương tự nhau cho tất cảcác noron trong mạng.

Tốc độ học nhận giá trị trong khoảng [0, 1]. Trong suốt quá trình huấn luyện, tốc độ học quá cao làm cho các trọng số liên kết thay đổi lớn dẫn đến mạng khơng ổn định. Ngược lại tốc độ học quá thấp thì sự thay đổi trọng sốliên kết chậm, quỹ đạo khơng gian trọng số càng trơn. Tuy nhiên điều này lại làm cho việc học bịchậm lại

Hầu hết các chương trình mơ hình mạng đều để mặc định giá trị tốc độhọc. Tốc độ học khởi tạo cĩ miền ưu tiên khá rộng từ 0.1 đến 0.9. Việc lựa chọn một tốc độ học phù hợp cũng sẽ làm tăng khả năng của mạng noron lên khá nhiều.

Thuật tốn lan truyền ngược (back – propagation)

Mơ hình mạng noron cho việc dự báo