Huấn luyện mạng nơ ron

Huấn luyện mạng nơ ron có nghĩa là học các mẫu từ dữ liệu. Mục tiêu của huấn luyện là tìm ra được tập trọng số liên kết giữa các nơ ron sao cho hàm lỗi (hàm giá) là nhỏ nhất. Nếu một mô hình không rơi vào trạng thái overfiting thì tập trọng số liên kết có thể cung cấp khả năng tổng quát hóa tốt. Thuật toán lan truyền ngược sai số như đã giới thiệu ở chương 2 là thuật toán phổ biến và hiệu quả nhất để huấn luyện mạng. Tuy nhiên, thuật toán này cũng không đảm bảo có được một cực tiểu toàn cục, thuật toán có thể bị mặc kẹt vào một cực tiểu địa phương nào đó.

Có hai vấn đề mà ta quan tâm khi huấn luyện mạng noron đó là tiêu chuẩn dừng và tốc độ học.

Tiêu chuẩn dừng

Thuật toán lan truyền ngược không thể xác định được là đã hội tụ hay chưa, và như vậy không có một tiêu chuẩn tuyệt đối nào cho việc dừng của thuật toán. Tuy nhiên vẫn có một số tiêu chuẩn có thể coi là chấp nhận được. Dưới đây tôi xin giới thiệu hai tiêu chuẩn dừng [2]:

Tiêu chuẩn thứ nhất dựa vào sự ổn định của hàm giá (được xác định trong công

thức (2.2)) quanh một giá trị nào đó. Chúng ta có tiêu chuẩn hội tụ như sau:

Tỷ lệ lỗi bình phương trung bình được coi là đủ nhỏ nếu nó nằm trong giới hạn từ 0.1 đến 1 phần trăm trong một lần huấn luyện. Nhưng tiêu chuẩn này có hạn chế là có thể dẫn đến sự kết thúc vội vàng của quá trình học.

Tiêu chuẩn thứ hai để xác định điểm dừng cho việc huấn luyện mạng là khi độ lớn

Euclide của vector gradient đạt tới một ngưỡng gradient đủ nhỏ. Tuy nhiên tiêu chuẩn này thời gian học dài và phải tính toán vector gradient.

Ngoài hai tiêu chuẩn đã nêu, còn có phương pháp vừa học vừa kiểm tra tính năng nhận dạng trên một tập dữ liệu mẫu kiểm tra khác với tập hợp tích lũy. Trong trường hợp này, thuật toán được xem là hội tụ khi nó tích lũy đủ lâu và khả năng nhận dạng trên tập kiểm tra đạt tới một giá trị cho phép nào đó.

Tốc độ học

Về mặt lý tưởng, tất cả các neron trong mạng nên học với cùng một tốc độ. Mức cuối cùng của mạng thường có gradient cục bộ lớn hơn các mức ở phía trước. Như vậy tốc độ học nên được gán một giá trị nhỏ hơn. Các noron nhiều đầu vào nên có một tham số tốc độ học nhỏ hơn để giữ một thời gian học tương tự nhau cho tất cả các noron trong mạng.

Tốc độ học nhận giá trị trong khoảng [0, 1]. Trong suốt quá trình huấn luyện, tốc độ học quá cao làm cho các trọng số liên kết thay đổi lớn dẫn đến mạng không ổn định. Ngược lại tốc độ học quá thấp thì sự thay đổi trọng số liên kết chậm, quỹ đạo không gian trọng số càng trơn. Tuy nhiên điều này lại làm cho việc học bị chậm lại

Hầu hết các chương trình mô hình mạng đều để mặc định giá trị tốc độ học. Tốc độ học khởi tạo có miền ưu tiên khá rộng từ 0.1 đến 0.9. Việc lựa chọn một tốc độ học phù hợp cũng sẽ làm tăng khả năng của mạng noron lên khá nhiều.

Thuật toán lan truyền ngược (back – propagation)

Mô hình mạng noron cho việc dự báo