Tính hội tụ

Chúng ta biết rằng tốc độ học cực đại mà có thể ổn định đối với thuật toán giảm dốc nhất thì đƣợc chia hai bởi giá trị riêng cực đại của ma trận Hessian, đối với hàm mục tiêu dạng toàn phƣơng. Tuy nhiên, mặt sai số cho mạng nhiều lớp thì không là hàm toàn phƣơng. Hình dạng của mặt sai số có thể là rất khác nhau trong các vùng khác nhau của không gian tham số. Với các hàm khe thì độ cong sẽ rất khác nhau theo các hƣớng khác nhau, do đó việc xác định bƣớc học là không thuận lợi.

Chúng ta vừa nghiên cứu về mặt chất lƣợng, cụ thể là nghiên cứu về mặt chất lƣợng có dạng lòng khe. Nguyên nhân của việc hội tụ chậm là việc thay đổi độ dốc của mặt trên đƣờng đi của quỹ đạo. Hai bên khe rãnh rất dốc tuy nhiên đáy của nó thì lại hầu nhƣ bằng phẳng, quĩ đạo sẽ vƣợt qua mặt lỗi rất nhanh cho đến khi nó rơi vào thung lũng có độ nghiêng thoai thoải và mất rất nhiều thời gian bên khe rãnh để rồi tiến chậm chạp đến điểm cực tiểu đôi khi đến mất ổn định khi rơi vào thung lũng, hình

vẽ 2.2 mô tả một quỹ đạo dao động với mặt sai số dạng lòng khe. Một phƣơng pháp có

thể giúp ta vấn đề này là dùng qui tắc mô-men. Tức là khi quĩ đạo nhảy qua nhảy lại trên khe rãnh, biến thiên trọng số sẽ đổi dấu liên tục và nhƣ vậy sẽ cho ta số trung bình cho một thay đổi nhỏ chính xác, nhƣ vậy mạng có thể ổn định ở đáy khe rãnh. ở đó nó bắt đầu di chuyển chậm dần theo quán tính. Tuy nhiên, đối với những bài toán mà trọng số tối ƣu nằm ở đáy bề lõm, thì mô-men cũng chẳng giúp đƣợc gì mà đôi khi còn gây ra nguy hiểm nếu mô-men lại đẩy quĩ đạo lên cùng một khoảng cách ở phía bên kia của khe rồi cứ xoay vòng tạo thành dao động. Đó cũng chính là cái lợi và hại của việc dùng mô-men cho dạng bài toán với mặt lỗi lòng khe. Một phƣơng pháp khác là sử dụng tốc độ học thích nghi VLBP (Variable Learning rate Back Propagation algorithm). Chúng ta có thể nâng cao sự hội tụ nếu chúng ta tăng tốc độ học trên vùng phẳng của mặt lỗi và rồi thì giảm tốc độ học khi mà độ cong của mặt lỗi tăng. Nghĩa

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

là, chúng ta có thể nâng cao sự hội tụ bằng việc điều chỉnh tốc độ học trong quá trình huấn luyện, vấn đề của chúng ta sẽ là, xác định khi nào thay đổi tốc độ học và bằng bao nhiêu, hay nói cách khác, chúng ta cần biết chúng ta đang ở đâu trên mặt sai số. Có nhiều giải pháp khác nhau cho việc thay đổi tốc độ học.

Tuy nhiên điều trở ngại chính với các phƣơng pháp VLBP là các điều chỉnh có thể cần 5 hoặc 6 tham số đƣợc lựa chọn trƣớc. Thông thƣờng thì vấn đề thực hiện của thuật toán là nhạy cảm với sự thay đổi trong các tham số đó. Sự lựa chọn của các tham số thì cũng phụ thuộc bài toán.

Tính bƣớc học theo nguyên lý vƣợt khe là một phƣơng pháp tỏ ra rất mạnh mẽ để giải quyết bài toán tối ƣu đặc biệt là các bài toán với mặt chất lƣợng dạng lòng khe, trục khe.

Hình 2.2: Quỹ đạo dao động với sai số dạng lòng khe

Tuy nhiên, trƣớc khi đến với thuật toán vƣợt khe thì chúng ta hãy tìm hiểu về vấn đề điều kiện tối ƣu, bởi vì nó ảnh hƣởng đễn những suy nghĩ của chúng ta trong những xuất phát điểm của bất kỳ một thuật toán tối ƣu nào.

Thuật toán vƣợt khe

Mô hình mạng nơ-ron của bộ điều khiển