CHƯƠNG 1 GIỚI THIỆU
1.1. Giới thiệu về Artificial Neural Network
1.1.3. Thuật toán Gradient Descent
Trong tốn tối ưu, chúng ta thường xun phải tìm các giá trị nhỏ nhất của một hàm số. Việc tìm giá trị nhỏ nhất của hàm số phức tạp là khơng khả thi, nên ta thường tìm các điểm cực tiểu cục bộ (local minimum), và coi đó là một nghiệm cần tìm của bài tốn. Các điểm cực tiểu cục bộ là nghiệm của phương trình đạo hàm bằng khơng. Tuy nhiên, trong nhiều trường hợp, việc giải phương trình đạo hàm bằng khơng để tìm nghiệm chính xác cũng là khơng khả thi, nên cần có hướng giải quyết là tìm nghiệm gần đúng [3].
Hướng tiếp cận phổ biến nhất để giải quyết các bài toán tối ưu là xuất phát từ một điểm được coi là gần với nghiệm của bài tốn, sau đó dùng một phép tốn lặp để tiến dần đến điểm đạo hàm bằng khơng [3].
Hình 1.3 Khảo sát sự biến thiên của một đa thức bậc 2 một biến [3]
Trên Hình 1.3 là sự biến thiên của một đa thức bậc 2 một biến. Điểm cực tiểu cục bộ thực sự của f(x) là x¿=−2. Ta dùng thuật toán gradient descent để tìm điểm
gần với x¿ nhất. Từ Hình 1.3 ta có quan sát sau đây.
Gọi xt là một điểm trên đồ thị có được sau t vịng lặp. Nếu đạo hàm của hàm số
tại xt là dương (∂ x∂ f
t > 0) thì xt nằm về bên phải so với x¿ , và ngược lại nếu đạo hàm của hàm số tại xt là âm (∂ x∂ f
t < 0) thì xt nằm bên trái so với x¿. Để điểm tiếp theo xt+1
gần với x¿ hơn, ta cần di chuyển xtngược dấu với đạo hàm như công thức (1.19) [3].
xt+1=xt−η ∂ f
∂ xt, (1.19)
trong đó, η là một số dương gọi là tốc độ học. Dấu trừ thể hiện việc chúng ta phải đi ngược chiều với đạo hàm. Tốc độ hội tụ của gradient descent phụ thuộc vào điểm xuất phát và tốc độ học. Các quan sát đơn giản phía trên, mặc dù khơng phải đúng trong tất cả các trường hợp, nhưng là nền tảng cho rất nhiều phương pháp tối ưu [3].
Gradient descent cho hàm nhiều biến cũng tương tự như cho hàm một biến, cũng bắt đầu từ một điểm dự đốn, mỗi vịng lặp ta đi ngược dấu với đạo hàm. Khi tính đạo hàm riêng của hàm số theo một biến thì các biến khác được coi là hằng số.