CHƯƠNG 1 GIỚI THIỆU
1.1. Giới thiệu về Artificial Neural Network
1.1.3. Thuật toán Gradient Descent
Trong toán tối ưu, chúng ta thường xuyên phải tìm các giá trị nhỏ nhất của một hàm số. Việc tìm giá trị nhỏ nhất của hàm số phức tạp là không khả thi, nên ta thường tìm các điểm cực tiểu cục bộ (local minimum), và coi đó là một nghiệm cần tìm của bài toán. Các điểm cực tiểu cục bộ là nghiệm của phương trình đạo hàm bằng không. Tuy nhiên, trong nhiều trường hợp, việc giải phương trình đạo hàm bằng không để tìm nghiệm chính xác cũng là không khả thi, nên cần có hướng giải quyết là tìm nghiệm gần đúng [3].
Hướng tiếp cận phổ biến nhất để giải quyết các bài toán tối ưu là xuất phát từ một điểm được coi là gần với nghiệm của bài toán, sau đó dùng một phép toán lặp để tiến dần đến điểm đạo hàm bằng không [3].
Xét hàm số một biến f : R → R
9
w2
Hình 1.3 Khảo sát sự biến thiên của một đa thức bậc 2 một biến [3]
Trên Hình 1.3 là sự biến thiên của một đa thức bậc 2 một biến. Điểm cực tiểu cục bộ thực sự của
điểm gần với
Gọi xt
số tại xt là dương (
nếu đạo hàm của hàm số tại
x¿ . Để điểm tiếp theo
với đạo hàm như công thức (1.19) [3].
xt+1 =xt −η ∂ f
trong đó, η
đi ngược chiều với đạo hàm. Tốc độ hội tụ của gradient descent phụ thuộc vào điểm xuất phát và tốc độ học. Các quan sát đơn giản phía trên, mặc dù không phải đúng trong tất cả các trường hợp, nhưng là nền tảng cho rất nhiều phương pháp tối ưu [3].
Gradient descent cho hàm nhiều biến cũng tương tự như cho hàm một biến, cũng bắt đầu từ một điểm dự đoán, mỗi vòng lặp ta đi ngược dấu với đạo hàm. Khi tính đạo hàm riêng của hàm số theo một biến thì các biến khác được coi là hằng số.