2.3.2.1. AdaGrad
Giải thuật AdaGrad tự điều chỉnh tỷ lệ học tập của tất cả các tham số của mô hình bằng cách chia tỷ lệ nghịch với căn bậc hai của tổng của tất cả các giá trị bình phương trong quá khứ của chúng. Các thông số có phần nhỏ nhất dẫn đến sự mất mát có tỷ lệ học giảm nhanh tương ứng, trong khi các tham số với các dẫn xuất một phần nhỏ có tỷ lệ học tập tương đối thấp.
2.3.2.2. RMSPro
Thuật toán RMSProp được phát triển từ thuật toán AdaGrad để thực hiện tốt hơn bằng cách thay đổi tích lũy gradient thành một trung bình di chuyển trọng số theo cấp số nhân. AdaGrad được thiết kế để hội tụ nhanh chóng khi áp dụng cho một chức năng lồi. Khi áp dụng cho một chức năng không lồi để đào tạo một mạng nơron, quỹ đạo học tập có thể đi qua nhiều cấu trúc khác nhau và cuối cùng đến một khu vực mà là một khu vực lồi cục bộ. AdaGrad thu hẹp tỷ lệ học tập theo toàn bộ lịch sử của gradient bình phương và có thể làm cho tỷ lệ học quá nhỏ trước khi đến một cấu trúc lồi như vậy. RMSProp sử dụng một mức trung bình phân hủy theo cấp số nhân để loại bỏ lịch sử khỏi quá khứ quá mức để nó có thể hội tụ nhanh chóng sau khi tìm thấy một khu vực lồi, như thể nó là một ví dụ của thuật toán AdaGrad được khởi tạo trong khu vực đó.
2.3.2.3. Adam
Adam là một giải thuật tối ưu hóa tỷ lệ học tập thích ứng. Tên “Adam” được viết tắt bởi cụm từ “adaptive moments”.
Trong giải thuật Adam, mô-men được kết hợp trực tiếp như là một ước tính của mô-men đầu tiên (với trọng số mũ) của gradient.
Adam bao gồm các sửa đổi bias đối với các ước lượng của cả hai mô-men đầu tiên (thời điểm xung lượng) và những mô-men thứ hai để giải thích cho sự khởi tạo của chúng ở nguồn gốc.
Adam thường được coi là khá mạnh mẽ đối với sự lựa chọn của các siêu tham số, mặc dù tỷ lệ học tập đôi khi cần phải được thay đổi từ đề xuất mặc định.