Trong học máy nói riêng và toán tối ưu nói chung, việc tìm giá trị lớn nhất, nhỏ nhất của một hàm số nào đó là công việc thường xuyên. Trong học máy áp dụng Gradient Descent việc tìm giá trị tối thiểu của hàm mất mát để có thể thu được các thông số tối ưu nhất, nhưng việc xử lý giá trị tối thiểu này của hàm mất mát trong học máy là một việc quá khó khăn đối với hệ thống, gần như là không thể thực hiện được. Chính vì thế, việc tìm các điểm tối thiểu cục bộ được các nhà phát triển ưu tiên triển khai hơn là tìm các điểm toàn cục. Chọn các điểm tối thiểu cục bộ này làm nghiệm của phương trình thay vì chọn các điểm toàn cục. Các điểm tối thiểu cục bộ là nghiệm của phương trình đạo hàm bằng 0, như vậy khi tìm được toàn bộ các điểm cực tiểu, sau đó thay vào hàm số rồi tìm điểm làm cho hàm có giá trị nhỏ nhất.
Hình 2.9: Tìm điểm cực tiểu trên đồ thị
Có thể nhận thấy rằng giải đạo hàm bằng 0 trong mọi trường hợp và gần như không thể thực hiện được, bởi các dạng đạo hàm luôn có độ phức tạp nhất định khi tiến hành giải. Giải đạo hàm bằng 0 sẽ gặp rào cản bởi chiều của dữ liệu lớn, phát sinh nhiều biến dữ liệu bất thường, có quá nhiều điểm dữ liệu được sinh ra, từ đó làm mô hình học máy có quá nhiều biến dữ liệu. Để đơn giản hóa cách tiệp cận, chúng ta sẽ xuất phát từ một điểm mà chúng ta coi là gần với nghiệm của bài toán, để cho đạo hàm gần với 0 ta sẽ thực hiện một phép lặp để tiến dần tới điểm cần tìm. Chính vì vậy, Gradient Descent và các biến thể khác được sử dụng.
30