Thuật toán tối ưu hàm mất mát (Loss Function Optimization Algorithms)

Một phần của tài liệu ỨNG DỤNG CÔNG NGHỆ học sâu để PHÂN LOẠI và KIỂM TRA CHẤT LƯỢNG THUỐC CHỮA BỆNH (Trang 75 - 78)

Mặc dù sử dụng công thức chuẩn để tìm tham số là có thể thực hiện được, nhưng với tập dữ liệu lớn nhiều chiều trong thực tế thì với máy tính lại không thể thực hiện được do các ràng buộc của bộ nhớ cũng như khả năng tính toán. Chưa kể với nhiều bài toán việc giải được đạo hàm để tìm ra công thức chuẩn là rất khó khăn. Nên trong thực tế giải thuật thay thế là Gradient Descent thường được sử dụng.

Trong Machine Learning nói riêng và Toán tối ưu nói chung, chúng ta thường xuyên phải tìm giá trị nhỏ nhất (hoặc đôi khi là lớn nhất) của một hàm số nào đó. Ví dụ như các hàm mất mát trong hai bài Linear Regression và K-means Clustering. Nhìn chung, việc tìm cực tiểu toàn cục (global minimum) của các hàm mất mát trong Machine Learning là rất phức tạp, thậm chí là bất khả thi. Thay vào đó, người ta thường cố gắng tìm các điểm cực tiểu địa phương (local minimum), và ở một mức độ nào đó, coi đó là nghiệm cần tìm của bài toán.

Vì kiến thức về Gradient Descent khá rộng nên nhóm xin phép được giới thiệu khái quát ý tưởng phía sau thuật toán Gradient Descent. Giả sử chúng ta lấy ví dụ về Gradient Descent cho hàm một

biến f (x) 1 (x 1)2 2 2

Hình 4. 7. Khảo sát hàm f(x)

Điểm màu xanh lục là điểm cực tiểu địa phương (Local minimum), và cũng là điểm làm cho hàm số đạt giá trị nhỏ nhất. Điểm cực tiểu toàn cục (Global

minimum) để thay cho điểm mà tại đó hàm số đạt giá trị nhỏ nhất. Dễ thấy, cực tiểu

toàn cục là một trường hợp đặc biệt của cực tiểu địa phương.

Trong hình phía trên, các điểm bên trái của điểm cực tiểu địa phương màu xanh lục có đạo hàm âm, các điểm bên phải có đạo hàm dương. Và đối với hàm số này, càng xa về phía trái của điểm cực tiểu địa phương thì đạo hàm càng âm, càng xa về phía phải thì đạo hàm càng dương.

Giả sử xt

là điểm ta tìm được sau vòng lặp thứ t. Ta cần tìm một thuật toán để đưa xt về càng gần x * càng tốt. Trong Hình 4.13, ta quan sát thấy:

o Nếu đạo hàm của hàm số tại x

t : f '(xt )  0 thì xt nằm về phía bên phải so với x * (và ngược lại). Để điểm tiếp theo x

t

1

gần với x * hơn thì chúng ta cần di chuyển xt về phía bên trái, tức là về phía âm. Nói cách khác, chúng ta cần di chuyển ngược dấu với đạo hàm.

xt 1 xt  ,

Trong đó  - là đại lượng ngược dấu với đạo hàm f '(x)

o xt càng xa x * về phía bên phải thì

f '(x) càng lớn hơn 0 (và ngược lại). Vậy lượng di chuyển  , một cách trực quan nhất là tỷ lệ thuận với

f '(x)

xt1 xt f '(xt )

Trong đó  (đọc là eta) là một số dương được gọi là learning rate (tốc độ học). Dấu trừ thể hiện việc chúng ta phải đi ngược với đạo hàm (Đây cũng chính là lý do phương pháp này được gọi là Gradient Descent - descent nghĩa là đi ngược). Các quan sát đơn giản phía trên, mặc dù không phải đúng cho tất cả các bài toán, là nền tảng cho rất nhiều phương pháp tối ưu nói chung và thuật toán Machine Learning nói riêng.

Việc lựa chọn learning rate rất quan trọng trong các bài toán thực tế. Việc lựa chọn giá trị này phụ thuộc nhiều vào từng bài toán và phải làm một vài thí nghiệm để chọn ra giá trị tốt nhất. Ngoài ra, tùy vào một số bài toán, Gradient Descent có thể làm việc hiệu quả hơn bằng cách chọn ra learning rate phù hợp hoặc chọn

learning rate khác nhau ở mỗi vòng lặp.

Một phần của tài liệu ỨNG DỤNG CÔNG NGHỆ học sâu để PHÂN LOẠI và KIỂM TRA CHẤT LƯỢNG THUỐC CHỮA BỆNH (Trang 75 - 78)

Tải bản đầy đủ (DOCX)

(123 trang)
w