MỘT SỐ THUẬT TOÁN TỐI ƯU THÔNG DỤNG TRONG HỌC MÁY

Một phần của tài liệu ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO TÀI CHÍNH (Trang 23 - 29)

CHƯƠNG 1: GIỚI THIỆU VỀ HỌC MÁY VÀ CÁC MÔ HÌNH HỌC MÁY

1.6. MỘT SỐ THUẬT TOÁN TỐI ƯU THÔNG DỤNG TRONG HỌC MÁY

Định nghĩa: hàm f : n → được gọi là hàm lồi nếu với x x1, 2 n và [0,1]

  thì:

1 2 1 2

( (1 ) ) ( ) (1 ) ( )

fx + −  x   f x + − f x

Hình 0.1. Minh họa hàm lồi

Nguồn: [1]

1.6.2. Hàm lõm:

Hàm f được gọi là hàm lõm nếu −f là hàm lồi.

Hình 0.2. Minh họa hàm lõm

Nguồn: [1]

Lý do cho sự quan trọng của hàm lồi hay hàm lõm là nếu ( )f x là một hàm lồi hoặc hàm lõm thì các thuật toán sẽ đảm bảo tìm được điểm tối ưu toàn cục. Ngoài ra trong bài toán đối ngẫu thì ta có khi giải một bài toán tối ưu cho hàm lồi thỏa mãn tiêu chuẩn Slater thì đối ngẫu mạnh xảy ra và khi đó nghiệm của bài toán chính là nghiệm của hệ điều kiện Karush-Kuhn-Tucker (KKT) là một cách giải thông dụng trong các bài toán tối ưu có ràng buộc.

1.6.3. Thuật toán giảm Gradient (Gradient Descent)

Trong Học máy nói riêng và Tối ưu hóa toán học nói chung, ta thường xuyên phải tìm giá trị nhỏ nhất hoặc lớn nhất của một hàm số nào đó. Như trong luận văn này sẽ là tìm giá trị nhỏ nhất của hàm tổn thất. Việc tìm điểm tối ưu toàn cục cho hàm tổn thất trong học máy là rất phức tạp, thậm chí là có thể không tìm được. Thay vào đó người ta cố gắng tìm các điểm cực trị địa phương và có thể chấp nhận đó là nghiệm của bài toán ở mức độ chấp nhận nào đó.

Các điểm cực trị địa phương là nghiệm của phương trình đạo hàm bằng không.

Tuy nhiên trong hầu hết các bài toán Học máy việc giải những phương trình đạo hàm riêng này là rất khó khăn do sự phức tạp của đạo hàm, do số chiều lớn của các điểm dữ liệu hay do việc tập dữ liệu có quá nhiều điểm dữ liệu. Và thuật toán giảm Gradient được phát triển để có thể giải quyết tình huống này.

Thuật toán giảm Gradient là một thuật toán tối ưu lặp được sử dụng phổ biến trong các bài toán Học máy. Gradient của một hàm số là đạo hàm của hàm số đó tương ứng với mỗi biến của hàm số. Descent là từ viết tắt của descending nghĩa là giảm dần. Thuật toán được hiểu là với vị trí ban đầu bất kì, khi ta đi ngược hướng đạo hàm thì ta sẽ tìm được điểm cực trị.

Hình 0.3. Minh họa thuật toán giảm gradient

Nguồn: [1]

Giả sử ta cần tìm điểm cực tiểu toàn cục cho một hàm số f( ) với  là tập các tham số cần tối ưu của mô hình. Ký hiệu  f( ) là đạo hàm (hay Gradient) của hàm số đó tại điểm  bất kì. Thuật toán sử dụng quy tắc cập nhật tham số:

1 ( )

t tf t

+ = −   Trong đó  : là tốc độ học

Dấu trừ thể hiện việc  cần đi ngược hướng với đạo hàm để có thể về được vị trí là điểm tối ưu

1.6.4. Thuật toán Newton-Raphson

Thuật toán Newton-Raphson là một phương pháp hay dùng khác để cực tiểu hóa hàm tổn thất

Cơ sở của phương pháp này là giả sử ta có một hàm số khả vi :f → và ta cần tìm  sao cho ( )f  =0

Phương pháp Newton tìm nghiệm của hàm ( ) 0f  =

Hình 0.4. Minh họa thuật toán Newton-Raphson

Nguồn: [1]

Ta có:

( ) (n)

( ) ( 1)

( ) 0

( )

n

n n

ff f

   +

 −

= =

 −

Suy ra:

(n)

( 1) ( )

(n)

( )

( )

n n

f f

 

+ = −

Khi đó phương pháp Newton cập nhật  theo công thức:

: ( )

( ) f f

  

= − 

Áp dụng vào bài toán tìm tham số tối ưu của các mô hình học máy Mục tiêu là cực tiểu hóa hàm tổn thất ( )J  nghĩa là cần tìm  sao cho '( ) 0

J  =

Như vậy nếu J là hàm khả vi cấp hai thì ta có thể sử dụng phương pháp Newton để tìm  theo công thức sau:

'( )

"( ) J J

  

= −  Trong không gian nhiều chiều, phương pháp Newton có công thức tổngquát như sau:

: H 1( J( ))

 =  − −  

Trong đó H là ký hiệu của ma trận Hessian là ma trận đạo hàm cấp 2 của ( )

J  được xác định bởi:

2 ( )

ij

i j

H J

 

= 

  với i j, =0,1, 2,...,D

Đối với các bài toán có hàm ( )f x không phải hàm lồi hay hàm lõm là đối ngược của hàm lồi và có nhiều điểm tối ưu cục bộ như hình vẽ bên dưới

Hình 0.5. Thuật toán giảm gradient với hàm không lồi

Nguồn: [1]

Ta vẫn có thể sử dụng phương pháp giảm gradient bằng cách xuất phát từ rất nhiều điểm khác nhau để đảm bảo bài toán vẫn có thể tìm được điểm tối ưu toàn cục.

Một phần của tài liệu ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO TÀI CHÍNH (Trang 23 - 29)

Tải bản đầy đủ (PDF)

(93 trang)