Hàm ReLU chỉ giữ lại các phần tử cĩ giá trị dương và loại( bỏ)=tất cả các(, phần0) tử cĩ
giá trị âm. Hàm ReLU được định nghĩa bởi biểu thức: . Đồ thị của hàm ReLU được biểu diễn như Hình 2.21.
Hàm ReLU cĩ một số ưu điểm so với hàm sigmoid và hàm tanh. Về tốc độ, hàm ReLU cĩ tốc độ hội tụ nhanh gấp sáu lần hàm tanh (Krizhevsky et al., 2017) do hàm ReLU khơng bị bão hồ ở hai đầu như hàm sigmoid và hàm tanh. Về tính tốn, hàm
tanh và sigmoid sử dụng hàm lũy thừa, vì vậy cĩ độ phức tạp tính tốn lớn hơn ReLU
rất nhiều, tức là tốn nhiều chi phí hơn để tính tốn. Tuy nhiên, hàm ReLU cũng cĩ nhược điểm là khi các nút cĩ giá trị nhỏ hơn 0, khi qua hàm ReLU sẽ biến thành 0, hiện tượng này gọi ReLU sắp chết (Dying ReLU). Vì vậy, gần đây hàm Leaky ReLU ra đời nhằm khắc phục nhược điểm này bằng cách xét một độ dốc nhỏ cho các giá trị âm thay vì gán giá trị là 0 (Versloot, 2019).
Hàm Softmax: Trong bài tốn phân loại nhiều lớp với K lớp cụ thể, hàm Softmax
(Goodfell ow et al., 2016) được dùng để tính phân bố xác suất của dữ= liệu đầu và o trên
∑
mỗi lớp cho trước. Hàm Softmax được định nghĩa bởi biểu thức: =1
Hàm này làm nhiệm vụ chuyển đổi một véc-tơ K chiều với giá trị thực bất kỳ thành một véc-tơ cùng số chiều K mang giá trị trong miền (0,1). Trong hàm Softmax, mỗi giá trị
aj là xác suất của dữ liệu đầu vào thuộc lớp j tương ứng và cĩ tổng các giá trị aj bằng 1.Giả sử ta cĩ các số -4, -2, 0, 2 và 4 thì mẫu số biểu thức trên được tính như sau: mẫu số = e-4 + e-2 + e0 + e2 + e4 = 63,141. Sau đĩ, ta tính các tử số và xác suất như ví dụ ở Bảng 2.1.
Bảng 2.1: Ví dụ về biến đổi dữ liệu thơng qua hàm Softmax
-4 x -2 0 2 4
Bảng 2.1 cĩ thể thấy x càng lớn thì xác suất của nĩ càng lớn; tổng các xác suất bằng 1 như đề cập ở trên.
e) Hàm tối ưu sử dụng trong kỹ thuật học sâu
Khi huấn luyện mơ hình học sâu, người dùng thường sử dụng một thuật tốn tối ưu nhất định. Tuy nhiên, thuật tốn tối ưu nào hiệu quả trong q trình huấn luyện để thay đổi các thuộc tính của mạng học sâu như trọng số (weights), tốc độ học (learning rate) nhằm giảm mất mát của mơ hình luơn được quan tâm. Hiện nay, cĩ nhiều thuật
tốn tối ưu (optimization algorithms) được sử dụng như Gradient Descent, Stochastic Gradient Descent, Momentum, Adagrad, RMSprop và Adam, trong đĩ hai thuật tốn RMSprop và Adam thường được sử dụng do tính vượt trội của nĩ.
Thuật tốn RMSprop (Root Mean Square Propagation) được đề xuất đầu tiên năm 2012 bởi tác giả Geoffrey Hinton (2012) như một bản vá đơn giản để tách rời tốc độ định thời ra khỏi tốc độ học thay đổi theo tọa độ (coordinate-adaptive). RMSProp là thuật tốn được mở rộng từ Gradient Descent và Adagrad sử dụng giá trị trung bình giảm dần của các gradient. RMSprop khắc phục vấn đề tốc độ học giảm dần của Adagrad (khiến quá trình huấn luyện chậm dần, cĩ thể dẫn tới bị đĩng băng) bằng cách chia tỷ lệ học cho trung bình của bình phương gradient.
Ý tưởng chính của RMSprop là giữ trung bình động của các gradient bình phương cho mỗi trọng số, sau đĩ chia gradient cho căn bậc hai bình phương trung bình. Đĩ là lý do tại sao nĩ được gọi là RMSprop (bình phương căn bậc hai). Nguyên tắc cập nhật tốc độ học được biểu diễn bởi các biểu thức 2.34 và 2.35:
( ) = (
2
+1 = −
Trong đĩ, E(g) là trung bình động của các gradient bình phương; gt là gradient của hàm chi phí liên quan đến trọng số; η là tỷ lệ học; β là thơng số trung bình động Geoffrey Hinton đề nghị giá trị mặc định tốt nhất là 0,9).
Thuật tốn Adam (Adaptive Moment Estimation) (Kingma and Ba, 2014) là phương pháp tính tốn tốc độ học thích ứng cho mỗi tham số. Thay vì điều chỉnh các tham số tốc độ học dựa trên thời điểm trung bình đầu tiên như RMSProp thì thuật tốn Adam sử dụng giá trị trung bình của thời điểm thứ hai của các gradient. Cụ thể, đường trung bình động của gradient và gradient bình phương được tính tốn các biểu thức 2.36
và 2.37: = 1
= 2 −1+(1− 2
Trong đĩ, mt và vt là các ước lượng ở thời điểm đầu và thời điểm thứ hai của các gradient tương ứng; β1 và β2 là các tham số trọng số khơng âm, các giá trị này thường được chọn như sau: β1=0,9 và β2=0,999.
Vì mt và vt được khởi tạo là véc-tơ 0 nên nĩ cĩ xu hướng chứa nhiều các giá trị 0. Để hạn chế tình trạng này, nhĩm tác giả của thuật tốn Adam đề xuất phương pháp điều chỉnh độ lệch (bias-corrected) bằng cách tính lại ước lượng thời điểm thứ nhất và thứ hai như sau:
Sau đĩ, các ước lượng này được dùng để cập nhật các tham số tương tự như thuật tốn RMSprop,= từ−đĩ cập nhật � lại
gradient của Adam như biểu thức 2.38:
+1 � � +
Các giá trị mặc định được tác giả thuật tốn Adam đề xuất như sau: β1=0,9 và
β2=0,999; ϵ = 10-8.
2.5.3.7. Các phương pháp tránh quá khớp (Overfitting)
Trong các giải thuật học máy hay học sâu, khi huấn luyện một mơ hình, độ mất mát (loss) của tập train giảm dần, tức là độ chính xác tăng dần. Tuy nhiên, độ mất mát của tập test khơng giảm cùng tập train mà đến một giai đoạn nào đĩ độ mất mát của tập test tăng trở lại. Điều này gọi là hiện tượng quá khớp (overfitting). Chẳng hạn như minh họa ở Hình 2.22, độ mất mát của tập train liên tục giảm, trong khi đĩ độ mất mát của tập test giảm sau khoảng 3 epoch thì bắt đầu tăng lại.