Các loại tối ưu hóa

Một phần của tài liệu Nghiên cứu và ứng dụng machine vision phát hiện sản phẩm lỗi trong công nghiệp (Trang 68 - 71)

4. Đề nghị cho bảo vệ hay không?

3.4.2 Các loại tối ưu hóa

3.4.2.1 Momentum

Momentum là một phương pháp giúp tăng tốc độ dốc Stochastic theo hướng có liên quan và làm giảm dao động. Nó giống như một quả bóng lăn xuống dốc. Nó thêm một phần của vectơ trọng số cập nhật của bước vừa qua vào vectơ cập nhật hiện tại [1]:

𝑣𝑡 = 𝛾 ∗ 𝑣𝑡−1+ 𝜂 ∗ ∇𝜃𝐽(𝜃), ( 𝛾 < 1) (3.6)

𝜃 = 𝜃 − 𝑣𝑡 (3.7)

Trong đó 𝛾 thường được đặt từ 0.5 đến 0.9

3.4.2.2 Nesterov Accelerated Gradient

Nesterov Accelerated Gradient (NAG) là một cách để đưa ra thuật ngữ động lực. Nó giống như một quả bóng lăn xuống đồi nhưng biết chính xác khi nào nên giảm tốc độ trước khi độ dốc của ngọn đồi tăng trở lại. Ý tưởng là để dự đoán hướng trong bước tiếp theo. Việc tính toán 𝜃 − 𝛾 ∗ 𝑣𝑡−1 cho gần đúng vị trí của các tham số [7]. Do đó, không chỉ tính toán độ dốc cho các tham số hiện tại mà còn cả vị trí tương lai gần đúng của các tham số:

𝑣𝑡 = 𝛾 ∗ 𝑣𝑡−1+ 𝜂 ∗ ∇𝜃𝐽(𝜃 − 𝛾 ∗ 𝑣𝑡−1) (3.8)

3.4.2.3 Adaptive Gradient Algorithm

Thuật toán Adaptive Gradient (Adagrad) là một phương pháp tỷ lệ học thích ứng. Nó điều chỉnh tốc độ học tập cho các tham số, thực hiện các cập nhật nhỏ hơn cho các tham số liên quan đến các tính năng thường xuyên xảy ra và các cập nhật lớn hơn cho các tham số liên quan đến các tính năng không thường xuyên [7].

3.4.2.4 Adadelta

Adadelta là một phần mở rộng của Adagrad và nó cũng cố gắng giảm Adagrad, một cách đơn điệu, giảm tốc độ học tập. Nó thực hiện điều này bằng cách giới hạn cửa sổ của gradient tích lũy trong quá khứ ở một số kích thước cố định của w. Chạy trung bình tại thời điểm t sau đó phụ thuộc vào mức trung bình trước đó và độ dốc hiện tại [7].

Δ𝜃 = −𝑅𝑀𝑆[Δ𝜃]𝑡−1

𝑅𝑀𝑆[𝑔𝑡] ∗ 𝑔𝑡 (3.10)

𝜃𝑡+1 = 𝜃𝑡+ Δ𝜃𝑡 (3.11)

Trong đó 𝑔𝑡là đạo hàm hàm mất mát theo trọng số thứ t .

3.4.2.5 Root Mean Square Propagation

Root Mean Square Propagation (RMSProp) cố gắng giải quyết triệt để tỷ lệ học tập giảm dần bằng cách sử dụng gia tốc trung bình của gradient bình phương. Nó sử dụng cường độ của các độ dốc gradient gần đây để chuẩn hóa độ dốc. Trong RMSProp tốc độ học tập được điều chỉnh tự động và nó chọn một tốc độ học tập khác nhau cho mỗi tham số. Nó cũng chia tỷ lệ học tập cho trung bình của sự phân rã theo hàm mũ của độ dốc bình phương [7].

𝜃𝑡+1 = 𝜃𝑡− 𝜂

√(1−𝛾)∗𝑔𝑡−12 +𝛾∗𝑔𝑡+𝜀

∗ 𝑔𝑡 (3.12)

3.4.2.6 Adaptive Moment Estimation

Adaptive Moment Estimation (Adam) là sự kết hợp của Adagrad hoạt động tốt trên độ dốc thưa thớt và RMSprop hoạt động tốt trong cài đặt trực tuyến và không cố định. Adam thực hiện trung bình di chuyển theo cấp số nhân của các gradient để chia tỷ lệ học tập thay vì trung bình đơn giản như trong Adagrad [7]. Nó giữ mức trung bình phân rã theo cấp số nhân của các gradient quá khứ .

Thuật toán Adam trước tiên cập nhật các đường trung bình di chuyển theo hàm mũ của gradient (m_t) và gradient bình phương (υ_t) là ước tính của khoảnh khắc thứ

nhất và thứ hai. Các tham số siêu tốc β1, 2 [0, 1) kiểm soát tốc độ phân rã theo hàm mũ của các đường trung bình di động này như dưới đây

𝑚𝑡 = 𝛽1∗ 𝑚𝑡−1+ (1 − 𝛽1) ∗ 𝑔𝑡 (3.13)

𝜐𝑡 = 𝛽2∗ 𝜐𝑡−1+ (1 − 𝛽2) ∗ 𝑔𝑡2 (3.14)

Trong đó 𝑚𝑡, 𝜐𝑡 là ước tính của khoảnh khắc thứ nhất và thứ hai tương ứng. Đường trung bình di động được khởi tạo là 0 dẫn đến ước tính thời điểm bị sai lệch khoảng 0, đặc biệt là trong các dấu thời gian ban đầu. Xu hướng khởi tạo này có thể dễ dàng bị phản tác dụng dẫn đến ước tính điều chỉnh sai lệch.

𝑚̂𝑡 = 𝑚𝑡

1−𝛽1𝑡 (3.15)

𝜐̂𝑡 = 𝜐𝑡

1−𝛽2𝑡 (3.16) Trong đó 𝑚̂𝑡, 𝜐̂𝑡 là ước tính điều chỉnh sai lệch của thời điểm đầu tiên và thứ hai tương ứng. Thông số được cập nhật như sau:

θ𝑡+1 = 𝜃𝑡− 𝜂∗𝑚̂𝑡

Một phần của tài liệu Nghiên cứu và ứng dụng machine vision phát hiện sản phẩm lỗi trong công nghiệp (Trang 68 - 71)

Tải bản đầy đủ (PDF)

(104 trang)