a. Tốc độ học (Learning rate)
Tốc độ học [6] là một trong những thông số mà điều chỉnh việc làm thế nào để một mạng RBM học nhanh và làm thế nào để việc huấn luyện hiệu quả.
Hãy xem xét một RBM mà đang trải qua quá trình học tập. Giả định rằng trọng số của một số liên kết trong mạng một phần được tạo ra là 0,3. Khi mạng được giới thiệu một huấn luyện mới, thuật toán huấn luyện yêu cầu các liên kết thay đổi trọng số của nó đến 0,7 để nó có thể học các mẫu mới phù hợp. Nếu chúng ta cập nhật trọng số ngay lập tức, mạng RBM chắc chắn sẽ học các mẫu mới, nhưng nó có xu
hướng quên tất cả các mẫu nó đã được học trước đó. Điều này là do trọng số hiện tại (0,3) là kết quả của tất cả việc học mà nó đã trải qua cho đến nay.
Vì vậy, không thể trực tiếp thay đổi trọng số tới 0,7. Thay vào đó thì tăng nó bởi một phần nhỏ (chọn 25%) của sự thay đổi cần thiết. Vì vậy, trọng số liên kết của nó được thay đổi thành 0,4 và khi đó sẽ chuyển sang mẫu đào tạo tiếp theo. Yếu tố này (0,25 trong trường hợp này) được gọi là learning rate. Căn cứ theo cách này, tất cả các mẫu huấn luyện được huấn luyện trong một số thứ tự ngẫu nhiên. Khi chu trình trình đào tạo lặp đi lặp lại nhiều lần, cuối cùng mạng RBM học tất cả các mẫu có hiệu quả.
Learning rate là một giá trị trong khoảng từ 0 đến 1. Chọn một giá trị rất gần bằng 0 đòi hỏi một số lượng lớn các chu trình huấn luyện. Điều này làm cho quá trình huấn luyện rất chậm. Mặt khác, nếu learning rate rất lớn, trọng số khác nhau và độ lệch hàm mục tiêu dao động lớn và mạng đạt đến một trạng thái mà việc huấn luyện diễn ra vô ích.
b. Weight - decay
Weight-decay [6] là tham số điều kiện được thêm vào trong quy tắc cập nhật trọng số. Làm tăng tốc độ huấn luyện.
c. Nhóm mẫu nhỏ (Mini-batch)
Mini- batch [6] là mạng được huấn luyện theo từng nhóm. Các nhóm này được gom lại theo thứ tự tăng dần. Ví dụ: bộ huấn luyện có 100 mẫu, với số điểm dữ liệu trong nhóm là 10 thì mạng sẽ được huấn luyện với 10 điểm dữ liệu đầu tiên trước, sau đó huấn luyện với 10 điểm dữ liệu tiếp theo... cứ như vậy cho đến khi hết bộ dữ liệu thì thôi.
d. Hằng số quán tính (Momentum)
Tốc độ học của giải thuật RBMs có thể rất chậm nếu learning rate nhỏ, nhưng nếu tốc độ học lớn thì nó lại có thể gây ra sự dao động lớn trong quá trình tìm giá trị cực tiểu theo phương pháp giảm gradient. Để giải quyết vấn đề này người ta thường thêm thành phần quán tính [6] vào các phương trình hiệu chỉnh trọng số. Nhờ thành phần này, quá trình học có thể vượt qua điểm cực tiểu địa phương để tìm đến cực
tiểu toàn cục, đồng thời thành phần quán tính cũng ngăn cản sự thay đổi đột ngột của các trọng số theo hướng khác với hướng mà lời giải đang chuyển đến.
e. Epoch
Trong quá trình huấn luyện mạng, thuật ngữ “epoch” được dùng để mô tả quá trình khi tất cả các mẫu dữ liệu đầu vào của training set được đưa để huấn luyện mạng. Nói các khác là 1 epoch được hoàn thành khi tất cả các dữ liệu trong training set được đưa vào huấn luyện mạng. Vì vậy, số lượng “epoch” xác định số lần mạng được huấn luyện (hay số lần đưa tất cả các dữ liệu trong training set vào mạng).