Trong nguyên mẫu của mạng học sâu (DNN), RBM được sử dụng để học cách khởi tạo DNN. RBM nhiều lớp, còn được gọi là Mạng học sâu Bayes (DBN), có thể được huấn luyện bằng thuật toán tiếp cận tham lam. Trong lớp đầu tiên, Sau khi được huấn luyện tốt, kỳ vọng của các đơn vị ẩn được sử dụng làm vector rữ liệu cho RBM lớp thứ hai. Các lớp trên của RBM đều được huấn luyện theo uy trình này. Sau cùng, các RBM xếp chồng lên nhau tạo thành một DBN. Các bước huấn luyện cho DBN cũng được trình bày trong bảng 2.1.
Đầu vào: Dữ liệu D = {x}, lớp K mong muốn và số nút cho mỗi lớp Ni
Đầu ra: Cấu trúc và các tham số khởi tạo đã được đào tạo của DNN 1. Học các tham số 1 cho lớp dữ liệu đầu tiên của RBM
Với k = 2:K
2. Khởi tạo RBM lớp thử k bằng cách mở từng lớp RBM, với tham số T1
k k
W W
3. Tinh chỉnh các tham số của RBM ở lớp thứ k bằng các vector dữ liệu được tạo ra từ lớp thứ k-1
Bảng 2.1: Mô tả thuật toán huấn luyện Mạng học sâu Bayes
Sau khi huấn luyện DBN, các tham số của nó được sao chép vào một mạng nơ-ron có cùng cấu trúc. Lớp đầu ra của DNN là một lớp softmax được xếp chồng lên nhau. Quá trình huấn luyện DBN và sao chép tham số của nó được gọi là “pretrain”. Mạng nơ-ron khởi tạo được huấn luyện thêm bằng thuật toán truyền ngược. Bước huấn luyện thêm này được gọi là “tinh chỉnh”. Bước pretrain giúp cho DNN theo một số cách. Nó buộc DNN phải ánh xạ không gian đối tượng thôi tới mức trìu tượng cao hơn, không chỉ để học phản ứng vô hướng đối với không gian đầu ra, nó thực sự hoạt động giống như một bộ điều chỉnh do dữ liệu tạo ra.
Mặc dù DNN có thể được huấn luyện tốt hơn với quy trình trước đó, nhưng DNN không thể tự xử lý tốt dữ liệu tạm thời. Khi xử lý dữ liệu âm thanh, tôi kết hợp DNN và HMM để tạo ra bộ giải mã tốt hơn. Các đặc điểm thô từ một khung và các
khung liên tiếp của nó được gửi tới DNN cùng nhau, theo đó DNN có thể học được sự phụ thuộc các khung liên tiếp. Mỗi đơn vị đầu ra đại diện cho một trạng thái HMM, nghĩa là DNN dự đoán xác suất quan sát mà khung hiện tại thuộc về mỗi trạng thái. Ba HMM ho và một HMM không ho được huấn luyện. Sau khi các xác suất quan sát được tính toán, một thuật toán giải mã Viterbi sẽ được áp dụng với tất cả các HMM. Đối với mỗi mẫu, một phiên mã, chứa trình tự giải mã HMM có khả năng xảy ra nhất, có thể được tạo ra từ một quá trình giải mã. Một mẫu được dán nhãn là ho nếu HMM ho được tìm thấy trong trình tự mã hóa.
“Ground truth” cho các trạng thái được tạo ra bằng cách sử dụng hệ thống cơ sở GMM-HMM để ghi trước các dữ liệu huấn luyện. Trong nguyễn mẫu kết hợp DNN và GMM-HMM, DNN được sử dụng để tính toán khả năng tham dò qua sát, và GMM-HMM được sử dụng để giải mã cấu trúc thời gian. Quy trình huấn luyện cho hệ thông DNN-GMM-HMM được thể hiện trong hình 2.4.
Hệ thống GMM-HMM
Chỉnh sửa, dữ liệu huấn luyện
Dữ liệu huấn luyện đạt tiêu chuẩn
“Pretrain” mạng học sâu Bayes (DBN)
Tinh chỉnh lại mạng học sâu bằng phương pháp lan truyền ngược
3 1 h 3 2 h 3 3 h 3 4 h 2 1 h h22 2 3 h 2 4 h 1 4 h 1 3 h 1 2 h 1 1 h 1 v v2 v3 3 1 h h23 3 3 h h43 2 1 h h22 2 3 h 2 4 h 1 1 h h12 h31 1 4 h 1 v v2 v3 22