1. Tổng quan về mạng Nơ ron sâụ
3.3.4.2. Công thức DNN
Mục này giải thích các tham số quan trọng dựa trên công thức huấn luyện DNN (DNN recipe). DNN recipe này là một phần của bộ công cụ Kaldị Kaldi chứa hai recipe song song, cả hai recipe này đều là mạng nơ ron sâu, lớp cuối cùng (lớp đầu ra) là một softmax có số chiều đầu ra bằng số trạng thái phụ thuộc ngữ cảnh “context-dependent State” (thường là vài nghìn). Mạng nơ ron được huấn luyện để dự đoán xác suất của các context-dependent Statẹ Trong quá trình giải mã, các xác suất đầu ra được chia ra các xác suất của mỗi trạng thái tạo thành một “pseudo- likehood” sử dụng thay cho xác suất chuyển trạng thái trong HMM.
Công thức đầu tiên hỗ trợ tiền huấn luyện RBM (Restricted Boltzmann Machines), huấn luyện gradient descent ngẫu nhiên sử dụng NVidia Graphics Processing Units (GPUs) và huấn luyện discriminative sử dụng boosted MMI và statelevel minimum Bayes risk (sMBR). Công thức thứ hai được viết hỗ trợ thực thi huấn luyện song song trên nhiều CPU (hiện tại đã được mở rộng để hỗ trợ huấn luyện trên nhiều GPU)
Trong đề tài này, công thức DNN được thực hiện trên các CPU song song với công thức Dan’s DNN. Công thức này áp dụng một huấn luyện lai cổ điển và framework giải mã sử dụng mạng sâu đơn giản với hàm tanh phi tuyến. Hơn nữa hệ
68
thống cũng kết hợp sử dụng giải mã minimum Bayes risk và trong trường hợp này, một sự kết hợp các lattice để tạo ra các lattice được chuẩn hóa bằng cách loại bỏ tổng chi phí chuyển tiếp từ chúng và sử dụng các lattice kết quả như đầu vào bước giải mã cuối cùng.
3.3.5. Mô hình GMM
Kaldi hỗ trợ GMM với cấu trúc hiệp phương sai chéo và đầy đủ. Thay vì thể hiện các hàm mật độ Gauss riêng biệt, Kaldi thực hiện trực tiếp một lớp GMM được tham số hóa bởi các tham số tự nhiên. Các lớp GMM cũng được lưu trữ các số hạng không đổi trong tính toán xác suất, bao gồm các số hạng không phụ thuộc vào các vector dữ liệụ Việc thực thi như vậy là phù hợp cho hiệu quả tính toán tích vô hướng đơn giản (dot-product).
Một mô hình GMM biểu diễn các tham số như tổng các trọng số của nhiều Gauss phân tán. Mỗi trạng thái Gauss có: Mean (µi), hiệp phương sai (Ʃi), trọng số (Wi).Trong quá trình huấn luyện, hệ thống học về những dữ liệu mà nó sử dụng để đưa ra quyết định. Một tập hợp các tham số được thu thập từ một người nói (hoặc ngôn ngữ hoặc phương ngữ).
Thay vì huấn luyện mô hình người nói chỉ dựa trên dữ liệu người nói, mô hình GMM điều chỉnh mô hình phổ nền UBM (Universal Background Model) với người nói, tận dụng lợi thế của tất cả các dữ liệu, thích ứng MAP (maximum a posteriori): mỗi một Gaussian là một trọng số kết hợp của UBM và người nóị Trọng số người nói nhiều nếu ta có nhiều dữ liệu hơn: μi =αEi(x)+(1−α)μiVới α=n/(n+16).
Các tham số thông thường MFCC có thể sử dụng nhiều chiều hơn (20 + delta). Mô hình phổ nền UBM: 512-2048 mixture, GMM của người nói: 64-256 mixture, thường được kết hợp đặc biệt với các phân lớp khác trong một mixture-of-experts.