Trước khi đưa vào huấn luyện, bộ dữ liệu tiếng nói được chia thành 3 tập: Tập huấn luyện (training set), tập kiểm định (validation set) và tập kiểm tra (test set) với tỷ lệ là 90%:5%:5%. Trong đó:
• Tập dữ liệu tập huấn luyện được sử dụng để tạo ra mạng nơ ron học sâu cho mô hình
thời gian và mô hình âm học trong pha huấn luyện.
• Tập dữ liệu kiểm định được sử dụng để tinh chỉnh hệ số θ, là hệ số liên kết giữa các
nút nơ ron trong mạng nơ ron học sâu để được kết quả gần với giá trị đầu vào của tập kiểm định nhất. Tập dữ liệu kiểm định được sử dụng để tối ưu mô hình mạng nơ ron để cho ra kết quả tốt nhất.
• Tập kiểm tra được sử dụng để đánh giá độ chính xác của mô hình mạng nơ ron học
sâu sinh ra. Đây là bước đánh giá độ đo của mô hình.
Mô hình thời gian và mô hình âm học được tối ưu bằng thuật toán Stochastic Gradient Descent [19]. Trong đó có thể điều chỉnh các tham số sau:
• Learning Rate: 0.002, là tốc độ điều chỉnh hệ số θ của mạng nơ ron để có được mô
hình tối ưu nhất. Giá trị learning rate kiểm soát tốc độ thay đổi hệ số θ để phù hợp với bài toán. Giá trị learning rate cao giúp mạng nơ ron được huấn luyện nhanh hơn do cần ít lần tịch tiến để về điểm tối ưu, nhưng có thể làm giảm độ chính xác do không thể tiến về điểm tối ưu.
• Batch size: 256, là số mẫu đồng thời được đưa vào huấn luyện mô hình. Đối với máy
chủ có có bộ nhớ ít, phải giảm số mẫu đưa vào đồng thời để tránh bị tràn bộ nhớ.
• Espoch: 25, là số lần đưa toàn bộ dữ liệu vào huấn luyện mô hình hay chính là số
vòng lặp huấn luyện mô hình. Trong quá trình thực nghiệm, có thể giảm số vòng lặp Espoch nếu kết quả tinh chỉnh mô hình mạng nơ ron không có sự thay đổi lớn giữa các vòng lặp.