Bộ dữ liệu được sử dụng để huấn luyện các mô hình E2E được phát triển bởi Viện nghiên cứu công nghệ FPT (FPT Technology Research Institute -
FTRI). Tập tiếng nói co việc huấn luyện là giọng đọc với các câu được chọn từ các trang mạng diễn đàn và tin tức hàng ngày. Có 3059 người nói bao gồm cả nam và nữ đến từ miền Bắc, Trung và Nam của Việt Nam. Tất cả các tệp âm thanh được lưu trữ và chuyển đổi sang định dạng sóng với tốc độ mẫu là 16 kHz và độ chính xác chuyển đổi tương tự/số là 16 bits. Tổng thời lượng của tệp âm thanh là 2036 giờ. Coi bộ dữ liệu này là tiếng nói sạch, rồi áp dụng một số phương pháp tăng cường bổ sung tiếng ồn cùng sự thay đổi của tốc độ nói và âm lượng trong thực tế. Đầu tiên, một bộ dữ liệu lời nói chứa tiếng ồn đã được tạo ra bằng cách kết hợp các mẫu tiếng ồn với tiếng nói sạch. Các mẫu tiếng ồn dùng cho việc kết hợp được chọn ngẫu nhiên từ 30 loại môi trường nhiễu. Khi tiếng ồn được thêm vào, ta tăng/giảm tốc độ nói tương ứng là 1.1 và 0.9. Sau cùng, ta điều chỉnh âm lượng cho từng tệp âm thanh với hệ số ngẫu nhiên trong phạm vi từ 0.2 đến 2.0 trên toàn bộ dữ liệu được tăng cường từ các bước trước đó. Kết thúc, thời lượng của dữ liệu được tăng cường cuối cùng là 12216 giờ.
Để đánh giá các mô hình, học viên đã sử dụng hai bộ kiểm thử được mô tả trong Bảng IV. Bộ đầu tiên là VLSP2018 được phát triển bởi các nhóm nghiên cứu liên quan đến xử lý ngôn ngữ và tiếng Việt [60]. Nó bao gồm các tập tin .wav liên tục của bài phát biểu tin tức với tổng thời lượng 2 giờ. Âm thanh giọng nói được ghi lại trong một môi trường không tiếng ồn. Không có thông tin về người nói. Tỷ lệ phương ngữ lần lượt là 50%, 40% và 10% cho miền Bắc, miền Nam và miền Trung. Bộ kiểm thử thứ hai là thử nghiệm FPT được phát triển bởi Viện nghiên cứu công nghệ FPT. Thử nghiệm này bao gồm các câu nói tự phát được ghi lại trên đường phố, văn phòng làm việc, ... mà không có bất kỳ giới hạn tiếng ồn nào.
Bảng IV: Bộ dữ liệu thử nghiệm
Corpus Type Sentences Duration Speakers Domain
Trainingn speech Reading speech 2,9M 2036h 3059 News
VLSP2018 Reading speech 796 2h unkown News
FPT-Test Spontaneous speech 18596 20h 53 Open