Độ chính xác mô hình nhận dạng tiếng nói phụ thuộc nhiều yếu tố, trong đó dữ liệu lớn và dữ liệu đủ tốt là một yếu tố hết sức quan trọng. Quá trình thu thập dữ liệu từ các nguồn khác nhau sẽ xảy ra bất đồng bộ giữa các bộ dataset. Để thuận lợi cho quá trình huấn luyện, tất cả các dữ liệu âm thanh thu thập được đều được chuẩn hoá về cùng một loại:
Ø Tập tin định dạng .wav, tần số lấy mẫu 16Khz, và những mẫu tập tin âm thanh dữ liệu huấn luyện đều có độ dài 1.3 giây đến 15 giây và các tập tin chứa từ 5 từ đến 20 từ.
Ø Tập tin chứa dữ liệu gán nhãn theo định dạng: [TEN_AUDIO] [LABEL] Ø Các nhãn (LABEL) của câu viết in hoa, và mỗi dòng là thông tin của một
mẫu dữ liệu, bên dưới là minh hoa cho định dạng lưu trữ tập gán nhãn: Ở nghiên cứu này, em lựa chọn 3 bộ dữ liệu hỗ trợ cho việc huấn luyện mô hình nhận dạng tiếng Việt:
- Bộ dữ liệu VIVOS Corpus [7] gồm 12.420 tệp dữ liệu âm thanh với định dạng .wav (trong đó 11.660 tập cho huấn luyện (train), và 760 cho tập kiểm thử (test)), với số lượng câu được gán nhãn tương ứng, số lượng từ mỗi câu khác nhau từ 2 từ đến 35 từ. Sau quá trình lọc các tập tin rỗng, chuẩn hoá dữ liệu thì bộ data VIVOS mới gồm: tập dữ liệu train gồm 9.263 audio, và tập dữ liệu test gồm: 726 audio.
- Bộ dữ liệu VIN Data [8] gồm 112.854 audio, sau quá trình loại bỏ các tập tin quá dài, tập tin quá ngắn, dữ liệu rỗng, chuẩn hoá dữ liệu thì thu được bộ dữ liệu train gồm 20.000 audio, tập dữ liệu test gồm: 6.426 audio.
- Bộ dữ liệu FPT [9] gồm 109.218 audio với định dạng .mp3 và tần số lấy mẫu là 48Khz, tiến hành chuẩn hoá dữ liệu chuyển đổi các từ file .mp3 về định dạng .wav, chuyển đổi tần số lấy mẫu từ 48Khz về 16Khz, loại bỏ các tập tin quá dài, quá ngắn, rỗng nội dung, kết quả thu được tập dữ liệu train gồm: 15.700 audio, và tập dữ liệu test gồm 7.213 audio.