Dữ liệu âm thanh phụ thuộc vào tập dữ liệu văn bản. Nĩ bao gồm tất cả các tập tin âm thanh được thu âm theo các câu trong tập dữ liệu văn bản, các dạng tập tin âm thanh cĩ thể là: wav, raw,... Tập dữ liệu âm thanh rất quan trọng vì sẽ được sử dụng trong quá trình học của hệ thống (cịn gọi là quá trình huấn luyện).
Để thu âm cho tập dữ liệu âm thanh cĩ các đặc trưng theo vùng, miền Việt Nam, theo phĩ gíáo sư tiến sỹ Lương Chi Mai (làm việc tại viện khoa học và kỹ thuật Việt Nam) ta cần sử dụng khoảng 100 – 200 người nĩi với tỉ lệ 50% nam, 50% nữ, cĩ độ tuổi từ 18 – 50 với chất giọng tốt và được các nhà ngơn ngữ học chọn phân bố trên cả 3 miền bắc, trung, nam. Các người nĩi được hướng dẫn phát âm chuẩn theo một tốc độ nhất định và việc thu âm được thực hiện trong phịng thu (studio), mỗi từ được thu ít nhất 3 lần, tổ chức lưu trữ thành các tập tin riêng cho mỗi người. Khơng được nĩi nhanh hoặc chậm hơn tốc độ đã định, mơi trường thu xung quanh khơng cĩ nhiễu. Khi thu, microphone đặt cách miệng người nĩi 25cm, nghiêng 30 độ. Tập tin âm thanh lưu trữ với dãy 16 bit, ở tần số 16 kHz và khơng nén.
Một số hệ thống nhận dạng cịn cho phép sử dụng các đĩa dữ liệu cĩ các tập tin âm thanh được thu âm trước để cài đặt thêm, các tập tin là bản tin (.vov) phát trên đài phát thanh, đĩ là các ngữ liệu cĩ thể dùng cho huấn luyện nhận dạng tiếng nĩi từ vựng lớn liên tục.
Việc thu âm khơng tốt sẽ dẫn đến việc huấn luyện khơng đạt và hệ thống khơng thể nhận dạng đúng tiếng nĩi, đây là một kinh nghiệm được rút ra từ thực nghiệm chạy thử của chương trình.
Để minh hoạ cho nghiên cứu này, với các chương trình minh họa. Tơi cĩ thiết kế tập dữ liệu văn bản cho nhận dạng số gồm 200 câu đọc số thì tập dữ liệu âm thanh là 200 tập tin âm thanh dạng .raw gồm các tập tin: 001.raw, 002.raw, ..,
199.raw, 200.raw. Tập tin âm thanh .raw cĩ độ nén cao, dung lượng nhỏ thích hợp cho việc ghi âm dữ liệu lớn.
Một tập tin âm thanh chuẩn là một tập tin khơng cĩ tiếng ồn và nhiễu, các chữ phải được đọc rõ ràng, cĩ khoảng nghỉ ngắn giữa các từ.
Hình 3.2 Sĩng của câu "một chín sáu hai" khơng bị ồn và nhiễu
Trong quá trình thu âm, người nĩi cĩ thể phát âm nhanh làm mất tiếng dẫn đến các chữ bị dính liền vào nhau. Điều này dẫn đến việc khi chúng ta cho huấn luyện thì kết quả sẽ bị sai, và khi nhận dạng cũng sẽ cho kết quả khơng chính xác. Ví dụ: câu thu âm là “tơi đi học” do phát âm nhanh làm cho chữ “tơi” dính liền vào chữ “đi”. Khi nhận dạng cĩ thể cho kết quả sai là “tơ đi học” chứ khơng phải “tơi đi học”.
Hình 3.4 Câu "tơi đi học" khi đọc quá nhanh
Ngược lại, nếu người nĩi phát âm quá chậm và kéo dài chữ thì cũng dẫn đến huấn luyện và nhận dạng bị sai. Ví dụ: chữ “tơi” được phát âm kéo dài dẫn đến khi nhận dạng cĩ thể ra kết quả sai là “tơơơi đi học” thay vì là “tơi đi học”.
Hình 3.5 Câu “tơi đi học” khi đọc ngân dài
Tập dữ liệu âm thanh phải được thu âm rõ ràng, dứt khốt từng chữ (phát âm như đọc chính tả). Người nĩi dữ liệu học cũng đĩng vai trị rất quan trọng. Người nĩi nằm trong độ tuổi từ 18 đến 45 chia đều theo độ tuổi, cân bằng cho cả giọng phái nam và giọng phái nữ. Số lượng người thu âm lớn, trải đều theo lứa tuổi sẽ làm cho hệ thống trở lên phong phú hơn, linh hoạt hơn và cĩ khả năng thích ứng cao. Ví dụ như huấn luyện với 100 người nĩi, khi người nĩi thứ 101 phát âm thì hệ thống dễ dàng thích nghi với giọng của người này và cho kết quả nhận dạng chính xác.