L ỜI CẢM ƠN Error! Bookmark not defined.
2.2.2 Dữ liệu âm thanh
Dữ liệu âm thanh phụ thuộc vào bộ dữ liệu văn bản. Nó bao gồm tất cả các tập
tin âm thanh thu âm các câu trong bộ dữ liệu văn bản. Bộ dữ liệu văn bản cho nhận
dạng số gồm 200 câu thì bộ dữ liệu âm thanh là 200 tập tin âm thanh. Nhóm chúng em đã ghi âm dữ liệu thành tập tin có đuôi là .raw. Tập tin âm thanh .raw có độ nén cao, dung lượng nhỏ thích hợp cho việc ghi âm dữ liệu lớn.
Một tập tin âm thanh chuẩn là một tập tin không có tiếng ồn và nhiễu, các chữ
phải được đọc rõ ràng.
Hình 2.1 Sóng của câu "ba bốn bảy" không bị ồn và nhiễu
Trong qua trình thu âm, người thu âm có thể đọc nhanh làm mất tiếng dẫn đến
các chữ bị dính liền vào nhau. Điều này dẫn đến việc khi chúng ta cho huấn luyện
câu thu âm là “tôi đi” do đọc nhanh làm cho chữ “tôi” dính liền vào chữ “đi”. Khi
nhận dạng có thể cho kết quả sai là “tô đi” chứ không phải “tôi đi”.
Hình 2.2 Câu "tôi đi" được đọc rõ ràng
Hình 2.3 Câu "tôi đi" khi đọc quá nhanh
Ngược lại, nếu người thu âm đọc quá chậm và kéo dài chữ thì cũng dẫn đến
huấn luyện và nhận dạng bị sai. Ví dụ: chữ “tôi” được đọc kéo dài dẫn đến khi
nhận dạng có thể ra kết quả sai là “tôôôi đi” thay vì là “tôi đi”.
Hình 2.4 Chữ “tôi” khi đọc ngân dài
Bộ dữ liệu âm thanh phải được thu âm rõ ràng, dứt khoát từng chữ (đọc như
đọc chính tả). Người thu âm dữ liệu học cũng đóng vai trò rất quan trọng. Người
thu âm nằm trong độ tuổi từ 18 đến 51 chia đều theo độ tuổi, cân bằng cả giọng
nam và giọng nữ. Số lượng người thu âm lớn, trải đều theo lứa tuổi, cân bằng số
nam và nữ làm cho hệ thống trở lên phong phú hơn, linh hoạt hơn và khả năng
thích ứng cao. Ví dụ như huấn luyện 1000 người đọc, khi người thứ 1001 đọc thì hệ thống dễ dàng thích nghi với giọng của người này và cho kết quả nhận dạng