Dữ liệu âm thanh

- Mở đầu

3.2.2 Dữ liệu âm thanh

Dữ liệu âm thanh phụ thuộc vào tập dữ liệu văn bản. Nó bao gồm tất cả các tập tin âm thanh được thu âm theo các câu trong tập dữ liệu văn bản, các dạng tập tin âm thanh có thể là: wav, raw,... Tập dữ liệu âm thanh rất quan trọng vì sẽ được sử dụng trong quá trình học của hệ thống (còn gọi là quá trình huấn luyện).

Để thu âm cho tập dữ liệu âm thanh có các đặc trưng theo vùng, miền Việt Nam, theo phó gíáo sư tiến sỹ Lương Chi Mai (làm việc tại viện khoa học và kỹ thuật Việt Nam) ta cần sử dụng khoảng 100 – 200 người nói với tỉ lệ 50% nam, 50% nữ, có độ tuổi từ 18 – 50 với chất giọng tốt và được các nhà ngôn ngữ học chọn phân bố trên cả 3 miền bắc, trung, nam. Các người nói được hướng dẫn phát âm chuẩn theo một tốc độ nhất định và việc thu âm được thực hiện trong phòng thu (studio), mỗi từ được thu ít nhất 3 lần, tổ chức lưu trữ thành các tập tin riêng cho mỗi người. Không được nói nhanh hoặc chậm hơn tốc độ đã định, môi trường thu xung quanh không có nhiễu. Khi thu, microphone đặt cách miệng người nói 25cm, nghiêng 30 độ. Tập tin âm thanh lưu trữ với dãy 16 bit, ở tần số 16 kHz và không nén.

Một số hệ thống nhận dạng còn cho phép sử dụng các đĩa dữ liệu có các tập tin âm thanh được thu âm trước để cài đặt thêm, các tập tin là bản tin (.vov) phát trên đài phát thanh, đó là các ngữ liệu có thể dùng cho huấn luyện nhận dạng tiếng nói từ vựng lớn liên tục.

Việc thu âm không tốt sẽ dẫn đến việc huấn luyện không đạt và hệ thống không thể nhận dạng đúng tiếng nói, đây là một kinh nghiệm được rút ra từ thực nghiệm chạy thử của chương trình.

Để minh hoạ cho nghiên cứu này, với các chương trình minh họa. Tôi có thiết kế tập dữ liệu văn bản cho nhận dạng số gồm 200 câu đọc số thì tập dữ liệu âm thanh là 200 tập tin âm thanh dạng .raw gồm các tập tin: 001.raw, 002.raw, ..,

199.raw, 200.raw. Tập tin âm thanh .raw có độ nén cao, dung lượng nhỏ thích hợp cho việc ghi âm dữ liệu lớn.

Một tập tin âm thanh chuẩn là một tập tin không có tiếng ồn và nhiễu, các chữ phải được đọc rõ ràng, có khoảng nghỉ ngắn giữa các từ.

Hình 3.2 Sóng của câu "một chín sáu hai" không bị ồn và nhiễu

Trong quá trình thu âm, người nói có thể phát âm nhanh làm mất tiếng dẫn đến các chữ bị dính liền vào nhau. Điều này dẫn đến việc khi chúng ta cho huấn luyện thì kết quả sẽ bị sai, và khi nhận dạng cũng sẽ cho kết quả không chính xác. Ví dụ: câu thu âm là “tôi đi học” do phát âm nhanh làm cho chữ “tôi” dính liền vào chữ “đi”. Khi nhận dạng có thể cho kết quả sai là “tô đi học” chứ không phải “tôi đi học”.

Hình 3.4 Câu "tôi đi học" khi đọc quá nhanh

Ngược lại, nếu người nói phát âm quá chậm và kéo dài chữ thì cũng dẫn đến huấn luyện và nhận dạng bị sai. Ví dụ: chữ “tôi” được phát âm kéo dài dẫn đến khi nhận dạng có thể ra kết quả sai là “tôôôi đi học” thay vì là “tôi đi học”.

Hình 3.5 Câu “tôi đi học” khi đọc ngân dài

Tập dữ liệu âm thanh phải được thu âm rõ ràng, dứt khoát từng chữ (phát âm như đọc chính tả). Người nói dữ liệu học cũng đóng vai trò rất quan trọng. Người nói nằm trong độ tuổi từ 18 đến 45 chia đều theo độ tuổi, cân bằng cho cả giọng phái nam và giọng phái nữ. Số lượng người thu âm lớn, trải đều theo lứa tuổi sẽ làm cho hệ thống trở lên phong phú hơn, linh hoạt hơn và có khả năng thích ứng cao. Ví dụ như huấn luyện với 100 người nói, khi người nói thứ 101 phát âm thì hệ thống dễ dàng thích nghi với giọng của người này và cho kết quả nhận dạng chính xác.

Định nghĩa bộ lọc Wiener

Các khiếm khuyết cơ bản của Lexicon