Dữ liệu âm thanh

Một phần của tài liệu nhận dạng tiếng nói việt nam từ vựng lớn (Trang 37 - 39)

L ỜI CẢM ƠN Error! Bookmark not defined.

2.2.2Dữ liệu âm thanh

Dữ liệu âm thanh phụ thuộc vào bộ dữ liệu văn bản. Nó bao gồm tất cả các tập

tin âm thanh thu âm các câu trong bộ dữ liệu văn bản. Bộ dữ liệu văn bản cho nhận

dạng số gồm 200 câu thì bộ dữ liệu âm thanh là 200 tập tin âm thanh. Nhóm chúng em đã ghi âm dữ liệu thành tập tin có đuôi là .raw. Tập tin âm thanh .raw có độ nén cao, dung lượng nhỏ thích hợp cho việc ghi âm dữ liệu lớn.

Một tập tin âm thanh chuẩn là một tập tin không có tiếng ồn và nhiễu, các chữ

phải được đọc rõ ràng.

Hình 2.1 Sóng của câu "ba bốn bảy" không bị ồn và nhiễu

Trong qua trình thu âm, người thu âm có thể đọc nhanh làm mất tiếng dẫn đến

các chữ bị dính liền vào nhau. Điều này dẫn đến việc khi chúng ta cho huấn luyện

câu thu âm là “tôi đi” do đọc nhanh làm cho chữ “tôi” dính liền vào chữ “đi”. Khi

nhận dạng có thể cho kết quả sai là “tô đi” chứ không phải “tôi đi”.

Hình 2.2 Câu "tôi đi" được đọc rõ ràng

Hình 2.3 Câu "tôi đi" khi đọc quá nhanh

Ngược lại, nếu người thu âm đọc quá chậm và kéo dài chữ thì cũng dẫn đến

huấn luyện và nhận dạng bị sai. Ví dụ: chữ “tôi” được đọc kéo dài dẫn đến khi

nhận dạng có thể ra kết quả sai là “tôôôi đi” thay vì là “tôi đi”.

Hình 2.4 Chữ “tôi” khi đọc ngân dài

Bộ dữ liệu âm thanh phải được thu âm rõ ràng, dứt khoát từng chữ (đọc như

đọc chính tả). Người thu âm dữ liệu học cũng đóng vai trò rất quan trọng. Người

thu âm nằm trong độ tuổi từ 18 đến 51 chia đều theo độ tuổi, cân bằng cả giọng

nam và giọng nữ. Số lượng người thu âm lớn, trải đều theo lứa tuổi, cân bằng số

nam và nữ làm cho hệ thống trở lên phong phú hơn, linh hoạt hơn và khả năng

thích ứng cao. Ví dụ như huấn luyện 1000 người đọc, khi người thứ 1001 đọc thì hệ thống dễ dàng thích nghi với giọng của người này và cho kết quả nhận dạng

Một phần của tài liệu nhận dạng tiếng nói việt nam từ vựng lớn (Trang 37 - 39)