Hình 4.1 cho thấy biểu diễn trong miền thời gian của âm vô thanh (có năng lƣợng thấp) và âm hữu thanh (có năng lƣợng cao).
Tuy nhiên, thoại có thể xem nhƣ là quá trình dừng trong khoảng 20 ms. Băng thông thực sự của thoại xấp xỉ 7 kHz. Trong thoại, đặc biệt là những đoạn hữu thanh (xem hình 4.1) cơ quan phát âm có tác dụng nhƣ khoang cộng hƣởng. Trung tâm tần số cộng hƣởng khoảng 500 Hz [11]. Tín hiệu thoại hữu thanh trong miền thời gian gần nhƣ theo chu kỳ nhờ kích thích đƣợc lặp lại của cơ quan phát âm do sự đóng mở thanh môn. Các đoạn hữu thanh đƣợc mô tả bởi các tham số gọi là chu kỳ cơ sở T0, nó là khoảng thời gian giữa các lần đóng mở thanh môn liên tiếp, trong đó tốc độ thay đổi đƣợc gọi là tần số cơ sở F0 = 1/T0
và nằm trong khoảng 50 đến 200 Hz. Chu kỳ cơ sở này còn gọi là chu kỳ âm lƣợng (pitch) (hình 4.1) (thuật ngữ này sẽ đƣợc dùng nhiều trong các phần sau của luận văn).
Trên hình 4.2 ta thấy tính hai mặt giữa miền thời và miền tần số, nghĩa là sự thay đổi trong miền thời gian sẽ dẫn tới thay đổi trong miền tần số. Cụ thể nhƣ trên hình 4.2(a) là một đoạn thoại 40 ms và phổ tần của nó. Hình 4.2(b) là đoạn thoại đó đƣợc phát lại với tốc độ bằng một nửa tƣơng đƣơng với việc kéo dãn gấp đôi trong miền thời gian và nén gấp đôi trong miền tần số. Nhƣ vậy âm sắc của đoạn thoại đã thay đổi và ngƣời nghe sẽ cảm nhận thấy sự khác biệt so với đoạn thoại gốc.
Đoạn vô thanh Đoạn hữu thanh
Bi ê n đ ộ tí n h iệ u Thời gian 0.0 s 0.1 s 0.2 s Chu kỳ pitch Khoảng lặng