Phân tích spectrogram

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 1 (Trang 49 - 51)

Spectrogram là một trong những công cụ cơ bản của phân tích phổ tín hiệu tiếng nói, trong đó nó chuyển đổi dạng sóng tín hiệu tiếng nói hai chiều thanh cấu trúc ba chiều (biên độ/tần số/thời gian). Trong đồ hình spectrogram, thời gian và tần số tƣơng ứng là các trục ngang và dọc, còn biên độ đƣợc biểu diễn bởi độ đậm nhạt. Các đỉnh của phổ tín hiệu xuất hiện là các dải nằm ngang màu đậm. Tần số trung tâm của các dải thƣờng đƣợc coi là các formant. Các âm hữu thanh tạo ra các mảng dọc trong biểu đồ spectrogram vì có một sự tăng cƣờng biên độ tín hiệu tiếng nói mỗi khi thanh quản đóng lại. Nhiễu trong các âm vô thanh tạo ra các cấu trúc đậm hình chữ nhật và kết thúc ngẫu nhiên với nhiều đốm nhạt do sự thay đổi tức thì của năng lƣợng tín hiệu. Lƣợc đồ spectrogram chỉ diễn tả biên độ phổ của tín hiệu mà bỏ qua các thông tin về pha vì các thông tin này không có vai trò quan trọng trong hầu hết các ứng dụng liên quan đến tiếng nói.

Để xây dựng lƣợc đồ spectrogram, ngƣời ta thực hiện biểu diễn biên độ của biến đổi Fourier ngắn hạn (STFT) |Sn(ej)| theo thời gian trên trục nằm ngang, đồng thời theo tần số  (từ 0 đến ) trên trục thẳng đứng (tức là từ 0 đến Fs/2, với Fs là tần số lấy mẫu), đồng thời độ lớn biên độ bằng độ đậm nhạt (thƣờng theo thang tỷ lệ lô-ga-rít)

r, kn 20log10| rR |

S t fS k

trong đó tr=rRT và fk=k/(NT) và T là chu kỳ lấy mẫu của tín hiệu. Hình 3.4 minh họa spectrogram của tín hiệu tiếng nói cùng với dạng sóng tín hiệu tƣơng ứng.

Hình 2.5 Lƣợc đồ spectrogram của tín hiệu tiếng nói "Should we chase"

Hai lƣợc đồ spectrogram đƣợc xây dựng với các hàm cửa sổ có độ dài khác nhau. Lƣợc đồ spectrogram phía trên là kết quả khi sử dụng cửa sổ có chiều dài 101 mẫu tƣơng ứng với 10ms. Chiều dài của cửa sổ phân tích này xấp xỉ bằng chu kỳ của dạng sóng trong các khoảng tín hiệu âm hữu thanh. Kết quả là trong các khoảng tín hiệu âm hữu thanh, spectrogram biểu hiện các vằn định hƣớng thẳng đứng tƣơng ứng với thực tế rằng cửa sổ trƣợt lúc gồm hầu hết các mẫu có biên độ lớn, lúc gồm hầu hết các mẫu có biên độ nhỏ. Nói một cách khác, khi cửa sổ phân tích có độ dài ngắn, mỗi chu kỳ pitch riêng rẽ đƣợc hiển thị rõ nét theo thời gian, trong khi độ phân giải theo tần số thì rất kém. Cũng chính vì lý do này, nếu chiều dài cửa sổ phân tích mà ngắn, thì lƣợc đồ spectrogram thu đƣợc gọi là lƣợc đồ spectrogram băng rộng. Ngƣợc lại, nếu chiều dài cửa sổ phân tích lớn, thì lƣợc đồ spectrogram thu đƣợc gọi là lƣợc đồ spectrogram băng hẹp. Lƣợc đồ spectrogram băng hẹp có độ phân giải theo tần số cao nhƣng theo thời gian thì nhỏ. Minh họa phía dƣới hình 2.5 là kết quả của việc sử dụng cửa sổ phân tích có độ dài 401 mẫu, tƣơng ứng với 40ms, bằng khoảng vài chu kỳ tín hiệu. Và nhƣ ta thấy, lƣợc đồ spectrogram tƣơng ứng không còn nhạy với sự thay đổi về thời gian nữa.

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 1 (Trang 49 - 51)

Tải bản đầy đủ (PDF)

(92 trang)