Biểu diễn phổ tín hiệu tiếng nói

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 31 - 33)

Nhƣ chúng ta đã biết trong môn học Xử lý tín hiệu số, việc biểu diễn phổ, hay nói cách khác là biểu diễn tín hiệu tiếng nói trong miền tần số có thể cho phép việc phân tích và tìm hiểu tín hiệu tiếng nói đƣợc thuận tiện và dễdàng hơn.

Với tín hiệu tiếng nói số s(n), thực hiện biến đổi Fourier, ta đƣợc:        n n j e ) n ( s ) j ( S

Khi đó phổbiên độ và phổ pha của tín hiệu tiếng nói tƣơngứng là biểu diễn |S(j)|, và arg{S(j)}. Trong phân tích tín hiệu tiếng nói, thông tin tiếng nói đƣợc chứa chủ yếu trong phổbiên độ, do đó ngƣời ta rất ít quan tâm đến phổ pha.

Biểu diễn phổ biên độ của một phân đoạn tiếng nói ứng với phát âm của âm hữu thanh đƣợc minh họa trong hình 1.16.

Hình 1.16 Minh họa phổ tín hiệu tiếng nói

Từ quan sát biểu diễn phổ biên độ, ta có thể thấy phổ biên độ có thể tách thành hai thành phần: đƣờng bao phổ và những dao động phổ nhỏ hay còn gọi là phổ nhỏ. Đƣờng

CHƢƠNG 1. MT S KHÁI NIỆM CƠ BẢN

bao phổtƣơng ứng là dạng phổ của một tín hiệu biến đổi chậm (tần số thấp). Nó tƣơng ứng là hàm truyền đạt của bộ lọc tuyến âm. Phần phổ nhỏtƣơng ứng là dạng phổ của một tín hiệu biến đổi nhanh (tần số cao). Nó tƣơng ứng là phổ của tín hiệu tạo bởi dao động của dây thanh.

Hình 1.17 Minh họa sự khác biệt phổ giữa âm vô thanh và hữu thanh

Phổbiên độ của phân đoạn âm hữu thanh và vô thanh đƣợc minh họa trong hình 1.17. Từ biểu diễn phổ biên độ, chúng ta thấy có thể dựa trên phổ biên độ để phân biệt một cách tƣơng đối giữa âm vô thanh và hữu thanh. Phổ biên độ của phân đoạn tín hiệu ứng với âm hữu thanh có xuất hiện các cực trị của đƣờng bao phổ. Trong các cực trị này những đỉnh cực đại đƣợc gọi là các đỉnh formant, tƣơng ứng là các đỉnh cộng hƣởng của bộ lọc tuyến âm, những tần số đƣợc tăng cƣờng; các rãnh cực tiểu xen kẽ giữa các đỉnh cực đại đƣợc gọi là các phản formant (anti-formant), những tần số bị suy giảm. Ngoài ra năng lƣợng phổ của phân đoạn tín hiệu này cũng có sự tập trung chủ yếu ở phần tần thấp. Ngƣợc lại, phổbiên độ của phân đoạn tín hiệu âm vô thanh không xuất hiện các cực trị phân biệt trong đƣờng bao phổ. Nói cách khác không tồn tại các formant trong biểu diễn phổ của âm vô thanh. Ngoài ra, năng lƣợng phổ của âm vô thanh phân bốđều trên toàn dải tần số và có xu thế tập trung ở vùng tần số cao.

CHƢƠNG 1. MT S KHÁI NIỆM CƠ BẢN

31 Cũng dễ dàng quan sát thấy rằng, mặc dù dải tần số tín hiệu tiếng nói rất rộng (20- 20000Hz), nhƣng năng lƣợng phổ của tín hiệu tiếng nói chỉ tập trung trong một khoảng từ 300-3400Hz.

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 31 - 33)