2. Các âm vị khác
4.2.3 Các kiểu filterbank cơ bản
Kiểu filter bank chung nhất (nhưng ít được xử dụng trong thực tế) là filter
bank đều; ở đó tần số trung tâm fi của dải thông thứ i được xác định như sau:
(4.7)
ở đó Fs là tần số lấy mẫu của tín hiệu tiếng nói, và N là số bộ lọcphân chia đều
cần có để bao phủ phạm vi tần số của tiếng nói. Số lượng bộ lọc thực sự được sử dụng Q thoả mãn quan hệ sau
với dấu bằng (=) thể hiện không có hiện tượng chồng tần số giữa các bộ lọc kề nhau và dấu nhỏ hơn (<) thể hiện dải thông của các các bộ lọc kề nhau có một phần chồng lên nhau. Hình 4.6a minh hoạ một tập hợp Q bộ lọc thông dải lý tưởng và không chồng tần số mà che phủ từ (Fs/N)(1/2) tới (Fs/N)(Q+1/2). Hình 4.6b minh họa một tập hợp Q bộ lọc thực tế , có hiện tượng chồng tần số và cũng che phủ gần như cùng phạm vi tần số như vậy.
Hình 4.6 Tập hợp đáp ứng tần số của Q bộ lọc filter bank che phủ dải tần số từ Fs/N tới (Q+1/2)Fs/N với hai trường hợp:
(a) các bộ lọc lý tưởng, (b) các bộ lọc thực tế
Một lựa chọn khác cho việc thiết kế filter bank là các filter bank không đều. Ví dụ, một tiêu chuẩn được sử dụng để phân chia tần số cho các bộ lọc là là dựa trên tỷ lệ logarithm. Theo cách đó, với một tập hợp Q bộ lọc thông dải với các tần số trung tâm fivà băng thông bi, 1iQ, chúng ta đặt
b1=C (4.9a)
bi=bi-1, 2iQ (4.9b)
(4.9c)
ở đó C và f1là băng thông và tần số trung tâm bất kỳ của bộ lọc đầu tiên, và là một hằng số cho trước.
Hãy xem xét một ví dụ về việc thiết kế một filter bank không đều bốn bộ lọc che phủ dải tần số từ 200 tới 300Hz (với tần số lấy mẫu 6.6.7 kHz) và không chồng tần số, với =2. Hình 3.8a minh hoạ các bộ lọc lý tưởng cho filter bank này. Lấy f1=300Hz và C=200Hz, chúng ta được các bộ lọc như sau:
Bộ lọc 1: f1=300Hz, b1=200Hz Bộ lọc 2: f1=600Hz, b1=400Hz Bộ lọc 3: f1=1200Hz, b1=800Hz Bộ lọc 4: f1=2400Hz, b1=1600Hz
Trong thực tế, có một số kiểu phân chia filter bank không đều được đưa ra nhằm mục đích phù hợp được với tính chất của phổ tiếng nói. Dạng chung của các kiểu phân chia này được minh họa trong hình 4.7. Tỷ lệ phân chia gần như tuyến tính với những tần số thấp hơn 1000Hz và gần với tỷ lệ logarithm với những tần số lớn hơn 1000Hz. Hai trong số những tỷ lệ phân chia kinh điển theo kiểu này là tỷ lệ mel và tỷ lệ bark (sẽ được đề cập kỹ hơn trong Chương Phân tích bài toán nhận dạng nguyên âm).
Hình 4.7 Đồ thị biến thiên của băng thông theo tần số cho kiểu phân chia không đều mel hoặc bark