2. Các âm vị khác
4.2.4.4 Các filterbank không đều dựa trên cơ sở FFT
Có một cách có thể khai thác cấu trúc FFT cho việc cài đặt các filter bank đều để thiết kế một filter bank đều kích thước lớn (có khoảng từ 128 đến 256 bộ lọc thông dải), rồi sau đó tạo nên tính không đều bằng cách tổ hợp hai hay nhiều bộ lọc lại với nhau. Người ta đã chứng minh rằng kỹ thuật tổ hợp bộ lọc như vậy là tương đương với việc áp dụng cửa sổ phân tích biến đổi (chứ không cố định như với filter bank đều) cho chuỗi trước khi tính FFT. Để thấy rõ được điều này, hãy xem xét việc tính DFT N điểm của chuỗi x(n) (được lấy từ tín hiệu tiếng nói s(n) bằng cách lọc qua cửa sổ w(n)). Như vậy, chúng ta có
(4.23)
chính là tập hợp các giá trị DFT. Nếu chúng ta tiến hành cộng các đầu ra DFT là Xk và Xk+1 với nhau, chúng ta được
(4.24)
và cũng thể được viết thành
(4.25)
Ở đây giá trị đầu ra bộ lọc tương đương thứ k là Xk’ nhận được bằng cách nhân chuỗi x(n) theo thời gian với chuỗi phức . Trong trường hợp có nhiều hơn hai bộ lọc tổ hợp với nhau, thì ta sẽ thu được một kết quả nhân chuỗi tương đương khác.
Như vậy có thể nói việc tổ hợp cấu trúc FFT như trên thực chất là một phương pháp “nhanh và thô” trong việc thiết kế các bộ lọc thông dải lớn hơn, đồng thời cũng là một cách đơn giản và hiệu quả để xây dựng một số kiểu cấu trúc phân tích filter bank phi tuyến.
4.3 Quan điểm xây dựng ứng dụng nhận dạng
tiếng nói dựa trên mạng neuron
Cũng trên quan điểm thu nhận các kiến thức về sự biến thiên của tín hiệu tiếng nói thông qua việc học và thích nghi như trong các ứng dụng Trí tuệ nhân tạo mà Lý thuyết Mạng neuron được nghiên cứu với mục đích áp dụng vào lĩnh vực nhận dạng tiếng nói.
Hình 4.9 minh hoạ một sơ đồ khối của một hệ thống hiểu tiếng nói được phác thảo dựa trên một mô hình tiếp thu tiếng nói của con người. Tín hiệu âm thanh đầu vào được phân tích bởi một “mô hình tai” mà có thể cung cấp các thông tin về phổ của tín hiệu và lưu trữ nó trong một kho thông tin cảm biến. Các thông tin trong kho này sẽ được sử dụng để lấy ra các đặc trưng của tín hiệu tiếng nói ở các mức độ khác nhau. Cả bộ nhớ thời hạn ngắn (short-term) (động) và bộ
nhớ thời hạn dài (long-term) (tĩnh) đều sẵn sàng cho các bộ xác định đặc trưng
sử dụng. Cuối cùng sau một số bước xác định đặc trưng, đầu ra cuối của hệ thống là một biểu diễn của thông tin chứa trong âm thanh đầu vào.
Trong hệ thống của hình 4.9, sự phân tích thính giác được phác thảo dựa trên những hiểu biết của chúng ta về quá trình xử lý âm thanh trong tai. Những sự phân tích đặc trưng khác nhau biểu diễn quá trình xử lý tại những mức khác nhau trong lộ trình thần kinh tới bộ não. Bộ nhớ thời hạn ngắn và thời hạn dài đem lại một sự điều khiển bên ngoài đối với các quá trình thần kinh. Và như vậy có thể đi đến một nhận xét rằng dạng chung của mô hình là một mạng kết nối tiến
Hình 4.9 Sơ đồ khối của hệ thống hiểu tiếng nói của con người
Kiến trúc mạng và các đặc trưng âm thanh
Để có được một ý niệm về mối quan hệ giữa kiến trúc kết nối của mạng neuron và các đặc trưng của âm thanh tiếng nói, hãy xem xét một ví dụ nhỏ mang tính lý thuyết được minh hoạ trong hình 4.10 . Mạng neuron được xét ở đây là một mạng tiến đa mức gồm một mức ẩn. Đầu vào của mạng là hai đặc trưng cơ bản của nguyên âm, đó là hai tần số cộng hưởng đầu tiên F1 và F2; còn đầu ra của mạng là 10 nút trong đó mỗi nút đại diện cho một nguyên âm. Mạng này có khả năng phân biệt các vùng quyết định khác nhau trong không gian đầu vào (F1,F2) sao cho mỗi vùng đó đại diện cho một trong mười nguyên âm.
Tuy nhiên cấu trúc trên chỉ được đưa ra như một ví dụ lý thuyết vì trong thực tế việc xác định chính xác F1 và F2 cho một tín hiệu nguyên âm bất kỳ nhận được không phải là một điều đơn giản.