Formant của tín hiệu tiếng nói là một trong các tham số quan trọng và hữu ích có ứng dụng rộng rãi trong nhiều lĩnh vực chẳng hạn nhƣ trong việc xử lý, tổng hợp và nhận dạng tiếng nói. Các formant là các tần số cộng hƣởng của tuyến âm (vocal tract), nó thƣờng đƣợc thể hiện trong các biểu diễn phổ chẳng hạn nhƣ trong biểu diễn spectrogram nhƣ là một vùng có năng lƣợng cao, và chúng biến đổi chậm theo thời gian theo hoạt động của bộ máy phát âm. Sở dĩ formant có vai trò quan trọng và là một tham số hữu ích trong các nghiên cứu xử lý tiếng nói là vì các formant có thể miêu tả đƣợc các khía cạnh quan trọng nhất của tiếng nói bằng việc sử dụng một tập rất hạn chế các đặc trƣng. Chẳng hạn trong mã hóa tiếng nói, nếu sử dụng các tham số formant để biểu diễn cấu hình của bộ máy phát âm và một vài tham số phụ trợ biểu diễn nguồn kích thích, ta có thể đạt đƣợc tốc độ mã hóa thấp đến 2,4kbps.
Nhiều nghiên cứu về xử lý và nhận dạng tiếng nói đã chỉ ra rằng các tham số formant là ứng cử viên tốt nhất cho việc biểu diễn phổ của bộ máy phát âm một cách hiệu quả. Tuy nhiên việc xác định các formant không đơn giản chỉ là việc xác định các đỉnh trong phổ biên độ bởi vì các đỉnh phổ của tín hiệu ra của bộ máy phát âm phụ thuộc một cách phức tạp vào nhiều yếu chẳng hạn nhƣ cấu hình bộ máy phát âm, các nguồn kích thích, ...
Các phƣơng pháp xác định formant liên quan đến việc tìm kiếm các đỉnh trong các biểu diễn phổ, thƣờng là từ kết quả phân tích phổ theo phƣơng pháp STFT hoặc mã hóa dự đoán tuyến tính (LPC).
2.7.2 Xác định formant từ phân tích STFT
Các phân tích STFT tƣơng tự và rời rạc đã trở thành một công cụ cơ bản cho nhiều phát triển trong phân tích và tổng hợp tín hiệu tiếng nói.
Dễ dàng thấy STFT trực tiếp chứa các thông tin về formant ngay trong biên độ phổ. Do đó, nó trở thành một cơ sở cho việc phân tích các tần số formant của tín hiệu tiếng nói.
2.7.3 Xác định formant từ phân tích LPC
Các tần số formant có thể đƣợc ƣớc lƣợng từ các tham số dự đoán theo một trong hai cách. Cách thứ nhất là xác định trực tiếp bằng phân tích nhân tử đa thức dự đoán và dựa trên các nghiệm thu đƣợc để quyết định xem nghiệm nào tƣơng ứng với formant. Cách thứ hai là sử dụng phân tích phổ và chọn các formant tƣơng ứng với các đỉnh nhọn bằng một trong các thuật toán chọn đỉnh đã biết.
Một ƣu điểm khi sử dụng phƣơng pháp phân tích LPC để phân tích formant là tần số trung tâm của các formant và băng tần của chúng có thể xác định đƣợc một cách chính xác thông qua việc phân tích nhân tử đa thức dự đoán. Một phép phân tích LPC bậc p đƣợc chọn trƣớc, thì số khả năng lớn nhất có thể có các điểm cực liên hợp phức là p/2. Do đó, việc gán nhãn trong quá trình xác định xem điểm cực nào tƣơng ứng với các formant đơn giản hơn các phƣơng pháp khác. Ngoài ra, với các điểm cực bên ngoài thƣờng có thể dễ dàng phân tách trong phân tích LPC vì băng tần của chúng thƣờng rất lớn so với băng tần thông thƣờng của các formant tín hiệu tiếng nói.
2.7.4 Một số phƣơng pháp xác định tần số cơ bản
Tần số cơ bản F0 là tần số dao động của dây thanh. Tần số này phụ thuộc vào giới tính và độ tuổi. F0 của nữ thƣờng cao hơn của nam, F0 của ngƣời trẻ thƣờng cao hơn của ngƣời già. Thƣờng với giọng của nam, F0 nằm trong khoảng từ 80-250Hz, với giọng của nữ, F0 trong khoảng 150-500Hz. Sự biến đổi của F0 có tính quyết định đến thanh điệu của từ cũng nhƣ ngữ điệu của câu. Câu hỏi đặt ra là làm thế nào để xác định tần cố cơ bản (fundamental frequency). Một số phƣơng pháp xác định tần số cơ bản có thể kể đến là: Phƣơng pháp sử dụng hàm tự tƣơng quan, phƣơng pháp sử dụng hàm vi sai biên độ trung bình; Phƣơng pháp sử dụng bộ lọc đảo và hàm tự tƣơng quan; Phƣơng pháp xử lý đồng hình (homomophic).
2.7.5 Sử dụng hàm tự tƣơng quan
Hàm tự tƣơng quan n(k) sẽ đạt các giá trị cực khi tƣơng ứng tại các điểm là bội của chu kỳ cơ bản của tín hiệu. Khi đó các tần số cơ bản là tần số xuất hiện của các đỉnh của n(t). Bài toán trở thành bài toán xác định chu kỳ hàm tự tƣơng quan.
2.7.6 Sử dụng Vi sai độ lớn biên độ ngắn hạn
Nhƣ đã đề cập, nếu dãy s(n) tuần hoàn với chu kỳ T thì hàm AMDF Mn sẽ triệt tiêu tại các giá trị t là bội của số T. Do đó, ta chỉ cần xác định hai điểm cực tiểu gần nhau nhất và từ đó có thể xác định đƣợc chu kỳ của dãy và từ đó suy ra tần số cơ bản.
2.7.7 Sử dụng tốc độ trở về không
Khi xem xét các tín hiệu với thời gian rời rạc, một lần qua điểm không của tín hiệu xảy ra khi các mẫu cạnh nhau có dấu khác nhau. Do vậy, tốc độ qua điểm không của tín hiệu là một đo lƣờng đơn giản của tần số của tín hiệu. Ví dụ, một tín hiệu hình sin có tần số F0 đƣợc lấy mẫu với tần số Fs sẽ có Fs/F0 mẫu trong một chu kỳ. Vì mỗi chu kỳ có hai lần qua điểm không nên tốc độ trung bình qua điểm không là Zn=2F0/Fs. Nhƣ vậy, tốc độ qua điểm không trung bình cho là một cách đánh giá tƣơng đối về tần số của sóng sin.
2.7.8 Sử dụng phân tích STFT
Từ kết quả phần biểu diễn Fourier của tín hiệu tiếng nói, dễ thấy rằng nguồn kích thích của tín hiệu âm hữu thanh đƣợc tăng cƣờng ở những đỉnh nhọn và các đỉnh này xảy ra ở các điểm là bội số của tần số cơ bản. Đây chính là nguyên lý cơ bản của một trong các phƣơng pháp xác định tần số cơ bản.
Xét biểu thức phổ tích các hài (harmonic) nhƣ sau:
1 K j j r n n r P e S e
Lấy lô-ga-rít của phổ tích các hài, thu đƣợc phổ tích các hài trong thang lô-ga-rít:
1 ˆ j 2K log j r n n r P e S e Hàm ˆ j n
P e trong công thức trên là một tổng của K phổ nén tần số của |Sn(ej)|.
Việc sử dụng hàm trong công thức trên xuất phát từ nhận xét rằng với tín hiệu âm hữu thanh, việc nén tần số bởi các hệ số nguyên sẽ làm các hài của tần số cơ bản trùng với tần số cơ bản. Ở vùng tần số giữa các hài, có một hài của các số tần số khác cũng bị nén trùng nhau, tuy nhiên chỉ tại tần số cơ bản là đƣợc củng cố. Hình 2.12 minh họa nhận xét vừa nêu.