Khái niệm cepstrum đƣợc đƣa ra bởi Bogert, Healy và Tukey. Cepstrum đƣợc định nghĩa là biến Fourier ngƣợc (IFT) của lô-ga-rít độ lớn biên độ phổ của tín hiệu. Nói các khác, cepstrum của một tín hiệu với thời gian rời rạc đƣợc cho bởi công thức:
1 log 2 j j n n c m S e e d
Ở đây, log|Sn(ej)| là lô-ga-rít của độ lớn biên độ (magnitude) của FT tín hiệu. Khái niệm trên có thểđƣợc mở rộng thành cepstrum phức nhƣ sau:
1 ˆ log{S } 2 j j m n n c m e e d
Trong công thức tính trên, log{Sn(ej)} là lô-ga-rít phức của Sn(ej) và đƣợc định nghĩa nhƣ sau:
ˆ j log{S j } log j arg j
n n n n
S e e S e j S e
Giả sử s(n)=s1(n)*s2(n), với định nghĩa cepstrum dễ dàng thấy rằng
1 2
ˆ ˆ ˆ
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
phép cộng. Chính điều này đã làm cho phép phân tích cepstrum trở thành một công cụ hữu ích cho việc phân tích tín hiệu tiếng nói.
Tuy nhiên các công thức trên là các định nghĩa dựa trên các công thức toán học. Để công thức có ý nghĩa trong các phân tích thực tế, ta phải xây dựng các công thức mà việc tính toán có thể dễ dàng thực hiện đƣợc. Vì biến đổi Fourier rời rạc (DFT) là phiên bản lấy mẫu của biến đổi Fourier với thời gian rời rạc (DTFT) của một dãy chiều dài cốđịnh (tức là S(k)=S(ej2k/N)), do đó IDFT và DFT có thểđƣợc thay thếtƣơng ứng bằng IDTFT và DTFT. 1 2 / 0 N j kn N n S k s n e ˆ log arg X k S k j S k 1 2 / 0 1 N ˆ j kn N n s n X k e N 2.7. ÁP DỤNG MỘT SỐPHÉP PHÂN TÍCH ĐỂ XÁC ĐỊNH CÁC
THAM SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI 2.7.1 Một sốphƣơng pháp xác định các tần số formant
Formant của tín hiệu tiếng nói là một trong các tham số quan trọng và hữu ích có ứng dụng rộng rãi trong nhiều lĩnh vực chẳng hạn nhƣ trong việc xử lý, tổng hợp và nhận dạng tiếng nói. Các formant là các tần số cộng hƣởng của tuyến âm (vocal tract), nó thƣờng đƣợc thể hiện trong các biểu diễn phổ chẳng hạn nhƣ trong biểu diễn spectrogram nhƣ là một vùng có năng lƣợng cao, và chúng biến đổi chậm theo thời gian theo hoạt động của bộ máy phát âm. Sởdĩ formant có vai trò quan trọng và là một tham số hữu ích trong các nghiên cứu xử lý tiếng nói là vì các formant có thể miêu tảđƣợc các khía cạnh quan trọng nhất của tiếng nói bằng việc sử dụng một tập rất hạn chếcác đặc trƣng. Chẳng hạn trong mã hóa tiếng nói, nếu sử dụng các tham số formant để biểu diễn cấu hình của bộ máy phát âm và một vài tham số phụ trợ biểu diễn nguồn kích thích, ta có thể đạt đƣợc tốc độ mã hóa thấp đến 2,4kbps.
Nhiều nghiên cứu về xử lý và nhận dạng tiếng nói đã chỉ ra rằng các tham số formant là ứng cử viên tốt nhất cho việc biểu diễn phổ của bộ máy phát âm một cách hiệu quả. Tuy nhiên việc xác định các formant không đơn giản chỉ là việc xác định các đỉnh trong phổbiên độ bởi vì các đỉnh phổ của tín hiệu ra của bộ máy phát âm phụ thuộc một cách phức tạp vào nhiều yếu chẳng hạn nhƣ cấu hình bộ máy phát âm, các nguồn kích thích, ...
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
59 Các phƣơng pháp xác định formant liên quan đến việc tìm kiếm các đỉnh trong các biểu diễn phổ, thƣờng là từ kết quả phân tích phổ theo phƣơng pháp STFT hoặc mã hóa dựđoán tuyến tính (LPC).
2.7.2 Xác định formant từ phân tích STFT
Các phân tích STFT tƣơng tự và rời rạc đã trở thành một công cụcơ bản cho nhiều phát triển trong phân tích và tổng hợp tín hiệu tiếng nói.
Dễ dàng thấy STFT trực tiếp chứa các thông tin về formant ngay trong biên độ phổ. Do đó, nó trở thành một cơ sở cho việc phân tích các tần số formant của tín hiệu tiếng nói.
2.7.3 Xác định formant từ phân tích LPC
Các tần số formant có thểđƣợc ƣớc lƣợng từ các tham số dựđoán theo một trong hai cách. Cách thứ nhất là xác định trực tiếp bằng phân tích nhân tửđa thức dựđoán và dựa trên các nghiệm thu đƣợc để quyết định xem nghiệm nào tƣơng ứng với formant. Cách thứ hai là sử dụng phân tích phổ và chọn các formant tƣơng ứng với các đỉnh nhọn bằng một trong các thuật toán chọn đỉnh đã biết.
Một ƣuđiểm khi sử dụng phƣơng pháp phân tích LPC để phân tích formant là tần số trung tâm của các formant và băng tần của chúng có thểxác định đƣợc một cách chính xác thông qua việc phân tích nhân tử đa thức dự đoán. Một phép phân tích LPC bậc p đƣợc chọn trƣớc, thì số khả năng lớn nhất có thể có các điểm cực liên hợp phức là p/2. Do đó, việc gán nhãn trong quá trình xác định xem điểm cực nào tƣơng ứng với các formant đơn giản hơn các phƣơng pháp khác. Ngoài ra, với các điểm cực bên ngoài thƣờng có thể dễ dàng phân tách trong phân tích LPC vì băng tần của chúng thƣờng rất lớn so với băng tần thông thƣờng của các formant tín hiệu tiếng nói.
2.7.4 Một sốphƣơng pháp xác định tần sốcơ bản
Tần số cơ bản F0 là tần số dao động của dây thanh. Tần số này phụ thuộc vào giới tính và độ tuổi. F0 của nữthƣờng cao hơn của nam, F0 của ngƣời trẻthƣờng cao hơn của ngƣời già. Thƣờng với giọng của nam, F0 nằm trong khoảng từ 80-250Hz, với giọng của nữ, F0 trong khoảng 150-500Hz. Sự biến đổi của F0 có tính quyết định đến thanh điệu của từ cũng nhƣ ngữ điệu của câu. Câu hỏi đặt ra là làm thế nào đểxác định tần cố cơ bản (fundamental frequency). Một số phƣơng pháp xác định tần số cơ bản có thể kể đến là: Phƣơng pháp sử dụng hàm tựtƣơng quan, phƣơng pháp sử dụng hàm vi sai biên độ trung bình; Phƣơng pháp sử dụng bộ lọc đảo và hàm tựtƣơng quan; Phƣơng pháp xửlý đồng hình (homomophic).
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
2.7.5 Sử dụng hàm tựtƣơng quan
Hàm tựtƣơng quan n(k) sẽđạt các giá trị cực khi tƣơng ứng tại các điểm là bội của chu kỳcơ bản của tín hiệu. Khi đó các tần sốcơ bản là tần số xuất hiện của các đỉnh của n(t). Bài toán trởthành bài toán xác định chu kỳ hàm tựtƣơng quan.
2.7.6 Sử dụng Vi sai độ lớn biên độ ngắn hạn
Nhƣ đã đề cập, nếu dãy s(n) tuần hoàn với chu kỳ T thì hàm AMDF Mn sẽ triệt tiêu tại các giá trị t là bội của sốT. Do đó, ta chỉ cần xác định hai điểm cực tiểu gần nhau nhất và từđó có thểxác định đƣợc chu kỳ của dãy và từđó suy ra tần sốcơ bản.
2.7.7 Sử dụng tốc độ trở về không
Khi xem xét các tín hiệu với thời gian rời rạc, một lần qua điểm không của tín hiệu xảy ra khi các mẫu cạnh nhau có dấu khác nhau. Do vậy, tốc độqua điểm không của tín hiệu là một đo lƣờng đơn giản của tần số của tín hiệu. Ví dụ, một tín hiệu hình sin có tần số F0đƣợc lấy mẫu với tần số Fs sẽ có Fs/F0 mẫu trong một chu kỳ. Vì mỗi chu kỳ có hai lần qua điểm không nên tốc độtrung bình qua điểm không là Zn=2F0/Fs. Nhƣ vậy, tốc độ qua điểm không trung bình cho là một cách đánh giá tƣơng đối về tần số của sóng sin.
2.7.8 Sử dụng phân tích STFT
Từ kết quả phần biểu diễn Fourier của tín hiệu tiếng nói, dễ thấy rằng nguồn kích thích của tín hiệu âm hữu thanh đƣợc tăng cƣờng ở những đỉnh nhọn và các đỉnh này xảy ra ở các điểm là bội số của tần số cơ bản. Đây chính là nguyên lý cơ bản của một trong các phƣơng pháp xác định tần sốcơ bản.
Xét biểu thức phổtích các hài (harmonic) nhƣ sau:
1 K j j r n n r P e S e
Lấy lô-ga-rít của phổ tích các hài, thu đƣợc phổ tích các hài trong thang lô-ga-rít:
1 ˆ j 2K log j r n n r P e S e Hàm ˆ j n
P e trong công thức trên là một tổng của K phổ nén tần số của |Sn(ej)|.
Việc sử dụng hàm trong công thức trên xuất phát từ nhận xét rằng với tín hiệu âm hữu thanh, việc nén tần số bởi các hệ số nguyên sẽ làm các hài của tần sốcơ bản trùng với tần số cơ bản. Ở vùng tần số giữa các hài, có một hài của các số tần số khác cũng bị nén trùng nhau, tuy nhiên chỉ tại tần sốcơ bản là đƣợc củng cố. Hình 2.12 minh họa nhận xét vừa nêu.
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
61 Hình 2.12 Minh họa sự nén tần số
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI