Biến đổi cosin rời rạc

Dựa vào phổ tín hiệu tiếng nói của con ngƣời trên miền tần số, ta có thể thấy rằng phổ tín hiệu khá trơn, nên khi lấy các giá trị năng lƣợng ra từ các bộ lọc, các giá trị này sẽ có sự tƣơng quan khá gần nhau, dẫn đến đặc trƣng ta rút đƣợc sẽ không rõ ràng. Chính vì thế, ta thực hiện biến đổi DCT (Discrete Cosin Transform) để làm rời rạc các giá trị này ra cho nó ít tƣơng quan với nhau, làm tăng tính đặc trƣng của các tham số. Giá trịthu đƣợc sau bƣớc này ta gọi là hệ số Cepstral.   1 cos 0.5 N i j j j c m j N            (2.11) Trong đó: N là số kênh lọc.

Mj là giá trị logarit năng lƣợng cho mạch lọc thứ j. i là bậc của hệ số cepstral.

Thông thƣờng ngƣời ta lấy i trong đoạn [1,12] là số lƣợng đặc trƣng trong mỗi vecto đặc trƣng. Trong các hệ nhận dạng, số lƣợng đặc trƣng nằm trong khoảng (10,15) là đủ để cho kết quả nhận dạng tƣơng đối mà dữ liệu xử lý lại không quá lớn.

Sau khi thực hiện biến đổi DCT, theo công thức trên ta thấy các hệ số thu đƣợc sẽ tăng tuyến tính theo số bậc của nó. Hệ số cepstral có số bậc cao sẽ có giá trị rất cao, ngƣợc lại các hệ số bậc thấp sẽ có giá trị rất thấp. Sự chênh lệch này sẽ gây khó khăn cho chúng ta trong qúa trình mô hình hóa dữ liệu và xử lý sau này. Vì khi có sự chênh lệch cao, ta sẽ dùng miền giá trị lớn để biểu diễn dữ liệu, và gặp khó khăn khi đƣa vào các mô hình xử lý xác suất,... nên để có các hệ số tối ƣu cho các quá trình sau, ta sẽ thực hiện việc điều chỉnh các hệ số sau này để giảm sự chênh lệch. Việc này thực hiện bằng công thức:

 

exp * .

n n

c  n k c (2.12)

Cuối cùng chúng ta sẽ thu đƣợc các giá hệ số Cepstral đã đƣợc tinh chế. Các hệ số này là đặc trƣng MFCC mà chúng ta sẽ sử dụng để huấn luyện và nhận dạng.

GIỚI THIỆU VỀ CÔNG CỤ HỖ TRỢ NHẬN DẠNG TIẾNG NÓI CMUSPHINX

Xây dựng mô hình ngữ âm