Biến đổi Cosine rời rạc trên tần số Mel

Một phần của tài liệu Nhận dạng tiếng nói việt nam từ vựng lớn liên tục (Trang 44)

- Mở đầu

2.6 Biến đổi Cosine rời rạc trên tần số Mel

Với biến đổi Fourier ta sử dụng cả hàm sine và cosine để mô tả tín hiệu, còn với biến đổi cosine ta chỉ dùng hàm cosine cho mô tả. Giai đoạn cuối cùng của tiền xử lý tiếng nói, chúng ta áp dụng biến đổi cosine rời rạc để xác định phổ Mel (Mel Cepstrum). Có nghĩa là chúng ta sẽ chuyển đổi giá trị logarithm của phổ Mel từ miền tần số quay ngược về miền thời gian sử dụng biến đổi Cosine rời rạc. Kết quả của quá trình này là thu được hệ số tần số Mel Cepstrum. Các hệ số này đều là các số thực, trong đó hệ số đầu tiên C0 chính là tín hiệu tiếng nói đầu vào nên bị loại bỏ. Toàn bộ quá trình xử lý Front- end trên còn được gọi là block MFCCs.

Công thức biến đổi Cosine rời rạc sau đây được áp dụng để tìm ra hệ số của tần số Mel:

L −1 ~ ⎛ π n

c[n ] = ∑ ln( S [i ]) cos ⎢ (2i + 1)⎢

i =0 ⎝ 2 L ⎠ (2.25)

Với n= 0, 1, ..., L – 1, C là các hệ số phổ Mel.

Tập hợp các hệ số tần số Mel Cepstrum trên được gọi là một vector ngữ âm (vector acoustic). Các vector ngữ âm này được sử dụng để biểu diễn và nhận dạng tiếng nói. Vì thế, mỗi tín hiệu tiếng nói ở đầu vào sẽ được chuyển đổi theo thứ tự trên thành một vector ngữ âm. Vector ngữ âm được sử dụng trong rất nhiều công nghệ nhận dạng tiếng nói như Dynamic Time Warpping (DTW), Hidden Makov Modeling (HMM), Vector Quantization(VQ)... Ở đây, sử dụng mô hình HMM, các hệ số là các số thực đặc trưng cho tông và cao độ tiếng nói, đóng vai trò như một chuổi trạng thái trong mô hình HMM.

CHƯƠNG 3 - QUÁ TRÌNH HUẤN LUYỆN VÀ NHẬN DẠNG TIẾNG NÓI VIỆT NAM TỪ VỰNG LỚN LIÊN TỤC

3.1 Từ điển Lexicon

Một phần của tài liệu Nhận dạng tiếng nói việt nam từ vựng lớn liên tục (Trang 44)

Tải bản đầy đủ (PDF)

(121 trang)