CAO QUYẾT THẮNG Trang

Một phần của tài liệu Bài giảng môn học : xử lý tiếng nói P2 (Trang 25)

§5. CÁC MÔ HÌNH SỐ CHO CÁC TÍN HIỆU TIẾNG NÓI

Ta đã thấy ở §3 là có thể đƣa ra các biểu diễn toán học khá chi tiết của lý thuyết âm học tạo tiếng nói. Mục đích của chúng ta khi xét lý thuyết này là nghiên cứu các nét cơ bản của tín hiệu tiếng nói và chỉ ra quan hệ về mặt vật lý của chúng với việc tạo ra tiếng nói. Ta đã thấy là âm đƣợc sinh ra bằng 3 cách, mỗi cách cho một kiểu cái ra khác nhau, đồng thời bộ máy phát âm buộc các cộng hƣởng tuân theo các kích thích để tạo ra các âm tiếng nói khác nhau.

Cách tiếp cận đúng đắn để biểu diễn tín hiệu tiếng nói là dùng mô hình "tƣơng tự ở phần cuối" nhƣ vẽ ở hình "Mô hình hệ thống nguồn của việc tạo tiếng nói" (Đ3.7). Đó là hệ thống tuyến tính mà cái ra có tính chất giống tiếng nói (speech-like) khi đƣợc kiểm tra bằng tập hợp các tham số có quan hệ xác định với quá trình tạo tiếng nói. Mô hình này tƣơng đƣơng với mô hình vật lý ở kết thúc (ở cái ra), nhƣng có cấu trúc bên trong không giống mô hình vật lý của việc tạo tiếng nói. Đặc biệt, chúng ta chú ý đến các mô hình tƣơng tự ở phần cuối, có thời gian rời rạc, biểu diễn các tín hiệu tiếng nói mẫu.

Để tạo ra tín hiệu giống tiếng nói, kiểu kích thích và các tính chất cộng hƣởng của hệ thống tuyến tính phải thay đổi theo thời gian. Đặc biệt, dạng sóng âm cho thấy các tính chất của tín hiệu tiếng nói thay đổi tƣơng đối chậm theo thời gian. Với nhiều âm tiếng nói, có thể giả sử là các tính chất chung của kích thích và bộ máy phát âm không thay đổi trong các khoảng từ 10 đến 20 mili giây. Nhƣ vậy, mô hình tương tự ở phần cuối (terminal analog) tạo ra một hệ thống tuyến tính biến đổi chậm theo thời gian đƣợc kích thích bởi tín hiệu kích thích có bản chất cơ bản thay đổi từ các xung gần tuần hoàn cho tiếng nói hữu thanh đến tiếng ồn ngẫu nhiên cho tiếng nói vô thanh.

Mô hình thời gian rời rạc ống mất ít ở mục trƣớc là một ví dụ điển hình cho điều nói trên. Hãy nhớ rằng hệ thống của bộ máy phát âm đƣợc đặc trƣng bằng tập hợp các diện tích, hay tƣơng đƣơng là các hệ số phản xạ. Ta đã chứng minh là quan hệ giữa cái vào và cái ra có thể biểu diễn bằng hàm truyền V(z) có dạng

V(z) = k kz G 1 (31)

trong đó G và { k} phụ thuộc vào hàm diện tích.

5.1. Bộ máy phát âm (Vocal Tract): Các cộng hƣởng (tăng cƣờng) của tiến nói ứng với

các cực của hàm truyền V(z). Một mô hình toàn cực (all-pole) là biểu diễn rất tốt các hiệu ứng của bộ máy phát âm cho nhiều âm tiếng nói. Tuy nhiên, lý thuyết âm học lại nói là các âm mũi và âm xát yêu cầu cả cộng hưởng (resonance) và phản cộng hưởng (anti-

resonance) (cả cực và không điểm). Trong các trƣờng hợp này ta có thể đƣa các không điểm vào hàm truyền hoặc giải thích nhƣ Atal (B.S. Atal & S.L. Hanauer, Speech analysis

and Synthesis by Linear Prediction of the Speech Wave, J. Acoust. Soc. Am., Vol. 50 ¹ 2

(Part 2) pp. 637-655, August 1971) là hiệu ứng của không điểm của hàm truyền có thể thu đƣợc bằng cách đƣa vào nhiều cực hơn. Trong đa số trƣờng hợp cách tiếp cận này đƣợc ƣa chuộng hơn.

Vì các hệ số ở mẫu số của V(z) ở (29) là số thực thì các nghiệm của đa thức ở mẫu số hoặc là số thực hoặc là các cặp nghiệm phức liên hợp

Một phần của tài liệu Bài giảng môn học : xử lý tiếng nói P2 (Trang 25)