Mô hình hóa tiếng nói

Một phần của tài liệu Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn Gaussian (LV thạc sĩ) (Trang 31 - 34)

5. Ý nghĩa khoa học và thực tiễn

1.2.3. Mô hình hóa tiếng nói

Mô hình hóa cơ quan phát âm (vocal tract)

Các tần số cộng hưởng của tiếng nói formant tương ứng với điểm cực của hàm truyền V(z). 1 ( ) 1 N k k k G v z a z    (1.1)

Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành phần âm hữu thanh, tuy nhiên các ảnh hưởng của mũi, và kẽ răng lại yêu cầu mô hình phải có cả hai sự cộng hưởng và sự triệt tiêu trong trường hợp này, cần phải thêm các điểm không vào mô hình. Các hệ số của mẫu phương trình trên phải là hoặc thực hoặc cặp phức.

Tần số cộng hưởng điển hình của cơ quan phát âm:

*

2

k k k k

s s    jF (1.2)

Tương ứng rời rạc về thời gian là:

* 1 os2 .2sin 2 kT kT k k z ze cfTje  fT (1.3)

Hình 1.19: Mô hình điểm cực formant cơ quan phát âm

Băng tần của formant tương ứng là 2kvà tần số trung tâm là 2ΠFk. Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tần nghĩa là:

kT

Ze và k 2F Tk (1.4)

Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cả thuộc nửa bên trái mặt phẳng s vì vậy nó là hệ thống ổn định của phép biến

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đổi s, do đó k 0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của mô hình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổn định của hệ thống.

Mô hình sự kích thích nguồn âm (glottal source)

Tiếng nói có thể chia thành vô thanh và hữu thanh. Với âm hữu thanh, mô hình dạng sóng kích thích phải xuất hiện, ở mô hình này máy phát chuỗi xung tạo ra chuỗi xung đơn vị quãng cách là chu kỳ cơ bản (chu kỳ cao độ). Tín hiệu này kích thích một hệ thống tuyến tính mμ có đáp ứng xung h(n) là dạng sóng "thanh môn-glottal" kích thích.

Hình 1.20: Mô hình kích thích âm hữu thanh

Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm hữu thanh, các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng dạng sóng của xung tổng hợp theo dạng:

1 1 1 2 1 1 2 0.5(1 os( n/N )) 0 ( ) os( (n-N )/2N ) N 0 c n N h n c n N N n               (1.5)

N1, N2 là khoảng giới hạn của cửa sổ phân tích với âm vô thanh chỉ cần một nguồn nhiễu vμ thông số về biên để điều chỉnh mật độ kích thích của nó, máy phát ngẫu nhiên tạo một nguồn nhiễu bằng phẳng, các xuất hiện không

quan trọng. Do vậy, mô hình kích thích nguồn âm tổng hợp cả âm hữu thanh và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.21.

Hình 1.21: Mô hình hóa quá trình tạo tiếng nói

Một phần của tài liệu Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn Gaussian (LV thạc sĩ) (Trang 31 - 34)

Tải bản đầy đủ (PDF)

(68 trang)