26 phòng thí nghiệm hay sản phẩm mẫu mà chưa được ứng dụng thực tế. Các bộ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice Luận văn ThS Công nghệ thông tin 1 01 10 (Trang 25 - 29)

1.5.2. Tổng hợp formant theo quy luật

Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng nói dựa vào các quy luật này.

Phân tích tìm quy luật

Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ.

Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu tiếng nói. Tần số từ F1 đến F5 và băng thông W 1 đến W 5 ở phần ổn định của các âm tố được lưu giữ dưới dạng bảng. Đó là các giá trị “đích” để tạo ra một âm vị.

Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại (C- V và V-C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Như vậy về cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác. Hệ thống quy luật bao gồm:

- Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó.

- Luật nhằm làm trơn các formant đích.

- Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.

Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)

27

Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo các âm đoạn tính.

Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo tiếng nói do Frant đề xuất.

Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp. Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nối tiếp mô hình hoá rất tốt cho các âm hữu thanh. Còn bộ tổng hợp với các bộ cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt hơn.

Sơ đồ khối bộ tổng hợp Klatt

Bộ tổng hợp âm đoạn tính sử dụng phần mềm của Klatt bằng cả cách nối song song và nối tiếp các bộ cộng hưởng. Đây là hệ thống tổng hợp formant khá hoàn thiện cho đến nay.

Mô hình tổng hợp tiếng nói của Klatt [13], [14], [19] mô phỏng quá trình tạo tiếng nói của con người dựa trên nguyên lý nguồn âm-bộ lọc của quá trình tạo tiếng nói, đây là mô hình tổng hợp formant hỗn hợp bao gồm cả tuyến âm nối tiếp và song song với nguồn âm phức hợp. Sơ đồ khối bộ tổng hợp được trình bày trong hình 1.5 cùng với các tham số cần thiết nhất để điều khiển nguồn âm và tuyến âm.

Một số tham số điều khiển khác thường được gán giá trị ngầm định, không trình bày ở đây.

28

Hình 1.5: Sơ đồ khối bộ tổng hợp của Klatt.

Mô hình nguồn kích thích

Nguồn kích thích gồm 2 kiểu là: nguồn hữu thanh được tạo bởi các tín hiệu tuần hoàn và nguồn vô thanh được sinh ra từ các tín hiệu ngẫu nhiên. Nguồn hữu thanh của bộ tổng hợp Klatt được trình bày trong hình 1.6.

Hình 1.6: Nguồn hữu thanh.

Nguồn kích hữu thanh được điều khiển bởi 4 tham số là: OQ, TL, AV và T0, trong đó:

 OQ: hệ số mở (Open Quotion)

 TL: độ nghiêng phổ

T a,b=f(AV,OQ*T0) aT 2 -bT 3

MAX

0

OQ*T0 T0

Bộ lọc thông thấp, F,BW=f(TL)

Nguồn tạp âm, AMP=f(OQ) Hàm truyền đạt của

tuyến âm cho nguồn âm thanh quản (các bộ

cộng hưởng formant nối tiếp )

Hàm truyền đạt của tuyến âm cho nguồn âm xát (các bộ cộng hưởng formant song

song) Nguồn hữu thanh

Nguồn âm xát Nguồn tạp âm

F1 F2 F3

B1 B2 B3 FZ

T0

AV OQ TL

AH

AF

Đặc tính tán xạ

Tiếng nói

A1 A2 A3 A4 A5 A6 AB

29

 AV: biên độ hữu thanh

 T0: chu kỳ dao động cơ bản của đôi dây thanh (=1/F0) Hàm sóng hữu thanh cơ sở có dạng: aT 2 -bT 3

Trong đó:

T: biến thời gian

Các hệ số a, b là hàm của AV và OQ*T0

Ưu điểm của nguồn hữu thanh này là nó mô phỏng gần giống với nguồn âm tự nhiên, cường độ của tín hiệu cửa hầu được mô tả tốt tại cả thời điểm đóng và mở với hình dáng không đều, tốc độ nhanh hơn tốc độ mở. Cường độ của sóng hữu thanh tuân theo hàm trên trong suốt pha mở của chu kỳ bằng 0 trong thời gian còn lại. Có thể điều chỉnh để phổ nghiêng hơn bằng cách sử dụng OQ hoặc TL để phỏng theo hiệu ứng đóng cửa hầu không hoàn toàn và sự làm tròn góc của sóng âm vào lúc kết thúc.

Khuyết điểm của nguồn kích thích này là độ lớn phổ một số chỗ không đều.

Do vậy độ rộng dải thông của formant sẽ hơi mỏng khi nó gần tần số 600Hz (vị trí điểm 0 thực sự vụ thuộc vào OQ). Biên độ formant này thay đổi giống như xuất hiện trong tiếng nói tự nhiên.

Nguồn vô thanh để mô tả kích thích khi tạo các âm vô thanh là bộ sinh số ngẫu nhiên.

Trong pha mở của đôi dây thanh, kích thích từ nguồn hữu thanh được kết hợp với tín hiệu từ nguồn tiếng ồn ngẫu nhiên để mô tả kích thích cho các âm bật hơi.

Sự tán xạ được thể hiện trong nguồn kích hữu thanh bằng cách cộng với đạo hàm bậc nhất của giá trị quá khứ.

Mô hình tuyến âm

Tuyến âm gồm hai nhánh : nhánh nối tiếp và nhánh song song. Mỗi nhánh gồm các bộ lọc bậc 2 diễn tả tần số cộng hưởng và phản cộng hưởng của tín hiệu tiếng nói (hình 1.7).

30

(a) Hệ truy hồi bậc hai.

(b) Hệ không truy hồi bậc hai.

Hình 1.7: Sơ đồ các bộ lọc bậc hai.

Hình 1.7(a) biểu diễn bộ lọc thông dải – bandpass (còn gọi là hệ truy hồi bậc hai) mô tả tần số cộng hưởng (điểm cực). Bộ lọc được điều khiển bằng các thông số là tần số lấy mẫu, tần số cộng hưởng và độ dải thông của nó. Các hệ số a, b, c được thiết lập theo các hệ thức sau :

c b a

Fs f BW PI r

b

r r c

Fs BW PI r

1

) /

*

*

* 2 cos(

*

* 2

)

* (

) / )

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice Luận văn ThS Công nghệ thông tin 1 01 10 (Trang 25 - 29)

Tải bản đầy đủ (PDF)

(82 trang)