Chương 2 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NểI
2.4. Các phương pháp tổng hợp tiếng nói
2.4.2. Phương pháp tổng hợp tiếng nói theo tần số formant
Tổng hợp tiếng nói theo tần số formant (formant synthesis) không sử dụng bất cứ mẫu giọng thật nào khi chạy. Thay vào ủú, tớn hiệu õm thanh cho ra dựa trờn một mụ hỡnh õm thanh. Cỏc thụng số như tần số cơ bản, sự phỏt õm, và mức ủộ tiếng ồn ủược thay ủổi theo thời gian ủể tạo ra dạng súng cho giọng núi nhõn tạo.
Nhiều hệ thống dựa trên tổng hợp cộng hưởng tần số tạo ra giọng nói nhân tạo, như giọng rụbốt, khụng tự nhiờn, và phõn biệt rừ ràng với giọng người thật
Phương pháp tổng hợp tiếng nói theo tần số formant dựa trên cơ sở lý thuyết âm học của quá trình tạo tiếng nói. Như vậy cách tiếp cận này không sử dụng các mẫu tiếng núi của con người tại thời ủiểm thực thi chương trỡnh. Mụ hỡnh bộ tổng
Luận văn thạc sỹ khoa học
Đo lường và cỏc hệ thống ủiều khiển 33 Nguyễn Thị Sim hợp là một hệ thống gồm nguồn âm và các bộ lọc (source filter model) tạo tín hiệu tiếng nói. Mô hình này mô phỏng hiện tượng cộng hưởng của các cơ quan phát âm bằng cỏc tần số formant. Cỏc tần số formant này cũn ủược gọi là tần số cộng hưởng formant. Tiếng núi ủược tạo ra từ cỏc bộ tổng hợp formant với thành phần chớnh là các bộ cộng hưởng. Tuỳ theo cách bố trí các bộ cộng hưởng mà ta có bộ tổng hợp formant là nối tiếp hay song song hoặc cả hai. Qua thực nghiệm, người ta nhận thấy ủể cú thể tạo ra tiếng núi cú thể nghe ủược cần tối thiểu là 3 tần số formant, cũn ủể tạo ra tiếng nói có chất lượng cao thì phải cần ít nhất là 5 tần số formant. Vào năm 1980, Dennis Klatt ủề nghị một mụ hỡnh tổng hợp formant kết hợp cả hai cấu trỳc song song và nối tiếp. Hệ thống này sử dụng một mô hình nguồn kích thích khá phức tạp. Số tham số cho cả hệ thống này lờn ủến 39 tham số, và ủể tạo ra liờn lục từ bộ tổng hợp formant này cỏc tham số sẽ ủược cập nhật liờn tục trong khoảng 10- 20ms.
a. Mô hình bộ tổng hợp tiếng nói theo tần số formant nối tiếp
Mô hình nối tiếp của bộ tổng hợp tiếng nói theo tần số formant là một bộ tổng hợp formant cú cỏc tầng nối tiếp, ủầu ra của bộ cộng hưởng này là ủầu vào của bộ cộng hưởng kia.
Hình 2.5: Cấu trúc cơ bản của một bộ tổng hợp tiếng nói theo tần số formant nối tiếp b. Mô hình bộ tổng hợp tiếng nói theo tần số formant song song
Mô hình song song của bộ tổng hợp tiếng nói theo tần số formant bao gồm các bộ cộng hưởng mắc song song. Đầu ra là kết hợp của tín hiệu nguồn và tất cả cỏc formant. Cấu trỳc song song cần nhiều thụng tin ủể ủiều khiển.
Hệ số
Kích thích
F1 F2
Formant 2 Formant 3 Tiếng nói Formant1
F3
Luận văn thạc sỹ khoa học
Đo lường và cỏc hệ thống ủiều khiển 34 Nguyễn Thị Sim Hình 2.6. Cấu trúc cơ bản của một bộ tổng hợp tiếng nói theo tần số formant song
song
* Ưu ủiểm của phương phỏp này: yờu cầu lưu trữ dữ liệu nhỏ, cú khả năng ủiều khiển mềm dẻo cỏc tham số õm học của tiếng núi, chi phớ tớnh toỏn thấp, tạo ủược số õm lượng khụng hạn chế.
Hệ thống này tạo ra tiếng nói tổng hợp có chất lượng khá dễ nghe, ngay cả ở tốc ủộ cao, khụng cú tiếng cọ xỏt do ghộp õm tạo ra. cỏc hệ thống này hoạt ủộng ở tốc ủộ cao, cú thể hướng dẫn người khiếm thị nhanh chúng dũ dẫm trờn mỏy tớnh, bằng cỏch ủọc to những gỡ hiện ra trờn màn hỡnh. Cỏc hệ thống này cũng nhỏ gọn hơn các hệ thông ghép nối âm, vì không phải chứa cơ sở dữ liệu mẫu âm thanh lớn.
Nú cú thể dựng trong cỏc hệ thống nhỳng khi bộ nhớ và tốc ủộ xử lý cú hạn. Hệ thống này cũng cú khả năng ủiều khiển mọi khớa cạnh của tớn hiệu õm thanh ủi ra, nú cho ra một dải rộng cỏc lời văn và ngữ ủiệu, và khụng chỉ thể hiện ủược cõu núi thường hay cõu hỏi, mà cả cỏc trạng thỏi tỡnh cảm thụng qua õm ủiệu của giọng núi.
* Nhược ủiểm của phương phỏp này: là ủộ tự nhiờn của tiếng núi tổng hợp chưa cao.
F1
Kích thích Formant 2
Formant3
Tiếng nói F2
F3
BW2
BW3 A2
Formant1 BW1 A1
A1
+ -
+
Luận văn thạc sỹ khoa học
Đo lường và cỏc hệ thống ủiều khiển 35 Nguyễn Thị Sim