Tổng hợp tiếng nĩi theo tần số formant (formant synthesis) khơng sử dụng bất cứ
mẫu giọng thật nào khi chạỵ Thay vào đĩ, tín hiệu âm thanh cho ra dựa trên một mơ hình âm thanh. Các thơng số như tần số cơ bản, sự phát âm, và mức độ tiếng ồn
được thay đổi theo thời gian để tạo ra dạng sĩng cho giọng nĩi nhân tạọ
Nhiều hệ thống dựa trên tổng hợp cộng hưởng tần số tạo ra giọng nĩi nhân tạo, như giọng rơbốt, khơng tự nhiên, và phân biệt rõ ràng với giọng người thật
Phương pháp tổng hợp tiếng nĩi theo tần số formant dựa trên cơ sở lý thuyết âm học của quá trình tạo tiếng nĩị Như vậy cách tiếp cận này khơng sử dụng các mẫu tiếng nĩi của con người tại thời điểm thực thi chương trình. Mơ hình bộ tổng
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 33 Nguyễn Thị Sim
hợp là một hệ thống gồm nguồn âm và các bộ lọc (source filter model) tạo tín hiệu tiếng nĩị Mơ hình này mơ phỏng hiện tượng cộng hưởng của các cơ quan phát âm bằng các tần số formant. Các tần số formant này cịn được gọi là tần số cộng hưởng formant. Tiếng nĩi được tạo ra từ các bộ tổng hợp formant với thành phần chính là các bộ cộng hưởng. Tuỳ theo cách bố trí các bộ cộng hưởng mà ta cĩ bộ tổng hợp formant là nối tiếp hay song song hoặc cả haị Qua thực nghiệm, người ta nhận thấy
để cĩ thể tạo ra tiếng nĩi cĩ thể nghe được cần tối thiểu là 3 tần số formant, cịn để
tạo ra tiếng nĩi cĩ chất lượng cao thì phải cần ít nhất là 5 tần số formant. Vào năm 1980, Dennis Klatt đề nghị một mơ hình tổng hợp formant kết hợp cả hai cấu trúc song song và nối tiếp. Hệ thống này sử dụng một mơ hình nguồn kích thích khá phức tạp. Số tham số cho cả hệ thống này lên đến 39 tham số, và để tạo ra liên lục từ bộ tổng hợp formant này các tham số sẽđược cập nhật liên tục trong khoảng 10- 20ms.
ạ Mơ hình bộ tổng hợp tiếng nĩi theo tần số formant nối tiếp
Mơ hình nối tiếp của bộ tổng hợp tiếng nĩi theo tần số formant là một bộ
tổng hợp formant cĩ các tầng nối tiếp, đầu ra của bộ cộng hưởng này là đầu vào của bộ cộng hưởng kiạ
Hình 2.5: Cấu trúc cơ bản của một bộ tổng hợp tiếng nĩi theo tần số formant nối tiếp
b.Mơ hình bộ tổng hợp tiếng nĩi theo tần số formant song song
Mơ hình song song của bộ tổng hợp tiếng nĩi theo tần số formant bao gồm các bộ cộng hưởng mắc song song. Đầu ra là kết hợp của tín hiệu nguồn và tất cả
các formant. Cấu trúc song song cần nhiều thơng tin đểđiều khiển. Hệ số
Kích thích
F1 F2
Formant 2 Formant 3 Tiếng nĩi Formant1
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 34 Nguyễn Thị Sim
Hình 2.6. Cấu trúc cơ bản của một bộ tổng hợp tiếng nĩi theo tần số formant song song
* Ưu điểm của phương pháp này: yêu cầu lưu trữ dữ liệu nhỏ, cĩ khả năng
điều khiển mềm dẻo các tham số âm học của tiếng nĩi, chi phí tính tốn thấp, tạo
được số âm lượng khơng hạn chế.
Hệ thống này tạo ra tiếng nĩi tổng hợp cĩ chất lượng khá dễ nghe, ngay cảở
tốc độ cao, khơng cĩ tiếng cọ xát do ghép âm tạo rạ các hệ thống này hoạt động ở
tốc độ cao, cĩ thể hướng dẫn người khiếm thị nhanh chĩng dị dẫm trên máy tính, bằng cách đọc to những gì hiện ra trên màn hình. Các hệ thống này cũng nhỏ gọn hơn các hệ thơng ghép nối âm, vì khơng phải chứa cơ sở dữ liệu mẫu âm thanh lớn. Nĩ cĩ thể dùng trong các hệ thống nhúng khi bộ nhớ và tốc độ xử lý cĩ hạn. Hệ
thống này cũng cĩ khả năng điều khiển mọi khía cạnh của tín hiệu âm thanh đi ra, nĩ cho ra một dải rộng các lời văn và ngữđiệu, và khơng chỉ thể hiện được câu nĩi thường hay câu hỏi, mà cả các trạng thái tình cảm thơng qua âm điệu của giọng nĩị
* Nhược điểm của phương pháp này: là độ tự nhiên của tiếng nĩi tổng hợp chưa caọ F1 Kích thích Formant 2 Formant3 Tiếng nĩi F2 F3 BW2 BW3 A2 Formant1 BW1 A1 A1 + - +
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 35 Nguyễn Thị Sim 2.4.3. Phương pháp tổng hợp tiếng nĩi bằng cách ghép nối
Tổng hợp bằng cách ghép nối: là phương pháp tạo tiếng nĩi bằng cách phát lại các ghép đoạn tiếng nĩi tự nhiên ghi âm trước. Như vậy phương pháp này cần sử
dụng một kho ngữ dữ liệu tiếng nĩi rất lớn, được thu âm trước. Trong tiến trình tạo kho dữ liệu tiếng nĩi, các câu ghi âm sẽđược cắt nhỏ thành các đơn vị ngữ âm như: âm vị, âm tiết, bán âm tiết, âm vị kép …, bằng cách sử dụng hệ thống nhận dạng tiếng nĩị Tùy thuộc vào đặc điểm của ngơn ngữ và ứng dụng, cĩ nhiều lựa chọn khác nhau vềđộ dài của các đoạn tiếng nĩi để làm đơn vị ghép nốị Đơn vị ghép nối cĩ thể là cả ngữ đoạn khi các ứng dụng là các thơng báo với khung cốđịnh, chỉ cĩ một phần thơng tin thay đổi như tại các nhà ga hay bản tin thời tiết, trả lời tựđộng một số thơng tin qua điện thoại… Với các tình huống ứng dụng yêu cầu đọc khơng hạn chế văn bản thì đơn vị ghép nối cần phải ngắn hơn, như từ, âm tiết, bán âm tiết (demisyllables), âm vị kép (diphone) do đĩ chúng ta cắt đoạn văn bản đã thu ra thành các âm vị hoặc các âm tiết sau đĩ ghép nối các âm vị hoặc các âm tiết đĩ lại với nhau để tạo ra tiếng nĩị
Tổng hợp bằng cách ghép nối các âm được tổng hợp từ các lời nĩi tự nhiên
đã được thu từ trước cĩ lẽ là cách dễ nhất để sản sinh lời nĩị Phương pháp tổng hợp ghép nối cho chất lượng cao và tương đối tự nhiên. Phương pháp này rất phù hợp với các hệ thống phát thanh và các hệ thống thơng tin.
Tuy nhiên phương pháp này thường chỉ áp dụng cho một giọng và phải sử
dụng nhiều bộ nhớ hơn các phương pháp khác do số lượng từ vựng rất lớn. Để khắc phục nhược điểm này người ta xây dựng các phương pháp tổng hợp ghép nối từ
những đơn vị nhỏ như âm vị, âm tiết, diphone (âm vị kép. Các diphone được cắt ra từ tín hiệu rồi sau đĩ được tổng hợp lại theo yêu cầu dựa trên một thuật tốn ghép nốị
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 36 Nguyễn Thị Sim
- Xuất hiện sự biến dạng của tiếng nĩi tổng hợp do tính khơng liên tục của việc ghép nối các diphone với nhaụ Vì vậy phải sử dụng biện pháp làm trơn tín hiệụ
- Bộ nhớ yêu cầu cao, nhất là khi các đơn vị kết nối dài như là các âm vị hay các từ.
- Sưu tầm và gắn nhãn dữ liệu tiếng nĩi cần nhiều thời gian và cơng sức. Về
lý thuyết tất cả các mẫu cần phải được lưu trữ. Số lượng và chất lượng các mẫu lưu trữ là một vấn đề cần giải quyết khi tiến hành lưu trữ.
Hiện nay phương pháp này đang được sử dụng rộng rãi trên thế giới và ngày càng cho chất lượng tốt hơn nhờ sự trợ giúp của máy tính.
Phần tiếp theo sẽ giới thiệu về một phương pháp tổng hợp ghép nối được áp dụng phổ biến cho tín hiệu tiếng nĩi, phương pháp ghép nối dựa trên giải thuật PSOLẠ
ạ Phương pháp tổng hợp PSOLA
PSOLA (Pitch Synchronous Overlap Ađ) là phương pháp tổng hợp dựa trên sự phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần. Khi cộng, xếp chồng (overlap-ađ) các tín hiệu thành phần ta cĩ thể khội phục lại tín hiệu ban đầụ PSOLA thao tác trực tiếp với tín hiệu dạng sĩng, khơng dùng bất cứ loại mơ hình nào nên khơng làm mất thơng tin của tín hiệụ PSOLA cho phép điều khiển độc lập tần số cơ bản, chu kỳ cơ bản và các formant của tín hiệụ
Ưu điểm chính của phương pháp PSOLA là giữ nguyên đường bao phổ khi thay đổi tần số cơ bản (pitch shifting). Phương pháp này cho phép biến đổi tín hiệu ngay trên miền thời gian nên chi phí tính tốn rất thấp. PSOLA đã được dùng rất phổ biến với tín hiệu tiếng nĩị
b. Các phiên bản của PSOLA
Dựa trên PSOLA, người ta đã đưa ra nhiều phiên bản khác nhau, dưới đây là các phiên bản chính:
- TD-PSOLA: Phương pháp TD-PSOLA (Time Domain- Pitch Synchronous Overlap Ađ) là phiên bản miền thời gian của PSOLA (TD-PSOLA). Phương pháp
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 37 Nguyễn Thị Sim
này thao tác với tín hiệu trên miền thời gian nên được sử dụng nhiều vì hiệu quả
trong tính tốn của nĩ. Phương pháp này sẽ được trình bày chi tiết trong chương tiếp theọ
- FD-PSOLA: Phương pháp tổng hợp FD-PSOLA (Frequency Domain- Pitch Synchronous Overlap Ađ) là phương pháp bao gồm các bước giống như TD- PSOLA nhưng thao tác trên miền tần số. Phương pháp này cĩ chi phí tính tốn cao hơn TD-PSOLẠ Đối với mỗi trường hợp riêng biệt thì mỗi phương pháp sẽ cho hiệu quả khác nhau, nên phải dựa vào từng hồn cảnh để chọn phương pháp thích hợp.
- LP-PSOLA: Ngồi các phương pháp trên miền thời gian, miền tần số, cịn cĩ một phương pháp gọi là phương pháp dự đốn tuyến tính (Linear Prediction – Pitch Synchronous Overlap Ađ). Phương pháp dựđốn tuyến tính được thiết kếđể
mã hố tiếng nĩi nhưng phương pháp này cũng cĩ thể dùng cho tổng hợp.
Cơ sở của phương pháp dự đốn tuyến tính dựa trên các mẫu y(n) cĩ thể lấy xấp xỉ hoặc dựđốn từ p mẫu trước đĩ y(n-l) đến y(n-p) với sai số nhỏ nhất.
Như vậy: ∑ = − + = p k k n y k a n e n y 1 ) ( ) ( ) ( ) ( Và ( ) ( ) ( ) ( ) ( ) ~( ) 1 n y n y k n y k a n y n e p k − = − − = ∑ =
Với ỹ(n) là giá trị dự đốn, p là thứ tự dự đốn tuyến tính, a(k) là hệ số dự đốn tuyến tính được tìm bằng cách lấy min tổng bình phương của các khung lỗị
Tín hiệu kích thích được lấy xấp xỉ bằng một dãy các tín hiệu tiếng nĩi và nhiễu ngẫu nhiên. Tín hiệu nguồn được cho qua bộ lọc số với hệ số ăk).
Phương pháp LP-PSOLA cho kết quả chưa tốt. Người ta đã cải biến phương pháp này để thu được chất lượng tốt hơn, mà đại diên là phương pháp WLP (Warped Linear Prediction). Ý tưởng cơ bản là thay thế các đơn vị trễ trong bộ lọc số bởi các đoạn sau: 1 1 1 1 1 ) ( ~ − − − − − − = Z Z Z D z λ λ
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 38 Nguyễn Thị Sim
Với z là tham số cong nằm trong khoảng [-1,1] và D1(z) là nhân tử cong trễ
với λ = 0.63 tại tần số lấy mẫu là 22 kHz. WLP đưa ra cách giải quyết tốt hơn cho tần số cao và tồi hơn cho tần số thấp.
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 39 Nguyễn Thị Sim
Chương 3: MƠ HÌNH TỔNG HỢP TIẾNG NĨI DRM VÀ MƠ HÌNH CẤU ÂM
3.1. Mơ hình tổng hợp tiếng nĩi Distinctive region model (DRM)
Mơ hình tổng hợp tiếng nĩi DRM (Distinctive region model) được đề xuất lần đầu tiên vào năm 1988 bởi M. Mrayati, R. Carré và B. Guerin. Trong mơ hình này, các vùng âm học được tạo bởi biên giới của các điểm qua khơng của các hàm
đo độ thay đổi tiết diện (sensitivity function) của một ống tiết diện đều đĩng – mở
(phía đầu của ống âm học khép kín, phía cuối của ống để mở) (uniform closed – open tube). Thật vậy, đối với bất kỳ một ống âm học, hàm sensitivity cho chúng ta thơng tin về sự thay đổi của mỗi tần số cộng hưởng (formant) theo sự thay đổi của tiết diện của ống dọc theo chiều dài của ống âm học (R. Carré, Maria Mody, 1997).
Hàm sensitivity được tính theo giá trị trung bình của sự thay đổi của tần số
cộng hưởng dọc theo chiều dài của ống âm học. Kết quả nghiên cứu đã chỉ ra rằng, hình dáng của hàm sensitivity phụ thuộc vào hình dáng của ống âm học. hình 3.1 dưới đây biểu diễn giá trị của hàm sensitivity đối với tần số cộng hưởng đầu tiên (F1) của một ống âm học đĩng – mở cĩ chiều dài 18 cm, được chia làm 18 đoạn cĩ chiều dài bằng nhau (1cm).
Hình 3.1: (a) Tiết diện của một ống âm học đĩng - mở; (b) Hình dáng của hàm sensitivity đối với tần số cộng hưởng thứ nhất F1 (R. Carré, Maria Mody, 1997)
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 40 Nguyễn Thị Sim
Kết quả cho thấy, bất kỳ sự thay đổi nào diện tích tiết diện ở nửa trước của
ống âm học sẽ làm tăng giá trị của tần số cộng hưởng thứ nhất F1, ngược lại, sự
thay đổi tiết diện của nửa phía sau của ống âm học sẽ làm giảm tần số formant F1. Như vậy cĩ thể nĩi, sự thay đổi đặc tính âm học theo kích thước (tiết diện) của ống là khơng đối xứng.
Hình 3.2 dưới đây mơ tả một ống âm học đĩng – mở khơng đều và hàm sensitivity S0F1(n) của tần số formant F1. Dễ dàng nhận thấy rằng, trong trường hợp ống âm học khơng đều đĩng – mở, hàm sensitivity của tần số formant F1 khơng thực sựđối xứng. Nĩ đạt giá trị cực đại dương tại vị trí cuối của ống âm học, đạt giá trị cực đại âm tại vị trí 6cm, bằng 0 tại vị trí 11cm của ống âm học. Như vậy, khi thay đổi kích thước (thiết diện) của ống tại vị trí 6cm và 18cm, sự thay đổi về tần số
cộng hưởng thứ nhất F1 sẽ đạt hiệu quả nhất, ngược lại tại vị trí 11cm, kích thước của ống thay đổi nhiều hay ít cũng sẽ khơng làm thay đổi nhiều đến giá trị của tần số formant F1.
Tuy nhiên, sự thay đổi giá trị tần số formant (đạt giá trị cực đại) khơng thể đạt được trong lần thay đổi đầu tiên thiết diện của ống âm học. Thực tế, quá trình thay đổi thiết diện của ống phải được thực hiện dần dần, qua từng bước, với mỗi bước sự thay đổi là đủ nhỏ. Khi đĩ, với mỗi bước, hàm sensitivity được tính tốn lại và sự biến đổi hình dáng của ống âm học sẽđược thực hiện dựa theo giá trị mới của hàm sensitivitỵ
Cơng thức dưới đây đưa ra thuật tốn được sử dụng để tính tốn lại hình dáng của ống âm học. Ai+1(n) = Ai(n)[1 + k(n).SiF1(n) ] 0 < i < j ; 0 < n ≤ m Trong đĩ: - n là sốđoạn của ống âm học (tính từ vị trí đầu tiên của ống) (n ≤ m = 18) - m là tổng sốđoạn của ống âm học - j là tổng số lần lặp
Luận văn thạc sỹ khoa học
Đo lường và các hệ thống điều khiển 41 Nguyễn Thị Sim
- Si=0F1 là hàm sensitivity của tần số formant F1 tương ứng với trạng thái khởi tạo của ống âm học.