Phương pháp tổng hợp tiếng nói bằng cách ghép nối

Một phần của tài liệu Đề tài nghiên cứu và xây dựng cách tính toán hình dáng ống thanh quản (Trang 35 - 39)

Chương 2 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NểI

2.4. Các phương pháp tổng hợp tiếng nói

2.4.3. Phương pháp tổng hợp tiếng nói bằng cách ghép nối

Tổng hợp bằng cách ghép nối: là phương pháp tạo tiếng nói bằng cách phát lại cỏc ghộp ủoạn tiếng núi tự nhiờn ghi õm trước. Như vậy phương phỏp này cần sử dụng một kho ngữ dữ liệu tiếng núi rất lớn, ủược thu õm trước. Trong tiến trỡnh tạo kho dữ liệu tiếng núi, cỏc cõu ghi õm sẽ ủược cắt nhỏ thành cỏc ủơn vị ngữ õm như:

âm vị, âm tiết, bán âm tiết, âm vị kép …, bằng cách sử dụng hệ thống nhận dạng tiếng núi. Tựy thuộc vào ủặc ủiểm của ngụn ngữ và ứng dụng, cú nhiều lựa chọn khỏc nhau về ủộ dài của cỏc ủoạn tiếng núi ủể làm ủơn vị ghộp nối. Đơn vị ghộp nối cú thể là cả ngữ ủoạn khi cỏc ứng dụng là cỏc thụng bỏo với khung cố ủịnh, chỉ cú một phần thụng tin thay ủổi như tại cỏc nhà ga hay bản tin thời tiết, trả lời tự ủộng một số thụng tin qua ủiện thoại… Với cỏc tỡnh huống ứng dụng yờu cầu ủọc khụng hạn chế văn bản thỡ ủơn vị ghộp nối cần phải ngắn hơn, như từ, õm tiết, bỏn õm tiết (demisyllables), õm vị kộp (diphone) do ủú chỳng ta cắt ủoạn văn bản ủó thu ra thành cỏc õm vị hoặc cỏc õm tiết sau ủú ghộp nối cỏc õm vị hoặc cỏc õm tiết ủú lại với nhau ủể tạo ra tiếng núi.

Tổng hợp bằng cỏch ghộp nối cỏc õm ủược tổng hợp từ cỏc lời núi tự nhiờn ủó ủược thu từ trước cú lẽ là cỏch dễ nhất ủể sản sinh lời núi. Phương phỏp tổng hợp ghộp nối cho chất lượng cao và tương ủối tự nhiờn. Phương phỏp này rất phự hợp với các hệ thống phát thanh và các hệ thống thông tin.

Tuy nhiên phương pháp này thường chỉ áp dụng cho một giọng và phải sử dụng nhiều bộ nhớ hơn các phương pháp khác do số lượng từ vựng rất lớn. Để khắc phục nhược ủiểm này người ta xõy dựng cỏc phương phỏp tổng hợp ghộp nối từ những ủơn vị nhỏ như õm vị, õm tiết, diphone (õm vị kộp. Cỏc diphone ủược cắt ra từ tớn hiệu rồi sau ủú ủược tổng hợp lại theo yờu cầu dựa trờn một thuật toỏn ghộp nối.

Phương pháp này có một số khác biệt so với các phương pháp khác:

Lun văn thc s khoa hc

Đo lường và cỏc h thng iu khin 36 Nguyn Th Sim - Xuất hiện sự biến dạng của tiếng nói tổng hợp do tính không liên tục của việc ghép nối các diphone với nhau. Vì vậy phải sử dụng biện pháp làm trơn tín hiệu.

- Bộ nhớ yờu cầu cao, nhất là khi cỏc ủơn vị kết nối dài như là cỏc õm vị hay các từ.

- Sưu tầm và gắn nhãn dữ liệu tiếng nói cần nhiều thời gian và công sức. Về lý thuyết tất cả cỏc mẫu cần phải ủược lưu trữ. Số lượng và chất lượng cỏc mẫu lưu trữ là một vấn ủề cần giải quyết khi tiến hành lưu trữ.

Hiện nay phương phỏp này ủang ủược sử dụng rộng rói trờn thế giới và ngày càng cho chất lượng tốt hơn nhờ sự trợ giúp của máy tính.

Phần tiếp theo sẽ giới thiệu về một phương phỏp tổng hợp ghộp nối ủược ỏp dụng phổ biến cho tín hiệu tiếng nói, phương pháp ghép nối dựa trên giải thuật PSOLA.

a. Phương pháp tổng hợp PSOLA

PSOLA (Pitch Synchronous Overlap Add) là phương pháp tổng hợp dựa trên sự phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần. Khi cộng, xếp chồng (overlap-add) cỏc tớn hiệu thành phần ta cú thể khội phục lại tớn hiệu ban ủầu.

PSOLA thao tác trực tiếp với tín hiệu dạng sóng, không dùng bất cứ loại mô hình nào nờn khụng làm mất thụng tin của tớn hiệu. PSOLA cho phộp ủiều khiển ủộc lập tần số cơ bản, chu kỳ cơ bản và các formant của tín hiệu.

Ưu ủiểm chớnh của phương phỏp PSOLA là giữ nguyờn ủường bao phổ khi thay ủổi tần số cơ bản (pitch shifting). Phương phỏp này cho phộp biến ủổi tớn hiệu ngay trờn miền thời gian nờn chi phớ tớnh toỏn rất thấp. PSOLA ủó ủược dựng rất phổ biến với tín hiệu tiếng nói.

b. Các phiên bản của PSOLA

Dựa trờn PSOLA, người ta ủó ủưa ra nhiều phiờn bản khỏc nhau, dưới ủõy là các phiên bản chính:

- TD-PSOLA: Phương pháp TD-PSOLA (Time Domain- Pitch Synchronous Overlap Add) là phiên bản miền thời gian của PSOLA (TD-PSOLA). Phương pháp

Lun văn thc s khoa hc

Đo lường và cỏc h thng iu khin 37 Nguyn Th Sim này thao tỏc với tớn hiệu trờn miền thời gian nờn ủược sử dụng nhiều vỡ hiệu quả trong tớnh toỏn của nú. Phương phỏp này sẽ ủược trỡnh bày chi tiết trong chương tiếp theo.

- FD-PSOLA: Phương pháp tổng hợp FD-PSOLA (Frequency Domain- Pitch Synchronous Overlap Add) là phương pháp bao gồm các bước giống như TD- PSOLA nhưng thao tác trên miền tần số. Phương pháp này có chi phí tính toán cao hơn TD-PSOLA. Đối với mỗi trường hợp riêng biệt thì mỗi phương pháp sẽ cho hiệu quả khỏc nhau, nờn phải dựa vào từng hoàn cảnh ủể chọn phương phỏp thớch hợp.

- LP-PSOLA: Ngoài các phương pháp trên miền thời gian, miền tần số, còn cĩ một phương pháp gọi là phương pháp dự đốn tuyến tính (Linear Prediction – Pitch Synchronous Overlap Add). Phương pháp dự đốn tuyến tính được thiết kế để mã hoá tiếng nói nhưng phương pháp này cũng có thể dùng cho tổng hợp.

Cơ sở của phương pháp dự đốn tuyến tính dựa trên các mẫu y(n) cĩ thể lấy xấp xỉ hoặc dự đốn từ p mẫu trước đĩ y(n-l) đến y(n-p) với sai số nhỏ nhất.

Như vậy:

=

− +

= p

k

k n y k a n

e n y

1

) ( ) ( )

( ) (

Và ( ) ( ) ( ) ( ) ( ) ~( )

1

n y n y k n y k a n

y n e

p

k

=

= ∑

=

Với (n) là giá trị dự đốn, p là thứ tự dự đốn tuyến tính, a(k) là hệ số dự đốn tuyến tớnh ủược tỡm bằng cỏch lấy min tổng bỡnh phương của cỏc khung lỗi.

Tớn hiệu kớch thớch ủược lấy xấp xỉ bằng một dóy cỏc tớn hiệu tiếng núi và nhiễu ngẫu nhiờn. Tớn hiệu nguồn ủược cho qua bộ lọc số với hệ số a(k).

Phương phỏp LP-PSOLA cho kết quả chưa tốt. Người ta ủó cải biến phương phỏp này ủể thu ủược chất lượng tốt hơn, mà ủại diờn là phương phỏp WLP (Warped Linear Prediction). í tưởng cơ bản là thay thế cỏc ủơn vị trễ trong bộ lọc số bởi cỏc ủoạn sau:

1 1 1

1

) 1

~ (

− −

− −

= Z

Z Z D

z λ λ

Lun văn thc s khoa hc

Đo lường và cỏc h thng iu khin 38 Nguyn Th Sim Với z là tham số cong nằm trong khoảng [-1,1] và D1(z) là nhân tử cong trễ với λ = 0.63 tại tần số lấy mẫu là 22 kHz. WLP ủưa ra cỏch giải quyết tốt hơn cho tần số cao và tồi hơn cho tần số thấp.

Lun văn thc s khoa hc

Đo lường và cỏc h thng iu khin 39 Nguyn Th Sim

Chương 3: Mễ HèNH TỔNG HỢP TIẾNG NểI DRM VÀ Mễ

Một phần của tài liệu Đề tài nghiên cứu và xây dựng cách tính toán hình dáng ống thanh quản (Trang 35 - 39)

Tải bản đầy đủ (PDF)

(61 trang)