TD_PSOLA và tín hi u ting nó

b. Các phiên bản của PSOLA

2.3.3 TD_PSOLA và tín hi u ting nó

Khi tổng hợp tiếng nói, kích cỡ của cửa sổ sẽthay đổi theo từng khung tín hiệu:

Trong đó wj(n) là kích cỡ của cửa sổ mà giá trị của nó phải nằm trong đoạn [0, 1]. Các khung OLA đã được lấy từ các đoạn tín hiệu tại vị trí được xác định bởi điểm mốc j và gửi tới hệ thống cộng xếp chồng. Với giá trị chuẩn là FR = 1, thì tổng không xác định trên bị giới hạn bởi giá trị lớn nhất của bốn đoạn tín hiệu, đối với các hệ số pitch thì tỉ số của tần số tuần hoàn tổng hợp địa phương và tần số gốc được định nghĩa như sau: FP = �

� và nằm trong đoạn [0.5, 2].

Phải chú ý rằng, tính đúng đắn của công thức xấp xỉ nêu trên phụ thuộc nhiều vào giá trị của tần số tổng hợp. FP > 1 sẽ cho kết quả không tốt. Khi FP < 1, giá trị của K sẽ phụ thuộc nhiều vào các hệ sốpitch. Để khắc phục, mỗi mẫu tổng hợp sẽ được nhân với hai nhân tố chuẩn hoá:

với giả thiết αi =

��

Hiệu chỉnh tỉ lệpitch được thực hiện bằng cách tái hợp một số khung được thiết lập ở những khoảng cách khác nhau từ bản gốc. Giả sử một đoạn tiếng nói có pitch bằng 100Hz, chúng ta sẽ thực hiện phân tích đồng bộ với một cửa sổ hamming. Nếu

Trang 34

chúng ta đặt khung cửa sổ là 9ms và cộng chồng lấp thì ta sẽđược một tín hiệu với pitch bằng 111Hz, còn nếu ta đặt khung cửa sổ là 11ms thì ta được tín hiệu với pitch là 91Hz. Quá trình làm giảm pitch giải thích tại sau chúng ta cần phải phân tích của sổđó có hai giai đoạn dài pitch.

Trang 35

Hình 2.13: a. Hiệu chỉnh giảm tỉ lệ pitch; b. Hiệu chỉnh tăng tỉ lệ pitch

Trang 36

Hiệu chỉnh tỉ lệ thời gian, việc kéo dài ra được hiệu chỉnh bằng cách nhân đôi một số khung cố định, theo trình tự rồi sau đó cộng chồng lên nhau, kết quả làm cho dạng sóng tín hiệu dài ra, người nghe sẽ không phát hiện được và sẽ cảm nhận được như một phân đoạn dài của lời nói tự nhiên. Còn thu ngắn lại được thực hiện bằng cách loại bỏ một số khung nhất định rồi sau đó cộng chồng lên nhau, kết quả thu được là dạng sóng tín hiệu sẽ ngắn hơn và người nghe sẽ cảm nhận một phân đoạn tiếng nói ngắn của tự nhiên.

Hình 2.15: Hiệu chỉnh tỉ lệ thời gian

Biểu d in tín hi u ting nó

Bt ngh p formant song song