Dùng hàm vi sai biên đ trung bình

Một phần của tài liệu Tổng hợp tiếng nói sử dụng giải thuật TD PSOLA (Trang 52 - 54)

Trang 40

Dễ thấy rằng d(n) tuần hoàn cùng chu kỳ P với tín hiệu gốc x(n) và đạt giá trị bằng 0 tại các mẫu 0, ±kP,…

Biên độ trung bình thời gian ngắn của d(n) là một hàm của k có giá trị nhỏ khi k gần chu kỳ. Hàm vi sai biên độ trung bình thời gian ngắn (AMDF) được định nghĩa như sau:

Rõ ràng rằng nếu x(n) tuần hoàn với chu kỳ cơ bản P trong giới hạn của cửa sổ thì n(k) cũng tuần hoàn với chu kỳ P, việc tìm chu kỳ cơ bản của tín hiệu gốc x(n) sẽ được đưa về việc tìm chu kỳ của hàm vi sai biên độ trung bình n(k). Nếu cả hai cửa sổ có độ dài như nhau ta sẽ có hàm mô phỏng giống như hàm tự tương quan. Nếu độ dài w2 lớn hơn dộ dài w1 thì n(k) được tính xấp xỉ theo công thức:

với là hằng số biến đổi từ0.6 đến 1 với các đoạn khác nhau của tiếng nói.

2.3.4.2 Làm trơn tín hi u khi ghép nối a. Phương pháp Microphonemic a. Phương pháp Microphonemic

Ý tưởng cơ bản của phương pháp Microphonemic là sử dụng các đơn vị có độ dài thay đổi được lấy từ tiếng nói tự nhiên. Các đơn vị này có thể là các từ, các âm tiết hay các âm vị. Từ điển mẫu sẽ được xây dựng từ những đơn vị này. Các mẫu này được kết hợp trong trục thời gian sử dụng phương pháp PSOLA. Nếu khoảng cách formant giữa các đoạn âm thanh liên tiếp nhỏ hơn 2 Bark, thì sự kết hợp được tạo ra bởi phép nội suy từ các mẫu trên nền biên độ tuyến tính. Nếu sự khác nhau lớn hơn 2 Bark thì một mẫu trung gian phải được thêm vào bởi vì phép nội suy trên nền biên độ không đủ để thay đổi các formant. Với phụ âm cần đặc biệt chú ý. Ví

Trang 41

dụ, với các phụ âm dừng có thể được khôi phục trực tiếp từ các sóng tiếng nói như một biến thể của nguyên âm trong một số ngữ cảnh. Với các âm xát, độ dài mẫu khoảng 50 ms và khoảng 10 ms đối với các đơn vị được lấy ngẫu nhiên từ quá trình ghép nối của phương pháp nội suy trên.

u điểm của phương pháp Microphonemic là đòi hỏi số phép so sánh thấp so với các phương pháp cơ bản. Nhưng vấn đề ở đây là làm thế nào để tối ưu với các đoạn được lấy từ các mẫu tự nhiên và phát triển các luật để kết hợp chúng.

Một phần của tài liệu Tổng hợp tiếng nói sử dụng giải thuật TD PSOLA (Trang 52 - 54)