4. Tổng hợp tiếng nói là giai đoạn cuối cùng thực hiện việc giải mã các thông tin từ chuỗi mô tả ngữ âm nhận được từ khối xử lý văn bản, tạo ra
2.3. Thành phần xử tín hiệu số
Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu từ đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đưa chúng thành các tín hiệu tiếng nói. Có hai kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp theo luật hoặc tổng hợp ghép nối.
Tổng hợp dựa trên luật
Theo Dutoit [22] thì tổng hợp dựa trên luật gồm dãy các luật mô tả ảnh hưởng của các âm vị lên một âm vị khác và phương pháp này rất phù hợp với các nhà ngữ âm học. Chúng liên quan đến việc tích lũy kinh nghiệm, đây là cách tiếp cận có khả năng tạo ra máy phiên âm âm vị theo luật.
Dutoit cũng phát biểu rằng: ”Với những lí do về lịch sử và thực tế, tổng hợp luật luôn xuất hiện dưới dạng tổng hợp formant. Cách tiếp cận này miêu tả tiếng nói như là sự tương tác của tần số formant, tần số ngược formant, băng thông và sóng thanh môn.
Tổng hợp dựa trên luật vẫn là cách tiếp cận tiềm tàng cho tổng hợp tiếng nói. Ưu điểm của phương pháp này cho phép thay đổi đặc trưng giọng nói độc lập với người nói. Nó dùng các luật riêng trong cơ sở dữ liệu luật. Tuy nhiên, nhược điểm rất khó thu thập được đầy đủ các luật để mô tả tính phong phú của ngôn điệu. Hơn nữa, việc thu thập luật là công việc nhàm chán.
Tổng hợp ghép nối sử dụng tiếng nói ghi âm thực tế như là các đơn vị tổng hợp và ghép nối đơn vị cùng sinh ra tiếng nói. Dutoit [22] cho rằng tổng hợp tiếng nói bằng ghép nối là cách tiếp cận đơn giản nhất và hiệu quả nhất. Hơn nữa, các hệ thống tổng hợp hiện nay cũng chủ yếu theo phương pháp ghép nối đơn vị. Vì vậy, trong tổng hợp ghép nối, việc lựa chọn đơn vị là tiêu chuẩn sinh tiếng nói chất lượng cao. Các đơn vị tiếng nói được chọn sao cho cực tiểu các lỗi trong ghép nối như làm trơn biên độ giữa các đoạn tiếng nói. Thông thường, các đơn vị tiếng nói được lưu trữ trong cơ sở dữ liệu lớn.
Trong phần trước, các âm vị xem như là các đơn vị tổng hợp cơ bản. Trong các ứng dụng đòi hỏi bộ nhớ nhỏ, vấn đề giảm kích thước lưu trữ cũng đáng quan tâm. Như vậy, việc dùng âm vị có thể làm giảm bộ nhớ nhưng lại xuất hiện rất nhiều lỗi gián đoạn do việc ghép nối của các âm vị. Cho nên, Dutoit cũng có đề xuất là đơn vị tiếng nói có thể là diphone hoặc triphone. Chọn diphone hay triphone làm giảm được lỗi trong ghép nối, chất lượng tốt hơn tuy bộ nhớ có tăng lên.
Các mô hình dùng trong tổng hợp ghép nối thường dựa trên các công cụ xử lý tiếng nói và một số phương pháp biểu diễn như tổng hợp LPC,
Harmonic/Stochastic (H/S), cộng chồng đồng bộ (PSOLA) và cộng chồng đồng bộ miền thời gian (TD-PSOLA).
Ưu điểm của thuật toán PSOLA có thể tạo ra tiếng nói tổng hợp có chất lượng cao với độ tính toán phức tạp thấp. Nó cũng dùng tối ưu hóa đơn vị tổng hợp, đảm bảo các đặc trưng ngôn điệu của tiếng nói tổng hợp đạt được giá trị dự đoán. Việc hiệu chỉnh bao gồm việc thay đổi đường F0 cho mỗi âm tiết, thay đổi biên độ của phụ âm và âm cuối của mỗi âm tiết, phân chia lại mức năng lượng và thiết lập lại trường độ nghỉ bên trong âm tiết.
Thuật toán TD-PSOLA là thuật toán miền thời gian và cũng là phương pháp ghép nối tốt nhất hiện nay. Tuy nhiên, mô hình H/S mạnh hơn TD-PSOLA nhưng tính toán phức tạp hơn.
Quá trình đồng bộ sóng âm và văn bản xảy ra như sau: dãy các đoạn tiếng nói được xử lý thành các âm vị của bộ tổng hợp. Các sự kiện ngôn điệu được hiệu chỉnh cho từng đoạn, mô đun ánh xạ ngôn điệu đòi hỏi cơ sở dữ liệu phân đoạn có các tham số thực, không mã hóa, dùng âm thanh gốc và sửa lại cho phù hợp. Khối
ghép nối đoạn phụ trách ánh xạ tự động các đoạn tới một đoạn khác bằng cách làm trơn các điểm gián đoạn. Dãy kết quả tham số cuối cùng đưa đến đầu vào của khối tổng hợp.