c) Số lƣợng formant trong tuyến âm nối tiếp (ký hiệu là nf ): là số lượng formant tính từ F1 đến tối đa F8 thực sự có trong âm nối tiếp.
1.5.3. Tổng hợp ghép nố
Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn. Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất. Tuy nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên
[30]. Có ba loại tổng hợp ghép nối: tổng hợp chọn đơn vị, tổng hợp diphone (hai nửa của hai âm vị liền nhau) và tổng hợp theo miền.
Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói lớn. Trong quá trình tạo cơ cở dữ liệu, mỗi phát âm được thu âm sẽ được phân thành các âm vị, âm tiết, hình vị, từ, cụm và các câu riêng. Việc phân chia thành các đoạn có thể dùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan. Phương pháp này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu.
Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone xuất hiện trong ngôn ngữ. Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ. Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức khoảng 2500 diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu. Chất lượng tiếng nói tổng hợp thường không tốt bằng tổng hợp chọn đơn vị. Ưu điểm của tổng hợp diphone là cơ sở dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối chọn đơn vị.
Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu trong CSDL để tạo thành lời nói hoàn chỉnh. Ưu điểm tiếng nói tự nhiên, tuy nhiên lại hạn chế về số lượng từ và câu có thể tổng hợp được.
Hình 1.8: Ví dụ về sơ đồ hệ thống tổng hợp ghép nối.