Phƣơng pháp Tổng hợp ghép nối

Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn. Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất. Tuy nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên Có ba loại tổng hợp ghép nối: tổng hợp chọn đơn vị, tổng hợp bán âm tiết và tổng hợp theo lĩnh vực riêng.

Tổng hợp chọn đơn vị sử dụng cơ sở dữ liệu tiếng nói lớn. Trong quá trình tạo cơ cở dữ liệu, mỗi phát âm đƣợc thu âm sẽ đƣợc phân thành các âm vị, âm tiết, hình vị, từ, cụm và các câu riêng. Việc phân chia thành các đoạn có thể dùng một số các kỹ thuật nhƣ kỹ thuật phân cụm, chƣơng trình nhận dạng, phân đoạn bằng tay sƣ dụng công cụ xử lý và gán nhãn tiếng nói trực quan. Phƣơng pháp này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu.

Tổng hợp diphone dùng cơ sở dữ liệu tiếng nói tối thiểu chứa toàn bộ các diphone xuất hiện trong ngôn ngữ. Số lƣợng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ. Chẳng hạn tiếng Tây Ban nha là 800 bán âm tiết, tiếng Đức khoảng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

2500 bán âm tiết. Trong tổng hợp diphone, mỗi diphone chỉ có một lựa chọn trong cơ sở dữ liệu. Chất lƣợng tiếng nói tổng hợp thƣờng không tốt bằng tổng hợp chọn đơn vị. Ƣu điểm của tổng hợp diphone là cơ sở dữ liệu nhỏ hơn phƣơng pháp tổng hợp ghép nối chọn đơn vị.

Tổng hợp theo miền cụ thể ghép các từ và các cụm đƣợc ghi sẵn từ trƣớc để tạo thành lời nói hoàn chỉnh. Tiếng nói chất lƣợng cao nhƣng hạn chế các từ và các câu trong cơ sở dữ liệu.

Hình 2.1: Ví dụ về sơ đồ hệ thống tổng hợp ghép nối.

Phƣơng pháp tổng hợp theo formant

Phƣơng pháp tổng hợp theo ghép chuỗi