Phương pháp đơn giản nhất để tạo các bản tin tiếng nói là ghi và lưu trữ tiếng nói của con người theo các đơn vị từ riêng lẻ khác nhau và sau đó chọn phát lại các từ theo thứ tự mong muốn nào đó. Hệ thống phải lưu trữ đầy đủ các thành phần của các bản tin cần thiết phải tái tạo và lưu trong một bộ nhớ. Bộ tổng hợp chỉ làm
36
nhiệm vụ kết nối các đơn vị yêu cầu cấu thành bản tin lại với nhau theo một thứ tự nào đó mà không phải thay đổi hay biến đổi các thành phần riêng rẽ. Chất lượng của bản tin tiếng nói được tổng hợp theo phương pháp này bị ảnh hưởng bởi chất lượng của tính liên tục của các đặc trưng âm học (phổ, biên độ, tần số cơ bản, tốc độ nói) của các đơn vị được ghép nối. Phương pháp tổng hợp này tỏ ra hiệu quả khi các bản tin có dạng một danh sách chẳng hạn như một dãy số cơ bản, hoặc các khối bản tin thường xuât hiện ở một vị trí nhất định trong câu. Khi có yêu cầu một cấu trúc câu đặc biệt nào đó mà trong đó các từ thay thế ở những vị trí nhất định trong câu thì các từ đó phải được ghi lại đúng như thứ tự của nó ở trong câu nếu không nó sẽ không phù hợp với ngữ điệu của câu. Như vậy, quá trình biên soạn là một quá trình rất tốn thời gian và công sức. Ngoài ra, việc ghép nối trực tiếp các đơn vị tiếng nói gặp rất nhiều khó khăn trong việc diễn tả sự ảnh hưởng tự nhiên giữa các từ, cũng như ngữ điệu và nhịp điệu của câu. Một hạn chế nữa phải kể đến là kích thước của bộ nhớ cho các ứng dụng với số lượng các bản tin lớn là rất lớn.
Yêu cầu bộ nhớ lưu trữ lớn có thể được phần nào giải quyết bằng việc sử dụng phương pháp mã hóa tốc độ thấp cho các đơn vị tiếng nói trước khi thực hiện việc lưu trữ. Tuy nhiên cả phương pháp sử dụng lưu trữ trực tiếp hoặc mã hóa của các đơn vị lớn (từ, cụm từ) của tiếng nói, số lượng bản tin có thể tổng hợp được rất hạn chế. Để tăng số lượng bản tin có thể tổng hợp được, các đơn vị từ có thể được chia nhỏ hơn thành đơn vị từ con, diphone, syllable... được ghi và lưu trữ. Tuy nhiên, khi đơn vị tiếng nói càng được chia nhỏ thì chất lượng bản tin tổng hợp được càng giảm.
Hình 2.4 minh họa sự so sánh spectrogram của câu tổng hợp được theo phương pháp tổng hợp trực tiếp đơn giản (trên) và bản tin nguyên thủy.
37
Hình 2.4: So sánh kết quả từ bản tin tổng hợp trực tiếp và bản tin nguyên thủy