Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ thống hạn chế gặp phải vấn đề về bộ nhớ và các yêu cầu tính toán. Burileanu [8] đã sử dụng mã hóa A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn bản và chuyển văn bản về âm vị. Họ đã sử dụng tính toán chấm tĩnh cho mạng nơron dùng để chuyển đổi văn bản sang âm vị. Toàn bộ dung lượng bộ nhớ được dùng xấp xỉ 1MB. Sơ đồ hệ thống này được thể hiện trong hình 2.2.1.
Hình 2.2.1: Kiến trúc hệ thống TTS được đơn giản [8]
Sheikhzadeh và cộng sự [14] đã thiết kế hệ thống tổng hợp tiếng nói theo phương pháp ghép nối sử dụng thuật toán cơ bản TD-PSOLA trên chip DSP với DAC 16bit, tần số tối đa 4 MHz. Hệ thống gồm các mô đun liên kết với host, giải nén CSDL đơn vị âm tiếng nói và xử lý chấm tĩnh cộng chồng đồng bộ TD- PSOLA. Với tính năng không có bộ chuẩn hóa văn bản và với nhân DSP như vậy hệ thống có thể chạy tại mức 1.28MHz, tiêu thụ điện rất thấp.
Dey và cộng sự [10] đã đưa ra kiến trúc TTS nhúng theo phương pháp tổng hợp ghép nối cho chip ARM với đầy đủ các mô đun phân tích ngôn ngữ văn bản đầu vào, chuyển đổi văn bản sang âm vị, điều khiển ngôn điệu.
Hình 3.2.2: Kiến trúc TTS nhúng [10]
Bamini [7] đưa ra một cài đặt FPGA cho hệ thống tổng hợp ghép nối.
Bên cạnh đó, đối với phương pháp tổng hợp dựa trên tham số thống kê, hiện nay trên thế giới, thư viện HTS [21] tổng hợp tiếng nói dựa trên HMM đã được nghiên cứu mạnh mẽ và áp dụng tốt cho bài toán tổng hợp tiếng nói chuyên ngành và tổng hợp tiếng nói không hạn chế chủ đề [18][17] với các đặc tính lưu trữ rất nhỏ và dễ thiết lập giọng nói tổng hợp mới. Các chip nhận dạng tiếng nói dựa trên HMM đã phổ biến rộng rãi, nhưng chưa có công bố nào liên quan đến việc thiết kế chip tổng hợp tiếng nói dựa trên HMM nói chung và HTS nói riêng. Cùng dựa chung một mô hình HMM như hệ thống nhận dạng tiếng nói, việc đưa ra một hệ thống cứng hóa tổng hợp tiếng nói với HTS-HMM có một giá trị rất lớn về tính năng công nghệ.
Như vây, chúng ta có thể thấy rằng để xây dựng được hệ tổng hợp tiếng nói trên hệ thống có tài nguyên hạn chế tài nguyên thì hệ này cần đảm bảo các yêu cầu sau:
Kích thước lưu trữ nhỏ. (1)
Tính toán đơn giản, không sử dụng các thao tác phức tạp. (2)
Trong các hệ tổng hợp tiếng Việt hiện nay, để đáp ứng tiêu chí (1), ta thấy có các hệ tổng hợp VnVoice, VnSpeech và hệ tổng hợp sử dụng HTS. Tuy nhiên, chất lượng giọng tổng hợp của VnSpeech là rất kém nên không thể thỏa mãn tiêu chí (3). Trong khi đó, các hệ tổng hợp VnVoice và HTS lại cho chất lượng giọng tổng hợp rất tốt. Trong những phần tiếp theo của chương, luận văn sẽ mô tả chi tiết hơn về các hệ tổng hợp VnVoice và HTS.