3. CHƢƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NĨI
3.4 Lựa chọn phƣơng pháp tổng hợp Tiếng Việt
Qua việc tìm hiểu các phƣơng pháp tổng hợp tiếng nĩi trên ta cĩ thể rút ra một số nhận xét sau:
+ Tổng hợp theo cấu âm về lý thuyết là một phƣơng pháp rất tốt bởi khả
năng mơ phỏng của nĩ, tuy nhiên điểm hạn chế là chúng ta chƣa thể tham số hố đƣợc tất cả các cơ quan phát âm của con ngƣời do đĩ cần phải cĩ các nghiên cứu sâu hơn của các nhà sinh học.
+ Tổng hợp Formant theo quy luật cĩ đặc điểm là gọn nhẹ và khá linh hoạt, nĩ cĩ thể tạo ra đƣợc tiếng nĩi tƣơng đối chuẩn với một số tham số hạn chế. Dễ dàng trong việc tạo ra nhiều tiếng nĩi khác nhau và các hiệu ứng âm thanh. Việc sử dụng các quy luật cảm ngữ cảnh cĩ thể nâng cao chất lƣợng của bộ tổng hợp. Mặc dù vậy tiếng nĩi tạo ra từ phƣơng pháp này nghe vẫn chƣa đƣợc tự nhiên. Mặt khác để xây dựng đƣợc bộ tham số cho ngữ âm tiếng Việt là một cơng việc quá lớn mà một sớm một chiều khơng thể cĩ kết quả ngay đƣợc. Hệ thống MITALK là một quá trình làm việc hơn 10 năm trời của cả một tập thể các nhà nghiên cứu của trƣờng đại học MIT trƣớc khi cĩ đƣợc kết quả khả quan.
+ Tổng hợp xích chuỗi sử dụng LPC cĩ cấu trúc đơn giản hơn so với tổng
hợp formant theo luật, vì tất cả các đặc tính phổ của tiếng nĩi (trừ tần số cơ bản) đều đƣợc chứa trong các hệ số LPC và đƣợc tính tốn tự động khi phân tích tiếng nĩi tự nhiên. Nguồn kích khi tổng hợp bao gồm hệ số khuếch đại, bit xác định vơ thanh hữu thanh, giá trị tần số âm cơ bản F0 cho các âm hữu thanh và nguồn nhiễu ngẫu nhiên cho các âm vơ thanh. Bằng phƣơng pháp LPC ta cĩ thể xây dựng đƣợc các thủ tục phân tích tự động đơn giản hơn. Bộ tổng hợp bằng LPC cĩ cấu trúc cũng đơn giản hơn so với tổng hợp theo formant. Đồng thời nĩ cũng là một phƣơng pháp mã hố hiệu quả cao nên các bộ tổng hợp xích chuỗi sử dụng mã tiên đốn tuyến tính LPC khơng cần nhiều về dung lƣợng bộ nhớ. Đây là một đặc điểm đƣợc quan tâm khi xây dựng hệ thống trên các nền tảng cĩ tài nguyên nhớ hạn chế.
Để tổng hợp tiếng Việt với số từ khơng hạn chế và đạt đƣợc độ tự nhiên cần thiết đủ để ứng dụng trong thực tiễn, phƣơng pháp tổng hợp xích chuỗi cĩ tính khả thi cao và hiện cũng đƣợc áp dụng trên nhiều ngơn ngữ khác nhau. Phƣơng pháp tổng hợp xích chuỗi miền thời gian cho phép ghép nối các đơn vị âm đƣợc lƣu giữ trực tiếp dƣới dạng sĩng của tiếng nĩi tự nhiên, âm thanh khơng bị mã hố nên rất trung thực. Đồng thời khi lƣu trữ âm vị dƣới dạng sĩng sẽ giảm đƣợc quá trình mã hố và giải mã, cho phép tổng hợp thời gian thực trên máy tính PC thơng thƣờng mà khơng cần đến các mạch xử lý tín hiệu chuyên dụng. Vấn đề đặt ra là phƣơng pháp này nếu giải quyết đƣợc bài tốn làm trơn biên nối và cĩ khả năng thay đổi các
tham số về ngữ điệu âm đơn vị theo ngữ cảnh sẽ cĩ thể tạo ra đƣợc chất lƣợng âm thanh tổng hợp cao nhất.
Một lợi điểm nữa của phƣơng pháp này là nĩ giữ nguyên đƣợc giọng nĩi của ngƣời cung cấp các đơn vị âm. Đây cũng là một điều đáng quan tâm bởi khả năng ứng dụng thực tiễn của nĩ trong việc lƣu trữ tiếng nĩi trong một số trƣờng hợp đặc biệt.