3. CHƢƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI
3.4 Lựa chọn phƣơng pháp tổng hợp Tiếng Việt
Qua việc tìm hiểu các phƣơng pháp tổng hợp tiếng nói trên ta có thể rút ra một số nhận xét sau:
+ Tổng hợp theo cấu âm về lý thuyết là một phƣơng pháp rất tốt bởi khả
năng mô phỏng của nó, tuy nhiên điểm hạn chế là chúng ta chƣa thể tham số hoá đƣợc tất cả các cơ quan phát âm của con ngƣời do đó cần phải có các nghiên cứu sâu hơn của các nhà sinh học.
+ Tổng hợp Formant theo quy luật có đặc điểm là gọn nhẹ và khá linh hoạt, nó có thể tạo ra đƣợc tiếng nói tƣơng đối chuẩn với một số tham số hạn chế. Dễ dàng trong việc tạo ra nhiều tiếng nói khác nhau và các hiệu ứng âm thanh. Việc sử dụng các quy luật cảm ngữ cảnh có thể nâng cao chất lƣợng của bộ tổng hợp. Mặc dù vậy tiếng nói tạo ra từ phƣơng pháp này nghe vẫn chƣa đƣợc tự nhiên. Mặt khác để xây dựng đƣợc bộ tham số cho ngữ âm tiếng Việt là một công việc quá lớn mà một sớm một chiều không thể có kết quả ngay đƣợc. Hệ thống MITALK là một quá trình làm việc hơn 10 năm trời của cả một tập thể các nhà nghiên cứu của trƣờng đại học MIT trƣớc khi có đƣợc kết quả khả quan.
+ Tổng hợp xích chuỗi sử dụng LPC có cấu trúc đơn giản hơn so với tổng
hợp formant theo luật, vì tất cả các đặc tính phổ của tiếng nói (trừ tần số cơ bản) đều đƣợc chứa trong các hệ số LPC và đƣợc tính toán tự động khi phân tích tiếng nói tự nhiên. Nguồn kích khi tổng hợp bao gồm hệ số khuếch đại, bit xác định vô thanh hữu thanh, giá trị tần số âm cơ bản F0 cho các âm hữu thanh và nguồn nhiễu ngẫu nhiên cho các âm vô thanh. Bằng phƣơng pháp LPC ta có thể xây dựng đƣợc các thủ tục phân tích tự động đơn giản hơn. Bộ tổng hợp bằng LPC có cấu trúc cũng đơn giản hơn so với tổng hợp theo formant. Đồng thời nó cũng là một phƣơng pháp mã hoá hiệu quả cao nên các bộ tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC không cần nhiều về dung lƣợng bộ nhớ. Đây là một đặc điểm đƣợc quan tâm khi xây dựng hệ thống trên các nền tảng có tài nguyên nhớ hạn chế.
Để tổng hợp tiếng Việt với số từ không hạn chế và đạt đƣợc độ tự nhiên cần thiết đủ để ứng dụng trong thực tiễn, phƣơng pháp tổng hợp xích chuỗi có tính khả thi cao và hiện cũng đƣợc áp dụng trên nhiều ngôn ngữ khác nhau. Phƣơng pháp tổng hợp xích chuỗi miền thời gian cho phép ghép nối các đơn vị âm đƣợc lƣu giữ trực tiếp dƣới dạng sóng của tiếng nói tự nhiên, âm thanh không bị mã hoá nên rất trung thực. Đồng thời khi lƣu trữ âm vị dƣới dạng sóng sẽ giảm đƣợc quá trình mã hoá và giải mã, cho phép tổng hợp thời gian thực trên máy tính PC thông thƣờng mà không cần đến các mạch xử lý tín hiệu chuyên dụng. Vấn đề đặt ra là phƣơng pháp này nếu giải quyết đƣợc bài toán làm trơn biên nối và có khả năng thay đổi các
tham số về ngữ điệu âm đơn vị theo ngữ cảnh sẽ có thể tạo ra đƣợc chất lƣợng âm thanh tổng hợp cao nhất.
Một lợi điểm nữa của phƣơng pháp này là nó giữ nguyên đƣợc giọng nói của ngƣời cung cấp các đơn vị âm. Đây cũng là một điều đáng quan tâm bởi khả năng ứng dụng thực tiễn của nó trong việc lƣu trữ tiếng nói trong một số trƣờng hợp đặc biệt.