Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng nói dựa vào các quy luật này.
Phân tích tìm quy luật
Quá trình phân tích đƣợc tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải bao phủ đƣợc tất cả các hình thái ngữ âm của một ngôn ngữ.
Thuật toán tiên đoán tuyến tính LPC, đƣợc sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu tiếng nói. Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố đƣợc lƣu giữ dƣới dạng bảng. Đó là các giá trị “đích” để tạo ra một âm vị.
Trong tiếng nói, phần mang thông tin đƣợc quan tâm nghiên cứu nhiều hơn là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngƣợc lại (C-V và V-C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia đƣợc mô hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Nhƣ vậy về cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lƣu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác. Hệ thống quy luật bao gồm:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
● Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lƣu cũng nhƣ thời gian tồn tại của các vị trí đó.
● Luật nhằm làm trơn các formant đích.
● Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.
Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với thuật toán đƣợc xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo các âm đoạn tính.
Thiết kế của bộ tổng hợp formant đƣợc dựa trên mô hình tƣơng tự đầu cuối tạo tiếng nói do Frant đề xuất.
Tổng hợp formant đƣợc phân loại theo cấu hình mắc các bộ cộng hƣởng song song hay nối tiếp. Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hƣởng tƣơng tự nhƣ hàm truyền ống thanh vì vậy bộ tổng hợp nối tiếp mô hình hoá rất tốt cho các âm hữu thanh. Còn bộ tổng hợp với các bộ cộng hƣởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lƣợng âm thanh tốt hơn.
Sơ đồ khối bộ tổng hợp Mitalk
Bộ tổng hợp âm đoạn tính sử dụng phần mềm của Klatt bằng cả cách nối song song và nối tiếp các bộ cộng hƣởng. Đây là hệ thống tổng hợp formant khá hoàn thiện cho đến nay.
Phƣơng pháp của Klatt sử dụng các giá trị đích của tham số điều khiển và thuật toán để tính toán sự chuyển tiếp. Các giá trị đích cho mỗi âm vị không chỉ nhận đƣợc từ bảng tra mà còn đƣợc tính theo luật về vị trí, cách cấu âm và ngữ cảnh của các âm vị đó. Cũng nhƣ vậy, các hằng số thời gian cho sự chuyển tiếp đƣợc tính từ các luật về thông tin ngữ cảnh. Ba formant và băng thông của nguyên âm, bán nguyên âm và nguyên âm đôi đƣợc chuyển cho phần tổng hợp nối tiếp. Hệ thống còn xác định thêm sáu tham số phụ khác để điều khiển phần cộng hƣởng mắc song song khi tổng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
hợp âm tắc, âm xát và âm tắc xát.
Trong 39 tham số điều khiển xác định đặc tính của tín hiệu ở đầu ra của bộ tổng hợp, có 22 tham số biến đổi. Ax là các giá trị biên độ, Rx là các bộ cộng hƣởng và phản cộng hƣởng có tần số cổng hƣởng và băng tần thay đổi. Bộ tổng hợp sử dụng hai nguồn kích, một là bộ tạo xung tuần hoàn với tần số cơ bản F0 (chấn động dây thanh) để tạo âm hữu thanh, nguồn kích thứ hai là bộ tạo nhiễu ngẫu nhiên với điều chỉnh tần số AF và bộ lọc số băng tần thấp LPF cho các âm xát và âm gió. Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định tần số formant cho các âm vị của tiếng Việt. Đi theo hƣớng này có ƣu điểm là tiết kiệm đƣợc bộ nhớ, song chất lƣợng tiếng nói không tự nhiên và phụ thuộc nhiều vào chất lƣợng của quá trình phân tích tiếng nói của từng ngôn ngữ.