a) Tần số lấy mẫu (ký hiệu là sr): là số mẫu cần phải tạo ra ứng với 1 giây tiếng nói tổng hợp. Giá trị ngầm định là 10000 mẫu/giây (Hz). Nếu sr tăng, phổ của tiếng nói tổng hợp sẽ nghiêng hơn, sử dụng bộ lọc thông thấp chống trùm phổ với tần số cắt khoảng 4500-4800 Hz cho giá trị 10000 Hz. Do vậy, nếu sr thay đổi, cần sử dụng bộ lọc với tần số cắt thích hợp.
b) Khoảng cách cập nhật (ký hiệu là ui) : số ms của sóng âm được tạo giữa các lần cập nhật các biến tham số thay đổi theo thời gian (đoạn đủ ngắn để các thuộc tính của tiếng nói được coi là tuyến tính, bất biến). Giá trị 5 ms có thể phản ánh hầu hết các thay đổi nhanh chóng của các tham số tiếng nó, tuy nhiên thực tế chỉ cần sử dụng giá trị 10 ms đã là đủ.
c) Số lƣợng formant trong tuyến âm nối tiếp (ký hiệu là nf) : là số lượng formant tính từ F1 đến tối đa F8 thực sự có trong âm nối tiếp.
Giá trị ngầm định là 5, ứng với tần số lấy mẫu 10000 mẫu/giây và người nói có chiều dài tuyến âm là 17 cm (nghĩa là khoảng cách trung bình giữa các formant là 1000 Hz). Muốn mô hình tuyến âm có chiều dài khác 17 cm hoặc tần số lấy mẫu thay đổi thì cần phải thay đổi „nf‟.
Các tham số thay đổi theo thời gian
Giải thuật tổng hợp của Klatt sử dụng một bộ gồm 40 tham số để điều khiển tạo ra tiếng nói tổng hợp. Mỗi bộ giá trị của các tham số được gọi là một frame, mỗi bộ này sẽ điều khiển để tạo ra một đoạn tín hiệu tiếng nói có độ dài theo sự thiết lập của tham số toàn cục „ui‟. Trong bảng 1.3 là ký hiệu và ý nghĩa của một số tham số.
Bảng 1.3: Minh họa một vài tham số trong hệ tổng hợp Klatt.
STT Tên Ý nghĩa Mặc
định Nhỏ
nhất Lớn
nhất Đơn vị
1 AV Biên độ âm hữu thanh 0 0 80 dB
2 AF Biên độ âm xát 0 0 80 dB
3 AH Amplitude of Aspiration 0 0 80 dB
5 F0 Tần số cơ bản 0 0 500 Hz
6 F1 Tần số Formant thứ nhất 450 150 900 Hz
33
7 F2 Tần số Formant thứ hai 1450 500 2500 Hz 8 F3 Tần số Formant thứ ba 2450 1300 3500 Hz 9 F4 Tần số Formant thứ tư 3300 2500 4500 Hz 10 F5 Tần số Formant thứ năm 3850 3500 4900 Hz 11 F6 Tần số Formant thứ sáu 4900 4000 4999 Hz 12 FNZ Tần số của điểm không âm mũi 250 200 700 Hz
13 AN Biên độ Formant âm mũi 0 0 80 dB
14 A1 Biên độ Formant thứ nhất 0 0 80 dB
15 A2 Biên độ Formant thứ hai 0 0 80 dB
16 B1 Băng thông Formant thứ nhất 50 40 500 Hz 17 B2 Băng thông Formant thứ hai 70 40 500 Hz 18 B3 Băng thông Formant thứ ba 110 40 500 Hz 19 B4 Băng thông Formant thứ tư 250 100 500 Hz 20 B5 Băng thông Formant thứ năm 200 150 700 Hz 21 B6 Băng thông Formant thứ sáu 1000 200 2000 Hz 22 FNP Tần số điểm cực âm mũi 250 200 500 Hz
23 GAIN Khuếch đại chung 48 0 80 dB
24 BNP Băng thông của điểm cực âm mũi 100 50 500 Hz 25 BNZ Băng thông của điểm không âm mũi 100 50 500 Hz 26 AB Biên độ phần chuyển thẳng cho âm xát 0 0 80 dB
Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định tần số formant cho các âm vị của tiếng Việt. Đi theo hướng này có ưu điểm là tiết kiệm được bộ nhớ, song chất lượng tiếng nói không tự nhiên và phụ thuộc nhiều vào chất lượng của quá trình phân tích tiếng nói của từng ngôn ngữ. Phần mềm tổng hợp tiếng Việt VnSpeech [33] đã sử dụng cách tiếp cận này. Tuy nhiên, chất lượng vẫn còn rất hạn chế.
1.5.3. Tổng hợp ghép nối
Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn.
Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất. Tuy nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên
34
[30]. Có ba loại tổng hợp ghép nối: tổng hợp chọn đơn vị, tổng hợp diphone (hai nửa của hai âm vị liền nhau) và tổng hợp theo miền.
Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói lớn. Trong quá trình tạo cơ cở dữ liệu, mỗi phát âm được thu âm sẽ được phân thành các âm vị, âm tiết, hình vị, từ, cụm và các câu riêng. Việc phân chia thành các đoạn có thể dùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan. Phương pháp này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu.
Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone xuất hiện trong ngôn ngữ. Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ. Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức khoảng 2500 diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu. Chất lượng tiếng nói tổng hợp thường không tốt bằng tổng hợp chọn đơn vị. Ưu điểm của tổng hợp diphone là cơ sở dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối chọn đơn vị.
Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu trong CSDL để tạo thành lời nói hoàn chỉnh. Ưu điểm tiếng nói tự nhiên, tuy nhiên lại hạn chế về số lượng từ và câu có thể tổng hợp được.
35
Hình 1.8: Ví dụ về sơ đồ hệ thống tổng hợp ghép nối.
1.5.4. Tổng hợp xích chuỗi
Phương pháp xích chuỗi vượt qua được nhược điểm của các hệ thống sử dụng quy luật bằng cách loại bỏ bớt một số quy luật thậm chí tất cả các quy luật. Để thực hiện điều này, cách hiệu quả nhất là lưu trữ trực tiếp trong kho dữ liệu từng đoạn âm thanh tiếng nói, không phải hệ thống quy luật mô tả các đơn vị âm hay quy luật của các tham số để tạo ra đơn vị âm.
Trong ba phương pháp nêu trên, tổng hợp theo cấu âm, tổng hợp formant theo quy luật và tổng hợp xích chuỗi thì tổng hợp xích chuỗi mang nhiều tính công nghệ, được quyết định bởi sự phát triển của máy tính. So sánh về chất lượng trong ba phương pháp, thì tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc tạo ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn cả. Phần lớn các hệ thống tổng hợp chất lượng cao cho các ngôn ngữ có trên thị trường hiện nay đều sử dụng phương pháp tổng hợp xích chuỗi này.
Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi