Chƣơng 4: THỬ NGHIỆM CẢI TIẾN GIỌNG ĐỌCTỔNG HỢP TIẾNG VIỆT TRONG PHẦN MỀM
4.3.1. Cơ sở dữ liệu tiếng nó
Xây dựng CSDL âm cho tổng hợp
Với số lượng âm tối thiểu, các đơn vị cơ bản sẽ là phần phụ âm đầu (21 phụ âm) và phần vần có thanh điệu (155 vần). Tần số cơ bản F0 của các vần là đặc trưng cho thanh điệu có thể thay đổi từ các vần đã có, tổng hợp theo các đường nét đặc trưng tần số cơ bản F0 khác đi thành các vần mang thanh điệu mới. Từ đó, chúng ta sẽ tổng hợp được các từ mới.
Bộ đơn vị âm cơ bản thống kê một số đơn vị âm cơ bản trong bảng 4.2 sau đây:
Bảng 4.2: Ví dụ một số đơn vị âm cơ bản cho tổng hợp tiếng Việt VnVoice.
STT Phụ âm Vần có dấu 1 B A 2 C À 3 D Ả 4 Đ Ã 5 G Ạ 6 H Á F0
7 Kh OAN 8 L OÀN 9 M OẢN 10 N OÁN 11 NG OÃN 12 PH OẠN 13 S Ê 14 Th Ề
Trong VnVoice 1.0, các đơn vị đã sử dụng đơn vị tiếng nói cơ bản là các âm vị, các âm vị này được chọn từ CSDL tiếng nói thu làm mẫu.
Cơ sở dữ liệu trích chọn đặc trưng ngôn điệu
CSDL gốc bao gồm 567 câu tiếng nói, với các thông số như sau:
Tiếng nói được thu trong môi trường ít nhiễu,
Tiếng nói thu với tần số lấy mẫu 11025Hz, kích thước mỗi mẫu 16 bit, mono
Giọng đọc nữ Hà nội, đọc tự nhiên,
Định dạng: PCM.
Để khảo sát được quy luật biến thiên đường F0 trong CSDL tiếng nói, đầu tiên, chúng tôi chỉ khảo sát trên cặp thanh điệu từ đôi để phát hiện được quy luật biến thanh trong câu tự nhiên.
Thống kê ban đầu trên CSDL cặp 2 thanh điệu, lấy mẫu trên 90 trên tổng 567 câu gốc. Tổng số mẫu thu được: 377 mẫu cho 35 cặp thanh điệu.
Sử dụng công cụ phân tích và xử lý tiếng nói như Praat [28], chúng tôi ghi lại các tham số tiếng nói như giá trị pitch, duration, … Sau đó dùng mô hình Fujisaki hiệu chỉnh F0, trường độ. Cuối cùng, dùng kỹ thuật PSOLA tổng hợp lại tiếng nói và nghe lại.