Chƣơng 4: THỬ NGHIỆM CẢI TIẾN GIỌNG ĐỌCTỔNG HỢP TIẾNG VIỆT TRONG PHẦN MỀM
4.2. Một số hạn chế của VnVoice1
Hiện nay, chất lượng VnVoice chỉ đạt được ở mức đọc âm tiết rõ ràng. Trong khi thực hiện tổng hợp có xuất hiện một số nhược điểm sau:
Cơ sở dữ liệu: Cơ sở dữ liệu cho tổng hợp tiếng Việt vẫn còn rất hạn chế.
Dữ liệu cho việc thử nghiệm trích chọn thông tin ngôn điệu còn ít. Hiện nay, chỉ có khoảng 800 câu mẫu được thu âm từ nội dung một câu chuyện.
Lỗi ghép nối: Vì VnVoice sử dụng phương pháp tổng hợp ghép nối nên gặp phải các lỗi về ghép nối âm vị. Cần có thuật toán cải tiến làm trơn biên độ.
Hình 4.3: Minh họa lỗi ghép nối phụ âm “c” và phần vần “ụt” trong âm tiết “cụt”-Giọng tổng hợp.
Trường độ âm tiết: chưa có mô hình hay tập luật hiệu chỉnh trường độ âm tiết, từ, câu cho phù hợp với ngữ cảnh. Đặc biệt, hiện tượng đọc nối liền nhau giữa âm tiết có phần cuối là p, t, c, ch và âm tiết sau nó làm giảm chất lượng tiếng nói. Hình vẽ dưới đây mô tả một số lỗi đọc nối liền nhau trong VnVoice.
Hình 4.4: Hiển thị sóng âm và phổ cụm từ “và khóc thầm” sau khi tổng hợp. Nhìn trên biểu đồ sóng, chúng ta dễ thấy sự chênh lệch rất lớn về trường độ của ba âm tiết: “và”(0.51 giây), “khóc”(0.24s), “thầm”(0.41s). Âm tiết “khóc” có trường độ rất nhỏ so với hai âm tiết còn lại. Khảo sát trên toàn bộ các âm tiết có phần cuối là p, t, c, ch đều thấy xuất hiện hiện tượng này.
Năng lượng: Năng lượng của tiếng nói tổng hợp lớn hơn tiếng nói gốc. Do vậy, chất lượng tiếng nói cũng bị giảm đi đáng kể.
Hình 4.5: Biểu đồ sóng và phổ của từ ”Nhanh nhảu” sau khi tổng hợp.
Đường năng lượng
Trong dữ liệu gốc, năng lượng trung bình của dữ liệu tiếng nói khoảng 65- 67dB trong năng lượng trung bình của tiếng nói tổng hợp khoảng 73-77dB.
Đường thanh điệu: chưa có quy luật làm trơn đường F0 trên cụm từ, trên câu.
Hình 4.6: Đường F0 trong câu tổng hợp ”chỉ biết mình là con riêng”.