Đánh giá các phƣơng pháp tổng hợp tiếng nó

Một phần của tài liệu Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice (Trang 36)

c) Số lƣợng formant trong tuyến âm nối tiếp (ký hiệu là nf ): là số lượng formant tính từ F1 đến tối đa F8 thực sự có trong âm nối tiếp.

1.5.5.Đánh giá các phƣơng pháp tổng hợp tiếng nó

Trong phương pháp tổng hợp cấu âm thì việc thu thập dữ liệu và cài đặt tập luật theo dữ liệu chuẩn rất phức tạp. Nó hầu như không thể mô hình hóa được đa số sự cử động của lưỡi hoặc đặc trưng khác của hệ thống phát âm một cách đầy đủ.Do vậy, phương pháp này cực kỳ phức tạp.

Trong phương pháp tổng hợp Formant, tập luật điều khiển các tần số formant, biên độ và các đặc trưng nguồn kích thích là lớn. Hạn chế của phương pháp này là giọng nói nghe không rõ, máy móc, không tự nhiên đặc biệt với các âm mũi. Hơn nữa, vì là tổng hợp theo luật nên không thể có được tập luật đầy đủ bao hết được mọi giọng nói. Ưu điểm nổi bật của phương pháp này là khả năng thay đổi

giọng người nói chỉ bằng việc điều khiển các tham số. Một số hệ thống tổng hợp sử dụng phương pháp tổng hợp formant như hệ tổng hợp Klatt, Mutivox, DECtalk.

Trong luận văn chủ yếu quan tâm vào cải tiến cho tổng hợp ghép nối nên đặc biệt chú ý những nhược điểm của phương pháp này. Tổng hợp ghép nối được sử dụng phổ biến nhất do tiếng nói tự nhiên hơn. Tuy nhiên, nó cũng có một số nhược điểm chính sau đây: cần CSDL tiếng nói lớn (chi phí về thu âm và phân tích cơ sở dữ liệu tiếng nói rất tốn kém), khi ghép nối các thành phần âm thanh đã phân đoạn thì kết quả thường không thỏa mãn vì sự gián đoạn ở biên của âm thanh làm nhiễu. Sự gián đoạn có thể xảy ra theo một số yếu tố sau đây:

Biên độ:

Sự gián đoạn biên độ có thể nhìn thấy trên miền thời gian. Chúng có thể rất dài, nếu biên độ ở cuối phát âm và ở đầu âm tiết thì các âm tiếp theo mạnh rõ rệt. Có thể nghe rõ như là bị vỡ. Hình 1.9 biểu diễn gián đoạn biên độ trong miền thời gian.

Hình 1.9: Gián đoạn biên độ.  Năng lượng

Sự không liên tục của năng lượng sinh ra âm lượng khác nhau của tiếng nói. Sự thay đổi lớn thường tồn tại theo thời gian. Hình 1.10 và hình 1.11 biểu diễn sự gián đoạn của năng lượng trong miền thời gian.

Hình 1.10: Gián đoạn năng lượng (miền thời gian).

Hình 1.11: Gián đoạn năng lượng.

Khả năng của tổng hợp ghép nối sinh tiếng nói chất lượng cao còn phụ thuộc vào chất lượng đoạn tiếng nói trong cơ sở dữ liệu. Các đoạn tiếng nói thể hiện một số tính chất cơ bản:

 Cho phép tính toán những ảnh hưởng của các phát âm khác,

 Dễ kết nối, hạn chế việc làm trơn trong ghép nối,

 Không mất thông tin, CSDL không lớn,

 Đơn vị tiếng nói dài giảm mật độ kết nối, khi đó chất lượng tiếng nói tốt hơn.

Việc dùng đơn vị dài hơn làm giảm lỗi ghép nối dẫn đến CSDL lớn hơn trong khi ứng dụng yêu cầu giảm bộ nhớ. Vì vậy cần phải cân bằng giữa hai yếu tố. Bảng 1.4 dưới đây đánh giá việc chọn lựa các đơn vị âm cơ bản cho tiếng Anh. Đây cũng là một cơ sở trong việc lựa chọn phương pháp tổng hợp.

Bảng 1.4: Đánh giá sự lựa chọn đơn vị cơ bản trong hệ tổng hợp tiếng Anh.

Đơn vị Số

lƣợng Miêu tả Ƣu điểm/Nhƣợc điểm

Từ 300000

(50000)

Là đơn vị cơ bản cấu tạo nên câu

Ƣu điểm:

 Tiếng nói chất lượng cao

 Thuật toán tổng hợp ghép nối đơn giản

Nhƣợc điểm:

 Yêu cầu bộ nhớ lớn

 Ghép nối từ rời rạc làm giảm tính dễ hiểu và độ tự nhiên của tiếng nói tổng hợp

Âm tiết 20000 (4400)

Gồm âm đầu + nguyên âm + âm cuối (adsbygoogle = window.adsbygoogle || []).push({});

Nhƣợc điểm:

 Khó xác định biên âm tiết Bán âm

tiết 4500 (2000) Các âm tiết chia thành hai phần: phần

Ƣu điểm:

 Đảm bảo sự chuyển tiếp giữa các âm vị

 Luật làm trơn đơn giản

 Sinh tiếng nói tự nhiên Diphone 1500

(1200)

Hai nửa của hai âm vị liền nhau

Ƣu điểm:

 Đảm bảo sự chuyển tiếp giữa các âm vị

 Luật làm trơn đơn giản

 Sinh tiếng nói tự nhiên Âm vị 37 Đơn vị cơ bản của hệ

thống âm vị học

Ƣu điểm:

 Cần bộ nhớ nhỏ Nhược điểm:

Các luật làm trơn phức tạp

Cần thiết việc hiệu chỉnh ngữ điệu theo ngữ cảnh

Để hiểu được cấu trúc đơn vị âm cơ bản trong tổng hợp xem bảng 1.5 dưới đây.

Bảng 1.5: Cấu trúc đơn vị âm cơ bản trong hệ tổng hợp.

Âm vị v u i m uw n g

Diphone v v_u u_i i_m m_uw uw_n n_g g

Âm tiết Vui Mừng

Bán âm tiết v_u u_i m_uw uw_ng

Trong chương 4 sẽ tập trung giải quyết các nhược điểm của tổng hợp ghép nối, cụ thể trong phần mềm VnVoice 1.0.

Một phần của tài liệu Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice (Trang 36)