Ví dụ 1: Tổng hợp từ xin chào
• Bước 1: Trên Tab1 sử dụng chức năng New Word để tạo 2 từ. Ở từ thứ nhất chọn First Diphone là -xi, Second Diphone là in-. Ở từ thứ hai chọn
First Diphone là -cha, Second Diphone là ao-.
Hình 4.23: Tạo hai từxin và chao
• Bước 2: Ấn Refresh trên thanh Toolbar để hiển thị tín hiệu tổng hợp lên khung 1 và 2. Lúc này tín hiệu ở khung 1 và 2 là giống nhau đều chưa qua xử lý cân bằng năng lượng. Ở khung 3 là đường biểu diễn tần số cơ bản Fo của tín hiệu, có 2 đường biểu diễn Fo tương ứng với 2 từ xin và chao, cả 2 đường hiện giờ là nằm ngang có nghĩa là cả 2 từ đang mang thanh bằng. Ta có thể dùng chức năng Play 1 và Play 2 để nghe tín hiệu tổng hợp.
Hình 4.24: Biểu diễn tín hiệu 2 từxin và chao
• Bước 3: từ xin không mang thanh điệu do đó đường Fo giữ nguyên, còn từ chào mang thanh huyền do đó ta phải thay đổi đường Fo.
• Bước 4: Xử lý cân bằng năng lượng của tín hiệu trên trên khung 2. Ta sẽ dùng công cụ ở khung bên phải để thay đổi đường bao của tín hiệu
Hình 4.26: Xử dụng công cụ biến đổi cân bằng năng lượng
Ví dụ 2: Tạo một diphone trong cơ sở dữ liệu
Để tạo một diphone mới trong cơ sở dữ liệu trước tiên ta phải có file âm thanh
wav chứa diphone đó. Trong tab Database ta chọn New Dip rồi đặt tên cho diphone. Tiếp theo chọn Open Wave để mở file wave chứa diphone. Sau đó dùng công cụ bôi đen, cắt dán để giữ lại mình phần tín hiệu của diphone. Tiếp theo xác định 2 điểm đánh dấu đầu tiên của diphone rồi chọn Detect chương trình sẽ tự động tìm các điểm đánh dấu còn lại.
Hình 4.28: Cơ sở dữ liệu diphone
Ví dụ 3: Đọc một đoạn văn bản. Chọn tab Reading gõ đoạn văn bản vào Textbox rồi chọn Read, chương trình sẽ đọc văn bản ra loa.
TÀI LIỆU THAM KHẢO
1. Dư Thanh Bình "Dò tìm tần số cơ bản trong xử lý tiếng nói" Đại hoc Bách Khoa Hà Nội, 2001
2. Nguyễn Quốc Trung "Xử lý tín hiệu và lọc số" Nhà xuất bản khoa học và kỹ thuật, 2001
3. Trịnh Văn Loan "Các bài giảng về xử lý tiếng nói" Đại hoc Bách Khoa Hà Nội, 1998
4. Quách Tuấn Ngọc "Xử lý tín hiệu số" Nhà xuất bản giáo dục, 1997 5. Văn Ngọc An "Luận văn tổng hơp tiếng Việt bằng giải thuật TD-
PSOLA" Đại học Bách khoa Hà Nội, 2002 6. http://www.codeproject.com
7. Thierry Dutoit "An Introduction to Text-to-Speech Synthesis" 1997 8. Thierry Dutoit "High quality Text-to-Speech synthesis of the France language" 1993
TÓM TẮT
Với đề tài: Xây dựng công cụ khảo sát ảnh hưởng của các tham số cơ bản đến chất lượng tiếng nói bộ tổng hợp tiếng Việt dùng TD-PSOLA, luận văn này bao gồm các nội dung sau:
• Chương 1: Nghiên cứu lý thuyết về tiếng nói và xử lý tiếng nói bao gồm: bộ máy phát âm, mô hình biểu diễn tiếng nói, các đặc tính âm học của tiếng nói, mô hình tạo và xử lý tiếng nói.
• Chương 2: Tổng hợp tiếng nói trình bầy về các phương pháp tổng hợp tiếng nói, mô hình của phương pháp tổng hợp tiếng nói từ văn bản và so sánh các phương pháp tổng hợp.
• Chương 3: Trình bầy về giải thuật TD-PSOLA, phân tích và tổng hợp TD- PSOLA, quá trình thay đổi tần số cơ bản của tín hiệu nhờ giải thuật TD- PSOLA, các vấn đề liên quan khi tổng hợp tiếng nói dùng TD-PSOLA như làm trơn tín hiệu và cân bằng năng lượng sau khi áp dụng giải thuật.
• Chương 4: Thiết kế và xây dựng ứng dụng khảo sát và tổng hợp tiếng Việt. Chương này tiến hành phân tích giải thuật TD-PSOLA, thống kê các diphone tiếng Việt, xây dựng cơ sở dữ liệu diphone, phương án xử lý và phân tích văn bản, đưa TD-PSOLA vào ứng dụng. Dùng công cụ tiến hành khảo sát quá trình thay đổi các tham số cơ bản như tần số cơ bản, năng lượng và đánh giá chất lượng tiếng nói tổng hợp thu được.