Mô hình hình sin là một mô hình thông dụng, trong đó tín hiệu tiếng nói có thể được biểu diễn bởi một tổng các sóng hình sin (thời gian, biên độ, tần số). Trong mô hình cơ sở này tín hiệu tiếng nói s(n) được mô hình hoá dưới dạng tổng của L
đường sin. ( ) ∑ ( ) = + = L l l l n A l s 1 1 cosω φ
trong đó Al( )n và φl( )n đại diện cho biên độ và pha của mỗi đường sin thành phần với tần số góc ωl.
Mô hình hình sin rất thích hợp khi biểu diễn các tín hiệu tuần hoàn, như nguyên âm và âm hữu thanh. Mô hình hình sin đã sử dụng thành công trong tổng hợp tiếng hát.
60
61
62
CHƯƠNG IV. XÂY DỰNG MÔ HÌNH
CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT
4.1. PHÂN TÍCH GIẢI THUẬT
Như đã phân tích chi tiết trong các chương trước, để xây dựng mô hình một ứng dụng tổng hợp tiếng Việt từ văn bản, căn cứ vào đặc điểm của ba phương pháp tổng hợp tiếng nói: mô phỏng bộ máy phát âm, tổng hợp formant và tổng hợp bằng ghép nối, thì phương pháp thứ ba, phương pháp tổng hợp bằng ghép nối, là phương pháp khả thi. Vấn đề chính phải giải quyết trong phương pháp này bên cạnh chất lượng của âm tổng hợp là làm sao để kích thước dữ liệu không quá lớn.
Khi nghiên cứu tính chất âm học của tiếng nói, ta thấy rằng bất kỳ một đoạn tín hiệu tiếng nói nào, ngoài sự liên quan chặt chẽ với âm vị (được tạo nên bởi sự thay đổi dạng của tuyến âm trong quá trình phát âm) còn liên quan đến luật ngôn ngữ, trường độ, biên độ, tần số cơ bản F0của đoạn tín hiệu. Đối với tiếng nói không thanh điệu (như các tiếng Âu-Ấn) tần số cơ bản F0thường thay đổi trong các âm tiết gây nên trọng âm của từ (không làm thay đổi nghĩa) hoặc thay đổi trong câu theo từng loại câu (câu hỏi, câu trần thuật, câu cảm thán...). Tuy nhiên, trong tiếng nói có thanh điệu như tiếng Việt, khi thanh điệu của một âm tiết thay đổi sẽ dẫn tới sự thay đổi về ngữ nghĩa của từ.
Tiếng Việt có 6 thanh điệu: không dấu, huyền, sắc, nặng, hỏi, ngã. Các nghiên cứu về thanh điệu trong tiếng Việt cho thấy rằng sự thay đổi thanh điệu là kết quả của sự thay đổi tần số cơ bản của âm. Do đó nếu thay đổi được tần số cơ bản của tín hiệu theo những dạng thích hợp thì có thể tạo ra các thanh điệu từ các âm không dấu. Việc này hoàn toàn có thể thực hiện được nhờ giải thuật TD-PSOLA đã trình bày trong chương trước.
Như vậy, với việc biến đổi tần số cơ bản của một âm không dấu theo giải thuật TD-PSOLA, thanh điệu của âm tổng hợp sẽ thay đổi và ta có thêm được 5 âm
63
khác. Điều này vô cùng quan trọng, vì nó cho phép giảm kích thước dữ liệu cần lưu trữ đi rất nhiều.
Hơn nữa, do tiếng Việt là ngôn ngữ đơn âm tiết, nên theo cách phát âm, bất kỳ từ nào cũng có thể phân tích được thành hai diphone tương ứng.
Ví dụ: từ xinh được tạo nên từ hai diphone xi và inh.
Ở đây cũng cần nói thêm một vấn đề nữa là trong tiếng Việt một số từ không thể được tạo thành từ các diphone đơn giản. Trong tiếng Việt số lượng diphone dạng này không nhỏ. (các diphone này tạm gọi là các diphone đặc biệt)
Ví dụ: ác, ạc, ách, ạch, át, ạt, áp, ạp...
Luận văn này đề xuất một phương pháp tổng hợp các từ thuộc loại này như sau:
- Ghi âm toàn bộ các diphone loại này (toàn bộ đều là diphone cuối)
- Với những từ chứa diphone loại này khi tổng hợp chỉ cần ghép nối diphone đầu và cuối tương ứng.
Như vậy, để xây dựng ứng dụng tổng hợp tiếng Việt từ văn bản bằng giải thuật TD-PSOLA thì các công việc cần thực hiện là:
- Tạo cơ sở dữ liệu. - Ghép nối các diphone.
- Biến đổi thanh điệu sau khi ghép nối.
64 Hình 4.1: Sơđồ tổng hợp tiếng Việt từ văn bản Diphone thông thường Diphone đặc biệt BẮT ĐẦU Nhập văn bản đầu vào (Text) KẾT THÚC Phân tích văn bản thành các diphone Tham chiếu cơ sở dữ liệu Ghép nối các diphone Tổng hợp các diphone Biến đổi dấu Ghép từ dạng âm thanh theo văn bản ban đầu
65
Phần tiếp theo sẽ trình bày chi tiết việc thực thi và giải quyết các vấn đề liên quan tới những công việc trên.