PHÂN TÍCH GIẢI THUẬ T

Như đã phân tích chi tiết trong các chương trước, có ba phương pháp tổng hợp tiếng nói là: mô phỏng bộ máy phát âm, tổng hợp formant và tổng hợp bằng ghép nối. Luận văn này lựa chọn phương pháp thứ ba để xây dựng ứng dụng tổng hợp tiếng nói. Vấn đề cần quan tâm trong phương pháp này là bên cạnh chất lượng của âm tổng hợp, làm sao để kích thước dữ liệu không quá lớn.

Khi nghiên cứu tính chất âm học của tiếng nói, ta thấy rằng bất kỳ một đoạn tín hiệu tiếng nói nào, ngoài sự liên quan chặt chẽ với âm vị (được tạo nên bởi sự thay đổi dạng của tuyến âm trong quá trình phát âm) còn liên quan đến luật ngôn ngữ, trường độ, biên độ, tần số cơ bản F0 của đoạn tín hiệu. Đối với tiếng nói không thanh điệu (như các tiếng Âu-Ấn) tần số cơ bản F0 thường thay đổi trong các âm tiết gây nên trọng âm của từ (không làm thay đổi nghĩa) hoặc thay đổi trong câu theo từng loại câu (câu hỏi, câu trần thuật, câu cảm thán...). Tuy nhiên, trong tiếng nói có thanh điệu như tiếng Việt, khi thanh điệu của một âm tiết thay đổi sẽ dẫn tới sự thay đổi về ngữ nghĩa của từ.

Tiếng Việt có 6 thanh điệu: không dấu, huyền, sắc, nặng, hỏi, ngã. Các nghiên cứu về thanh điệu trong tiếng Việt cho thấy rằng sự thay đổi thanh điệu là kết quả của sự thay đổi tần số cơ bản của âm. Do đó nếu thay đổi được tần số cơ bản của tín hiệu theo những dạng thích hợp thì có thể tạo ra các thanh điệu từ các âm không dấu. Việc này hoàn toàn có thể thực hiện được nhờ giải thuật TD-PSOLA đã trình bày trong chương trước.

Như vậy, với việc biến đổi tần số cơ bản của một âm không dấu theo giải thuât TD-PSOLA, thanh điệu của âm tổng hợp sẽ thay đổi và ta có thêm được 5 âm khác. Điều này vô cùng quan trọng, vì nó cho phép giảm kích thước dữ liệu cần lưu trữ đi rất nhiều.

Hơn nữa, do tiếng Việt là ngôn ngữ đơn âm tiết, nên theo cách phát âm, bất kỳ từ nào cũng có thể phân tích được thành hai diphone tương ứng.

Việc áp dụng giải thuật TD-PSOLA còn là một phương pháp hữu hiệu để có thể kéo dài từ được tạo ra từ 2 diphone ban đầu. Vấn đề này có thể được xem xét dưới đây.

Để thay đổi tần số Fo dễ dàng nhận thấy rằng chỉ cần thay đổi vị trí các điểm mốc (vì ở trên ta đã đi tìm các điểm môc sao cho mi−mi−1 phải gần với chu kỳ cơ bản). Như vậy để biến đổi một từ không dấu thành có dấu thì cũng chỉ cần định vị lại các điểm mốc cho thích hợp. Sau đó cộng xếp chồng các đoạn tín hiệu ta sẽ thu được âm mong muốn.

Ở đây cũng cần nói thêm một vấn đề nữa là trong tiếng Việt một số từ không thể được tạo thành từ các diphone đơn giản. Trong tiếng Việt số lượng diphone dạng này không nhỏ. (các diphone này tạm gọi là các diphone đặc biệt)

Ví dụ: ác, ạc, ách, ạch, át, ạt, áp, ạp...

Luận văn này đề xuất một phương pháp tổng hợp các từ thuộc loại này như sau: • Ghi âm toàn bộ các diphone loại này (toàn bộ đều là diphone cuối)

• Với những từ chứa diphone loại khi tổng hợp chỉ cần ghép nối diphone đầu và cuối tương ứng.

Với giải pháp này, nhược điểm của nó là không thay đổi được độ dài của từ, tuy nhiên qua thử nghiệm thực tế thì chất lượng phát âm khá tốt. Đây là giải pháp không sử dụng TD-PSOLA.

Tóm lại việc tổng hợp tiếng Việt theo phương pháp TD-PSOLA gồm các bước thực hiện như sau.

• Tạo cơ sở dữ liệu.

• Ghép nối các diphone (Có thể có dấu hoặc không dấu).

Hình 4.1: Sơđồ tổng hợp tiếng Việt từ văn bản

Phần tiếp theo đây sẽ trình bày việc thực thi và giải quyết các vấn đề liên quan đến công việc trên. Đồng thời đi sâu vào phương pháp thực hiện để tần số để tạo thành các từ có dấu

Mục lục