Tổng hợp tiếng nói theo phƣơng pháp mô phỏng bộ máy phát âm

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 102 - 103)

Một cách hiển nhiên, để tổng hợp tiếng nói thì ta cần tìm một cách nào đó mô phỏng bộ máy phát âm của ta. Đây cũng là nguyên lý của các "máy nói" cổ điển mà nổi tiếng trong số có máy do Von Kempelen chế tạo. Các bộ tổng hợp tiếng nói cổ điển theo

nguyên lý này thƣờng là các thiết bịcơ học với các ống, ống thổi, ... hoạt động nhƣ các dụng cụ âm nhạc, tuy nhiên với một chút huấn luyện có thểdùng để tạo ra tín hiệu tiếng nói nhận biết đƣợc. Việc điều khiển hoạt động của máy là nhờcon ngƣời theo thời gian thực, điều này mang lại nhiều thuận lợi cho hệ thống ở khía cạnh con ngƣời có thể sử

dụng các cơ chế chẳng hạn nhƣ thông qua phản hồi đểđiều khiển và bắt chƣớc quá trình tạo tiếng nói tự nhiên. Tuy nhiên, ngày nay với nhu cầu của các bộ tổng hợp phức tạp

hơn, các cỗ máy cổđiển rõ ràng là lỗi thời không thểđáp ứng đƣợc.

Cùng với sự hiểu biết của con ngƣời về bộmáy phát âm đƣợc nâng cao, các bộ tổng hợp sử dụng nguyên lý mô phỏng bộ máy phát âm ngày càng phức tạp và hoàn thiện hơn.

Các hình dạng ống phức tạp đƣợc xấp xỉ bằng một loạt các ống đơn giản nhỏ hơn. Với mô hình các ống đơn giản, vì ta biết đƣợc các đặc tính truyền âm của nó, ta có thể sử

dụng để xây dựng các mô hình bộ máy phát âm tổng quát phức tạp.

Một ƣu điểm của phƣơng pháp tổng hợp mô phỏng bộ máy phát âm là cho phép tạo ra một cách tựnhiên hơn để tạo ra tiếng nói. Tuy nhiên, phƣơng pháp này cũng gặp phải một số khó khăn. Thứ nhất đó là việc quyết định làm thế nào để có đƣợc các tham số điều khiển từ các yêu cầu tín hiệu cần tổng hợp. Rõ ràng, khó khăn này cũng gặp phải

trong các phƣơng pháp tổng hợp khác. Trong hầu hết các phƣơng pháp tổng hợp khác, chẳng hạn các tham số formant có thểtìm đƣợc một cách trực tiếp từ tín hiệu tiếng nói thực, ta chỉ đơn giản ghi âm lại tiếng nói và tính toán rồi xác định chúng. Còn trong

phƣơng phƣơng pháp mô phỏng bộ máy phát âm ta sẽ gặp khó khăn hơn vì các tham số

về bộ máy phát âm đúng đắn không thể xác định từ việc ghi lại tín hiệu thực mà phải thông qua các đo lƣờng chẳng hạn ảnh X-ray, MRI... Khó khăn thứ hai là việc cân bằng

CHƢƠNG 4. TỔNG HP TING NÓI

100

giữa việc xây dựng một mô hình mô phỏng chính xác cao nhất giống với bộ máy phát âm sinh học của con ngƣời và một mô hình thực tiễn dễ thiết kế và thực hiện. Cả hai khó

khăn này cho đến nay vẫn đƣợc coi là thách thức với các nhà nghiên cứu. Và đây cũng chính là lý do mà cho đến nay có rất ít các hệ thống tổng hợp theo nguyên lý mô phỏng bộ máy phát âm có chất lƣợng so với các bộ tổng hợp theo nguyên lý khác.

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 102 - 103)