Tổng hợp tiếng nói theo phương pháp mô phỏng bộ máy phát âm

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 57 - 58)

Một cách hiển nhiên, ñể tổng hợp tiếng nói thì chúng ta cần tìm một cách nào ñó mô phỏng bộ máy phát âm của chúng ta. ðây cũng là nguyên lý của các "máy nói" cổñiển mà nổi tiếng trong sốñó là máy do Von Kempelen chế tạo. Các bộ tổng hợp tiếng nói cổñiển theo nguyên lý này thường là các thiết bị cơ học với các ống, ống thổi, ... hoạt ñộng tựa hồ các dụng cụ âm nhạc, tuy nhiên với một chút huấn luyện có thể dùng ñể tạo ra tín hiệu tiếng nói nhận biết ñược. Việc ñiều khiển hoạt ñộng của máy là nhờ con người theo thời gian thực, ñiều này

Chương 4: Tổng hợp tiếng nói

mang lại nhiều thuận lợi cho hệ thống ở khía cạnh con người có thể sử dụng các cơ chế chẳng bạn như thông qua phản hồi ñểñiều khiển và bắt chước quá trình tạo tiếng nói tự nhiên. Tuy nhiên, ngày nay với nhu cầu của các bộ tổng hợp phức tạp hơn, các cỗ máy cổñiển rõ ràng là lỗi thời không thểñáp ứng ñược.

Cùng với sự hiểu biết của con người về bộ máy phát âm ñược nâng cao, các bộ tổng hợp sử dụng nguyên lý mô phỏng bộ máy phát âm ngày càng phức tạp và hoàn thiện hơn. Các hình dạng ống phức tạp ñược xấp xỉ bằng một loạt các ống ñơn giản nhỏ hơn. Với mô hình các ống ñơn giản, vì chúng ta biết ñược các ñặc tính truyền âm của nó, chúng ta có thể sử dụng ñể xây dựng các mô hình bộ máy phát âm tổng quát phức tạp.

Một ưu ñiển của phương pháp tổng hợp mô phỏng bộ máy phát âm là cho phép tạo ra một cách tự nhiên hơn ñể tạo ra tiếng nói. Tuy nhiên, phương pháp này cũng gặp phải một số khó khăn. Thứ nhất ñó là việc quyết ñịnh làm thế nào ñể có ñược các tham số ñiều khiển từ các yêu cầu tín hiệu cần tổng hợp. Rõ ràng, khó khăn này cũng gặp phải trong các phương pháp tổng hợp khác. Trong hầu hết các phương pháp tổng hợp khác, chẳng hạn các tham số formant có thể tìm ñược một cách trực tiếp từ tín hiệu tiếng nói thực, chúng ta chỉ ñơn giản ghi âm lại tiếng nói và tính toán rồi xác ñịnh chúng. Còn trong phương phương pháp mô phỏng bộ máy phát âm chúng ta sẽ gặp khó khăn hơn vì các tham số về bộ máy phát âm ñúng ñắn không thể xác ñịnh từ việc ghi lại tín hiệu thực mà phải thông qua các ño lường thông qua chẳng hạn ảnh X-ray, MRI... Khó khăn thứ hai là việc cân bằng giữa việc xây dựng một mô hình mô phỏng chính xác cao nhất giống với bộ máy phát âm sinh học của con người và một mô hình thực tiễn dễ thiết kế và thực hiện. Cả hai khó khăn này cho ñến nay vẫn ñược coi là thách thức với các nhà nghiên cứu. Và ñây cũng chính là lý do mà cho ñến nay có rất ít các hệ thống tổng hợp theo nguyên lý mô phỏng bộ máy phát âm có chất lượng so với các bộ tổng hợp theo nguyên lý khác.

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 57 - 58)