Tổng hợp tiếng nói theo phƣơng pháp mơ phỏng bộ máy phát âm

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 102 - 103)

CHƢƠNG 4 TỔNG HỢP TIẾNG NÓI

4.2. CÁC PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI

4.2.3 Tổng hợp tiếng nói theo phƣơng pháp mơ phỏng bộ máy phát âm

Một cách hiển nhiên, để tổng hợp tiếng nói thì ta cần tìm một cách nào đó mơ phỏng bộ máy phát âm của ta. Đây cũng là nguyên lý của các "máy nói" cổ điển mà nổi tiếng trong số có máy do Von Kempelen chế tạo. Các bộ tổng hợp tiếng nói cổ điển theo nguyên lý này thƣờng là các thiết bị cơ học với các ống, ống thổi, ... hoạt động nhƣ các

dụng cụ âm nhạc, tuy nhiên với một chút huấn luyện có thể dùng để tạo ra tín hiệu tiếng nói nhận biết đƣợc. Việc điều khiển hoạt động của máy là nhờ con ngƣời theo thời gian thực, điều này mang lại nhiều thuận lợi cho hệ thống ở khía cạnh con ngƣời có thể sử

dụng các cơ chế chẳng hạn nhƣ thông qua phản hồi để điều khiển và bắt chƣớc quá trình tạo tiếng nói tự nhiên. Tuy nhiên, ngày nay với nhu cầu của các bộ tổng hợp phức tạp

hơn, các cỗ máy cổ điển rõ ràng là lỗi thời không thể đáp ứng đƣợc.

Cùng với sự hiểu biết của con ngƣời về bộ máy phát âm đƣợc nâng cao, các bộ tổng hợp sử dụng nguyên lý mô phỏng bộ máy phát âm ngày càng phức tạp và hồn thiện hơn. Các hình dạng ống phức tạp đƣợc xấp xỉ bằng một loạt các ống đơn giản nhỏ hơn. Với

mơ hình các ống đơn giản, vì ta biết đƣợc các đặc tính truyền âm của nó, ta có thể sử

dụng để xây dựng các mơ hình bộ máy phát âm tổng quát phức tạp.

Một ƣu điểm của phƣơng pháp tổng hợp mô phỏng bộ máy phát âm là cho phép tạo ra một cách tự nhiên hơn để tạo ra tiếng nói. Tuy nhiên, phƣơng pháp này cũng gặp phải một số khó khăn. Thứ nhất đó là việc quyết định làm thế nào để có đƣợc các tham số điều khiển từ các yêu cầu tín hiệu cần tổng hợp. Rõ ràng, khó khăn này cũng gặp phải trong các phƣơng pháp tổng hợp khác. Trong hầu hết các phƣơng pháp tổng hợp khác,

chẳng hạn các tham số formant có thể tìm đƣợc một cách trực tiếp từ tín hiệu tiếng nói thực, ta chỉ đơn giản ghi âm lại tiếng nói và tính tốn rồi xác định chúng. Cịn trong phƣơng phƣơng pháp mơ phỏng bộ máy phát âm ta sẽ gặp khó khăn hơn vì các tham số

về bộ máy phát âm đúng đắn khơng thể xác định từ việc ghi lại tín hiệu thực mà phải

CHƢƠNG 4. TỔNG HP TING NÓI

100

giữa việc xây dựng một mơ hình mơ phỏng chính xác cao nhất giống với bộ máy phát âm sinh học của con ngƣời và một mơ hình thực tiễn dễ thiết kế và thực hiện. Cả hai khó

khăn này cho đến nay vẫn đƣợc coi là thách thức với các nhà nghiên cứu. Và đây cũng chính là lý do mà cho đến nay có rất ít các hệ thống tổng hợp theo nguyên lý mô phỏng

bộ máy phát âm có chất lƣợng so với các bộ tổng hợp theo nguyên lý khác.

Một phần của tài liệu Bài giảng xử lý tiếng nói (Trang 102 - 103)

Tải bản đầy đủ (PDF)

(155 trang)