HỆ THỐNG TỔNG HỢP CHỮ VIẾT SANG TIẾNG NÓI- 123docz.net

Việc chuyển đổi từ chữ viết sang tiếng nói (TTS) là mục tiêu đầy tham vọng và vẫn

đang tiếp tục là tâm điểm chú ý của các nhà nghiên cứu phát triển. TTS có mặt ở nhiều

ứng dụng phục vụ cuộc sống. Chẳng hạn nhƣ việc các ứng dụng truy cập email qua thoại, các ứng dụng cơ sở dữ liệu cho các dịch vụ hỗ trợngƣời khiếm thị... Một hệ thống TTS

điển hình có sơ đồ khối với các thành phần đƣợc minh họa trong hình 4.6.

Hình 4.6 Sơ đồ khối một hệ thống TTS

Từ minh họa, ta thấy rằng, hệ thống TTS có thể đặc trƣng nhƣ một quá trình phân tích-tổng hợp 2 giai đoạn. Giai đoạn một của quá trình thực hiện việc phân tích chữ viết

đểxác định cấu trúc ngôn ngữẩn trong đó. Chữ viết đầu vào thƣờng bao gồm các cụm từ

viết tắt, các số La Mã, ngày tháng, công thức, các dấu câu...Giai đoạn phân tích chữ viết phải có khả năng chuyển đổi dạng chữ viết đầu vào thành một dạng chuẩn chấp nhận

đƣợc để sử dụng cho giai đoạn sau. Các mô tả ngôn ngữ dạng trừu tƣợng của dữ liệu thu

đƣợc ởgiai đoạn này có thể bao gồm một dãy phoneme và các thông tin khác, chẳng hạn

nhƣ cấu trúc nhấn, cấu trúc cú pháp...Các mô tảnày đƣợc chuyển đổi thành một bảng ghi âm tiết nhờ sựgiúp đỡ của một từđiển phát âm và các luật phát âm kèm theo. Giai đoạn thứ hai thực hiện việc tổng hợp xây dựng dạng sóng tín hiệu dựa trên các tham số thu

CHƢƠNG 4. TỔNG HỢP TIẾNG NÓI

Cả quá trình phân tích và tổng hợp của một hệ thống TTS liên quan đến một loạt các hoạt động xử lý. Hầu hết các hệ thống TTS hiện đại thực hiện các hoạt động xửlý đƣợc minh họa theo kiến trúc mô-đun nhƣ trong hình 4.7.

CHƢƠNG 4. TỔNG HỢP TIẾNG NÓI

102

Hoạt động của sơ đồ khối có thể mô tả sơ lƣợc nhƣ sau. Khi dạng dữ liệu chữ viết

đƣợc đƣa vào, mỗi mô-đun trích các thông tin đầu vào hoặc thông tin từ các mô-đun khác

liên quan đến chữ viết, và tạo ra các các thông tin đầu ra mong muốn cho việc xử lý ở các mô-đun tiếp theo. Việc trích chuyển đƣợc thực hiện cho đến khi dạng tín hiệu tổng hợp cuối cùng đƣợc tạo ra. Quá trình xử lý và truyền thông tin từ mô-đun này đến mô-đun

khác thông qua một "cơ chế" (engine) xử lý riêng biệt. Engine xử lý điều khiển dẫy các hoạt động đƣợc thực thi, và lƣu trữ mọi thông tin ở dạng cấu trúc dữ liệu thích hợp.

4.3.1. Phân tích chữ viết

Ta biết rằng, chữ viết bao gồm các ký tự chữ và số, các khoảng trắng, và có thể một loạt các ký tựđặc biệt khác. Nhƣ vậy bƣớc đầu tiên trong việc phân tích chữ viết là việc tiền xử lý chữ viết đầu vào (bao gồm thay thế chữ số, các chữ viết tắt bằng dạng viết đầy

đủ của chúng) để chuyển chúng thành một dãy các từ. Quá trình tiền xửlý thông thƣờng còn phát hiện và đánh dấu các vị trí ngắt quãng của câu và các thông tin vềđịnh dạng văn

bản thích hợp khác chẳng hạn nhƣ ngắt đoạn...Các mô-đun xử lý chữ viết tiếp theo sẽ

thực hiện việc chuyển dãy từ thành các mô tả ngôn ngữ. Một trong các chức năng quan

trọng của các khối này là xác định phát âm tƣơng ứng của các từ riêng lẻ. Trong các ngôn ngữnhƣ ngôn ngữ tiếng Anh, các quan hệ giữa các đánh vần của các từ và dạng ghi âm vị (phonemic transcription) tƣơng ứng là một quan hệ cực kỳ phức tạp. Ngoài ra, mối quan hệ này còn có thể khác nhau với các từ khác nhau có cùng cấu trúc, ví dụnhƣ phát

âm của cụm "ough" trong các từ "through", "though", "bough", "rough" và "cough".

Nhƣ đã đề cập khái quát trong phần trên, phát âm của từ thƣờng đƣợc xác định nhờ

việc sử dụng tổng hợp của một từđiển phát âm và các luật phát âm kèm theo. Trong các hệ thống TTS trƣớc khia, nhấn mạnh trong các phát âm xác định đƣợc tuân theo luật và bằng cách sử dụng một từ điển các ngoại lệ nhỏ cho các từ chung với cách phát âm bất quy tắc (chẳng hạn nhƣ "one", "two", "said", ...). Tuy nhiên ngày nay với sự sẵn có của bộ nhớ máy tính với giá thành rẻ, thƣờng việc xác định phát âm đƣợc hoàn thành bằng cách sử dụng một từđiền phát âm rất lớn (có thể gồm hàng vài chục ngàn từ) đểđảm bảo rằng từđã biết đƣợc phát âm một cách chính xác. Mặc dù vậy, các luật phát âm vẫn cần thiết để giải quyết vấn đề nảy sinh với các từ không biết vì các từ vựng mới đƣợc liên tục thêm vào ngôn ngữ, và cũng nhƣ không thể dựa hoàn toàn vào việc thêm vào tất cả các từ

vựng các danh từ riêng trong bộ từđiển. Việc xác định phát âm của từ có thểđƣợc thực hiện một cách dễ dàng nếu cấu trúc, hay còn gọi là hình thái học ngôn ngữ (morphology), của từ đƣợc biết trƣớc. Hầu hết các hệ thống TTS bao gồm cả các phân tích hình thái ngôn ngữ. Phân tích này xác định dạng gốc (root form của mỗi từ), ví dụ dạng gốc của "gives" là "give", và tránh sự cần thiết phải thêm cả dạng suy ra từ dạng gốc vào trong từ điển. Một số phân tích cú pháp của chữ viết cũng có thể cần đƣợc thực hiện nhằm xác

CHƢƠNG 4. TỔNG HỢP TIẾNG NÓI

"live" đƣợc phát âm khác nhau phụ thuộc vào nó đóng vai trò là một động từ hay một tính từ. Các phát âm của từ ta xác định là các phát âm của các từ khi chúng đƣợc nói riêng rẽ. Do đó, một số điều chỉnh cần đƣợc thực hiện để kết hợp các hiệu ứng âm tiết (phonetic) xảy ra trên vùng biên giữa các từ, nhằm cải thiện tính tự nhiên của tiếng nói tổng hợp đƣợc.

Ngoài việc xác định phát âm của dãy từ, giai đoạn phân tích chữ viết cũng phải thực hiện việc xác định các thông tin liên quan đến cách mà chữ viết sẽđƣợc nói. Thông tin này, bao gồm việc phân tiết tấu, dấu nhấn từ (mức từ), và mẫu các ngữđiệu của các từ

khác nhau. Các thông tin này sẽ đƣợc sử dụng để tạo âm điệu cho tiếng nói đƣợc tổng hợp. Các đánh dấu cho dấu nhấn từ có thể đƣợc thêm vào cho mỗi từ trong từ điển,

nhƣng các luật cũng sẽ cần để gán dấu nhấn từ cho các từ bất kỳ không tìm thấy trong từ điển. Với một số từ, chẳng hạn nhƣ từ "permit", về cơ bản có dấu nhấn trên các âm tiết khác nhau phụ thuộc vào việc chúng đƣợc sử dụng nhƣ một danh từ hay một động từ. Và

do đó, các thông tin về ngữpháp cũng cần thiết nhằm gán cấu trúc nhấn một cách chính xác. Kết quả của một phân tích cú pháp cũng có thểđƣợc sử dụng để nhóm các từ thành các cụm từ âm điệu, và từ đó quyết định các từ nào sẽ nhấn giọng sao cho mẫu nhấn giọng có thểđƣợc gán cho dãy từ. Trong khi cấu trúc cú pháp cung cấp các đầu mối hữu ích cho việc nhấn giọng và phân tiết tấu (và từđó tạo âm điệu), trong nhiều trƣờng hợp,

âm điệu biểu hiện thực có thểkhông đạt đƣợc nếu không thực sự hiểu nghĩa của chữ viết. Mặc dù một số ảnh hƣởng ngữnghĩa đã đƣợc sử dụng, các phân tích ngữnghĩa và tính thực dụng một cách đầy đủlà vƣợt quá các khảnăng của các hệ thống TTS hiện tại.

4.3.2. Tổng hợp tiếng nói

Các thông tin đƣợc trích từ các phân tích chữ viết đƣợc sử dụng để tạo ra âm điệu của

các đơn vị tiếng nói, bao gồm cả cấu trúc thời gian, mức độ nhấn mạnh toàn bộ và tần số cơ bản. Mô-đun cuối cùng của hệ thống TTS sẽ thực hiện việc tạo âm thanh của tín hiệu tiếng nói bằng cách đầu tiên chọn các đơn vị tổng hợp thích hợp để sử dụng, và sau đó

thực hiện việc tổng hợp các đơn vị này với nhau theo thông tin về âm điệu đã biết đƣợc cung cấp từ các mô-đun trƣớc đó. Việc tổng hợp có thểđƣợc thực hiện bằng một trong

các phƣơng pháp đã đề cập ở phần trên.

HỆ THỐNG TỔNG HỢP CHỮ VIẾT SANG TIẾNG NÓI

Biểu diễn phổ tín hiệu tiếng nói

CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG