Trong hình 3.1, phân tích văn bản cho TTS đòi hỏi 3 quá trình liên quan sau [15]:
- Xác định cấu trúc văn bản: cấu trúc văn bản là rất quan trọng nhằm cung
cấp một ngữ cảnh cho tất cả các quá trình sau đó. Một số thành phần của cấu trúc văn bản như ngắt câu và các đoạn có thể trực tiếp liên quan đến ngôn điệu.
- Chuẩn hóa văn bản: Chuẩn hóa văn bản là biến đổi từ nhiều ký hiệu khác
nhau như con số, các thực thể phi chính tả khác của văn bản thành một phiên âm chính tả nói chung phù hợp cho biến đổi thành chuỗi ngữ âm.
- Phân tích ngôn ngữ học: phân tích ngôn ngữ là xác định các điều khoản cú
pháp và các đặc trưng ngữ nghĩa về từ , cụm từ, mệnh đề và câu mà quan trọng cho cả phát âm và ngôn điệu trong các quá trình tiếp theo.
Nhiệm vụ của phân tích ngữ âm là biến đổi các ký hiệu chính tả từ vựng thành âm vị cùng với các thông tin về dấu thanh có thể có như vị trí của trọng âm. Phân tích ngữ âm thường quy về biến đổi tự vị thành âm vị. Mục đích là rõ ràng, vì các âm vị là đơn vị cơ bản của âm thanh như đã mô tả trong chương 2. Biến đổi tự vị thành âm vị là bình thường cho các ngôn ngữ mà có quan hệ đơn giản giữa chính tả và âm vị học. Có 3 dịch vụ sau cần thiết để sản sinh ra các phát âm chính xác:
- Xử lí nhập nhằng từ đồng dạng: modul này là rất quan trọng cho các ngôn
ngữ Ấn-Âu khi có nhiều từ đồng dạng nhưng phát âm có thể là khác nhau như object (/ah b jh eh k t/ là một động từ hoặc như một danh từ /â b jh eh k t/). Với tiếng Việt tỏ ra không quan trọng, bởi vì với tiếng Việt là ngôn ngữ ghi âm, viết như thế nào sẽ đọc như thế.
- Phân tích hình vị : Phân tích các hình vị cung cấp tín hiệu quan trọng để đạt
được các phát âm cho chuyển điệu và tìm ra nguồn gốc các từ. Trong tiếng Việt không có sự biến đổi về hình vị từ. Phương pháp ngữ pháp nằm ngoài từ. Phương pháp ngữ pháp chủ yếu là trật tự từ và từ hư.
- Biến đổi chữ viết về dạng phát âm: Giai đoạn cuối cùng của phân tích ngữ
âm nói chung bao gồm các quy tắc hoặc modul LTS và một từ điển để cho đầu ra là các phát âm chính xác cho bất kỳ một từ nào. Như đã nói , tiếng Việt là ngôn ngữ ghi âm , nên không khó khăn trong việc đưa từ tự vị về dạng âm vị để phát âm cho chính xác.
nói trên không phải là một tuân theo một trật tự bắt buộc mặc dù trong phần lớn các TTS hiện nay đều có quá trình xử lí như vậy. Có nghĩa là mỗi quá trình nói trên có thể phát sinh nhiều giả thuyết với hy vọng là quá trình tiếp theo sau đó có thể xử lí sự nhập nhằng các giả thuyết đó bằng cách sử dụng nhiều hơn tri thức. Ví dụ: trong modul xác định cấu trúc văn bản đôi khi có thể không phân biệt rõ ràng dấu chấm câu “.” là dấu kết thúc một câu hoặc là dấu hiệu của chữ viết tắt. Quá trình xác định cấu trúc văn bản có thể truyền các giả thuyết cho các quá trình sau và truyền cả quyết định có thể được hoãn lại cho đến khi có đủ thông tin để có một quyết định thuyết phục hơn trong các modul tiếp theo như chuẩn hóa văn bản hay phân tích ngôn ngữ. Khi phát sinh nhiều giả thuyết thì quá trình có thể gán thông tin xác xuất nếu nó bao hàm cấu trúc xác xuất cơ sở. Kiến trúc ống dẫn linh hoạt này tránh các lỗi tạo ra bởi các quá trình trước đó do không đủ tri thức cần thiết.
3.2. Từ điển
Tài nguyên quan trọng nhất cho phân tích văn bản và phân tích ngữ âm là từ điển của hệ thống TTS. Trong hình 3.1, từ điển cho hệ thống TTS được chia xẻ cho hầu hết các thành phần của hệ thống. Để hỗ trợ cho hệ thống TTS thì từ điển nên bao gồm những loại dịch vụ sau [15]:
- Các dạng biến cách của các mục từ trong từ điển
- Các cách phát âm, đặc điểm về cấu trúc âm tiết và trọng âm cho mỗi mục từ. - Khả năng phân tích hình thái học
- Khai triển các từ viết tắt, các cụm từ viết tắt và cách phát âm chúng.
- Chỉ ra tình trạng viết tắt bao gồm nhãn tên thông thường và các thuộc tính đặc biệt khác.
- Danh sách tên gọi cho tất cả các kí tự đơn nói chung (ví dụ @- a còng). Trong hệ điều hành hiện đại, các chữ cái nên bao gồm cả các ký tự Unicode. - Từ loại và các thuộc tính ngữ pháp/ ngữ nghĩa khác
- Các tính chất đặc biệt khác.
Từ điển cần được làm cụ thể theo các yêu cầu cho một hệ thống TTS từ các mục đích chung NLP.
3.3. Xác định cấu trúc văn bản
Giả thuyết ở đây là đầu vào cho modul phân tích văn bản là file text thuần tuý. Đầu ra là file được đánh dấu theo các thẻ đánh dấu <tag> nhằm phục vụ tốt cho
việc đọc và phát sinh ngôn điệu.
Tất cả tri thức được tái tạo lại trong pha TAM sẽ được biểu diễn bằng tài liệu đánh dấu XML. Điều này xác nhận sự độc lập của TAM với các tính toán về ngữ âm và ngôn điệu, cho phép sự đa dạng của của tài nguyên. Do đó đầu ra của TAM có khả năng được sử dụng nhiều cho các modul khác kể cả các modul không phải xử lí TTS ví dụ như modul chuẩn hóa mô hình ngôn ngữ huấn luyện dữ liệu cho việc xây dựng các mô hình ngôn ngữ thống kê. Quan điểm trong suốt và modul hóa một cách đầy đủ này của TTS cho phép linh hoạt nhất trong việc phân tích tài liệu, cung cấp cách tạo ra trực tiếp cấu trúc văn bản và các tùy biến khác trong khi cho phép chia nhỏ chi phí giữa việc phân tích ngôn ngữ tự nhiên cho nhiều mục đích và chức năng cốt lõi TTS.
Mặc dù các định dạng văn bản khác hay ngôn ngữ đánh dấu khác như Adobe Acrobat hoặc Microsoft Word có thể được sử dụng cho các mục đích tương tự, việc lựa chọn XML là hiển nhiên vì nó là chuẩn mở trên Internet
3.3.1 Các tiêu đề của chƣơng, mục
Các tiêu đề của mục là qui ước chuẩn trong XML, các hệ thống TTS có thể sử dụng chỉ thị này để điều khiển ngôn điệu và điều chỉnh phong cách ngôn điệu. Một trình đọc chuyên nghiệp có thể xử lí các tiêu đề của chương theo những cách khác nhau. Trong các tài liệu dài, cấu trúc tài liệu có đánh dấu sẽ trợ giúp định hướng hoạt động âm thanh, tốc độ đọc, các chỗ tạm dưng hay bỏ qua. Việc xem tài liệu theo cách này có thể đưa đến một hệ TTS chèn các chỗ tạm dừng và sự nhấn giọng chính xác, để phù hợp với cấu trúc được đánh dấu. Hơn nữa một hệ thống giao diện audio có thể làm việc cùng chung với một TTS để cho phép hoạt động dễ dàng và định hướng trong một cấu trúc như vậy. Nếu các tài liệu tương lai được đánh dấu theo phong cách này thì khái niệm sách audio sẽ được làm thay đổi theo kiểu ít ghi âm tiếng nói phi cấu trúc hơn và thông minh hơn, kiến thức XML, hệ TTS và âm thanh chất lượng cao với các tùy biến đầu ra linh hoạt chúng cung cấp. Việc phát hiện ra các tiêu đề chương mục một cách tự động cho các tài liệu không có thông tin đánh dấu rõ ràng là một nhiệm vụ không tầm thường. Do vậy đa số các hệ TTS hiện nay không làm như vậy.
<Title>The Pity of War</Title>
<Subtitle>Explaining World War I</Subtitle> <Author>Niall Ferguson</Author> <TableOfContents>…</TableOfContents> <Introduction> <Para>…</Para> … </Introduction> <Chapter>
<ChapterTitle>The Myths of Militarism</ChapterTitle> <Section> <SectionTitle>Prophets</SectionTitle> <Para> … </Para> … </Section> </Chapter> … </Book> Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách 3.3.2. Danh sách
Các danh sách và đầu mục bullet có thể được có ngữ điệu khác biệt với ngữ điệu nền, do đó nên đưa ra trạng thái đặc biệt của chúng. Kiểu cấu trúc này có thể được chỉ ra như trong hình 3.3. Tương tự các tiêu đề chương và mục, đa số các TTS ngày nay không làm để phát hiện cấu trúc danh sách một cách tự động.
<UL>
<LI>compression</LI> <LI>flexibility</LI>
<LI>text-waveform correspondence</LI> </UL>
<Caption>The advantages of TTS</Caption>
Hình 3.3 Ví dụ về một danh sách được đánh dấu
3.3.3 Các đoạn
Đoạn được trình bày để dẫn hướng và phân biệt những liên quan đến chuyển tiếp cao độ (pitch) trong TTS. Khoảng cao độ của một giọng đọc hay đối với một vài mệnh đề tại thời điểm bắt đầu một đoạn mới là thường cao hơn so với các câu giữa đoạn và nó thu hẹp lại hơn nữa ở những mệnh đề cuối cùng, trước khi bắt đầu đoạn sau. Do đó để bắt chước lại phong cách dọc chất lượng cao trong các hệ TTS, cấu trúc đoạn được xác định bằng thẻ đánh dấu hoặc suy ra từ việc duyệt định dạng thô. Hiển nhiên là việc dựa vào các thẻ đánh dấu XML là luôn được lựa chọn vì
điều này là vô cùng phổ biến các chú thích trong các tài liệu XML. Các đoạn chắc chắn dễ phát hiện một cách tự động nhất. Ký tự <CR> (xuống dòng) hay <NL> (dòng mới ) thường được dùng để xác định chắc chắc đâu là đoạn.
3.3.4 Câu
Phân loại câu theo mục đích nói được tập trung cho những hệ TTS có chất lượng cao. Căn cứ vào mục đích nói câu được nêu thành 4 kiểu sau [2]:
- Câu tường thuật (câu kể). - Câu nghi vấn (câu hỏi).
- Câu mệnh lệnh (câu cầu khiến). - Câu cảm thán.
Biên giới câu trong tiếng Việt thường có tín hiệu kết thúc câu từ tập các dấu hiệu {., !, ?} theo sau là một khoảng trống và chữ viết hoa đầu câu. Đôi khi dấu chấm câu bổ sung có thể kéo dài ? và !. Các dấu hiệu này được dùng để lần lượt phân biệt ba loại câu trong tiếng Việt là câu tường thuật, câu hỏi và câu cảm thán. Tương ứng trong văn bản đánh dấu XML là các thẻ đánh dấu sau:
<Sent type="?"> Anh đã ăn cơm chưa? </Sent>
<Sent type="."> Cám ơn, tôi ăn rồi. </Sent>
<Sent type=" !"> Thế thì tốt quá! </Sent>
Hình 3.4 Ví dụ về một đánh dấu câu
Tiếng Việt là một ngôn ngữ đa thanh, vì vậy việc sử dụng ngữ điệu để phân biệt câu theo mục đích là khá hạn chế. Với những câu nghi vấn có chứa sẵn các phương tiện nghi vấn thì việc phân biệt ngữ điệu nghi vấn với ngữ điệu tường thuật là không dễ dàng. Việc miêu tả đủ rõ ngữ điệu của câu đòi hỏi phải có thực nghiệm công phu, ở ta chưa có ai thực hiện việc này. [2]
Ngữ điệu của câu mệnh lệnh có nhiều thang độ và mang những ý nghĩa tinh tế khác nhau. Nét chung của nó là lên giọng ở cuối câu và kéo dài từ mang nội dung
chính. Ví dụ: "Mày câm ngay!".
Với tiếng Việt, trong câu cảm thán, ngoài ngữ điệu nó còn có một bộ tiểu từ, phụ từ chuyên dụng hoặc có thêm cấu tạo đặc thù phân biệt được với kiểu câu khác. Tuy nhiên khó xác định được mức độ tình cảm , tâm trạng để phân biệt câu tường thuật với câu cảm thán.
Một khó khăn trong việc xác định ranh giới câu là có sự nhập nhằng về dấu "." có thể là dấu kết thúc câu và nó cũng có thể là có trong một địa chỉ email (ví dụ:
cdm@yahoo.com) hay một dấu phân tách hàng trong một biểu thức số (ví dụ:
123.456.456). Dấu "." còn có thể là dấu hiệu của chữ viết tắt, (ví dụ: TS. Đỗ Đăng Hùng), tuy nhiên điều này hiếm gặp trong các văn bản thuần Việt. Để phát hiện ra sự nhập nhằng này sử dụng thuật toán sau:
Thuật toán phát hiện sự nhập nhằng dấu chấm 1. Nếu dấu câu là {.,?,!} thì lấy thêm một kí tự
2. Nếu không phải là dấu trống thì lấy thêm một kí tự và quay lại 1 3. Nếu là dấu "." thì đến bước 4
4. Thực hiện modul xử lí từ đơn. Nếu không phải từ đơn đến bước 5, ngược lại lấy thêm 1 kí tự đến bước 1
5. Khai báo ranh giới câu và kiểu câu {.,?, !} thêm một kí tự
3.3.5 E-mail
TTS có thể là lý tưởng cho đọc e-mail qua điện thoại hay trong tình huống mắt nhìn bận việc khác như khi lái xe. Ở đây chúng ta cho rằng cấu trúc e-mail được đánh dấu như XML. Một vài yếu tố cốt yếu nhằm vào ngôn điệu chất lượng cao và việc điều khiển giao diện âm thanh. Ví dụ, chữ kí (signature) của e-mail chắc chắn có chức năng ý nghĩa khác hơn so với nội dung chính của thông điệp và nên được chỉ ra một cách rõ ràng. Cấu trúc tài liệu e-mail có thể được xác định với các thẻ thích hợp như hình 3.5. Tuy nhiên là vô cùng khó khăn để một hệ thống TTS phát hiện nó một cách tự động. <message> <header> <date>11/7/1998</date> <from>Hà Thanh</from> <to>Lê Hải</to>
</header>
<body> … </body> <sig>Chữ kí</sig> </message>
Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML
3.3.6. Trang WEB
Tất cả các chú giải về TTS dựa theo cấu trúc văn bản đánh dấu của XML có thể cũng được áp dụng cho trường hợp các trang web đánh dấu HTML. Mặt khác với các đầu mục,danh sách, đoạn … hệ thống TTS nên có các quy ước chuyển đổi XML/HTML. Tại các liên kết (<a href=“…”>link name</a>) và nên áp dụng một vài chất lượng giọng nói khác biệt hay cao độ ngôn điệu cho chỗ nhấn mạnh đó. Kích cỡ và mầu sắc của các đầu mục văn bản cũng cung cấp các gợi ý có ích cho nhấn giọng. Hơn nữa hệ thống TTS nên tích hợp hoàn trả lại nội dung audio và video trên trang web để tạo ra một cảm nhận đa phương tiện thực sự cho người dùng. Có thể nói nhiều hơn về sự dịch nội dung web mà dựa theo các tài liệu XML hay HTML được chuẩn bị một cách cụ thể cho thể hiện web . Hơn nữa WWW được bắt đầu làm việc theo chuẩn về phong cách nghe mà có thể làm việc theo chung với chuẩn HTML cung cấp dẫn hướng đặc biệt cho việc dịch nghe.
3.3.7 Hoạt động hội thoại
Không phải tất cả văn bản được hoàn trả bởi hệ thống TTS đều là bài văn xuôi chuẩn. Nhiều hệ thống TTS diễn cảm hơn có thể giao nhiệm vụ với hoàn trả cuộc trò chuyện và hội thoại tự nhiên theo phong cách tự nhiên. Với các tài liệu viết, hệ thống TTS được dẫn hướng bởi đánh dấu XML trong đầu vào. Các hệ thống khác nhau về đánh dấu diễn biến hội thoại (thay đổi người nói) và hoạt động nói (điệu thức chức năng mục đích của một cách nói) được sử dụng cho mục đích này. Hoạt động nói mã hóa có thể trợ giúp được, ví dụ định danh mục đích của người nói với chú ý về cách nói , tương phản cho các thuộc tính cấu trúc của cách nói. Tình huống ngôn điệu và chất lượng giọng nói được chọn bởi TTS có thể được nhấn mạnh phụ thuộc vào tri thức chức năng.
3.4 Chuẩn hóa văn bản
tiểu thuyết và các truyện ngắn có thể có các hội thoại đặt rải rác, các sách hướng dẫn kỹ thuật có thể có các công thức toán học, đồ thị, hình vẽ biểu đồ, bảng biểu với các chữ viết hoa và các con số; email có thể yêu cầu thông dịch về các ký hiệu quy ước đặc biệt như ký hiệu cảm xúc, ví dụ :-) có nghĩa là mỉm cười, cũng như trên