Giả thuyết ở đây là đầu vào cho modul phân tích văn bản là file text thuần tuý. Đầu ra là file được đánh dấu theo các thẻ đánh dấu <tag> nhằm phục vụ tốt cho
việc đọc và phát sinh ngôn điệu.
Tất cả tri thức được tái tạo lại trong pha TAM sẽ được biểu diễn bằng tài liệu đánh dấu XML. Điều này xác nhận sự độc lập của TAM với các tính toán về ngữ âm và ngôn điệu, cho phép sự đa dạng của của tài nguyên. Do đó đầu ra của TAM có khả năng được sử dụng nhiều cho các modul khác kể cả các modul không phải xử lí TTS ví dụ như modul chuẩn hóa mô hình ngôn ngữ huấn luyện dữ liệu cho việc xây dựng các mô hình ngôn ngữ thống kê. Quan điểm trong suốt và modul hóa một cách đầy đủ này của TTS cho phép linh hoạt nhất trong việc phân tích tài liệu, cung cấp cách tạo ra trực tiếp cấu trúc văn bản và các tùy biến khác trong khi cho phép chia nhỏ chi phí giữa việc phân tích ngôn ngữ tự nhiên cho nhiều mục đích và chức năng cốt lõi TTS.
Mặc dù các định dạng văn bản khác hay ngôn ngữ đánh dấu khác như Adobe Acrobat hoặc Microsoft Word có thể được sử dụng cho các mục đích tương tự, việc lựa chọn XML là hiển nhiên vì nó là chuẩn mở trên Internet
3.3.1 Các tiêu đề của chƣơng, mục
Các tiêu đề của mục là qui ước chuẩn trong XML, các hệ thống TTS có thể sử dụng chỉ thị này để điều khiển ngôn điệu và điều chỉnh phong cách ngôn điệu. Một trình đọc chuyên nghiệp có thể xử lí các tiêu đề của chương theo những cách khác nhau. Trong các tài liệu dài, cấu trúc tài liệu có đánh dấu sẽ trợ giúp định hướng hoạt động âm thanh, tốc độ đọc, các chỗ tạm dưng hay bỏ qua. Việc xem tài liệu theo cách này có thể đưa đến một hệ TTS chèn các chỗ tạm dừng và sự nhấn giọng chính xác, để phù hợp với cấu trúc được đánh dấu. Hơn nữa một hệ thống giao diện audio có thể làm việc cùng chung với một TTS để cho phép hoạt động dễ dàng và định hướng trong một cấu trúc như vậy. Nếu các tài liệu tương lai được đánh dấu theo phong cách này thì khái niệm sách audio sẽ được làm thay đổi theo kiểu ít ghi âm tiếng nói phi cấu trúc hơn và thông minh hơn, kiến thức XML, hệ TTS và âm thanh chất lượng cao với các tùy biến đầu ra linh hoạt chúng cung cấp. Việc phát hiện ra các tiêu đề chương mục một cách tự động cho các tài liệu không có thông tin đánh dấu rõ ràng là một nhiệm vụ không tầm thường. Do vậy đa số các hệ TTS hiện nay không làm như vậy.
<Title>The Pity of War</Title>
<Subtitle>Explaining World War I</Subtitle> <Author>Niall Ferguson</Author> <TableOfContents>…</TableOfContents> <Introduction> <Para>…</Para> … </Introduction> <Chapter>
<ChapterTitle>The Myths of Militarism</ChapterTitle> <Section> <SectionTitle>Prophets</SectionTitle> <Para> … </Para> … </Section> </Chapter> … </Book> Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách 3.3.2. Danh sách
Các danh sách và đầu mục bullet có thể được có ngữ điệu khác biệt với ngữ điệu nền, do đó nên đưa ra trạng thái đặc biệt của chúng. Kiểu cấu trúc này có thể được chỉ ra như trong hình 3.3. Tương tự các tiêu đề chương và mục, đa số các TTS ngày nay không làm để phát hiện cấu trúc danh sách một cách tự động.
<UL>
<LI>compression</LI> <LI>flexibility</LI>
<LI>text-waveform correspondence</LI> </UL>
<Caption>The advantages of TTS</Caption>
Hình 3.3 Ví dụ về một danh sách được đánh dấu
3.3.3 Các đoạn
Đoạn được trình bày để dẫn hướng và phân biệt những liên quan đến chuyển tiếp cao độ (pitch) trong TTS. Khoảng cao độ của một giọng đọc hay đối với một vài mệnh đề tại thời điểm bắt đầu một đoạn mới là thường cao hơn so với các câu giữa đoạn và nó thu hẹp lại hơn nữa ở những mệnh đề cuối cùng, trước khi bắt đầu đoạn sau. Do đó để bắt chước lại phong cách dọc chất lượng cao trong các hệ TTS, cấu trúc đoạn được xác định bằng thẻ đánh dấu hoặc suy ra từ việc duyệt định dạng thô. Hiển nhiên là việc dựa vào các thẻ đánh dấu XML là luôn được lựa chọn vì
điều này là vô cùng phổ biến các chú thích trong các tài liệu XML. Các đoạn chắc chắn dễ phát hiện một cách tự động nhất. Ký tự <CR> (xuống dòng) hay <NL> (dòng mới ) thường được dùng để xác định chắc chắc đâu là đoạn.
3.3.4 Câu
Phân loại câu theo mục đích nói được tập trung cho những hệ TTS có chất lượng cao. Căn cứ vào mục đích nói câu được nêu thành 4 kiểu sau [2]:
- Câu tường thuật (câu kể). - Câu nghi vấn (câu hỏi).
- Câu mệnh lệnh (câu cầu khiến). - Câu cảm thán.
Biên giới câu trong tiếng Việt thường có tín hiệu kết thúc câu từ tập các dấu hiệu {., !, ?} theo sau là một khoảng trống và chữ viết hoa đầu câu. Đôi khi dấu chấm câu bổ sung có thể kéo dài ? và !. Các dấu hiệu này được dùng để lần lượt phân biệt ba loại câu trong tiếng Việt là câu tường thuật, câu hỏi và câu cảm thán. Tương ứng trong văn bản đánh dấu XML là các thẻ đánh dấu sau:
<Sent type="?"> Anh đã ăn cơm chưa? </Sent>
<Sent type="."> Cám ơn, tôi ăn rồi. </Sent>
<Sent type=" !"> Thế thì tốt quá! </Sent>
Hình 3.4 Ví dụ về một đánh dấu câu
Tiếng Việt là một ngôn ngữ đa thanh, vì vậy việc sử dụng ngữ điệu để phân biệt câu theo mục đích là khá hạn chế. Với những câu nghi vấn có chứa sẵn các phương tiện nghi vấn thì việc phân biệt ngữ điệu nghi vấn với ngữ điệu tường thuật là không dễ dàng. Việc miêu tả đủ rõ ngữ điệu của câu đòi hỏi phải có thực nghiệm công phu, ở ta chưa có ai thực hiện việc này. [2]
Ngữ điệu của câu mệnh lệnh có nhiều thang độ và mang những ý nghĩa tinh tế khác nhau. Nét chung của nó là lên giọng ở cuối câu và kéo dài từ mang nội dung
chính. Ví dụ: "Mày câm ngay!".
Với tiếng Việt, trong câu cảm thán, ngoài ngữ điệu nó còn có một bộ tiểu từ, phụ từ chuyên dụng hoặc có thêm cấu tạo đặc thù phân biệt được với kiểu câu khác. Tuy nhiên khó xác định được mức độ tình cảm , tâm trạng để phân biệt câu tường thuật với câu cảm thán.
Một khó khăn trong việc xác định ranh giới câu là có sự nhập nhằng về dấu "." có thể là dấu kết thúc câu và nó cũng có thể là có trong một địa chỉ email (ví dụ:
cdm@yahoo.com) hay một dấu phân tách hàng trong một biểu thức số (ví dụ:
123.456.456). Dấu "." còn có thể là dấu hiệu của chữ viết tắt, (ví dụ: TS. Đỗ Đăng Hùng), tuy nhiên điều này hiếm gặp trong các văn bản thuần Việt. Để phát hiện ra sự nhập nhằng này sử dụng thuật toán sau:
Thuật toán phát hiện sự nhập nhằng dấu chấm 1. Nếu dấu câu là {.,?,!} thì lấy thêm một kí tự
2. Nếu không phải là dấu trống thì lấy thêm một kí tự và quay lại 1 3. Nếu là dấu "." thì đến bước 4
4. Thực hiện modul xử lí từ đơn. Nếu không phải từ đơn đến bước 5, ngược lại lấy thêm 1 kí tự đến bước 1
5. Khai báo ranh giới câu và kiểu câu {.,?, !} thêm một kí tự
3.3.5 E-mail
TTS có thể là lý tưởng cho đọc e-mail qua điện thoại hay trong tình huống mắt nhìn bận việc khác như khi lái xe. Ở đây chúng ta cho rằng cấu trúc e-mail được đánh dấu như XML. Một vài yếu tố cốt yếu nhằm vào ngôn điệu chất lượng cao và việc điều khiển giao diện âm thanh. Ví dụ, chữ kí (signature) của e-mail chắc chắn có chức năng ý nghĩa khác hơn so với nội dung chính của thông điệp và nên được chỉ ra một cách rõ ràng. Cấu trúc tài liệu e-mail có thể được xác định với các thẻ thích hợp như hình 3.5. Tuy nhiên là vô cùng khó khăn để một hệ thống TTS phát hiện nó một cách tự động. <message> <header> <date>11/7/1998</date> <from>Hà Thanh</from> <to>Lê Hải</to>
</header>
<body> … </body> <sig>Chữ kí</sig> </message>
Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML
3.3.6. Trang WEB
Tất cả các chú giải về TTS dựa theo cấu trúc văn bản đánh dấu của XML có thể cũng được áp dụng cho trường hợp các trang web đánh dấu HTML. Mặt khác với các đầu mục,danh sách, đoạn … hệ thống TTS nên có các quy ước chuyển đổi XML/HTML. Tại các liên kết (<a href=“…”>link name</a>) và nên áp dụng một vài chất lượng giọng nói khác biệt hay cao độ ngôn điệu cho chỗ nhấn mạnh đó. Kích cỡ và mầu sắc của các đầu mục văn bản cũng cung cấp các gợi ý có ích cho nhấn giọng. Hơn nữa hệ thống TTS nên tích hợp hoàn trả lại nội dung audio và video trên trang web để tạo ra một cảm nhận đa phương tiện thực sự cho người dùng. Có thể nói nhiều hơn về sự dịch nội dung web mà dựa theo các tài liệu XML hay HTML được chuẩn bị một cách cụ thể cho thể hiện web . Hơn nữa WWW được bắt đầu làm việc theo chuẩn về phong cách nghe mà có thể làm việc theo chung với chuẩn HTML cung cấp dẫn hướng đặc biệt cho việc dịch nghe.
3.3.7 Hoạt động hội thoại
Không phải tất cả văn bản được hoàn trả bởi hệ thống TTS đều là bài văn xuôi chuẩn. Nhiều hệ thống TTS diễn cảm hơn có thể giao nhiệm vụ với hoàn trả cuộc trò chuyện và hội thoại tự nhiên theo phong cách tự nhiên. Với các tài liệu viết, hệ thống TTS được dẫn hướng bởi đánh dấu XML trong đầu vào. Các hệ thống khác nhau về đánh dấu diễn biến hội thoại (thay đổi người nói) và hoạt động nói (điệu thức chức năng mục đích của một cách nói) được sử dụng cho mục đích này. Hoạt động nói mã hóa có thể trợ giúp được, ví dụ định danh mục đích của người nói với chú ý về cách nói , tương phản cho các thuộc tính cấu trúc của cách nói. Tình huống ngôn điệu và chất lượng giọng nói được chọn bởi TTS có thể được nhấn mạnh phụ thuộc vào tri thức chức năng.
3.4 Chuẩn hóa văn bản
tiểu thuyết và các truyện ngắn có thể có các hội thoại đặt rải rác, các sách hướng dẫn kỹ thuật có thể có các công thức toán học, đồ thị, hình vẽ biểu đồ, bảng biểu với các chữ viết hoa và các con số; email có thể yêu cầu thông dịch về các ký hiệu quy ước đặc biệt như ký hiệu cảm xúc, ví dụ :-) có nghĩa là mỉm cười, cũng như trên web và các khuôn dạng địa chỉ của Internet và các chữ viết tắt đặc biệt (IMHO nghĩa là in my humble opinion) . Bất kỳ văn bản nguồn nào có thể bao gồm nhiều phần con số, dấu ngoặc, ngày tháng, thời gian, tiền tệ và các biểu thức toán học cũng như con số thứ tự. Nếu không có phân tích ngữ cảnh hay tri thức tiên đoán thậm chí một người đọc bình thường đôi khi cũng khó khăn để hiểu đầy đủ về mỗi chuỗi ký tự không có trong bảng chữ cái hay các chữ viết tắt. Chuẩn hóa văn bản (Text Normalization -TN) là quá trình để sinh ra văn bản chính tả được chuẩn hóa (hay như vài hệ thống, trực tiếp sinh ra tiếng) từ văn bản chứa các từ, con số, dấu chấm câu và các ký hiệu đặc biệt khác [15]. Ví dụ
Tốc độ phát triển là 7,5% ->Tốc độ phát triển là bẩy phẩy năm phần trăm
Chuẩn hóa văn bản là yêu cầu cốt yếu không chỉ cho TTS mà còn cho sự chuẩn bị ngữ liệu huấn luyện để xây dựng mô hình âm học và mô hình ngôn ngữ. Ngoài ra các hệ thống chính tả ngôn ngữ nói cũng phải đương đầu với vấn đề tương tự về chuẩn hóa văn bản theo chiều ngược lại với việc tạo ra văn bản nhận được từ các từ đã được nhận dạng và các hệ thống như vậy có thể phụ thuộc vào các nguồn tri thức tương tự như đã nói trên. Ví dụ về chuẩn hóa ngược văn bản
Tốc độ phát triển là bẩy phẩy năm phần trăm -> Tốc độ phát triển là 7,5%
3.4.1 Chuẩn hoá y-i
Như đã phân tích trong chương 2, trong tiếng Việt tồn tại hai cách viết y và i
cho cùng một âm vị /i/. Việc cho phép viết một từ ở cả hai cách sẽ giảm hiệu suất của chương trình. Thống nhất viết nguyên âm chính /i/ bằng chữ cái "i". Khi y đứng kết thúc một chữ thì đều chuyển thành i , ví dụ như quý -> quí,lý ->lí,.... Tuy nhiên khi cần phân biệt thuý với thúi thì vẫn viết như cũ. Khi i hoặc y đứng một mình hoặc đứng đầu âm tiết thì vẫn viết theo thói quen cũ như trong ầm ĩ , yêu ...
3.4.2 Chuẩn hoá đấu thanh
thốngnhất qui tắc đặt dấu chung. Do tiếng Việt có nhiều hơn một qui định về qui tắc bỏ dấu cho nên gây khó khăn cho các thao tác xử lí về sau. Bởi vì cùng một chữ nhưng dung hai qui tắc bỏ dấu khác nhau sẽ cho hai chuỗi kí tự hoàn toàn khác nhau ví dụ như hoà và hòa. Sự khác nhau này dẫn đến tình trạng đối sánh nhận dạng từ trong từ điển có thể không chính xác.
Để tránh tình trạng này, dấu thanh sẽ được chuẩn hoá theo qui tắc được đánh vào âm vị chính của vần. Tức là được đặt được trên nguyên âm có vai trò quyết định âm sắc chủ yếu của âm tiết. Theo nguyên tắc này các bỏ dấu thanh hoà, quả, của là đúng còn hòa, qủa, cuả là sai.
3.4.3 Chữ viết tắt và các kí hiệu khác
Dấu hiệu để nhận ra chữ viết tắt trong tiếng Việt là cụm chữ cái được viết hoa hoàn toàn ví dụ như : UBND, NSƯT,.... Dấu chấm cũng là một dấu hiệu để nhận ra chữ viết tắt nhưng không phải hoàn toàn là đầu mối tin cậy để bộc lộ một chữ viết tắt. Việc xử lí các từ viết tắt được so khớp với một từ điển đã cho. Một số từ viết tắt có thể phát âm được theo các âm vị của chúng như FAO /phao/, CAM /cam/,... đa số thường được đánh vần theo từng âm vị của chúng như UBND /u bê en đê/. Các từ viết tắt thuần Việt trong từ điển được tra ngược thành các từ tương ứng với từ được viết tắt.. Ví dụ như UBND - uỷ ban nhân dân; TP-thành phố... Các kí hiệu khác như đơn vị đo lường, kí hiệu tiền tệ cũng được đưa vào trong từ điển viết tắt này như mm – mi li mét; kg – ki lô gam...
3.4.4 Các con số
Các con số xuất hiện trong trong nhiều ngữ cảnh khác nhau và có nhiều cách đọc khác nhau, ví dụ 875 sẽ được đọc là tám trăm bảy mươi lăm hoặc là tám bảy năm phụ thuộc vào vị trí nó xuất hiện trong văn bản: có thể là một con số đếm hoặc là số điện thoại.
Một hệ thống phân tích văn bản có thể kết hợp chặt chẽ các quy tắc, có thể phán đoán cho nhiều trường hợp xảy ra. Nhưng có thể chẳng bao giờ đạt được hoàn toàn trong tất cả các trường hợp.
Con số số học thông thường được trả về khi nó được viết đầy đủ với các dấu phân cách như 8.753.123 tám triệu bảy trăm năm mươi ba nghìn một trăm hai mươi
ba.
Các trường hợp còn lại nên được đánh vần từng chữ số: con số trong một qui cách sản phẩm hay là con số điện thoại, ví dụ như: NOKIA 6230 - sáu hai ba không; VIOS 3.1 – ba chấm một; 8677861 – tám sáu bảy bảy tám sáu một ...
3.4.5 Ngày tháng
Ngày tháng trong các văn bản thuần Việt có một vài khuôn dạng sau: 03/04/2005 hoặc 03-04-2005
3/4/2005 hoặc 3-4-2005