Bài 4:Các hệ thống chuyển đổi văn bản Các hệ thống chuyển đổi văn bản thành giọng nói giọng nói có thể được xem như là hệ thống ểể mã hóa tiếng nói cho phép lựa chọn kiểu cách nói, tốc
Trang 1Bài 4:
Các hệ thống chuyển đổi văn bản
Các hệ thống chuyển đổi văn bản
thành giọng nói
giọng nói có thể được xem như là hệ thống
ểể
mã hóa tiếng nói cho phép lựa chọn kiểu cách nói, tốc độ, cường độ và các hiệu ứng
Trang 2Các thành phần trong hệ thống TTS
–– Xác định cấu trúc tài liệu, chuyển đổi ký hiệu, Xác định cấu trúc tài liệu, chuyển đổi ký hiệu,
phân tích cấu trúc ngôn ngữ
–– Chuyển đổi các ký hiệu sang dạng chuẩn Chuyển đổi các ký hiệu sang dạng chuẩn.
Chuyển đổi các số sang dạng chữ tương ứng
–– Chuyển đổi các số sang dạng chữ tương ứng Chuyển đổi các số sang dạng chữ tương ứng
–– Phân tích khoảng trống, dấu chấm câu để xác Phân tích khoảng trống, dấu chấm câu để xác
định cấu trúc ngôn ngữ ị ị g g g g
–– Chuyển đổi các từ đã chuẩn hóa sang các âm vị Chuyển đổi các từ đã chuẩn hóa sang các âm vị y y g g ị ị tương ứng (với thông tin như trọng âm, thời gian phát âm)
Trang 4Các quá trình trong thành phần q q g g p p
phân tích văn bản
–– Cung cấp ngữ cảnh phục vụ cho các quá trình Cung cấp ngữ cảnh phục vụ cho các quá trình thực hiện sau này
–– Ngắt câu, phân đoạn văn bản Ngắt câu, phân đoạn văn bản
–– Chuyển đổi ký hiệu ở dạng dạng khác nhau về Chuyển đổi ký hiệu ở dạng dạng khác nhau về dạng chuẩn
Trang 6 Các quá trình được thực hiện trước có thể sinh ra nhiều kết quả và chuyển cho quá
ằằ
trình sau với hy vọng rằng quá trình sau có thể xác định kết quả đúng đắn khi có nhiều thông tin hơn
–– Ví dụ: dấu chấm câu có thể được dùng sau một Ví dụ: dấu chấm câu có thể được dùng sau một
từ viết tắt hoặc dùng để kết thúc câu
Trang 7Một vài ví dụ về trường hợp nhầm lẫn trong ộ ộ ụ ụ g ợp g ợp g g chuẩn hóa văn bản
Trang 8Các luồng dữ liệu
các thẻ đánh dấu để cung cấp thêm thông tin cho việc đọc văn bản
Trang 10 W (Words): cấu trúc từ
ΣΣ: cấu trúc âm tiết: cấu trúc âm tiết
–– NP (Noun Phrase) NP (Noun Phrase)
–– VP (Verb Phrase) VP (Verb Phrase)
–– S (Sentence) S (Sentence)
Trang 11 W W ÆÆ ΣΣ, C: cấu trúc âm tiết và âm vị được , C: cấu trúc âm tiết và âm vị được sinh ra từ cấu trúc từ W bằng từ vựng và
Trang 12Xác định cấu trúc tài liệu
Trang webgg
Emailaa
Trang 13Thuật toán ngắt câu
Trang 14Chuẩn hóa văn bản
như FDA cho từ “Food and Drug
Administration” hay WTO cho từ World Trade Organization
thức toán học, đồ thị, bảng biểu
cảm xúc
Trang 15Chuẩn hóa văn bản
diễn đồng nhất cho các từ, các số, dấu ngắt câu, các ký hiệu
SEVEN PERCENT SOLUTION
Trang 16 Ví dụ: “at 8 am I …”
Có thể được chuyển thành:ợợ yy
At <time> eight am </time> I …
At <number> eight </number> am I …tt u beu be e g t / u bee g t / u be aa
Trang 17Thuật toán mở rộng các từ viết tắt
viết tắt dạng rút gọn
viết tắt dạng rút gọn ÆÆ chuyển sang bước 3chuyển sang bước 3
B ớ 2
Bước 2: Bước 2: Mở rộng từ viết tắt dạng rút gọn:Mở rộng từ viết tắt dạng rút gọn:
–– Nếu từ viết tắt tương ứng được tìm thấy trong Nếu từ viết tắt tương ứng được tìm thấy trong bảng: mở rộng từ viết tắt bằng cách thêm thẻ
bảng: mở rộng từ viết tắt bằng cách thêm thẻ SNOR và từ tương ứng
–– Đọc từ tiếp theo và chuyển sang bước 1 Đọc từ tiếp theo và chuyển sang bước 1
Trang 18 Bước 3: Mở rộng từ viết tắt dạng ký tự đại diện
–– Nếu từ w đã có trong bảng: mở rộng từ viết tắt Nếu từ w đã có trong bảng: mở rộng từ viết tắt bằng cách thêm thẻ SNOR và từ tương ứng
Nếu không thì đọc từ w theo dạng từng ký tự –– Nếu không thì đọc từ w theo dạng từng ký tự Nếu không thì đọc từ w theo dạng từng ký tự –– Đọc từ tiếp theo và sang bước 1 Đọc từ tiếp theo và sang bước 1
Trang 19Chuẩn hóa văn bản
DNA: d deoxyribo eoxyribon nucleic ucleic aacidcid
–– DNA: DNA: d deoxyribo eoxyribon nucleic ucleic aacidcid –– LED: LED: llight ight eemitting mitting d diodeiode
Pronounced as the names of letters but with a shortcut
IEEE:
IEEE: IInstitute of nstitute of E Electrical and lectrical and E Electronics lectronics E Engineersngineers
–– IEEE: IEEE: IInstitute of nstitute of E Electrical and lectrical and E Electronics lectronics E Engineersngineers –– W3C: W3C: W World orld W Wide ide W Web eb C Consortiumonsortium
Pseudo Pseudo acronyms acronyms
–– IOU: “I owe you” IOU: “I owe you” IOU: I owe you –– CQR: “secure”, a brand of boat anchor CQR: “secure”, a brand of boat anchor
19
Trang 20Chuẩn hóa văn bản
Number formats
–– Phone numbers Phone numbers
02 02 1234 1234 5678 5678 (02) 1234 (02) 1234 5678 5678 +82
+82 22 1234 1234 5678 5678
–– Dates Dates
Trang 21Chuẩn hóa văn bản
–– Money and currency Money and currency
300
21
Trang 22Chuẩn hóa văn bản
–– Cardinal numbers Cardinal numbers
3/10
1,234 one thousand two hundred (and) thirty four
22
two thousand four hundred (and) twenty six
Trang 23Chuẩn hóa văn bản
Domain Domain specific tags specific tags
–– Mathematical expressions (MathML) Mathematical expressions (MathML)
Trang 24Phân tích ngôn ngữ
nhưng ý nghĩa khác nhau, có thể có cách
phát âm khác nhau
phát âm, thời gian nghỉ
â thí h hợ
âm thích hợp
Trang 25Phân biệt từ có cách viết giống nhau ệ ệ g g g g
nhưng khác âm
–– Stress homographs: noun with front Stress homographs: noun with front stress vowel, verb with stress vowel, verb with end
end stress vowel stress vowel
“an absent boy” vs “Do you choose to absent yourself?”
–– Voicing: noun/verb or adjective/verb distinction made by Voicing: noun/verb or adjective/verb distinction made by voice final consonant
“They will abuse him.” vs “They won’t take abuse ”
–– ate words: noun/adjective sense uses schwa, verb sense ate words: noun/adjective sense uses schwa, verb sense uses a full vowel
“He will graduate ” vs “He is a graduate ”
–– Double stress: front Double stress: front stressed before noun end stressed before noun end stressed stressed
–– Double stress: front Double stress: front stressed before noun, end stressed before noun, end stressed stressed
when final in phrase
“an overnight bag” vs “Are you staying overnight ?”
–– ed adjectives with matching verb past tenses ed adjectives with matching verb past tenses
“He is a learned man.” vs “He learned to play piano.”
Trang 26ta có thể phân tách từ mới này thành các từ ngắn hơn đã có
Trang 27Thuật toán phân tích hình thái từ
Trang 28Từ vựng phát âm
được dùng để lưu trữ sự tương ứng giữa cách đánh vần và phát âm của từ
Trang 29Ví dụ
giản:
Trang 30 Hoặc được tổ chức dưới dạng bảng:
Trang 31Chuyển đổi ký tự sang âm y y ý ự ý ự g g
thanh tương ứng
thấy trong từ điển phát âm (từ vựng phát
âm đã được lưu trữ)
Trang 32Phương pháp dựa vào luật
dụng các luật khác nhau để tìm ra cách phát âm
Hoặc là a|T ÆÆ b nghĩa là ký hiệu a với luật Tb nghĩa là ký hiệu a với luật T
Hoặc là a|T Hoặc là a|T ÆÆ b nghĩa là ký hiệu a với luật T b nghĩa là ký hiệu a với luật T thì được phát âm là b
Trang 33Ví dụ
The project was behind schedule
The new images gg project p j well onto the wall
Trang 34Ngữ điệu
–– Khoảng dừng: để tách biệt các cụm từ khác Khoảng dừng: để tách biệt các cụm từ khác nhau
–– Tần số cơ bản F0: tần số dao động của dây Tần số cơ bản F0: tần số dao động của dây thanh
–– Khoảng thời gian phát âm Khoảng thời gian phát âm
–– Cường độ âm Cường độ âm g ộ
Trang 35Sơ đồ tạo ngữ điệu trong TTS
Trang 36 Trong sơ đồ trên, dữ liệu vào là chuỗi văn bản với các chuỗi các âm vị, dữ liệu ra là
ỗỗkhoảng thời gian phát âm cho mỗi âm vị và dạng đường tần số cơ bản
Trang 37Ví dụ
Trang 38Khoảng thời gian phát âm: g g g g p p
Phương pháp dựa vào luật
dựa vào luật sử dụng một bảng tìm kiếm
ểể
thời gian tối thiểu và thời gian cố định cho các âm vị
thuộc vào tốc độ nói, vì thế, ta có thể nhân với tỷ lệ nhất định để có tốc độ nói nhanh
với tỷ lệ nhất định để có tốc độ nói nhanh hoặc chậm
Trang 39 Thời gian cố định được tính dựa vào các luật, sau đó nhân với hệ số tương ứng với ỗỗ
mỗi luật và cuối cùng được cộng vào thời gian tối thiểu để được khoảng thời gian phát âm cho âm vị
Trang 40 Trong đó:
ddminmin: khoảng thời gian phát âm tối thiểugg gg pp
dd : khoảng thời gian phát âm trung bình : khoảng thời gian phát âm trung bình của âm
Các hệ số rệệ iiii tương ứng với các luậtgg gg ậậ