1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Tài liệu Xử lý tiếng nói - Text to Speech System pdf

40 1,1K 19

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 370,39 KB

Nội dung

Bài 4:Các hệ thống chuyển đổi văn bản Các hệ thống chuyển đổi văn bản thành giọng nói giọng nói có thể được xem như là hệ thống ểể mã hóa tiếng nói cho phép lựa chọn kiểu cách nói, tốc

Trang 1

Bài 4:

Các hệ thống chuyển đổi văn bản

Các hệ thống chuyển đổi văn bản

thành giọng nói

giọng nói có thể được xem như là hệ thống

ểể

mã hóa tiếng nói cho phép lựa chọn kiểu cách nói, tốc độ, cường độ và các hiệu ứng

Trang 2

Các thành phần trong hệ thống TTS

–– Xác định cấu trúc tài liệu, chuyển đổi ký hiệu, Xác định cấu trúc tài liệu, chuyển đổi ký hiệu,

phân tích cấu trúc ngôn ngữ

–– Chuyển đổi các ký hiệu sang dạng chuẩn Chuyển đổi các ký hiệu sang dạng chuẩn.

Chuyển đổi các số sang dạng chữ tương ứng

–– Chuyển đổi các số sang dạng chữ tương ứng Chuyển đổi các số sang dạng chữ tương ứng

–– Phân tích khoảng trống, dấu chấm câu để xác Phân tích khoảng trống, dấu chấm câu để xác

định cấu trúc ngôn ngữ ị ị g g g g

–– Chuyển đổi các từ đã chuẩn hóa sang các âm vị Chuyển đổi các từ đã chuẩn hóa sang các âm vị y y g g ị ị tương ứng (với thông tin như trọng âm, thời gian phát âm)

Trang 4

Các quá trình trong thành phần q q g g p p

phân tích văn bản

–– Cung cấp ngữ cảnh phục vụ cho các quá trình Cung cấp ngữ cảnh phục vụ cho các quá trình thực hiện sau này

–– Ngắt câu, phân đoạn văn bản Ngắt câu, phân đoạn văn bản

–– Chuyển đổi ký hiệu ở dạng dạng khác nhau về Chuyển đổi ký hiệu ở dạng dạng khác nhau về dạng chuẩn

Trang 6

„ Các quá trình được thực hiện trước có thể sinh ra nhiều kết quả và chuyển cho quá

ằằ

trình sau với hy vọng rằng quá trình sau có thể xác định kết quả đúng đắn khi có nhiều thông tin hơn

–– Ví dụ: dấu chấm câu có thể được dùng sau một Ví dụ: dấu chấm câu có thể được dùng sau một

từ viết tắt hoặc dùng để kết thúc câu

Trang 7

Một vài ví dụ về trường hợp nhầm lẫn trong ộ ộ ụ ụ g ợp g ợp g g chuẩn hóa văn bản

Trang 8

Các luồng dữ liệu

các thẻ đánh dấu để cung cấp thêm thông tin cho việc đọc văn bản

Trang 10

„ W (Words): cấu trúc từ

„ ΣΣ: cấu trúc âm tiết: cấu trúc âm tiết

–– NP (Noun Phrase) NP (Noun Phrase)

–– VP (Verb Phrase) VP (Verb Phrase)

–– S (Sentence) S (Sentence)

Trang 11

„ W W ÆÆ ΣΣ, C: cấu trúc âm tiết và âm vị được , C: cấu trúc âm tiết và âm vị được sinh ra từ cấu trúc từ W bằng từ vựng và

Trang 12

Xác định cấu trúc tài liệu

„ Trang webgg

„ Emailaa

Trang 13

Thuật toán ngắt câu

Trang 14

Chuẩn hóa văn bản

như FDA cho từ “Food and Drug

Administration” hay WTO cho từ World Trade Organization

thức toán học, đồ thị, bảng biểu

cảm xúc

Trang 15

Chuẩn hóa văn bản

diễn đồng nhất cho các từ, các số, dấu ngắt câu, các ký hiệu

SEVEN PERCENT SOLUTION

Trang 16

„ Ví dụ: “at 8 am I …”

„ Có thể được chuyển thành:ợợ yy

„ At <time> eight am </time> I …

„ At <number> eight </number> am I …tt u beu be e g t / u bee g t / u be aa

Trang 17

Thuật toán mở rộng các từ viết tắt

viết tắt dạng rút gọn

viết tắt dạng rút gọn ÆÆ chuyển sang bước 3chuyển sang bước 3

B ớ 2

„ Bước 2: Bước 2: Mở rộng từ viết tắt dạng rút gọn:Mở rộng từ viết tắt dạng rút gọn:

–– Nếu từ viết tắt tương ứng được tìm thấy trong Nếu từ viết tắt tương ứng được tìm thấy trong bảng: mở rộng từ viết tắt bằng cách thêm thẻ

bảng: mở rộng từ viết tắt bằng cách thêm thẻ SNOR và từ tương ứng

–– Đọc từ tiếp theo và chuyển sang bước 1 Đọc từ tiếp theo và chuyển sang bước 1

Trang 18

„ Bước 3: Mở rộng từ viết tắt dạng ký tự đại diện

–– Nếu từ w đã có trong bảng: mở rộng từ viết tắt Nếu từ w đã có trong bảng: mở rộng từ viết tắt bằng cách thêm thẻ SNOR và từ tương ứng

Nếu không thì đọc từ w theo dạng từng ký tự –– Nếu không thì đọc từ w theo dạng từng ký tự Nếu không thì đọc từ w theo dạng từng ký tự –– Đọc từ tiếp theo và sang bước 1 Đọc từ tiếp theo và sang bước 1

Trang 19

Chuẩn hóa văn bản

DNA: d deoxyribo eoxyribon nucleic ucleic aacidcid

–– DNA: DNA: d deoxyribo eoxyribon nucleic ucleic aacidcid –– LED: LED: llight ight eemitting mitting d diodeiode

„ Pronounced as the names of letters but with a shortcut

IEEE:

IEEE: IInstitute of nstitute of E Electrical and lectrical and E Electronics lectronics E Engineersngineers

–– IEEE: IEEE: IInstitute of nstitute of E Electrical and lectrical and E Electronics lectronics E Engineersngineers –– W3C: W3C: W World orld W Wide ide W Web eb C Consortiumonsortium

„ Pseudo Pseudo acronyms acronyms

–– IOU: “I owe you” IOU: “I owe you” IOU: I owe you –– CQR: “secure”, a brand of boat anchor CQR: “secure”, a brand of boat anchor

19

Trang 20

Chuẩn hóa văn bản

„ Number formats

–– Phone numbers Phone numbers

02 02 1234 1234 5678 5678 (02) 1234 (02) 1234 5678 5678 +82

+82 22 1234 1234 5678 5678

–– Dates Dates

Trang 21

Chuẩn hóa văn bản

–– Money and currency Money and currency

300

21

Trang 22

Chuẩn hóa văn bản

–– Cardinal numbers Cardinal numbers

3/10

1,234 one thousand two hundred (and) thirty four

22

two thousand four hundred (and) twenty six

Trang 23

Chuẩn hóa văn bản

„ Domain Domain specific tags specific tags

–– Mathematical expressions (MathML) Mathematical expressions (MathML)

Trang 24

Phân tích ngôn ngữ

nhưng ý nghĩa khác nhau, có thể có cách

phát âm khác nhau

phát âm, thời gian nghỉ

â thí h hợ

âm thích hợp

Trang 25

Phân biệt từ có cách viết giống nhau ệ ệ g g g g

nhưng khác âm

–– Stress homographs: noun with front Stress homographs: noun with front stress vowel, verb with stress vowel, verb with end

end stress vowel stress vowel

„ “an absent boy” vs “Do you choose to absent yourself?”

–– Voicing: noun/verb or adjective/verb distinction made by Voicing: noun/verb or adjective/verb distinction made by voice final consonant

„ “They will abuse him.” vs “They won’t take abuse ”

–– ate words: noun/adjective sense uses schwa, verb sense ate words: noun/adjective sense uses schwa, verb sense uses a full vowel

„ “He will graduate ” vs “He is a graduate ”

–– Double stress: front Double stress: front stressed before noun end stressed before noun end stressed stressed

–– Double stress: front Double stress: front stressed before noun, end stressed before noun, end stressed stressed

when final in phrase

„ “an overnight bag” vs “Are you staying overnight ?”

–– ed adjectives with matching verb past tenses ed adjectives with matching verb past tenses

„ “He is a learned man.” vs “He learned to play piano.”

Trang 26

ta có thể phân tách từ mới này thành các từ ngắn hơn đã có

Trang 27

Thuật toán phân tích hình thái từ

Trang 28

Từ vựng phát âm

được dùng để lưu trữ sự tương ứng giữa cách đánh vần và phát âm của từ

Trang 29

Ví dụ

giản:

Trang 30

„ Hoặc được tổ chức dưới dạng bảng:

Trang 31

Chuyển đổi ký tự sang âm y y ý ự ý ự g g

thanh tương ứng

thấy trong từ điển phát âm (từ vựng phát

âm đã được lưu trữ)

Trang 32

Phương pháp dựa vào luật

dụng các luật khác nhau để tìm ra cách phát âm

Hoặc là a|T ÆÆ b nghĩa là ký hiệu a với luật Tb nghĩa là ký hiệu a với luật T

„ Hoặc là a|T Hoặc là a|T ÆÆ b nghĩa là ký hiệu a với luật T b nghĩa là ký hiệu a với luật T thì được phát âm là b

Trang 33

Ví dụ

„ The project was behind schedule

„ The new images gg project p j well onto the wall

Trang 34

Ngữ điệu

–– Khoảng dừng: để tách biệt các cụm từ khác Khoảng dừng: để tách biệt các cụm từ khác nhau

–– Tần số cơ bản F0: tần số dao động của dây Tần số cơ bản F0: tần số dao động của dây thanh

–– Khoảng thời gian phát âm Khoảng thời gian phát âm

–– Cường độ âm Cường độ âm g ộ

Trang 35

Sơ đồ tạo ngữ điệu trong TTS

Trang 36

„ Trong sơ đồ trên, dữ liệu vào là chuỗi văn bản với các chuỗi các âm vị, dữ liệu ra là

ỗỗkhoảng thời gian phát âm cho mỗi âm vị và dạng đường tần số cơ bản

Trang 37

Ví dụ

Trang 38

Khoảng thời gian phát âm: g g g g p p

Phương pháp dựa vào luật

dựa vào luật sử dụng một bảng tìm kiếm

ểể

thời gian tối thiểu và thời gian cố định cho các âm vị

thuộc vào tốc độ nói, vì thế, ta có thể nhân với tỷ lệ nhất định để có tốc độ nói nhanh

với tỷ lệ nhất định để có tốc độ nói nhanh hoặc chậm

Trang 39

„ Thời gian cố định được tính dựa vào các luật, sau đó nhân với hệ số tương ứng với ỗỗ

mỗi luật và cuối cùng được cộng vào thời gian tối thiểu để được khoảng thời gian phát âm cho âm vị

Trang 40

„ Trong đó:

„ ddminmin: khoảng thời gian phát âm tối thiểugg gg pp

„ dd : khoảng thời gian phát âm trung bình : khoảng thời gian phát âm trung bình của âm

„ Các hệ số rệệ iiii tương ứng với các luậtgg gg ậậ

Ngày đăng: 14/12/2013, 10:15

HÌNH ẢNH LIÊN QUAN

thức toán học, đồ thị, bảng biểu - Tài liệu Xử lý tiếng nói - Text to Speech System pdf
th ức toán học, đồ thị, bảng biểu (Trang 14)
bảng: mở rộng từ viết tắt bằng cách thêm thẻ - Tài liệu Xử lý tiếng nói - Text to Speech System pdf
b ảng: mở rộng từ viết tắt bằng cách thêm thẻ (Trang 17)
Phân tích hình thái từ - Tài liệu Xử lý tiếng nói - Text to Speech System pdf
h ân tích hình thái từ (Trang 26)
Thuật toán phân tích hình thái từ - Tài liệu Xử lý tiếng nói - Text to Speech System pdf
hu ật toán phân tích hình thái từ (Trang 27)
Sơ đồ tạo ngữ điệu trong TTSSơ đồtạo ngữ điệu trong TTSSơ đồ tạo ngữ điệu trong TTSSơ đồ tạo ngữ điệu trong TTS - Tài liệu Xử lý tiếng nói - Text to Speech System pdf
Sơ đồ t ạo ngữ điệu trong TTSSơ đồtạo ngữ điệu trong TTSSơ đồ tạo ngữ điệu trong TTSSơ đồ tạo ngữ điệu trong TTS (Trang 35)
dựa vào luật sử dụng một bảng tìm kiếm - Tài liệu Xử lý tiếng nói - Text to Speech System pdf
d ựa vào luật sử dụng một bảng tìm kiếm (Trang 38)

TỪ KHÓA LIÊN QUAN

w