Mô hình markov ẩn và ứng dụng vào tổng hợp tiếng nói

Tổng quan hệ thống tổng hợp tiếng nói d a trên mô hình Markov ẩn ....  Nghiên c u lý thuyết x lý tiếng nói và mô hình Markov và các ng dụng  Tìm hiểu toolkit HTS và hệ thống mã nguồn m

Trang 1

LỜI CAM ĐOAN

Trang 2

LỜI CẢM ƠN

Để hoàn thành khóa luận này, tôi xin tỏ lòng biết ơn sâu sắc đến thầy PGS.TS Trịnh Văn Loan đã tận tình hướng dẫn tôi trong suốt quá trình viết khóa luận tốt nghiệp

Tôi cũng xin chân thành cảm ơn quý Thầy, Cô Viện Công nghệ Thông tin & Truyền thông, Trường Đại học Bách khoa Hà Nội đã tận tình truyền đạt kiến thức trong thời gian học tập và nghiên cứu tại đây Với vốn kiến thức được tiếp thu trong quá trình học tập và nghiên cứu không chỉ là nền tảng cho quá trình nghiên cứu khóa luận mà còn là hành trang quí báu để tôi bước vào đời một cách vững chắc và

Trang 3

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT 5

DANH MỤC CÁC HÌNH VẼ 6

LỜI NÓI ĐẦU 7

CHƯƠNG 1 TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 8

1.1 Mở ầu 8

1.2 Bộ máy phát âm 8

1.2.1 Bộ máy phát âm 8

1.2.2 Cơ chế phát âm 9

1.3 Đặc tính âm học c a tiếng nói 9

1.3.1 Âm hữu thanh và âm vô thanh 9

1.3.2 Âm vị 10

1.3.3 Các đặc tính khác 11

1.4 Mô hình tạo tiếng nói 12

1.5 Phân tích tiếng nói 17

1.5.1 Mô hình phân tích tiếng nói 17

1.5.2 Phân tích tiếng nói ngắn hạn 18

1.6 Phân tích Mel-Cepstral 19

1.6.1 Tạo tiếng nói từ mô hình thời gian rời rạc 19

1.6.2 Phân tích Mel-Cepstral 20

1.6.3 Bộ lọc MLSA (Mel Log Spectral Approximation) 22

CHƯƠNG 2 TỔNG HỢP TIẾNG NÓI 27

2.1 Gi i thiệu chung 27

2.2 C phươ g ph p ổ g hợp iế g ói 28

2.2.1 Tổng hợp theo cấu trúc âm 28

2.2.2 Tổng hợp formant theo quy luật 31

2.2.3 Tổng hợp ghép nối 33

Trang 4

CHƯƠNG 3 MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TỔNG

HỢP TIẾNG NÓI 46

3.1 Tổng quan hệ thống tổng hợp tiếng nói d a trên mô hình Markov ẩn 46

3.2 Tổng quan mô hình Markov 48

3.2.1 Quá trình Markov 48

3.2.2 Mô hình Markov ẩn 49

3.3 B i ơ ản c a mô hình Markov ẩn 52

3.4 Tổng hợp tiếng nói d a trên mô hình Markov ẩn 63

3.4.1 Tạo thông số tiếng nói từ HMM 63

3.4.2 Ví dụ tạo các chuỗi tham số 67

3.4.3 Hệ thống tổng hợp văn bản thành tiếng nói dựa trên HMM 72

3.5 Mô hình hóa và tạo tần số ơ ản bằng cách s dụng phân bố xác su

không gian 74

3.5.1 Phân bố xác suất đa không gian 74

3.5.2 HMM dựa trên xác suất phân bố đa không gian 76

3.5.3 Phân cụm ngữ cảnh dựa trên cây quyết định 84

3.5.4 Mô hình hóa tân số F 0 sử dụng MSD-HMM 88

3.6 Chươ g r h h nghiệm 89

3.6.1 Mô hình thử nghiệm 89

3.6.2 Phân tích mô hình 89

3.6.3 Festival và ứng dụng tổng hợp tiếng nói 93

KẾT LUẬT 97

TÀI LIỆU THAM KHẢO 98

Trang 5

DANH MỤC CÁC TỪ VIẾT TẮT

FFT Fast Fourier Transform

FIR Finite Impluse Response

HMM Hidden Markov Model

LPC Linear Predictive Coding

MFCC Mel frequency cepstral coefficient

PDFs Probability density functions

MSD-HMM Multi-space probability distribution HMM MLSA Mel log spectral approximation

EM Expectation-maximzation

TTS Text to speech

Trang 6

DANH MỤC CÁC HÌNH VẼ

Hình 1.4: Mô hình hóa nguồ â ối v i âm h u thanh 14

Hình3.3.1: Mi ả ãy phép ƣợ h hiệ ể í h iế t (i) 50

Hình3.3.2: Mi ả ãy phép ƣợ h hiệ ể í h iế t(i) 51

H h 3.12: Xây g ây yế ị h r MDL 89

H h 3.14: Hệ hố g ổ g hợp iế g ói r h h HMM 91

Hình 3.15: HMM 3 rạ g h i r i phải i h yể ổi họ 92

H h 3.16: Phâ hó h h riph e ƣơ g g i h h

â “ ”

93

Trang 7

LỜI NÓI ĐẦU

Tổng hợp tiếng nói là ĩ h ược r t nhi gười nghiên c u quan tâm, vì

nó có r t nhi u ng dụng trong th c tế hư hệ thống trả lời t ộ g ọc nội

g ă ản, máy phiên dịch, các hệ thống trợ giúp gười tàn t t, các ng dụng trong viễ h g…Tuy nhiên việc ng dụng và nghiên c u ở Việ N ò ươ g

Trong lu ă y i r h ầy các v ơ ản v mô hình Markov ẩn, các giải pháp ng dụng mô hình Markov ẩn vào tổng hợp tiế g ói Để th c hiện ược công việc trên tôi th c hiện các nhiệm vụ sau:

 Tìm hiểu nguyên lý, mô hình tạo ra tiếng nói

 Nghiên c u lý thuyết x lý tiếng nói và mô hình Markov và các ng dụng

 Tìm hiểu toolkit HTS và hệ thống mã nguồn mở fe i ể ng dụng vào tổng hợp tiếng nói

Lu ă ượ hi h h 3 hươ g i các nội dung chính sau:

 Chươ g 1: Tiếng nói và x lý tiếng nói.Chươ g y r h ầy các v ơ bản v tiế g ói ơ hế tạo tiế g ói ũ g hư hình tạo tiêng nói,

và các kỹ thu t phân tích tiếng nói

 Chươ g 2: Tổng hợp tiếng nói Chươ g y r h bầy một số phươ g ph p tổng hợp tiế g ói ã g ược s dụng trên thế gi i

 Chươ g 3: Mô hình Markov ẩn và ng dụng tổng hợp tiếng nói Chươ g y trình bầy lý thuyết v mô hình Markov ẩn, ng dụng trong tổng hợp tiếng nói

và ng dụng tổng hợp trên hệ thống mã nguồn mở Festival

Trang 8

CHƯƠNG 1 TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Mở đầu

Tiếng nói là mộ phươ g iệ r ổi thông tin c gười Tiếng nói ược tạo ra t ư y gười: trung tâm thần i h i u khiển hệ thông phát

âm làm việc tạo ra âm thanh

Tiế g ói ược phân biệt v i hệ thống âm thanh khác bởi ặc tính âm học có nguồn gốc t ơ hế tạo tiếng nói V bản ch t, tiếng nói là s ộng c a

h g hí ó g he h g i C ộng này tạo thành áp l ến tai và ược tai phát hiện, phân tích và chuyển kết quả ến trung khu thần kinh Tại ây

h g i ược tái tạo lại ư i dạ g h g i gi gười có thể hiể ược

Tín hiệu tiế g ói ược tạo thành bởi các chuỗi âm vị liên tiếp,s sắp xếp

c a các âm vị ược chi phối bởi quy tắc c a ngôn ng Việc nghiên c u một cách chi tiết v quy tắc này thuộc v chuyên ngành ngôn ng Việc phân loại các âm vị

c a tiếng nói thuộc v chuyên ngành ng âm học Khi nghiên c u các mô hình toán học c ơ hế tạo tiếng nói, việc nghiên c u v các âm vị là r t cần thiết

1.2 Bộ máy phát âm

1.2.1 Bộ máy phát âm

Bộ máy phát âm bao gồm các thành phần riêng rẽ hư phổi, khí quản, thanh quả ường d ũi iệ g Tr g ó:

- Thanh quản ch a 2 dây thanh có thể ộng tạo ra âm thanh

- Tuyến âm là ố g h g u bắ ầu t thanh môn và kết thúc tại môi

- Kh g ũi ố g h g u bắ ầu t môi, kết thúc bởi vòm miệ g ó ộ dài cố ịnh khoảng 12 ối v i gười l n

- Vòm miệng là các nếp ơ h yể ộng

Trang 9

Hình 1.2: Bộ máy phát âm c gười

1.2.2 Cơ chế phát âm

Trong quá trình tạo âm thanh không phải â ũi ò iệng mở, khoang

ũi ó g ại, dòng khí sẽ chỉ i h g ũi.Khi ph â ũi ò iệng hạ

th p và dòng khí sẽ chỉ i h g ũi

Tuyến âm sẽ ược kích thích bởi nguồ ă g ượng chính tại thanh môn Tiế g ói ược tạo ra do tín hiệu nguồn t h h ph r ẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm Hai

ây h h ộng sẽ tạo ra cộ g hưởng, ộng âm sẽ ược lan truy n theo tuyế â hi i h g ũi i ẽ tạo ra tiếng nói

1.3 Đặc tính âm học của tiếng nói

1.3.1 Âm hữu thanh và âm vô thanh

a Âm hữu thanh

Âm h u h h ược tao ra t các dây thanh bị ă g ồng thời và chúng rung ộng ở chế ộ dãn khi không hí ă g h h ở ra ó h h môn xẹp xuống do không khí chạy qua

Trang 10

Do s cộ g hưởng c a dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần

hư ần hoàn Phổ c a âm h u thanh có nhi u thành phần hài tại giá trị bội số c a tần số cộ g hưởng, còn gọi là tần số ơ ản

b Âm vô thanh

Khi tạo ra âm vô thanh dây thanh không cộ g hưởng Âm vô thanh có 2 loại

ơ ản là âm xát và âm tắc

Âm xát (ví dụ hư â ): ược tạo ra khi có s co thắt tại i iểm trong tuyế â Kh g hí hi i iểm co thắt sẽ chuyển thành chuyể ộng hỗn loạn tạo nên kích thích giố g hư hiễu ng u nhiên Th g hườ g iểm co thắt xẩy ra ở gần miệng nên s cộ g hưởng c a tuyến âm ả h hưởng r í ế ặc tính c a âm ược tạo ra

Âm tắc (ví dụ hư â p): ược tạo ra khi tuyế â ó g ại một số iểm làm cho áp xu t không khí tă g ó ược giải phó g ột ngột, s giải phóng

ột ngột này tạo ra kích thích nh t thời c a tuyến âm S kích thích này có thể xẩy

ra v i s cộ g hưởng hoặc không cộ g hưởng c a dây thanh ươ g ng v i âm tắc

h u thanh hoặc vô thanh

1.3.2 Âm vị

Tín hiệu tiếng nói là tín hiệ ươ g biểu diễn cho thông tin v mặt ngôn

ng ược mô tả bởi các âm vị h h Như y, âm vị ơ ị nhỏ nh t c a ngôn ng , tùy theo t ng loại ngôn ng cụ thể mà số ượng âm vị nhi u hay ít ( hường vào khoảng t 20 dến 30 âm vị) Các âm vị ược chia làm hai loại, nguyên

âm và phụ âm

a Nguyên âm

Nguyên âm là âm h h h ược tạo ra bằng s cộ g hưởng c a dây thanh

hi ò g hí ược thanh môn ẩy lên, khoang miệ g ược tạo l p thành nhi u hình dạng nh ịnh tạo thành các nguyên âm khác nhau Số ượng các nguyên âm phụ thuộc vào t ng loại ngôn ng nh ịnh

Trang 11

b Phụ âm

Phụ â ược tạo ra bởi các dòng khí hỗn loạ ược phát ra gầ iểm co thắt

c ường d n âm thanh do cách phát âm tạo ra Phụ â ó ặc tính h u thanh hay

vô thanh tùy thuộc vào việc dây thanh ó ộ g ể tạo nên cộ g hưởng hay không Dòng không khí tại chỗ ó g a vòm miệng tạo ra phụ âm tắc, phụ âm xát ược tạo ra t chỗ co thắt l n nh t

1.3.3 Các đặc tính khác

a Tỷ suất thời gian

Trong khi nói, khoảng thời gian nói và nghỉ xen kẽ l n nhau Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ ược gọi là tỷ su t thời gian Giá trị này biế ổi tùy thuộc vào tố ộ nói, t ó ó thể phân thành nói nhanh, nói ch m,

ói h hường

b Hàm năng lượng thời gian ngắn

H ă g ượng thời gian ngắn c a tiế g ói ược tính bằng cách chia tín hiệu nói thành nhi u khung mỗi khung gồm N m u C h g y ượ ư một c a sổ có dạ g hư :

c Tần số cơ bản

Dạng sóng c a tiếng nói gồm hai thành phần: phần gần giống nhiễ ( r g ó biên ộ biế ổi ng u nhiên) và phần có tính chu kỳ ( r g ó í hiệu gần hư ần hoàn) Phần tín hiệu có tính chu kỳ ch a các thành phần tần số có dạ g i u hòa Tần số th p nh t chính là tần số ơ ả ũ g chính là tần số ộng c a dây

Trang 12

Đối v i nh g gười nói khác nhau, tần số ơ ả ũ g h h

Bảng 1.3.3: Giá trị tần số ơ ản c gười

d Formant

V i phổ c a tín hiệu tiếng nói, mỗi ỉnh ó i ộ l n nh t xét trong một

ạ ó ươ g ng v i một formant Ngoài tần số f r ò ượ ịnh bởi i ộ và dải thông, v mặt v t lý các tần số cộ g hưởng c a tuyến âm ươ g

ng v i các tần số cộ g hưởng c a tuyến âm Trong x lý tiếng nói và tổng hợp tiế g ói ể mô phỏng lại tuyế â gười ta phải ị h ược các tham số

f r ối v i t ng loại âm vị ó iệ h gi ư ượng các formant r t quan trọng

Tần số formant biế ổi trong một khoảng thời gian rộng phụ thuộc vào gi i tính c gười nói và phụ thuộc vào dạng âm vị ươ g ng v i formant ó Formant còn phụ thuộc vào các âm vị rư c và sau nó V c u trúc t nhiên, tần số formant

có liên hệ chặt chẽ v i hình dạ g í h hư c tuyế â Th g hường phổ c a tiếng hiệu tiếng nói có khoả g 5 f r hư g hỉ ó 3 f r ầu tiên ảnh hưởng quan trọng ế ặc tính c a các âm vị, các formant còn lại ũ g ó ảnh hưở g hư g r t ít

Tần số f r ặ rư g h g y â iế ổi tùy thuộ gười

ói r g i u kiện phát âm nh ịnh Mặc dù phạm vi c a các tần số formant

ươ g ng v i mỗi nguyên âm có thể rù h hư g ị trí gi a các formant

h g ổi vì s dịch chuyển c a các formant là song song

1.4 Mô hình tạo tiếng nói

Để ơ giản hóa việc phân tích và nghiên c u bộ y ph â gười ta chia

bộ máy phát âm thành hai thành phầ ơ ản: nguồn âm và hệ h g p ng

Trang 13

- Hệ thố g p ng bao gồm thanh môn, tuyế â i ũi Việc mô hình hóa này s dụng hàm truy ạt trong biế ổi Z

- Đối v i các âm h u thanh, nguồn âm là một dạng sóng tuầ h ặc biêt,

dạ g ó g y ƣợc mô phỏng bởi p ng c a bộ lọc thông th p ó 2 iểm

dài bằng nhau và t g ạn riêng biệt có thiết diện mặt cắt là A m khác nhau theo

chi i ạn ống Tổ hợp thiết diện {A m} c ạn ố g ƣợc chọn sao cho

chúng x p xỉ v i hàm thiết diện A(x) c a tuyến âm

Hình 1.5: Chuỗi ạn ống âm họ ý ƣởng

C ạn ố g ƣợ i ý ƣởng khi:

G(z)

Trang 14

- Độ dài mỗi ạ nhỏ so v i ƣ c sóng âm truy n ó ƣợc coi là sóng phẳng

- C ạ c ng sao cho s hao tổ r g ộng thành ống, tính dính và d n nhiệ h g g ể

Ngoài ra, giả thiết thêm mô hình tuyến âm lúc này là tuyến tính và không nối

v i thanh môn, hiệu ng c a tuyế ũi ƣợc bỏ qua, ta sẽ có mô hình tạo tiếng nói

ý ƣởng Chúng ta th y rằng mô hình này có nhi u tính ch t chung v i mạch lọc số nên nó có thể ƣợc biểu diễn bằng c u trúc mạch lọc số v i các tham số h y ổi phù hợp v i s h y ổi tham số c a ống âm học

S chuyể ổi c a không khí trong mộ ạn ống có thể ƣợc mô tả bằng áp

su â h h h g ƣợng ó h ng hàm phụ thuộ ộ dài ống (x) và thời gian (t) Trong nh g ạn riêng biệ ó gi rị c h y ƣợc coi là tổ

hợp tuyến tính các giá trị c a chúng v i sóng thu ó g gƣợc Sóng thu n là sóng truy n t h h ế i r g hi ó g gƣợc là sóng truy n t i ến

h h Xé ạn th m có tiết diện A m h h h g ƣợng và hàm áp su t c a hàm này là:

( ) / / ( ) 0 / /1

ở ây là sóng thu ó g gƣợc

c là tố ộ âm thanh

ρ là m ộ h g hí r g ạn

x=0 vị trí trung tâm c ạn

mối quan hệ gi a sóng thu n ó g gƣợc trong nh g ạn kế tiếp phải ảm bảo

áp su h g ƣợng liên tục v không gian và thời gian tại mọi iểm trong hệ thố g hƣ h h

Trang 15

Hình 1.5.a: Mô hình lý học gi ạn ống m và m+1

Hình 1.5.b: Mô hình toán học c oạn ống th m

Hình 1.5c: Mô hình c a hệ thống phát âm Tuyế â ượ i hư ột chuỗi liên tiếp các ống âm họ ược mô hình hóa bởi một chuỗi gồm K bộ cộ g hưở g Khi ó h r y ạt c a tuyến âm có dạng:

( )

∏ ( )Mỗi bộ cộ g hưởng sẽ tạo ra một bộ f r ượ ặ rư g ởi tần số trung tâm,

Trang 16

√

V i f e là tần số l y m u c a tín hiệu

Cuối ù g â h h ược phát ra ở i ơi ượ i hư ột tải âm học S tán xạ

c i ược biểu diễn bởi hàm truy ạt:

( ) ( ) Hàm truy ạt c a hệ thống có dạng:

( ) ( ) ( ) ( ) Nếu giả thiết mộ r g 2 iểm c c c a thanh môn gần bằ g 1(β=-1) ta có:

Là hàm truy ạt c a bộ lọ ảo T(z) là hàm truy ạt c h h iểm

c c Các hệ số α i c a bộ lọ ảo là các tham số quan trọ g r g phươ g ph p

yế í h ể ịnh các formant c a tuyến âm

Hạn chế c a mô hình này là không thể tạo ra các âm xát h u thanh và âm

ũi Đối v i â ũi h h r ược cải tiến bằng cách thêm vào phần t

ặ rư g h ũi ặt song song v i mô hình, lú ó h r y ạt c a hệ thống là:

Trang 17

iểm c c Ta áp dụ g phươ g ph p giảm b c gầ ú g ể thay mộ iểm không

bằ g 2 iểm c c, ta có:

Tín hiệu âm không phải là tín hiệu d g ó h ố c a mô hình phải biến thiên theo thời gian S biến thiên này r t ch m nên các tham số có thể i hư

h g ổi trong khoảng thời gian mà tín hiệ ược coi là d ng: 20ms

1.5 Phân tích tiếng nói

Phân tích tiếng nói th c hiện giải quyết v tìm ra các dạng th c tối ư biểu diễ ược tiếng nói một cách hiệu quả Nó ơ ở cho việc phát triển các kỹ thu t, công nghệ tổng hợp, nh n dạng và nâng cao ch ượng tiếng nói Phân tích tiế g ói hường th c hiện việc trích chọn hoặc chuyể ổi tín hiệu tiếng nói sang một dạng th c biểu diễn khác sao cho có thể biểu diễn thông tin tiế g ói hơ theo cách chúng ta cần Hầu hế phươ g ph p phâ í h í hiệu tiếng nói t p trung vào một trong ba v chính Tìm cách loại bỏ ả h hưởng c a pha, thành phầ h g ó g i rò rọng trong việc truy n tải thông tin tiếng nói Th hai, th c hiện việc chia tách nguồn âm và mạch lọc sao cho chúng ta có thể nghiên

c u biên ộ phổ c a tín hiệu mộ h ộc l p Thư là, chuyể ổi tín hiệu hoặc biên ộ phổ tín hiệu sang một dạng khác hiệu quả hơ

1.5.1 Mô hình phân tích tiếng nói

Mô hình tổng quát cho việc phân tích tiế g ói hư h h 1.5.1.Tín hiệu tiếng

ói ược ti n x lý bằng cách cho qua một bộ lọc thông th p v i tần số cắt khoảng

8 kHz Tín hiệ h ượ ó ược biế ổi sang dạng tín hiệu số thông qua biến

ổi ADC Thường tần số l y m u bằng 16 kHz, số í ượng t hóa là 16bit

Tín hiệu tiếng nói dạng sóng ược phân khung v i chi u dài khung khoảng 30ms và khoảng lệch c a các khung vào khoảng 10ms Khung phân tích tín hiệu sau

ó ược chỉnh biên bằng cách l y c a sổ v i các hàm c a sổ phổ biế hư

H i g H i g… Tín hiệ h ược sau khi l y c a sổ ượ ư phâ í h

v i phươ g ph p phâ í h phổ Hoặc sau khi phân tích phổ ơ ản, tiếp tục

Trang 18

Hình 1.5.1: Mô hình phân tích tiếng nói

1.5.2 Phân tích tiếng nói ngắn hạn

V mặt nguyên lý, chúng ta có thể áp dụng các kỹ thu phâ í h ã iết vào phân tích tín hiệu trong ngắn hạn Tuy nhiên vì tín hiệu tiếng nói là một qua

r h g h g i ộng nên chúng ta không thể chỉ ơ h ần xem xét phân tích ngắn hạn trong một khung thời gi ơ ẻ

Tín hiệu tiếng nói là một tín hiệ h y ổi theo thời gi Nó ó ặ rư g

ơ ả hư g ồ í h hí h ườ g ộ i ộ, …Các tham số h y ổi theo thời gian c a tiế g ói hư: ần số ơ ản, loại âm, các tần số cộ g hưởng chính, hàm diện tích c a tuyế â …

Việc th c hiện phân tích ngắn hạn t c là xem xét tín hiệu trong một khoảng

thời gian nhỏ xung quanh thời iể g é n ó Khoảng thời gian này

hường vào khoảng 10-30 i u này cho phép chúng ta giả s rằng trong khoảng thời gi ó í h h t c a dạng sóng tín hiệu tiế g ói ươ g ối ổ ịnh Khoảng nhỏ tín hiệ ù g ể phâ í h hường gọi là một khung(frame), hay một

ạn (segment) Một khung c a tính hiệ ượ ịnh là tích c a một hàm c a sổ

dịch w(n) và dãy tín hiệu s(n):

S n (m) = s(m)w(n-m)

Trang 19

Một khung tín hiệu có thể ược hiể hư ộ ạn tín hiệ ược cắt bởi một hàm c a sổ ể tạo thành một dãy m i mà các giá trị c a nó bằng 0 bên ngoài

khoảng n[m-n+1,m] T công th c trên ta th y rằng khung tín hiệu này phụ thuộc vào khoảng thời gian kết thúc m Trong khung tín hiệu nhỏ v ượ ị h ghĩ ễ

th y rằng các phép x ý gă hạ ũ g ó ý ghĩ hư phép lý dài hạn

Việc phân tích tiếng nói không chỉ ơ gi hỉ ă g iệc x lý một khung

ơ ẻ, mà phải bằng cách phân tích tín hiệu c a các khung liên tiếp Th c tế ể tránh m t thông tin, các khung tín hiệ hường ược l y bao trùm nhau Giống trên hình minh họa:

Hình 1.6: Phân tích tín hiệu trên các khung bao trùm nhau

Mộ phép phâ í h gă hạn tổng quát có thể biểu diễn là:

1.6.1 Tạo tiếng nói từ mô hình thời gian rời rạc

Xét dạng toán học c a sóng tiếng nói, một mô hình thời gian rời rạ hường ược s dụ g ể mô tả việc l y m u c a các tín hiệu tiế g ói hư h h 1.6.1.Hàm

truy ạt H(z) mô hình cho c u trúc c a ống âm Các nguồ í h hí h ược l a

Trang 20

bởi một switch, nó i u khiển các âm vô thanh hoặc h u thanh c a tiếng nói Để tạo

ra tín hiệu tiếng nói x(n), các thông số c a mô hình sẽ ƣợ h y ổi theo thời gian

Đối v i nhi u dọng nói, ta có thể giả s tính ch t chung c a thanh âm và mi n kích

thích là cố ịnh trong khoảng 5-10ms Theo giả ị h hƣ y nguồn kích thích e(n) ƣợc lọc bởi một hệ thống lọc tuyến tính thời gi h y ổi ch m H(z) ể tao ra tiếng nói x(n) Tiếng nói x(n) có thể ƣợc tính toán t kích thích e(n) p ng xung h(n):

Hệ số khuếch

ại

Các tham số tuyến âm

Bộ tạo dãy xung Tiế g ói ầu ra

Trang 21

Tr g ƣ í h ối x ng c a logarit quang phổ, nó chỉ ra công su t phổ ƣ c

tính |H(e j)|2, sẽ h ƣợc thông qua tiêu chuân E là nhỏ nh t:

Khi i u kiện công th (1.6.7) ƣợc suy ra không cần các giả ịnh c a b t

kỳ một mô hình phổ cụ thể, nó có thể ƣợc áp dụng cho mô hình phổ c a công th c

(1.6.3) Bây giờ l y hệ số khế h ại K t H(z) trong công th c (1.6.3)

Trang 22

( ) { ( ) ( ) ( )

Nếu hệ thống H(z) ƣợc coi là một bộ lọc tổng hợp c a tiếng nói, D(z) phải ổ ịnh

D ó giả s rằng D(z) là hệ thống pha tối thiểu và có quan hệ:

( )

| ( )|

( )

D ó ó hể bỏ qua các hằng số, tối thiểu hóa c a E ối v i c d ến tối thiểu hóa

 ối v i c1 và tối thiểu hóa E ối v i K Bằng cách l y ạo hàm c a E theo K và

ƣ ết quả v 0 K h ƣợ hƣ :

√ ( )

ở ây min là giá trị nhỏ nh t c a 

1.6.3 Bộ lọc MLSA (Mel Log Spectral Approximation)

Để tổng hợp tiếng nói t các hệ số Mel-cepstral, nó cần th c hiện hàm truy n

ạ ũ D(z) Mặt dù hàm truy ạt D(z) không phải là một hàm h u tỷ Bộ lọc MLSA có thể x p xỉ D(z) v i ộ chính xác

Trang 23

Lƣ ý rằng A L,l ( =1 2 … L) ó ã ƣợc cố ịnh các giá trị c1(m) là biến

Để loại bỏ trễ t do vòng l p t F(z), công th c trên có thể ƣợc s a lại là:

( ) ̃ ̃

Trang 24

Vì phần t ầu tiên c a b bằng 0 do

α T

c1 = 0;

giá trị c p ng xung c a F(z) bằng 0 ở thời iểm 0, v y F(z) không có phần trễ

Hình 1.6.3 thể hiện khối c a lọc MLSA R L (F(z)) s p xỉ D(z) hi ó h

truy ạt F(z) không có phần trễ t do, R L (F(z)) không có các vòng lặp trễ, và

Các hệ số h ược v i L=5, r = 6.0 thể hiện trên bảng Ở ây |F(e jω )| <r = 6.0,

logarit sai số tuyệ ối

|E L (F(e jω ))| = |log(D(e jω )) – logR 5 (F(e jω ))|

Kh g ượt quá 0.2735dB Các hệ số ược tối ư i L = 4, r = 4.5 thể hiện trong

bảng 1.6 Tr g rường hợp logarit c a sai số tuyệ ối h g ượt quá 0.24dB khi

|F(e jω )| < r = 4.5

(a) Lọ ơ ản F(z) (M=3)

Trang 25

Bảng 1.6: Các hệ số i ƣ a R L (w) cho L =5, r =6.0 và L = 4, r = 4.5

Nhƣ r h h ếu

| ( )| | ( )| | ( )|

Trang 26

Hy vọng rằng R L (F 1 (z)).R L (F 2 (z)) x p xỉ D(e jω ) hí h hơ R L (F(e jω )) Các

Trang 27

CHƯƠNG 2 TỔNG HỢP TIẾNG NÓI 2.1 Giới thiệu chung

Tạo tiếng nói bằng máy là mộ ư ơ i gười và là mục tiêu thách

th c các nhà khoa học trên thế gi i nhi u thế kỷ qua Máy nói bằ g ơ hí ầu tiên

do Wolfgang Von Kempelen chế tạ ă 1791 phỏng bộ máy phát âm c a gười ã ó hể ph r ược một vài âm tố Ở ầu thế kỷ y ă 1939 y VODER c a nhà khoa học Dudley, phòng thí nghiệ AT&T BELL LABS ã thành công trong việc mô hình hoá cộ g hưởng c a ống thanh bằng linh kiệ iện

t Hệ thố g i u khiển nhân công 10 bộ cộ g hưởng bằng các phím và chiế p ã

có thể tạo ra một số câu nói nghe hiể ược T gi a nh g ă 1950 rở lại ây

s r ời c y í h iện t số ã h phép ạo ra một cách có hệ thống các tham

số i u khiển bộ tổng hợp tiếng nói Cùng v i s phát triể hư ũ ã a khoa học và công nghệ ở th p kỷ 80 90 ĩ h t tổng hợp tiế g ói ã ó h g ư c phát triển r t quan trong có s ó g góp r t l n c a máy tính và x lý tín hiệu số

Nế iế g ói ũ g hư h iế h ỗi ơ ả ượ ị h ghĩ rõ

r g h h ạ g ổ g hợp iế g ói ã ó hể ã ượ giải yế

â Bả h iế g ói r h iệ hiệ g i â yệ â ố h h

ò g h h i ụ r ph ạp g h g i ở ọi h h phầ ó ổ g hợp h ạ g iế g ói rở ặ iệ hó hă Việ ổ g hợp iế g ói

Trang 28

Hệ hố g TTS ế hợp ù g i hệ hố g g họ h ạ g h iế (OCR) ó hể ọ ă ả i h gười hiế hị

- Truyền thông tin bằng âm thanh:

Mộ hệ hố g TTS r h í h h iệ iể r hí h ả ă ả r

y í h hi ghe ph hiệ ỗi ễ g hơ hi i ọ ằ g ắ

- ứng dụng trong viễn thông:

2.2.Các phương pháp tổng hợp tiếng nói

2.2.1 Tổng hợp theo cấu trúc âm

Tổ g hợp he trúc â ụ g h h mô phỏ g i h họ Tr g

h h y iế g ói ượ ặ rư g h g hỉ ằ g í hiệ â h h ả ằ g ị

rí ơ â h gi h g ũi p h g hí r g phổi ă g ây h h Nó gồ h ạ ộ g ươ g phi yế gi

a Mô hình tuyến âm

Ch â h g phải â ũi hỉ ầ e é ố g â ó hiế iệ

iế hi h h h i i Ố g âm h y ổi i ụ h h g hú g

Trang 29

phải ượ ị h r g h ả g hời gi i i i giây ộ ầ H h h g gi

ố g h h ượ ả he ị rí ơ ph â ưỡi i h …

M h h ượ g ụ g hi h h h Mer e ei i h

ố ả ị rí ơ â Gi rị h ố ượ iệ hi iế ở ả g 2.1 T ả â y ó hể í h ượ ố iệ h h ặ ắ g g ố g

âm A(x) h ố phụ h ộ h ả g h ọ he ố g âm h h h i

Nh r i ( )

Vị rí ươ g rụ ( )

Tr g â ưỡi rụ y ( )

Độ â g ưỡi ( eg) Chi i y ( )

Vị rí ươ g rụ y ( )

Độ ở ò iệ g ( 2

)

Bả g 2.1: C h ố h h Mer e ei

b Lan truyền sóng trong ống âm

Trong nhi h í h ặ rư g r y n sóng trong ống âm h phươ g ph p

ma tr n chuỗi ược áp dụng nhi u nh t.Ma tr n chuỗi (còn gọi là ma tr n ABCD) thể hiện ống thanh ở mi n tần số V i b t kỳ phần nào c a ống âm hay c a ố g ũi

in in

out

U

P K U

P D C

B A U

P

Trang 30

Ma tr n chuỗi K có thể thể hiện b t kỳ phần nào c a b t kỳ ộ dài hay mặt phẳng cắt ngang nào c a ống thanh Tính các phần t c a K r ơ giản nếu ống có mặt cắ h g ổi

c Mô hình nguồn âm

Nguồn kích âm cho tổng hợp c u âm s dụng mô hình hai khối c a Ishizaka

và Flanagan

d Nguyên lý của tổng hợp cấu âm

Thu t toán tổng hợp theo mô hình c u âm gồ ư hư au T ặc tả

v các tham số c â í h ược ma tr n chuỗi t h h ến môi S ó tính hàm truy n và trở h g ầu vào t các phần t A,B,C,D c a ma tr n Chuyển

ổi F rier gược hàm truy n H và tỉ số trở kháng ta nh ược các giá trị ươ g

ng ở mi n thời gi S ó í h p t p = P5-P1 Giá trị áp su y ộng vào bộ cộ g hưở g i u khiển chuyể ộng dây thanh c a mô hình hai khối ượng tạo ra âm thanh tiếng nói

ị h hời iể ơ h yể ộ g ố ộ h yể ộ g ối hệ gi ơ

y ơ h V ph r ộ â ị h g h hiế phải ó h yể

ộ g ả ơ r g ù g ộ hời iể ơ ph â ó hể

ượ ị h h â ị h The h y h ổ g hợp he â ó hể ạ r giải ph p h hả h rườ g hợp g â hó hư ụ phụ â g y â

ba

Mô hình â h i g g g y ý y yế ị h h ượ g

iế g ói ổ g hợp Hiệ y hú g hư ó iế h ầy g hi iế

ại h h â ũ g ò ơ giả y h ượ g iế g ói ổ g

Trang 31

hợp he â ò r h p Phươ g ph p ổ g hợp â hiệ y hỉ g ở

r g phò g hí ghiệ h y ả phẩ hư ượ g ụ g h ế C ộ

ổ g hợp he â g ụ ý ưở g ể ghi â iế g ói

h hẹ â i giải ph p h hiệ h ể ổ g hợp r â h h iế g ói giố g hư iế g ói hi gười

2.2.2 Tổng hợp formant theo quy luật

Q y r h ể ây g ộ ổ g hợp f r he gồ h i r h ri g

iệ : r h phâ í h â h h iế g ói ể r y ổ g hợp ại

iế g ói y y

a Phân tích quy luật

Q r h phâ í h ượ iế h h r ơ ở iệ iế g ói hi h

yế gồ â iế ó ạ g C-V (phụ âm – nguyên âm) hay C-V-C (phụ â – nguyên âm – phụ â ) hi giọ g ói Cơ ở iệ y ố h phải ph

ượ ả h h h i g â ộ g g

Th i yế í h LPC ượ ụ g r g r h phâ í h phổ ể ị h ầ ố f r ă g h g f r ầ ố â ơ ả F0

í hiệ iế g ói Tầ ố F1 ế F5 ă g h g W1 ế W5 ở phầ ổ

Trang 32

g h y ối iếp H r y ộ ổ g hợp hi ắ ối iếp ộ ộ g hưở g

ươ g hư h r y ố g h h y ộ ổ g hợp ối iếp h h h r ố cho cá â h h h Cò ộ ổ g hợp i ộ ộ g hưở g ắ g g ẽ

ạ r h â ắ â â ũi h ượ g â h h ố hơ

hình 2.2a: C rú ơ ản c a một bộ tổng hợp formant nối tiếp

Hình 2.2b: C rú ơ ản c a một bộ tổng hợp formant song song

Trang 33

c Sơ đồ khối bộ tổng hợp Mitalk

Bộ tổng hợp â ạn tính s dụng phần m m c a Klatt bằng cả cách nối song song và nối tiếp các bộ cộ g hưởng Đây hệ thống tổng hợp formant khá hoàn thiệ h ến nay

Phươ g ph p a Klatt s dụng các giá trị í h a tham số i u khiển và thu ể tính toán s chuyển tiếp Các giá trị í h h ỗi âm vị không chỉ

nh ược t bả g r ò ược tính theo lu t v vị trí, cách c u âm và ng cảnh

c a các âm vị ó Cũ g hư y, các hằng số thời gian cho s chuyển tiếp ược tính

t các lu t v thông tin ng cả h B f r ă g h g a nguyên âm, bán

g y â g y â i ược chuyển cho phần tổng hợp nối tiếp Hệ thống

ò ịnh thêm sáu tham số phụ h ể i u khiển phần cộ g hưởng mắc song song khi tổng hợp âm tắc, âm xát và âm tắc xát

Trong 39 tham số i u khiể ị h ặc tính c a tín hiệu ở ầu ra c a bộ tổng hợp, có 22 tham số biế ổi Ax là các giá trị i ộ, Rx là các bộ cộ g hưởng

và phản cộ g hưởng có tần số cổ g hưởng ă g ầ h y ổi Bộ tổng hợp s dụng hai nguồn kích, một là bộ tạo xung tuần hoàn v i tần số ơ ản F0 (ch ộng

ây h h) ể tạo âm h u thanh, nguồn kích th hai là bộ tạo nhiễu ng u nhiên v i

i u chỉnh tần số AF và bộ lọc số ă g ần th p LPF cho các âm xát và âm gió

Hiện nay, v i nh ng công cụ thích hợp chúng ta hoàn toàn có thể ịnh tần số formant cho các âm vị c a tiếng Việt Đi he hư g y ó ư iểm là tiết kiệ ược bộ nh , song ch ượng tiếng nói không t nhiên và phụ thuộc nhi u vào ch ượng c a quá trình phân tích tiếng nói c a t ng ngôn ng

2.2.3 Tổng hợp ghép nối

Phươ g ph p ghép nối nhằ ượt qua s không thoả g a các hệ thống

s dụng quy lu t bằng cách loại b t s cần thiết c a một số quy lu t th m chí t t cả các quy lu Để th c hiệ i u này, cách hiệu quả nh ư r trong kho d liệu, không phải hệ thống quy lu t mô tả ơ ị âm hay quy lu t c a các tham số ể

tạ r ơ ị âm mà tr c tiếp t g â ạn c a âm thanh tiếng nói

Trang 34

Tr g phươ g ph p r ổng hợp theo c u âm, tổng hợp formant theo quy lu t và tổng hợp ghép nối thì tổng hợp ghép nối mang nhi u tính công nghệ ược quyế ịnh bởi s phát triển c a máy tính So sánh v ch ượng trong phươ g ph p h ổng hợp ghép nối hiệ y ã h h g h t trong việc tạo

ra tiếng nói không chỉ nghe hiể rõ ạ ượ ộ t nhiên gần v i tiếng nói c a gười hơ ả Phần l n các hệ thống TTS ch ượng cao cho các ngôn ng có trên thị rường hiệ y u s dụ g phươ g ph p ổng hợp ghép nối này

Khi xây d ng một hệ thống tổng hợp ghép nối, tiếng nói ch a t p hợp các

ơ ị â h h ơ ản c a một ngôn ng h g hườ g ươ g ng v i một chuỗi ngắn các âm vị có l a chọ ượ ọ ghi â ư gi r g CSDL C ơ ị

â ược l a chọn, phân tích các tham số ặ rư g ó ó hể ược mã hoá bằng mộ phươ g ph p ã h iế g ói ó ạo thành các m u cho mộ ơ ị

âm thanh Các m u hoặc các tham số phân tích c hú g ượ ư gi lại trong kho d liệ ơ ị tổng hợp

Khi tổng hợp một phát ngôn m i h rư c mô tả ng âm c ph g ó

hệ thống s dụng các quy lu ể ịnh vị ơ ị thích hợp, truy xu t chúng ra khỏi kho d liệu và ghép nối chúng lại v i nhau

Th g hường, một hệ thống tổng hợp ghép nối có ít nh t là một hoặc hai

m u cho mỗi mộ ơ ị ơ ản Do các tham số v ộ tần số ơ ả ộ dài và

ườ g ộ c ơ ị này r h h ( hú g ược trích ra t tín hiệu tiếng nói trong ng cảnh khác nhau) cho nên, khi tổng hợp, hệ thố g he phươ g ph p ổng hợp ghép nối phải th c hiện hai công việc chính

- Một là phải h y ổi các tham số i ạn tính c ơ ị ể tiếng nói tổng hợp thể hiệ ược ng iệu thích hợp hư g ốn

- Hai là phải th c hiện việc l a chọ h y h y ổi ặc tính c â ạn

ơ ị tại các biên ghép nối c a chúng sao cho việc ghép nối là mịn nh ể ảm bảo ch ượng âm thanh tổng hợp tạo ra gân v i tiếng nói t nhiên

Giả s ó h i â ạ ược ghép nối là L và R Chúng ta xem xét t p hợp P

c a các tham số {p 1 ,p 2 ,…, p N }, các giá trị P L o là ở iểm cuối cùng c ạn L và

Trang 35

P(r,0) là ở iể ầu tiên c ạn R L rơ ược th c hiện tuyến tính là phân bố

u khoảng cách (P-P) cho số M L vector {P L -(ML-1) , …, P L -1

,P L 0 } c ạn L và M R vector {P L 0 , P R 1 , P L (ML-1) } V i P’ là tham số hi rơ h ội y ược bằng

công th í h hư :

L

L L R L L

M

i M P P P P

2 ' 1 1 0 0 

M

j M P P P P

2 '1  0  0 

v ii = 0 … M L -1 và j = 0 … M R -1;

Như y ch ượng c a một hệ thống TTS s dụ g phươ g ph p ổng hợp ghép nối ược quyế ịnh bởi các yêu tố sau:

- S l a chọn t p â ơ ị ơ ả Tr g ó g âm c a ngôn ng tổng hợp

là yếu tố chính quyế ịnh loại ơ ị ơ ản

- Ch ượng âm thanh và m ộ bao ph các tổ hợp â ạn cần thiết cho một ngôn ng c a CSDL âm

â ơ ị ơ bả Phươ g ph p ã h h ố ặ rư g h ã h i tuyế í h LPC ũ g hư iến thể c a chúng

Trang 36

a Tổng hợp ghép nối sử dụng mã tiên đoán tuyếntính(LPC)

Mô hình LPC có nguồn kích Gu(n) ược cho bởi công th c sau:

) ( ) ( )

(

1

1s n i Gu n a

n s

r g ó u(n) là nguồn kích tiêu chuẩn và G là hệ số khuế h ại c a nguồn kích

Chuyể ổi sang mi n z cho ta quan hệ là:

) ( )

( )

(

1

1z S z GU z a

z S

1 1

1 )

(

) ( ) (

1

z A z a z

GU

z S z

i

i i

Theo mô hình này, nguồn kích u(n) ược khuế h ại v i hệ số G ầu vào

ộng vào một hệ thống lọc toàn iểm c c có hàm truy n

)(

1)(

z A z

sẽ tạo ra tiếng nói

Nguồn kích là bộ tạo tần số ơ ản cho các âm h u thanh hay tạo nhiễu ng u nhiên cho âm vô thanh

Các tham số h y ổi ch m theo thời gi ể i u khiển mô hình bao gồm một bit phân biệt âm h u thanh/ vô thanh, chu kỳ ộ tần số ơ ản F0 cho âm

h u thanh, hệ số khuế h ại G và các hệ số i yến tính c a bộ lọc số thay

ổi theo thời gian {a p} Quá trình phân tích LPC th c tế ể tính các hệ số c a mô hình này

b Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA

Phươ g ph p h y ổi ộ tần số ơ ả ộ dài tiếng nói ở mi n thời gian có lợi thế hơ hẳn v ch ượng âm thanh tổng hợp và khả ă g h c hiện thay

ổi thời gian th c Như hú g ã iết, tổng hợp ghép nối bao gồm hai quá trình là quá trình giải mã và ghép nối

Trang 37

Quá trình giải mã: tái tạo lại dạng sóng c a tín hiệu tiếng nói t dạng tham số trong kho d liệu

Ghép nối: một chuỗi ơ ị â ƣợc nối sau khi ã h y ổi ặc

rƣ g i ạn tính c a chúng phù hợp v i miêu tả ng âm

Ghép nối ù g ã i yến tính LPC kết hợp hai quá trình nay làm

mộ Th y ổi h h iệ ƣợc th c hiện bằ g h h y ổi tần số ơ ản F0, nguồn

í h h h rƣ c khi ƣ ộ lọc tổng hợp Độ i ƣợ h y ổi bằng cách c p

nh t các tham số cho bộ tổng hợp theo tần su t khác v i tần su t phân tích

Kĩ h t x lý tín hiệu mi n thời gi ể h y ổi ộ tần số ơ ả ộ dài tiếng nói tr c tiếp trên dạng sóng tiếng nói là cộng chồ g ồng bộ chu kỳ ộ tần số ơ ản (PSOLA)

Kỹ thu t cộng chồ g ồng bộ chu kỳ ộ tần số ơ ản th c hiện việc

h y ổi các thành phần ng iệu c a tiế g ói h h ƣ c liên tiếp h ƣợc trình bầy ƣ i ây

Tín hiệu phân tích thời gian ngắn

Bƣ ầ i r h phâ í h ạ g ó g iế g ói x(n) h h h ỗi

í hiệ phâ í h hời gi gắ ƣợ ghi x(s,n) hỉ ố í hiệ hời gi

gắ n hỉ ố r g í hiệ hời gi gắ ó C í hiệ hời gi gắ

h ƣợ ằ g h hâ í hiệ ạ g song x(n) i h ỗi ổ phâ í h he

hời gi ị h h yể hƣ :

)),(()()(n h n x n t s

Tr g ó h s (n) ổ phâ í h ở ại hời iể gố n=0 còn t a (s) hời

iể phâ í h h s Thời iể t a (s) ò ƣợ gọi iể ộ ầ ố ơ ả

phâ í h Chú g ồ g ộ i h ỳ ộ ầ ố ơ ả ở phầ â h h h

iế g ói ó ầ ố h g ổi ở phầ â h h

Chi i ổ phâ í h T ỉ ệ i h ỳ ộ ầ ố ơ ả ại hỗ

P(s) ó ghĩ T=P(s) Hệ ố ỉ ệ  ó gi rị 2 h ĩ h PSOLA i hời

gi C ổ phâ í h h s (n) ƣợ họ r g h ế ại ổ H i g

Trang 38

,12

cos12

1)

Tín hiệu tổng hợp thời gian ngắn

Bƣ h h i phâ í h ổ g hợp PSOLA h y ổi h ỗi í hiệ phâ

í h hời gi gắ h h h ỗi í hiệ ổ g hợp hời gi gắ ồ g ộ ở hời

iể t s (u) gọi iể ộ ầ ố ơ ả ổ g hợp Ch ỗi iể ộ

ầ ố ơ ả ổ g hợp t s (u) ƣợ ị h iể ộ ầ ố ơ ả phâ í h

t a (s) he ỉ ệ h y ổi ộ ầ ố ơ ả ộ i Cù g i h ỗi iể

ộ ầ ố ơ ả ổ g hợp iệ ị h h ạ gi iể h ỳ phâ í h

ổ g hợp t s (u)t a (s), ó ị h e ầ phải họ í hiệ phâ í h

h iể h ỳ ổ g hợp g ố Đơ giả h ụ g h ạ ộ 

ộ gi í hiệ phâ í h ổ g hợp ó ghĩ ạ r í hiệ ổ g hợp

ằ g h ại ỏ h ặ h í hiệ phâ í h hời gi gắ Giả rằ g iể

h ỳ ổ g hợp t s (u) ƣợ h ạ i iể h ỳ phâ í h t a (s) h í hiệ ổ g

hợp y(u,n) i ơ giả y(u,n) = x(s,n) Đối i hệ hố g h hiệ

hơ h ạ h g phải ộ  ộ r h ội y yế í h gi h i í hiệ phâ í h hời gi gắ i iếp ằ gầ iể h ỳ ổ g hợp ƣơ g g

t s (u)

Tí hiệ ổ g hợp hời gi gắ y(u,n) ƣợ í h :

),1()1(),()

Ở ƣ ối ù g í hiệ ổ g hợp y(n) ƣợ ạ h h ằ g h ế hợp

í hiệ ổ g hợp hời gi gắ ồ g ộ h ỗi iể ộ ầ ố ơ ả

n t h

n x n

x

)(

)()

(



Trang 39

x( ) ( )

Nhƣ y í hiệ ổ g hợp hí h ế hợp yế í h í hiệ gố

hâ i ổ H i g ƣợ ị h h yể yế í h

Tính điểm cao độ tần số cơ bản tổng hợp

X ị h iể ộ ầ ố ơ ả ổ g hợp ƣợ h hiệ he h i ƣ

ầ i iể ộ ầ ố ơ ả ƣợ í h hệ ố h y ổi ộ ầ ố ơ ả

ộ i S ó ỗi ộ iể h ỳ ổ g hợp ƣợ g i ộ h y hi iể

h ỳ phâ í h

Thay đổi cao độ tần số cơ bản

Khi h y ổi ộ ầ ố ơ ả iể h ỳ ổ g hợp t s (u) phải ƣợ

í h h ỳ phâ í h t a (s) hệ ố h y ổi ộ ầ ố ơ ả s=(t a (s))

he h Giả í hiệ â h h h i iể h ỳ phâ í h ồ g

ộ h i t a (s+1)-t a (s)=P(t a (s)), P(t) là hàm iể iễ h h yế ộ ầ ơ ả

h g ổi t  P(t)

)

1()

( )),(()(t P t s t s tt s

Điể h ỳ ổ g hợp phải ƣợ ị h ị ồ g ộ i h h yế ộ ầ ố

ơ ả ổ g hợp t P’(t) V ò ại ị h h ỗi ộ ầ ố ơ ả

ổ g hợp t s (u) sao cho t s (u+1) = t s (u) + P’(t s (u)) và P’(t s (u)) p ỉ ằ g 1/(t s (u))

hâ i ộ ầ ố ơ ả í hiệ ở hời iể t s (u):

)) ( (

)) ( ( )) ( ( '

u t

u t P u t P

s

Tí h ệ y hú g gi rị t (u+1) h ả ã i iệ :

Trang 40

)1( t(s)for t

;(s))(t(t)

,)(

)()

()1(

1)

()1(

a a

s a

) 1 ( ) (

dt t

t P u

t u t u t u

u t s s

s s

ộ ầ ố ơ ả h y ổi í hiệ g y h ỷ ượ í h r h g hời

gian t s (u+1)-t s (u) Phươ g r h í h phâ r ó hể giải ượ ễ g P(t), (t)

h iế g ạ

Thay đổi độ dài

Th y ổi ộ i í hiệ ượ h hiệ ằ g h p hệ ố h y ổi s> 0 vào

ỗi ộ iể ộ ầ ố ơ ả phâ í h ó h i ệ h hời gi tD(t)

hi ã ị h h h yể hời gi ư iếp he ạ r h ỗi

iể ổ g hợp t s (u) h ỗi iể phâ í h hi ó gi g y ườ g é

ộ ầ ố ơ ả Cũ g hư r g rườ g hợp r iể phâ í h ượ ồ g ộ

i h ỳ ộ ầ ố ơ ả ghĩ t a (u+1) – t a (u) = P(t a (s)) Đườ g é

ộ ầ ố ơ ả ổ g hợp í h ượ ị h ghĩ t  P’(t) = P(D-1(t)) C ộ ầ

ố ơ ả í hiệ ã hời gi ở hời iể phải gầ giố g i ộ ầ ố

ơ ả í hiệ g y h ỷ ở hời iể D-1(t)

Bây giờ phải h ỗi iể h ỳ ổ g hợp t s (u) sao cho t s (u+1) =

t s (u) + P’(D-1(t s (u))) Để giải yế y ầ phải ị h ghĩ ộ h ỗi

iể h ỳ ả t’ s (u) ở í hiệ gố i ế iể h ỳ ổ g hợp ằ g:

t s (u) = D(t’ s (u)), t’ s (u) = D-1(t s (u))

Định dạng
Số trang	98
Dung lượng	2,74 MB

Tài liệu tham khảo	Loại	Chi tiết
7. HTK (2012), Hidden Markov model toolkit. http://htk.eng.cam.ac.uk	Link
8. HTS (2012), HMM-based speech systhesis system. http://hts.sp.nitech.ac.jp	Link
9. Festival (2012). The Festival speech systhesis system.http://www.cstr.ed.ac.uk	Link
1. Lawrence R.Rabiner, Ronald W.Schafer (1978), Digital processing of speech signals, Prentice Hall	Khác
2. Przemyslaw Dymarski (2011), Hidden Markov Models, Theory and Applications	Khác
3. K.Tokuda, H.Matsumura, T.Kobayashi, Speech coding based on adaptive mel- cepstral analysis, Australia, April 1994	Khác
4. J.Yamagishi. An introduction to HMM-based speech systhesis, Tokyo Institute of Technology, October 2006	Khác
5. Trị h Vă L (1998) C ài giảng v x lý tiế g ói Đại học Bách khoa Hà Nôi	Khác
6. Nguyễn Quốc Trung (2001), X lý tín hiệu và lọc số, nhà xu t bản khoa học kỹ thu t	Khác
10. Dƣ Th nh Bình (2001), Dò tìm tần số ơ ản trong x lý tiế g ói. Đ i Học Bách Khoa Hà Nội	Khác