Tổng quan hệ thống tổng hợp tiếng nói d a trên mô hình Markov ẩn .... Nghiên c u lý thuyết x lý tiếng nói và mô hình Markov và các ng dụng Tìm hiểu toolkit HTS và hệ thống mã nguồn m
Trang 1LỜI CAM ĐOAN
Trang 2LỜI CẢM ƠN
Để hoàn thành khóa luận này, tôi xin tỏ lòng biết ơn sâu sắc đến thầy PGS.TS Trịnh Văn Loan đã tận tình hướng dẫn tôi trong suốt quá trình viết khóa luận tốt nghiệp
Tôi cũng xin chân thành cảm ơn quý Thầy, Cô Viện Công nghệ Thông tin & Truyền thông, Trường Đại học Bách khoa Hà Nội đã tận tình truyền đạt kiến thức trong thời gian học tập và nghiên cứu tại đây Với vốn kiến thức được tiếp thu trong quá trình học tập và nghiên cứu không chỉ là nền tảng cho quá trình nghiên cứu khóa luận mà còn là hành trang quí báu để tôi bước vào đời một cách vững chắc và
Trang 3MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT 5
DANH MỤC CÁC HÌNH VẼ 6
LỜI NÓI ĐẦU 7
CHƯƠNG 1 TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 8
1.1 Mở ầu 8
1.2 Bộ máy phát âm 8
1.2.1 Bộ máy phát âm 8
1.2.2 Cơ chế phát âm 9
1.3 Đặc tính âm học c a tiếng nói 9
1.3.1 Âm hữu thanh và âm vô thanh 9
1.3.2 Âm vị 10
1.3.3 Các đặc tính khác 11
1.4 Mô hình tạo tiếng nói 12
1.5 Phân tích tiếng nói 17
1.5.1 Mô hình phân tích tiếng nói 17
1.5.2 Phân tích tiếng nói ngắn hạn 18
1.6 Phân tích Mel-Cepstral 19
1.6.1 Tạo tiếng nói từ mô hình thời gian rời rạc 19
1.6.2 Phân tích Mel-Cepstral 20
1.6.3 Bộ lọc MLSA (Mel Log Spectral Approximation) 22
CHƯƠNG 2 TỔNG HỢP TIẾNG NÓI 27
2.1 Gi i thiệu chung 27
2.2 C phươ g ph p ổ g hợp iế g ói 28
2.2.1 Tổng hợp theo cấu trúc âm 28
2.2.2 Tổng hợp formant theo quy luật 31
2.2.3 Tổng hợp ghép nối 33
Trang 4CHƯƠNG 3 MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TỔNG
HỢP TIẾNG NÓI 46
3.1 Tổng quan hệ thống tổng hợp tiếng nói d a trên mô hình Markov ẩn 46
3.2 Tổng quan mô hình Markov 48
3.2.1 Quá trình Markov 48
3.2.2 Mô hình Markov ẩn 49
3.3 B i ơ ản c a mô hình Markov ẩn 52
3.4 Tổng hợp tiếng nói d a trên mô hình Markov ẩn 63
3.4.1 Tạo thông số tiếng nói từ HMM 63
3.4.2 Ví dụ tạo các chuỗi tham số 67
3.4.3 Hệ thống tổng hợp văn bản thành tiếng nói dựa trên HMM 72
3.5 Mô hình hóa và tạo tần số ơ ản bằng cách s dụng phân bố xác su
không gian 74
3.5.1 Phân bố xác suất đa không gian 74
3.5.2 HMM dựa trên xác suất phân bố đa không gian 76
3.5.3 Phân cụm ngữ cảnh dựa trên cây quyết định 84
3.5.4 Mô hình hóa tân số F 0 sử dụng MSD-HMM 88
3.6 Chươ g r h h nghiệm 89
3.6.1 Mô hình thử nghiệm 89
3.6.2 Phân tích mô hình 89
3.6.3 Festival và ứng dụng tổng hợp tiếng nói 93
KẾT LUẬT 97
TÀI LIỆU THAM KHẢO 98
Trang 5DANH MỤC CÁC TỪ VIẾT TẮT
FFT Fast Fourier Transform
FIR Finite Impluse Response
HMM Hidden Markov Model
LPC Linear Predictive Coding
MFCC Mel frequency cepstral coefficient
PDFs Probability density functions
MSD-HMM Multi-space probability distribution HMM MLSA Mel log spectral approximation
EM Expectation-maximzation
TTS Text to speech
Trang 6DANH MỤC CÁC HÌNH VẼ
Hình 1.4: Mô hình hóa nguồ â ối v i âm h u thanh 14
Hình3.3.1: Mi ả ãy phép ƣợ h hiệ ể í h iế t (i) 50
Hình3.3.2: Mi ả ãy phép ƣợ h hiệ ể í h iế t(i) 51
H h 3.12: Xây g ây yế ị h r MDL 89
H h 3.14: Hệ hố g ổ g hợp iế g ói r h h HMM 91
Hình 3.15: HMM 3 rạ g h i r i phải i h yể ổi họ 92
H h 3.16: Phâ hó h h riph e ƣơ g g i h h
â “ ”
93
Trang 7LỜI NÓI ĐẦU
Tổng hợp tiếng nói là ĩ h ược r t nhi gười nghiên c u quan tâm, vì
nó có r t nhi u ng dụng trong th c tế hư hệ thống trả lời t ộ g ọc nội
g ă ản, máy phiên dịch, các hệ thống trợ giúp gười tàn t t, các ng dụng trong viễ h g…Tuy nhiên việc ng dụng và nghiên c u ở Việ N ò ươ g
Trong lu ă y i r h ầy các v ơ ản v mô hình Markov ẩn, các giải pháp ng dụng mô hình Markov ẩn vào tổng hợp tiế g ói Để th c hiện ược công việc trên tôi th c hiện các nhiệm vụ sau:
Tìm hiểu nguyên lý, mô hình tạo ra tiếng nói
Nghiên c u lý thuyết x lý tiếng nói và mô hình Markov và các ng dụng
Tìm hiểu toolkit HTS và hệ thống mã nguồn mở fe i ể ng dụng vào tổng hợp tiếng nói
Lu ă ượ hi h h 3 hươ g i các nội dung chính sau:
Chươ g 1: Tiếng nói và x lý tiếng nói.Chươ g y r h ầy các v ơ bản v tiế g ói ơ hế tạo tiế g ói ũ g hư hình tạo tiêng nói,
và các kỹ thu t phân tích tiếng nói
Chươ g 2: Tổng hợp tiếng nói Chươ g y r h bầy một số phươ g ph p tổng hợp tiế g ói ã g ược s dụng trên thế gi i
Chươ g 3: Mô hình Markov ẩn và ng dụng tổng hợp tiếng nói Chươ g y trình bầy lý thuyết v mô hình Markov ẩn, ng dụng trong tổng hợp tiếng nói
và ng dụng tổng hợp trên hệ thống mã nguồn mở Festival
Trang 8CHƯƠNG 1 TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Mở đầu
Tiếng nói là mộ phươ g iệ r ổi thông tin c gười Tiếng nói ược tạo ra t ư y gười: trung tâm thần i h i u khiển hệ thông phát
âm làm việc tạo ra âm thanh
Tiế g ói ược phân biệt v i hệ thống âm thanh khác bởi ặc tính âm học có nguồn gốc t ơ hế tạo tiếng nói V bản ch t, tiếng nói là s ộng c a
h g hí ó g he h g i C ộng này tạo thành áp l ến tai và ược tai phát hiện, phân tích và chuyển kết quả ến trung khu thần kinh Tại ây
h g i ược tái tạo lại ư i dạ g h g i gi gười có thể hiể ược
Tín hiệu tiế g ói ược tạo thành bởi các chuỗi âm vị liên tiếp,s sắp xếp
c a các âm vị ược chi phối bởi quy tắc c a ngôn ng Việc nghiên c u một cách chi tiết v quy tắc này thuộc v chuyên ngành ngôn ng Việc phân loại các âm vị
c a tiếng nói thuộc v chuyên ngành ng âm học Khi nghiên c u các mô hình toán học c ơ hế tạo tiếng nói, việc nghiên c u v các âm vị là r t cần thiết
1.2 Bộ máy phát âm
1.2.1 Bộ máy phát âm
Bộ máy phát âm bao gồm các thành phần riêng rẽ hư phổi, khí quản, thanh quả ường d ũi iệ g Tr g ó:
- Thanh quản ch a 2 dây thanh có thể ộng tạo ra âm thanh
- Tuyến âm là ố g h g u bắ ầu t thanh môn và kết thúc tại môi
- Kh g ũi ố g h g u bắ ầu t môi, kết thúc bởi vòm miệ g ó ộ dài cố ịnh khoảng 12 ối v i gười l n
- Vòm miệng là các nếp ơ h yể ộng
Trang 9Hình 1.2: Bộ máy phát âm c gười
1.2.2 Cơ chế phát âm
Trong quá trình tạo âm thanh không phải â ũi ò iệng mở, khoang
ũi ó g ại, dòng khí sẽ chỉ i h g ũi.Khi ph â ũi ò iệng hạ
th p và dòng khí sẽ chỉ i h g ũi
Tuyến âm sẽ ược kích thích bởi nguồ ă g ượng chính tại thanh môn Tiế g ói ược tạo ra do tín hiệu nguồn t h h ph r ẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm Hai
ây h h ộng sẽ tạo ra cộ g hưởng, ộng âm sẽ ược lan truy n theo tuyế â hi i h g ũi i ẽ tạo ra tiếng nói
1.3 Đặc tính âm học của tiếng nói
1.3.1 Âm hữu thanh và âm vô thanh
a Âm hữu thanh
Âm h u h h ược tao ra t các dây thanh bị ă g ồng thời và chúng rung ộng ở chế ộ dãn khi không hí ă g h h ở ra ó h h môn xẹp xuống do không khí chạy qua
Trang 10Do s cộ g hưởng c a dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần
hư ần hoàn Phổ c a âm h u thanh có nhi u thành phần hài tại giá trị bội số c a tần số cộ g hưởng, còn gọi là tần số ơ ản
b Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộ g hưởng Âm vô thanh có 2 loại
ơ ản là âm xát và âm tắc
Âm xát (ví dụ hư â ): ược tạo ra khi có s co thắt tại i iểm trong tuyế â Kh g hí hi i iểm co thắt sẽ chuyển thành chuyể ộng hỗn loạn tạo nên kích thích giố g hư hiễu ng u nhiên Th g hườ g iểm co thắt xẩy ra ở gần miệng nên s cộ g hưởng c a tuyến âm ả h hưởng r í ế ặc tính c a âm ược tạo ra
Âm tắc (ví dụ hư â p): ược tạo ra khi tuyế â ó g ại một số iểm làm cho áp xu t không khí tă g ó ược giải phó g ột ngột, s giải phóng
ột ngột này tạo ra kích thích nh t thời c a tuyến âm S kích thích này có thể xẩy
ra v i s cộ g hưởng hoặc không cộ g hưởng c a dây thanh ươ g ng v i âm tắc
h u thanh hoặc vô thanh
1.3.2 Âm vị
Tín hiệu tiếng nói là tín hiệ ươ g biểu diễn cho thông tin v mặt ngôn
ng ược mô tả bởi các âm vị h h Như y, âm vị ơ ị nhỏ nh t c a ngôn ng , tùy theo t ng loại ngôn ng cụ thể mà số ượng âm vị nhi u hay ít ( hường vào khoảng t 20 dến 30 âm vị) Các âm vị ược chia làm hai loại, nguyên
âm và phụ âm
a Nguyên âm
Nguyên âm là âm h h h ược tạo ra bằng s cộ g hưởng c a dây thanh
hi ò g hí ược thanh môn ẩy lên, khoang miệ g ược tạo l p thành nhi u hình dạng nh ịnh tạo thành các nguyên âm khác nhau Số ượng các nguyên âm phụ thuộc vào t ng loại ngôn ng nh ịnh
Trang 11b Phụ âm
Phụ â ược tạo ra bởi các dòng khí hỗn loạ ược phát ra gầ iểm co thắt
c ường d n âm thanh do cách phát âm tạo ra Phụ â ó ặc tính h u thanh hay
vô thanh tùy thuộc vào việc dây thanh ó ộ g ể tạo nên cộ g hưởng hay không Dòng không khí tại chỗ ó g a vòm miệng tạo ra phụ âm tắc, phụ âm xát ược tạo ra t chỗ co thắt l n nh t
1.3.3 Các đặc tính khác
a Tỷ suất thời gian
Trong khi nói, khoảng thời gian nói và nghỉ xen kẽ l n nhau Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ ược gọi là tỷ su t thời gian Giá trị này biế ổi tùy thuộc vào tố ộ nói, t ó ó thể phân thành nói nhanh, nói ch m,
ói h hường
b Hàm năng lượng thời gian ngắn
H ă g ượng thời gian ngắn c a tiế g ói ược tính bằng cách chia tín hiệu nói thành nhi u khung mỗi khung gồm N m u C h g y ượ ư một c a sổ có dạ g hư :
c Tần số cơ bản
Dạng sóng c a tiếng nói gồm hai thành phần: phần gần giống nhiễ ( r g ó biên ộ biế ổi ng u nhiên) và phần có tính chu kỳ ( r g ó í hiệu gần hư ần hoàn) Phần tín hiệu có tính chu kỳ ch a các thành phần tần số có dạ g i u hòa Tần số th p nh t chính là tần số ơ ả ũ g chính là tần số ộng c a dây
Trang 12Đối v i nh g gười nói khác nhau, tần số ơ ả ũ g h h
Bảng 1.3.3: Giá trị tần số ơ ản c gười
d Formant
V i phổ c a tín hiệu tiếng nói, mỗi ỉnh ó i ộ l n nh t xét trong một
ạ ó ươ g ng v i một formant Ngoài tần số f r ò ượ ịnh bởi i ộ và dải thông, v mặt v t lý các tần số cộ g hưởng c a tuyến âm ươ g
ng v i các tần số cộ g hưởng c a tuyến âm Trong x lý tiếng nói và tổng hợp tiế g ói ể mô phỏng lại tuyế â gười ta phải ị h ược các tham số
f r ối v i t ng loại âm vị ó iệ h gi ư ượng các formant r t quan trọng
Tần số formant biế ổi trong một khoảng thời gian rộng phụ thuộc vào gi i tính c gười nói và phụ thuộc vào dạng âm vị ươ g ng v i formant ó Formant còn phụ thuộc vào các âm vị rư c và sau nó V c u trúc t nhiên, tần số formant
có liên hệ chặt chẽ v i hình dạ g í h hư c tuyế â Th g hường phổ c a tiếng hiệu tiếng nói có khoả g 5 f r hư g hỉ ó 3 f r ầu tiên ảnh hưởng quan trọng ế ặc tính c a các âm vị, các formant còn lại ũ g ó ảnh hưở g hư g r t ít
Tần số f r ặ rư g h g y â iế ổi tùy thuộ gười
ói r g i u kiện phát âm nh ịnh Mặc dù phạm vi c a các tần số formant
ươ g ng v i mỗi nguyên âm có thể rù h hư g ị trí gi a các formant
h g ổi vì s dịch chuyển c a các formant là song song
1.4 Mô hình tạo tiếng nói
Để ơ giản hóa việc phân tích và nghiên c u bộ y ph â gười ta chia
bộ máy phát âm thành hai thành phầ ơ ản: nguồn âm và hệ h g p ng
Trang 13- Hệ thố g p ng bao gồm thanh môn, tuyế â i ũi Việc mô hình hóa này s dụng hàm truy ạt trong biế ổi Z
- Đối v i các âm h u thanh, nguồn âm là một dạng sóng tuầ h ặc biêt,
dạ g ó g y ƣợc mô phỏng bởi p ng c a bộ lọc thông th p ó 2 iểm
dài bằng nhau và t g ạn riêng biệt có thiết diện mặt cắt là A m khác nhau theo
chi i ạn ống Tổ hợp thiết diện {A m} c ạn ố g ƣợc chọn sao cho
chúng x p xỉ v i hàm thiết diện A(x) c a tuyến âm
Hình 1.5: Chuỗi ạn ống âm họ ý ƣởng
C ạn ố g ƣợ i ý ƣởng khi:
G(z)
Trang 14- Độ dài mỗi ạ nhỏ so v i ƣ c sóng âm truy n ó ƣợc coi là sóng phẳng
- C ạ c ng sao cho s hao tổ r g ộng thành ống, tính dính và d n nhiệ h g g ể
Ngoài ra, giả thiết thêm mô hình tuyến âm lúc này là tuyến tính và không nối
v i thanh môn, hiệu ng c a tuyế ũi ƣợc bỏ qua, ta sẽ có mô hình tạo tiếng nói
ý ƣởng Chúng ta th y rằng mô hình này có nhi u tính ch t chung v i mạch lọc số nên nó có thể ƣợc biểu diễn bằng c u trúc mạch lọc số v i các tham số h y ổi phù hợp v i s h y ổi tham số c a ống âm học
S chuyể ổi c a không khí trong mộ ạn ống có thể ƣợc mô tả bằng áp
su â h h h g ƣợng ó h ng hàm phụ thuộ ộ dài ống (x) và thời gian (t) Trong nh g ạn riêng biệ ó gi rị c h y ƣợc coi là tổ
hợp tuyến tính các giá trị c a chúng v i sóng thu ó g gƣợc Sóng thu n là sóng truy n t h h ế i r g hi ó g gƣợc là sóng truy n t i ến
h h Xé ạn th m có tiết diện A m h h h g ƣợng và hàm áp su t c a hàm này là:
( ) / / ( ) 0 / /1
ở ây là sóng thu ó g gƣợc
c là tố ộ âm thanh
ρ là m ộ h g hí r g ạn
x=0 vị trí trung tâm c ạn
mối quan hệ gi a sóng thu n ó g gƣợc trong nh g ạn kế tiếp phải ảm bảo
áp su h g ƣợng liên tục v không gian và thời gian tại mọi iểm trong hệ thố g hƣ h h
Trang 15Hình 1.5.a: Mô hình lý học gi ạn ống m và m+1
Hình 1.5.b: Mô hình toán học c oạn ống th m
Hình 1.5c: Mô hình c a hệ thống phát âm Tuyế â ượ i hư ột chuỗi liên tiếp các ống âm họ ược mô hình hóa bởi một chuỗi gồm K bộ cộ g hưở g Khi ó h r y ạt c a tuyến âm có dạng:
( )
∏ ( )Mỗi bộ cộ g hưởng sẽ tạo ra một bộ f r ượ ặ rư g ởi tần số trung tâm,
Trang 16
√
V i f e là tần số l y m u c a tín hiệu
Cuối ù g â h h ược phát ra ở i ơi ượ i hư ột tải âm học S tán xạ
c i ược biểu diễn bởi hàm truy ạt:
( ) ( ) Hàm truy ạt c a hệ thống có dạng:
( ) ( ) ( ) ( ) Nếu giả thiết mộ r g 2 iểm c c c a thanh môn gần bằ g 1(β=-1) ta có:
Là hàm truy ạt c a bộ lọ ảo T(z) là hàm truy ạt c h h iểm
c c Các hệ số α i c a bộ lọ ảo là các tham số quan trọ g r g phươ g ph p
yế í h ể ịnh các formant c a tuyến âm
Hạn chế c a mô hình này là không thể tạo ra các âm xát h u thanh và âm
ũi Đối v i â ũi h h r ược cải tiến bằng cách thêm vào phần t
ặ rư g h ũi ặt song song v i mô hình, lú ó h r y ạt c a hệ thống là:
Trang 17iểm c c Ta áp dụ g phươ g ph p giảm b c gầ ú g ể thay mộ iểm không
bằ g 2 iểm c c, ta có:
Tín hiệu âm không phải là tín hiệu d g ó h ố c a mô hình phải biến thiên theo thời gian S biến thiên này r t ch m nên các tham số có thể i hư
h g ổi trong khoảng thời gian mà tín hiệ ược coi là d ng: 20ms
1.5 Phân tích tiếng nói
Phân tích tiếng nói th c hiện giải quyết v tìm ra các dạng th c tối ư biểu diễ ược tiếng nói một cách hiệu quả Nó ơ ở cho việc phát triển các kỹ thu t, công nghệ tổng hợp, nh n dạng và nâng cao ch ượng tiếng nói Phân tích tiế g ói hường th c hiện việc trích chọn hoặc chuyể ổi tín hiệu tiếng nói sang một dạng th c biểu diễn khác sao cho có thể biểu diễn thông tin tiế g ói hơ theo cách chúng ta cần Hầu hế phươ g ph p phâ í h í hiệu tiếng nói t p trung vào một trong ba v chính Tìm cách loại bỏ ả h hưởng c a pha, thành phầ h g ó g i rò rọng trong việc truy n tải thông tin tiếng nói Th hai, th c hiện việc chia tách nguồn âm và mạch lọc sao cho chúng ta có thể nghiên
c u biên ộ phổ c a tín hiệu mộ h ộc l p Thư là, chuyể ổi tín hiệu hoặc biên ộ phổ tín hiệu sang một dạng khác hiệu quả hơ
1.5.1 Mô hình phân tích tiếng nói
Mô hình tổng quát cho việc phân tích tiế g ói hư h h 1.5.1.Tín hiệu tiếng
ói ược ti n x lý bằng cách cho qua một bộ lọc thông th p v i tần số cắt khoảng
8 kHz Tín hiệ h ượ ó ược biế ổi sang dạng tín hiệu số thông qua biến
ổi ADC Thường tần số l y m u bằng 16 kHz, số í ượng t hóa là 16bit
Tín hiệu tiếng nói dạng sóng ược phân khung v i chi u dài khung khoảng 30ms và khoảng lệch c a các khung vào khoảng 10ms Khung phân tích tín hiệu sau
ó ược chỉnh biên bằng cách l y c a sổ v i các hàm c a sổ phổ biế hư
H i g H i g… Tín hiệ h ược sau khi l y c a sổ ượ ư phâ í h
v i phươ g ph p phâ í h phổ Hoặc sau khi phân tích phổ ơ ản, tiếp tục
Trang 18Hình 1.5.1: Mô hình phân tích tiếng nói
1.5.2 Phân tích tiếng nói ngắn hạn
V mặt nguyên lý, chúng ta có thể áp dụng các kỹ thu phâ í h ã iết vào phân tích tín hiệu trong ngắn hạn Tuy nhiên vì tín hiệu tiếng nói là một qua
r h g h g i ộng nên chúng ta không thể chỉ ơ h ần xem xét phân tích ngắn hạn trong một khung thời gi ơ ẻ
Tín hiệu tiếng nói là một tín hiệ h y ổi theo thời gi Nó ó ặ rư g
ơ ả hư g ồ í h hí h ườ g ộ i ộ, …Các tham số h y ổi theo thời gian c a tiế g ói hư: ần số ơ ản, loại âm, các tần số cộ g hưởng chính, hàm diện tích c a tuyế â …
Việc th c hiện phân tích ngắn hạn t c là xem xét tín hiệu trong một khoảng
thời gian nhỏ xung quanh thời iể g é n ó Khoảng thời gian này
hường vào khoảng 10-30 i u này cho phép chúng ta giả s rằng trong khoảng thời gi ó í h h t c a dạng sóng tín hiệu tiế g ói ươ g ối ổ ịnh Khoảng nhỏ tín hiệ ù g ể phâ í h hường gọi là một khung(frame), hay một
ạn (segment) Một khung c a tính hiệ ượ ịnh là tích c a một hàm c a sổ
dịch w(n) và dãy tín hiệu s(n):
S n (m) = s(m)w(n-m)
Trang 19Một khung tín hiệu có thể ược hiể hư ộ ạn tín hiệ ược cắt bởi một hàm c a sổ ể tạo thành một dãy m i mà các giá trị c a nó bằng 0 bên ngoài
khoảng n[m-n+1,m] T công th c trên ta th y rằng khung tín hiệu này phụ thuộc vào khoảng thời gian kết thúc m Trong khung tín hiệu nhỏ v ượ ị h ghĩ ễ
th y rằng các phép x ý gă hạ ũ g ó ý ghĩ hư phép lý dài hạn
Việc phân tích tiếng nói không chỉ ơ gi hỉ ă g iệc x lý một khung
ơ ẻ, mà phải bằng cách phân tích tín hiệu c a các khung liên tiếp Th c tế ể tránh m t thông tin, các khung tín hiệ hường ược l y bao trùm nhau Giống trên hình minh họa:
Hình 1.6: Phân tích tín hiệu trên các khung bao trùm nhau
Mộ phép phâ í h gă hạn tổng quát có thể biểu diễn là:
1.6.1 Tạo tiếng nói từ mô hình thời gian rời rạc
Xét dạng toán học c a sóng tiếng nói, một mô hình thời gian rời rạ hường ược s dụ g ể mô tả việc l y m u c a các tín hiệu tiế g ói hư h h 1.6.1.Hàm
truy ạt H(z) mô hình cho c u trúc c a ống âm Các nguồ í h hí h ược l a
Trang 20bởi một switch, nó i u khiển các âm vô thanh hoặc h u thanh c a tiếng nói Để tạo
ra tín hiệu tiếng nói x(n), các thông số c a mô hình sẽ ƣợ h y ổi theo thời gian
Đối v i nhi u dọng nói, ta có thể giả s tính ch t chung c a thanh âm và mi n kích
thích là cố ịnh trong khoảng 5-10ms Theo giả ị h hƣ y nguồn kích thích e(n) ƣợc lọc bởi một hệ thống lọc tuyến tính thời gi h y ổi ch m H(z) ể tao ra tiếng nói x(n) Tiếng nói x(n) có thể ƣợc tính toán t kích thích e(n) p ng xung h(n):
Hệ số khuếch
ại
Các tham số tuyến âm
Bộ tạo dãy xung Tiế g ói ầu ra
Trang 21Tr g ƣ í h ối x ng c a logarit quang phổ, nó chỉ ra công su t phổ ƣ c
tính |H(e j)|2, sẽ h ƣợc thông qua tiêu chuân E là nhỏ nh t:
Khi i u kiện công th (1.6.7) ƣợc suy ra không cần các giả ịnh c a b t
kỳ một mô hình phổ cụ thể, nó có thể ƣợc áp dụng cho mô hình phổ c a công th c
(1.6.3) Bây giờ l y hệ số khế h ại K t H(z) trong công th c (1.6.3)
Trang 22( ) { ( ) ( ) ( )
Nếu hệ thống H(z) ƣợc coi là một bộ lọc tổng hợp c a tiếng nói, D(z) phải ổ ịnh
D ó giả s rằng D(z) là hệ thống pha tối thiểu và có quan hệ:
( )
| ( )|
( )
D ó ó hể bỏ qua các hằng số, tối thiểu hóa c a E ối v i c d ến tối thiểu hóa
ối v i c1 và tối thiểu hóa E ối v i K Bằng cách l y ạo hàm c a E theo K và
ƣ ết quả v 0 K h ƣợ hƣ :
√ ( )
ở ây min là giá trị nhỏ nh t c a
1.6.3 Bộ lọc MLSA (Mel Log Spectral Approximation)
Để tổng hợp tiếng nói t các hệ số Mel-cepstral, nó cần th c hiện hàm truy n
ạ ũ D(z) Mặt dù hàm truy ạt D(z) không phải là một hàm h u tỷ Bộ lọc MLSA có thể x p xỉ D(z) v i ộ chính xác
Trang 23Lƣ ý rằng A L,l ( =1 2 … L) ó ã ƣợc cố ịnh các giá trị c1(m) là biến
Để loại bỏ trễ t do vòng l p t F(z), công th c trên có thể ƣợc s a lại là:
( ) ̃ ̃
Trang 24Vì phần t ầu tiên c a b bằng 0 do
α T
c1 = 0;
giá trị c p ng xung c a F(z) bằng 0 ở thời iểm 0, v y F(z) không có phần trễ
Hình 1.6.3 thể hiện khối c a lọc MLSA R L (F(z)) s p xỉ D(z) hi ó h
truy ạt F(z) không có phần trễ t do, R L (F(z)) không có các vòng lặp trễ, và
Các hệ số h ược v i L=5, r = 6.0 thể hiện trên bảng Ở ây |F(e jω )| <r = 6.0,
logarit sai số tuyệ ối
|E L (F(e jω ))| = |log(D(e jω )) – logR 5 (F(e jω ))|
Kh g ượt quá 0.2735dB Các hệ số ược tối ư i L = 4, r = 4.5 thể hiện trong
bảng 1.6 Tr g rường hợp logarit c a sai số tuyệ ối h g ượt quá 0.24dB khi
|F(e jω )| < r = 4.5
(a) Lọ ơ ản F(z) (M=3)
Trang 25Bảng 1.6: Các hệ số i ƣ a R L (w) cho L =5, r =6.0 và L = 4, r = 4.5
Nhƣ r h h ếu
| ( )| | ( )| | ( )|
Trang 26Hy vọng rằng R L (F 1 (z)).R L (F 2 (z)) x p xỉ D(e jω ) hí h hơ R L (F(e jω )) Các
Trang 27CHƯƠNG 2 TỔNG HỢP TIẾNG NÓI 2.1 Giới thiệu chung
Tạo tiếng nói bằng máy là mộ ư ơ i gười và là mục tiêu thách
th c các nhà khoa học trên thế gi i nhi u thế kỷ qua Máy nói bằ g ơ hí ầu tiên
do Wolfgang Von Kempelen chế tạ ă 1791 phỏng bộ máy phát âm c a gười ã ó hể ph r ược một vài âm tố Ở ầu thế kỷ y ă 1939 y VODER c a nhà khoa học Dudley, phòng thí nghiệ AT&T BELL LABS ã thành công trong việc mô hình hoá cộ g hưởng c a ống thanh bằng linh kiệ iện
t Hệ thố g i u khiển nhân công 10 bộ cộ g hưởng bằng các phím và chiế p ã
có thể tạo ra một số câu nói nghe hiể ược T gi a nh g ă 1950 rở lại ây
s r ời c y í h iện t số ã h phép ạo ra một cách có hệ thống các tham
số i u khiển bộ tổng hợp tiếng nói Cùng v i s phát triể hư ũ ã a khoa học và công nghệ ở th p kỷ 80 90 ĩ h t tổng hợp tiế g ói ã ó h g ư c phát triển r t quan trong có s ó g góp r t l n c a máy tính và x lý tín hiệu số
Nế iế g ói ũ g hư h iế h ỗi ơ ả ượ ị h ghĩ rõ
r g h h ạ g ổ g hợp iế g ói ã ó hể ã ượ giải yế
â Bả h iế g ói r h iệ hiệ g i â yệ â ố h h
ò g h h i ụ r ph ạp g h g i ở ọi h h phầ ó ổ g hợp h ạ g iế g ói rở ặ iệ hó hă Việ ổ g hợp iế g ói
Trang 28Hệ hố g TTS ế hợp ù g i hệ hố g g họ h ạ g h iế (OCR) ó hể ọ ă ả i h gười hiế hị
- Truyền thông tin bằng âm thanh:
Mộ hệ hố g TTS r h í h h iệ iể r hí h ả ă ả r
y í h hi ghe ph hiệ ỗi ễ g hơ hi i ọ ằ g ắ
- ứng dụng trong viễn thông:
2.2.Các phương pháp tổng hợp tiếng nói
2.2.1 Tổng hợp theo cấu trúc âm
Tổ g hợp he trúc â ụ g h h mô phỏ g i h họ Tr g
h h y iế g ói ượ ặ rư g h g hỉ ằ g í hiệ â h h ả ằ g ị
rí ơ â h gi h g ũi p h g hí r g phổi ă g ây h h Nó gồ h ạ ộ g ươ g phi yế gi
a Mô hình tuyến âm
Ch â h g phải â ũi hỉ ầ e é ố g â ó hiế iệ
iế hi h h h i i Ố g âm h y ổi i ụ h h g hú g
Trang 29phải ượ ị h r g h ả g hời gi i i i giây ộ ầ H h h g gi
ố g h h ượ ả he ị rí ơ ph â ưỡi i h …
M h h ượ g ụ g hi h h h Mer e ei i h
ố ả ị rí ơ â Gi rị h ố ượ iệ hi iế ở ả g 2.1 T ả â y ó hể í h ượ ố iệ h h ặ ắ g g ố g
âm A(x) h ố phụ h ộ h ả g h ọ he ố g âm h h h i
Nh r i ( )
Vị rí ươ g rụ ( )
Tr g â ưỡi rụ y ( )
Độ â g ưỡi ( eg) Chi i y ( )
Vị rí ươ g rụ y ( )
Độ ở ò iệ g ( 2
)
Bả g 2.1: C h ố h h Mer e ei
b Lan truyền sóng trong ống âm
Trong nhi h í h ặ rư g r y n sóng trong ống âm h phươ g ph p
ma tr n chuỗi ược áp dụng nhi u nh t.Ma tr n chuỗi (còn gọi là ma tr n ABCD) thể hiện ống thanh ở mi n tần số V i b t kỳ phần nào c a ống âm hay c a ố g ũi
in in
out
out
U
P K U
P D C
B A U
P
Trang 30Ma tr n chuỗi K có thể thể hiện b t kỳ phần nào c a b t kỳ ộ dài hay mặt phẳng cắt ngang nào c a ống thanh Tính các phần t c a K r ơ giản nếu ống có mặt cắ h g ổi
c Mô hình nguồn âm
Nguồn kích âm cho tổng hợp c u âm s dụng mô hình hai khối c a Ishizaka
và Flanagan
d Nguyên lý của tổng hợp cấu âm
Thu t toán tổng hợp theo mô hình c u âm gồ ư hư au T ặc tả
v các tham số c â í h ược ma tr n chuỗi t h h ến môi S ó tính hàm truy n và trở h g ầu vào t các phần t A,B,C,D c a ma tr n Chuyển
ổi F rier gược hàm truy n H và tỉ số trở kháng ta nh ược các giá trị ươ g
ng ở mi n thời gi S ó í h p t p = P5-P1 Giá trị áp su y ộng vào bộ cộ g hưở g i u khiển chuyể ộng dây thanh c a mô hình hai khối ượng tạo ra âm thanh tiếng nói
ị h hời iể ơ h yể ộ g ố ộ h yể ộ g ối hệ gi ơ
y ơ h V ph r ộ â ị h g h hiế phải ó h yể
ộ g ả ơ r g ù g ộ hời iể ơ ph â ó hể
ượ ị h h â ị h The h y h ổ g hợp he â ó hể ạ r giải ph p h hả h rườ g hợp g â hó hư ụ phụ â g y â
ba
Mô hình â h i g g g y ý y yế ị h h ượ g
iế g ói ổ g hợp Hiệ y hú g hư ó iế h ầy g hi iế
ại h h â ũ g ò ơ giả y h ượ g iế g ói ổ g
Trang 31hợp he â ò r h p Phươ g ph p ổ g hợp â hiệ y hỉ g ở
r g phò g hí ghiệ h y ả phẩ hư ượ g ụ g h ế C ộ
ổ g hợp he â g ụ ý ưở g ể ghi â iế g ói
h hẹ â i giải ph p h hiệ h ể ổ g hợp r â h h iế g ói giố g hư iế g ói hi gười
2.2.2 Tổng hợp formant theo quy luật
Q y r h ể ây g ộ ổ g hợp f r he gồ h i r h ri g
iệ : r h phâ í h â h h iế g ói ể r y ổ g hợp ại
iế g ói y y
a Phân tích quy luật
Q r h phâ í h ượ iế h h r ơ ở iệ iế g ói hi h
yế gồ â iế ó ạ g C-V (phụ âm – nguyên âm) hay C-V-C (phụ â – nguyên âm – phụ â ) hi giọ g ói Cơ ở iệ y ố h phải ph
ượ ả h h h i g â ộ g g
Th i yế í h LPC ượ ụ g r g r h phâ í h phổ ể ị h ầ ố f r ă g h g f r ầ ố â ơ ả F0
í hiệ iế g ói Tầ ố F1 ế F5 ă g h g W1 ế W5 ở phầ ổ
Trang 32g h y ối iếp H r y ộ ổ g hợp hi ắ ối iếp ộ ộ g hưở g
ươ g hư h r y ố g h h y ộ ổ g hợp ối iếp h h h r ố cho cá â h h h Cò ộ ổ g hợp i ộ ộ g hưở g ắ g g ẽ
ạ r h â ắ â â ũi h ượ g â h h ố hơ
hình 2.2a: C rú ơ ản c a một bộ tổng hợp formant nối tiếp
Hình 2.2b: C rú ơ ản c a một bộ tổng hợp formant song song
Trang 33c Sơ đồ khối bộ tổng hợp Mitalk
Bộ tổng hợp â ạn tính s dụng phần m m c a Klatt bằng cả cách nối song song và nối tiếp các bộ cộ g hưởng Đây hệ thống tổng hợp formant khá hoàn thiệ h ến nay
Phươ g ph p a Klatt s dụng các giá trị í h a tham số i u khiển và thu ể tính toán s chuyển tiếp Các giá trị í h h ỗi âm vị không chỉ
nh ược t bả g r ò ược tính theo lu t v vị trí, cách c u âm và ng cảnh
c a các âm vị ó Cũ g hư y, các hằng số thời gian cho s chuyển tiếp ược tính
t các lu t v thông tin ng cả h B f r ă g h g a nguyên âm, bán
g y â g y â i ược chuyển cho phần tổng hợp nối tiếp Hệ thống
ò ịnh thêm sáu tham số phụ h ể i u khiển phần cộ g hưởng mắc song song khi tổng hợp âm tắc, âm xát và âm tắc xát
Trong 39 tham số i u khiể ị h ặc tính c a tín hiệu ở ầu ra c a bộ tổng hợp, có 22 tham số biế ổi Ax là các giá trị i ộ, Rx là các bộ cộ g hưởng
và phản cộ g hưởng có tần số cổ g hưởng ă g ầ h y ổi Bộ tổng hợp s dụng hai nguồn kích, một là bộ tạo xung tuần hoàn v i tần số ơ ản F0 (ch ộng
ây h h) ể tạo âm h u thanh, nguồn kích th hai là bộ tạo nhiễu ng u nhiên v i
i u chỉnh tần số AF và bộ lọc số ă g ần th p LPF cho các âm xát và âm gió
Hiện nay, v i nh ng công cụ thích hợp chúng ta hoàn toàn có thể ịnh tần số formant cho các âm vị c a tiếng Việt Đi he hư g y ó ư iểm là tiết kiệ ược bộ nh , song ch ượng tiếng nói không t nhiên và phụ thuộc nhi u vào ch ượng c a quá trình phân tích tiếng nói c a t ng ngôn ng
2.2.3 Tổng hợp ghép nối
Phươ g ph p ghép nối nhằ ượt qua s không thoả g a các hệ thống
s dụng quy lu t bằng cách loại b t s cần thiết c a một số quy lu t th m chí t t cả các quy lu Để th c hiệ i u này, cách hiệu quả nh ư r trong kho d liệu, không phải hệ thống quy lu t mô tả ơ ị âm hay quy lu t c a các tham số ể
tạ r ơ ị âm mà tr c tiếp t g â ạn c a âm thanh tiếng nói
Trang 34Tr g phươ g ph p r ổng hợp theo c u âm, tổng hợp formant theo quy lu t và tổng hợp ghép nối thì tổng hợp ghép nối mang nhi u tính công nghệ ược quyế ịnh bởi s phát triển c a máy tính So sánh v ch ượng trong phươ g ph p h ổng hợp ghép nối hiệ y ã h h g h t trong việc tạo
ra tiếng nói không chỉ nghe hiể rõ ạ ượ ộ t nhiên gần v i tiếng nói c a gười hơ ả Phần l n các hệ thống TTS ch ượng cao cho các ngôn ng có trên thị rường hiệ y u s dụ g phươ g ph p ổng hợp ghép nối này
Khi xây d ng một hệ thống tổng hợp ghép nối, tiếng nói ch a t p hợp các
ơ ị â h h ơ ản c a một ngôn ng h g hườ g ươ g ng v i một chuỗi ngắn các âm vị có l a chọ ượ ọ ghi â ư gi r g CSDL C ơ ị
â ược l a chọn, phân tích các tham số ặ rư g ó ó hể ược mã hoá bằng mộ phươ g ph p ã h iế g ói ó ạo thành các m u cho mộ ơ ị
âm thanh Các m u hoặc các tham số phân tích c hú g ượ ư gi lại trong kho d liệ ơ ị tổng hợp
Khi tổng hợp một phát ngôn m i h rư c mô tả ng âm c ph g ó
hệ thống s dụng các quy lu ể ịnh vị ơ ị thích hợp, truy xu t chúng ra khỏi kho d liệu và ghép nối chúng lại v i nhau
Th g hường, một hệ thống tổng hợp ghép nối có ít nh t là một hoặc hai
m u cho mỗi mộ ơ ị ơ ản Do các tham số v ộ tần số ơ ả ộ dài và
ườ g ộ c ơ ị này r h h ( hú g ược trích ra t tín hiệu tiếng nói trong ng cảnh khác nhau) cho nên, khi tổng hợp, hệ thố g he phươ g ph p ổng hợp ghép nối phải th c hiện hai công việc chính
- Một là phải h y ổi các tham số i ạn tính c ơ ị ể tiếng nói tổng hợp thể hiệ ược ng iệu thích hợp hư g ốn
- Hai là phải th c hiện việc l a chọ h y h y ổi ặc tính c â ạn
ơ ị tại các biên ghép nối c a chúng sao cho việc ghép nối là mịn nh ể ảm bảo ch ượng âm thanh tổng hợp tạo ra gân v i tiếng nói t nhiên
Giả s ó h i â ạ ược ghép nối là L và R Chúng ta xem xét t p hợp P
c a các tham số {p 1 ,p 2 ,…, p N }, các giá trị P L o là ở iểm cuối cùng c ạn L và
Trang 35P(r,0) là ở iể ầu tiên c ạn R L rơ ược th c hiện tuyến tính là phân bố
u khoảng cách (P-P) cho số M L vector {P L -(ML-1) , …, P L -1
,P L 0 } c ạn L và M R vector {P L 0 , P R 1 , P L (ML-1) } V i P’ là tham số hi rơ h ội y ược bằng
công th í h hư :
L
L L R L L
M
i M P P P P
2 ' 1 1 0 0
M
j M P P P P
2 '1 0 0
v ii = 0 … M L -1 và j = 0 … M R -1;
Như y ch ượng c a một hệ thống TTS s dụ g phươ g ph p ổng hợp ghép nối ược quyế ịnh bởi các yêu tố sau:
- S l a chọn t p â ơ ị ơ ả Tr g ó g âm c a ngôn ng tổng hợp
là yếu tố chính quyế ịnh loại ơ ị ơ ản
- Ch ượng âm thanh và m ộ bao ph các tổ hợp â ạn cần thiết cho một ngôn ng c a CSDL âm
â ơ ị ơ bả Phươ g ph p ã h h ố ặ rư g h ã h i tuyế í h LPC ũ g hư iến thể c a chúng
Trang 36a Tổng hợp ghép nối sử dụng mã tiên đoán tuyếntính(LPC)
Mô hình LPC có nguồn kích Gu(n) ược cho bởi công th c sau:
) ( ) ( )
(
1
1s n i Gu n a
n s
r g ó u(n) là nguồn kích tiêu chuẩn và G là hệ số khuế h ại c a nguồn kích
Chuyể ổi sang mi n z cho ta quan hệ là:
) ( )
( )
(
1
1z S z GU z a
z S
1 1
1 )
(
) ( ) (
1
z A z a z
GU
z S z
i
i i
Theo mô hình này, nguồn kích u(n) ược khuế h ại v i hệ số G ầu vào
ộng vào một hệ thống lọc toàn iểm c c có hàm truy n
)(
1)(
z A z
sẽ tạo ra tiếng nói
Nguồn kích là bộ tạo tần số ơ ản cho các âm h u thanh hay tạo nhiễu ng u nhiên cho âm vô thanh
Các tham số h y ổi ch m theo thời gi ể i u khiển mô hình bao gồm một bit phân biệt âm h u thanh/ vô thanh, chu kỳ ộ tần số ơ ản F0 cho âm
h u thanh, hệ số khuế h ại G và các hệ số i yến tính c a bộ lọc số thay
ổi theo thời gian {a p} Quá trình phân tích LPC th c tế ể tính các hệ số c a mô hình này
b Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA
Phươ g ph p h y ổi ộ tần số ơ ả ộ dài tiếng nói ở mi n thời gian có lợi thế hơ hẳn v ch ượng âm thanh tổng hợp và khả ă g h c hiện thay
ổi thời gian th c Như hú g ã iết, tổng hợp ghép nối bao gồm hai quá trình là quá trình giải mã và ghép nối
Trang 37Quá trình giải mã: tái tạo lại dạng sóng c a tín hiệu tiếng nói t dạng tham số trong kho d liệu
Ghép nối: một chuỗi ơ ị â ƣợc nối sau khi ã h y ổi ặc
rƣ g i ạn tính c a chúng phù hợp v i miêu tả ng âm
Ghép nối ù g ã i yến tính LPC kết hợp hai quá trình nay làm
mộ Th y ổi h h iệ ƣợc th c hiện bằ g h h y ổi tần số ơ ản F0, nguồn
í h h h rƣ c khi ƣ ộ lọc tổng hợp Độ i ƣợ h y ổi bằng cách c p
nh t các tham số cho bộ tổng hợp theo tần su t khác v i tần su t phân tích
Kĩ h t x lý tín hiệu mi n thời gi ể h y ổi ộ tần số ơ ả ộ dài tiếng nói tr c tiếp trên dạng sóng tiếng nói là cộng chồ g ồng bộ chu kỳ ộ tần số ơ ản (PSOLA)
Kỹ thu t cộng chồ g ồng bộ chu kỳ ộ tần số ơ ản th c hiện việc
h y ổi các thành phần ng iệu c a tiế g ói h h ƣ c liên tiếp h ƣợc trình bầy ƣ i ây
Tín hiệu phân tích thời gian ngắn
Bƣ ầ i r h phâ í h ạ g ó g iế g ói x(n) h h h ỗi
í hiệ phâ í h hời gi gắ ƣợ ghi x(s,n) hỉ ố í hiệ hời gi
gắ n hỉ ố r g í hiệ hời gi gắ ó C í hiệ hời gi gắ
h ƣợ ằ g h hâ í hiệ ạ g song x(n) i h ỗi ổ phâ í h he
hời gi ị h h yể hƣ :
)),(()()(n h n x n t s
Tr g ó h s (n) ổ phâ í h ở ại hời iể gố n=0 còn t a (s) hời
iể phâ í h h s Thời iể t a (s) ò ƣợ gọi iể ộ ầ ố ơ ả
phâ í h Chú g ồ g ộ i h ỳ ộ ầ ố ơ ả ở phầ â h h h
iế g ói ó ầ ố h g ổi ở phầ â h h
Chi i ổ phâ í h T ỉ ệ i h ỳ ộ ầ ố ơ ả ại hỗ
P(s) ó ghĩ T=P(s) Hệ ố ỉ ệ ó gi rị 2 h ĩ h PSOLA i hời
gi C ổ phâ í h h s (n) ƣợ họ r g h ế ại ổ H i g
Trang 38,12
cos12
1)
Tín hiệu tổng hợp thời gian ngắn
Bƣ h h i phâ í h ổ g hợp PSOLA h y ổi h ỗi í hiệ phâ
í h hời gi gắ h h h ỗi í hiệ ổ g hợp hời gi gắ ồ g ộ ở hời
iể t s (u) gọi iể ộ ầ ố ơ ả ổ g hợp Ch ỗi iể ộ
ầ ố ơ ả ổ g hợp t s (u) ƣợ ị h iể ộ ầ ố ơ ả phâ í h
t a (s) he ỉ ệ h y ổi ộ ầ ố ơ ả ộ i Cù g i h ỗi iể
ộ ầ ố ơ ả ổ g hợp iệ ị h h ạ gi iể h ỳ phâ í h
ổ g hợp t s (u)t a (s), ó ị h e ầ phải họ í hiệ phâ í h
h iể h ỳ ổ g hợp g ố Đơ giả h ụ g h ạ ộ
ộ gi í hiệ phâ í h ổ g hợp ó ghĩ ạ r í hiệ ổ g hợp
ằ g h ại ỏ h ặ h í hiệ phâ í h hời gi gắ Giả rằ g iể
h ỳ ổ g hợp t s (u) ƣợ h ạ i iể h ỳ phâ í h t a (s) h í hiệ ổ g
hợp y(u,n) i ơ giả y(u,n) = x(s,n) Đối i hệ hố g h hiệ
hơ h ạ h g phải ộ ộ r h ội y yế í h gi h i í hiệ phâ í h hời gi gắ i iếp ằ gầ iể h ỳ ổ g hợp ƣơ g g
t s (u)
Tí hiệ ổ g hợp hời gi gắ y(u,n) ƣợ í h :
),1()1(),()
Ở ƣ ối ù g í hiệ ổ g hợp y(n) ƣợ ạ h h ằ g h ế hợp
í hiệ ổ g hợp hời gi gắ ồ g ộ h ỗi iể ộ ầ ố ơ ả
n t h
n x n
x
)(
)()
(
Trang 39x( ) ( )
Nhƣ y í hiệ ổ g hợp hí h ế hợp yế í h í hiệ gố
hâ i ổ H i g ƣợ ị h h yể yế í h
Tính điểm cao độ tần số cơ bản tổng hợp
X ị h iể ộ ầ ố ơ ả ổ g hợp ƣợ h hiệ he h i ƣ
ầ i iể ộ ầ ố ơ ả ƣợ í h hệ ố h y ổi ộ ầ ố ơ ả
ộ i S ó ỗi ộ iể h ỳ ổ g hợp ƣợ g i ộ h y hi iể
h ỳ phâ í h
Thay đổi cao độ tần số cơ bản
Khi h y ổi ộ ầ ố ơ ả iể h ỳ ổ g hợp t s (u) phải ƣợ
í h h ỳ phâ í h t a (s) hệ ố h y ổi ộ ầ ố ơ ả s=(t a (s))
he h Giả í hiệ â h h h i iể h ỳ phâ í h ồ g
ộ h i t a (s+1)-t a (s)=P(t a (s)), P(t) là hàm iể iễ h h yế ộ ầ ơ ả
h g ổi t P(t)
)
1()
( )),(()(t P t s t s tt s
Điể h ỳ ổ g hợp phải ƣợ ị h ị ồ g ộ i h h yế ộ ầ ố
ơ ả ổ g hợp t P’(t) V ò ại ị h h ỗi ộ ầ ố ơ ả
ổ g hợp t s (u) sao cho t s (u+1) = t s (u) + P’(t s (u)) và P’(t s (u)) p ỉ ằ g 1/(t s (u))
hâ i ộ ầ ố ơ ả í hiệ ở hời iể t s (u):
)) ( (
)) ( ( )) ( ( '
u t
u t P u t P
s
s
Tí h ệ y hú g gi rị t (u+1) h ả ã i iệ :
Trang 40)1( t(s)for t
;(s))(t(t)
,)(
)()
()1(
1)
()1(
a a
s a
) 1 ( ) (
dt t
t P u
t u t u t u
u t s s
s s
s s
ộ ầ ố ơ ả h y ổi í hiệ g y h ỷ ượ í h r h g hời
gian t s (u+1)-t s (u) Phươ g r h í h phâ r ó hể giải ượ ễ g P(t), (t)
h iế g ạ
Thay đổi độ dài
Th y ổi ộ i í hiệ ượ h hiệ ằ g h p hệ ố h y ổi s> 0 vào
ỗi ộ iể ộ ầ ố ơ ả phâ í h ó h i ệ h hời gi tD(t)
hi ã ị h h h yể hời gi ư iếp he ạ r h ỗi
iể ổ g hợp t s (u) h ỗi iể phâ í h hi ó gi g y ườ g é
ộ ầ ố ơ ả Cũ g hư r g rườ g hợp r iể phâ í h ượ ồ g ộ
i h ỳ ộ ầ ố ơ ả ghĩ t a (u+1) – t a (u) = P(t a (s)) Đườ g é
ộ ầ ố ơ ả ổ g hợp í h ượ ị h ghĩ t P’(t) = P(D-1(t)) C ộ ầ
ố ơ ả í hiệ ã hời gi ở hời iể phải gầ giố g i ộ ầ ố
ơ ả í hiệ g y h ỷ ở hời iể D-1(t)
Bây giờ phải h ỗi iể h ỳ ổ g hợp t s (u) sao cho t s (u+1) =
t s (u) + P’(D-1(t s (u))) Để giải yế y ầ phải ị h ghĩ ộ h ỗi
iể h ỳ ả t’ s (u) ở í hiệ gố i ế iể h ỳ ổ g hợp ằ g:
t s (u) = D(t’ s (u)), t’ s (u) = D-1(t s (u))