HMM Hidden markov model Mô hnh markov n DNN Deep Neural Network Mng nơ ron h c sâu PSOLA Pitch Synchronous Overlap and Add K s cơ b thut chn ng đng b ộ cao độ n tTTS Text To
Trang 1NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI
TIẾNG VIT SỬ DỤNG CÔNG NGH HỌC SÂU
LUẬN VĂN THẠC SĨ KHOA HỌC
H THNG THÔNG TIN
Trang 2
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-Nguyn Văn Thnh
NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI TIẾNG
VIT SỬ DỤNG CÔNG NGH HỌC SÂU
Chuyên ngành : H Thng Thông Tin
Trang 3LỜI CẢM ƠN
Đu tiên, tôi xin đưc g i l i c m ơn chân thành t i Vi n nghiên c u qu c t MICAnơi đ o đi t u ki n cho tôi th c hi n lu n văn àn y Tip đn, tôi xin c m ơn trung tâm không gian m ng VIETTEL, nơi tôi l m vi cà , đ o đi t u ki n v gi à p đ tôi trong vi ho n th nh h c à à thng m tôi tr nh b y trong luà à n văn thc s n y Tôi xin àchân thành cm ơn TS Mc Đăng Khoa ngưi th y , ngưi hưng d n tôi trong su t
thi gian qua đ tôi c th ho n th nh luà à n văn cho mnh
Thêm n a, tôi xin chân th nh c à m ơn anh Nguyn Ti n Th nh, à ch Nguy n H ng Phương cng to n th c c b vi n nghiên c u qu c t à ộ MICA đ p đ gi tôi trong
qu nh ltr àm lun văn ti vin nghiên c u qu c t ICA M
Tôi xin g i l i c m ơn trn trng đn anh Nguy n Qu c B o c ng to n th à đng nghi p c a tôi t i nh m voice trung tâm không gian m ng VIETTEL, ban gi m đc trung tâm c ng toàn th anh ch em trong trung tâm đ p đ tr gi h tôi trong qutrnh tôi ho n th nh luà à n văn thc s à n y
Cu i c ng tôi xin g i l i c m ơn i cô Đt Th Ng c Di p , ngưi đ hưng d n tôi
t khi c n l sinh viên i h à đ c à trv h , gip đtôi đn khi tôi ho n th nh luà à n văn
n y à
Hà Nội, ngày 27 tháng 03 năm 2018
Nguyn Văn Thnh
Trang 4MỤC LỤC
LỜI CẢM ƠN 3
MỤC LỤC 4
DANH MỤC HÌNH ẢNH 6
DANH MỤC BẢNG 7
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ 8
MỞ ĐẦU 9
LỜI CAM ĐOAN 11
CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 12
1.1 Gii thiu v tổng hp ting ni 12
1.1.1 T ng quan v t ng h p ti ng n i 12ổ ổ 1.1.2 X l ngôn ng t nhiên trong t ng h p ti ng n i 12 ổ 1.1.3 Tổng hp tín hiu ting n i 13
1.2 Cc phương php tổng hp ting ni 14
1.2.1 Tổng hp mô phỏng h thng pht âm 14
1.2.2 Tổng hp tn s formant 14
1.2.3 Tổng hp ghép ni 15
1.2.4 Tổng hp dng tham s thng kê 16
1.2.5 Tổng hp ting ni bng phương php lai ghép 19
1.2.6 Tổng hp ting ni da trên phương php hc sâu (DNN) 19
1.3 T nh h nh ph t trin v cà c vn đ i tổ v ng h p ti ng n i ti ng Vi t 21
CHƯƠNG 2: PHƯƠNG PHÁP H C SÂU P D NG TRONG T NG H P Ọ Á Ụ Ổ Ợ TIẾNG NÓI 23
2.1 K thut hc sâu s dụng mng nơ ron nhân to 23
2.1.1 Nhng mng nơ ron cơ bn 23
2.1.2 Mng nơ ron hc sâu 25
2.2 T ng h p ti ng n i dổ a trên phương php hc sâu 27
2.3 Trích ch c đ trưng ngôn ngn c c 27
2.4 Mô hnh âm hc da trên mng nơ ron hc sâu 30
2.5 Vocoder 32
CHƯƠNG 3: XÂY D NG H TH NG T NG H P TI NG N I TI NG VI T Ổ Ợ Ế Ó Ế VỚI CÔNG NGH HỌC SÂU 35
3.1 Gii thiu h thng Viettel TTS 35
3.2 Kin trc tổng quan ca h thng Viettel TTS 35
3.3 Xây d ng c c mô đun ca h thng t ng h p ti ng n i 36ổ 3.3.1 Mô đun chun ha văn bn đu v o 36à 3.3.2 Mô đun trích chn đc trưng ngôn ng 38
3.3.3 Mô đun to tham s đc trưng âm hc 39
3.3.4 Mô đun tổng h p ti ng n i t c đc trưng âm h c c 41
3.4 Xây dng cơ sở d liu và hun luyn h thng 42
3.4.1 Thu thp d liu cho h thng tổng hp ting ni 42
3.4.2 Hun luyn h thng 42
3.5 X l d liu hun luyn đ nâng cao cht lưng đu ra 42
CHƯƠNG 4: CÀI ĐT TH NGHI M V Ử À ĐÁNH GI K T QU 46Á Ế Ả 4.1 Cà i đ t th nghi m h thng 46
4.2 nh gi kĐ t qu th nghim h thng 47
Trang 54.2.1 Đnh gi cht lưng bộ tổng hp dng DNN so vi HMM 47
4.2.2 Đnh gi kt qu ca vic ci thin cơ sở d liu hun luyn 47
4.2.3 Đnh gi so snh cht lưng h thng tổng hp ting ni so vi cc h thng tổng hp ting Vit hin c 48
4.2.4 Đnh gi hiu năng h thng 50
KẾT L ẬU N 52
A Tổng kt 52
B Phương hưng ph t tri n v c i thi n h th ng 52 à TÀI LIU THAM KHẢO 53
PHỤ LỤC 55
Phụ lục A: Cu trc ca một nhn biu din ng cnh ca âm v 55
Phụ lục B: Cc công b khoa hc ca lun văn 57
Trang 6DANH MỤC HÌNH ẢNH
Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9] 12
Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13] 14
Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13] 15
Hình 4: Mô h nh markov n p d ng trong t ng h p ti ng n i 16 ụ ổ Hình 5: Qu tr nh hu n luy n v t ng h p m t h à ổ ộ thng t ng h p ti ng n i d a trên ổ mô h nh markov n 18
Hình 6: Tổng hp ting ni da trên DNN[18] 20
Hình 7: Một perceptron vi ba đu vào[24] 23
Hình 8: Mng nơ ron gm nhiu perceptron[24] 24
Hình 9: Hàm sigmoid[24] 25
Hình 10: Hàm kích hot tanh và relu 25
Hình 11: Mng nơ ron một lp n [24] 26
Hình 12: Mng nơ ron hai lp n[24] 26
Hình 13 Ki: n trc cơ bn c a h th ng t ng h p ti ng n i 27ổ Hình 14: Biu din đc trưng ngôn ng h c ca văn bn[28] 28
Hình 15: Thông tin đc trưng ngôn ng liên quan đ n t ng âm v [28] 29
Hình 16: Thi gian xut hin m i tr ng thi ca tng âm v 29
Hình 17: Mng nơ ron feat forward 30
Hình 18: Chuy n h a véc tơ đc trưng thành cc véc tơ nh phân 31
Hình 19: Mng nơ ron hc sâu p d ng trong t ng h p ti ng nụ ổ i[4 31]
Hình 20: T ng quan v h ổ ng WORLD vocoder[30 33th ] Hình 21: T ng h p ti ng nổ i WORLD vocoder 34i v Hình 22: H thng tổng hp ting ni Viettel TTS 35
Hình 23: Kin trc h thng tổng hp ting ni 36
Hình 24: Qu trnh chun ha văn bn đu vào 37
Hình 25: Hot động ca bộ trích chn đc trưng ngôn ng hc 38
Hình 26: Cu trc và hot động ca bộ Genlab 39
Hình 27: Cu trc mô đun to tham s đc trưng 39
Hình 28: Qu tr nh hu n luy n v t ng h p m t h à ổ ộ thng t ng h p ti ng n i dổ a trên mô h nh mng nơ ron hc sâu 41
Hình 29: Tổng hp ting ni t cc đc trưng âm hc bng WORLD vocoder 41
Hình 30: Tín hiu âm thanh trưc (trên) và sau khi cân bng (dưi) 43
Hình 31: Tín hiu âm thanh trưc (ở trên) và sau (ở dưi) sau khi lc nhiu 44
Hình 32: Phân b d liu sau khi gn nhn 45
Hình 33: Hnh nh chy th nghim h thng tổng hp ting ni 1 46
Hình 34: Hnh nh chy th nghim h thng tổng hp ting ni 2 46
Hình 35: Đnh gi độ t nhiên 49
Hình 36: Đnh gi độ hiu 49
Hình 37: Đnh gi MOS 49
Hình 38: Đnh gi thi gian đp ng ca h thng 50
Hình 39: Đnh gi chim dụng bộ nh 50
Trang 7DANH MỤC BẢNG
Bng 1: Đnh gi so snh HMM và DNN 20Bng 2: D liu hun luyn h thng tổng hp ting ni 42Bng 3 Kt qu so snh bộ tổng hp DNN và HMM: 47Bng 4 Kt qu so snh cht lưng tổng hp ting ni ca h thng c d liu hun : luyn đ đưc x l (DNN2) và chưa đưc x l (DNN1) 48Bng 5 Thông tin ngưi nghe đnh gi h thng tổng hp ting ni: 48
Trang 8DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
and Add K s cơ b thut chn ng đng b ộ cao độ n t
Approximation x p x ph ổmel GMM Gaussian mixture model Mô hnh gauss h n h p
speech processing X l ngôn ng v ng n i ti ng Vit à ti
F0 Fundamental frequency T n s cơ b n
Trang 9MỞ ĐẦU
Hin nay l, nh v c t ng h p ti ng n i ĩ ổ đ đưc nghiên c u v ph t tri n r t nhi u à ở nơi trên th gi i, nhi u công ngh à phương ph v p khc nhau đưc th nghi m,
tri n khai thành công, th m ch c nh ng công nh đ đ í tr t đ n mc kh c phân th
bit đưc v i gi ng đc ca con ngưi C n ở Vit Nam, c ng c nhi u công đ
trnh nghiên c u v s n ph m v l nh v c t ng h p ti ng n i, c đn như à ĩ ổ th k c c nghiên c u c a Vi n công ngh thông tin thuộc Vi n h n lâm khoa h c công ngh à Vit Nam ([1], [2]), c c nghiên c u n y u d a trên ki n tr c c a h à đ thng HTS[3] đ xây d ng h th ng t ng h p ti ng n i, v mô h ổ à nh đư c p d ng l mô h nh ụ à
Markov n C công tr nh nghiên c u v h c à thng th c t v t ng h p ti ng n ổ i ởVit nam hi n nay ch y u đưc ph t tri n d a trên hai phương ph p t : ng h p ổ ting n i gh p n i v t ng h p ti ng n i th ng kê d a trên mô h nh Markov n é à ổ (HMM) Hai phương php nêu trên l à hai phương php đ đưc nghiên c u v ph à t trin nhiu năm trên th ng như ở gi i c Vit Nam, đ c nhi u s n ph m, h ng ththành công i n Tuy nhiên hai v phương php n y v n c n nhi u m t h n ch à như cht lưng ti ng n i t ng h p không th t đi ổ v i HMM v à cơ sở d li u cn lưu tr
l n c ng như ch cho cht lưng t t trong min h p đi ổv i t ng h p gh p n i M é t
kh c trên th gi i hin nay đ t đ b u ph t tri n m t công ngh t ng h p ti ng n ộ ổ i
m i , đ à ổ l t ng h p ti ng n i d a trên phương php h c sâu, n c ng cho th đ y
nh ng k t qu t ch c c, í cht lưng t ng h p c a h ổ thng m c cao, g n v i t ở nhiên[4] V hai l do trên, t đ ài đưc đ xut thc hin nhm th nghim p d ng ụcông ngh h c sâu v o trong t ng h p ti ng n i ti ng Vi t v i mong mu n t à ổ o đưc
một h thng t ng h p ti ng nổ i c cht lưng cao
Đ à t i n y t p trung nghiên c u p d ng công ngh t ng h p ti ng n i d a trên à ụ ổ
mng nơ ron hc sâu cho t ng h p ti ng n i ti ng Vi t, sao cho ổ đt đưc m t h ộ
- Trin khai xây d ng h thng t ng h p ti ng n dổ i a trên công ngh à n y
- Áp d ng m t s gi i ph p ti n x l d ụ ộ liu đ nâng cao cht lưng gi ng
t ng h p ổ
Lu văn ày đưn n c xây d ng trong qu nh l tr àm vi c t i trung tâm không gian
m ng VIETTEL v à thi gian l m vi c t i ph ng Giao ti p ti ng n i thu c Vià ộ n nghiên c u qu c t MICA V i môi trưng l m vi c nghiêm t c, à đưc s hưng
d n c a TS M c Đăng Khoa cng v i s gi p c a ng nghi p v c c anh, tr đ à ch, thy, cô Vi n Nghiên c u qu c t ở MICA tôi đ đ c rt đưc kinh nghi m v ho n à àthành lun văn này
Sau đây là ụ b c c ch nh c a luí n văn
• CHƯƠNG 1 TỔNG QUAN V T NG H P TI NG N I: Ề Ổ Ợ Ế Ó Chương àn y gi i thiu chung v t ng h p ti ng n i t ổ , nh h nh nghiên c u v ph t tri n c c h à thng t ng h p ti ng n i, v c c phương ph ổổ à p t ng h p ti ng n i ph bi n ổ
hi n nay.
Trang 10• CHƯƠNG 2: PHƯƠNG PHÁP H C SÂU P D NG TRONG T NG H P Ọ Á Ụ Ổ ỢTIẾNG N I:Ó Chương àn y ch y u n i v phương php h c sâu và cách áp dụng n trong trong t ng h p ti ng n i ổ
• CHƯƠNG 3 XÂY D: NG H TH NG T NG H P TI NG N I TI NG Ổ Ợ Ế Ó ẾVI VỚI CÔNG NGH HỌC SÂU: Chương àT n y ch y u n i v ki n tr c
h thng t ng h p ti ng n i ti ng Vi t dổ a trên phương php h c sâu, cách trin khai xây d ng t ng mô đun da trên ki n tr c n y và c ch thu p, à thphương ph p x l , l c d li u cho th ng t ng h p ti ng n i h ổ
• CHƯƠNG 4: CÀI ĐT TH NGHI M V Ử À ĐÁNH GI K T QU : Á Ế ẢChương àn y ch y u n i v c ch th c c ài đt, th nghi m v nh gi k t à đ
qu h thng t ng h p ti ng nổ i đ đưc xây d ng
• Phn Ế K T LU N: Ậ Phn à à n y l ph n k t lu n v lu n văn ng như nh c ng phương hưng nghiên c u, c i thi n
Trang 11LỜI CAM ĐOAN
Tôi là Nguyn Văn Thnh, là tc gi ca lun văn này Trong đ tài Nghiên cu pht trin h thng tổng hp ting ni ting Vit s dụng công ngh hc sâu, h thng đưc xây dng bao gm bn mô đun chính: Mô đun chun ha văn bn (Text normalization), mô đun trích chn đc trưng ngôn ng (Linguistic Feature Extraction), mô đun to tham s đc trưng (Parameter Generation) và mô đun to tín hiu ting ni (Waveform Generation) Trong bn mô đun trên, tc gi tham gia
và c đng gp chính trong vic xây dng ba mô đun là mô đun trích chn đc trưng ngôn ng, mô đun to tham s đc trưng, mô đun to tín hiu ting ni
Tc gi xin cam đoan toàn bộ nhng g nêu trên cng như toàn bộ cc phn trin khai trong lun văn là tht
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI
1.1 Giới thiệu về tổng hợp tiếng nói
1.1.1 T ng quan v t ổ ề ổ ng h p ti ng nói ợ ế
Tổng hp ting ni là qu trnh to ra ting ni ca con ngưi t văn bn, h thng tổng hp ting ni là h thng nhn đ vào là một văn bn và to ra tín hiu ting u ni tương ng ở đu ra Nghiên c u v t ng h p ti ng n ổ i đ b t đ u t r t lâu, năm
1779 nh khoa hà c ngưi đan mch Christian Kratzenstein đ xây d ng mô ph ỏng đơn gin h th ng c u âm c a con ngưi, mô h nh n ày đ c th ph t ra đưc âm thanh c a m t s nguyên âm d i[5] ộ à Đn t n th k 19 cc nghiên c u t ng h ổ p
ting n i v n c n m ở c đơn gin, ph i sang th k 20 khi m c s l n m nh c a à
h thng đi , đi th n n t m i th c s xu t hi n nh ng h thng t ng h p ti ng nổ i cht lư , c th k đn như h thng VODER ln đu đưc gii thiu năm ng1939[6] Cho đn hin nay, c rt nhiu cc sn phm như sch ni, đ chơi, s dụng công ngh tổng hp ting ni Đc bit cc mô đun tổng hp ting ni cn đưc tích hp trong cc tr l o trên đin thoi và my tính như Siri1 hay Cortana2 Qua qu nh ph t t n, hi n nay v tr ri cơ bn m t h ộ thng t ng h p ti ng n i bao ổ
g m hai th nh ph n ch nh: ph n x l ngôn ng t nhiên v ph n x l t ng h p à í à ổ
ting n i[7] Ph n x l ngôn ng t nhiên chu n h a, x l c : c văn bn đu vào
thành c c th nh ph n c à th pht âm đưc Ph n x l t ng h p ti ng n ổ i: T o t ra ín
hi u ti ng n i t c c th nh ph n ph à t âm đưc nêu trên[8] Trên hình 1 mô t một h thng tổng hp ting ni gm hai thành phn nêu trên
Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9]
1.1.2 X l ngôn ng t nhiên trong t ng h p ti ng n i ổ ợ ế ó
Trong một h thng tổng hp ting ni, khi x l ngôn ng t nhiên c nhim vụ trích chn cc thông tin v ng âm, ng điu ca văn bn đu vào Thông tin ng
1 https://www.apple.com/ios/siri/
2 https://www.microsoft.com/en-us/cortana
Trang 13âm cho bit nhng âm nào đưc pht ra trong hoàn cnh cụ th nào, thông tin ng điu mô t điu tính ca cc âm đưc pht[7] Qu trnh x l ngôn ng t nhiên thưng bao gm ba bưc (xem trên hình 1):
- X l và chun ha văn bn (Text Processing)
- Phân tích cch pht âm (Chuyn đổi hnh v sang âm v Grapheme to phoneme )
- Phát sinh các thông tin ngôn điu, ng âm cho văn bn (Prosody modeling) Chun ha văn bn là qu trnh chuyn ha văn bn thô ban đu thành một văn bn dng chun, có th đc đưc một cch d dàng, ví dụ như chuyn đổi cc s, t vit tt, k t đc bit,… thành dng vit đy đ và chính xc Chun ha văn bn là một vn đ kh vi nhiu nhp nhng trong cch đc, ví như ch s c nhiu cch đc khc nhau tùy theo văn cnh khc nhau, như 3579 c th đưc đc là “ba nghìn năm trăm by chín” nu coi n là một s nhưng cng c th đc là “ba năm by chín” nu như n là một m xc thc, cc t vit tt cng vy, cng c nhiu cch đc phụ thuộc vào quy ưc ca ngưi vit
Phân t ch c ch ph t âm l qu nh xí à tr c đnh c ch ph t âm chính xc cho văn bn,
c h c thng t ng h p ti ng n i d ng hai c cổ h cơ bn đ c đ x nh c ch ph t âm cho văn bn, qu tr nh này c n đưc g i l chuy à n đổi văn bn sang chu i âm v C ch th nh t v à đơn gi n nh t l d a v o t à à đin, s d ng m t t ụ ộ đi n l n c ch a t t c
c c t c a m t ngôn ng v ch a c ch ph ộ à t âm đng tương ng cho t ng t Vi c
xc đnh c ch ph t âm ng cho t ng t đ ch đơn gi àn l tra t đin và thay đon văn
b n b ng chu i âm v ghi trong t đ đin C ch th hai l d a trên c c quy t c v à à
s d ng c c quy t ụ c đ t m ra c ch ph t âm tương ng M i c ch đu c ưu nhưc đim kh c nhau, c ch d a trên t đin nhanh v ch nh x c, à í nhưng s không ho t
động n u t ph t âm không c trong t đin V lư ng t v ng c n à lưu à l l n C ch
d ng quy t c ph h p v i m i văn bn nhưng độ ph c t p c th tăng cao n u ngôn
ng c nhi u trưng h p b t quy t c
Pht sinh c c thông tin ngôn điu cho văn b à n l vi c xc đnh v tr tr ng âm c a t í đưc ph t âm, s lên xu ng gi ng c c v tr kh c nhau trong câu v x ở í à c đnh c c
bi n th kh c nhau c a âm ph thu c v o ng c nh khi ụ ộ à đưc ph t âm trong một ngôn ng lưu liên tục, ngo i ra qu nh n y c n ph i xà tr à c đnh cc đim d ng ngh
ly hơi khi ph t âm ho c đc một đon văn bn[10] Thông tin v thi gian (duration) đưc đo bng đơn v xen ti giây (centi second) hoc mi li giây (mili second), và đưc ưc lưng da trên cc quy tc hoc cc thut ton hc my Cao
độ (pitch) là một tương quan v mt cm nhn ca tn s cơ bn F0, đưc biu th theo đơn v Hz hoc phân s ca tông (tones) (na tông, một phn hai tông) Tn s
cơ bn F0 là một đc trưng quan trng trong vic to ngôn điu ca tín hiu ting ni, do đ vic to cc đc trưng cao độ là một vn đ phc tp và quan trng trong tổng hp ting ni
1.1.3 Tổng hợp tín hiệu ế ti ng n i ó
Khi x l tổng hp ting ni đm nhn vic to ra ting ni t cc thông tin v ng
âm, ng điu do khi x l ngôn ng t nhiên cung cp Trong thc t c hai cch tip cn cơ bn liên quan đn công ngh tổng hp ting ni: tổng hp ting ni s dụng mô hnh ngun âm và tổng hp da trên vic ghép ni cc đơn v âm
Trang 14Cht lưng ting ni ca một h thng tổng hp đưc đnh gi thông qua hai khía cnh: độ d hiu và độ t nhiên Độ d hiu đ cp đn nội dung ca ting ni đưc tổng hp c th hiu một cch d dàng hay không Mc độ t nhiên ca ting ni tổng hp là s so snh độ ging nhau gia ging ni tổng hp và ging ni t nhiên ca con ngưi
Một h thng tổng hp ting ni l tưởng cn va t nhiên, va d hiu và mục tiêu xây dng một h thng tổng hp là làm gia tăng ti đa hai tính cht này Hin nay
có ba phương php chính, phổ bin nht là: tổng hp mô hnh ha h thng pht âm, tổng hp cộng hưởng tn s và tổng hp ghép ni, ngoài ra cng c cc phương php khc pht trin t ba phương php trên [11]
1.2 Các phương pháp tổng hợp tiếng nói
1.2.1 Tổng hợp mô phỏng hệ thống phát âm
Tổng hp mô phỏng h thng pht âm là cc k thut tổng hp ging ni da trên
mô hnh my tính mô phỏng cơ quan pht âm ca con ngưi và qu trnh to ra ting ni trên đ V mục tiêu ca phương php này là mô phỏng qu trnh to ting ni sao cho càng ging cơ ch ca con ngưi càng tt, nên v mt l thuyt đây đưc xem là phương php cơ bn nht đ tổng hp ting ni, nhưng cng v vy mà phương php này kh thc hin nht và kh c th tổng hp đưc ting ni cht lưng cao[12] Tổng hp mô phỏng pht âm đ tng ch là h thng dành cho nghiên cu khoa hc cho mãi đn nhng năm gn đây L do là rt ít mô hnh to ra
âm thanh cht lưng đ cao hoc c th chy hiu qu trên cc ng dụng thương mi Một ngoi l là h thng NeXT, vn đưc pht trin thương mi ha bởi Trillium Sound Research Inc, Canada Đ thc hin đưc phương php tổng hp da trên vic mô phỏng h thng pht âm đi hỏi thi gian, chi phí và công ngh Phương php này kh c th ng dụng ti Vit Nam thi đim hin nay
1.2.2 Tổng hợp tần số formant
Tổng hp ting ni formant là phương php tổng hp ting ni không s dụng mu ging tht nào khi chy, thay vào đ tín hiu ting ni đưc to ra bởi một mô hình tuyn âm Mô hnh này mô phỏng hin tưng cộng hưởng ca cc cơ quan pht âm bng một tp hp cc bộ lc Cc bộ lc này đưc gi là cc bộ lc cộng hưởng formant, chng c th đưc kt hp song son hoc ni tip vi nhau hoc kt hp g c hai
Tổng hp ni tip là bộ tổng hp formant c cc tng ni tip, đu ra ca bộ cộng hưởng này là đu vào ca bộ cộng hưởng kia, cu trc cơ bn bộ tổng hp ni tip đưc biu din trên hnh 2
Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13]
Trang 15Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13]
Tổng hp song song (trên hnh 3) bao gm cc bộ cộng hưởng mc song song Đu
ra là kt hp ca tín hiu ngun và tt c cc formant Cu trc song song cn nhiu thông tin đ điu khin hơn cu trc ni tip
H thng tổng hp ting ni da trên phương php tổng hp tn s formant c nhng ưu đim, nhưc đim c th k đn như: Nhưc đim ca h thng này là to
ra ging ni không t nhiên, nghe cm gic rt phân bit vi ging ngưi tht và phụ thuộc nhiu vào cht lưng ca qu trnh phân tích ting ni ca tng ngôn ng, Tuy nhiên độ t nhiên cao không phi lc nào cng là mục đích ca h thng
và h thng này cng c cc ưu đim riêng ca n, h thng này kh d nghe, không c ting c st do ghép âm to ra, cc h thng này cng nhỏ gn v không cha ơ sở d liu mu âm thanh ln c
1.2.3 Tổng hợp ghép nối
Tổng hơp ghép ni là phương php tổng hp ting ni bng cch ghép vào nhau các đon tín hiu ting ni ca một ging ni đ đưc ghi âm Cc âm tit sau khi đưc to thành s đưc tip tục ghép li v nhau to thành đon ting ni Đơn v âm i phổ bin là âm v, âm tit, bn âm tit, âm đôi, âm ba, t, cụm t Do đc tính t nhiên ca ting ni đưc lưu gi trong c đơn v âm, nên tổng hp ghép ni là c phương php c kh năng tổng hp ting ni vi mc độ d hiu và t nhiên, cht lưng cao Tuy nhiên, ging ni t nhiên đưc ghi âm c s thay đổi t ln phát âm này sang ln pht âm khc, và công ngh t động ha vic ghép ni cc đon ca sng âm thnh thong to ra nhng ting c xt không t nhiên ở phn ghép ni Có
ba kiu tổng hp ghép ni:
- Tổng hp chn đơn v (unit selection)
- Tổng hp âm kép (diphone)
- Tổng hp chuyên bit (Domain-specific)
Tổng hp chn đơn v dng một cơ sở d liu ln cc ging ni ghi âm Trong đ, mi câu đưc tách thành cc đơn v khc nhau như: cc ting đơn lẻ, âm tit, t, nhm t hoc câu văn Một bng tra cc đơn v đưc lp ra da trên cc phn đ
Trang 16tách và cc thông s âm hc như tn s cơ bn, thi lưng, v trí ca âm tit và cc ting gn n Khi chy cc câu ni đưc to ra bng cch xc đnh chui đơn v ph hp nht t cơ sở d liu Qu trnh này đưc gi là chn đơn v và thưng cn dng đn cây quyt đnh đưc thc hin Thc t, cc h thng chn đơn v c th to ra đưc ging ni rt ging vi ngưi tht, tuy nhiên đ đt độ t nhiên cao thưng cn một cơ sở d liu ln cha cc đơn v đ la chn
Tổng hp âm kép là dng một cơ sở d liu cha tt c cc âm kép trong ngôn ng đang xét S lưng âm kép phụ thuộc vào đc tính ghép âm hc ca ngôn ng Trong tổng hp âm kép ch c một mu ca âm kép đưc cha trong cơ sở d liu, khi chy th li văn đưc chng lên cc đơn v này bng k thut x l tín hiu s nh m tuyên đon tuyn tính hay PSOLA [14] Cht lưng âm thanh tổng hp theo cch này thưng không cao bng phương php chn đơn v nhưng t nhiên hơn cộng hưởng tn s và ưu đim ca n là c kích thưc d liu nhỏ
Tổng hp chuyên bit (Domain-specific) là phương php ghép ni t cc đon văn bn đ đưc ghi âm đ to ra li ni Phương php này thưng đưc dng cho cc
ng dụng c văn bn chuyên bit, cho một chuyên nghành, s dụng t vng hn ch như cc thông bo chuyn bay hay d bo thi tit Công ngh này rt đơn gin và đ đưc thương mi ha t lâu Mc độ t nhiên ca h thng này c th rt cao v s lưng cc câu ni không nhiu và khp vi li văn, âm điu ca ging ni ghi
âm Tuy nhiên h thng kiu này b hn ch bởi cơ sở d liu chuyên bit không p dụng đưc cho min d liu mở
Trang 17H nh 4 mô t c ch p d ng ụ mô h nh markov n trong t ng h p ti ng n i, trong ổ đ
m i mô h nh markov n đưc s d ụng đ mô h nh h a m t âm v , v c ộ à c mô h nh markov n đưc mc n i nhau đi v mô h nh h a chu i âm v Mô h nh markov n
l m t mô h nh h c m y d a trên th ng kê, do h à ộ đ thng t ng h p ti ng n i d a ổ trên mô h nh markov n ho t động bao g m hai qu nh l qu nh hu n luy n v tr à tr à
qu nh t ng h p H nh 5 mô t tr ổ qu tr nh t ng h p v hu n luy n m t h ổ à ộ thng
t ng h p ti ng nổ i da trên mô h nh markov n
Qu tr nh t ng h p d a trên mô h nh markov n s l qu tr nh ổ à mà nhn đu v o l à à
một đon văn bn, chuy n h a đon văn b n n y th nh chu i âm và à , sau đ da vào
cc mô h nh markov n mô h nh h a chu i c c âm v tương ng ta s t m ra đưc
c tham s mel v t n s c à cơ bn f0 T c tham s mel xây d ng nên chu i c b c c ộ
l c MLSA (Mel Log Spectral Approximation) v k t h p v i t n hi u kà í ích thích đư c t o t f0 s t o ra đư íc t n hi u ti ng n i[16], [17]
Qu tr nh hu n luy n d a trên mô h nh markov n bao g m c c bưc: Tr ch ch n í đ trưng c ti ng n i v hu n luy n mô h nh d a trên c c v à éc tơ đ trưng ích đưc tr c
Cc đc trưng ting ni đưc trích trong qu nh hu n luy n l c c v tr à éc tơ như véc
tơ h s mel v và éc tơ mô t Nhưng đn đây vi f0 c mô h nh h a như vy s l i n y sinh m t vộ n đ đ à l t n s cơ b n f0 ch i ở t n t âm h u thanh c n c c âm vô thanh li là nhi u Do đ đ , gi i quy vt n đ ày ngưi ta đ ụ n s d ng m t mô h nh ộ
m rở ộng hơn, đ à l Multi-Space Probability Distribution Hidden Markov Model[16] Mô h nh n ày thưng bao g m m t không gian v : ộ éc tơ đư c s d ụng đ
mô h nh h a v c mel v hai không gian v é tơ à éc tơ đ mô h nh h a t n s cơ bn f0
M i không gian v éc tơ trong mô h nh th đưc đc trưng bởi m t phân b x c xu tộ ,
m i quan s t c a m t tr ng th i l ộ i đưc mô t như sau: o=(X,x) trong đ X l tà p
c c không gian v éc tơ , c n x l và éc tơ đc trưng M c tiêu c a qu nh hu n luyụ tr n
l t d à liu đu v o c i thi n c c tham s c a mô h nh markov n m mô h nh hà à a cho m i âm v
Cc đc trưng ngôn ng c a văn bn đưc mô t b ng c ch s d ng m t b phân ụ ộ ộ
c m ụ (thưng l cây quyà t đ ) đnh gom c c c m tr ng th i c a mô h nh markov ụ n
c đc ít nh ngôn ng g n nhau nh t v b u ch n ra m t tr ng th i tiêu bi à ộ u đ thay th cho c c tr ng th i c n l i trong c m ụ
H thng t ng h p ti ng n i d a trên mô h nh markov n l m t h ổ à ộ thng c kh năng to ti ng n i mang phong c ch n i kh c nhau v , i đ trưng c c a nhiu ngưi
n i kh c nhau, th m ch l mang c m x c c í à a ngư Ưu đii n i m ca phương php
n y l c n t b nh à à í ộ lưu tr à à v t i nguyên h thng hơn so v i t ng h p gh p n i, v ổ é à
c th điu ch nh tham s đ thay đổi ng điu Tuy nhiên, m t s ộ nhưc đim ca
h thng n y l t nhiên trong ti ng n i t ng h p c a h à đ à độ ổ thng b suy gi m hơn so v ổi t ng h p gh p n i ph é , ổ í t n hi u v t n s à cơ n đưc ưc lưb ng t c c
gi trung b nh c a c c mô h nh markov tr n đưc hu n luy n t d u kh c nhau, li điu n y khi n cho ti ng n i t ng h p nghe c v à ổ ẻ đu đu m n v à đôi khi tr th nh ở à
b ngh t m i “ ”
Trang 18Hình 5: Qu tr nh hu n luy n v t ng h p m t h à ổ ộ thng t ng h p ti ng nổ i da trên
mô h nh markov n
Trang 191.2.5 Tổng hợp tiếng nói bằng phương pháp lai ghép
T ng h p lai gh p l ổ é à phương ph ổp t ng h p b ng c ch lai égh p gi a t ng h p gh ổ ép
n i ch n đơn v à ổ v t ng h p d a trên mô h nh markov n, nh m t n d ng ụ ưu đim
c a m i phương php v p d ng n trong h à ụ th Như đ ni, h thng tổng hp nglai ghép kt hp ưu nhưc đim ca tng h thng thành phn, tùy theo thành phn nào đng vai tr ch đo mà c th phân loi cc h thng tổng hp lai ghép thành hai loi sau: Tổng hp hưng ghép ni và tổng hp hưng HMM
H thng tổng hp hưng ghép ni s dụng cc HMM đ h tr qu trnh ghép ni,
tưởng chính ca phương php này như sau:
- Đơn v d ng l a ch n trong t ng h p gh p n i ch n đ “ ổ é đơn v” c ng s l àđơn v đư ổc t ng h p ra
- Đưng biên gia c đơn v đư àm c s c l m n b ng c c mô h nh markov n
- Âm thanh sau cng đưc làm m n b ng phương ph àp l m m n ph ổ
Khc vi h thng tổng hp hưng ghép ni, h thng tổng hp hưng HMM s dụng cc thut ton sinh tham s t cc HMM và phn tổng hp ghép ni đưc s dụng đ tăng cưng cht lưng chui tham s này
Hai hưng tổng hp lai ghép nêu trên đu c ưu nhưc đim khc nhau, và đưc s dụng ty vào yêu cu cht lưng ting ni hay yêu cu cụ th v h thng Ưu đim
cơ bn ca h thng lai ghép hưng ghép ni đ là gim tc động không mong mun do d liu không đ và gim s phụ thuộc vào d liu, hay cng chính là ci thin cc nhưc đim ca tổng hp ghép ni Mc d đ gii quyt cơ bn nhng vn đ v ghép ni nhưng vn đ trở ngi ti nhng đim ghép ni vn cn tn ti
1.2.6 Tổng hợp tiếng nói da trên phương pháp học sâu (DNN)
Tổng hp ting ni da trên phương php hc sâu đ bt đu pht trin mnh m trong vài năm trở li đây, phương php này đưc xây dng da trên vic mô hnh ha mô hnh âm hc bng một mng nơ ron hc sâu DNN Trong đ Văn bn đu vào s đưc chuyn ha thành một véc tơ đc trưng ngôn ng, cc véc tơ đc trưng này mang cc thông tin v âm v, ng cnh xung quanh âm v, thanh điu,… Sau đ
mô hnh âm hc da trên DNN ly đu vào là véc tơ đc trưng ngôn ng và to ra cc đc trưng âm hc tương ng ở đu ra T cc đc trưng âm hc này s to thành tín hiu ting ni nh một bộ tổng hp tín hiu ting ni (thưng là vocoder )
Kin trc tổng quan ca một h thng tổng hp ting ni da trên mng nơ ron hc sâu DNN đưc mô t trong hình 6 Trong đ, văn bn cn đưc tổng hp s đi qua
bộ phân tích văn bn (Text analysis) đ trích chn cc đc trưng ngôn ng hc và đưc chuyn ha thành cc véc tơ nh phân bởi bộ Input feature extraction, các véc
tơ nh phân đu vào { }t
Trang 20Hình 6: Tổng hp ting ni da trên DNN[18]
Mng nơ ron hc sâu DNN da trên cc lp nơ ron nhân to, c kh năng mô hnh ha nhng mi quan h phi tuyn phc tp gia đu vào và đu ra Đc bit trong trưng hp s dụng DNN c th mô hnh ha một cch mnh m mi quan h phi tuyn, phc tp gia cc đc trưng ngôn ng hc ca văn bn và đc trưng âm hc ca tín hiu ting ni, tuy nhiên vic s dụng DNN cng c nhng hn ch đ là v s mnh m ca n nên n rt nhy cm vi cc thông tin sai lch và không tt như nhiu, và n cng cn rt nhiu d liu đ hun luyn mô hnh Nh s mnh mtrong mô hnh ha mô hnh âm hc, DNN đ đưc p dụng trong nhiu ng dụng tổng hp ting ni trên th gii như cc sn phm ca Google, Baidu Microsoft hay , trong h thng Merlin ca CSTR đ đt đưc độ t nhiên rt cao
2 mix 3.537 ± 0.113 3.397 ± 0.115
5x1024 6x1024 7x1024
3.635 ± 0.127 3.681 ± 0.109 3.652 ± 0.108 3.637 ± 0.129 Bng : Đnh gi so snh HMM và DNN1
Kt qu đnh giá so snh h thng tổng hp ting ni da trên HMM so vi DNN ca Google[19] đưc th hin trong bng 1 Đnh gi này s dụng phương php
Trang 21trung bnh đim kin MOS trên thang đim 5, vi 173 câu kim tra chia theo 5 ch đ, mi ch đ khong 30 câu T kt qu này cho thy tổng hp ting ni da trên DNN c cht lưng tt hơn HMM
1.3 T nh h nh ph t tri n v c c v á á n đề ớ v i t ng h p ti ng n i ti ng Vi t ổ ợ ế ó ế ệ
Vit nam đang trong thi kỳ pht trin nhanh chng ca công ngh thông tin Điu đ cho phép chng ta c nhng nn tng khoa hc k thut và nn tng cơ sở vt cht đ c th nghiên cu cng như trin khai cc ng dụng v khoa hc công ngh trong cuộc sng Trong nhiu năm trở li đây, tổng hp ting Vit đ c nhng thành tu đng k, cc h thng tổng hp ting ni ting vit đưc ra đi như VietVoice3, VnSpeech4, Vais5, H thng tổng hp ting ni ca tp đoàn FPT hay h thng tổng hp ting ni Hoa súng Trong đ cc h thng tổng hp ting ni ting Vit đưc xây dng da theo hai hưng phổ bin là tổng hp ghép ni và tổng hp s dụng tham s thng kê
Đi vi phương php tổng hp ting ni ghép ni: Dành cho ting Vit th đ c rt nhiu h thng đưc pht trin, c th k đn như h thng Hoa Sng[20], đưc pht trin ln đu vào năm 2007, d liu đ xây dng h thng này đưc gi là VNSpeechCorpus, n đưc thu thp và lc t nhiu ngun khc nhau như truyn, sch,… D liu này bao gm nhiu loi khc nhau như: cc t vi đy đ su thanh điu, cc s câu thoi, đon văn ngn,… Đn năm 2011 h thng đưc mở , rộng[21], s dụng k thut la chn âm v không đng nht Phiên bn này cng s dụng cng bộ d liu ở phiên bn trưc, nhưng đưc đnh ch thích ở mc độ âm tit vi nhng thông tin cn thit như cc thành phn âm v, thanh điu, thi gian, năng lưng, và nhng đc trưng ng cnh khc Kt qu ban đu cho thy phiên bn th hai ca h thng hoa sng c s ci thin v mt cht lưng, tuy nhiên d liu kim th không đưc thit k đ bao trm toàn bộ đơn v âm, thêm na không c s kt ni gia qu trnh chn đơn v âm và qu trnh chn đơn v như một bán âm tittrong vic tính ton chi phí mục tiêu và chi phí ghép ni Kt qu là tổng chi phí không đưc ti ưu ha cho nhng câu cn bn âm tit
Đi vi phương php tổng hp ting ni s dụng tham s thng kê, hay là tổng hp ting ni da trên mô hnh Markov n (HMM) Ở Vit Nam cng đ c nhiu h thng tổng hp ting ni pht trin da trên phương php này, c th k đn như sn phm Vais, sn phm ca tp đoàn FPT6 hay h thng tổng hp ting ni ting Vit Mica TTS7 (Vin Mica Đi hc Bch Khoa Hà Nội) D liu s dụng cho h thng này bao gm 3000 câu giàu ng âm và đưc gn nhn bn t động mc âm v Bo co kt qu ca h thng này cho thy độ hiu đt gn mc 100% và cht lưng tổng hp đt đim 3.23 trên 5 thông qua một đnh gi sơ bộ
Như đ nêu ở trên, hin ti ở Vit Nam mi ch pht trin cc h thng tổng hp ting ni da trên nhng phương php đ c như tổng hp ghép ni hay tổng hp s
Trang 22dụng tham s thng kê Trong khi đ trên th gii đ c nhng phương php mi cho tổng hp ting ni đưc pht trin và đt đưc kt qu cao, đin hnh là tổng hp da trên mng nơ ron hc sâu DNN, ví dụ như h thng tổng hp ting ni ca CSTR[22] hay các sn phm ca Google, Baidu,… Do đ l do đ la chn mô hnh mng nơ ron hc sâu (DNN) trong vic xây dng h thng tổng hp ting ni ting Vit là đ:
- Th nghim k thut mi, hin đi và phổ bin trên th gii hin nay nhm
so snh vi cc công ngh tổng hp ting ni ting Vit hin c
- Tm hiu cc vn đ c th xy ra khi s dụng DNN cho tổng hp ting Vit
và đưa ra nhng cch khc phục
Trang 23CHƯƠNG 2: PHƯƠNG PHÁ P H C SÂU P D NG TRONG T NG Ọ Á Ụ Ổ
H P TI NG N I Ợ Ế Ó
2.1 Kỹ thuật học sâu s dụng mạng nơ ron nhân tạo
Hc sâu là một nhnh ca lĩnh vc hc my, da trên một tp hp cc thut ton nhm c gng mô hnh ha d liu tru tưng ở mc cao nht bng cch s dụng nhiu lp x l vi cu trc phc tp, hoc bao gm nhiu bin đổi phi tuyn[23] Chương này s ch yu trnh by v hưng tip cn “k thut hc sâu s dụng mng
nơ ron nhân to” hay chính là tm hiu v “mng nơ ron hc sâu”, v n là phương php đưc p dụng cho vic xây dng h thng tổng hp ting ni ting vit ca đ tài
Trưc khi đi vào mng nơ ron hc sâu, ta s xem xét sơ lưc v mng nơ ron nhân to Mng nơ ron nhân to là một mô hnh ton hc đưc xây dng da trên tưởng ca cc mng nơ ron sinh hc trong bộ no ca con ngưi N gm một nhm các
nơ ron nhân to (nt) ni vi nhau, và x l thông tin bng cch truyn theo cc kt ni, sau đ tính gi tr mi ti cc nt Đ hiu rõ hơn chng ta s xem xét tm hiu v hai loi nơ ron nhân to cơ bn là perceptron, sigmoid và kin trc mng nơ ron
cơ bn
2.1.1 Nhng mạng nơ ron cơ bản
2.1.1.1 Perceptron Perceptron bt đu đưc pht trin vào nhng năm 1950 và 1960 bởi Frank Rosenblatt, ngày nay n phổ bin trong nhiu mô hnh mng nơ ron khc nhau và nhiu công trnh hin đi v mng nơ ron[24]
Perceptron nhn một s đu vào nh phân: x1, x2,… to ra một đu ra nh phân duy nht:
Hình 7: Một perceptron vi ba đu vào[24]
Trong hình 7 th hin một perceptron vi ba đu và x1,x2,x3 và một đu ra o output (trong thc t c th c s lưng đu vào khc) Rosenblatt đ xut một quy tc đơn gin đ tính ton đu ra, ông y gii thiu cc trng s w1,w2,… th hin tm quan trng ca cc yu t đu vào vi đu ra tương ng Đu ra ca nơ ron, 0 hoc 1, đưc xc đnh bng cch xem xét tổng iwi i x nhỏ hơn hoc ln hơn một ngưng nht đnh Cng như cc trng s, ngưng là s thc và là tham s ca nơ ron Khi đ đu ra đưc tính như sau:
Trang 240 1
j j j
j j j
if w x threshold output
Hình 8: Mng nơ ron gm nhiu perceptron[24]
Trong mng nơ ron hnh , lp đu tiên gm ba perceptron đưa ra quyt đnh t 8 ba đu vào, lp th hai gm bn perceptron đưa ra quyt đnh t đu vào là đu ra ca lp đu tiên, mi perceptron ca lp này cng c ba đu vào Lp perceptron th hai c th đưa ra quyt đnh phc tp và tru tưng hơn lp đu tiên Và thm chí quyt đnh phc tp hơn c th đưc thc hin bởi các perceptron trong lp th ba, th tư Bng cch này, một mng lưi nhiu lp ca perceptron c th tham gia vào vic ra quyt đnh phc tp
Perceptron và mng perceptron cho thy rng s điu chnh hay s hc c th xy rakhi phn ng vi cc kích thích mà không cn s can thip trc tip ca một lp trình viên Cc thut ton hc cho phép chng ta s dụng mng nơ ron nhân to theo các hoàn toàn khc vi cc cổng logic thông thưng Mng nơ ron c th hc và gii quyt vn đ một cch đơn gin trong khi vn đ đ li vô cng kh khăn đi vi mng thông thưng
2.1.1.2 Nơ ron Sigmoid
Vi Perceptron, một cht thay đổi trng s ca bt kỳ perceptron trong một mng cng c th dn đn kt qu hoàn toàn thay đổi Tuy nhiên, trong thc t đôi khi ch cn một thay đổi nhỏ ở trng s đ cho ra kt qu tt hơn, do đ đ khc phục vn đ ca perceptron ta s dụng nơ ron nhân to đưc gi là sigmoid Cng ging như perceptron, cc nơ-ron sigmoid c đu vào, x1, x2, Nhưng thay v đu vào ch c
0 hoc 1 th n c th là bt c gi tr nào trong khong 0 1 Ví dụ, 0,638 là một đu vào c gi tr trong một nơ-ron sigmoid Cc nơ ron sigmoid cng c trng s -cho mi đu vào là w1, w2 …và đnh hưng (bias) b Thêm na, đu ra cng không phi là hoc Thay vào đ, đu ra là σ0 1 (w x + b), trong ⋅ đ σ đưc gi là hàm sigmoid và đưc xc đnh bng:
1( )
Trang 25Một nơ ron sigmoid vi đu vào x1, x2,… trng s w1, w2,… khi đ bias b là:
Ngoài hàm sigmoid trong nơ ron sigmoid cn nhiu hàm kích hot khc trong cc
nơ ron nhân to như hàm tanh (công thc 2.1.2.3) và hàm Relu (công thc 2.1.2.4) Đ th hàm relu và tanh đưc biu din trên hnh 10
tanh( ) 2 (2 ) 1x = x − (2.1.2.3)
f x =ma x (2.1.2.4)
Hình 10: Hàm kích hot tanh và relu8
2.1.2 Mạng nơ ron học sâu
Trưc khi xem xét th nào là mng nơ ron hc sâu, ta xem xét qua một mng nơ ron
cơ bn như trên hnh 11
8 https://ujjwalkarn.me/2016/08/09/quick-intro-neural-networks/
Trang 26Hình 11: Mng nơ ron một lp n [24]
Đây là mng nơ ron vi duy nht một lp n, lp ngoài cùng bên tri gi là lp đu vào và cc nơ ron trong lp này đưc gi là nơ ron đu vào, đây cng chính là nơi nhn đu vào ca mng nơ ron Lp ngoài cng bên phi là lp đu ra (output), lp này tr v gi tr đu ra tương ng vi nhng đu vào đưc nhn t lp đu vào Lp ở gia đưc gi là lp n, lp này không nhn đu vào cng như đu ra, mng trên c duy nht một lp n nhưng cc mng khc c th c nhiu lp n Hnh 12
là một mng nơ ron vi hai lp n:
Hình 12: Mng nơ ron hai lp n[24]
Trong khi vic thit lp đu vào và đu ra ca một mng nơ ron thưng đơn gin th vic to ra cc lp n tn nhiu công sc, vi mi mô hnh mng khc nhau và cc kin trc vi nhng lp n khc nhau đưc to ra đ đp ng nhng yêu cu ph hp Do đ vic thit k cc lp n là cc kỳ quan trng đ to đưc nhng đu ra theo hưng mong mun Các nơ ron trong mng cng rt đa dng c th là perceptron, c th là sigmoid hoc cng c th là nhiu loi nơ ron khc như tanh, relu,… ty theo yêu cu bài ton mà hnh thành cc lp n vi kin trc khc nhau
và nơ ron khác nhau
Trang 27Một mng nơ ron nhiu lp n, hay c s lp n ln hơn hai dưc gi là mng nơ ron hc sâu DNN (deep neural network) Vi nhng mng nơ ron hc sâu, chng c
ưu đim là c th đưc s dụng đ xây dng một h thng cc khi nim phc tp[24]
2.2 T ng h p ti ng n i d ổ ợ ế ó a trên phương phá p h c sâu ọ
Mô h nh âm h c d a trên mô h nh markov n (HMM) v mô h nh GMM l hai lo à à i
ph bi n nhổ t đư ục s d ng trong qu tr nh t o t n hi u ti ng n t í i chu đu i k t
v o à (thưng l à chui âm v ) thông qua vi t o tr c ti p c c c đc trưng âm hc ca ting n i[25] Tuy nhiên nh ng mô h nh ki u n y c nh ng gi i h n tr ng vi bi à c u
di n m i quan h ph c t p v phi tuy à n gi a chu i k t u v o v c đ à à c đc trưng
âm h c[25] Trong hưng ti p c n n y, m ng à nơ ron hc sâu (DNN) s đưc s
d ng mô h nh h a m i quan h gi a chu i k t u v o v cụ đ đ à à c đc trưng âm
hc ở đ u ra, vic ụs d ng DNN c th gi i quy t m t s gi i h n c a nh ộ ng phương php thông thưng (như HMM ho c GMM)[18] H nh 13 mô t m t ki n ộ
trc cơ bn c a m t h ộ th ng t ng h p ti ng n d a ổ i trên phương php h c sâu
Hình 13: Ki n trc cơ bn c a h th ng t ng h p ti ng n i ổ
D a trên ki n tr c c a h thng t ng h p ti ng n i trên h nh 13, c ổ th th y r ng một h thng tổng hp ting ni gm ba mô đun chính và đây cng là ba mô đun trong tổng hp ting ni da trên công ngh hc sâu:
- Mô đun í tr ch chn đc trưng ngôn ng: văn n đb u vào đưc x l , phân
t ch v ch ch n b i b Linguistic Features Extraction ra th nh cí à trí ở ộ à c vec tơ đc trưng ngôn ng h c, c c v ec tơ này thưng bao g m c c thông tin v chui âm v , v tr í tương đ i c a âm v trong câu, c m t hay t , s lư ng âm ụ
v trong câu, trong cụm t hay trong t , …
- B Parameter Generation c nhi m v chuyộ ụ n h a c c đc trưng ngôn ng ởđu v o th nh th nh c c à à à đc trưng âm hc tương ng, trong trưng hp h thng tổng hp ting ni đưc xây dng da trên phương php hc sâu, th
b n y s d ng mộ à ụ ng nơ ron hc sâu DNN đ mô h nh h a cc mô h nh
- Mô đun to tín hiu ting ni: Cc đc trưng âm h đưc s c chuy n h a thành t n hi u ti ng n i nh b Waveform Generation í ộ
Chi ti ng mô đun trong ht t nh 10 s đưc tr nh b y l n lư ở c chương saut c , trong đ vocoder s l m nhi m v t o t n hi u ti ng n i, hay à ụ í đ ch nh l b í à ộWaveform Generation Cn mô hnh âm hc chính là phn lõi chính cho mô đunParameter Generation
2.3 Trí ch ch ọ n c c c á đ trưng ngôn ng
Đc trưng ngôn ng h c c a văn bn đưc s d ng l ụ àm đu v o cho mô h nh âm à
h c bao g m c c thông tin như: âm v hi n t i v c a âm v trong câu, c m t , v , trí ụ trí t trong câu, s lư ng âm v trong t hay thanh điu hi n t i l g , C c thông à …
Trang 28tin n y c ng à đưc phân theo c c m c M c âm v , m c âm t, m c t , m c c : ti ụm
t , m c câu[26] Đ ch chtrí n đưc cc đc trưng ngôn ng h c nên trên, văn n bđu v o s à đưc x l thông qua m t quy tr ộ nh như sau:
- Văn n đb u v o s à đưc chuy n th nh m t chu i âm v nh v o m t t à ộ à ộ đin phiên âm tương ng v i ngôn ng đang tổng h p
- Văn n đb u v o s à đưc cho qua m t h ộ thng x l ngôn ng t nhiên đ
trích ch n c c thông tin v ngôn ng , h th ng x l ngôn ng t nhiên n y àđưc xây d ng trên cơ ởs ba mô h nh: Mô h nh t ch t ( word segmentation) đ t ch văn b n th nh chu i c c t , mô h nh g n nh n t lo i (part of speech à tag) đ g n nh n c c t àth nh t i tương lo ng v mô h nh phân t ch c m t à ụ (text chunking) đ ch văn t b n th nh c c c m t v k m theo thông tin v v à ụ à trí c a c c t trong c m[27] ụ
- T chui âm v đưc chuy n h a v c k t qu c a vi c t ch t , g n nh n t à c
lo i, t ch c m t ta ụ ti n h nh t nh to n c c à í thông tin đc trưng ngôn ng c a văn bn
Đu ra đc trưng ngôn ng ca qu trnh này bao gm nhng thông tin như sau:
- Thông tin mc âm v: thông tin mc âm v bao gm c cc âm v hin ti, phía trưc, phía sau, thông tin v v trí cc âm v trên trong âm tit, t, cụm t,…
- Thông tin mc âm tit: gm c thông tin v thanh điu và s lưng âm v ca cc âm tit hin ti, phía trưc, phía sau V trí ca âm tit trong t,…
- Thông tin mc t: bao gm cc thông tin v nhn t loi, s lưng âm tit ca t hin ti, phía trưc, phía sau,…
- Thông tin mc cụm t: S lưng cc t, âm tit trong cụm hin ti, phía trưc, phía sau
- Thông tin mc câu: bao gm cc thông tin v s lưng t, s lưng âm tit, s lưng cụm t trong câu
Hình 14: Biu din đc trưng ngôn ng h c ca văn bn[28]
Trang 29K t qu u ra c a qu nh ch ch n c đ tr trí c đc trưng âm hc đưc th hi n trong
h nh 14, trong đ văn bn đu vào đưc phân t ch th nh m t chu i âm v , m i âm v í à ộ tương ng b i m t d ng c ch a c c thông ở ộ tin đc trưng ngôn ng ở phía dưi Chi ti ột n i dung c a t ng d ng đưc mô t trong ph l c A, v ụ ụ à đưc bi u di n trên
h nh 15 Ở đây cn lưu ộ m t ch t, c s kh c bi t v c u tr c cho m i d ng trong
ph l c A v h nh 15, ụ ụ à ở điu n y x y ra l v c u tr c m i d ng ph là à ở ụ ục A đc trưng cho ti ng vi t c n h nh 15 l ở à đc trưng cho ti ng Anh, do v i m i ngôn đ
ng kh c nhau th c u tr c m i d ng tương ng m i âm v c ng kh c nhau Nhưng đim chung c a ch ng l u th hi n c c à đ thông tin như: í V tr c a âm v trong âm
ti t, c u tr c c a âm ti t phía trưc, c u tr c âm tit ph a sau, v í í tr c a âm t trong ti
t , v c a âm t trong c m t , vân vân trí ti ụ … à đ V c ng ch nh l c c í à thông tin đc trưng ngôn ng m ta c n à
Hình 15: Thông tin đc trưng ngôn ng liên quan đ n t ng âm v [28]
M c d ho n th nh tr ch ch đ à à í n đc trưng ngôn ng nhưng nh, ng thông tin trích
chn đưc v n l à chưa đcho hun luy n c c mô h nh ti p theo (mô h nh âm h c v à
mô h nh th i gian) c a h thng t ng h p ti ng nổ i ộM t thông tin c c k quan ỳ
trng v c n thi t n a cà n đưc thêm v oà , đ à l th i gian xu t hi n c a m i âm v trong câu n i Đ y đư l c thông tin v thi gian tương ng m i âm v , ta s d ng ụ
mô h nh markov n, qu nh n tr ày đưc g l force alignment[4], [27] K t qu c a i à
qu nh forced alignment s cho ra kho ng th i gian xu t hi n c a m i tr ng th tr i trong m i âm v H nh 16 minh h a th i gian cho t ng tr ng th i trong m i âm v (thông thưng s d ng 5 tr ng th i theo mô h nh markov n ụ )
Hình 16: Thi gian xut hin m i tr ng thi ca tng âm v
Trang 302.4 Mô h nh âm h c d a trên m ọ ạng nơ ron họ c sâu
Trong tổng hp ting ni da trên phương php hc sâu, mô hnh âm hc đưc mô hnh ha bng một mn nơ ron hc sâu như hnhg 17, trong đ đu vào ca mng này là một véc tơ đc trưng ngôn ng hc và đu ra là cc đc trưng âm hc hay chính là cc tham s ca vocoder (s trnh bày chi tit v vocoder ở phn sau) và đưc s dụng làm đu vào cho vocoder trong qu trnh tổng hp ting ni
Hình 17 M: ng nơ ron feat forward
Như đ ni ở trên, đu vào ca mng nơ ron là một véc tơ đc trưng ngôn ng hc, véc tơ này đưc chuyn ha t cc đc trưng ngôn ng hc mà ta trích chn đưctrong phn 2.3 C nhiu cch khc nhau đ chuyn ha cc thông tin đc trưng ngôn ng hc thành một véc tơ đu vào cho một mng nơ ron hc sâu, một trong s đ là s dụng một tp cc câu hỏi C c câu h i n ỏ ày đưc dng đ khai ph c c thông tin m cà c đ trưng ngôn ng đem l , ộc i n i dung c a c c câu h i c ỏ th à: “ l
âm v hi n t i l g à ”, “âm v ph ía trư à ”, “c l g âm v ph a sau l g í à ”, “ c bao nhiêu
âm v trong t ”, “ c bao nhiêu âm v trong câu ”,… Bng cch tr li cc câu hỏi này, ta tm đưc véc tơ nh phân biu din cc đc trưng ngôn ng hc Chi tit c ch
p d ng câu hụ ỏi đ chuy n h a c c thông tin đc trưng ngôn ng th nh v à éc tơ nhphân đưc th hin trong hnh 18 và theo một quy trnh như sau:
- Đưa t ng d ng ch a c c thông tin đc trưng ngôn ng tương ng v i t ng
âm v , v o tr l i chu i c à c câu hỏi
- V i m i câu tr i đ l ng th đưc gi l v l i tr à 1 à tr sai tr à 0 (như gi l trên h nh ng v i câu h i âm v hi n t i l l ỏ à “ ” th đng âm v hi n t i trong
d ng c ng l l nên k à “ ” t qu nh n đưc là 1)
- Tr l i h t chu i c c câu hỏi ta đưc m t vộ éc tơ nh phân làm đu v o cho à
mng nơ ron
Trang 31Hình 18: Chuy n h a véc tơ đc trưng thành cc véc tơ nh phân
Đu ra ca mng nơ ron là cc véc tơ đc trưng âm hc cha cc tham s vocoder, cc véc tơ này chính là đu vào cho vocoder đ tổng hp ting ni Các véc tơ đc trưng âm hc bao gm cc thông tin như: tn s cơ bn F0, đưng bao phổ ca tín hiu ting ni, thông tin v cc thành phn không tu n hoàn Ở pha hun luyn mô hnh âm hc, th cc véc tơ đc trưng âm hc này ca d liu hun luyn đưc trích chn trong qu trnh phân tích đc trưng âm hc ca vocoder
Trong vic mô hnh ha mô hnh âm hc th mng nơ ron feat forward là mng đưc s dụng phổ bin, h nh 19 minh a cho m t mh ộ ng nơ ron feat forward (m ng DNN) p d ng trong t ng h p ti ng n i Trong m ụ ổ đ ng nơ ron ly c c v éc tơ nhphân mang thông tin đc trưng ngôn ng l àm đu v o v u ra ch nh l tham s à à đ í à vocoder n i trên
Hình 19 M: ng nơ ron hc sâu p d ng trong t ng h p ti ng n i[4] ụ ổ
Trang 32M ng nơ ron feat forward à ộl m t mng đơn gin, v i đ c l p th n cc n đưc gi
l mà ng nơ ron hc sâu V c é tơ đu v o s à đư ụng đ đoc s d d n k t qu u ra đthông qua cc l p c a c c đơn v n m, i đơn v thc hi n m t h m không tuy ộ à n
Vocoder là ộ m t h th ng phân t ch v t ng h p t n hi u ti ng n i cí à ổ í a con ngưi Trong t ng h p ti ng n i d a trên mổ ng nơ ron hc sâu, vocoder đưc s d ng ụtrong hai qu nh hu n luy n v t ng h p ti ng n i Trong qu nh hu n luy n, tr à ổ tr vocoder đưc s d ng phân t ch d li u âm thanh th nh c c ụ đ í à đc trưng âm hc,
cc đc trưng nà đưy c s d ụng đ hu n luy n m ng nơ ron hc sâu Trong qu trnh t ng h p, c c đ trưng âm h ổ c c c a ti ng n i đư c t o ra b i mở ng nơ ron hc sâu s à đ l u vào cho vocoder đ t o th nh t n hi u ti ng n i à í
C r t nhi u loi vocoder khc nhau đưc ph t tri n đ c i thi n ch t lưng phân
t ch v t ng h p ti ng ní à ổ i như Straight vocoder[29], World vocoder[30], Magphase vocoder[31],…Trong ph n n y s à ch tr nh b y v m t vocoder vô c ng m nh mà ộ , đưc ph t tri n đ c i thi n ch t lưng âm thanh trong nh ng ng d ng th i gian ụ thc v cà ng đư ụng đc s d xây d ng h thng t ng h p ti ng n i ổ trong lun văn
n yà , đ à l WORLD vocoder
Như đ ở n i trên, WORLD vocoder đưc s d ng tr ch ch n c ụ đ í c đc trưng âm
h c v t ng h p ti ng n i t nh à ổ ng đc trưng này Cc đc trưng âm hc m àWORLD vocoder tr ch chí n đưc bao gm: Đưng bao ph c a t n hi u, Cổ í c thành
ph n không tu n ho n ( à Aperiodicities , à cơ b) v t n s n F0 Trong t n s đ cơ bn F0 đưc ưc lưng b i ở phương php DIO[32], đưng bao ph ổ đưc ưc lưng bởi phương php CheapTrick[33], v t n hi u k ch à í í đưc ưc lưng bởi phương php PLATINUM[34], n đư ục s d ng như một tham s không tun ho n H nh 20 mô à
t qu nh x l c a WORLD vocoder trong hai giai tr đon phân t ch v t ng hí à ổ p
t n hi u ti ng n i í