1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên ứu phát triển hệ thống tổng hợp tiếng nói tiếng việt sử dụng công nghệ học sâu

65 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phát Triển Hệ Thống Tổng Hợp Tiếng Nói Tiếng Việt Sử Dụng Công Nghệ Học Sâu
Tác giả Nguyễn Văn Thành
Người hướng dẫn TS. Mạc Đăng Khoa
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Hệ Thống Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 65
Dung lượng 3,72 MB

Nội dung

HMM Hidden markov model Mô hnh markov n DNN Deep Neural Network Mng nơ ron h c sâu PSOLA Pitch Synchronous Overlap and Add K s  cơ b thut chn ng đng b ộ cao độ n tTTS Text To

Trang 1

NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI

TIẾNG VIT SỬ DỤNG CÔNG NGH HỌC SÂU

LUẬN VĂN THẠC SĨ KHOA HỌC

H THNG THÔNG TIN

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-Nguyn Văn Thnh

NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI TIẾNG

VIT SỬ DỤNG CÔNG NGH HỌC SÂU

Chuyên ngành : H Thng Thông Tin

Trang 3

LỜI CẢM ƠN

Đu tiên, tôi xin đưc g i l i c m    ơn chân thành t i Vi n nghiên c u qu c t     MICAnơi đ o đi t u ki n cho tôi th c hi n lu n     văn àn y Tip đn, tôi xin c m  ơn trung tâm không gian m ng  VIETTEL, nơi tôi l m vi cà  , đ o đi t u ki n v gi à p đ tôi trong vi ho n th nh h c à à  thng m tôi tr nh b y trong luà  à n văn thc s n y Tôi xin àchân thành cm ơn TS Mc Đăng Khoa ngưi th y , ngưi hưng d n tôi trong su t  

thi gian qua đ tôi c  th ho n th nh luà à n văn cho mnh

Thêm n a, tôi xin chân th nh c à m ơn anh Nguyn Ti n Th nh,  à ch Nguy n H ng  Phương cng to n th c c b vi n nghiên c u qu c t à   ộ     MICA đ p đ gi tôi trong

qu nh ltr àm lun văn ti vin nghiên c u qu c t ICA M

Tôi xin g i l i c m    ơn trn trng đn anh Nguy n Qu c B o c ng to n th  à  đng nghi p c a   tôi t i nh m voice trung tâm không gian m ng VIETTEL, ban gi  m đc trung tâm c ng  toàn th anh ch   em trong trung tâm đ p đ  tr gi h tôi trong qutrnh tôi ho n th nh luà à n văn thc s à n y

Cu i c ng tôi xin g i l i c  m ơn i cô Đt Th Ng c Di p   , ngưi đ hưng d n tôi 

t khi c n l sinh viên i h  à đ c à  trv h , gip đtôi đn khi tôi ho n th nh luà à n văn

n y à

Hà Nội, ngày 27 tháng 03 năm 2018

Nguyn Văn Thnh

Trang 4

MỤC LỤC

LỜI CẢM ƠN 3

MỤC LỤC 4

DANH MỤC HÌNH ẢNH 6

DANH MỤC BẢNG 7

DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ 8

MỞ ĐẦU 9

LỜI CAM ĐOAN 11

CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 12

1.1 Gii thiu v tổng hp ting ni 12

1.1.1 T ng quan v t ng h p ti ng n i 12ổ  ổ    1.1.2 X l ngôn ng t nhiên trong t ng h p ti ng n i 12    ổ    1.1.3 Tổng hp tín hiu ting n i 13

1.2 Cc phương php tổng hp ting ni 14

1.2.1 Tổng hp mô phỏng h thng pht âm 14

1.2.2 Tổng hp tn s formant 14

1.2.3 Tổng hp ghép ni 15

1.2.4 Tổng hp dng tham s thng kê 16

1.2.5 Tổng hp ting ni bng phương php lai ghép 19

1.2.6 Tổng hp ting ni da trên phương php hc sâu (DNN) 19

1.3 T nh h nh ph  t trin v cà c vn đ i tổ v ng h p ti ng n i ti ng Vi t 21    

CHƯƠNG 2: PHƯƠNG PHÁP H C SÂU P D NG TRONG T NG H P Ọ Á Ụ Ổ Ợ TIẾNG NÓI 23

2.1 K thut hc sâu s dụng mng nơ ron nhân to 23

2.1.1 Nhng mng nơ ron cơ bn 23

2.1.2 Mng nơ ron hc sâu 25

2.2 T ng h p ti ng n i dổ    a trên phương php hc sâu 27

2.3 Trích ch c đ trưng ngôn ngn c c 27

2.4 Mô hnh âm hc da trên mng nơ ron hc sâu 30

2.5 Vocoder 32

CHƯƠNG 3: XÂY D NG H TH NG T NG H P TI NG N I TI NG VI T    Ổ Ợ Ế Ó Ế  VỚI CÔNG NGH HỌC SÂU 35

3.1 Gii thiu h thng Viettel TTS 35

3.2 Kin trc tổng quan ca h thng Viettel TTS 35

3.3 Xây d ng c c mô đun ca h thng t ng h p ti ng n i 36ổ    3.3.1 Mô đun chun ha văn bn đu v o 36à 3.3.2 Mô đun trích chn đc trưng ngôn ng 38

3.3.3 Mô đun to tham s đc trưng âm hc 39

3.3.4 Mô đun tổng h p ti ng n  i t c đc trưng âm h c c 41

3.4 Xây dng cơ sở d liu và hun luyn h thng 42

3.4.1 Thu thp d liu cho h thng tổng hp ting ni 42

3.4.2 Hun luyn h thng 42

3.5 X l d liu hun luyn đ nâng cao cht lưng đu ra 42

CHƯƠNG 4: CÀI ĐT TH NGHI M V Ử  À ĐÁNH GI K T QU 46Á Ế Ả 4.1 Cà i đ t th nghi m h   thng 46

4.2 nh gi kĐ  t qu th nghim h thng 47

Trang 5

4.2.1 Đnh gi cht lưng bộ tổng hp dng DNN so vi HMM 47

4.2.2 Đnh gi kt qu ca vic ci thin cơ sở d liu hun luyn 47

4.2.3 Đnh gi so snh cht lưng h thng tổng hp ting ni so vi cc h thng tổng hp ting Vit hin c 48

4.2.4 Đnh gi hiu năng h thng 50

KẾT L ẬU N 52

A Tổng kt 52

B Phương hưng ph t tri n v c i thi n h th ng 52  à     TÀI LIU THAM KHẢO 53

PHỤ LỤC 55

Phụ lục A: Cu trc ca một nhn biu din ng cnh ca âm v 55

Phụ lục B: Cc công b khoa hc ca lun văn 57

Trang 6

DANH MỤC HÌNH ẢNH

Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9] 12

Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13] 14

Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13] 15

Hình 4: Mô h nh markov n p d ng trong t ng h p ti ng n i 16   ụ ổ    Hình 5: Qu tr nh hu n luy n v t ng h p m t h   à ổ  ộ thng t ng h p ti ng n i d a trên ổ     mô h nh markov n 18 

Hình 6: Tổng hp ting ni da trên DNN[18] 20

Hình 7: Một perceptron vi ba đu vào[24] 23

Hình 8: Mng nơ ron gm nhiu perceptron[24] 24

Hình 9: Hàm sigmoid[24] 25

Hình 10: Hàm kích hot tanh và relu 25

Hình 11: Mng nơ ron một lp n [24] 26

Hình 12: Mng nơ ron hai lp n[24] 26

Hình 13 Ki: n trc cơ bn c a h  th ng t ng h p ti ng n i 27ổ    Hình 14: Biu din đc trưng ngôn ng  h c ca văn bn[28] 28

Hình 15: Thông tin đc trưng ngôn ng liên quan đ n t ng âm v [28] 29

Hình 16: Thi gian xut hin   m i tr ng thi ca tng âm v 29

Hình 17: Mng nơ ron feat forward 30

Hình 18: Chuy n h a véc tơ đc trưng thành cc véc tơ nh phân 31

Hình 19: Mng nơ ron hc sâu p d ng trong t ng h p ti ng nụ ổ   i[4 31]

Hình 20: T ng quan v h ổ   ng WORLD vocoder[30 33th ] Hình 21: T ng h p ti ng nổ    i WORLD vocoder 34i v Hình 22: H thng tổng hp ting ni Viettel TTS 35

Hình 23: Kin trc h thng tổng hp ting ni 36

Hình 24: Qu trnh chun ha văn bn đu vào 37

Hình 25: Hot động ca bộ trích chn đc trưng ngôn ng hc 38

Hình 26: Cu trc và hot động ca bộ Genlab 39

Hình 27: Cu trc mô đun to tham s đc trưng 39

Hình 28: Qu tr nh hu n luy n v t ng h p m t h   à ổ  ộ  thng t ng h p ti ng n i dổ    a trên mô h nh  mng nơ ron hc sâu 41

Hình 29: Tổng hp ting ni t cc đc trưng âm hc bng WORLD vocoder 41

Hình 30: Tín hiu âm thanh trưc (trên) và sau khi cân bng (dưi) 43

Hình 31: Tín hiu âm thanh trưc (ở trên) và sau (ở dưi) sau khi lc nhiu 44

Hình 32: Phân b d liu sau khi gn nhn 45

Hình 33: Hnh nh chy th nghim h thng tổng hp ting ni 1 46

Hình 34: Hnh nh chy th nghim h thng tổng hp ting ni 2 46

Hình 35: Đnh gi độ t nhiên 49

Hình 36: Đnh gi độ hiu 49

Hình 37: Đnh gi MOS 49

Hình 38: Đnh gi thi gian đp ng ca h thng 50

Hình 39: Đnh gi chim dụng bộ nh 50

Trang 7

DANH MỤC BẢNG

Bng 1: Đnh gi so snh HMM và DNN 20Bng 2: D liu hun luyn h thng tổng hp ting ni 42Bng 3 Kt qu so snh bộ tổng hp DNN và HMM: 47Bng 4 Kt qu so snh cht lưng tổng hp ting ni ca h thng c d liu hun : luyn đ đưc x l (DNN2) và chưa đưc x l (DNN1) 48Bng 5 Thông tin ngưi nghe đnh gi h thng tổng hp ting ni: 48

Trang 8

DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ

and Add K s  cơ b thut chn ng đng b ộ cao độ n t

Approximation x p x ph   ổmel GMM Gaussian mixture model Mô hnh gauss h n h p  

speech processing X l ngôn ng v ng n i ti ng Vit    à ti  

F0 Fundamental frequency T n s   cơ b n

Trang 9

MỞ ĐẦU

Hin nay l, nh v c t ng h p ti ng n i ĩ  ổ    đ đưc nghiên c u v ph t tri n r t nhi u  à   ở  nơi trên th gi i, nhi u   công ngh à phương ph v p khc nhau đưc th nghi m,  

tri n khai  thành công, th m ch c nh ng công nh đ đ  í   tr t đ n mc kh c  phân  th

bit đưc v i gi ng đc ca con ngưi C n  ở Vit Nam, c ng c nhi u công  đ  

trnh nghiên c u v s n ph m v l nh v c t ng h p ti ng n i, c   đn như  à    ĩ  ổ     th k c c nghiên c u c a Vi n công ngh thông tin  thuộc Vi n h n lâm khoa h c công ngh à  Vit Nam ([1], [2]), c c nghiên c u n y u d a trên ki n tr c c a h   à đ     thng HTS[3] đ xây d ng h th ng t ng h p ti ng n i, v mô h   ổ    à nh đư c p d ng l mô h nh ụ à 

Markov n C công tr nh nghiên c u v h c   à  thng th c t v t ng h p ti ng n   ổ   i ởVit nam hi n nay ch y u    đưc ph t tri n d  a trên hai phương ph p t : ng h p ổ ting n i gh p n i v t ng h p ti ng n i th ng kê d a trên mô h nh Markov n  é  à ổ       (HMM) Hai phương php nêu trên l à hai phương php đ đưc nghiên c u v ph à t trin nhiu năm trên th  ng như ở gi i c Vit Nam, đ  c nhi u s n ph m, h ng     ththành công i n Tuy nhiên hai v  phương php n y v n c n nhi u m t h n ch à       như cht lưng ti ng n i t ng h p không th t đi   ổ   v i HMM v à cơ sở   d li u cn lưu tr

l n c ng như ch cho cht lưng t t trong  min h p  đi  ổv i t ng h p gh p n i M é  t

kh c  trên th  gi i hin nay đ t đ b u ph t tri n m t công ngh t ng h p ti ng n  ộ  ổ   i

m i , đ à ổ l t ng h p ti ng n i d a     trên phương php h c sâu, n c ng cho th   đ y

nh ng k t qu t ch c c,    í  cht lưng t ng h p c a h ổ    thng m c cao, g n v i t ở    nhiên[4] V hai l do trên, t  đ ài đưc đ xut thc hin nhm th nghim p d ng ụcông ngh h c sâu v o trong t ng h p ti ng n i ti ng Vi t v i mong mu n t  à ổ        o đưc

một h thng t ng h p ti ng nổ   i c cht lưng cao

Đ à t i n y t p trung nghiên c u p d ng công ngh t ng h p ti ng n i d a trên à    ụ  ổ    

mng nơ ron hc sâu cho t ng h p ti ng n i ti ng Vi t, sao cho ổ      đt đưc m t h ộ 

- Trin khai xây d ng h  thng t ng h p ti ng n dổ   i a trên công ngh à n y

- Áp d ng m t s gi i ph p ti n x l d ụ ộ        liu đ nâng cao cht lưng gi ng 

t ng h p ổ 

Lu văn ày đưn n c xây d ng trong qu nh l  tr àm  vi c t i trung tâm không gian

m ng VIETTEL v  à thi gian l m vi c t i ph ng Giao ti p ti ng n i thu c Vià       ộ n nghiên c u qu c t MICA V i môi     trưng l m vi c nghiêm t c, à   đưc s  hưng

d n c a TS M  c Đăng Khoa cng v i s gi p c a ng nghi p v c c anh,   tr   đ  à  ch, thy, cô Vi n Nghiên c u qu c t ở     MICA tôi đ đ c rt đưc kinh nghi m v ho n  à àthành lun văn này

Sau đây là  ụ b c c ch nh c a luí  n văn

• CHƯƠNG 1 TỔNG QUAN V T NG H P TI NG N I: Ề Ổ Ợ Ế Ó Chương àn y gi i thiu chung v t ng h p ti ng n i t ổ   , nh h nh nghiên c u v ph t tri n c c h    à    thng t ng h p ti ng n i, v c c phương ph ổổ    à  p t ng h p ti ng n i ph bi n    ổ 

hi n nay.

Trang 10

• CHƯƠNG 2: PHƯƠNG PHÁP H C SÂU P D NG TRONG T NG H P Ọ Á Ụ Ổ ỢTIẾNG N I:Ó Chương àn y ch y u n i v    phương php h c sâu và cách áp dụng n trong trong t ng h p ti ng n i ổ   

• CHƯƠNG 3 XÂY D: NG H TH NG T NG H P TI NG N I TI NG   Ổ Ợ Ế Ó ẾVI VỚI CÔNG NGH HỌC SÂU: Chương àT n y ch y u n i v ki n tr c      

h  thng t ng h p ti ng n i ti ng Vi t dổ      a trên phương php h c sâu, cách trin khai xây d ng t ng mô đun da trên ki n tr c n y và c ch thu p,   à  thphương ph p x l , l c d li u      cho th ng t ng h p ti ng n i h  ổ   

• CHƯƠNG 4: CÀI ĐT TH NGHI M V Ử  À ĐÁNH GI K T QU : Á Ế ẢChương àn y ch y u n i v c ch th c c      ài đt, th nghi m v nh gi k t   à đ  

qu h  thng t ng h p ti ng nổ    i đ đưc xây d ng 

• Phn Ế K T LU N: Ậ Phn à à n y l ph n k t lu n v lu    n văn ng như nh c ng phương hưng nghiên c u, c i thi n   

Trang 11

LỜI CAM ĐOAN

Tôi là Nguyn Văn Thnh, là tc gi ca lun văn này Trong đ tài Nghiên cu pht trin h thng tổng hp ting ni ting Vit s dụng công ngh hc sâu, h thng đưc xây dng bao gm bn mô đun chính: Mô đun chun ha văn bn (Text normalization), mô đun trích chn đc trưng ngôn ng (Linguistic Feature Extraction), mô đun to tham s đc trưng (Parameter Generation) và mô đun to tín hiu ting ni (Waveform Generation) Trong bn mô đun trên, tc gi tham gia

và c đng gp chính trong vic xây dng ba mô đun là mô đun trích chn đc trưng ngôn ng, mô đun to tham s đc trưng, mô đun to tín hiu ting ni

Tc gi xin cam đoan toàn bộ nhng g nêu trên cng như toàn bộ cc phn trin khai trong lun văn là tht

Trang 12

CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI

1.1 Giới thiệu về tổng hợp tiếng nói

1.1.1 T ng quan v t ổ ề ổ ng h p ti ng nói ợ ế

Tổng hp ting ni là qu trnh to ra ting ni ca con ngưi t văn bn, h thng tổng hp ting ni là h thng nhn đ vào là một văn bn và to ra tín hiu ting u ni tương ng ở đu ra Nghiên c u v t ng h p ti ng n  ổ   i đ   b t đ u t  r t lâu, năm

1779 nh khoa hà c ngưi đan mch Christian Kratzenstein đ xây d ng mô ph ỏng đơn gin h th ng c u âm c   a con ngưi, mô h nh n ày đ  c th ph t ra đưc âm thanh c a m t s nguyên âm d i[5]  ộ  à Đn t n th k   19 cc nghiên c u t ng h ổ p

ting n i v n c n m   ở c đơn gin, ph i sang   th k 20 khi m c s l n m nh c a à     

h thng đi , đi  th n n t m i th c s xu t hi n nh ng h      thng t ng h p ti ng nổ   i cht lư , c th k đn như h thng VODER ln đu đưc gii thiu năm ng1939[6] Cho đn hin nay, c rt nhiu cc sn phm như sch ni, đ chơi, s dụng công ngh tổng hp ting ni Đc bit cc mô đun tổng hp ting ni cn đưc tích hp trong cc tr l o trên đin thoi và my tính như Siri1 hay Cortana2 Qua qu nh ph t t n, hi n nay v  tr  ri   cơ bn m t h ộ  thng t ng h p ti ng n i bao ổ   

g m hai th nh ph n ch nh: ph n x l ngôn ng t nhiên v ph n x l t ng h p  à  í      à    ổ 

ting n i[7] Ph n x l ngôn ng t nhiên chu n h a, x l c      :     c văn bn đu vào

thành c c th nh ph n c  à   th pht âm đưc Ph n x l t ng h p ti ng n   ổ   i: T o t ra ín

hi u ti ng n i t c c th nh ph n ph     à  t âm đưc nêu trên[8] Trên hình 1 mô t một h thng tổng hp ting ni gm hai thành phn nêu trên

Hình 1: Sơ đ tổng qut một h thng tổng hp ting ni [9]

1.1.2 X l ngôn ng     t nhiên trong t ng h p ti ng n i ổ ợ ế ó

Trong một h thng tổng hp ting ni, khi x l ngôn ng t nhiên c nhim vụ trích chn cc thông tin v ng âm, ng điu ca văn bn đu vào Thông tin ng

1 https://www.apple.com/ios/siri/

2 https://www.microsoft.com/en-us/cortana

Trang 13

âm cho bit nhng âm nào đưc pht ra trong hoàn cnh cụ th nào, thông tin ng điu mô t điu tính ca cc âm đưc pht[7] Qu trnh x l ngôn ng t nhiên thưng bao gm ba bưc (xem trên hình 1):

- X l và chun ha văn bn (Text Processing)

- Phân tích cch pht âm (Chuyn đổi hnh v sang âm v Grapheme to phoneme )

- Phát sinh các thông tin ngôn điu, ng âm cho văn bn (Prosody modeling) Chun ha văn bn là qu trnh chuyn ha văn bn thô ban đu thành một văn bn dng chun, có th đc đưc một cch d dàng, ví dụ như chuyn đổi cc s, t vit tt, k t đc bit,… thành dng vit đy đ và chính xc Chun ha văn bn là một vn đ kh vi nhiu nhp nhng trong cch đc, ví như ch s c nhiu cch đc khc nhau tùy theo văn cnh khc nhau, như 3579 c th đưc đc là “ba nghìn năm trăm by chín” nu coi n là một s nhưng cng c th đc là “ba năm by chín” nu như n là một m xc thc, cc t vit tt cng vy, cng c nhiu cch đc phụ thuộc vào quy ưc ca ngưi vit

Phân t ch c ch ph t âm l qu nh xí   à  tr c đnh c ch ph t âm   chính xc cho văn bn,

c h c  thng t ng h p ti ng n i d ng hai c cổ      h cơ bn đ c đ x nh c ch ph t âm cho  văn bn, qu tr nh này c  n đưc g i l chuy à n đổi văn bn sang chu i âm v C ch   th nh t v  à đơn gi n nh t l d a v o t  à  à  đin, s d ng m t t  ụ ộ  đi n l n c ch a t t c    

c c t c a m t ngôn ng v ch a c ch ph   ộ  à   t âm đng tương ng cho t ng t Vi  c

xc đnh c ch ph t âm ng cho t ng t   đ  ch đơn gi àn l tra t  đin và thay đon văn

b n b ng chu i âm v ghi trong t     đ  đin C ch th hai l d a trên c c quy t c v   à    à

s d ng c c quy t ụ  c đ  t m ra c ch ph t   âm tương ng M i c ch đu c  ưu nhưc đim kh c nhau, c ch d a    trên t đin nhanh v ch nh x c, à í  nhưng s không ho t 

động n u t ph t âm không c trong t      đin V lư ng t v ng c n à     lưu à l l n C ch 

d ng quy t c ph h p v i m     i văn bn nhưng độ ph c t p c  th tăng cao n u ngôn

ng c nhi  u trưng h p b t quy t c   

Pht sinh c c thông tin ngôn  điu cho văn b à n l vi c xc đnh v tr tr ng âm c a t  í   đưc ph t âm, s lên xu ng gi ng c c v tr kh c nhau trong câu v x    ở   í  à c đnh c c 

bi n th kh c nhau c a âm ph thu c v o ng c nh khi     ụ ộ à   đưc ph t  âm trong một ngôn ng  lưu liên tục, ngo i ra qu nh n y c n ph i xà  tr à   c đnh cc đim d ng ngh  

ly hơi khi ph t âm ho c đc một đon văn bn[10] Thông tin v thi gian (duration) đưc đo bng đơn v xen ti giây (centi second) hoc mi li giây (mili second), và đưc ưc lưng da trên cc quy tc hoc cc thut ton hc my Cao

độ (pitch) là một tương quan v mt cm nhn ca tn s cơ bn F0, đưc biu th theo đơn v Hz hoc phân s ca tông (tones) (na tông, một phn hai tông) Tn s

cơ bn F0 là một đc trưng quan trng trong vic to ngôn điu ca tín hiu ting ni, do đ vic to cc đc trưng cao độ là một vn đ phc tp và quan trng trong tổng hp ting ni

1.1.3 Tổng hợp tín hiệu ế ti ng n i ó

Khi x l tổng hp ting ni đm nhn vic to ra ting ni t cc thông tin v ng

âm, ng điu do khi x l ngôn ng t nhiên cung cp Trong thc t c hai cch tip cn cơ bn liên quan đn công ngh tổng hp ting ni: tổng hp ting ni s dụng mô hnh ngun âm và tổng hp da trên vic ghép ni cc đơn v âm

Trang 14

Cht lưng ting ni ca một h thng tổng hp đưc đnh gi thông qua hai khía cnh: độ d hiu và độ t nhiên Độ d hiu đ cp đn nội dung ca ting ni đưc tổng hp c th hiu một cch d dàng hay không Mc độ t nhiên ca ting ni tổng hp là s so snh độ ging nhau gia ging ni tổng hp và ging ni t nhiên ca con ngưi

Một h thng tổng hp ting ni l tưởng cn va t nhiên, va d hiu và mục tiêu xây dng một h thng tổng hp là làm gia tăng ti đa hai tính cht này Hin nay

có ba phương php chính, phổ bin nht là: tổng hp mô hnh ha h thng pht âm, tổng hp cộng hưởng tn s và tổng hp ghép ni, ngoài ra cng c cc phương php khc pht trin t ba phương php trên [11]

1.2 Các phương pháp tổng hợp tiếng nói

1.2.1 Tổng hợp mô phỏng hệ thống phát âm

Tổng hp mô phỏng h thng pht âm là cc k thut tổng hp ging ni da trên

mô hnh my tính mô phỏng cơ quan pht âm ca con ngưi và qu trnh to ra ting ni trên đ V mục tiêu ca phương php này là mô phỏng qu trnh to ting ni sao cho càng ging cơ ch ca con ngưi càng tt, nên v mt l thuyt đây đưc xem là phương php cơ bn nht đ tổng hp ting ni, nhưng cng v vy mà phương php này kh thc hin nht và kh c th tổng hp đưc ting ni cht lưng cao[12] Tổng hp mô phỏng pht âm đ tng ch là h thng dành cho nghiên cu khoa hc cho mãi đn nhng năm gn đây L do là rt ít mô hnh to ra

âm thanh cht lưng đ cao hoc c th chy hiu qu trên cc ng dụng thương mi Một ngoi l là h thng NeXT, vn đưc pht trin thương mi ha bởi Trillium Sound Research Inc, Canada Đ thc hin đưc phương php tổng hp da trên vic mô phỏng h thng pht âm đi hỏi thi gian, chi phí và công ngh Phương php này kh c th ng dụng ti Vit Nam thi đim hin nay

1.2.2 Tổng hợp tần số formant

Tổng hp ting ni formant là phương php tổng hp ting ni không s dụng mu ging tht nào khi chy, thay vào đ tín hiu ting ni đưc to ra bởi một mô hình tuyn âm Mô hnh này mô phỏng hin tưng cộng hưởng ca cc cơ quan pht âm bng một tp hp cc bộ lc Cc bộ lc này đưc gi là cc bộ lc cộng hưởng formant, chng c th đưc kt hp song son hoc ni tip vi nhau hoc kt hp g c hai

Tổng hp ni tip là bộ tổng hp formant c cc tng ni tip, đu ra ca bộ cộng hưởng này là đu vào ca bộ cộng hưởng kia, cu trc cơ bn bộ tổng hp ni tip đưc biu din trên hnh 2

Hình 2: Cu trc cơ bn bộ tổng hp formant ni tip[13]

Trang 15

Hình 3: Cu trc cơ bn bộ tổng hp formant song song[13]

Tổng hp song song (trên hnh 3) bao gm cc bộ cộng hưởng mc song song Đu

ra là kt hp ca tín hiu ngun và tt c cc formant Cu trc song song cn nhiu thông tin đ điu khin hơn cu trc ni tip

H thng tổng hp ting ni da trên phương php tổng hp tn s formant c nhng ưu đim, nhưc đim c th k đn như: Nhưc đim ca h thng này là to

ra ging ni không t nhiên, nghe cm gic rt phân bit vi ging ngưi tht và phụ thuộc nhiu vào cht lưng ca qu trnh phân tích ting ni ca tng ngôn ng, Tuy nhiên độ t nhiên cao không phi lc nào cng là mục đích ca h thng

và h thng này cng c cc ưu đim riêng ca n, h thng này kh d nghe, không c ting c st do ghép âm to ra, cc h thng này cng nhỏ gn v không cha ơ sở d liu mu âm thanh ln c

1.2.3 Tổng hợp ghép nối

Tổng hơp ghép ni là phương php tổng hp ting ni bng cch ghép vào nhau các đon tín hiu ting ni ca một ging ni đ đưc ghi âm Cc âm tit sau khi đưc to thành s đưc tip tục ghép li v nhau to thành đon ting ni Đơn v âm i phổ bin là âm v, âm tit, bn âm tit, âm đôi, âm ba, t, cụm t Do đc tính t nhiên ca ting ni đưc lưu gi trong c đơn v âm, nên tổng hp ghép ni là c phương php c kh năng tổng hp ting ni vi mc độ d hiu và t nhiên, cht lưng cao Tuy nhiên, ging ni t nhiên đưc ghi âm c s thay đổi t ln phát âm này sang ln pht âm khc, và công ngh t động ha vic ghép ni cc đon ca sng âm thnh thong to ra nhng ting c xt không t nhiên ở phn ghép ni Có

ba kiu tổng hp ghép ni:

- Tổng hp chn đơn v (unit selection)

- Tổng hp âm kép (diphone)

- Tổng hp chuyên bit (Domain-specific)

Tổng hp chn đơn v dng một cơ sở d liu ln cc ging ni ghi âm Trong đ, mi câu đưc tách thành cc đơn v khc nhau như: cc ting đơn lẻ, âm tit, t, nhm t hoc câu văn Một bng tra cc đơn v đưc lp ra da trên cc phn đ

Trang 16

tách và cc thông s âm hc như tn s cơ bn, thi lưng, v trí ca âm tit và cc ting gn n Khi chy cc câu ni đưc to ra bng cch xc đnh chui đơn v ph hp nht t cơ sở d liu Qu trnh này đưc gi là chn đơn v và thưng cn dng đn cây quyt đnh đưc thc hin Thc t, cc h thng chn đơn v c th to ra đưc ging ni rt ging vi ngưi tht, tuy nhiên đ đt độ t nhiên cao thưng cn một cơ sở d liu ln cha cc đơn v đ la chn

Tổng hp âm kép là dng một cơ sở d liu cha tt c cc âm kép trong ngôn ng đang xét S lưng âm kép phụ thuộc vào đc tính ghép âm hc ca ngôn ng Trong tổng hp âm kép ch c một mu ca âm kép đưc cha trong cơ sở d liu, khi chy th li văn đưc chng lên cc đơn v này bng k thut x l tín hiu s nh m tuyên đon tuyn tính hay PSOLA [14] Cht lưng âm thanh tổng hp theo cch này thưng không cao bng phương php chn đơn v nhưng t nhiên hơn cộng hưởng tn s và ưu đim ca n là c kích thưc d liu nhỏ

Tổng hp chuyên bit (Domain-specific) là phương php ghép ni t cc đon văn bn đ đưc ghi âm đ to ra li ni Phương php này thưng đưc dng cho cc

ng dụng c văn bn chuyên bit, cho một chuyên nghành, s dụng t vng hn ch như cc thông bo chuyn bay hay d bo thi tit Công ngh này rt đơn gin và đ đưc thương mi ha t lâu Mc độ t nhiên ca h thng này c th rt cao v s lưng cc câu ni không nhiu và khp vi li văn, âm điu ca ging ni ghi

âm Tuy nhiên h thng kiu này b hn ch bởi cơ sở d liu chuyên bit không p dụng đưc cho min d liu mở

Trang 17

H nh 4 mô t c  ch p d ng ụ mô h nh markov n trong t ng h p ti ng n i, trong  ổ    đ

m i mô h nh markov   n đưc s d ụng đ mô h nh h a m t âm v , v c  ộ  à c mô h nh markov n đưc mc n i nhau đi v mô h nh h a chu i âm v Mô h nh markov      n

l m t mô h nh h c m y d a trên th ng kê, do h à ộ      đ  thng t ng h p ti ng n i d a ổ    trên mô h nh markov n ho  t động bao g m hai qu nh l qu nh hu n luy n v  tr à tr   à

qu nh t ng h p H nh 5 mô t  tr ổ    qu tr nh t ng h p v hu n luy n m t h ổ  à   ộ  thng

t ng h p ti ng nổ   i da trên mô h nh markov n  

Qu  tr nh t ng h p d a trên mô h nh markov n s l qu tr nh ổ      à   mà nhn đu v o l à à

một đon văn bn, chuy n h a đon văn b n n y th nh chu i âm và à  , sau đ da vào

cc mô h nh markov n mô h nh h a chu i c     c âm v  tương ng ta s t m ra đưc

c tham s mel v t n s c  à   cơ bn f0 T c tham s mel xây d ng nên chu i c b  c    c ộ

l c  MLSA (Mel Log Spectral Approximation) v k t h p v i t n hi u kà    í  ích thích đư  c t o t f0 s t o ra   đư íc t n hi u ti ng n i[16], [17]   

Qu  tr nh hu n luy n d a trên mô h nh markov n bao g m c      c bưc: Tr ch ch n í đ trưng c ti ng n i v hu n luy n mô h nh d a trên c c v à      éc tơ đ trưng ích đưc tr c

Cc đc trưng ting ni đưc trích trong qu nh hu n luy n l c c v tr   à  éc tơ như véc

tơ h  s mel v và éc tơ mô t Nhưng đn đây vi f0 c mô h nh h a như vy s l i n y   sinh m t vộ n đ đ à  l t n s  cơ b n f0 ch  i ở t n t âm h u thanh c n c c âm vô   thanh li là nhi u Do đ đ , gi i quy vt n đ ày ngưi ta đ  ụ n s d ng m t mô h nh ộ 

m rở ộng hơn, đ à l Multi-Space Probability Distribution Hidden Markov Model[16] Mô h nh n ày thưng bao g m m t không gian v : ộ éc tơ đư c s d ụng đ

mô h nh h a v c mel v hai không gian v  é tơ à éc tơ đ mô h nh h a t n s     cơ bn f0

M i không gian v éc tơ trong mô h nh th   đưc đc trưng bởi m t phân b x c xu tộ    ,

m i quan s t c a m t tr ng th i l   ộ   i đưc mô t  như sau: o=(X,x) trong đ X l tà p

c c không gian v éc tơ , c n x l và éc tơ đc trưng M c tiêu c a qu nh hu n luyụ   tr  n

l t d à  liu đu v o c i thi n c c tham s c a mô h nh markov n m mô h nh hà        à  a cho m i âm v  

Cc đc trưng ngôn ng c a văn bn đưc mô t b ng c ch s d ng m t b phân     ụ ộ ộ

c m ụ (thưng l cây quyà t đ ) đnh gom c c c m tr ng th i c a mô h nh markov  ụ     n

c  đc ít nh ngôn ng g n nhau nh t v b u ch n ra m t tr ng th i tiêu bi   à   ộ   u đ thay th cho c c tr ng th i c n l i trong c m    ụ

H  thng t ng h p ti ng n i d a trên mô h nh markov n l m t h ổ       à ộ  thng c kh  năng to ti ng n i mang phong c ch n i kh c nhau v     , i đ trưng c c a nhiu ngưi

n i kh c nhau, th m ch l mang c m x c c   í à   a ngư  Ưu đii n i m ca phương php

n y l c n t b nh à à  í ộ  lưu tr à à v t i nguyên h  thng hơn so v i t ng h p gh p n i, v  ổ  é  à

c th điu ch nh tham s   đ thay đổi ng  điu Tuy nhiên, m t s ộ  nhưc đim ca

h  thng n y l t nhiên trong ti ng n i t ng h p c a h à đ à độ    ổ    thng b suy gi m hơn so v ổi t ng h p gh p n i ph é  , ổ í t n hi u v t n s  à   cơ n đưc ưc lưb ng t c c  

gi trung b nh c a c c mô h nh markov tr     n đưc hu n luy n t d u kh c nhau,    li điu n y khi n cho ti ng n i t ng h p nghe c v à    ổ   ẻ đu đu m n v  à đôi khi tr th nh ở à

b ngh t m i  “   ”

Trang 18

Hình 5: Qu tr nh hu n luy n v t ng h p m t h   à ổ  ộ thng t ng h p ti ng nổ   i da trên

mô h nh markov n  

Trang 19

1.2.5 Tổng hợp tiếng nói bằng phương pháp lai ghép

T ng h p lai gh p l ổ  é à phương ph ổp t ng h p b ng c  ch lai égh p gi a t ng h p gh ổ  ép

n i ch n   đơn v à ổ v t ng h p d a trên mô h nh markov n, nh m t n d ng       ụ ưu đim

c a m i phương php v p d ng n trong h à  ụ   th Như đ ni, h thng tổng hp nglai ghép kt hp ưu nhưc đim ca tng h thng thành phn, tùy theo thành phn nào đng vai tr ch đo mà c th phân loi cc h thng tổng hp lai ghép thành hai loi sau: Tổng hp hưng ghép ni và tổng hp hưng HMM

H thng tổng hp hưng ghép ni s dụng cc HMM đ h tr qu trnh ghép ni,

 tưởng chính ca phương php này như sau:

- Đơn v  d ng l a ch n trong t ng h p gh p n i ch n đ   “ ổ  é   đơn v” c ng s l  àđơn v đư ổc t ng h p ra 

- Đưng biên gia c đơn v  đư àm c s c l m n b ng c c mô h nh markov n    

- Âm thanh sau cng đưc làm m n b ng phương ph àp l m m n ph  ổ

Khc vi h thng tổng hp hưng ghép ni, h thng tổng hp hưng HMM s dụng cc thut ton sinh tham s t cc HMM và phn tổng hp ghép ni đưc s dụng đ tăng cưng cht lưng chui tham s này

Hai hưng tổng hp lai ghép nêu trên đu c ưu nhưc đim khc nhau, và đưc s dụng ty vào yêu cu cht lưng ting ni hay yêu cu cụ th v h thng Ưu đim

cơ bn ca h thng lai ghép hưng ghép ni đ là gim tc động không mong mun do d liu không đ và gim s phụ thuộc vào d liu, hay cng chính là ci thin cc nhưc đim ca tổng hp ghép ni Mc d đ gii quyt cơ bn nhng vn đ v ghép ni nhưng vn đ trở ngi ti nhng đim ghép ni vn cn tn ti

1.2.6 Tổng hợp tiếng nói da trên phương pháp học sâu (DNN)

Tổng hp ting ni da trên phương php hc sâu đ bt đu pht trin mnh m trong vài năm trở li đây, phương php này đưc xây dng da trên vic mô hnh ha mô hnh âm hc bng một mng nơ ron hc sâu DNN Trong đ Văn bn đu vào s đưc chuyn ha thành một véc tơ đc trưng ngôn ng, cc véc tơ đc trưng này mang cc thông tin v âm v, ng cnh xung quanh âm v, thanh điu,… Sau đ

mô hnh âm hc da trên DNN ly đu vào là véc tơ đc trưng ngôn ng và to ra cc đc trưng âm hc tương ng ở đu ra T cc đc trưng âm hc này s to thành tín hiu ting ni nh một bộ tổng hp tín hiu ting ni (thưng là vocoder )

Kin trc tổng quan ca một h thng tổng hp ting ni da trên mng nơ ron hc sâu DNN đưc mô t trong hình 6 Trong đ, văn bn cn đưc tổng hp s đi qua

bộ phân tích văn bn (Text analysis) đ trích chn cc đc trưng ngôn ng hc và đưc chuyn ha thành cc véc tơ nh phân bởi bộ Input feature extraction, các véc

tơ nh phân đu vào { }t

Trang 20

Hình 6: Tổng hp ting ni da trên DNN[18]

Mng nơ ron hc sâu DNN da trên cc lp nơ ron nhân to, c kh năng mô hnh ha nhng mi quan h phi tuyn phc tp gia đu vào và đu ra Đc bit trong trưng hp s dụng DNN c th mô hnh ha một cch mnh m mi quan h phi tuyn, phc tp gia cc đc trưng ngôn ng hc ca văn bn và đc trưng âm hc ca tín hiu ting ni, tuy nhiên vic s dụng DNN cng c nhng hn ch đ là v s mnh m ca n nên n rt nhy cm vi cc thông tin sai lch và không tt như nhiu, và n cng cn rt nhiu d liu đ hun luyn mô hnh Nh s mnh mtrong mô hnh ha mô hnh âm hc, DNN đ đưc p dụng trong nhiu ng dụng tổng hp ting ni trên th gii như cc sn phm ca Google, Baidu Microsoft hay , trong h thng Merlin ca CSTR đ đt đưc độ t nhiên rt cao

2 mix 3.537 ± 0.113 3.397 ± 0.115

5x1024 6x1024 7x1024

3.635 ± 0.127 3.681 ± 0.109 3.652 ± 0.108 3.637 ± 0.129 Bng : Đnh gi so snh HMM và DNN1

Kt qu đnh giá so snh h thng tổng hp ting ni da trên HMM so vi DNN ca Google[19] đưc th hin trong bng 1 Đnh gi này s dụng phương php

Trang 21

trung bnh đim  kin MOS trên thang đim 5, vi 173 câu kim tra chia theo 5 ch đ, mi ch đ khong 30 câu T kt qu này cho thy tổng hp ting ni da trên DNN c cht lưng tt hơn HMM

1.3 T nh h nh ph t tri n v c c v   á   á n đề ớ v i t ng h p ti ng n i ti ng Vi t ổ ợ ế ó ế ệ

Vit nam đang trong thi kỳ pht trin nhanh chng ca công ngh thông tin Điu đ cho phép chng ta c nhng nn tng khoa hc k thut và nn tng cơ sở vt cht đ c th nghiên cu cng như trin khai cc ng dụng v khoa hc công ngh trong cuộc sng Trong nhiu năm trở li đây, tổng hp ting Vit đ c nhng thành tu đng k, cc h thng tổng hp ting ni ting vit đưc ra đi như VietVoice3, VnSpeech4, Vais5, H thng tổng hp ting ni ca tp đoàn FPT hay h thng tổng hp ting ni Hoa súng Trong đ cc h thng tổng hp ting ni ting Vit đưc xây dng da theo hai hưng phổ bin là tổng hp ghép ni và tổng hp s dụng tham s thng kê

Đi vi phương php tổng hp ting ni ghép ni: Dành cho ting Vit th đ c rt nhiu h thng đưc pht trin, c th k đn như h thng Hoa Sng[20], đưc pht trin ln đu vào năm 2007, d liu đ xây dng h thng này đưc gi là VNSpeechCorpus, n đưc thu thp và lc t nhiu ngun khc nhau như truyn, sch,… D liu này bao gm nhiu loi khc nhau như: cc t vi đy đ su thanh điu, cc s câu thoi, đon văn ngn,… Đn năm 2011 h thng đưc mở , rộng[21], s dụng k thut la chn âm v không đng nht Phiên bn này cng s dụng cng bộ d liu ở phiên bn trưc, nhưng đưc đnh ch thích ở mc độ âm tit vi nhng thông tin cn thit như cc thành phn âm v, thanh điu, thi gian, năng lưng, và nhng đc trưng ng cnh khc Kt qu ban đu cho thy phiên bn th hai ca h thng hoa sng c s ci thin v mt cht lưng, tuy nhiên d liu kim th không đưc thit k đ bao trm toàn bộ đơn v âm, thêm na không c s kt ni gia qu trnh chn đơn v âm và qu trnh chn đơn v như một bán âm tittrong vic tính ton chi phí mục tiêu và chi phí ghép ni Kt qu là tổng chi phí không đưc ti ưu ha cho nhng câu cn bn âm tit

Đi vi phương php tổng hp ting ni s dụng tham s thng kê, hay là tổng hp ting ni da trên mô hnh Markov n (HMM) Ở Vit Nam cng đ c nhiu h thng tổng hp ting ni pht trin da trên phương php này, c th k đn như sn phm Vais, sn phm ca tp đoàn FPT6 hay h thng tổng hp ting ni ting Vit Mica TTS7 (Vin Mica Đi hc Bch Khoa Hà Nội) D liu s dụng cho h thng này bao gm 3000 câu giàu ng âm và đưc gn nhn bn t động mc âm v Bo co kt qu ca h thng này cho thy độ hiu đt gn mc 100% và cht lưng tổng hp đt đim 3.23 trên 5 thông qua một đnh gi sơ bộ

Như đ nêu ở trên, hin ti ở Vit Nam mi ch pht trin cc h thng tổng hp ting ni da trên nhng phương php đ c như tổng hp ghép ni hay tổng hp s

Trang 22

dụng tham s thng kê Trong khi đ trên th gii đ c nhng phương php mi cho tổng hp ting ni đưc pht trin và đt đưc kt qu cao, đin hnh là tổng hp da trên mng nơ ron hc sâu DNN, ví dụ như h thng tổng hp ting ni ca CSTR[22] hay các sn phm ca Google, Baidu,… Do đ l do đ la chn mô hnh mng nơ ron hc sâu (DNN) trong vic xây dng h thng tổng hp ting ni ting Vit là đ:

- Th nghim k thut mi, hin đi và phổ bin trên th gii hin nay nhm

so snh vi cc công ngh tổng hp ting ni ting Vit hin c

- Tm hiu cc vn đ c th xy ra khi s dụng DNN cho tổng hp ting Vit

và đưa ra nhng cch khc phục

Trang 23

CHƯƠNG 2: PHƯƠNG PHÁ P H C SÂU P D NG TRONG T NG Ọ Á Ụ Ổ

H P TI NG N I Ợ Ế Ó

2.1 Kỹ thuật học sâu s dụng mạng nơ ron nhân tạo

Hc sâu là một nhnh ca lĩnh vc hc my, da trên một tp hp cc thut ton nhm c gng mô hnh ha d liu tru tưng ở mc cao nht bng cch s dụng nhiu lp x l vi cu trc phc tp, hoc bao gm nhiu bin đổi phi tuyn[23] Chương này s ch yu trnh by v hưng tip cn “k thut hc sâu s dụng mng

nơ ron nhân to” hay chính là tm hiu v “mng nơ ron hc sâu”, v n là phương php đưc p dụng cho vic xây dng h thng tổng hp ting ni ting vit ca đ tài

Trưc khi đi vào mng nơ ron hc sâu, ta s xem xét sơ lưc v mng nơ ron nhân to Mng nơ ron nhân to là một mô hnh ton hc đưc xây dng da trên  tưởng ca cc mng nơ ron sinh hc trong bộ no ca con ngưi N gm một nhm các

nơ ron nhân to (nt) ni vi nhau, và x l thông tin bng cch truyn theo cc kt ni, sau đ tính gi tr mi ti cc nt Đ hiu rõ hơn chng ta s xem xét tm hiu v hai loi nơ ron nhân to cơ bn là perceptron, sigmoid và kin trc mng nơ ron

cơ bn

2.1.1 Nhng mạng nơ ron cơ bản

2.1.1.1 Perceptron Perceptron bt đu đưc pht trin vào nhng năm 1950 và 1960 bởi Frank Rosenblatt, ngày nay n phổ bin trong nhiu mô hnh mng nơ ron khc nhau và nhiu công trnh hin đi v mng nơ ron[24]

Perceptron nhn một s đu vào nh phân: x1, x2,… to ra một đu ra nh phân duy nht:

Hình 7: Một perceptron vi ba đu vào[24]

Trong hình 7 th hin một perceptron vi ba đu và x1,x2,x3 và một đu ra o output (trong thc t c th c s lưng đu vào khc) Rosenblatt đ xut một quy tc đơn gin đ tính ton đu ra, ông y gii thiu cc trng s w1,w2,… th hin tm quan trng ca cc yu t đu vào vi đu ra tương ng Đu ra ca nơ ron, 0 hoc 1, đưc xc đnh bng cch xem xét tổng iwi i x nhỏ hơn hoc ln hơn một ngưng nht đnh Cng như cc trng s, ngưng là s thc và là tham s ca nơ ron Khi đ đu ra đưc tính như sau:

Trang 24

0 1

j j j

j j j

if w x threshold output

Hình 8: Mng nơ ron gm nhiu perceptron[24]

Trong mng nơ ron hnh , lp đu tiên gm ba perceptron đưa ra quyt đnh t 8 ba đu vào, lp th hai gm bn perceptron đưa ra quyt đnh t đu vào là đu ra ca lp đu tiên, mi perceptron ca lp này cng c ba đu vào Lp perceptron th hai c th đưa ra quyt đnh phc tp và tru tưng hơn lp đu tiên Và thm chí quyt đnh phc tp hơn c th đưc thc hin bởi các perceptron trong lp th ba, th tư Bng cch này, một mng lưi nhiu lp ca perceptron c th tham gia vào vic ra quyt đnh phc tp

Perceptron và mng perceptron cho thy rng s điu chnh hay s hc c th xy rakhi phn ng vi cc kích thích mà không cn s can thip trc tip ca một lp trình viên Cc thut ton hc cho phép chng ta s dụng mng nơ ron nhân to theo các hoàn toàn khc vi cc cổng logic thông thưng Mng nơ ron c th hc và gii quyt vn đ một cch đơn gin trong khi vn đ đ li vô cng kh khăn đi vi mng thông thưng

2.1.1.2 ron Sigmoid

Vi Perceptron, một cht thay đổi trng s ca bt kỳ perceptron trong một mng cng c th dn đn kt qu hoàn toàn thay đổi Tuy nhiên, trong thc t đôi khi ch cn một thay đổi nhỏ ở trng s đ cho ra kt qu tt hơn, do đ đ khc phục vn đ ca perceptron ta s dụng nơ ron nhân to đưc gi là sigmoid Cng ging như perceptron, cc nơ-ron sigmoid c đu vào, x1, x2, Nhưng thay v đu vào ch c

0 hoc 1 th n c th là bt c gi tr nào trong khong 0 1 Ví dụ, 0,638 là một đu vào c gi tr trong một nơ-ron sigmoid Cc nơ ron sigmoid cng c trng s -cho mi đu vào là w1, w2 …và đnh hưng (bias) b Thêm na, đu ra cng không phi là hoc Thay vào đ, đu ra là σ0 1 (w x + b), trong ⋅ đ σ đưc gi là hàm sigmoid và đưc xc đnh bng:

1( )

Trang 25

Một nơ ron sigmoid vi đu vào x1, x2,… trng s w1, w2,… khi đ bias b là:

Ngoài hàm sigmoid trong nơ ron sigmoid cn nhiu hàm kích hot khc trong cc

nơ ron nhân to như hàm tanh (công thc 2.1.2.3) và hàm Relu (công thc 2.1.2.4) Đ th hàm relu và tanh đưc biu din trên hnh 10

tanh( ) 2 (2 ) 1x =  x − (2.1.2.3)

f x =ma x (2.1.2.4)

Hình 10: Hàm kích hot tanh và relu8

2.1.2 Mạng nơ ron học sâu

Trưc khi xem xét th nào là mng nơ ron hc sâu, ta xem xét qua một mng nơ ron

cơ bn như trên hnh 11

8 https://ujjwalkarn.me/2016/08/09/quick-intro-neural-networks/

Trang 26

Hình 11: Mng nơ ron một lp n [24]

Đây là mng nơ ron vi duy nht một lp n, lp ngoài cùng bên tri gi là lp đu vào và cc nơ ron trong lp này đưc gi là nơ ron đu vào, đây cng chính là nơi nhn đu vào ca mng nơ ron Lp ngoài cng bên phi là lp đu ra (output), lp này tr v gi tr đu ra tương ng vi nhng đu vào đưc nhn t lp đu vào Lp ở gia đưc gi là lp n, lp này không nhn đu vào cng như đu ra, mng trên c duy nht một lp n nhưng cc mng khc c th c nhiu lp n Hnh 12

là một mng nơ ron vi hai lp n:

Hình 12: Mng nơ ron hai lp n[24]

Trong khi vic thit lp đu vào và đu ra ca một mng nơ ron thưng đơn gin th vic to ra cc lp n tn nhiu công sc, vi mi mô hnh mng khc nhau và cc kin trc vi nhng lp n khc nhau đưc to ra đ đp ng nhng yêu cu ph hp Do đ vic thit k cc lp n là cc kỳ quan trng đ to đưc nhng đu ra theo hưng mong mun Các nơ ron trong mng cng rt đa dng c th là perceptron, c th là sigmoid hoc cng c th là nhiu loi nơ ron khc như tanh, relu,… ty theo yêu cu bài ton mà hnh thành cc lp n vi kin trc khc nhau

và nơ ron khác nhau

Trang 27

Một mng nơ ron nhiu lp n, hay c s lp n ln hơn hai dưc gi là mng nơ ron hc sâu DNN (deep neural network) Vi nhng mng nơ ron hc sâu, chng c

ưu đim là c th đưc s dụng đ xây dng một h thng cc khi nim phc tp[24]

2.2 T ng h p ti ng n i d ổ ợ ế ó a trên phương phá p h c sâu

Mô h nh âm h c d a trên mô h nh markov n (HMM) v mô h nh GMM l hai lo     à  à i

ph bi n nhổ  t đư  ục s d ng trong qu tr nh t o t n hi u ti ng n t  í   i  chu   đu i k t

v o à (thưng l à chui âm v ) thông qua vi t o tr c ti p c c    c đc trưng âm hc ca ting n i[25] Tuy nhiên nh ng mô h nh ki u n y c nh ng gi i h n tr ng vi bi    à      c u

di n m i quan h ph c t p v phi tuy     à n gi a chu i k t u v o v c    đ à à c đc trưng

âm h c[25]  Trong hưng ti p c n n y, m ng   à  nơ ron hc sâu (DNN) s  đưc s 

d ng mô h nh h a m i quan h gi a chu i k t u v o v cụ đ         đ à à c đc trưng âm

hc ở đ u ra, vic  ụs d ng DNN c  th gi i quy t m t s gi i h n c a nh  ộ     ng phương php thông thưng (như HMM ho c GMM)[18] H nh 13 mô t m t ki n    ộ 

trc cơ bn c a m t h  ộ th ng t ng h p ti ng n d a ổ   i  trên phương php h c sâu 

Hình 13: Ki n trc cơ bn c a h  th ng t ng h p ti ng n i ổ   

D a trên ki n tr c c a h      thng t ng h p ti ng n i trên h nh 13, c ổ      th th y r ng một h thng tổng hp ting ni gm ba mô đun chính và đây cng là ba mô đun trong tổng hp ting ni da trên công ngh hc sâu:

- Mô đun í tr ch chn đc trưng ngôn ng: văn n đb u vào đưc x l , phân  

t ch v ch ch n b i b Linguistic Features Extraction ra th nh cí à trí  ở ộ à c vec tơ đc trưng ngôn ng  h c, c c v ec tơ này thưng bao g m c c thông tin v   chui âm v , v tr   í tương đ i c a âm v trong câu, c m t hay t , s lư ng âm  ụ    

v trong câu, trong cụm t hay trong t ,  …

- B Parameter Generation c nhi m v chuyộ   ụ n h a c c   đc trưng ngôn ng  ởđu v o th nh th nh c c à à à  đc trưng âm hc tương ng, trong trưng hp h thng tổng hp ting ni đưc xây dng da trên phương php hc sâu, th

b n y s d ng mộ à  ụ ng nơ ron hc sâu DNN đ mô h nh h a cc mô h nh 

- Mô đun to tín hiu ting ni: Cc đc trưng âm h  đưc s c chuy n h a thành t n hi u ti ng n i nh b Waveform Generation í     ộ

Chi ti ng mô đun trong ht t nh 10 s  đưc tr nh b y l  n lư ở c chương saut c , trong đ vocoder s l m nhi m v t o t n hi u ti ng n i, hay  à  ụ  í    đ ch nh l b í à ộWaveform Generation Cn mô hnh âm hc chính là phn lõi chính cho mô đunParameter Generation

2.3 Trí ch ch n c c c á đ trưng ngôn ng

Đc trưng ngôn ng h c c  a văn bn đưc s d ng l ụ àm đu v o cho mô h nh âm à 

h c bao g m c c    thông tin như: âm   v hi n t i v c a âm v trong câu, c m t , v ,  trí   ụ  trí  t trong câu, s lư ng âm v trong t hay thanh     điu hi n t i l g , C c thông   à  … 

Trang 28

tin n y c ng à  đưc phân theo c c m c M c âm v , m c âm t, m c t , m c c :    ti    ụm

t , m c câu[26]   Đ ch chtrí n đưc cc đc trưng ngôn ng  h c nên trên, văn n bđu v o s à  đưc x l thông qua m t quy tr  ộ nh như sau:

- Văn n đb u v o s à  đưc chuy n th nh m t chu i âm v nh v o m t t  à ộ    à ộ  đin phiên âm tương ng v i ngôn ng   đang tổng h p 

- Văn n đb u v o s à  đưc cho qua m t h ộ  thng x l ngôn ng t     nhiên đ

trích ch n c c thông tin v ngôn ng , h      th ng x l ngôn ng t nhiên n y     àđưc xây d ng  trên cơ ởs ba mô h nh: Mô h nh t ch t (    word segmentation) đ  t ch văn b n th nh chu i c c t , mô h nh g n nh n t lo i (part of speech à        tag) đ  g n nh n c c t    àth nh t i tương lo ng v mô h nh phân t ch c m t à   ụ (text chunking) đ ch văn  t b n th nh c c c m t v k m theo thông tin v v à  ụ  à   trí  c a c c t  trong c m[27] ụ

- T chui âm v  đưc chuy n h a v c k t qu c a vi c t ch t , g n nh n t   à c         

lo i, t ch c m t ta ụ  ti n h nh t nh to n c c à í   thông tin đc trưng ngôn ng c a  văn bn

Đu ra đc trưng ngôn ng ca qu trnh này bao gm nhng thông tin như sau:

- Thông tin mc âm v: thông tin mc âm v bao gm c cc âm v hin ti, phía trưc, phía sau, thông tin v v trí cc âm v trên trong âm tit, t, cụm t,…

- Thông tin mc âm tit: gm c thông tin v thanh điu và s lưng âm v ca cc âm tit hin ti, phía trưc, phía sau V trí ca âm tit trong t,…

- Thông tin mc t: bao gm cc thông tin v nhn t loi, s lưng âm tit ca t hin ti, phía trưc, phía sau,…

- Thông tin mc cụm t: S lưng cc t, âm tit trong cụm hin ti, phía trưc, phía sau

- Thông tin mc câu: bao gm cc thông tin v s lưng t, s lưng âm tit, s lưng cụm t trong câu

Hình 14: Biu din đc trưng ngôn ng  h c ca văn bn[28]

Trang 29

K t qu u ra c a qu nh ch ch n c  đ   tr trí  c đc trưng âm hc đưc th hi n trong  

h nh 14, trong  đ văn bn đu vào đưc phân t ch th nh m t chu i âm v , m i âm v í à ộ    tương ng b i m t d ng c ch a c c thông ở ộ     tin đc trưng ngôn ng ở phía dưi Chi ti ột n i dung c a t ng d  ng đưc mô t trong ph l c A, v  ụ ụ à đưc bi u di n trên  

h nh 15  Ở đây cn lưu  ộ m t ch t, c s kh c bi t v c u tr c cho m i d ng trong          

ph l c A v h nh 15, ụ ụ à ở  điu n y x y ra l v c u tr c m i d ng ph là  à      ở ụ ục A đc trưng cho ti ng vi t c n h nh 15 l    ở  à đc trưng cho ti ng Anh, do v i m i ngôn  đ  

ng kh c nhau th c u tr c m i d      ng tương ng m i âm v c ng kh   c nhau Nhưng đim chung c a ch ng l u th hi n c c   à đ    thông tin như:  í V tr c a âm v  trong âm

ti t,  c u tr c c a âm    ti t  phía trưc, c u tr c âm   tit ph a sau, v í í tr c a âm t trong ti

t , v c a âm t trong c m t , vân vân trí  ti ụ  … à đ V c ng ch nh l c c í à  thông tin đc trưng ngôn ng m ta c n  à 

Hình 15: Thông tin đc trưng ngôn ng  liên quan đ n t ng âm v [28] 

M c d ho n th nh tr ch ch  đ à à í n đc trưng ngôn ng nhưng nh, ng thông tin trích

chn đưc v n l  à chưa đcho hun luy n c c mô h nh ti p theo (mô h nh âm h c v     à

mô h nh th i gian) c a h     thng t ng h p ti ng nổ   i ộM t thông tin c c k quan  ỳ

trng v c n thi t n a cà    n đưc thêm v oà , đ à l th i gian xu t hi n c a m i âm v     trong câu n i  Đ y đư l c thông tin v  thi gian tương ng m i âm v , ta s d ng    ụ

mô h nh markov n, qu nh n   tr ày đưc g l force alignment[4], [27] K t qu c a i à   

qu nh forced alignment s cho ra kho ng th i gian xu t hi n c a m i tr ng th tr         i trong m i âm v H nh 16 minh h a th i gian cho t ng tr ng th i trong m i âm v          (thông thưng s d ng 5 tr ng th i theo mô h nh markov n  ụ     )

Hình 16: Thi gian xut hin   m i tr ng thi ca tng âm v 

Trang 30

2.4 Mô h nh âm h c d a trên m  ọ  ạng nơ ron họ c sâu

Trong tổng hp ting ni da trên phương php hc sâu, mô hnh âm hc đưc mô hnh ha bng một mn nơ ron hc sâu như hnhg 17, trong đ đu vào ca mng này là một véc tơ đc trưng ngôn ng hc và đu ra là cc đc trưng âm hc hay chính là cc tham s ca vocoder (s trnh bày chi tit v vocoder ở phn sau) và đưc s dụng làm đu vào cho vocoder trong qu trnh tổng hp ting ni

Hình 17 M: ng nơ ron feat forward

Như đ ni ở trên, đu vào ca mng nơ ron là một véc tơ đc trưng ngôn ng hc, véc tơ này đưc chuyn ha t cc đc trưng ngôn ng hc mà ta trích chn đưctrong phn 2.3 C nhiu cch khc nhau đ chuyn ha cc thông tin đc trưng ngôn ng hc thành một véc tơ đu vào cho một mng nơ ron hc sâu, một trong s đ là s dụng một tp cc câu hỏi C c câu h i n ỏ ày đưc dng đ khai ph c c  thông tin m cà c đ trưng ngôn ng đem l , ộc i n i dung c a c c câu h i c   ỏ  th à: “ l

âm v hi n t i l g   à ”, “âm v ph ía trư à ”, “c l g âm v ph a sau l g í à ”, “ c bao nhiêu

âm v trong t ”, “ c bao nhiêu âm v trong câu ”,… Bng cch tr li cc câu hỏi này, ta tm đưc véc tơ nh phân biu din cc đc trưng ngôn ng hc Chi tit c ch

p d ng câu hụ ỏi đ chuy n h a c  c thông tin đc trưng ngôn ng th nh v à éc tơ nhphân đưc th hin trong hnh 18 và theo một quy trnh như sau:

- Đưa t ng d ng ch a c c    thông tin đc trưng ngôn ng  tương ng v i t ng  

âm v , v o tr l i chu i c à    c câu hỏi

- V i m i   câu tr i đ l ng th  đưc gi l v l i  tr à 1 à tr  sai  tr à 0 (như gi l trên h nh ng v i câu h i âm v hi n t i l l   ỏ    à “ ” th đng âm v hi n t i trong   

d ng c ng l l nên k  à “ ” t qu nh n  đưc là 1)

- Tr   l i h t chu i c c câu hỏi ta đưc m t vộ éc tơ nh phân làm đu v o cho à

mng nơ ron

Trang 31

Hình 18: Chuy n h a véc tơ đc trưng thành cc véc tơ nh phân

Đu ra ca mng nơ ron là cc véc tơ đc trưng âm hc cha cc tham s vocoder, cc véc tơ này chính là đu vào cho vocoder đ tổng hp ting ni Các véc tơ đc trưng âm hc bao gm cc thông tin như: tn s cơ bn F0, đưng bao phổ ca tín hiu ting ni, thông tin v cc thành phn không tu n hoàn Ở pha hun luyn mô hnh âm hc, th cc véc tơ đc trưng âm hc này ca d liu hun luyn đưc trích chn trong qu trnh phân tích đc trưng âm hc ca vocoder

Trong vic mô hnh ha mô hnh âm hc th mng nơ ron feat forward là mng đưc s dụng phổ bin,  h nh 19 minh a cho m t mh ộ ng nơ ron feat forward (m ng DNN) p d ng trong t ng h p ti ng n i Trong m ụ ổ    đ ng nơ ron ly c c v éc tơ nhphân mang thông tin đc trưng ngôn ng l àm đu v o v u ra ch nh l tham s à à đ í à vocoder n i trên 

Hình 19 M: ng nơ ron hc sâu p d ng trong t ng h p ti ng n i[4] ụ ổ   

Trang 32

M ng  nơ ron feat forward à ộl m t mng đơn gin, v i đ c l p th n cc    n đưc gi

l mà ng nơ ron hc sâu V c é tơ đu v o s à  đư  ụng đ  đoc s d d n k t qu u ra   đthông qua cc l p c a c c đơn v  n m, i đơn v thc hi n m t h m không tuy ộ à n

Vocoder là ộ   m t h th ng phân t ch v t ng h p t n hi u ti ng n i cí à ổ  í    a con ngưi Trong t ng h p ti ng n i d a trên mổ     ng nơ ron hc sâu, vocoder đưc s d ng  ụtrong hai qu nh hu n luy n v t ng h p ti ng n i Trong qu nh hu n luy n,  tr   à ổ     tr  vocoder đưc s d ng phân t ch d li u âm thanh th nh c c  ụ đ í   à  đc trưng âm hc,

cc đc trưng nà đưy c s d ụng đ hu n luy n m  ng nơ ron hc sâu Trong qu trnh t ng h p, c c đ trưng âm h ổ   c c c a ti ng n i đư c t o ra b i mở ng nơ ron hc sâu s à đ l u vào cho vocoder đ  t o th nh t n hi u ti ng n i à í   

C r t nhi u    loi vocoder khc nhau đưc ph t tri n đ  c i thi n ch t lưng phân

t ch v t ng h p ti ng ní à ổ   i như Straight vocoder[29], World vocoder[30], Magphase vocoder[31],…Trong ph n n y s à  ch tr nh b y v m t vocoder vô c ng m nh mà  ộ   , đưc ph t tri n đ  c i thi n ch t lưng âm thanh trong nh ng ng d ng th i gian   ụ thc v cà ng đư  ụng đc s d xây d ng h  thng t ng h p ti ng n i ổ    trong lun văn

n yà , đ à l WORLD vocoder

Như đ  ở n i trên, WORLD vocoder đưc s d ng tr ch ch n c ụ đ í  c đc trưng âm

h c v t ng h p ti ng n i t nh à ổ     ng đc trưng này Cc đc trưng âm hc m àWORLD vocoder tr ch chí n đưc bao gm: Đưng bao ph c a t n hi u, Cổ  í  c thành

ph n không tu n ho n (  à Aperiodicities , à   cơ b) v t n s n F0 Trong t n s đ   cơ bn F0 đưc ưc lưng b i ở phương php DIO[32], đưng bao ph ổ đưc ưc lưng bởi phương php CheapTrick[33], v t n hi u k ch à í  í đưc ưc lưng bởi phương php PLATINUM[34], n  đư  ục s d ng như một tham s không  tun ho n H nh 20 mô à 

t qu nh x l c a WORLD vocoder trong hai giai   tr    đon phân t ch v t ng hí à ổ p

t n hi u ti ng n i í   

Ngày đăng: 22/01/2024, 16:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w