HMM Hidden markov model Mô hnh markov n DNN Deep Neural Network Mng nơ ron h c sâu PSOLA Pitch Synchronous Overlap and Add K s cơ b thut chn ng đng b ộ cao độ n tTTS Text To
NGUYN VĂN THNH BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyn Văn Thnh H THNG THÔNG TIN NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NĨI TIẾNG VIT SỬ DỤNG CƠNG NGH HỌC SÂU LUẬN VĂN THẠC SĨ KHOA HỌC H THNG THÔNG TIN CLC2017B Hà Nội 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204815241000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyn Văn Thnh NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI TIẾNG VIT SỬ DỤNG CÔNG NGH HỌC SÂU Chuyên ngành : H Thng Thông Tin LUẬN VĂN THẠC SĨ KHOA HỌC H THNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Mc Đăng Khoa Hà Nội 2018 LỜI CẢM ƠN Đu tiên, xin đưc gi li cm ơn chân thành ti Vin nghiên cu quc t MICA nơi đ to điu kin cho thc hin lun văn Tip đn, xin cm ơn trung tâm không gian mng VIETTEL, nơi làm vic, đ to điu kin gip đ tơi vic hồn thành h thng mà trnh bày lun văn thc s Tôi xin chân thành cm ơn TS Mc Đăng Khoa ngưi thy, ngưi hưng dn sut thi gian qua đ tơi c th hồn thành lun văn cho mnh Thêm na, xin chân thành cm ơn anh Nguyn Tin Thành, ch Nguyn Hng Phương cng toàn th cc vin nghiên cu quc t MICA đ gip đ qu trnh làm lun văn ti vin nghiên cu quc t MICA Tôi xin gi li cm ơn trn trng đn anh Nguyn Quc Bo cng tồn th đng nghip ca tơi ti nhm voice trung tâm không gian mng VIETTEL, ban gim đc trung tâm cng toàn th anh ch em trung tâm đ gip đ h tr qu trnh hồn thành lun văn thc s Cui cng tơi xin gi li cm ơn ti cô Đ Th Ngc Dip, ngưi đ hưng dn t cn sinh viên đi hc h tr, gip đ đn tơi hồn thành lun văn Hà Nội, ngày 27 tháng 03 năm 2018 Nguyn Văn Thnh MỤC LỤC LỜI CẢM ƠN .3 MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ MỞ ĐẦU .9 LỜI CAM ĐOAN .11 CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 12 1.1 Gii thiu v tổng hp ting ni 12 1.1.1 Tổng quan v tổng hp ting ni .12 1.1.2 X l ngôn ng t nhiên tổng hp ting ni 12 1.1.3 Tổng hp tín hiu ting ni 13 1.2 Cc phương php tổng hp ting ni 14 1.2.1 Tổng hp mô h thng pht âm 14 1.2.2 Tổng hp tn s formant 14 1.2.3 Tổng hp ghép ni 15 1.2.4 Tổng hp dng tham s thng kê .16 1.2.5 Tổng hp ting ni bng phương php lai ghép 19 1.2.6 Tổng hp ting ni da phương php hc sâu (DNN) .19 1.3 Tnh hnh pht trin cc vn đ vi tổng hp ting ni ting Vit 21 CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP TIẾNG NÓI .23 2.1 K thut hc sâu s dụng mng nơ ron nhân to 23 2.1.1 Nhng mng nơ ron bn 23 2.1.2 Mng nơ ron hc sâu 25 2.2 Tổng hp ting ni da phương php hc sâu .27 2.3 Trích chn cc đc trưng ngôn ng 27 2.4 Mô hnh âm hc da mng nơ ron hc sâu 30 2.5 Vocoder 32 CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NÓI TIẾNG VIT VỚI CÔNG NGH HỌC SÂU 35 3.1 Gii thiu h thng Viettel TTS 35 3.2 Kin trc tổng quan ca h thng Viettel TTS .35 3.3 Xây dng cc mô đun ca h thng tổng hp ting ni 36 3.3.1 Mô đun chun ha văn bn đu vào 36 3.3.2 Mơ đun trích chn đc trưng ngôn ng 38 3.3.3 Mô đun to tham s đc trưng âm hc .39 3.3.4 Mô đun tổng hp ting ni t cc đc trưng âm hc .41 3.4 Xây dng sở d liu hun luyn h thng .42 3.4.1 Thu thp d liu cho h thng tổng hp ting ni 42 3.4.2 Hun luyn h thng 42 3.5 X l d liu hun luyn đ nâng cao cht lưng đu 42 CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ 46 4.1 Cài đt th nghim h thng 46 4.2 Đnh gi kt qu th nghim h thng 47 4.2.1 Đnh gi cht lưng tổng hp dng DNN so vi HMM 47 4.2.2 Đnh gi kt qu ca vic ci thin sở d liu hun luyn 47 4.2.3 Đnh gi so snh cht lưng h thng tổng hp ting ni so vi cc h thng tổng hp ting Vit hin c .48 4.2.4 Đnh gi hiu h thng 50 KẾT LUẬN .52 A Tổng kt 52 B Phương hưng pht trin ci thin h thng 52 TÀI LIU THAM KHẢO 53 PHỤ LỤC 55 Phụ lục A: Cu trc ca nhn biu din ng cnh ca âm v 55 Phụ lục B: Cc công b khoa hc ca lun văn 57 DANH MỤC HÌNH ẢNH Hình 1: Sơ đ tổng qut h thng tổng hp ting ni [9] 12 Hình 2: Cu trc bn tổng hp formant ni tip[13] 14 Hình 3: Cu trc bn tổng hp formant song song[13] .15 Hình 4: Mơ hnh markov n p dụng tổng hp ting ni 16 Hình 5: Qu trnh hun luyn tổng hp h thng tổng hp ting ni da mô hnh markov n .18 Hình 6: Tổng hp ting ni da DNN[18] 20 Hình 7: Một perceptron vi ba đu vào[24] 23 Hình 8: Mng nơ ron gm nhiu perceptron[24] 24 Hình 9: Hàm sigmoid[24] 25 Hình 10: Hàm kích hot relu 25 Hình 11: Mng nơ ron lp n [24] .26 Hình 12: Mng nơ ron hai lp n[24] .26 Hình 13: Kin trc bn ca h thng tổng hp ting ni 27 Hình 14: Biu din đc trưng ngơn ng hc ca văn bn[28] 28 Hình 15: Thơng tin đc trưng ngơn ng liên quan đn tng âm v[28] 29 Hình 16: Thi gian xut hin mi trng thi ca tng âm v 29 Hình 17: Mng nơ ron feat forward .30 Hình 18: Chuyn ha véc tơ đc trưng thành cc véc tơ nh phân 31 Hình 19: Mng nơ ron hc sâu p dụng tổng hp ting ni[4] 31 Hình 20: Tổng quan v h thng WORLD vocoder[30] .33 Hình 21: Tổng hp ting ni vi WORLD vocoder 34 Hình 22: H thng tổng hp ting ni Viettel TTS 35 Hình 23: Kin trc h thng tổng hp ting ni 36 Hình 24: Qu trnh chun ha văn bn đu vào 37 Hình 25: Hot động ca trích chn đc trưng ngơn ng hc .38 Hình 26: Cu trc hot động ca Genlab 39 Hình 27: Cu trc mô đun to tham s đc trưng .39 Hình 28: Qu trnh hun luyn tổng hp h thng tổng hp ting ni da mô hnh mng nơ ron hc sâu .41 Hình 29: Tổng hp ting ni t cc đc trưng âm hc bng WORLD vocoder 41 Hình 30: Tín hiu âm trưc (trên) sau cân bng (dưi) .43 Hình 31: Tín hiu âm trưc (ở trên) sau (ở dưi) sau lc nhiu 44 Hình 32: Phân b d liu sau gn nhn 45 Hình 33: Hnh nh chy th nghim h thng tổng hp ting ni 46 Hình 34: Hnh nh chy th nghim h thng tổng hp ting ni 46 Hình 35: Đnh gi độ t nhiên 49 Hình 36: Đnh gi độ hiu 49 Hình 37: Đnh gi MOS 49 Hình 38: Đnh gi thi gian đp ng ca h thng 50 Hình 39: Đnh gi chim dụng nh .50 DANH MỤC BẢNG Bng 1: Đnh gi so snh HMM DNN 20 Bng 2: D liu hun luyn h thng tổng hp ting ni 42 Bng 3: Kt qu so snh tổng hp DNN HMM 47 Bng 4: Kt qu so snh cht lưng tổng hp ting ni ca h thng c d liu hun luyn đ đưc x l (DNN2) chưa đưc x l (DNN1) 48 Bng 5: Thông tin ngưi nghe đnh gi h thng tổng hp ting ni 48 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ Từ viết tắt HMM DNN PSOLA TTS MSLA GMM VLSP MOS F0 Từ đầy đủ Hidden markov model Deep Neural Network Pitch Synchronous Overlap and Add Text To Speech Mel Log Spectral Approximation Gaussian mixture model Vietnamese language and speech processing Mean opinion score Fundamental frequency Ý nghĩa Mô hnh markov n Mng nơ ron hc sâu K thut chng đng cao độ tn s bn Tổng hp văn bn thành ting ni xp x phổ mel Mô hnh gauss hn hp X l ngôn ng ting ni ting Vit Đim kin trung bnh Tn s bn MỞ ĐẦU Hin nay, lĩnh vc tổng hp ting ni đ đưc nghiên cu pht trin rt nhiu nơi th gii, nhiu công ngh phương php khc đưc th nghim, trin khai thành cơng, thm chí c nhng công trnh đ đt đn mc kh c th phân bit đưc vi ging đc ca ngưi Cn Vit Nam, cng đ c nhiu công trnh nghiên cu sn phm v lĩnh vc tổng hp ting ni, c th k đn cc nghiên cu ca Vin công ngh thông tin thuộc Vin hàn lâm khoa hc công ngh Vit Nam ([1], [2]), cc nghiên cu đu da kin trc ca h thng HTS[3] đ xây dng h thng tổng hp ting ni, mô hnh đưc p dụng mô hnh Markov n Cc công trnh nghiên cu h thng thc t v tổng hp ting ni Vit nam hin ch yu đưc pht trin da hai phương php: tổng hp ting ni ghép ni tổng hp ting ni thng kê da mô hnh Markov n (HMM) Hai phương php nêu hai phương php đ đưc nghiên cu pht trin nhiu năm th gii cng Vit Nam, đ c nhiu sn phm, h thng thành công vi n Tuy nhiên hai phương php vn cn nhiu mt hn ch cht lưng ting ni tổng hp không tht đi vi HMM sở d liu cn lưu tr ln cng ch cho cht lưng tt min hp đi vi tổng hp ghép ni Mt khc th gii hin đ bt đu pht trin công ngh tổng hp ting ni mi, đ tổng hp ting ni da phương php hc sâu, n cng đ cho thy nhng kt qu tích cc, cht lưng tổng hp ca h thng mc cao, gn vi t nhiên[4] V hai l trên, đ tài đưc đ xut thc hin nhm th nghim p dụng công ngh hc sâu vào tổng hp ting ni ting Vit vi mong mun to đưc h thng tổng hp ting ni c cht lưng cao Đ tài tp trung nghiên cu p dụng công ngh tổng hp ting ni da mng nơ ron hc sâu cho tổng hp ting ni ting Vit, cho đt đưc h thng c cht lưng ging tổng hp tt so vi cc h thng tổng hp ting Vit s dụng cc công ngh khc c Đ làm đưc điu này, tc gi đ đ cc nhim vụ cn hồn thành sau: - Nghiên cu v phương php tổng hp ting ni da công ngh hc sâu cch p dụng - Trin khai xây dng h thng tổng hp ting ni da công ngh - Áp dụng s gii php tin x l d liu đ nâng cao cht lưng ging tổng hp Lun văn đưc xây dng qu trnh làm vic ti trung tâm không gian mng VIETTEL thi gian làm vic ti phng Giao tip ting ni thuộc Vin nghiên cu quc t MICA Vi môi trưng làm vic nghiêm tc, đưc s hưng dn ca TS Mc Đăng Khoa cng vi s tr gip ca đng nghip cc anh, ch, thy, cô Vin Nghiên cu quc t MICA đ đc rt đưc kinh nghim hoàn thành lun văn Sau b cục ca lun văn • CHƯƠNG TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI: Chương gii thiu chung v tổng hp ting ni, tnh hnh nghiên cu pht trin cc h thng tổng hp ting ni, cc phương php tổng hp ting ni phổ bin hin • CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP TIẾNG NÓI: Chương ch yu ni v phương php hc sâu cách áp dụng n trong tổng hp ting ni • CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NĨI TIẾNG VIT VỚI CƠNG NGH HỌC SÂU: Chương ch yu ni v kin trc h thng tổng hp ting ni ting Vit da phương php hc sâu, cách trin khai xây dng tng mô đun da kin trc cch thu thp, phương php x l, lc d liu cho h thng tổng hp ting ni • CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ: Chương ch yu ni v cch thc cài đt, th nghim đnh gi kt qu h thng tổng hp ting ni đ đưc xây dng • Phn KẾT LUẬN: Phn phn kt lun v lun văn cng nhng phương hưng nghiên cu, ci thin 10