1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên ứu phát triển hệ thống tổng hợp tiếng nói tiếng việt sử dụng công nghệ học sâu

65 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 3,72 MB

Nội dung

HMM Hidden markov model Mô hnh markov n DNN Deep Neural Network Mng nơ ron h c sâu PSOLA Pitch Synchronous Overlap and Add K s  cơ b thut chn ng đng b ộ cao độ n tTTS Text To

NGUYN VĂN THNH BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyn Văn Thnh H THNG THÔNG TIN NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NĨI TIẾNG VIT SỬ DỤNG CƠNG NGH HỌC SÂU LUẬN VĂN THẠC SĨ KHOA HỌC H THNG THÔNG TIN CLC2017B Hà Nội 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204815241000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyn Văn Thnh NGHIÊN CỨU PHÁT TRIỂN H THNG TỔNG HỢP TIẾNG NÓI TIẾNG VIT SỬ DỤNG CÔNG NGH HỌC SÂU Chuyên ngành : H Thng Thông Tin LUẬN VĂN THẠC SĨ KHOA HỌC H THNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Mc Đăng Khoa Hà Nội 2018 LỜI CẢM ƠN Đu tiên, xin đưc gi li cm ơn chân thành ti Vin nghiên cu quc t MICA nơi đ to điu kin cho thc hin lun văn Tip đn, xin cm ơn trung tâm không gian mng VIETTEL, nơi làm vic, đ to điu kin gip đ tơi vic hồn thành h thng mà trnh bày lun văn thc s Tôi xin chân thành cm ơn TS Mc Đăng Khoa ngưi thy, ngưi hưng dn sut thi gian qua đ tơi c th hồn thành lun văn cho mnh Thêm na, xin chân thành cm ơn anh Nguyn Tin Thành, ch Nguyn Hng Phương cng toàn th cc vin nghiên cu quc t MICA đ gip đ qu trnh làm lun văn ti vin nghiên cu quc t MICA Tôi xin gi li cm ơn trn trng đn anh Nguyn Quc Bo cng tồn th đng nghip ca tơi ti nhm voice trung tâm không gian mng VIETTEL, ban gim đc trung tâm cng toàn th anh ch em trung tâm đ gip đ h tr qu trnh hồn thành lun văn thc s Cui cng tơi xin gi li cm ơn ti cô Đ Th Ngc Dip, ngưi đ hưng dn t cn sinh viên đi hc h tr, gip đ đn tơi hồn thành lun văn Hà Nội, ngày 27 tháng 03 năm 2018 Nguyn Văn Thnh MỤC LỤC LỜI CẢM ƠN .3 MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ MỞ ĐẦU .9 LỜI CAM ĐOAN .11 CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 12 1.1 Gii thiu v tổng hp ting ni 12 1.1.1 Tổng quan v tổng hp ting ni .12 1.1.2 X l ngôn ng t nhiên tổng hp ting ni 12 1.1.3 Tổng hp tín hiu ting ni 13 1.2 Cc phương php tổng hp ting ni 14 1.2.1 Tổng hp mô h thng pht âm 14 1.2.2 Tổng hp tn s formant 14 1.2.3 Tổng hp ghép ni 15 1.2.4 Tổng hp dng tham s thng kê .16 1.2.5 Tổng hp ting ni bng phương php lai ghép 19 1.2.6 Tổng hp ting ni da phương php hc sâu (DNN) .19 1.3 Tnh hnh pht trin cc vn đ vi tổng hp ting ni ting Vit 21 CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP TIẾNG NÓI .23 2.1 K thut hc sâu s dụng mng nơ ron nhân to 23 2.1.1 Nhng mng nơ ron bn 23 2.1.2 Mng nơ ron hc sâu 25 2.2 Tổng hp ting ni da phương php hc sâu .27 2.3 Trích chn cc đc trưng ngôn ng 27 2.4 Mô hnh âm hc da mng nơ ron hc sâu 30 2.5 Vocoder 32 CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NÓI TIẾNG VIT VỚI CÔNG NGH HỌC SÂU 35 3.1 Gii thiu h thng Viettel TTS 35 3.2 Kin trc tổng quan ca h thng Viettel TTS .35 3.3 Xây dng cc mô đun ca h thng tổng hp ting ni 36 3.3.1 Mô đun chun ha văn bn đu vào 36 3.3.2 Mơ đun trích chn đc trưng ngôn ng 38 3.3.3 Mô đun to tham s đc trưng âm hc .39 3.3.4 Mô đun tổng hp ting ni t cc đc trưng âm hc .41 3.4 Xây dng sở d liu hun luyn h thng .42 3.4.1 Thu thp d liu cho h thng tổng hp ting ni 42 3.4.2 Hun luyn h thng 42 3.5 X l d liu hun luyn đ nâng cao cht lưng đu 42 CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ 46 4.1 Cài đt th nghim h thng 46 4.2 Đnh gi kt qu th nghim h thng 47 4.2.1 Đnh gi cht lưng tổng hp dng DNN so vi HMM 47 4.2.2 Đnh gi kt qu ca vic ci thin sở d liu hun luyn 47 4.2.3 Đnh gi so snh cht lưng h thng tổng hp ting ni so vi cc h thng tổng hp ting Vit hin c .48 4.2.4 Đnh gi hiu h thng 50 KẾT LUẬN .52 A Tổng kt 52 B Phương hưng pht trin ci thin h thng 52 TÀI LIU THAM KHẢO 53 PHỤ LỤC 55 Phụ lục A: Cu trc ca nhn biu din ng cnh ca âm v 55 Phụ lục B: Cc công b khoa hc ca lun văn 57 DANH MỤC HÌNH ẢNH Hình 1: Sơ đ tổng qut h thng tổng hp ting ni [9] 12 Hình 2: Cu trc bn tổng hp formant ni tip[13] 14 Hình 3: Cu trc bn tổng hp formant song song[13] .15 Hình 4: Mơ hnh markov n p dụng tổng hp ting ni 16 Hình 5: Qu trnh hun luyn tổng hp h thng tổng hp ting ni da mô hnh markov n .18 Hình 6: Tổng hp ting ni da DNN[18] 20 Hình 7: Một perceptron vi ba đu vào[24] 23 Hình 8: Mng nơ ron gm nhiu perceptron[24] 24 Hình 9: Hàm sigmoid[24] 25 Hình 10: Hàm kích hot relu 25 Hình 11: Mng nơ ron lp n [24] .26 Hình 12: Mng nơ ron hai lp n[24] .26 Hình 13: Kin trc bn ca h thng tổng hp ting ni 27 Hình 14: Biu din đc trưng ngơn ng hc ca văn bn[28] 28 Hình 15: Thơng tin đc trưng ngơn ng liên quan đn tng âm v[28] 29 Hình 16: Thi gian xut hin mi trng thi ca tng âm v 29 Hình 17: Mng nơ ron feat forward .30 Hình 18: Chuyn ha véc tơ đc trưng thành cc véc tơ nh phân 31 Hình 19: Mng nơ ron hc sâu p dụng tổng hp ting ni[4] 31 Hình 20: Tổng quan v h thng WORLD vocoder[30] .33 Hình 21: Tổng hp ting ni vi WORLD vocoder 34 Hình 22: H thng tổng hp ting ni Viettel TTS 35 Hình 23: Kin trc h thng tổng hp ting ni 36 Hình 24: Qu trnh chun ha văn bn đu vào 37 Hình 25: Hot động ca trích chn đc trưng ngơn ng hc .38 Hình 26: Cu trc hot động ca Genlab 39 Hình 27: Cu trc mô đun to tham s đc trưng .39 Hình 28: Qu trnh hun luyn tổng hp h thng tổng hp ting ni da mô hnh mng nơ ron hc sâu .41 Hình 29: Tổng hp ting ni t cc đc trưng âm hc bng WORLD vocoder 41 Hình 30: Tín hiu âm trưc (trên) sau cân bng (dưi) .43 Hình 31: Tín hiu âm trưc (ở trên) sau (ở dưi) sau lc nhiu 44 Hình 32: Phân b d liu sau gn nhn 45 Hình 33: Hnh nh chy th nghim h thng tổng hp ting ni 46 Hình 34: Hnh nh chy th nghim h thng tổng hp ting ni 46 Hình 35: Đnh gi độ t nhiên 49 Hình 36: Đnh gi độ hiu 49 Hình 37: Đnh gi MOS 49 Hình 38: Đnh gi thi gian đp ng ca h thng 50 Hình 39: Đnh gi chim dụng nh .50 DANH MỤC BẢNG Bng 1: Đnh gi so snh HMM DNN 20 Bng 2: D liu hun luyn h thng tổng hp ting ni 42 Bng 3: Kt qu so snh tổng hp DNN HMM 47 Bng 4: Kt qu so snh cht lưng tổng hp ting ni ca h thng c d liu hun luyn đ đưc x l (DNN2) chưa đưc x l (DNN1) 48 Bng 5: Thông tin ngưi nghe đnh gi h thng tổng hp ting ni 48 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ Từ viết tắt HMM DNN PSOLA TTS MSLA GMM VLSP MOS F0 Từ đầy đủ Hidden markov model Deep Neural Network Pitch Synchronous Overlap and Add Text To Speech Mel Log Spectral Approximation Gaussian mixture model Vietnamese language and speech processing Mean opinion score Fundamental frequency Ý nghĩa Mô hnh markov n Mng nơ ron hc sâu K thut chng đng cao độ tn s bn Tổng hp văn bn thành ting ni xp x phổ mel Mô hnh gauss hn hp X l ngôn ng ting ni ting Vit Đim  kin trung bnh Tn s bn MỞ ĐẦU Hin nay, lĩnh vc tổng hp ting ni đ đưc nghiên cu pht trin rt nhiu nơi th gii, nhiu công ngh phương php khc đưc th nghim, trin khai thành cơng, thm chí c nhng công trnh đ đt đn mc kh c th phân bit đưc vi ging đc ca ngưi Cn Vit Nam, cng đ c nhiu công trnh nghiên cu sn phm v lĩnh vc tổng hp ting ni, c th k đn cc nghiên cu ca Vin công ngh thông tin thuộc Vin hàn lâm khoa hc công ngh Vit Nam ([1], [2]), cc nghiên cu đu da kin trc ca h thng HTS[3] đ xây dng h thng tổng hp ting ni, mô hnh đưc p dụng mô hnh Markov n Cc công trnh nghiên cu h thng thc t v tổng hp ting ni Vit nam hin ch yu đưc pht trin da hai phương php: tổng hp ting ni ghép ni tổng hp ting ni thng kê da mô hnh Markov n (HMM) Hai phương php nêu hai phương php đ đưc nghiên cu pht trin nhiu năm th gii cng Vit Nam, đ c nhiu sn phm, h thng thành công vi n Tuy nhiên hai phương php vn cn nhiu mt hn ch cht lưng ting ni tổng hp không tht đi vi HMM sở d liu cn lưu tr ln cng ch cho cht lưng tt min hp đi vi tổng hp ghép ni Mt khc th gii hin đ bt đu pht trin công ngh tổng hp ting ni mi, đ tổng hp ting ni da phương php hc sâu, n cng đ cho thy nhng kt qu tích cc, cht lưng tổng hp ca h thng mc cao, gn vi t nhiên[4] V hai l trên, đ tài đưc đ xut thc hin nhm th nghim p dụng công ngh hc sâu vào tổng hp ting ni ting Vit vi mong mun to đưc h thng tổng hp ting ni c cht lưng cao Đ tài tp trung nghiên cu p dụng công ngh tổng hp ting ni da mng nơ ron hc sâu cho tổng hp ting ni ting Vit, cho đt đưc h thng c cht lưng ging tổng hp tt so vi cc h thng tổng hp ting Vit s dụng cc công ngh khc c Đ làm đưc điu này, tc gi đ đ cc nhim vụ cn hồn thành sau: - Nghiên cu v phương php tổng hp ting ni da công ngh hc sâu cch p dụng - Trin khai xây dng h thng tổng hp ting ni da công ngh - Áp dụng s gii php tin x l d liu đ nâng cao cht lưng ging tổng hp Lun văn đưc xây dng qu trnh làm vic ti trung tâm không gian mng VIETTEL thi gian làm vic ti phng Giao tip ting ni thuộc Vin nghiên cu quc t MICA Vi môi trưng làm vic nghiêm tc, đưc s hưng dn ca TS Mc Đăng Khoa cng vi s tr gip ca đng nghip cc anh, ch, thy, cô Vin Nghiên cu quc t MICA đ đc rt đưc kinh nghim hoàn thành lun văn Sau b cục ca lun văn • CHƯƠNG TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI: Chương gii thiu chung v tổng hp ting ni, tnh hnh nghiên cu pht trin cc h thng tổng hp ting ni, cc phương php tổng hp ting ni phổ bin hin • CHƯƠNG 2: PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG TRONG TỔNG HỢP TIẾNG NÓI: Chương ch yu ni v phương php hc sâu cách áp dụng n trong tổng hp ting ni • CHƯƠNG 3: XÂY DNG H THNG TỔNG HỢP TIẾNG NĨI TIẾNG VIT VỚI CƠNG NGH HỌC SÂU: Chương ch yu ni v kin trc h thng tổng hp ting ni ting Vit da phương php hc sâu, cách trin khai xây dng tng mô đun da kin trc cch thu thp, phương php x l, lc d liu cho h thng tổng hp ting ni • CHƯƠNG 4: CÀI ĐT THỬ NGHIM VÀ ĐÁNH GIÁ KẾT QUẢ: Chương ch yu ni v cch thc cài đt, th nghim đnh gi kt qu h thng tổng hp ting ni đ đưc xây dng • Phn KẾT LUẬN: Phn phn kt lun v lun văn cng nhng phương hưng nghiên cu, ci thin 10

Ngày đăng: 22/01/2024, 16:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w