1 Mục lục Danh mục hình vẽ 2 1 Tính cấp thiết 3 2 Mục tiêu 3 3 Cách tiếp cận 3 4 Phương pháp nghiên cứu 3 5 Phạm vi nghiên cứu 3 6 Nội dung nghiên cứu và kết quả đạt được 4 6 1 Tổng quan về tổng hợp t[.]
Mục lục Danh mục hình vẽ Tính cấp thiết Mục tiêu 3 Cách tiếp cận Phương pháp nghiên cứu: Phạm vi nghiên cứu: Nội dung nghiên cứu kết đạt được: 6.1 Tổng quan tổng hợp tiếng nói 6.2 Tổng hợp tiếng nói theo phương pháp học sâu 6.3 Kết luận kiến nghị 12 Danh sách từ viết tắt 13 Tài liệu tham khảo 14 Danh mục hình vẽ Hình Sơ đồ tổng quát hệ thống tổng hợp tiếng nói (nguồn (Trang et al 2014)) Hình Tổng hợp tiếng nói dựa DNN [Ze et al 2013] Hình Mơ hình chung tổng hợp tiếng nói dựa phương pháp học sâu [Simon King et al 2017] Hình Cấu trúc mơ đun tạo tham số đặc trưng Hình Tổng quan hệ thống WORLD vocoder [Morise et al 2016] 10 Hình Tổng hợp tiếng nói với WORLD vocoder [Morise et al 2016] 10 Hình Quá trình huấn luyện và tổng hợp hệ thống tổng hợp tiếng nói dựa mơ hình mạng nơ ron học sâu 11 Tính cấp thiết Hiện nay, tổng hợp tiếng nói có nhiều ứng dụng thực tiễn sống Ví dụ hệ thống giúp người có thị lực (hoặc khiếm thị) nghe máy đọc văn bản; đặc biệt là văn xử lý máy tính Hệ thống lắp đặt phần mềm xử lý văn hay trình duyệt mạng Trong phạm vi báo cáo này, tơi trình bày tìm hiểu tổng hợp tiếng nói theo phương pháp học sâu Mục tiêu Nắm tổng hợp tiếng nói theo phương pháp học sâu Cách tiếp cận Đề tài tiếp cận vấn đề nhằm đạt đến mục tiêu từ góc độ sau: • Tiếp cận từ thực tiễn: khảo sát, đánh giá, phát điểm yếu phương pháp tổng hợp tiếng nói • Tiếp cận từ sở lý thuyết: khảo sát, đánh giá mức độ tốt phương pháp tổng hợp, để từ cải tiến, đề xuất định dạng mới, phù hợp với mục tiêu đề • Tiếp cận từ xu hướng phát triển công nghệ đại Phương pháp nghiên cứu: Phương pháp phân tích lý thuyết: Nghiên cứu Lý thuyết tổng quan tổng hợp tiếng nói Phương pháp thực nghiệm: thực trực tiếp tính mới, phân tích đánh giá kết Phạm vi nghiên cứu: Phương pháp tổng hợp tiếng nói theo phương pháp học sâu Nội dung nghiên cứu kết đạt được: 6.1 Tổng quan tổng hợp tiếng nói Tổng hợp tiếng nói q trình tạo tiếng nói người từ văn bản, hệ thống tổng hợp tiếng nói hệ thống nhận đầu vào văn tạo tín hiệu tiếng nói tương ứng đầu Hiện nay, để xây dựng hệ tổng hợp tiếng nói, ta sử dụng phương pháp tổng hợp sau: Phương pháp tổng hợp mô hệ thống phát âm, Phương pháp tổng hợp tần số formant, Phương pháp tổng hợp dựa ghép nối, Phương pháp tổng hợp dựa tham số v.v Qua trình phát triển, hệ thống tổng hợp tiếng nói bao gồm hai thành phần chính: (1) khối phân tích xử lý ngơn ngữ tự nhiên hay cịn gọi khối tổng hợp mức cao; (2) khối xử lý tổng hợp tiếng nói có nhiệm vụ tổng hợp tiếng nói hay cịn gọi khối tổng hợp mức thấp Hình Sơ đồ tổng quát hệ thống tổng hợp tiếng nói (nguồn (Trang et al 2014)) Tổng hợp mức cao có nhiệm vụ chuyển đổi ký tự văn đầu vào thành dạng chuỗi ngữ âm thiết kế trước hệ thống TTS Nghĩa là, chuyển đổi chuỗi văn đầu vào thành dạng biểu diễn ngữ âm, xác định cách đọc nội dung văn Q trình này địi hỏi khả dự đốn ngơn điệu từ văn đầu vào với thông tin ngữ âm và ngữ điệu tương ứng Từ thông tin ngôn điệu và ngữ âm là chuỗi nhãn phụ thuộc ngữ cảnh mức âm vị văn đầu vào Khối tổng hợp mức thấp chọn tham số thích hợp từ tập giá trị tần số bản, phổ tín hiệu, trường độ âm (bao gồm âm vị và âm tiết) Sau tiếng nói dạng sóng tín hiệu tạo kĩ thuật tổng hợp Khối xử lý ngôn ngữ tự nhiên Trong hệ thống tổng hợp tiếng nói, khối xử lý ngơn ngữ tự nhiên có nhiệm vụ trích chọn thơng tin ngữ âm, ngữ điệu văn đầu vào Thông tin ngữ âm cho biết âm nào phát hoàn cảnh cụ thể nào, thông tin ngữ điệu mơ tả điệu tính âm phát Q trình xử lý ngơn ngữ tự nhiên thường bao gồm ba bước: Xử lý và chuẩn hóa văn (Text Processing) Phân tích cách phát âm (Chuyển đổi hình vị sang âm vị Grapheme to phoneme) Mơ hình hóa thơng tin ngơn điệu, ngữ âm cho văn (Prosody modeling) Chuẩn hố văn Chuẩn hóa văn là q trình chuyển hóa văn thơ ban đầu thành văn dạng chuẩn, đọc cách dễ dàng, ví dụ chuyển đổi số, từ viết tắt, ký tự đặc biệt, v.v thành dạng viết đầy đủ xác Chuẩn hố văn định xem làm nào đọc từ không chuẩn, từ này vốn là từ mà áp dụng quy tắc “ký tự - thành – âm thanh” chẳng hạn từ “Nato” (Na tô), “WTO” ( vê kép tê ơ) Q trình này có vai trị quan đến việc định chất lượng hệ tổng hợp tiếng Hầu hết văn lúc nào bao gồm toàn từ dạng chuẩn phát âm xác, chúng thường chứa nhiều cấu trúc đặc biệt, từ khồng chuẩn mà đọc việc áp dụng quy tắc “ký tự thành – âm thanh” thơng thường Ví dụ, chúng là số liệu, chữ viết tắt (như GD viết tắt cho “Giáo Dục”), cấu trúc biểu diễn thời gian và ngày tháng (như 10h30 1/1/2016), tên nước ngoài địa danh (như New York), chữ số La Mã, v.v Chuẩn hóa văn là vấn đề khó với nhiều nhập nhằng cách đọc Trong số ngôn ngữ khác nhau, từ phát âm khác tuỳ theo ngữ cảnh Ví dụ, với việc chọn phát âm chữ số là vấn đề Lý là có nhiều cách phát âm chữ số khác và phụ thuộc vào ngữ cảnh khác Ví dụ số 12345 đọc là “Mười hai nghìn ba trăm bốn mươi lăm” là số tự nhiên số lượng, đọc là “một hai ba bốn năm” là mã số tài khoản Khi hệ thống tổng hợp phải có nhiệm vụ đốn văn cảnh việc quan sát từ kế cận, số hay dấu câu bên cạnh, dùng trường hợp mặc định khơng thể phân định Chuyển đổi hình vị sang âm vị (Phân tích cách phát âm) Chuyền đổi từ hình vị sang âm vị nhằm mục đích xác định cách phát âm hình vị Phân tích cách phát âm là trình xác định cách phát âm xác cho văn bản, hệ thống tổng hợp tiếng nói dùng hai cách để xác định cách phát âm cho văn Cách thứ và đơn giản là dựa vào từ điển, sử dụng từ điển lớn có chứa tất từ ngôn ngữ và chứa cách phát âm tương ứng cho từ Việc xác định cách phát âm cho từ đơn giản là tra từ điển và thay đoạn văn chuỗi âm vị ghi từ điển Cách thứ hai là dựa quy tắc và sử dụng quy tắc để tìm cách phát âm tương ứng Mỗi cách có ưu nhược điểm khác nhau, cách dựa từ điển nhanh và xác, khơng hoạt động từ phát âm khơng có từ điển Và lượng từ vựng cần lưu là lớn Cách dùng quy tắc phù hợp với văn độ phức tạp tăng cao ngơn ngữ có nhiều trường hợp bất quy tắc Mơ hình hóa thơng tin ngơn điệu Xác định ngữ điệu, trọng âm và khoảng thời gian tiếng từ văn viết là vấn đề khó khăn đối với hệ tổng hợp tiếng Các đặc tính này gọi là ngơn điệu và xem xét là giai điệu, nhịp điệu và nhấn mạnh tiếng nói mức cảm giác Ngữ điệu có nghĩa là thay đổi tần số thời gian nói Ngơn điệu tiếng nói liên tục phụ thuộc vào nhiều yếu tố nghĩa câu, đặc trưng và cảm xúc người nói Mơ hình hóa thơng tin ngôn điệu cho văn là việc xác định vị trí trọng âm từ phát âm, lên xuống giọng vị trí khác câu và xác định biến thể khác âm phụ thuộc vào ngữ cảnh phát âm ngơn ngữ lưu liên tục, ngoài q trình này phải xác định điểm dừng nghỉ lấy phát âm đọc đoạn văn Thông tin thời gian (duration) đo đơn vị xen ti giây (centi second) mi li giây (mili second), và ước lượng dựa quy tắc thuật toán học máy Cao độ (pitch) là tương quan mặt cảm nhận tần số F0, biểu thị theo đơn vị Hz phân số tông (tones) (nửa tông, phần hai tông) Tần số F0 là đặc trưng quan trọng việc tạo ngôn điệu tín hiệu tiếng nói, việc tạo đặc trưng cao độ là vấn đề phức tạp và quan trọng tổng hợp tiếng nói Khối xử lý tổng hợp tiếng nói Chuỗi nhãn văn và thơng tin ngơn điệu đưa sang khối xử lý tổng hợp sau qua khối xử lý ngôn ngữ tự nhiên hệ thống TTS Tại đây, thành phần chức khối này có nhiệm vụ tạo dạng sóng tín hiệu tiếng nói Tiếng nói sinh theo nhiều cách khác và phương pháp tổng hợp áp dụng tuỳ theo vào tiêu chí cụ thể Việc phân loại phương pháp tổng hợp tiếng nói phụ thuộc vào tiếng nói tổng hợp từ từ tham số nhân tạo (các tần số formant), hay từ mẫu tiếng nói thu âm trước Các phương pháp tổng hợp tiếng nói kể tới gồm: Phương pháp tổng hợp mô hệ thống phát âm, Phương pháp tổng hợp tần số formant, Phương pháp tổng hợp dựa ghép nối, Phương pháp tổng hợp dựa tham số (Chi tiết phương pháp trình bày cơng việc 5.4.) 6.2 Tổng hợp tiếng nói theo phương pháp học sâu Tổng hợp tiếng nói dựa phương pháp học sâu bắt đầu phát triển mạnh mẽ vài năm trở lại đây, phương pháp này xây dựng dựa việc mô hình hóa mơ hình âm học mạng nơ ron học sâu DNN Trong Văn đầu vào chuyển hóa thành véc tơ đặc trưng ngôn ngữ, véc tơ đặc trưng này mang thông tin âm vị, ngữ cảnh xung quanh âm vị, điệu, v.v Sau mơ hình âm học dựa DNN (thay HMM) lấy đầu vào là véc tơ đặc trưng ngôn ngữ và tạo đặc trưng âm học tương ứng đầu Từ đặc trưng âm học này tạo thành tín hiệu tiếng nói nhờ tổng hợp tín hiệu tiếng nói (thường là vocoder) Kiến trúc tổng quan hệ thống tổng hợp tiếng nói dựa mạng nơ ron học sâu DNN mô tả Error! Reference source not found Trong đó, văn cần tổng hợp qua phân tích văn (Text analysis) để trích chọn đặc trưng ngơn ngữ học và chuyển hóa thành véc tơ nhị phân Input feature t t { x x } n n extraction, véc tơ nhị phân đầu vào với là đặc trưng thứ n khung t (frame t { y } thông qua mạng nơ ron m t), véc tơ này tương ứng tạo đặc trưng đầu DNN huấn luyện, với ymt là đặc trưng đầu thứ m khung t Các đặc trưng đầu này chứa thơng tin phổ và tín hiệu kích thích, thơng qua tạo tham số (Parameter Generation) chuyển thành tham số đặc trưng âm học và đưa vào tạo tín hiệu tiếng nói (Waveform generation) để tạo tín hiệu tiếng nói thực Hình Tổng hợp tiếng nói dựa DNN (Ze et al 2013) Mạng nơ ron học sâu DNN dựa lớp nơ ron nhân tạo, có khả mơ hình hóa mối quan hệ phi tuyến phức tạp đầu vào và đầu Đặc biệt trường hợp sử dụng DNN mơ hình hóa cách mạnh mẽ mối quan hệ phi tuyến, phức tạp đặc trưng ngôn ngữ học văn và đặc trưng âm học tín hiệu tiếng nói, nhiên việc sử dụng DNN có hạn chế là mạnh mẽ nên nhạy cảm với thơng tin sai lệch và khơng tốt nhiễu, và cần nhiều liệu để huấn luyện mơ hình Hiện Việt Nam mới phát triển hệ thống tổng hợp tiếng nói dựa phương pháp cũ tổng hợp ghép nối hay tổng hợp sử dụng tham số thống kê Trong giới có phương pháp mới cho tổng hợp tiếng nói phát triển và đạt kết cao, điển hình là tổng hợp dựa mạng nơ ron học sâu DNN, ví dụ hệ thống tổng hợp tiếng nói CSTR hay sản phẩm Google, Baidu, v.v Vì để lựa chọn phương pháp có khả áp dụng nhiều ngơn ngữ theo u cầu đề tài, nhóm thực đề tài lựa chọn triển khai phương pháp tổng hợp tiếng nói dựa phương pháp học sâu Trong hướng tiếp cận này, mạng nơ ron học sâu (DNN) sử dụng để mơ hình hóa mối quan hệ chuỗi ký tự đầu vào và đặc trưng âm học đầu ra, việc sử dụng DNN giải số giới hạn phương pháp thông thường (như HMM GMM) (Ze et al 2013) Error! Reference source not found thể lại phương pháp này sau: Text Text Text Normalization Linguistic Features Extraction Linguistic features Parameter Generation Acoustic features Speech Waveform Generation Hình Mơ hình chung tổng hợp tiếng nói dựa phương pháp học sâu (Simon King et al 2017) Một hệ thống tổng hợp tiếng nói gồm mơ đun và là mơ đun tổng hợp tiếng nói dựa cơng nghệ học sâu: Text normalization: Mơ đun chuẩn hóa văn đầu vào, mô đun này nhận đầu vào là văn thơ sau chuyển hóa thành văn đọc là: chuyển từ viết tắt thành chuỗi từ, chuyển số thành chữ, chuyển từ tiếng nước sang dạng phiên âm,… Mơ đun trích chọn đặc trưng ngơn ngữ: văn đầu vào xử lý, phân tích và trích chọn Linguistic Features Extraction thành vec tơ đặc trưng ngôn ngữ học, vec tơ này thường bao gồm thông tin chuỗi âm vị, vị trí tương đối âm vị câu, cụm từ hay từ, số lượng âm vị câu, cụm từ hay từ,… Bộ Parameter Generation Mô đun tạo tham số, mơ đun này có thành phần là mơ hình âm học, nhận đầu vào là đặc trưng âm học lưu tệp nhãn tạo “Linguistic Feature Extraction” và tạo tham số đặc trưng âm học đầu Trong trường hợp hệ thống tổng hợp tiếng nói xây dựng dựa phương pháp học sâu, này sử dụng mạng nơ ron học sâu DNN để mơ hình hóa mơ hình Mơ đun tạo tín hiệu tiếng nói: Các đặc trưng âm học chuyển hóa thành tín hiệu tiếng nói nhờ Waveform Generation (hay gọi là Vocoder) Mô đun tạo tham tham số đặc trưng âm học (Parameter Generation) có nhiệm vụ lấy đầu vào là véc tơ đặc trưng ngơn ngơn ngữ học trích phần trước, hay là dịng lưu label file Đầu mô đun này là đặc trưng âm học bao gồm thông tin như: F0 là tần số bản, SP là đường bao phổ, BAP chứa thông tin thành phần không tuần hoàn Cấu trúc mô đun tạo tham số đặc trưng âm học mô tả Error! Reference source not found., mơ đun này cấu tạo ba phần là chuẩn hóa đặc trưng đầu vào (Label Normalization), mơ hình khoảng thời gian (Duration Model), mơ hình âm học (Acoustic model) Linguistic features Binary label normalized Label Normalization Label with time stamp Duration Model Acoustic Features Acoustic Model F0, Bap, sp Hình Cấu trúc mơ đun tạo tham số đặc trưng Mơ hình khoảng thời gian (Duration Model), nhận đầu vào là véc tơ đặc trưng ngôn ngữ học, và đầu này là véc tơ đặc trưng ngôn ngữ học cộng thêm với thông tin thời gian xuất (thời điểm bắt đầu và kết thúc) âm vị Mô đun này huấn luyện mơ hình mạng nơ ron với đầu vào là véc tơ đặc trưng ngôn ngữ học và đầu là thông tin thời gian xuất âm vị tương ứng Mơ hình âm học (Acoustic Model), nhận đầu vào là véc tơ chứa đặc trưng ngôn ngữ học và thông tin thời gian xuất âm vị tương ứng véc tơ đặc trưng ngôn ngữ học, và trả đầu là véc tơ đặc trưng âm học tín hiệu tiếng nói Véc tơ đặc trưng âm học chứa thông tin cụ thể sau: Véc tơ 60 chiều hệ số Mel mang thông tin đường bao phổ, véc tơ chiều tham số không tuần hoàn (Bap), lô ga rit tần số F0 Các véc tơ đặc trưng ngôn ngữ học là đầu vào cho mơ đun vocoder để tạo tín hiệu tiếng nói Mơ hình âm học này mơ hình hóa sử dụng mạng nơ ron học sâu Mô đun tạo tín hiệu tiếng nói (hay gọi là Vocoder), là hệ thống phân tích và tổng hợp tín hiệu tiếng nói người Trong tổng hợp tiếng nói dựa mạng nơ ron học sâu, vocoder sử dụng hai trình huấn luyện và tổng hợp tiếng nói Trong q trình huấn luyện, vocoder sử dụng để phân tích liệu âm thành đặc trưng âm học, đặc trưng này sử dụng để huấn luyện mạng nơ ron học sâu Trong trình tổng hợp, đặc trưng âm học tiếng nói tạo mạng nơ ron học sâu là đầu vào cho vocoder để tạo thành tín hiệu tiếng nói Có nhiều loại vocoder khác phát triển để cải thiện chất lượng phân tích và tổng hợp tiếng nói Straight vocoder (Kawahara 2006), World vocoder (Morise et al 2016), Magphase vocoder (Espic et al 2017),… Trong phần này trình bày vocoder vô mạnh mẽ, phát triển để cải thiện chất lượng âm ứng dụng thời gian thực và sử dụng để xây dựng hệ thống tổng hợp tiếng nói báo cáo này, là WORLD vocoder WORLD vocoder sử dụng để trích chọn đặc trưng âm học và tổng hợp tiếng nói từ đặc trưng này, bao gồm: Đường bao phổ tín hiệu, Các thành phần không tuần hoàn (Aperiodicities), và tần số F0 Hình Tổng quan về hệ thống WORLD vocoder (Morise et al 2016) Error! Reference source not found mô tả trình xử lý WORLD vocoder hai giai đoạn phân tích và tổng hợp tín hiệu tiếng nói Trong giai đoạn phân tích, tần số F0 ước lượng phương pháp DIO (Morise et al 2009), đường bao phổ ước lượng phương pháp CheapTrick(Morise 2015), và tín hiệu kích ước lượng phương pháp PLATINUM (Morise 2012), sử dụng tham số không tuần hoàn Trong giai đoạn tổng hợp, âm tổng hợp tính cách nhân chập tín hiệu kích thích và đáp ứng pha tối thiểu (Error! Reference source not found.) Hình Tổng hợp tiếng nói với WORLD vocoder (Morise et al 2016) Như thấy hai q trình hệ thống tổng hợp tiếng nói dựa mạng nơ ron học sâu là q trình huấn luyện mơ hình và tổng hợp tiếng nói từ mơ hình huấn luyện (Error! Reference source not found.) 10 Audio files TRAINING PART VOCODER DATABASE Audio files Text Linguistic Feature Extraction F0, BAP, SP Labels Aligned Labels Label Aligner Training of DNN Training of DNN Time Labels Linguistic Feature Extraction SYNTHESIS PART Time Labels Labels Text DURATION MODEL ACOUSTIC MODEL F0, BAP, SP VOCODER Speech Hình Quá trình huấn luyện và tổng hợp một hệ thống tổng hợp tiếng nói dựa mô hình mạng nơ ron học sâu Q trình huấn luyện hệ thống tổng hợp tiếng nói bao gồm giai đoạn sau: Giai đoạn là huấn luyện mơ hình khoảng thời gian Duration model và giai đoạn hai huấn luyện mơ hình âm học Trong giai đoạn một, liệu đầu vào huấn luyện gồm có tập âm và văn tương ứng Các tập văn này trích chọn đặc trưng ngôn ngữ thông qua Linguistic Feature Extraction, đầu là đặc trưng ngôn ngữ học biểu diễn dưới dạng nhãn Các nhãn này đưa vào Label Aligner với tệp âm Bộ label aligner là tính toán thời gian xuất âm vị sử dụng force alignment Kết đầu Label Aligner là nhãn đặc trưng âm học và kèm thêm thông tin thời gian xuất âm vị tương ứng với nhãn Hai thơng tin đưa vào huấn luyện mơ hình khoảng thời gian Duration Model: với đầu vào là nhãn đặc trưng âm học và đầu mạng là thời gian xuất âm vị tương ứng với nhãn Sau huấn luyện xong, mơ hình khoảng thời gian sử dụng để ước lượng lại thời gian xuất âm vị, thay cho kết Label Aligner dùng HMM Thông tin thời gian mới âm vị ước lượng mơ hình khoảng thời gian thay thông tin thời gian cũ nhãn Giai đoạn hai, Bộ Vocoder (cụ thể là WORLD vocooder) sử dụng để trích chọn đặc trưng âm học từ tệp âm đầu vào, đặc trưng âm học này bao gồm thông tin tần số F0, đường bao phổ SP và tham số không tuần hoàn BAP Các đặc trưng âm học này, kết hợp với nhãn mang thông tin đặc trưng ngôn ngữ và thời gian xuất âm vị (đầu mơ hình khoảng thời gian duration model) đưa vào huấn luyện cho mơ hình âm học (Acoustic model): đầu vào là nhãn mang thông tin đặc trưng ngôn ngữ và thời gian xuất âm vị, đầu là đặc trưng âm học từ tệp âm Q trình tổng hợp tiếng nói từ văn bản: văn đầu vào đưa qua Linguistic Feature Extraction để tạo nhãn (Labels) mang thông tin đặc trưng âm học Các nhãn đặc trưng âm học đưa qua mơ hình khoảng thời gian (Duration Model), kết nhận là nhãn mới có thêm thơng tin thời gian xuất 11 âm vị tương ứng Các nhãn mới này đưa qua mơ hình âm học, từ mơ hình âm học ta có đặc trưng âm học tần số F0, đường bao phổ SP, tham số không tuần hoàn BAP Các đặc trưng âm học này đưa vào vocoder để tạo tín hiệu tiếng nói 6.3 Kết luận kiến nghị - Phương pháp tổng hợp tiếng nói theo phương pháp học sâu phương pháp đại, có chất lượng tốt cho hệ thống TTS - Tôi đề nghị sinh viên nghiên cứu tổng hợp tiếng nói theo phương pháp học sâu để giúp hữu ích cho môn Trí tuệ nhân tạo, Hệ chuyên gia 12 Danh sách từ viết tắt Chữ viết Tiếng Anh Tiếng Việt tắt/ Ký hiệu TTS Text to speech Tổng hợp tiếng nói VB Visual Basic Ngơn ngữ lập trình VB 13 Tài liệu tham khảo Espic F, Botinhao CV, King S (2017) Direct Modelling of Magnitude and Phase Spectra for Statistical Parametric Speech Synthesis ISCA, pp 1383–1387 Kawahara H (2006) Straight, exploitation of the other aspect of Vocoder: Perceptually isomorphic decomposition of speech sounds Acoust Sci Technol 27:349–353 https://doi.org/10.1250/ast.27.349 Morise M (2015) CheapTrick, a spectral envelope estimator for high-quality speech synthesis Speech Commun 67:1–7 https://doi.org/10.1016/j.specom.2014.09.003 Morise M (2012) PLATINUM: A method to extract excitation signals for voice synthesis system Acoust Sci Technol 33:123–125 https://doi.org/10.1250/ast.33.123 Morise M, Kawahara H, Katayose H (2009) Fast and reliable F0 estimation method based on the period extraction of vocal fold vibration of singing voice and speech In: Audio Engineering Society Conference: 35th International Conference: Audio for Games Audio Engineering Society Morise M, Yokomori F, Ozawa K (2016) WORLD: A Vocoder-Based HighQuality Speech Synthesis System for Real-Time Applications IEICE Trans Inf Syst E99.D:1877–1884 https://doi.org/10.1587/transinf.2015EDP7457 Simon King, Oliver Watts, Srikanth Ronanki, Felipe Espic, Zhizheng Wu (2017) Deep Learning for Text-to-Speech Synthesis, using the Merlin toolkit Trang NTT, Rilliard A, D’Alessandro C (2014) Prosodic phrasing modeling for Vietnamese TTS using syntactic information INTERSPEECH Ze H, Senior A, Schuster M (2013) Statistical parametric speech synthesis using deep neural networks IEEE, pp 7962–7966 14