Bao Cao Dongpv 2021-2022 Tìm Hiểu Về Tổng Hợp Tiếng Nói Theo Phương Pháp Học Sâu.pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	14
Dung lượng	796,83 KB

Nội dung

1 Mục lục Danh mục hình vẽ 2 1 Tính cấp thiết 3 2 Mục tiêu 3 3 Cách tiếp cận 3 4 Phương pháp nghiên cứu 3 5 Phạm vi nghiên cứu 3 6 Nội dung nghiên cứu và kết quả đạt được 4 6 1 Tổng quan về tổng hợp t[.]

Mục lục Danh mục hình vẽ Tính cấp thiết Mục tiêu 3 Cách tiếp cận Phương pháp nghiên cứu: Phạm vi nghiên cứu: Nội dung nghiên cứu kết đạt được: 6.1 Tổng quan tổng hợp tiếng nói 6.2 Tổng hợp tiếng nói theo phương pháp học sâu 6.3 Kết luận kiến nghị 12 Danh sách từ viết tắt 13 Tài liệu tham khảo 14 Danh mục hình vẽ Hình Sơ đồ tổng quát hệ thống tổng hợp tiếng nói (nguồn (Trang et al 2014)) Hình Tổng hợp tiếng nói dựa DNN [Ze et al 2013] Hình Mơ hình chung tổng hợp tiếng nói dựa phương pháp học sâu [Simon King et al 2017] Hình Cấu trúc mơ đun tạo tham số đặc trưng Hình Tổng quan hệ thống WORLD vocoder [Morise et al 2016] 10 Hình Tổng hợp tiếng nói với WORLD vocoder [Morise et al 2016] 10 Hình Quá trình huấn luyện và tổng hợp hệ thống tổng hợp tiếng nói dựa mơ hình mạng nơ ron học sâu 11 Tính cấp thiết Hiện nay, tổng hợp tiếng nói có nhiều ứng dụng thực tiễn sống Ví dụ hệ thống giúp người có thị lực (hoặc khiếm thị) nghe máy đọc văn bản; đặc biệt là văn xử lý máy tính Hệ thống lắp đặt phần mềm xử lý văn hay trình duyệt mạng Trong phạm vi báo cáo này, tơi trình bày tìm hiểu tổng hợp tiếng nói theo phương pháp học sâu Mục tiêu Nắm tổng hợp tiếng nói theo phương pháp học sâu Cách tiếp cận Đề tài tiếp cận vấn đề nhằm đạt đến mục tiêu từ góc độ sau: • Tiếp cận từ thực tiễn: khảo sát, đánh giá, phát điểm yếu phương pháp tổng hợp tiếng nói • Tiếp cận từ sở lý thuyết: khảo sát, đánh giá mức độ tốt phương pháp tổng hợp, để từ cải tiến, đề xuất định dạng mới, phù hợp với mục tiêu đề • Tiếp cận từ xu hướng phát triển công nghệ đại Phương pháp nghiên cứu: Phương pháp phân tích lý thuyết: Nghiên cứu Lý thuyết tổng quan tổng hợp tiếng nói Phương pháp thực nghiệm: thực trực tiếp tính mới, phân tích đánh giá kết Phạm vi nghiên cứu: Phương pháp tổng hợp tiếng nói theo phương pháp học sâu Nội dung nghiên cứu kết đạt được: 6.1 Tổng quan tổng hợp tiếng nói Tổng hợp tiếng nói q trình tạo tiếng nói người từ văn bản, hệ thống tổng hợp tiếng nói hệ thống nhận đầu vào văn tạo tín hiệu tiếng nói tương ứng đầu Hiện nay, để xây dựng hệ tổng hợp tiếng nói, ta sử dụng phương pháp tổng hợp sau: Phương pháp tổng hợp mô hệ thống phát âm, Phương pháp tổng hợp tần số formant, Phương pháp tổng hợp dựa ghép nối, Phương pháp tổng hợp dựa tham số v.v Qua trình phát triển, hệ thống tổng hợp tiếng nói bao gồm hai thành phần chính: (1) khối phân tích xử lý ngơn ngữ tự nhiên hay cịn gọi khối tổng hợp mức cao; (2) khối xử lý tổng hợp tiếng nói có nhiệm vụ tổng hợp tiếng nói hay cịn gọi khối tổng hợp mức thấp Hình Sơ đồ tổng quát hệ thống tổng hợp tiếng nói (nguồn (Trang et al 2014)) Tổng hợp mức cao có nhiệm vụ chuyển đổi ký tự văn đầu vào thành dạng chuỗi ngữ âm thiết kế trước hệ thống TTS Nghĩa là, chuyển đổi chuỗi văn đầu vào thành dạng biểu diễn ngữ âm, xác định cách đọc nội dung văn Q trình này địi hỏi khả dự đốn ngơn điệu từ văn đầu vào với thông tin ngữ âm và ngữ điệu tương ứng Từ thông tin ngôn điệu và ngữ âm là chuỗi nhãn phụ thuộc ngữ cảnh mức âm vị văn đầu vào Khối tổng hợp mức thấp chọn tham số thích hợp từ tập giá trị tần số bản, phổ tín hiệu, trường độ âm (bao gồm âm vị và âm tiết) Sau tiếng nói dạng sóng tín hiệu tạo kĩ thuật tổng hợp Khối xử lý ngôn ngữ tự nhiên Trong hệ thống tổng hợp tiếng nói, khối xử lý ngơn ngữ tự nhiên có nhiệm vụ trích chọn thơng tin ngữ âm, ngữ điệu văn đầu vào Thông tin ngữ âm cho biết âm nào phát hoàn cảnh cụ thể nào, thông tin ngữ điệu mơ tả điệu tính âm phát Q trình xử lý ngơn ngữ tự nhiên thường bao gồm ba bước: Xử lý và chuẩn hóa văn (Text Processing) Phân tích cách phát âm (Chuyển đổi hình vị sang âm vị Grapheme to phoneme) Mơ hình hóa thơng tin ngơn điệu, ngữ âm cho văn (Prosody modeling) Chuẩn hố văn Chuẩn hóa văn là q trình chuyển hóa văn thơ ban đầu thành văn dạng chuẩn, đọc cách dễ dàng, ví dụ chuyển đổi số, từ viết tắt, ký tự đặc biệt, v.v thành dạng viết đầy đủ xác Chuẩn hố văn định xem làm nào đọc từ không chuẩn, từ này vốn là từ mà áp dụng quy tắc “ký tự - thành – âm thanh” chẳng hạn từ “Nato” (Na tô), “WTO” ( vê kép tê ơ) Q trình này có vai trị quan đến việc định chất lượng hệ tổng hợp tiếng Hầu hết văn lúc nào bao gồm toàn từ dạng chuẩn phát âm xác, chúng thường chứa nhiều cấu trúc đặc biệt, từ khồng chuẩn mà đọc việc áp dụng quy tắc “ký tự thành – âm thanh” thơng thường Ví dụ, chúng là số liệu, chữ viết tắt (như GD viết tắt cho “Giáo Dục”), cấu trúc biểu diễn thời gian và ngày tháng (như 10h30 1/1/2016), tên nước ngoài địa danh (như New York), chữ số La Mã, v.v Chuẩn hóa văn là vấn đề khó với nhiều nhập nhằng cách đọc Trong số ngôn ngữ khác nhau, từ phát âm khác tuỳ theo ngữ cảnh Ví dụ, với việc chọn phát âm chữ số là vấn đề Lý là có nhiều cách phát âm chữ số khác và phụ thuộc vào ngữ cảnh khác Ví dụ số 12345 đọc là “Mười hai nghìn ba trăm bốn mươi lăm” là số tự nhiên số lượng, đọc là “một hai ba bốn năm” là mã số tài khoản Khi hệ thống tổng hợp phải có nhiệm vụ đốn văn cảnh việc quan sát từ kế cận, số hay dấu câu bên cạnh, dùng trường hợp mặc định khơng thể phân định Chuyển đổi hình vị sang âm vị (Phân tích cách phát âm) Chuyền đổi từ hình vị sang âm vị nhằm mục đích xác định cách phát âm hình vị Phân tích cách phát âm là trình xác định cách phát âm xác cho văn bản, hệ thống tổng hợp tiếng nói dùng hai cách để xác định cách phát âm cho văn Cách thứ và đơn giản là dựa vào từ điển, sử dụng từ điển lớn có chứa tất từ ngôn ngữ và chứa cách phát âm tương ứng cho từ Việc xác định cách phát âm cho từ đơn giản là tra từ điển và thay đoạn văn chuỗi âm vị ghi từ điển Cách thứ hai là dựa quy tắc và sử dụng quy tắc để tìm cách phát âm tương ứng Mỗi cách có ưu nhược điểm khác nhau, cách dựa từ điển nhanh và xác, khơng hoạt động từ phát âm khơng có từ điển Và lượng từ vựng cần lưu là lớn Cách dùng quy tắc phù hợp với văn độ phức tạp tăng cao ngơn ngữ có nhiều trường hợp bất quy tắc Mơ hình hóa thơng tin ngơn điệu Xác định ngữ điệu, trọng âm và khoảng thời gian tiếng từ văn viết là vấn đề khó khăn đối với hệ tổng hợp tiếng Các đặc tính này gọi là ngơn điệu và xem xét là giai điệu, nhịp điệu và nhấn mạnh tiếng nói mức cảm giác Ngữ điệu có nghĩa là thay đổi tần số thời gian nói Ngơn điệu tiếng nói liên tục phụ thuộc vào nhiều yếu tố nghĩa câu, đặc trưng và cảm xúc người nói Mơ hình hóa thơng tin ngôn điệu cho văn là việc xác định vị trí trọng âm từ phát âm, lên xuống giọng vị trí khác câu và xác định biến thể khác âm phụ thuộc vào ngữ cảnh phát âm ngơn ngữ lưu liên tục, ngoài q trình này phải xác định điểm dừng nghỉ lấy phát âm đọc đoạn văn Thông tin thời gian (duration) đo đơn vị xen ti giây (centi second) mi li giây (mili second), và ước lượng dựa quy tắc thuật toán học máy Cao độ (pitch) là tương quan mặt cảm nhận tần số F0, biểu thị theo đơn vị Hz phân số tông (tones) (nửa tông, phần hai tông) Tần số F0 là đặc trưng quan trọng việc tạo ngôn điệu tín hiệu tiếng nói, việc tạo đặc trưng cao độ là vấn đề phức tạp và quan trọng tổng hợp tiếng nói Khối xử lý tổng hợp tiếng nói Chuỗi nhãn văn và thơng tin ngơn điệu đưa sang khối xử lý tổng hợp sau qua khối xử lý ngôn ngữ tự nhiên hệ thống TTS Tại đây, thành phần chức khối này có nhiệm vụ tạo dạng sóng tín hiệu tiếng nói Tiếng nói sinh theo nhiều cách khác và phương pháp tổng hợp áp dụng tuỳ theo vào tiêu chí cụ thể Việc phân loại phương pháp tổng hợp tiếng nói phụ thuộc vào tiếng nói tổng hợp từ từ tham số nhân tạo (các tần số formant), hay từ mẫu tiếng nói thu âm trước Các phương pháp tổng hợp tiếng nói kể tới gồm: Phương pháp tổng hợp mô hệ thống phát âm, Phương pháp tổng hợp tần số formant, Phương pháp tổng hợp dựa ghép nối, Phương pháp tổng hợp dựa tham số (Chi tiết phương pháp trình bày cơng việc 5.4.) 6.2 Tổng hợp tiếng nói theo phương pháp học sâu Tổng hợp tiếng nói dựa phương pháp học sâu bắt đầu phát triển mạnh mẽ vài năm trở lại đây, phương pháp này xây dựng dựa việc mô hình hóa mơ hình âm học mạng nơ ron học sâu DNN Trong Văn đầu vào chuyển hóa thành véc tơ đặc trưng ngôn ngữ, véc tơ đặc trưng này mang thông tin âm vị, ngữ cảnh xung quanh âm vị, điệu, v.v Sau mơ hình âm học dựa DNN (thay HMM) lấy đầu vào là véc tơ đặc trưng ngôn ngữ và tạo đặc trưng âm học tương ứng đầu Từ đặc trưng âm học này tạo thành tín hiệu tiếng nói nhờ tổng hợp tín hiệu tiếng nói (thường là vocoder) Kiến trúc tổng quan hệ thống tổng hợp tiếng nói dựa mạng nơ ron học sâu DNN mô tả Error! Reference source not found Trong đó, văn cần tổng hợp qua phân tích văn (Text analysis) để trích chọn đặc trưng ngơn ngữ học và chuyển hóa thành véc tơ nhị phân Input feature t t { x x } n n extraction, véc tơ nhị phân đầu vào với là đặc trưng thứ n khung t (frame t { y } thông qua mạng nơ ron m t), véc tơ này tương ứng tạo đặc trưng đầu DNN huấn luyện, với ymt là đặc trưng đầu thứ m khung t Các đặc trưng đầu này chứa thơng tin phổ và tín hiệu kích thích, thơng qua tạo tham số (Parameter Generation) chuyển thành tham số đặc trưng âm học và đưa vào tạo tín hiệu tiếng nói (Waveform generation) để tạo tín hiệu tiếng nói thực Hình Tổng hợp tiếng nói dựa DNN (Ze et al 2013) Mạng nơ ron học sâu DNN dựa lớp nơ ron nhân tạo, có khả mơ hình hóa mối quan hệ phi tuyến phức tạp đầu vào và đầu Đặc biệt trường hợp sử dụng DNN mơ hình hóa cách mạnh mẽ mối quan hệ phi tuyến, phức tạp đặc trưng ngôn ngữ học văn và đặc trưng âm học tín hiệu tiếng nói, nhiên việc sử dụng DNN có hạn chế là mạnh mẽ nên nhạy cảm với thơng tin sai lệch và khơng tốt nhiễu, và cần nhiều liệu để huấn luyện mơ hình Hiện Việt Nam mới phát triển hệ thống tổng hợp tiếng nói dựa phương pháp cũ tổng hợp ghép nối hay tổng hợp sử dụng tham số thống kê Trong giới có phương pháp mới cho tổng hợp tiếng nói phát triển và đạt kết cao, điển hình là tổng hợp dựa mạng nơ ron học sâu DNN, ví dụ hệ thống tổng hợp tiếng nói CSTR hay sản phẩm Google, Baidu, v.v Vì để lựa chọn phương pháp có khả áp dụng nhiều ngơn ngữ theo u cầu đề tài, nhóm thực đề tài lựa chọn triển khai phương pháp tổng hợp tiếng nói dựa phương pháp học sâu Trong hướng tiếp cận này, mạng nơ ron học sâu (DNN) sử dụng để mơ hình hóa mối quan hệ chuỗi ký tự đầu vào và đặc trưng âm học đầu ra, việc sử dụng DNN giải số giới hạn phương pháp thông thường (như HMM GMM) (Ze et al 2013) Error! Reference source not found thể lại phương pháp này sau: Text Text Text Normalization Linguistic Features Extraction Linguistic features Parameter Generation Acoustic features Speech Waveform Generation Hình Mơ hình chung tổng hợp tiếng nói dựa phương pháp học sâu (Simon King et al 2017) Một hệ thống tổng hợp tiếng nói gồm mơ đun và là mơ đun tổng hợp tiếng nói dựa cơng nghệ học sâu: Text normalization: Mơ đun chuẩn hóa văn đầu vào, mô đun này nhận đầu vào là văn thơ sau chuyển hóa thành văn đọc là: chuyển từ viết tắt thành chuỗi từ, chuyển số thành chữ, chuyển từ tiếng nước sang dạng phiên âm,… Mơ đun trích chọn đặc trưng ngơn ngữ: văn đầu vào xử lý, phân tích và trích chọn Linguistic Features Extraction thành vec tơ đặc trưng ngôn ngữ học, vec tơ này thường bao gồm thông tin chuỗi âm vị, vị trí tương đối âm vị câu, cụm từ hay từ, số lượng âm vị câu, cụm từ hay từ,… Bộ Parameter Generation Mô đun tạo tham số, mơ đun này có thành phần là mơ hình âm học, nhận đầu vào là đặc trưng âm học lưu tệp nhãn tạo “Linguistic Feature Extraction” và tạo tham số đặc trưng âm học đầu Trong trường hợp hệ thống tổng hợp tiếng nói xây dựng dựa phương pháp học sâu, này sử dụng mạng nơ ron học sâu DNN để mơ hình hóa mơ hình Mơ đun tạo tín hiệu tiếng nói: Các đặc trưng âm học chuyển hóa thành tín hiệu tiếng nói nhờ Waveform Generation (hay gọi là Vocoder) Mô đun tạo tham tham số đặc trưng âm học (Parameter Generation) có nhiệm vụ lấy đầu vào là véc tơ đặc trưng ngơn ngơn ngữ học trích phần trước, hay là dịng lưu label file Đầu mô đun này là đặc trưng âm học bao gồm thông tin như: F0 là tần số bản, SP là đường bao phổ, BAP chứa thông tin thành phần không tuần hoàn Cấu trúc mô đun tạo tham số đặc trưng âm học mô tả Error! Reference source not found., mơ đun này cấu tạo ba phần là chuẩn hóa đặc trưng đầu vào (Label Normalization), mơ hình khoảng thời gian (Duration Model), mơ hình âm học (Acoustic model) Linguistic features Binary label normalized Label Normalization Label with time stamp Duration Model Acoustic Features Acoustic Model F0, Bap, sp Hình Cấu trúc mơ đun tạo tham số đặc trưng Mơ hình khoảng thời gian (Duration Model), nhận đầu vào là véc tơ đặc trưng ngôn ngữ học, và đầu này là véc tơ đặc trưng ngôn ngữ học cộng thêm với thông tin thời gian xuất (thời điểm bắt đầu và kết thúc) âm vị Mô đun này huấn luyện mơ hình mạng nơ ron với đầu vào là véc tơ đặc trưng ngôn ngữ học và đầu là thông tin thời gian xuất âm vị tương ứng Mơ hình âm học (Acoustic Model), nhận đầu vào là véc tơ chứa đặc trưng ngôn ngữ học và thông tin thời gian xuất âm vị tương ứng véc tơ đặc trưng ngôn ngữ học, và trả đầu là véc tơ đặc trưng âm học tín hiệu tiếng nói Véc tơ đặc trưng âm học chứa thông tin cụ thể sau: Véc tơ 60 chiều hệ số Mel mang thông tin đường bao phổ, véc tơ chiều tham số không tuần hoàn (Bap), lô ga rit tần số F0 Các véc tơ đặc trưng ngôn ngữ học là đầu vào cho mơ đun vocoder để tạo tín hiệu tiếng nói Mơ hình âm học này mơ hình hóa sử dụng mạng nơ ron học sâu Mô đun tạo tín hiệu tiếng nói (hay gọi là Vocoder), là hệ thống phân tích và tổng hợp tín hiệu tiếng nói người Trong tổng hợp tiếng nói dựa mạng nơ ron học sâu, vocoder sử dụng hai trình huấn luyện và tổng hợp tiếng nói Trong q trình huấn luyện, vocoder sử dụng để phân tích liệu âm thành đặc trưng âm học, đặc trưng này sử dụng để huấn luyện mạng nơ ron học sâu Trong trình tổng hợp, đặc trưng âm học tiếng nói tạo mạng nơ ron học sâu là đầu vào cho vocoder để tạo thành tín hiệu tiếng nói Có nhiều loại vocoder khác phát triển để cải thiện chất lượng phân tích và tổng hợp tiếng nói Straight vocoder (Kawahara 2006), World vocoder (Morise et al 2016), Magphase vocoder (Espic et al 2017),… Trong phần này trình bày vocoder vô mạnh mẽ, phát triển để cải thiện chất lượng âm ứng dụng thời gian thực và sử dụng để xây dựng hệ thống tổng hợp tiếng nói báo cáo này, là WORLD vocoder WORLD vocoder sử dụng để trích chọn đặc trưng âm học và tổng hợp tiếng nói từ đặc trưng này, bao gồm: Đường bao phổ tín hiệu, Các thành phần không tuần hoàn (Aperiodicities), và tần số F0 Hình Tổng quan về hệ thống WORLD vocoder (Morise et al 2016) Error! Reference source not found mô tả trình xử lý WORLD vocoder hai giai đoạn phân tích và tổng hợp tín hiệu tiếng nói Trong giai đoạn phân tích, tần số F0 ước lượng phương pháp DIO (Morise et al 2009), đường bao phổ ước lượng phương pháp CheapTrick(Morise 2015), và tín hiệu kích ước lượng phương pháp PLATINUM (Morise 2012), sử dụng tham số không tuần hoàn Trong giai đoạn tổng hợp, âm tổng hợp tính cách nhân chập tín hiệu kích thích và đáp ứng pha tối thiểu (Error! Reference source not found.) Hình Tổng hợp tiếng nói với WORLD vocoder (Morise et al 2016) Như thấy hai q trình hệ thống tổng hợp tiếng nói dựa mạng nơ ron học sâu là q trình huấn luyện mơ hình và tổng hợp tiếng nói từ mơ hình huấn luyện (Error! Reference source not found.) 10 Audio files TRAINING PART VOCODER DATABASE Audio files Text Linguistic Feature Extraction F0, BAP, SP Labels Aligned Labels Label Aligner Training of DNN Training of DNN Time Labels Linguistic Feature Extraction SYNTHESIS PART Time Labels Labels Text DURATION MODEL ACOUSTIC MODEL F0, BAP, SP VOCODER Speech Hình Quá trình huấn luyện và tổng hợp một hệ thống tổng hợp tiếng nói dựa mô hình mạng nơ ron học sâu Q trình huấn luyện hệ thống tổng hợp tiếng nói bao gồm giai đoạn sau: Giai đoạn là huấn luyện mơ hình khoảng thời gian Duration model và giai đoạn hai huấn luyện mơ hình âm học Trong giai đoạn một, liệu đầu vào huấn luyện gồm có tập âm và văn tương ứng Các tập văn này trích chọn đặc trưng ngôn ngữ thông qua Linguistic Feature Extraction, đầu là đặc trưng ngôn ngữ học biểu diễn dưới dạng nhãn Các nhãn này đưa vào Label Aligner với tệp âm Bộ label aligner là tính toán thời gian xuất âm vị sử dụng force alignment Kết đầu Label Aligner là nhãn đặc trưng âm học và kèm thêm thông tin thời gian xuất âm vị tương ứng với nhãn Hai thơng tin đưa vào huấn luyện mơ hình khoảng thời gian Duration Model: với đầu vào là nhãn đặc trưng âm học và đầu mạng là thời gian xuất âm vị tương ứng với nhãn Sau huấn luyện xong, mơ hình khoảng thời gian sử dụng để ước lượng lại thời gian xuất âm vị, thay cho kết Label Aligner dùng HMM Thông tin thời gian mới âm vị ước lượng mơ hình khoảng thời gian thay thông tin thời gian cũ nhãn Giai đoạn hai, Bộ Vocoder (cụ thể là WORLD vocooder) sử dụng để trích chọn đặc trưng âm học từ tệp âm đầu vào, đặc trưng âm học này bao gồm thông tin tần số F0, đường bao phổ SP và tham số không tuần hoàn BAP Các đặc trưng âm học này, kết hợp với nhãn mang thông tin đặc trưng ngôn ngữ và thời gian xuất âm vị (đầu mơ hình khoảng thời gian duration model) đưa vào huấn luyện cho mơ hình âm học (Acoustic model): đầu vào là nhãn mang thông tin đặc trưng ngôn ngữ và thời gian xuất âm vị, đầu là đặc trưng âm học từ tệp âm Q trình tổng hợp tiếng nói từ văn bản: văn đầu vào đưa qua Linguistic Feature Extraction để tạo nhãn (Labels) mang thông tin đặc trưng âm học Các nhãn đặc trưng âm học đưa qua mơ hình khoảng thời gian (Duration Model), kết nhận là nhãn mới có thêm thơng tin thời gian xuất 11 âm vị tương ứng Các nhãn mới này đưa qua mơ hình âm học, từ mơ hình âm học ta có đặc trưng âm học tần số F0, đường bao phổ SP, tham số không tuần hoàn BAP Các đặc trưng âm học này đưa vào vocoder để tạo tín hiệu tiếng nói 6.3 Kết luận kiến nghị - Phương pháp tổng hợp tiếng nói theo phương pháp học sâu phương pháp đại, có chất lượng tốt cho hệ thống TTS - Tôi đề nghị sinh viên nghiên cứu tổng hợp tiếng nói theo phương pháp học sâu để giúp hữu ích cho môn Trí tuệ nhân tạo, Hệ chuyên gia 12 Danh sách từ viết tắt Chữ viết Tiếng Anh Tiếng Việt tắt/ Ký hiệu TTS Text to speech Tổng hợp tiếng nói VB Visual Basic Ngơn ngữ lập trình VB 13 Tài liệu tham khảo Espic F, Botinhao CV, King S (2017) Direct Modelling of Magnitude and Phase Spectra for Statistical Parametric Speech Synthesis ISCA, pp 1383–1387 Kawahara H (2006) Straight, exploitation of the other aspect of Vocoder: Perceptually isomorphic decomposition of speech sounds Acoust Sci Technol 27:349–353 https://doi.org/10.1250/ast.27.349 Morise M (2015) CheapTrick, a spectral envelope estimator for high-quality speech synthesis Speech Commun 67:1–7 https://doi.org/10.1016/j.specom.2014.09.003 Morise M (2012) PLATINUM: A method to extract excitation signals for voice synthesis system Acoust Sci Technol 33:123–125 https://doi.org/10.1250/ast.33.123 Morise M, Kawahara H, Katayose H (2009) Fast and reliable F0 estimation method based on the period extraction of vocal fold vibration of singing voice and speech In: Audio Engineering Society Conference: 35th International Conference: Audio for Games Audio Engineering Society Morise M, Yokomori F, Ozawa K (2016) WORLD: A Vocoder-Based HighQuality Speech Synthesis System for Real-Time Applications IEICE Trans Inf Syst E99.D:1877–1884 https://doi.org/10.1587/transinf.2015EDP7457 Simon King, Oliver Watts, Srikanth Ronanki, Felipe Espic, Zhizheng Wu (2017) Deep Learning for Text-to-Speech Synthesis, using the Merlin toolkit Trang NTT, Rilliard A, D’Alessandro C (2014) Prosodic phrasing modeling for Vietnamese TTS using syntactic information INTERSPEECH Ze H, Senior A, Schuster M (2013) Statistical parametric speech synthesis using deep neural networks IEEE, pp 7962–7966 14

Ngày đăng: 24/06/2023, 22:17