document

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	0,96 MB

Nội dung

Tổng hợp tiếng nói tiếng Việt dựa trên mạng CNN với tập dữ liệu hạn chế Lâm Quang Tường∗, Nguyễn Tấn Đạt†, Lâm Khả Hân∗, Đỗ Đức Hào∗ ∗ Công ty Cổ phần Công nghệ OLLI Technology †Trường Đại học Bách Kh[.]

Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Tổng hợp tiếng nói tiếng Việt dựa mạng CNN với tập liệu hạn chế Lâm Quang Tường∗ , Nguyễn Tấn Đạt† , Lâm Khả Hân∗ , Đỗ Đức Hào∗ ∗ Công ty Cổ phần Công nghệ OLLI Technology Đại học Bách Khoa - Đại học Quốc Gia TP.HCM Thành phố Hồ Chí Minh, Việt Nam Email: {tuong, han, hao}@olli-ai.com dat.nguyen_bk@hcmut.edu.vn † Trường Tóm tắt nội dung—Bài báo đề xuất mơ hình tổng hợp tiếng nói tiếng Việt dựa việc áp dụng phương pháp Transfer Learning vào mơ hình Deep Convolution Neural Network để sinh tiếng nói dựa tập liệu huấn luyện nhỏ Mô hình chúng tơi tổng hợp giọng nói với lượng liệu huấn luyện nhỏ 45 lần so với dùng mơ hình Tacotron Mơ hình chúng tơi gồm hai giai đoạn: (1) Huấn luyện mơ hình DC-TTS giọng nói ban đầu với nhiều liệu; (2) Áp dụng phương pháp Transfer Learning vào mơ hình huấn luyện trước để sinh giọng với lượng liệu thu âm Sau trình huấn luyện với 320 câu nói (khoảng giờ), mơ hình tạo giọng nói với chất lượng cao Độ đo MOS giọng nói sinh xấp xĩ với kết mơ hình Tacotron với lượng liệu huấn luyện nhỏ nhiều Điều chứng tỏ rằng, phương pháp chúng tơi có tính khả thi cao để xây dựng hệ thống tổng hợp tiếng nói tiếng Việt trường hợp liệu bị hạn chế Index Terms—Tổng hợp tiếng nói Tiếng Việt, Speech Synthesis, Text to Speech, Transfer Learning I GIỚI THIỆU Xây dựng liệu vấn đề vô quan trọng việc nghiên cứu mơ hình học máy ứng dụng chúng vào thực tiễn Đó q trình địi hỏi phải bỏ nhiều thời gian chi phí có tập liệu ý muốn Quá trình bao gồm nhiều giai đoạn kể đến như: xác định rõ đầu vào đầu toán, thiết kế công cụ tiến hành thu thập liệu, tiền xử lý liệu, chuẩn hóa liệu, sử dụng phương pháp phân tích thống kê để hiểu rõ tập liệu Kết đạt sau tập liệu vàng phục vụ cho việc huấn luyện đánh giá mơ hình Tùy vào tốn cụ thể mà có dạng liệu phương pháp xử lý khác Chẳng hạn vấn đề nhận dạng giọng nói tự động (ASR) [1], tập liệu địi hỏi câu nói văn ISBN 978-604-80-5958-3 187 chứa nội dung câu nói Hay tốn phân tích cảm xúc [2], tập liệu cần có đánh giá khách hàng để phân tích cảm xúc họ sản phẩm khác nhau, Đối với mơ hình tổng hợp tiếng nói, việc xây dựng tập liệu bao gồm cặp câu thu âm giọng nói quan trọng Tập liệu huấn luyện ảnh hưởng trực tiếp đến độ tự nhiên độ thông minh giọng nói sau tổng hợp Tuy nhiên, việc thu thập xử lý tập liệu với nhiều giọng nói thu âm gặp nhiều khó khăn Ví dụ việc nghe lại câu nói đối chiếu với nội dung để loại bỏ sai sót đến từ q trình thu âm Vì vậy, đề xuất ý tưởng xây dựng mơ hình tổng hợp tiếng nói end-to-end dựa phương pháp học Transfer Learning [3] Hướng tiếp cận phương pháp Transfer Learning sử dụng nhiều tốn tái tạo giọng nói cho hệ thống TTS Cụ thể, nghiên cứu Ye Jia cộng sự, 2018 [4], tác giả xây dựng khối rút trích đặc trưng tiếng nói riêng sau đưa vào huấn luyện mơ hình TTS nhiều giọng đọc Tương tự thế, phương pháp Hierarchical Transfer Learning thực thi mơ hình Deep Neural Network (DNN) để giải tốn cho ngơn ngữ hạn chế tài ngun [5] Mơ hình chúng tơi đề xuất xây dựng dựa mơ hình DC-TTS nghiên cứu Heyuki Tachibana cộng sự, 2018 [6] Đây mơ hình tổng hợp tiếng nói tồn dựa Convolution Neural Network (CNN) không sử dụng mạng thần kinh hồi quy (RNN) nhiều nghiên cứu tiếng khác (Tacotron 2, Deep Voice 3, ) Mục đích mơ hình cải thiện hạn chế mặt tốc độ mạng RNN, trì chất lượng giọng nói đầu giống giọng nói thực có khả hoạt động hệ thống máy tính song song Tuy nhiên, mơ Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Cơng nghệ Thơng tin (REV-ECIT2021) hình tổng hợp giọng nói người ứng với tập liệu khác biệt mà tận dụng lại mơ hình huấn luyện trước để sinh giọng nói Do đó, từ ý tưởng sử dụng điểm mạnh mơ hình DC-TTS mang lại khắc phục hạn chế nó, chúng tơi xây dựng nên mơ hình Transfer Learning DC-TTS sử dụng mơ hình huấn luyện trước để tổng hợp tiếng nói tiếng Việt tập liệu nhỏ (chỉ khoảng 320 câu nói cho giọng nói mới) II CÁC NGHIÊN (K, V ) = T extEncoder(L) CỨU LIÊN QUAN Đã có nhiều nghiên cứu khác để tìm giải pháp giải cho cơng việc tốn TTS Ở đây, giới thiệu số nghiên cứu liên quan đến tốn chúng tơi mà chúng tơi giải Mơ hình Tacotron [7] mơ hình đề xuất Shen cộng vào năm 2017 Mơ hình Deep Voice [8] nghiên cứu Ping cộng vào năm 2018 Cả hai mơ hình xây dựng kiến trúc Sequence-to-Sequence với chế Attention để mã hóa chuỗi ký tự từ văn đầu vào sinh mel spectrogram Ngồi việc tạo tiếng nói từ người, mơ hình cịn giải tốn tái tạo giọng nói nhiều người cách nhúng thêm véc-tơ nhãn (speaker id) Tuy nhiên, vấn đề đặt mơ hình có khả sinh giọng nói người hồn tồn khơng có tập nhãn với liệu hạn chế Phương pháp học Semi-Supervised [9] sử dụng để huấn luyện mơ hình TTS với nhiều giọng đọc Mơ hình dựa kiến trúc AutoEncoder để mã hóa đặc trưng giọng nói sang khơng gian ẩn thơng qua khối Encoder Sau đó, đặc trưng ngơn ngữ rút trích từ chuỗi âm vị chứa nội dung câu nói thêm vào bước Decoder để tái tạo lại câu nói Q trình học Semi-Supervised sử dụng phần liệu giọng nói khác mà khơng gán nhãn nội dung câu nói Tuy nhiên, việc mã hóa tất đặc trưng ngữ âm giọng nói vào véc-tơ ẩn vấn đề khó khăn Vì vậy, hướng tiếp tục nghiên cứu cải thiện mặt chất lượng tiếng nói sinh III PHƯƠNG PHÁP A Mơ hình Deep Convolution TTS Mơ hình DC-TTS [6] bao gồm hai giai đoạn Text2Mel Spectrogram Super-resolution Network Giai đoạn Text2Mel kiến trúc Sequene-toSequence với chế Attention bao gồm bước Encoder ISBN 978-604-80-5958-3 Decoder Điểm khác biệt quan trọng hai bước Encoder Decoder mơ hình sử dụng lớp mạng CNN thay mạng RNN để rút trích đặc trưng liệu dạng chuỗi Đầu tiên, bước Encoder nhận đầu vào chuỗi âm vị tiếng Việt khối TextEncoder mel spectrogram khối AudioEncoder để rút trích đặc trưng từ văn mel spectrogram Bước Encoder tạo ba thông số query(Q), key(K), value(V ) cho chế Attention 188 Q = AudioEncoder(S) đó, L văn đầu vào, S mel-spectrogram trích xuất từ đoạn âm Đầu Encoder (K, V, Q) kết hợp với chế Scaled Dot-Product Attention để tạo véctơ ngữ cảnh R Vai trò Attention mơ hình quan trọng, có nhiệm vụ so khớp, chỉnh kí tự đầu vào với đoạn mel spectrogram tương ứng KT Q R = Attention(Q, K, V ) = V sof tmax( √ ) d Sau đó, véc-tơ ngữ cảnh R ghép với véctơ mã hoá từ mel-spectrogram Q tạo véctơ R0 = [R, Q] dùng làm đầu vào cho bước AudioDecoder Y = AudioDecoder(R0 ) Ở bước Decoder, AudioDecoder khối bao gồm nhiều lớp CNN làm nhiệm vụ sinh mel spectrogram dựa véc-tơ R0 Hàm mát Lspec (Y |S) tổng hàm mát L1 Y so với S hàm binary divergence Dbin (Y |X) Dbin (Y |X) thể độ tương quan phân phối Y S Bên cạnh đó, để giúp giảm bớt khó khăn việc huấn luyện mơ hình, tác giả sử dụng phương pháp Guided Attention để làm cho ma trận Attention A ∈ RN ×T luôn tiến tới Sau sinh mel spectrogram giai đoạn Text2Mel, mơ hình tiến hành tạo spectrogram từ melspectrogram khối lớp CNN khác Giai đoạn có tên Spectrogram Super-Resolution Network (SSRN) SSRN bao gồm nhiều lớp Convolution1D để upsampling mel-spectrogram đầu vào thành spectrogram mong muốn Đầu giai đoạn tổng hợp thành giọng nói thuật toán Griffin-Lim Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Hình Các lớp Convolution mơ hình DC-TTS áp dụng phương pháp Transfer Learning B Mơ hình Transfer Learning DC-TTS Mơ hình chúng tơi đề xuất sử dụng giọng để huấn luyện Việc sinh giọng nói từ việc huấn luyện lại lớp mạng chịu trách nhiệm rút trích đặc trưng cấp cao (high level features) từ mơ hình chuyển đổi với tập liệu nhỏ (320 câu nói) Đặc điểm quan trọng giúp cho mơ hình Transfer Learning DC-TTS chuyển đổi giọng nói bước TextEncoder, AudioEncoder, Decoder, SRNN lớp mạng Highway Net + CNN (HC) đa tầng có khả rút trích đặc trưng bậc cao từ tiếng nói Các high level features thay đổi giọng đọc nằm lớp HC Convolution cuối mơ hình DCTTS Trong mơ hình Deep Convolution thế, lớp convolution có nhiệm vụ rút trích đặc trưng khác để tạo feature maps chúng phụ thuộc vào vùng nhạy cảm cục (Local receptive field) tầng kế trước Càng sau, lớp convolution mở rộng vùng Nhờ đó, cấu trúc đặc trưng cấp cao vùng rộng xem xét [10] Vì vậy, lớp convolution sâu đặc trưng rút trích nhiều đặc trưng bậc cao thể quan hệ đặc trưng với Vì lẽ đó, nhà nghiên cứu cố gắng tìm cách thức để gia tăng số lớp mạng Deep Convolution Batch Normalization, Highway Network, Residual Network, chúng giúp cho mơ VGG, ALexnet, Resnet, nâng cao độ xác độ hiệu ISBN 978-604-80-5958-3 189 phân lớp Trong nghiên cứu Fariba Takarli cộng sự, 2014 [11] tác giả tìm cách để gom đặc trưng bậc cao từ đặc trưng bậc thấp liệu ảnh đặc trưng HOG, CNN and Haar Điều chứng minh rằng, mạng Deep CNN, lớp convolution rút trích đặc trưng đơn giản bên ngồi liệu sau dựa đặc trưng rút trích, mơ hình tiếp tục rút trích đặc trưng mức cao Từ đó, ta liên hệ qua mơ hình DC-TTS, lớp CNN cuối convolution có chức rút trích đặc trưng ẩn sâu bên mel-spectrogram điệu, cao độ, âm sắc Đồng thời, Highway Network có nhiệm vụ giúp mơ hình khơng bị tượng exploding vanishing gradients xác định đặc trưng quan trọng lớp CNN Từ đó, mơ hình Transfer Learning DC-TTS tiến hành khởi tạo lại trọng số lớp CNN cuối Encoder, Decoder SSRN Cụ thể hơn, huấn luyện mơ hình Transfer Learning DC-TTS với lớp Highway Net + Convolution (HC) cuối TextEncoder, lớp HC cuối AudioEncoder, lớp HC lớp CNN cuối bước AudioDecoder, lớp Convolution 1D cuối SSRN Phần trọng số lại giữ nguyên từ lần huấn luyện trước tập liệuset ban đầu Sau đó, chúng tơi huấn luyện lại mơ hình với tập liệu nhỏ để thu hình có khả tổng hợp giọng nói Các lớp cuối Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Decoder SRNN có góp mặt đặc trưng âm nên bắt buộc chúng tơi phải huấn luyện lại mơ hình Transfer Learning Tuy nhiên, q trình huấn luyện mơ hình Sequence-to-Sequence kí tự đầu vào bị tác động đặc trưng ngữ âm trình lan truyền ngược nên phải thay đổi trọng số lớp CNN cuối Encoder Q trình huấn luyện mơ hình Transfer Learning DC-TTS để chuyển mơ hình giọng cũ sang giọng nói thực cụ thể sau Thứ nhất, mơ hình DC-TTS huấn luyện với văn giọng nói tập liệu người nói ban đầu Ở đây, mơ hình huấn luyện xong phải đảm bảo tạo tiếng nói với chất lượng đạt mức yêu cầu Kết mơ hình tạo trọng số chuyển đổi sang mơ hình khác Sau đó, mơ hình huấn luyện huấn luyện lại với tập liệu có kích thước nhỏ nhiều Tuy nhiên, có thay đổi quan trọng đặc trưng cho phương pháp Transfer Learning, mơ hình giữ lại trọng số vài lớp CNN từ mơ hình huấn luyện trước huấn luyện lớp CNN cịn lại liệu giọng nói người nói Đây chìa khóa để mơ hình chúng tơi thay đổi giọng nói C Tổng hợp giọng nói với tập liệu hạn chế Mơ hình DC-TTS khơng tạo giọng nói mà cịn sử dụng để huấn luyện với tập liệu nhỏ nhiều Trong nghiên cứu này, chúng tơi tái sử dụng mơ hình DC-TTS huấn luyện trước giọng nói huấn luyện lại với tập liệu giọng nói với kích thước nhỏ 45 lần Tập liệu bao gồm 320 câu nói tương đương với khoảng thu âm Dựa khả phương pháp Transfer Learning dựa mơ hình huấn luyện trước đó, mơ hình chúng tơi tái sử dụng trọng số huấn luyện mơ hình trước để thu nhỏ tập liệu huấn luyện cho giọng Và mơ hình Transfer có nhiệm vụ cập nhật lại trọng số có khả làm thay đổi giọng nói mơ tả phần III-B Đó lý mơ hình chúng tơi không cần nhiều liệu để huấn luyện mô hình huấn luyện ban đầu Cụ thể, để huấn luyện mơ hình, chúng tơi sử dụng hai tập liệu thu âm từ hai giọng nói khác OLLI-SPEECH-1.6 [12] OLLI-SPEECHNORTHERN Đầu tiên, huấn luyện mơ hình DC-TTS tập liệu bao gồm 50 thu âm giọng nữ thuộc phương ngữ miền Nam Việt Nam ISBN 978-604-80-5958-3 190 Sau đó, chúng tơi sử dụng lại mơ hình huấn luyện trước để huấn luyện với tập liệu khác bao gồm thu âm giọng nữ thuộc phương ngữ miền Bắc Việt Nam Dựa kết đạt được, chúng tơi thấy mơ hình DC-TTS huận luyện có khả tạo tiếng nói với tập liệu nhỏ Và ngơn ngữ khơng có nhiều tài ngun tiếng Việt mơ hình chúng tơi lựa chọn hoàn hảo để xây dựng hệ thống TTS IV THỰC NGHIỆM A Làm liệu huấn luyện mơ hình Để huấn luyện mơ hình, trước tiên tiến hành xử lý tập liệu huấn luyện Bước đầu tiên, giảm tần số lấy mẫu liệu thu âm từ 48000 kHz xuống 22050 kHz chuyển dạng đơn kênh hai tập liệu OLLI-SPEECH-1.6 [12] OLLISPEECH-NORTHERN Đối với liệu văn bản, tiến hành xây dựng cơng cụ chuẩn hóa văn để làm đảm bảo cho nội dung phải với giọng nói thu âm Ngồi ra, chúng tơi cịn dùng công cụ Vietnamese Grapheme-to-Phoneme nghiên cứu Lam cộng sự, 2019 [12] để chuyển đổi câu tiếng Việt thành chuỗi âm vị Đồng thời, xây dựng công cụ để tiền xử lý văn đầu vào nhằm mục đích làm xử lý nhập nhằng từ văn để giúp cho việc huấn luyện tốt Phần tiền xử lý văn bản: bao gồm tập luật để chuyển đổi từ viết tắt, định dạng ngày tháng năm, chuyển đổi số chữ, đơn vị tính toán, Xử lý nhập nhằng văn để đọc kí hiệu cách hợp lý Cuối cùng, tiến hành huấn luyện mơ hình DC-TTS tập liệu OLLI-SPEECH-1.6 để tạo thơng số tối ưu Sau đó, chúng tơi tiến hành q trình Transfer Learning mơ hình thơng số với 320 câu nói (tương ứng với thu âm) lấy ngẫu nhiên từ tập OLLI-SPEECH-NORTHERN Các thơng số mơ hình huấn luyện thiết lập sau: batch size 32, Adam Optimizer với thông số β1 = 0.9, β2 = 0.999, = 10−6 , learning rate thiết lập 10−3 giảm đến 10−5 Toàn hai mơ hình huấn luyện GPU GTX 1080 Ti với tổng thời gian tuần B Đánh giá chất lượng mơ hình Để đánh gía chất lượng giọng nói sinh ra, chúng tơi sử dụng độ đo Mean Opinion Score (MOS) [13] 100 câu nói sinh từ mơ hình liệu thu âm Đây độ đo dựa cảm tính nhận xét từ nhiều người để xác định chất lượng giọng Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Hình Sự ảnh hưởng tập liệu đến điểm MOS đạt từ mơ hình Transfer Learning DC-TTS nói sinh Cụ thể, chúng tơi dựa đánh giá 110 người Họ nghe cho điểm số từ đến cho câu nói để tính điểm số cuối mơ hình Để đánh giá mơ hình DC-TTS Transfer Learning (DCTTS+TF) tập liệu có thu âm gặp nhiều khó khăn hồn tồn khơng có mơ hình khác sinh tiếng nói với liệu huấn luyện Do chúng tơi so sánh chất lượng tiếng nói thật, mơ hình Tacotron mơ hình DC-TTS huấn luyện tập liệu OLLI-SPEECH-NORTHERN KẾT QUẢ ĐỘ ĐO Voice Ground truth Tacotron DC-TTS DC-TTS + TF Bảng I MOS CỦA CÁC MƠ HÌNH Dữ liệu huấn luyện (giờ) _ 45 45 MOS 4.28 ± 0.51 3.52 ± 0.56 3.50 ± 0.55 3.49 ± 0.58 Điểm số MOS bảng I cho thấy mô hình DC-TTS+TF sinh giọng với liệu huấn luyện mang lại kết xấp xỉ so với mơ hình Tacotron mơ hình gốc ban đầu Điều chứng tỏ giọng nói sinh người đánh giá hiểu rõ mặt nội dung có thiện cảm độ tự nhiên tiếng nói Tuy nhiên, xét tập liệu huấn luyện rõ ràng mơ hình chúng tơi sử dụng liệu nhiều so với Tacotron Điều mang lại nhiều lợi ích thiết thực cho việc xây dựng hệ thống TTS ISBN 978-604-80-5958-3 191 với chất giọng hồn tồn Bên cạnh đó, để xác định lượng câu nói cần có để huấn luyện mơ hình đảm bảo chất lượng âm thanh, tiếp tục thực khảo sát thứ hai Chúng tiến hành huấn luyện mơ hình Transfer Learning TTS tập liệu OLLI-SPEECHNORTHERN với số lượng câu nói khác Kích thước tập liệu huấn luyện tăng dần từ 10 đến 500 câu nói Mục đích thực khảo sát để biết cần sử dụng liệu có kích thước vừa đủ để đưa vào sử dụng sản phẩm mà đảm bảo chất lượng giọng nói sinh Hình cho thấy kích thước tập liệu huấn luyện lớn, kết MOS mơ hình Transfer Learning DC-TTS tốt Đường cong thể điểm số MOS đạt đến giới hạn định kích thước tập liệu huấn luyện tăng lên Điều cho thấy xu hướng tập liệu huấn luyện tăng đến kích thước định, độ đo MOS khơng cịn tăng Từ đưa phương hướng để xác định kích thước tập liệu vừa đủ để xây dựng hệ thống TTS phù hợp với chi phí thu thập liệu Thêm vào đó, kích thước tập liệu huấn luyện nhỏ mơ hình huấn luyện với phương pháp Transfer Learning, độ đo MOS có đạt đến ngưỡng sử dụng trọng thương mại Ngưỡng thương mại xác định cách sử dụng độ đo MOS giọng nói sinh hệ thống TTS Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) tiếng Việt sử dụng rộng rãi Biểu đồ cho thấy cần kích thước liệu nằm khoảng từ 300 đến 500 câu nói, mơ hình tạo tiếng nói đáp ứng nhu cầu người dùng Điều chứng tỏ mơ hình huấn luyện hồn tồn sử dụng thương mại Đây lợi lớn so với hầu hết mơ hình học sâu khác, vốn yêu cầu lượng lớn tập liệu để huấn luyện mơ hình V KẾT LUẬN Trong báo này, chúng tơi trình bày mơ hình Transfer Learning DC-TTS để tổng hợp tiếng nói tiếng Việt với liệu huấn luyện Mơ hình chúng tơi tổng hợp giọng nói với khoảng thu âm Các phương pháp đánh giá cho thấy giọng nói tổng hợp giữ chất lượng tốt Tuy nhiên, mơ hình chúng tơi cịn số vấn đề cần giải q trình sinh tiếng nói để giữ tính chất ngữ âm giọng gặp phải câu dài đoạn văn LỜI CẢM ƠN Chúng xin cảm ơn Công ty Cổ phần Công nghệ OLLI Technology JSC xây dựng hai tập liệu OLLI-SPEECH-1.6 OLLI-SPEEH-NORTHERN dùng để huấn luyện mơ hình chúng tơi Đặc biệt, xin chân thành cảm ơn công ty cấp tất nguồn lực máy tính hỗ trợ người công việc thu âm làm liệu Điều giúp ích lớn cho nghiên cứu TÀI LIỆU [1] D Amodei, R Anubhai, E Battenberg, C Case, J Casper, B Catanzaro, J Chen, M Chrzanowski, A Coates, G Diamos, E Elsen, J H Engel, L Fan, C Fougner, T Han, A Y Hannun, B Jun, P LeGresley, L Lin, S Narang, A Y Ng, S Ozair, R Prenger, J Raiman, S Satheesh, D Seetapun, S Sengupta, Y Wang, Z Wang, C Wang, B Xiao, D Yogatama, J Zhan, and Z Zhu, “Deep speech 2: End-to-end speech recognition in english and mandarin,” CoRR, vol abs/1512.02595, 2015 [Online] Available: http://arxiv.org/abs/1512.02595 ISBN 978-604-80-5958-3 192 [2] C Raffel, N Shazeer, A Roberts, K Lee, S Narang, M Matena, Y Zhou, W Li, and P J Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” CoRR, vol abs/1910.10683, 2019 [Online] Available: http://arxiv.org/abs/1910.10683 [3] C Tan, F Sun, T Kong, W Zhang, C Yang, and C Liu, “A survey on deep transfer learning,” CoRR, vol abs/1808.01974, 2018 [Online] Available: http://arxiv.org/abs/1808.01974 [4] Y Jia, Y Zhang, R J Weiss, Q Wang, J Shen, F Ren, Z Chen, P Nguyen, R Pang, I Lopez-Moreno, and Y Wu, “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” CoRR, vol abs/1806.04558, 2018 [Online] Available: http://arxiv.org/abs/1806.04558 [5] K Azizah, M Adriani, and W Jatmiko, “Hierarchical transfer learning for multilingual, multi-speaker, and style transfer dnnbased tts on low-resource languages,” IEEE Access, vol 8, pp 179 798–179 812, 2020 [6] H Tachibana, K Uenoyama, and S Aihara, “Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention,” CoRR, vol abs/1710.08969, 2017 [Online] Available: http://arxiv.org/abs/1710.08969 [7] J Shen, R Pang, R J Weiss, M Schuster, N Jaitly, Z Yang, Z Chen, Y Zhang, Y Wang, R J Skerry-Ryan, R A Saurous, Y Agiomyrgiannakis, and Y Wu, “Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions,” CoRR, vol abs/1712.05884, 2017 ă Arik, A Kannan, [8] W Ping, K Peng, A Gibiansky, S O S Narang, J Raiman, and J Miller, “Deep voice 3: 2000speaker neural text-to-speech,” CoRR, vol abs/1710.07654, 2017 [Online] Available: http://arxiv.org/abs/1710.07654 [9] T Tu, Y.-J Chen, A H Liu, and H yi Lee, “Semi-supervised learning for multi-speaker text-to-speech synthesis using discrete speech representation,” 2020 [10] P Razzaghi, K Abbasi, and P Bayat, “Learning spatial hierarchies of high-level features in deep neural network,” Journal of Visual Communication and Image Representation, vol 70, p 102817, 2020 [Online] Available: http://www.sciencedirect.com/science/article/pii/S1047320320300675 [11] F Takarli, A Aghagolzadeh, and H Seyedarabi, “Combination of high-level features with low-level features for detection of pedestrian,” Signal, Image and Video Processing, vol 10, pp 93–101, 2016 [12] Q T Lam, D H Do, T H Vo, and D D Nguyen, “Alternative vietnamese speech synthesis system with phoneme structure,” in 2019 19th International Symposium on Communications and Information Technologies (ISCIT), 2019, pp 64–69 [13] R C Streijl, S Winkler, and D Hands, “Mean opinion score (mos) revisited: methods and applications, limitations and alternatives,” Multimedia Systems, vol 22, pp 213–227, 03 2016

Ngày đăng: 27/04/2022, 10:59