Xây dựng mô hình thích ứng giọng nói trong tổng hợp tiếng nói tiếng Việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	3
Dung lượng	400,6 KB

Nội dung

Bài viết Xây dựng mô hình thích ứng giọng nói trong tổng hợp tiếng nói tiếng Việt nghiên cứu xây dựng mô hình thích ứng giọng nói cho bài toán tổng hợp tiếng nói tiếng Việt dựa trên hai phương pháp là phương pháp học chuyển giao và phương pháp véc tơ mã hóa người nói.

Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 XÂY DỰNG MƠ HÌNH THÍCH ỨNG GIỌNG NĨI TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Phan Trung Kiên1,2, Đỗ Văn Hải1,3 Trung tâm Không gian Mạng Viettel, 2Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội, Khoa CNTT, Trường Đại học Thủy Lợi 1 GIỚI THIỆU CHUNG Tổng hợp tiếng nói lĩnh vực nghiên cứu từ lâu có nhiều ứng dụng đời sống Hệ thống tổng hợp tiếng nói giúp chuyển đổi từ văn sang giọng nói người Một ví dụ điển hình tổng hợp tiếng nói giọng đọc Google Dịch Tuy nhiên, chi phí phát triển hệ thống lớn dẫn tới thiếu đa dạng giọng nói hệ thống Vì phương pháp thích ứng giọng nói phát triển để giải vấn đề nêu Thích ứng giọng nói (SA - Speaker Adaptation) có nhiệm vụ tạo giọng nói cho hệ thống tổng hợp tiếng nói cách điều chỉnh tham số mô hình ban đầu với lượng liệu ghi âm người nói Nhiều phương pháp đề xuất mang lại hiệu định cho thích ứng giọng nói, ví dụ như: học chuyển giao (Transfer Learning), sử dụng véc tơ mã hóa người nói (Speaker Embedding) [1], Learning Hidden Unit Contribution (LHUC) [2], Feature Space Transformation (FST) [3], … Trong báo này, chúng tơi nghiên cứu xây dựng mơ hình thích ứng giọng nói cho tốn tổng hợp tiếng nói tiếng Việt dựa hai phương pháp phương pháp học chuyển giao phương pháp véc tơ mã hóa người nói - Xây dựng mơ hình gốc (Build base model) - Thích ứng (Adaptation) Hình Hai bước q trình thích ứng giọng nói Để xây dựng mơ hình gốc, sử dụng kiến trúc Merlin [4] Đây kiến trúc tổng hợp tiếng nói phổ biến dựa mạng nơ ron học sâu tiên tiến Như mơ tả hình 2, kiến trúc Merlin bao gồm thành phần: - Trích chọn đặc trưng ngơn ngữ (Linguistic Features Extraction) - Tạo đặc trưng âm học (Parameter Generation) - Tạo tín hiệu tiếng nói (Waveform Generation) PHƯƠNG PHÁP NGHIÊN CỨU Như thấy (hình 1), trình SA chia làm hai thành phần: 105 Hình Mơ hình Merlin Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 2.1 Phương pháp học chuyển giao Với phương pháp này, giữ nguyên kiến trúc Merlin cho hai bước huấn luyện mơ hình gốc thích ứng Đối với mơ hình gốc chúng tơi thử nghiệm theo hướng: - Xây dựng mơ hình gốc người nói (OS - One speaker): Mơ hình gốc huấn luyện liệu bao gồm người nói - Xây dựng mơ hình gốc nhiều người nói hay cịn gọi mơ hình giọng trung bình (AVM - Average voice model): Mơ hình gốc huấn luyện liệu bao gồm nhiều người nói 2.2 Phương pháp véc tơ mã hóa người nói b) Mã hóa người nói x-vector X-vector véc tơ trích xuất từ mơ hình TDNN [5] X-vector thu từ q trình véc tơ 200 chiều chưa thơng tin mã hóa người nói Do số chiều lớn so sánh tỷ lệ với đặc trưng ngơn ngữ sử dụng Do đó, phương pháp phân tích thành phần (PCA) sử dụng để giảm số chiều véc tơ xuống 25 chiều KẾT QUẢ NGHIÊN CỨU 3.1 Dữ liệu cho xây dựng mơ hình gốc Dữ liệu huấn luyện chuẩn bị bao gồm: - Dữ liệu cho mơ hình gốc người nói: bao gồm 35 phút giọng nói nữ với phương ngữ miền Nam - Dữ liệu cho mơ hình giọng trung bình: bao gồm 20 30 phút giọng nói 60 người Trong có 30 nam, 30 nữ, người thu âm 160 câu 3.2 Dữ liệu cho thích ứng giọng nói Hình Phương pháp véc tơ mã hóa người nói Để cải tiến cho phương pháp học chuyển giao sử dụng mô hình giọng trung bình, chúng tơi thêm thành phần véc tơ mã hóa người nói (Speaker Embedding) nhằm bổ sung thơng tin người nói cho thành phần Parameter Generation a) Mã hóa người nói one-hot vector X   x1 , x2, , x n1  One - hot vector véc tơ có dạng: Trong đó, n +1 bao gồm n người nói có liệu dùng để xây dựng mơ hình gốc người nói có liệu dùng để thích ứng Trong q trình xây dựng mơ hình gốc, với người nói thứ i ta có: xi  xi   j  i Trong trình thích ứng ta có: xn1  xi   j  n    Để đánh giá hiệu phương pháp thích ứng giọng, chúng tơi huấn luyện mơ hình tổng hợp tiếng nói sử dụng kiến trúc Merlin hai trường hợp nhiều liệu (> giờ) liệu (≤ 0,5 giờ) Dữ liệu huấn luyện chuẩn bị cho thích ứng giọng nói bao gồm: - Hai tập liệu: MALE (4 40 phút, giọng nam) FEMALE (3 30 phút, giọng nữ) chuẩn bị để huấn luyện mơ hình tổng hợp tiếng nói Hai tập liệu: MALE-30 FEMALE30 bao gồm 30 phút liệu chọn tương ứng từ hai tập MALE FEMALE sử dụng để huấn luyện mơ hình tổng hợp tiếng nói sử dụng để thích ứng giọng nói Để trích xuất x-vector, chúng tơi dụng mơ hình huấn luyện từ trước với tập liệu VoxCeleb Đây tập liệu bao gồm triệu đoạn tiếng nói, trích xuất từ video vấn đăng tải lên YouTube Trong liệu có 7000 người nói với nhiều ngơn ngữ khác nhau, tổng độ dài liệu 2000 106 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 3.2 Huấn luyện mơ hình Tập liệu chia theo tỉ lệ 90:5:5 tương ứng với tập huấn luyện, tập phát triển tập kiểm tra Các mơ hình huấn luyện sử dụng thuật tốn Stochastic Gradient Descent với learning rate 0.002, batch size 256 số epoch 25 3.2 Kết Các mơ hình đánh giá độ tự nhiên điểm MOS (Mean Opinion Score) 18 người mời nghe thử 120 mẫu đánh giá thang điểm Kết lấy trung bình số điểm cho mơ hình phương pháp sử dụng x-vector để mã hóa người nói KẾT LUẬN Trong báo này, chúng tơi trình bày bốn phương pháp thích ứng giọng nói cho tổng hợp tiếng nói tiếng Việt Kết thử nghiệm cho thấy độ tự nhiên giọng nói thích ứng cải thiện đáng kể Từ nghiên cứu này, hồn tồn sử dụng để mở rộng đa dạng hệ thống tổng hợp tiếng nói với lượng liệu hạn chế Ngồi ra, phương pháp cịn áp dụng cho tốn thích ứng cảm xúc, hay mơ hình đa giọng nói, … TÀI LIỆU THAM KHẢO Hình Đánh giá điểm MOS mơ hình giọng nam Hình Đánh giá điểm MOS mơ hình giọng nữ Dựa vào (hình 4) (hình 5) thấy phương pháp đề xuất cải thiện rõ rệt độ tự nhiên giọng nói tổng hợp Trong nhóm phương pháp sử dụng véc tơ mã hóa người nói cho kết tốt so với nhóm phương pháp học chuyển giao Phương pháp mang lại hiệu tốt [1] Hieu-Thi Luong, Shinji Takaki, Gustav Eje Henter, Junichi Yamagishi, "Adapting and Controlling DNN-Based Speech Synthesis Using Input Codes," 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp 4905-4909, 2017 [2] P Swietojanski and S Renals, "Learning hidden unit contributions for unsupervised speaker adaptation of neural network acoustic models," in Proc IEEE Spoken Language Technology Workshop, 2014 [3] Tomoki Toda, Alan W Black, Keiichi Tokuda, "Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory," IEEE Transactions on Audio, Speech, and Language Processing, vol 15, pp 2222-2235, 2007 [4] Zhizheng Wu, Oliver Watts, Simon King, "Merlin: An Open Source Neural Network Speech Synthesis System," SSW, pp 202207, 2016 [5] David Snyder, Daniel Garcia-Romero, Daniel Povey, Sanjeev Khudanpur, "Deep Neural Network Embeddings for TextIndependent Speaker Verification," INTERSPEECH 2017, 2017 107 ... người nói KẾT LUẬN Trong báo này, chúng tơi trình bày bốn phương pháp thích ứng giọng nói cho tổng hợp tiếng nói tiếng Việt Kết thử nghiệm cho thấy độ tự nhiên giọng nói thích ứng cải thiện đáng... dạng: Trong đó, n +1 bao gồm n người nói có liệu dùng để xây dựng mơ hình gốc người nói có liệu dùng để thích ứng Trong trình xây dựng mơ hình gốc, với người nói thứ i ta có: xi  xi   j  i Trong. .. mơ hình gốc thích ứng Đối với mơ hình gốc chúng tơi thử nghiệm theo hướng: - Xây dựng mơ hình gốc người nói (OS - One speaker): Mơ hình gốc huấn luyện liệu bao gồm người nói - Xây dựng mơ hình

Ngày đăng: 10/07/2022, 13:28