Thang đo MOS của hệ thống đề xuất so với mô hình ban đầu

Một phần của tài liệu Tổng hợp tiếng việt có cảm xúc bằng học máy (Trang 29 - 30)

1.4.4. Vietnamese Speech Synthesis with End-to-end Model.

Nghiên cứu này được thực hiện bởi các thầy giáo và sinh viên trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh và được đăng trên tạp chí IEEE [29] vào tháng 2 năm 2021. Đây cũng là công trình có kết quả tốt nhất hiện tại của các nghiên cứu về tiếng Việt [29]. Tác giả sử dụng Tacotron2 [30] và WaveGlow [10] cho hệ thống tổng hợp tiếng Việt End-to-end. Trước đó, công cụ Vinorm được sử dụng để chuẩn hóa văn bản, xử lý các ký tự số, ký tự đặc biệt, các từ viết tắt, từ ngữ không đọc được và các từ địa phương. Và công cụ Viphoneme để chuyển đổi từ tiếng Việt sang định dạng grapheme – đơn vị nhỏ nhất của hệ thống chữ viết và từ grapheme sang Bảng chữ cái ngữ âm quốc tế (IPA).

15 Trong bài báo, tác giả có sử dụng âm thanh đầu vào với với tần số lấy mẫu là 22050 Hz, loại bỏ các khoảng lặng ở đầu và cuối câu, sau đó thêm một giây khoảng lặng ở cuối mỗi âm thanh để giúp mô hình nhận dạng được phần kết thúc của câu được tốt hơn. Dữ liệu được tiền xử lý truyền vào biến thể mô hình Tacotron2 với sự thay đổi phần Character Embedding thành Phoneme Embedding cho tác giả đã chuẩn hóa văn bản đầu vào.

Nhóm nghiên cứu sử dụng bộ dữ liệu trong thử nghiệm này được cung cấp bởi InfoRe Jsc, cũng là Big Corpus trong Hội nghỉ về xử lý giọng nói và ngôn ngữ tiếng Việt (VLSP) năm 2019. Dữ liệu này bao gồm 22 giờ dữ liệu với 13462 câu nói của giọng nữ miền Bắc. Sau khi loại bỏ nhiễu còn khoảng 11460 câu vì chứa nhiều nhiễu hay do người đọc ngắt nghỉ không đúng chỗ ảnh hưởng đến chất lượng đào tạo. Sau khoảng 10 ngày huấn luyện sử dụng kiến trúc Tacotron2, mô hình khởi tạo mel-spectrogram đã hoàn thành. Phổ vừa được sinh ra sẽ đi qua mô hình WaveGlow được công bố là có khả năng tạo ra kết quả tốt với nhiều ngôn ngữ trong đó có Tiếng Việt. Cuối cùng, hệ thống gọi đến các API giảm nhiễu để tăng chất lượng âm thanh.

Kết quả với 20 người đánh giá của nghiên cứu Vietnamese Speech Synthesis with End-to-end Model and Text Normalization trên thang đo MOS được thể hiện ở bảng dưới

Model MOS

Tacotron2 + WaveGlow 3.97

Groundtruth 4.43

Một phần của tài liệu Tổng hợp tiếng việt có cảm xúc bằng học máy (Trang 29 - 30)

Tải bản đầy đủ (PDF)

(73 trang)