2.5.3. Quá trình hoạt động
Khả năng chỉnh sửa, tạo ra các biến thể của giọng nói mà không bỏ qua chất lượng tiếng nói là phần quan trọng nhất, là ưu điểm của Flowtron so với các mô hình tổng hợp tiếng nói khác. Việc lấy mẫu từ tất cả các phong cách giọng nói tương đương với việc lấy mẫu giá trị z từ toàn bộ không gian z của Flowtron. Coi như không gian ban đầu với giọng nói bình thường là phân phối Gaussian với trung bình bằng 0 và giọng nói sẽ lấy mẫu là các giá trị z trong không gian đó. Điều chỉnh phương sai để giúp kiểm soát sự lan truyền của phân phối Gaussian. Khả năng lấy mẫu ở gần trung tâm cao hơn ở xa trung tâm phân phối hình cầu. Đặt phương sai bằng 0 tương ứng sử dụng luôn điểm trung tâm ban đầu dẫn đến việc không có sự thay đổi trong lời nói được tạo ra. Tăng phương sai sẽ giúp tặng độ lan tỏa xung quanh trong tâm không gian z được lấy mẫu, đồng thời duy trì các mẫu gần trung tâm hơn so với mẫu xa trung tâm. Lấy mẫu từ một phong cách, cảm xúc cụ thể tương đương với việc lấy mẫu từ một vùng cụ thể trong không gian z
29 của Flowtron. Đưa những âm thanh của cùng 1 cảm xúc, phong cách, lấy giá trị z từ chúng tính toán trọng tâm của chúng. Sử dụng trọng tâm này làm giá trị trung bình của phân phối Gaussian mới và điều chỉnh phưởng sai tức là điều chỉnh khoảng cách của vùng không gian mới đang được lấy mẫu. Cách tiếp cận này sẽ giúp tiết kiệm được rất nhiều thời gian huấn luyện và nguồn lực dữ liệu.
2.6. Huấn luyện mô hình
Gắn liền với sự phát triển của học máy, các mô hình ngày càng có cấu trúc phức tạp, dung lượng lưu trữ và số lượng tính toán ngày càng cao. Việc xây dựng môi trường thử nghiệm cũng là một yếu tố quan trọng. Sử dụng các siêu máy tính sẽ giúp tiết kiệm rất nhiều thời gian cho nghiên cứu.
Bảng dưới đây tác giả trình bày một số thông tin cơ bản về các môi trường được sử dụng.
Máy tính vật lí Google Cloud Model NVIDIA A100 NVIDIA Tesla P4
Loại Máy tính vật lí Máy ảo
Số lượng 02 01
SSD 1 TB 7.5 GB
GPU 40 GB 8 GB
Mục đích
- Huấn luyện với nhiều dữ liệu - Thử nghiệm, điều chỉnh tham số - Tổng hợp, suy luận và đánh giá - Xây dựng chương trình đánh giá Hệ điều hành Ubuntu 20.04 LTS Driver 450.142.00
Bảng 2-2. So sánh thông tin cơ bản giữa các môi trường sử dụng Ngoài ra, tác giả sử dụng một số bộ thư viện, phần mềm như sau: Ngoài ra, tác giả sử dụng một số bộ thư viện, phần mềm như sau:
•Ngôn ngữ chính Python, Jupyter Notebook, các thư viện đặc trưng như: torch 1.9.0, tensorboard, scikit-learn, matplotlib, librosa, pandas, numpy, six.
•Shell Script: thực hiện xử lý file âm thanh, nội dung văn bản, chạy thử nghiệm chương trình.
•Flask API, HTML, Java Script, MySQL: Xây dựng chương trình “Khảo sát chất lượng tiếng Việt tổng hợp có cảm xúc”.
30 Trước khi bắt đầu chương trình, tác giả lựa chọn 100 câu ngẫu nhiên từ bộ dữ liệu AnSpeech cho tập kiểm thử cho bài toán tổng hợp tiếng Việt thông thường, các câu này đều có độ dài từ 10 đến 30 từ, số lượng còn lại được sử dụng trong tập huấn luyện. Trong quá trình huấn luyện, tác giả thực hiện in giá trị lỗi của mô hình lên màn hình và quan sát. Chương trình tiếp tục đến khi giá trị lỗi này giảm đến giá trị nhỏ và ổn định. Các trường hợp khác như giá trị lỗi không ổn định (tăng, giảm liên tục và biên độ lớn) hay giá trị lỗi tăng, tác giả thực hiện dừng chương trình và kiểm tra lại. Khi giá trị lỗi đã hội tụ ( khoảng chênh lệch giữa mỗi lần in kết quả không quá 0,001), mô hình khởi tạo mel-spectrogram thời điểm đó được lựa chọn để đánh giá. Giai đoạn này được thực hiện với 1 số câu ngẫu nhiên, thông thường các câu này được lựa chọn từ các câu nói hằng ngày, bài báo trực tuyến. Sau đó, với mel-spetrogram này, mô hình WaveGlow đưa ra âm thanh. Tác giả thực hiện đánh giá bằng cách nghe trực tiếp.
2.7. Thiết kế thử nghiệm
2.7.1. Tổng quan
Tác giả xây dựng kịch bản thử nghiệm phân thành 03 nhóm:
•Nhóm 1: Thử nghiệm hệ thống tổng hợp tiếng Việt thông thường.
•Nhóm 2: Thử nghiệm chuyển đổi cảm xúc cho tiếng Việt.
•Nhóm 3: Thử nghiệm so sánh thời gian huấn luyện trên các phần cứng khác nhau.
Nhóm 1 bao gồm các thí nghiệm …. mục tiêu phát triển thành công mô hình tổng hợp tiếng Việt giọng trần thuật, có độ tư nhiên cao, dễ hiểu, phát âm rành mạch, rõ chữ. Trong nhóm này, các thử nghiệm giữa Tacotron 2, Flowtron trong hai bộ dữ liệu AnSpeech và các câu bình thường của tất cả các nghệ sĩ trong bộ BKEmo.
Thử nghiệm trong nhóm 2 có nhiệm vụ xây dựng hệ thống chuyển đổi cảm xúc cho tiếng Việt. Với chất lượng âm thanh được đảm bảo từ Nhóm 1, tác giả sử dụng 30 câu mỗi cảm xúc. Bộ dữ liệu được sử dụng là BKEmo.
Sau khi đã hoàn thành được hệ thống tiếng nói, tác giả thực hiện thí nghiệm so sánh trên 02 môi trường khác nhau về phần cứng và được hoàn toàn giống nhau
31 về phần mềm. Trong thực tế, thời gian huấn luyện bị ảnh hưởng rất nhiều về tốc độ đọc ghi, xử lý, tính toán của thiết bị phần cứng.