34 Trong bài báo gốc [31], tác giả của Flowtron có nói “Thiết lập của chúng tôi sử dụng một mạng neural là mô hình khởi tạo bằng cách lấy mẫu từ phân phối đơn giản p(z). Chúng tôi xem xét hai phân phối đơn giản có cùng số kích thước như biểu đồ mel mong muốn của chúng tôi: phân phối Gaussian hình cầu trung bình bằng 0 và một hỗn hợp Gaussian hình cầu với các tham số cố định có thể học được”. Điều đó có nghĩa là Flowtron là một mô hình có khả năng ánh xạ từ miền không gian phân phối các kiểu nói sang miền không gian tiềm ẩn Z. Cụ thể ở đây tác giả sử dụng phân phối Gaussian hình cầu trung bình bằng 0 cho miền không gian Z . Trong Hình 2-9, miền không gian gồm các hình tròn to, các điểm màu xanh đại diện tương ứng cho các kiểu nói khác nhau, tất cả các điểm đó đều nằm trong một phân phối chuẩn với giá trị trung bình bằng 0, việc thay đổi phương sai giúp thay đổi sự lan truyền xung quanh điểm trung tâm của vùng trong không gian Z được lấy mẫu. Đặt phương sai bằng 0 nghĩa là không có sự thay đổi trong lời nói được tạo. Việc lấy mẫu từ các phong cách nói cụ thể tương đương với việc lấy mẫu từ một vùng cụ thể trong miền không gian Z của Flowtron, và với mỗi phong cách nói cụ thể đó sẽ tương ứng với một phân phối Gaussian khác. Vùng phân phối phong cách, cảm xúc mục tiêu sẽ được đại diện bởi các hình tròn màu đỏ với các điểm màu đỏ.
Dựa trên lý thuyết đó, tác giả muốn tìm kiếm mối liên hệ giữa vùng phân phối cảm xúc bình thường ( lời nói trần thuật) với vùng phân phối cảm xúc mục tiêu ( buồn hoặc vui) bằng cách thực hiện tính toán mối liên hệ giữa tâm của hình cầu màu xanh ban đầu với tâm của hình cầu đỏ tiếp theo. Các câu thu từ giọng người thật sẽ được cung cấp cho Flowtron. Flowtron, với khả năng đảo ngược hàm ánh xạ từ các lớp Afin sẽ tìm được các giá trị z tương ứng đó. Tính toán tâm của chúng và sử dụng giá trị này làm giá tị trung bình của phân phối Gaussian mới.
Về thực nghiệm, tác giả sử dụng bộ ngữ liệu BKEmo để huấn luyện. Tác giả lựa chọn ngẫu nhiên 30 câu cảm xúc buồn của Nghệ sĩ Ngô Ngọc Trung và 30 câu cảm vui của nghệ sĩ Nguyễn Đức Tâm. Trong đó, với các câu văn bản sẽ được đi qua mô hình M4 để vector hóa từng từ ngữ trong văn bản. Các file âm thanh qua công cụ stft của ngôn ngữ python tính toán giá trị mel-spectrogram. Tiếp theo đó, các giá trị mel-spectrogram này đi qua mô hình M4 để tìm ra các giá trị z tương ứng. Kết thúc bước này tác giả có một tập các điểm z đại diện cho các câu cảm xúc mục
35 tiêu được thu từ người thật. Tập điểm này chính là phân phối mới của cảm xúc. Giá trị tâm và phương sai của phân phối này chính là giá trị trung bình và độ lệch chuẩn của tập các giá trị z. Từ đó có thể chuyển đổi cảm xúc từ phân phối ban đầu sang vùng phân phối mới với trung bình và phương sai mới được tính toán. Bước tiêp theo, mô hình M4 sẽ tạo ra các mel-spectrogram dựa trên văn bản đầu vào và phân phối chuẩn mới. Cuối cùng, WaveGlow được sử dụng để biến đổi mel-spectrogram thành âm thanh cảm xúc dạng sóng.
2.7.7. Thí nghiệm 06 – Đánh giá phần cứng
Thay vì sử dụng A100 ở trong bốn thí nghiệm 01, 02, 03 và 04, tác giả triển khai hệ thống trên NVIDIA P4 với kịch bản giống thí nghiệm 04 và sử dụng bộ dữ liệu đã được rút gọn, mô hình thu được kết quả tương tự thí nghiệm 04 sau 8,000 iterations. Mục đích của thí nghiệm này để đánh giá sự ảnh hưởng của thiết bị cũng lá tính khả quan trong việc triển khai mô hình ở các máy có cấu hình yếu hơn. Tổng thời gian dành cho huấn luyện ở thiết bị này là 120 phút. Có thể nhận thấy thời gian trên P4 gấp 4.2 lần thời gian huấn luyện trên A100. Do đó, vấn đề về thiết bị phần cứng cũng rất quan trọng.
2.7.8. Tổng kết
Computer Mô
hình Bộ dữ liệu Pre-trained 1,000 iterations Thời gian / huấn luyện Thời gian
A100
M1 AnSpeech Không 24 phút 3,5 ngày
M2 AnSpeech M1 14 phút 1,9 ngày
M3 AnSpeech M2 5 phút 0,3 ngày
M4 AnSpeech M3 4 phút 0,02 ngày
P40 M5 AnSpeech M3 15 phút 0,08 ngày
Bảng 2-3. Tổng hợp thời gian huấn luyện của từng mô hình
Như vậy, sau gần 6 ngày huấn luyện, mô hình tổng hợp tiếng nói đã được sử dụng. Vì thời gian chuyển đổi cảm xúc nhỏ ( khoảng vài giây) nên tác giả không tổng kết vào trong bảng trên.
36
CHƯƠNG 3. ĐÁNH GIÁ KẾT QUẢ TỔNG HỢP
3.1. Công cụ đánh giá
Sau khi có kết quả tổng hợp của hệ thống tổng hợp tiếng Việt có cảm xúc, tác giả tiến hành thực hiện khảo sát để đánh giá kết quả thu được.
Đối tượng tham gia đánh giá là 60 người bao gồm các bạn sinh viên thuộc Trường Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội. Trong đó có 30 bạn nữ và 30 bạn nam. Tất cả đều đã được hướng dẫn sử dụng thành thạo công cụ đánh giá và hiểu về phương pháp đánh giá. Các câu tiếng Việt tổng hợp có cảm xúc được sắp xếp, người tham gia sau khi nghe xong từng câu sẽ đánh giá 02 yếu tố: Chất lượng âm thanh và mức độ biểu đạt cảm xúc. Hệ thống sẽ tự động cập nhật cơ sở dữ liệu sau khi có kết quả và chuyển sang câu tiếp theo. Nội dung đánh giá bao gồm 54 câu chia đều cho 3 cảm xúc: vui, buồn và bình thường (không cảm xúc).
Để thực hiện đánh giá tự động, tác giả xây dựng phần mềm đánh giá dựa trên quy trình bên trên. Các bước đánh giá bao gồm:
• Bước 1: Truy cập đường link: http://103.159.51.183:5000/, giao diện chương trình được mô tả trong Hình 4.1.
• Bước 2: Đọc kỹ hướng dẫn thực hiện khảo sát trên màn hình chính.
• Bước 3: Thực hiện “Đăng nhập”.
• Bước 4: Tại màn hình đăng nhập, nhập mã token tương ứng với từng người.
• Bước 5: Nhấn nút Play (‣) để khởi chạy câu âm thanh.
• Bước 6: Thực hiện đánh giá chất lượng âm thanh và mức độ biểu đạt cảm xúc bằng cách chọn số điểm cho từng phần.
• Bước 7: Lặp lại từ Bước 5 với các câu khác.
37 Hình 3. 1: Màn hình chính và hướng dẫn khảo sát.
Hình 3. 2: Màn hình thực hiện khảo sát.
3.2. Tổng hợp kết quả đánh giá
3.2.1. Thang đo Mean Opinion Score (MOS)
Khi thực hiện khảo sát này, tác giả đã sử dụng thang đo MOS – một thang đo được dùng trong chất lượng trải nghiệm, đại diện cho chất lượng tổng thể của một hệ thống. Người nghe sẽ đánh giá mức độ thể hiện cảm xúc của từng câu với thang điểm 1, 2, 3, 4, 5 tương ứng với các mức rất kém, kém, đạt, tốt, rất tốt. Tác giả
38 cũng sử dụng thêm 1 bộ thang điểm tương tự để đánh giá chất lượng tiếng nói tổng hợp.
Tác giả sử dụng 13 câu ngoài tập huấn luyện và 5 câu nằm trong tập huấn luyện (Đó là các câu mang mã ID: 02, 04, 05, 10, 15). Việc sắp xếp các mã câu theo thứ tự ngẫu nhiên để tăng tính khách quan cho đánh giá.
Để có thể thực hiện những phân tích chuyên sâu hơn, tác giả đánh giá kết quả chất lượng âm thanh và mức độ biểu đạt trên 30 bạn nam và 30 bạn nữ riêng. Kết quả thu được cho thấy sự khác nhau trong khoảng điểm của người đánh giá nam và khoảng điểm của người đánh giá nữ. Trong từng bảng, phần màu xanh biểu thị cho cảm xúc được đánh giá điểm cao nhất trong từng khía cạnh. Các ô màu cam là những câu nằm trong bộ dữ liệu huấn luyện. Tổng hợp đánh giá về khía cạnh mức độ dễ hiểu, độ tự nhiên của âm thanh trong bảng 3-1 và bảng 3-2. Tổng hợp đánh giá về mức độ biểu đạt cảm xúc trong bảng 3-3 và bảng 3-4.
STT Mã
câu Nội dung BT Buồn Vui
1 1 Anh đã biết chuyện gì chưa 4.3 ± 0.79 3.87 ± 0.94 4.17 ± 0.87 2 3 Anh đến đón em nhé 4.27 ± 0.87 3.67 ± 1.15 4.1 ± 0.8 3 6 Có chuyện gì thế hả 4.17 ± 1.02 3.97 ± 1.03 3.83 ± 1.21 4 7 Sinh viên trường đại học bách
khoa hà nội 4.4 ± 1.04 3.93 ± 1.2 4.1 ± 1.06 5 8 Những chiếc lá rụng đầy sân nhà 3.9 ± 1.27 3.77 ± 1.22 3.83 ± 1.21 6 9 Ông nói gì thế tôi không hiểu 4.33 ± 0.84 4.2 ± 0.96 4.1 ± 1.03 7 11 Cuộc sống quan trọng nhất là sự
lựa chọn 3.83 ± 1.44 3.8 ± 1.19 3.83 ± 1.23 8 12 Cuộc sống này đôi khi tràn đầy
niềm vui 4.0 ± 1.14 4.1 ± 0.92 3.5 ± 1.38 9 13 Vườn hoa trước nhà 3.7 ± 1.24 3.6 ± 1.16 3.23 ± 1.3 10 14 Ngày mai họ sẽ là những nhà tân
vương của giải đấu 4.2 ± 1.16 3.97 ± 1.16 3.87 ± 1.22 11 16 Một ngôi sao sáng trên bầu trời
đầy sao 4.4 ± 0.81 4.2 ± 0.89 4.17 ± 1.18 12 17 Tôi tin anh sẽ vượt qua nỗi buồn
này 4.27 ± 0.87 4.1 ± 0.88 3.73 ± 1.08
13 18 Các cầu thủ đang cảm thấy rất
phấn khích 4.33 ± 0.96 4.23 ± 1.04 4.17 ± 1.05 14 2 Sao lại không được gì 3.93 ± 0.98 3.4 ± 1.28 4.17 ± 0.83 15 4 Lại phải chờ hả anh 4.37 ± 0.67 4.2 ± 0.85 4.43 ± 0.73 16 5 Hạnh phúc phải tìm trong chông
gai 3.53 ± 1.38 3.83 ± 0.91 4.07 ± 0.94
17 10
Hôm nay chẳng làm được việc gì
39 18 15 Người như vậy không thay đổi
được đâu 4.3 ± 0.95 3.97 ± 1.1 3.17 ± 1.44
Average 4.14 ± 0.26 3.94 ± 0.23 3.91 ± 0.34
Bảng 3-1. Đánh giá chất lượng âm thanh của 3 cảm xúc với 30 bạn nam
STT Mã
câu Nội dung BT Buồn Vui
1 1 Anh đã biết chuyện gì chưa 4.37 ± 0.67 4.27 ± 0.64 4.23 ± 0.68 2 3 Anh đến đón em nhé 4.27 ± 0.83 3.9 ± 0.88 4.2 ± 0.76 3 6 Có chuyện gì thế hả 4.27 ± 0.87 4.23 ± 0.82 4.0 ± 1.08 4 7 Sinh viên trường đại học bách
khoa hà nội 4.07 ± 0.98 4.03 ± 0.93 3.97 ± 1.03 5 8 Những chiếc lá rụng đầy sân
nhà 4.23 ± 0.73 4.03 ± 0.81 3.97 ± 1.0
6 9 Ông nói gì thế tôi không hiểu 4.3 ± 0.95 4.13 ± 0.97 4.33 ± 0.84 7 11 Cuộc sống quan trọng nhất là
sự lựa chọn 4.2 ± 0.85 4.0 ± 0.91 4.03 ± 1.1 8 12 Cuộc sống này đôi khi tràn
đầy niềm vui 4.2 ± 0.89 4.13 ± 0.78 3.77 ± 1.19 9 13 Vườn hoa trước nhà 3.77 ± 1.14 3.87 ± 1.04 3.63 ± 1.25 10 14 Ngày mai họ sẽ là những nhà
tân vương của giải đấu 4.27 ± 0.94 4.13 ± 0.86 4.27 ± 0.78 11 16 Một ngôi sao sáng trên bầu
trời đầy sao 4.3 ± 1.02 4.33 ± 0.8 4.4 ± 0.81 12 17 Tôi tin anh sẽ vượt qua nỗi
buồn này 4.3 ± 0.84 4.17 ± 0.79 4.3 ± 0.65 13 18 Các cầu thủ đang cảm thấy rất
phấn khích 4.4 ± 0.77 4.37 ± 0.76 4.5 ± 0.63 14 2 Sao lại không được gì 4.13 ± 0.78 3.73 ± 1.11 4.4 ± 0.67 15 4 Lại phải chờ hả anh 4.4 ± 0.62 4.33 ± 0.76 4.33 ± 0.66 16 5 Hạnh phúc phải tìm trong
chông gai 3.9 ± 1.16 3.8 ± 0.96 4.23 ± 0.77 17 10 Hôm nay chẳng làm được việc
gì cả 4.23 ± 0.9 4.23 ± 0.86 4.17 ± 0.65 18 15 Người như vậy không thay
đổi được đâu 4.3 ± 0.95 4.33 ± 0.84 3.9 ± 1.21
Average 4.22 ± 0.16 4.11 ± 0.19 4.15 ± 0.24
Bảng 3-2. Đánh giá chất lượng âm thanh của 3 cảm xúc với 30 bạn nữ
Trong cả hai bảng trên, tất cả các cảm xúc đều có điểm số trung bình trên 4 – tương ứng với mức Tốt. Cảm xúc có chất lượng tự nhiên, dễ hiểu cao nhất là cảm xúc Bình thường. Các câu có cảm xúc bình thường có thể được đánh giá tới điểm 4.43 – mức điểm nằm giữa tốt và rất tốt. Chúng ta có thể nhận ra, điểm trung bình
40 với các người đánh giá là nữ đều cao hơn điểm trung bình với các người đánh giá là nam. Điểm trung bình của cảm xúc buồn và vui là xấp xỉ nhau. Đối với các bạn nam, câu nói được đánh giá chất lượng tốt nhất là “Lại phải chờ hả anh” với 4.43 điểm MOS. Kết quả này dễ hiểu khi đây là câu nói thuộc tập dữ liệu huấn luyện. Đối với người đánh giá là nữ, câu có điểm số cao nhất tiếp tục là câu “Lại phải chờ hả anh” với 4.4 điểm, ngoài ra, kết quả còn xuất hiện thêm câu “Một ngôi sao sáng trên bầu trời đầy sao” cũng với 4.4 điểm, câu nói này không thuộc tập huấn luyện. Nhìn chung, trong cả 2 bảng đánh giá, kết quả của các câu năm trong tập huấn luyện luôn cao hơn các câu nằm ngoài tập huấn luyện. Tuy nhiên khoảng cách giữa các câu trong và ngoài tập huấn luyện gần như không đáng kể (Hình 3-3, Hình 3-4 và Hình 3-5). Điểm đánh giá thấp nhất thuộc về câu “Cuộc sống quan trọng nhất là sự lựa chọn” đối với các bạn nữ và câu “Vườn hoa trước nhà” đối với các bạn nữ. Các câu này được người tham gia đánh giá phản hồi là nói hơi nhanh, nghe lần đầu chưa thực sự rõ tiếng. Một phần lí do là các khoảng lặng ở đầu và cuối câu đều đã bị loại bỏ, nếu chúng ta thêm các khoảng lặng nhỏ ở đầu và cuối câu trong bước hậu xử lý, vấn đề này có thể sẽ được loại bỏ. Tổng kết lại, câu âm thanh tạo ra được đánh giá có chất lượng âm thanh tốt, mức độ dễ hiểu cao. Song song với đánh giá chất lượng câu nói, tác giả thực hiện khảo sát thu thập đánh giá về mức độ biểu đạt cảm xúc của câu. Kết quả được thể hiện trong hai bảng sau:
STT Mã
câu Nội dung BT Buồn Vui
1 1 Anh đã biết chuyện gì chưa 3.63 ± 0.96 2.77 ± 0.97 2.97 ± 1.1 2 3 Anh đến đón em nhé 3.8 ± 1.06 2.8 ± 1.1 3.43 ± 0.86 3 6 Có chuyện gì thế hả 3.83 ± 0.83 2.87 ± 1.04 3.2 ± 1.24 4 7 Sinh viên trường đại học bách
khoa hà nội 3.9 ± 1.21 2.93 ± 1.17 3.4 ± 1.25 5 8 Những chiếc lá rụng đầy sân
nhà 3.6 ± 1.19 3.17 ± 1.02 3.27 ± 1.17
6 9 Ông nói gì thế tôi không hiểu 4.0 ± 1.11 3.57 ± 1.22 3.33 ± 1.21 7 11 Cuộc sống quan trọng nhất là
sự lựa chọn 3.73 ± 1.05 3.23 ± 0.86 3.17 ± 1.09 8 12 Cuộc sống này đôi khi tràn đầy
niềm vui 3.77 ± 1.04 3.6 ± 1.0 3.23 ± 0.97 9 13 Vườn hoa trước nhà 3.87 ± 0.94 3.27 ± 1.14 3.4 ± 1.07
41 10 14 Ngày mai họ sẽ là những nhà
tân vương của giải đấu 3.97 ± 1.03 3.53 ± 1.2 3.17 ± 1.18 11 16 Một ngôi sao sáng trên bầu trời
đầy sao 3.87 ± 1.07 3.47 ± 0.9 3.93 ± 1.05 12 17 Tôi tin anh sẽ vượt qua nỗi
buồn này 4.1 ± 1.06 3.57 ± 1.04 3.73 ± 1.11 13 18 Các cầu thủ đang cảm thấy rất
phấn khích 4.37 ± 0.72 4.07 ± 0.87 3.83 ± 1.18 14 2 Sao lại không được gì 3.23 ± 1.07 2.57 ± 1.17 3.67 ± 1.03 15 4 Lại phải chờ hả anh 4.0 ± 0.95 3.2 ± 1.13 3.9 ± 0.96 16 5 Hạnh phúc phải tìm trong
chông gai 3.5 ± 1.2 3.2 ± 0.96 3.67 ± 0.99 17 10 Hôm nay chẳng làm được việc
gì cả 4.2 ± 0.89 3.1 ± 1.03 3.63 ± 1.0
18 15 Người như vậy không thay đổi
được đâu 4.0 ± 0.95 3.3 ± 0.99 3.43 ± 1.04