không còn cao như bảng 3-1 và bảng 3-2 nhưng đều trên mức Đạt. Hầu hết các câu giọng trần thuật được đánh giá là tốt nhất trong cả 3 cảm xúc. Trong ba cảm xúc, cảm xúc buồn có điểm số thấp nhất. Giá trị trung bình MOS của cảm xúc buồn đối với các bạn nam chỉ là 3.23 – mức điểm nằm giữa mức Đạt và Tốt. Các bạn nữ vẫn dành cho hệ thống các điểm cao hơn các bạn nam. Câu nói “Anh đã biết chuyện gì chưa” của cảm xúc buồn được người tham gia đánh giá nam giới cho điểm thấp nhất. Câu nói này vừa không nằm trong bộ dữ liệu huấn luyện, vừa mang nội dung trung tính, không giúp người nghe liên tưởng đến các nội dung buồn hay vui. Bên cạnh đó, các câu “Anh đến đón em nhé”, “Có chuyện gì thế hả” và “Sao lại không được gì” có điểm số khá thấp, tương ứng là 2.8, 2.87 và 2.57. Những câu nói này đa phần nằm ngoài tập dữ liệu huấn luyện và mang nội dung trung tính, khó gây cho người nghe cảm xúc buồn. Ba câu trên cũng có điểm số thấp khi được các bạn nữ đánh giá. Trong kết quả đánh giả cảm xúc vui, câu “Lại phải chờ hả anh” có điểm số cao nhất. Nguyên nhân được dự đoán là câu nói này nằm trong bộ dữ liệu huấn luyện. Các câu nói mang cảm xúc buồn thường được đánh giá chưa cao, nguyên nhân khách quan là do ngữ liệu tổng hợp sử dụng giọng Nam trầm, ấm nên thường khó phân biệt giữa cảm xúc bình thường và buồn. Trong luận án Tiến sĩ của thầy Lê Xuân Thành [33] có nhắc đến mức độ chênh lệch về giá trị F0 trung bình của cảm xúc buồn và bình thường là rất ít.
Ngoài ra, tác giả có so sánh chất lượng của các câu trong bộ dữ liệu huấn luyện với các câu ngoài bộ dữ liệu huấn luyện.
43 Hình 3. 3: So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc BT của
người đánh giá Nữ
Hình 3. 4: So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc Buồn của người đánh giá Nữ
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 3 6 7 8 9 11 12 13 14 16 17 18
Câu ngoài tập huấn luyện
Cảm xúc Chất lượng
2 4 5 10 15
Câu trong tập huấn luyện Chất lượng 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 3 6 7 8 9 11 12 13 14 16 17 18
Câu ngoài tập huấn luyện
Cảm xúc Chất lượng
2 4 5 10 15
Câu trong tập huấn luyện
44 Hình 3. 5 So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc Vui của
người đánh giá Nữ
Hình 3. 6 So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc BT của người đánh giá Nam
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 3 6 7 8 9 11 12 13 14 16 17 18
Câu trong tập huấn luyện
Cảm xúc Chất lượng
2 4 5 10 15
Câu ngoài tập huấn luyện
Cảm xúc Chất lượng 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 3 6 7 8 9 11 12 13 14 16 17 18
Câu ngoài tập huấn luyện
Cảm xúc Chất lượng
2 4 5 10 15
Câu trong tập huấn luyện
45 Hình 3. 7 So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc Buồn
của người đánh giá Nam
Hình 3. 8 So sánh giữa các câu trong và ngoài tập huấn luyện của cảm xúc Vui của người đánh giá Nam
Có thể thấy mặc dù điểm của các câu trong tập huấn luyện sẽ cao và ổn định hơn nhưng sự khác biệt giữa các câu trong và ngoài tập huấn luyện là không lớn. Với những câu có chất lượng tự nhiên được đánh giá cao, hầu hết sẽ được đánh giá cảm xúc cao. 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 3 6 7 8 9 11 12 13 14 16 17 18
Câu ngoài tập huấn luyện
Cảm xúc Chất lượng
2 4 5 10 15
Câu trong tập huấn luyện
Cảm xúc Chất lượng 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 3 6 7 8 9 11 12 13 14 16 17 18
Câu ngoài tập huấn luyện
Cảm xúc Chất lượng
2 4 5 10 15
Câu trong tập huấn luyện
46 Hình 3. 9 MOS trung bình của 3 cảm xúc với 2 phương diện của người đánh giá
Nam
Hình 3. 10 MOS trung bình của 3 cảm xúc trên 2 phương diện của người đánh giá Nữ
Tác giả đưa kết quả của 3 cảm xúc trên 2 phương diện khác nhau vào biểu đồ hình nến. Có thể thấy các câu thuộc cảm xúc bình thường (trần thuật) là tốt nhất, tiếp theo là các câu mang cảm xúc vui và kết quả chưa thực sự tốt ở các câu mang cảm xúc buồn. Mối liên hệ giữa 3 cảm xúc về chất lượng và mức độ biểu đạt là tương tự nhau.
47 Giới tính
người đánh giá
Cảm xúc Câu tiếng nói tổng hợp
Câu thể hiện cảm xúc của các nghệ sỹ 10 câu ngoài
tập huấn luyện tập huấn luyện 5 câu trong tập huấn luyện 5 câu trong Nam Bình thường 4.16 ± 0.23 4.09 ± 0.36 4.65 ± 0.06 Buồn 3.95 ± 0.21 3.9 ± 0.31 4.61 ± 0.06 Vui 3.89 ± 0.29 3.96 ± 0.47 4.68 ± 0.06 Nữ Bình thường 4.23 ± 0.16 4.19 ± 0.19 4.59 ± 0.14 Buồn 4.12 ± 0.15 4.08 ± 0.3 4.66 ± 0.1 Vui 4.12 ± 0.25 4.21 ± 0.19 4.68 ± 0.03 Cả Nam và Nữ Bình thường 4.19 ± 0.18 4.14 ± 0.27 4.62 ± 0.07 Buồn 4.04 ± 0.17 4.0 ± 0.29 4.63 ± 0.03 Vui 4.01 ± 0.26 4.08 ± 0.33 4.68 ± 0.03 Bảng 3. 5 Kết quả đánh giá MOS với tiêu chí độ tự nhiên và dễ hiểu
của các câu tiếng nói
Kết quả ở bảng 3-5 cho thấy bộ tổng hợp tiếng nói đạt được độ tự nhiên và độ dễ hiểu rất tốt. Các kết quả đánh giá các câu tiếng nói tổng hợp đều cho kết quả xấp xỉ với tiếng nói tự nhiên, thậm chí câu tiếng nói với cảm xúc bình thường còn được đánh giá cao hơn các câu thể hiện tự nhiên của các nghệ sỹ. Kết quả cũng cho thấy không có sự sai khác nhiều về kết quả đánh giá bởi giới tính của người đánh giá, cho dù người đánh giá nữ có xu hướng cho điểm cao hơn so với người đánh giá nam. Ngoài ra độ lệch về kết quả đánh giá giữa những người đánh giá là không quá chênh lệch, điều này phản ảnh độ tin cậy của kết quả đánh giá.
Giới tính người đánh
giá
Cảm xúc Câu tiếng nói tổng hợp
Câu thể hiện cảm xúc của các
nghệ sỹ 10 câu ngoài
tập huấn luyện tập huấn luyện 5 câu trong tập huấn luyện 5 câu trong Nam Bình thường 3.88 ± 0.2 3.79 ± 0.4 4.16 ± 0.13 Buồn 3.3 ± 0.39 3.07 ± 0.29 4.34 ± 0.18 Vui 3.39 ± 0.28 3.66 ± 0.17 4.34 ± 0.12
48 Nữ Bình thường 3.83 ± 0.23 3.83 ± 0.27 4.39 ± 0.13 Buồn 3.28 ± 0.27 3.2 ± 0.26 4.61 ± 0.21 Vui 3.73 ± 0.21 3.95 ± 0.15 4.48 ± 0.15 Cả Nam và Nữ Bình thường 3.85 ± 0.19 3.81 ± 0.32 4.28 ± 0.12 Buồn 3.29 ± 0.31 3.13 ± 0.27 4.47 ± 0.13 Vui 3.56 ± 0.23 3.8 ± 0.1 4.41 ± 0.12 Bảng 3. 6 Kết quả đánh giá MOS với tiêu chí mức độ biểu đạt cảm xúc
của các câu tiếng nói
Kết quả ở bảng 3-6 cho thấy cho thấy điểm đánh giá trung bình trên thang đo MOS luôn ở giữa mức Đạt và Tốt. Tuy vậy có thể nhận thấy trong khía cạnh biểu đạt cảm xúc mức độ biểu đạt cảm xúc buồn chưa cao bằng cảm xúc vui. Ngoài ra vẫn còn khoảng cách để đạt được như cảm xúc bình thường.
3.2.2. Trực quan hóa dữ liệu bằng T-distributed Stochastic Neighbor
Embedding
T-distributed Stochastic Neighbor Embedding (t-SNE) là một công cụ trực quan hóa dữ liệu nhiều chiều. Nó chuyển đổi điểm tương đồng giữa các điểm dữ liệu thành xác suất chung. Với việc sử dụng t-SNE để phân tích, tác giả muốn chứng minh sự phân cụm của các câu tiếng nói trong từng cảm xúc khác nhau.
Hình 3. 11 Đồ thị phân bố các giá trị trên miền Z theo 3 cảm xúc của nghệ sĩ N.N.T
49 Hình 3. 12 Đồ thị phân bố các giá trị trên miền Z theo 3 cảm xúc của nghệ sĩ
N.Đ.T
Trong Hình 3-7 và Hình 3-8, tác giả cố gắng trực quan hóa sự tương quan của 30 câu nói trong từng cảm xúc: bình thường, buồn, vui của nghệ sĩ Ngô Ngọc Trung và Nguyễn Đức Tâm. Kết quả cho thấy cảm xúc có sự tập trung khá tốt tại một vùng nhất định. Dựa vào hình vẽ này, tác giả có thể phân biệt rõ giữa các cặp cảm xúc khác nhau tuy vẫn sẽ có một số trường hợp ngoại lệ bị nhầm vào vùng của cảm xúc khác.
Hình 3. 13 Đồ thị tSNE- biểu diễn phân bổ trên miền Z của các câu tổng hợp trần thuật, các câu cảm xúc buồn huấn luyện và câu tổng hợp cảm xúc Buồn
50 Hình 3. 14 Đồ thị tSNE- biểu diễn phân bổ trên miền Z của các câu tổng hợp trần
thuật, các câu cảm xúc vui huấn luyện và câu tổng hợp cảm xúc Vui
Tiếp theo, tác giả thực hiện trực quan hoá sự chuyển đổi cảm xúc từ bình thường đến cảm xúc đích đến là buồn hay vui thông qua dữ liệu huấn luyện từ nghệ sĩ mang cảm xúc thật. Trong Hình 3-9, ta có thể nhận ra sự phân bố rõ rệt giữa cụm cảm xúc bình thường (gồm các câu tổng hợp trần thuật, các câu cảm xúc trần thuật của nghệ sĩ Ngô Ngọc Trung và nghệ sĩ Nguyễn Đức Tâm) và cụm cảm xúc buồn (gồm các câu tổng hợp buồn và các câu cảm xúc buồn của các nghệ sĩ). Thực tế, trong quá trình huấn luyện, tác giả sử dụng dữ liệu của nghệ sĩ Ngô Ngọc Trung cho chuyển đổi cảm xúc buồn. Điều này thể hiện rõ khi khoảng cách từ các câu tổng hợp buồn (màu đỏ) được kéo đến gần các câu huấn luyện (màu tím) hơn so với các câu tổng hợp bình thường (màu xanh nước biển). Tương tự như vậy, trong Hình 3-10 thể hiện sự phân bố rõ rệt giữa cụm cảm xúc bình thường và cụm cảm xúc vui. Việc trực quan hoá dữ liệu trên miền Z thể hiện sự hiệu quả của phần
51 Hình 3. 15 Đồ thị tSNE- biểu diễn phân bổ trên miền Z của tất cả các câu tổng hợp,
âm thanh của nghệ sĩ N.N.T, nghệ sĩ N.Đ.T trong 3 cảm xúc khác nhau
3.3. Thảo luận
Luận văn nghiên cứu có kết quả và đóng góp khoa học như sau:
Đóng góp 1: Luận văn đưa ra một phương pháp xây dựng cơ sở tiếng nói cho bài toán tổng hợp tiếng Việt có cảm xúc; bộ dữ liệu đã được phân tích sự đa dạng của vốn từ và đảm bảo chất lượng âm thanh trước khi đưa vào mô hình huấn luyện. Cơ sở dữ liệu của hệ thống bao gồm hai thành phần chính: Bộ dữ liệu trần thuật AnSpeech và bộ dữ liệu cảm xúc chọn lọc từ BKEmo. Nếu như trên thế giới có bộ Emo-DB [31] biểu đạt cảm xúc tốt và được thu trong phòng thu chuyên nghiệp thì ở Việt Nam, BKEmo [33] từ nhóm nghiên cứu của thầy Lê Xuân Thành là bộ ngữ liệu tiếng Việt chất lượng cao, được thu âm bởi các diễn viên, nghệ sĩ chuyên nghiệp. Về AnSpeech, kịch bản thu âm được tác giả chuẩn bị kỹ càng về nội dung: bao gồm các bài thơ trong hệ thống giáo dục cấp hai, cấp ba; các tác phẩm nổi tiếng như tiểu thuyết Số đỏ, truyện Kiều; các bài tản văn; blog chia sẻ kinh nghiệm về ẩm thực, du lịch, ca nhạc; … Tác giả sử dụng duy nhất một giọng để chuẩn bị cho quá trình huấn luyện. Dữ liệu âm thanh thu được lưu trữ dưới dạng file “*.wav” , tín hiêu thu được ở tần số lấy mẫu 22050 Hz, sau đó được giảm xuống còn 16000 Hz để khớp với bộ dữ liệu BKEmo và 16 bit cho mỗi mẫu. Dữ liệu thu được là 9796 file với tổng dung lượng là 2,4GB. Quá trình chuẩn bị dữ liệu không
52 tốn nhiều thời gian và tiền bạc. Tất cả quá trình chuẩn bị nội dung, khởi tạo âm thanh, tải về, lưu trữ và lọc nhiễu được thực hiện bởi 5 người trong 7 ngày làm việc. Có thể nói, việc xây dựng AnSpeech đã có ý nghĩa trong khả năng mở rộng, đem đến sự linh hoạt trong xây dựng từ điển mà không bị phụ thuộc vào việc chọn đúng giọng nghệ sĩ. Ngoài ra, hệ thống chuyển đổi cảm xúc chỉ sử dụng 30 câu âm thanh chất lượng cho từng cảm xúc nhưng vẫn được đánh giá ở mức Tốt về chất lượng âm thanh cũng như mức độ biểu đạt cảm xúc. Điều này minh chứng cho tính ứng dụng trong các sản phẩm thực tế.
Đóng góp 2: Luận văn giới thiệu một kiến trúc mô hình tổng hợp tiếng Việt trần thuật có kết quả tốt. Hiện nay, trên thế giới có rất nhiều thành công với hệ thống tổng hợp tiếng nói. Rất nhiều kiến trúc phức tạp được áp dụng như Deep Voice 3 [16], FastSpeech [34] ,FastSpeech 2 [35] đã đạt được kết quả tốt. Tuy nhiên với tiếng Việt mô hình đang được công bố tốt nhất hiện tại là Tacotron [29]. Tác giả đã sử dụng kiến trúc này để huấn luyện mô hình và đạt được kết quả âm thanh chất lượng tốt. Đồng thời nhằm mục đích cải thiện chất lượng âm thanh tốt hơn, tác giả sử dụng chính mô hình đó là pre-trained trong kiến trúc mô hình Flowtron. Luận văn thực hiện một số thay đổi so với bài báo gốc khi bắt đầu Flowtron với K=1 trước khi tăng dần giá trị K. Cách làm này tuy chậm nhưng đảm bảo chất lượng âm thanh chắc chắn hơn. Đồng thời việc sử dụng bộ Vocoder mới WaveGlow là sự kết hợp từ Glow và WaveNet đã sản sinh ra âm thanh chất lượng cao nhưng ít tính toán hơn nhờ sự giảm về kiến trúc mạng và tham số mô hình. Lựa chọn này giúp hệ thống tối ưu được chi phí, giảm thiểu sự phức tạp trong tính toán và khả năng lưu trữ.
Đóng góp 3: Đề xuất một phương pháp chuyển đổi cảm xúc cho tiếng Việt thay vì xây dựng từng mô hình cho từng cảm xúc – một hướng đi rất tốn kém chi phí, thời gian và nguồn lực. Ý tưởng của phép biến đổi tuy đơn giản nhưng hiệu quả. Trong thực tế, với sự thành công trong các công bố về tiếng nói trần thuật, các nhóm nghiên cứu hoàn toàn có thể sử dụng chính kiến trúc đó với bộ dữ liệu cho từng cảm xúc. Mỗi bộ dữ liệu như thế cần phải xây dựng công phu, tốn kém tiền bạc và thời gian. Ngoài ra, để nâng cao tính ứng dụng thực tế, các câu nói cần mang nhiều cảm xúc khác nhau hoặc có khả năng chuyển đổi nhanh chóng giữa
53 các cảm xúc trong cuộc hội thoại. Do đó phương án tổng hợp tiếng nói theo từng cảm xúc với từng bộ dữ liệu là không khả thi. Tác giả đề xuất phương pháp chuyển đổi cảm xúc dựa trên miền không gian Z giữa các phân phối chuẩn. Dữ liệu âm thanh tiếng nói khi được trích xuất sẽ có nhiều đặc trưng khác nhau và mô tả trong miền không gian đa chiều. Tuy nhiên, khi thực hiện giảm chiều dữ liệu, chắc chắc sẽ có sự phân bố rõ ràng trong từng cảm xúc (Hình 3-13, Hình 3-14, Hình 3-15). Việc dịch chuyển tâm của phân phối này sang phân phối khác sẽ giúp âm thanh có nhiều biến thể về phong cách và cảm xúc [36]. Quá trình thực hiện chuyển đổi này diễn ra nhanh hơn gấp nhiều lần quá trình huấn luyện lại mô hình từ cơ bản. Trong mỗi cảm xúc, tác giả chỉ sử dụng 30 câu âm thanh đại diện cho tập huấn luyện. Số lượng câu huấn luyện ít, thời gian thu thập ngắn, quá trình chuyển đổi cảm xúc diễn ra nhanh chóng nhưng kết quả thu được vẫn được đánh giá tốt.
Đóng góp 4: Đề xuất phương pháp đánh giá kết quả tiếng nói tổng hợp. Luận văn thực hiện đánh giá bằng thang đo MOS, đảm bảo số lượng người tham gia cân bằng về giới tính và thực hiện phân tích kết quả trên hình vẽ về miền không gian Z.