Hệ thống này với ưu điểm là sử dụng các bước tiền xử lý, hậu xử lý rất tốt, giúp cho âm thanh được tư nhiên [29]. Từ điển lớn được triển khai, hệ thống nhận ra các từ có nhiều các phát âm khác nhau trong các bối cảnh ngôn ngữ khác nhau. Tác giả sử dụng Viphoneme là công cụ chuyển đổi ngôn ngữ văn bản tiếng Việt thành chuỗi đầu vào hợp lý cho Tacotron2, mô hình học được hội tụ nhanh hơn so với cách tiếp cận thông thường [29]. Cuối cùng, tác giả có sử dụng thêm các API làm mịn giọng nói và cải thiện chất lượng của âm thanh. Hạn chế của nghiên cứu sẽ xuất phát từ bộ dữ liệu có chất lượng chưa cao, nhiều nhiễu.
16
1.4.5. Tổng hợp tiếng Việt có cảm xúc với các chất giọng khác nhau và
có biểu lộ cảm xúc.
Nghiên cứu chính là luận án tiến sĩ của thầy Lê Xuân Thành – Trường Đại học Bách Khoa Hà Nội. Trong nghiên cứu này, tác giả đã xây dựng bộ ngữ liệu về cảm xúc cho tiếng Việt mang tên BKEmo. BKEmo bao gồm 4 cảm xúc cơ bản: bình thường, buồn, vui và tức giận. Sau đó tác giả tiến hành phân tích đánh giá sự ảnh hưởng của các tham số đến khả năng biểu đạt cảm xúc trong tiếng Việt. Cuối cùng, hệ thống tích hợp cảm xúc vào tiếng Việt được thực hiện bằng mô hình Fujisaki – mô hình xây dựng dựa trên nền tảng tâm lý học và sinh học của quá trình tạo nên F0 – một trong hai tham số tác giả thực hiện đánh giá và phân tích. Công cụ Praat được sử dụng để biến đổi thời lượng phát âm, cường độ phát âm. Mô hình sẽ lấy các bộ tham số từ các câu có nội dung và cảm xúc tương ứng để tổng hợp thành câu đã được tích hợp cảm xúc.
Dựa trên phương pháp đó, tác giả thực hiện đánh giá bằng cả phương pháp chủ quan và khách quan. Trong 15 câu đánh giá với đầy đủ 4 cảm xúc và đầy đủ giọng nam và nữ. Kết quả đánh giá theo ma trận nhầm lẫn như sau:
BT Tức Vui Buồn
BT 511 24 14 201
Tức 144 335 257 14
Vui 166 196 356 32
Buồn 298 21 17 414
Bảng 1-13. Ma trận nhầm lẫn tổng hợp cả giọng nam và giọng nữ cho 15 câu Bên cạnh đánh giả chủ quan, tác giả sử dụng phương pháp đánh giá khách