Tổng hợp tiếng việt có cảm xúc bằng học máy

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Tổng hợp tiếng Việt có cảm xúc học máy LÊ TRỌNG AN Ngành: Khoa học máy tính Giảng viên hướng dẫn: TS Nguyễn Hồng Quang Viện: Công nghệ Thông tin Truyền thông HÀ NỘI, 2021 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Tổng hợp tiếng Việt có cảm xúc học máy LÊ TRỌNG AN Ngành: Khoa học máy tính Giảng viên hướng dẫn: TS Nguyễn Hồng Quang Chữ ký GVHD Viện: Công nghệ Thông tin Truyền thông HÀ NỘI, 2021 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Lê Trọng An Đề tài luận văn: Tổng hợp tiếng Việt có cảm xúc học máy Chuyên ngành: Khoa học liệu Mã số SV: CA190038 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 24/12/2021 với nội dung sau: Sửa Chương 1: Thêm phần 1.3.2.2 sửa đổi phần 1.3.2.3 để thể rõ số nghiên cứu giới chuyển đổi cảm xúc Sửa Chương 2: - Phần 2.5: Cập nhật hình vẽ trình huấn luyện, tổng hợp toàn kiến trúc module nhỏ - Phần 2.7.6: Thí nghiệm 05: Giải thích miền khơng gian Z giải thích chi tiết phần thực thí nghiệm chuyển đổi cảm xúc Sửa Chương 3: - Phần 3.2.1: Các kết đánh giá chưa thực sữ chặt chẽ, kết bất thường chưa giảm thích kỹ Tác giả tìm thấy sai sót q trình tổng hợp liệu có vẽ lại bảng hình ảnh - Phần 3.3: Xóa bỏ nhận xét văn để nói mơ hình khơng bị overfit chưa đủ dẫn chứng kỹ thuật - Sau sửa: Nội dung luận án gồm chương là: • Chương 1: Cơ sở lý thuyết cơng trình nghiên cứu • Chương 2: Tổng hợp tiếng Việt có cảm xúc • Chương 3: Đánh giá kết tổng hợp • Chương 4: Kết luận định hướng phát triển Ngày 12 tháng năm 2022 Giáo viên hướng dẫn CHỦ TỊCH HỘI ĐỒNG Tác giả luận văn ĐỀ TÀI LUẬN VĂN Mã đề tài: 19AKHDL-KH04 Theo QĐ số 1536 Hiệu trưởng trường ĐHBK Hà Nội ký ngày 19 tháng năm 2019 Họ tên học viên: Lê Trọng An SHHV: CA190038 Chuyên ngành: Khoa học máy tính Lớp: 19AKHDL Cán hướng dẫn: TS Nguyễn Hồng Quang Đơn vị: Viện Công nghệ Thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội Tên đề tài (tiếng Việt): Tổng hợp tiếng Việt có cảm xúc học máy Tên đề tài (tiếng Anh): Synthesize Vietnamese with emotions by machine learning Hà Nội, ngày 08 tháng 12 năm 2021 Giáo viên hướng dẫn Ký ghi rõ họ tên TS Nguyễn Hồng Quang LỜI CAM ĐOAN Tôi xin cam kết luận văn tốt nghiệp cơng trình nghiên cứu thân hướng dẫn TS Nguyễn Hồng Quang Các kết nêu luận văn tốt nghiệp trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày 08 tháng 12 năm 2021 Tác giả luận văn Lê Trọng An LỜI NĨI ĐẦU Lời nói phương tiện giao tiếp ngôn ngữ, công cụ lồi người giúp ta giao tiếp, bộc lộ cảm xúc, suy nghĩ, trao đổi kinh nghiệm thông tin Xã hội công nghệ ngày phát triển, loại máy móc phát minh để thay sức lao động cho người ngày nhiều khiến cho nhu cầu giao tiếp người máy móc ngày tăng lên Do xử lý tiếng nói trở thành lĩnh vực quan trọng quan tâm Một lời nói coi truyền đạt hiệu thể nội dung từ ngữ cảm xúc người nói Vì vậy, việc đưa ngữ điệu cảm xúc vào tiếng nói tổng hợp có đóng góp quan trọng việc nâng cao hiệu giao tiếp người máy Trong năm gần đây, hệ thống tổng hợp tiếng Việt đạt nhiều thành tựu đáng ghi nhận Tuy nhiên, việc đưa cảm xúc vào câu nói tổng hợp cịn gặp nhiều khó khăn Sử dụng cách tiếp cận truyền thống thay đổi liệu huấn luyện có hiệu việc làm liệu có cảm xúc khơng mang lại tự nhiên tiếng nói, thêm vào lại vơ tốn chi phí cơng sức chuẩn bị Hơn nữa, khả mở rộng thêm cảm xúc, phong cách nói gặp nhiều hạn chế Nhận thức vấn đề này, tác giả tiến hành nghiên cứu đề tài “Tổng hợp tiếng Việt có cảm xúc học máy” nhằm tìm đề xuất phương pháp có hiệu việc xử lý tiếng Việt tổng hợp Bài nghiên cứu hướng tới mục tiêu chính: Thứ nhất, hệ thống hóa lại kiến thức tổng hợp tiếng nói, sơ lược phương pháp kết nghiên cứu nội bật đề tài có Thứ hai, tác giả thơng qua nghiên cứu, tìm hiều, thử nghiệm để đề xuất phương pháp tổng hợp tiếng nói có cảm xúc hiệu Cuối cùng, từ kết thực nghiệm thu được, tác giả đánh giá hiệu mơ hình đề xuất phương hướng phát triển tương lai Đề tài thực dựa phương pháp nghiên cứu tổng hợp sở lý thuyết mơ hình tổng hợp tiếng nói nói chung tiếng Việt nói riêng, kết hợp với phương pháp thực nghiệm để tìm mơ hình học máy phù hợp, huấn luyện cho tổng hợp dựa liệu tiếng Việt có cảm xúc liệu đươc chuẩn hóa Sau xây dựng cơng cụ đánh giá chất lượng tiếng nói tổng hợp đề xuất phương hướng phát triển Kết cấu đề tài bao gồm 04 chương: • Chương 1: Cơ sở lý thuyết cơng trình nghiên cứu liên quan • Chương 2: Tổng hợp tiếng Việt có cảm xúc • Chương 3: Đánh giá kết tổng hợp • Chương 4: Kết luận Đóng góp nghiên cứu tóm tắt sau: Chứng minh khả xây dựng mơ hình hiệu việc tối thiểu chi phí xây dựng liệu âm (AnSpeech) Giới thiệu kiến trúc mơ hình tổng hợp tiếng Việt trần thuật có kết tốt Đề xuất phương pháp chuyển đổi cảm xúc cho tiếng Việt thay xây dựng mơ hình cho cảm xúc – hướng tốn chi phí thời gian nguồn lực Đề xuất phương pháp đánh giá kết tiếng nói tổng hợp Do hạn chế thời gian thực kiến thức chuyên ngành, nghiên cứu không tránh khỏi thiếu sót, mong nhận phản hồi góp ý từ phía thầy Cuối cùng, em xin gửi lời cảm ơn tới toàn thể hội đồng, thầy giáo, cô giáo Viện Công nghệ thông tin Truyền thông, thầy cô giáo nghiên cứu sinh Lab 802, người dìu dắt em ngày đầu em nghiên cứu xử lý tiếng nói Em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Hồng Quang thầy Lê Xuân Thành đưa em đến với lĩnh vực xử lý tiếng nói hướng dẫn em tìm hiểu tổng hợp tiếng Việt Hai thầy ln hướng dẫn, bảo tận tình cho em kiến thức kỹ cần thiết để nghiên cứu lĩnh vực Cảm ơn thầy cho em niềm tin động lực để hoàn thành giấc mơ trở thành Thạc sĩ Trường Đại học Bách khoa Hà Nội Em xin chân thành cảm ơn! MỤC LỤC MỤC LỤC i DANH MỤC BẢNG vi DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ vii CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH NGHIÊN CỨU 1.1 Giới thiệu chung 1.2 Sơ nghiên cứu phương pháp truyền thống 1.2.1 Tổng hợp tiếng nói 1.2.2 Lựa chọn Vocoder 1.2.3 Tổng hợp tiếng Việt có cảm xúc 1.3 Các nghiên cứu giới 1.3.1 Tổng hợp tiếng nói 1.3.2 Tổng hợp tiếng nói có cảm xúc 1.4 Các nghiên cứu công bố tiếng Việt 11 1.4.1 HMM-based TTS for hanoi Vietnamese: Issues in design and evaluation.11 1.4.2 Development of Vietnamese Speech Synthesis System using Deep Neural Networks 12 1.4.3 Alternative Vietnamese Speech Synthesis with Phoneme Structure 13 1.4.4 Vietnamese Speech Synthesis with End-to-end Model 14 1.4.5 Tổng hợp tiếng Việt có cảm xúc với chất giọng khác có biểu lộ cảm xúc 16 1.5 Các liệu công bố 16 1.5.1 Bộ liệu cảm xúc nước 17 1.5.2 Bộ liệu cảm xúc nước 17 1.6 Các đề xuất giải cho tốn tổng hợp tiếng Việt có cảm xúc 18 CHƯƠNG TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC 19 i 2.1 Dữ liệu 19 2.1.1 Bộ liệu AnSpeech 19 2.1.2 Tổng hợp 20 2.2 Mơ hình đề xuất 21 2.3 Tiền xử lý 22 2.4 Huấn luyện mơ hình tổng hợp tiếng nói 23 2.4.1 Quy trình huấn luyện 23 2.4.2 Biến thể Tacotron 23 2.4.3 Flowtron 25 2.5 Biến đổi phong cách, cảm xúc tiếng nói 27 2.5.1 Sơ đồ q trình tạo tiếng nói bình thường 27 2.5.2 Sơ đồ q trình tạo tiếng nói cảm xúc 28 2.5.3 Quá trình hoạt động 28 2.6 Huấn luyện mơ hình 29 2.7 Thiết kế thử nghiệm 30 2.7.1 Tổng quan 30 2.7.2 Thí nghiệm 01 – Mơ hình M1 31 2.7.3 Thí nghiệm 02 – Mơ hình M2 32 2.7.4 Thí nghiệm 03 – Mơ hình M3 32 2.7.5 Thí nghiệm 04 – Mơ hình M4 33 2.7.6 Thí nghiệm 05 – Chuyển đổi cảm xúc 33 2.7.7 Thí nghiệm 06 – Đánh giá phần cứng 35 2.7.8 Tổng kết 35 CHƯƠNG ĐÁNH GIÁ KẾT QUẢ TỔNG HỢP 36 3.1 Công cụ đánh giá 36 3.2 Tổng hợp kết đánh giá 37 ii 3.2.1 Thang đo Mean Opinion Score (MOS) 37 3.2.2 Trực quan hóa liệu T-distributed Stochastic Neighbor Embedding48 3.3 Thảo luận 51 CHƯƠNG KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 54 4.1 Kết luận 54 4.2 Định hướng phát triển 55 DANH MỤC TÀI LIỆU THAM KHẢO 56 iii Câu tập huấn luyện Câu tập huấn luyện 4.5 3.5 2.5 1.5 0.5 Cảm xúc 11 12 13 14 16 17 18 Chất lượng Cảm xúc 10 15 Chất lượng Hình So sánh câu tệp huấn luyện cảm xúc Vui người đánh giá Nữ Câu tập huấn luyện Câu tập huấn luyện 4.5 3.5 2.5 1.5 0.5 Cảm xúc 11 12 13 Chất lượng 14 16 17 18 Cảm xúc 10 15 Chất lượng Hình So sánh câu tệp huấn luyện cảm xúc BT người đánh giá Nam 44 Câu tập huấn luyện Câu tập huấn luyện 4.5 3.5 2.5 1.5 0.5 Cảm xúc 11 12 13 14 16 17 18 Cảm xúc Chất lượng 10 15 Chất lượng Hình So sánh câu tệp huấn luyện cảm xúc Buồn người đánh giá Nam Câu tập huấn luyện Câu tập huấn luyện 4.5 3.5 2.5 1.5 0.5 Cảm xúc 11 12 13 Chất lượng 14 16 17 18 Cảm xúc 10 15 Chất lượng Hình So sánh câu tập huấn luyện cảm xúc Vui người đánh giá Nam Có thể thấy điểm câu tập huấn luyện cao ổn định khác biệt câu ngồi tập huấn luyện khơng lớn Với câu có chất lượng tự nhiên đánh giá cao, hầu hết đánh giá cảm xúc cao 45 Hình MOS trung bình cảm xúc với phương diện người đánh giá Nam Hình 10 MOS trung bình cảm xúc phương diện người đánh giá Nữ Tác giả đưa kết cảm xúc phương diện khác vào biểu đồ hình nến Có thể thấy câu thuộc cảm xúc bình thường (trần thuật) tốt nhất, câu mang cảm xúc vui kết chưa thực tốt câu mang cảm xúc buồn Mối liên hệ cảm xúc chất lượng mức độ biểu đạt tương tự 46 Giới tính người đánh giá Nam Nữ Cả Nam Nữ 10 câu tập huấn luyện câu tập huấn luyện Câu thể cảm xúc nghệ sỹ câu tập huấn luyện 4.16 ± 0.23 4.09 ± 0.36 4.65 ± 0.06 3.95 ± 0.21 3.89 ± 0.29 3.9 ± 0.31 3.96 ± 0.47 4.61 ± 0.06 4.68 ± 0.06 4.23 ± 0.16 4.19 ± 0.19 4.59 ± 0.14 4.12 ± 0.15 4.12 ± 0.25 4.08 ± 0.3 4.21 ± 0.19 4.66 ± 0.1 4.68 ± 0.03 4.19 ± 0.18 4.14 ± 0.27 4.62 ± 0.07 4.04 ± 0.17 4.0 ± 0.29 4.63 ± 0.03 4.01 ± 0.26 4.08 ± 0.33 4.68 ± 0.03 Câu tiếng nói tổng hợp Cảm xúc Bình thường Buồn Vui Bình thường Buồn Vui Bình thường Buồn Vui Bảng Kết đánh giá MOS với tiêu chí độ tự nhiên dễ hiểu câu tiếng nói Kết bảng 3-5 cho thấy tổng hợp tiếng nói đạt độ tự nhiên độ dễ hiểu tốt Các kết đánh giá câu tiếng nói tổng hợp cho kết xấp xỉ với tiếng nói tự nhiên, chí câu tiếng nói với cảm xúc bình thường cịn đánh giá cao câu thể tự nhiên nghệ sỹ Kết cho thấy khơng có sai khác nhiều kết đánh giá giới tính người đánh giá, cho dù người đánh giá nữ có xu hướng cho điểm cao so với người đánh giá nam Ngoài độ lệch kết đánh giá người đánh giá không chênh lệch, điều phản ảnh độ tin cậy kết đánh giá Giới tính người đánh giá Nam 10 câu ngồi tập huấn luyện câu tập huấn luyện Câu thể cảm xúc nghệ sỹ câu tập huấn luyện 3.88 ± 0.2 3.79 ± 0.4 4.16 ± 0.13 3.3 ± 0.39 3.07 ± 0.29 4.34 ± 0.18 3.39 ± 0.28 3.66 ± 0.17 4.34 ± 0.12 Câu tiếng nói tổng hợp Cảm xúc Bình thường Buồn Vui 47 Nữ Cả Nam Nữ Bình thường Buồn Vui Bình thường Buồn Vui 3.83 ± 0.23 3.83 ± 0.27 4.39 ± 0.13 3.28 ± 0.27 3.73 ± 0.21 3.2 ± 0.26 3.95 ± 0.15 4.61 ± 0.21 4.48 ± 0.15 3.85 ± 0.19 3.81 ± 0.32 4.28 ± 0.12 3.29 ± 0.31 3.56 ± 0.23 3.13 ± 0.27 3.8 ± 0.1 4.47 ± 0.13 4.41 ± 0.12 Bảng Kết đánh giá MOS với tiêu chí mức độ biểu đạt cảm xúc câu tiếng nói Kết bảng 3-6 cho thấy cho thấy điểm đánh giá trung bình thang đo MOS ln mức Đạt Tốt Tuy nhận thấy khía cạnh biểu đạt cảm xúc mức độ biểu đạt cảm xúc buồn chưa cao cảm xúc vui Ngồi cịn khoảng cách để đạt cảm xúc bình thường 3.2.2 Trực quan hóa liệu T-distributed Stochastic Neighbor Embedding T-distributed Stochastic Neighbor Embedding (t-SNE) cơng cụ trực quan hóa liệu nhiều chiều Nó chuyển đổi điểm tương đồng điểm liệu thành xác suất chung Với việc sử dụng t-SNE để phân tích, tác giả muốn chứng minh phân cụm câu tiếng nói cảm xúc khác Hình 11 Đồ thị phân bố giá trị miền Z theo cảm xúc nghệ sĩ N.N.T 48 Hình 12 Đồ thị phân bố giá trị miền Z theo cảm xúc nghệ sĩ N.Đ.T Trong Hình 3-7 Hình 3-8, tác giả cố gắng trực quan hóa tương quan 30 câu nói cảm xúc: bình thường, buồn, vui nghệ sĩ Ngô Ngọc Trung Nguyễn Đức Tâm Kết cho thấy cảm xúc có tập trung tốt vùng định Dựa vào hình vẽ này, tác giả phân biệt rõ cặp cảm xúc khác có số trường hợp ngoại lệ bị nhầm vào vùng cảm xúc khác Hình 13 Đồ thị tSNE- biểu diễn phân bổ miền Z câu tổng hợp trần thuật, câu cảm xúc buồn huấn luyện câu tổng hợp cảm xúc Buồn 49 Hình 14 Đồ thị tSNE- biểu diễn phân bổ miền Z câu tổng hợp trần thuật, câu cảm xúc vui huấn luyện câu tổng hợp cảm xúc Vui Tiếp theo, tác giả thực trực quan hoá chuyển đổi cảm xúc từ bình thường đến cảm xúc đích đến buồn hay vui thơng qua liệu huấn luyện từ nghệ sĩ mang cảm xúc thật Trong Hình 3-9, ta nhận phân bố rõ rệt cụm cảm xúc bình thường (gồm câu tổng hợp trần thuật, câu cảm xúc trần thuật nghệ sĩ Ngô Ngọc Trung nghệ sĩ Nguyễn Đức Tâm) cụm cảm xúc buồn (gồm câu tổng hợp buồn câu cảm xúc buồn nghệ sĩ) Thực tế, trình huấn luyện, tác giả sử dụng liệu nghệ sĩ Ngô Ngọc Trung cho chuyển đổi cảm xúc buồn Điều thể rõ khoảng cách từ câu tổng hợp buồn (màu đỏ) kéo đến gần câu huấn luyện (màu tím) so với câu tổng hợp bình thường (màu xanh nước biển) Tương tự vậy, Hình 3-10 thể phân bố rõ rệt cụm cảm xúc bình thường cụm cảm xúc vui Việc trực quan hoá liệu miền Z thể hiệu phần “2.5 Quá trình biến đổi phong cách, cảm xúc” 50 Hình 15 Đồ thị tSNE- biểu diễn phân bổ miền Z tất câu tổng hợp, âm nghệ sĩ N.N.T, nghệ sĩ N.Đ.T cảm xúc khác 3.3 Thảo luận Luận văn nghiên cứu có kết đóng góp khoa học sau: Đóng góp 1: Luận văn đưa phương pháp xây dựng sở tiếng nói cho tốn tổng hợp tiếng Việt có cảm xúc; liệu phân tích đa dạng vốn từ đảm bảo chất lượng âm trước đưa vào mơ hình huấn luyện Cơ sở liệu hệ thống bao gồm hai thành phần chính: Bộ liệu trần thuật AnSpeech liệu cảm xúc chọn lọc từ BKEmo Nếu giới có Emo-DB [31] biểu đạt cảm xúc tốt thu phịng thu chun nghiệp Việt Nam, BKEmo [33] từ nhóm nghiên cứu thầy Lê Xuân Thành ngữ liệu tiếng Việt chất lượng cao, thu âm diễn viên, nghệ sĩ chuyên nghiệp Về AnSpeech, kịch thu âm tác giả chuẩn bị kỹ nội dung: bao gồm thơ hệ thống giáo dục cấp hai, cấp ba; tác phẩm tiếng tiểu thuyết Số đỏ, truyện Kiều; tản văn; blog chia sẻ kinh nghiệm ẩm thực, du lịch, ca nhạc; … Tác giả sử dụng giọng để chuẩn bị cho trình huấn luyện Dữ liệu âm thu lưu trữ dạng file “*.wav” , tín hiêu thu tần số lấy mẫu 22050 Hz, sau giảm xuống cịn 16000 Hz để khớp với liệu BKEmo 16 bit cho mẫu Dữ liệu thu 9796 file với tổng dung lượng 2,4GB Quá trình chuẩn bị liệu không 51 tốn nhiều thời gian tiền bạc Tất trình chuẩn bị nội dung, khởi tạo âm thanh, tải về, lưu trữ lọc nhiễu thực người ngày làm việc Có thể nói, việc xây dựng AnSpeech có ý nghĩa khả mở rộng, đem đến linh hoạt xây dựng từ điển mà không bị phụ thuộc vào việc chọn giọng nghệ sĩ Ngoài ra, hệ thống chuyển đổi cảm xúc sử dụng 30 câu âm chất lượng cho cảm xúc đánh giá mức Tốt chất lượng âm mức độ biểu đạt cảm xúc Điều minh chứng cho tính ứng dụng sản phẩm thực tế Đóng góp 2: Luận văn giới thiệu kiến trúc mơ hình tổng hợp tiếng Việt trần thuật có kết tốt Hiện nay, giới có nhiều thành cơng với hệ thống tổng hợp tiếng nói Rất nhiều kiến trúc phức tạp áp dụng Deep Voice [16], FastSpeech [34] ,FastSpeech [35] đạt kết tốt Tuy nhiên với tiếng Việt mơ hình cơng bố tốt Tacotron [29] Tác giả sử dụng kiến trúc để huấn luyện mơ hình đạt kết âm chất lượng tốt Đồng thời nhằm mục đích cải thiện chất lượng âm tốt hơn, tác giả sử dụng mơ hình pre-trained kiến trúc mơ hình Flowtron Luận văn thực số thay đổi so với báo gốc bắt đầu Flowtron với K=1 trước tăng dần giá trị K Cách làm chậm đảm bảo chất lượng âm chắn Đồng thời việc sử dụng Vocoder WaveGlow kết hợp từ Glow WaveNet sản sinh âm chất lượng cao tính tốn nhờ giảm kiến trúc mạng tham số mô hình Lựa chọn giúp hệ thống tối ưu chi phí, giảm thiểu phức tạp tính tốn khả lưu trữ Đóng góp 3: Đề xuất phương pháp chuyển đổi cảm xúc cho tiếng Việt thay xây dựng mơ hình cho cảm xúc – hướng tốn chi phí, thời gian nguồn lực Ý tưởng phép biến đổi đơn giản hiệu Trong thực tế, với thành công công bố tiếng nói trần thuật, nhóm nghiên cứu hồn tồn sử dụng kiến trúc với liệu cho cảm xúc Mỗi liệu cần phải xây dựng công phu, tốn tiền bạc thời gian Ngồi ra, để nâng cao tính ứng dụng thực tế, câu nói cần mang nhiều cảm xúc khác có khả chuyển đổi nhanh chóng 52 cảm xúc hội thoại Do phương án tổng hợp tiếng nói theo cảm xúc với liệu không khả thi Tác giả đề xuất phương pháp chuyển đổi cảm xúc dựa miền không gian Z phân phối chuẩn Dữ liệu âm tiếng nói trích xuất có nhiều đặc trưng khác mô tả miền không gian đa chiều Tuy nhiên, thực giảm chiều liệu, chắc có phân bố rõ ràng cảm xúc (Hình 3-13, Hình 3-14, Hình 3-15) Việc dịch chuyển tâm phân phối sang phân phối khác giúp âm có nhiều biến thể phong cách cảm xúc [36] Quá trình thực chuyển đổi diễn nhanh gấp nhiều lần trình huấn luyện lại mơ hình từ Trong cảm xúc, tác giả sử dụng 30 câu âm đại diện cho tập huấn luyện Số lượng câu huấn luyện ít, thời gian thu thập ngắn, q trình chuyển đổi cảm xúc diễn nhanh chóng kết thu đánh giá tốt Đóng góp 4: Đề xuất phương pháp đánh giá kết tiếng nói tổng hợp Luận văn thực đánh giá thang đo MOS, đảm bảo số lượng người tham gia cân giới tính thực phân tích kết hình vẽ miền khơng gian Z Trên thang đo MOS, kết chất lượng, mức độ dễ hiểu âm tổng hợp đánh giá điểm tốt; mức độ biểu đạt cảm xúc nằm thang điểm tốt Trong đó, câu âm cảm xúc trần thuật đánh giá tốt nhất, tiếp đến câu tổng hợp cảm xúc vui cuối cảm xúc buồn đánh giá thấp Quá trình đánh giá thực công tâm minh bạch Luận văn thực phân tích so sánh kết biểu đồ cột câu âm tổng hợp tập huấn luyện Mức điểm hai tiếng nói khơng q chênh lệch Tác giả trực quan hóa liệu âm tổng hợp, âm nghệ sĩ Nguyễn Đức Tâm, nghệ sĩ Ngô Ngọc Trung miền không gian Z Những cảm xúc khác nằm cụm khác 53 CHƯƠNG 4.1 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Luận văn hoàn thành đề tài nghiên cứu “Tổng hợp tiếng Việt có cảm xúc học máy” Trong luận văn trình bày lại kiến thức tổng hợp tiếng nói, cơng trình nghiên cứu giới thu kết bật, tài liệu tổng hợp tiếng Việt có cảm xúc Luận văn đề xuất kiến trúc mơ hình cho hệ thống tổng hợp tiếng nói cảm xúc hiệu dựa công cụ tự xây dựng AnSpeech Kết thu thang đo MOS chứng minh tính khả quan nghiên cứu Về mặt thực nghiệm, tác giả giới thiệu ngữ liệu tiếng Việt với cảm xúc trần thuật – AnSpeech, tiết kiệm thời gian chuẩn bị, chi phí xây dựng đảm bảo đa dạng bối cảnh, độ dài câu số lượng từ vựng AnSpeech xây dựng kịch từ văn, thơ, hát nên vốn từ vựng vơ đa dạng, âm khơng có nhiễu phát âm rõ ràng chữ Các bước tiền xử lý ngữ liệu thực cẩn thận để tạo sở cho mơ hình có hiệu cao Hiện tại, với ngơn ngữ tiếng Việt, khơng nhiều âm tiếng nói cơng bố rộng rãi khơng có tiếng ồn Tác giả thực nghiên cứu kiến trúc đại giới; học hỏi áp dụng mô hình vào tiếng Việt có cảm xúc Luận văn kết hợp mơ hình Tacotron2 Flowtron nhà khoa học đến từ NVIDIA để huấn luyện mô hình thiết bị phần cứng họ nhằm mục đích tối ưu thời gian huấn luyện Với tổng thời gian gần hai ngày dành cho huấn luyện, tiếng nói sinh đảm bảo chất lượng tốt độ tự nhiên mức độ dễ hiểu Với 30 câu cảm xúc Buồn, 30 câu cảm xúc Vui để thực biến đổi phong cách gần 10000 câu trần thuật cho xây dựng hệ thống tổng hợp tiếng nói thơng thường, điểm số trung bình thang đo MOS từ 150 người tham gia mức Đạt Tốt khía cạnh biểu đạt cảm xúc mức Tốt Rất tốt khía cạnh độ tự nhiên mức độ dễ hiểu câu Tuy nhiên, kết số điểm chưa tốt mức độ biểu đạt cảm xúc buồn chưa cao, khoảng cách tương đối lớn để đạt cảm xúc bình thường; tác giả giới hạn 03 cảm xúc 54 bình thường, vui, buồn giới có sản phẩm thể nhiều cảm xúc Mặc dù luận văn xây dựng thêm liệu AnSpeech việc có liệu âm từ giọng người thật hứa hẹn đem lại kết tốt Số lượng âm cảm xúc chiếm tỉ trọng (0.3%) nhỏ so với tổng số câu trần thuật vấn đề cần cải thiện Theo nghiên cứu Pengfei Wu cộng [20] , 5% liệu huấn luyện gán nhãn cảm xúc số lý tưởng 4.2 Định hướng phát triển Từ kết nghiên cứu luận văn, tác giả để xuất số hướng nghiên cứu sau: • Xây dựng liệu với khoảng 500 câu cho cảm xúc: buồn, vui ( tương ứng với 5% kích thước tập huấn luyện) Các âm kì vọng thu từ nghệ sĩ chuyên nghiệp có khả thể cảm xúc tốt • Nghiên cứu thêm khả kết hợp cảm xúc câu Vì thực tế, bắt gặp nhiều trường hợp câu nói mang nhiều cảm xúc khác • Tìm hiểu nghiên cứu hướng tiếp cận mới: Reinforcement Learning Hiện giới, báo hướng tiếp cận công bố vào tháng năm 55 DANH MỤC TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] T Q F S T.-Y L Xu Tan, "A Survey on Neural Speech Synthesis," CoRR, pp 1-63, 2021 E C V A Dang-Khoa Mac, "MODELING THE PROSODY OF VIETNAMESE ATTITUDES FOR EXPRESSIVE SPEECH," Third Workshop on Spoken Language Technologies for Under-resourced, pp 114-118, 2012 D.-K M.-D Tran, "Modeling Vietnamese Speech Prosody: A Step-byStep Approach Towards an Expressive Speech Synthesis System," Revised Selected Papers of the PAKDD 2015 Workshops on Trends and Applications in Knowledge Discovery and Data Mining, p 273– 287, 2015 W F S Felix Burkhardt, "Verification of Acousical Correlates of Emotional Speech using Formant-Synthesis," ITRW on Speech and Emotion, pp 1-6, 2000 T Phan, T Duong, A Dinh, T Vu and C Luong, "Improvement of naturalness for an HMM-based Vietnamese speech synthesis using the prosodic information," The 2013 RIVF International Conference on Computing \& Communication Technologies - Research, Innovation, and Vision for Future (RIVF), pp 276-281, 2013 T Vu, M C Luong and N Satoshi, "An HMM- based Vietnamese Speech Synthesis System," 2009 Oriental COCOSDA International Conference on Speech Database and Assessments, ICSDA 2009, pp 116 - 121, 2009 K O T M T K Junichi Yamagishi, "Modeling of Various Speaking Styles and Emotions for HMM-Based Speech Synthesis," EUROSPEECH 2003, pp 1-6, 2003 M M J G Sangramsing Kayte, "Hidden Markov Model based Speech Synthesis: A Review," International Journal of Computer Applications, pp 35-39, 2015 S D H Z Aaron van den Oord, "WaveNet: A Generative Model for Raw Audio," Proc 9th ISCA Workshop on Speech Synthesis Workshop (SSW 9), p 125, 2016 R V B C Ryan Prenger, "WaveGlow: A Flow-based Generative Network for Speech Synthesis," ICASSP 2019, pp 3617-3621, 2019 Đ T L T T V L N H Q Lê Xuân Thành, "Speech Emotions and Statistical Analysis for Vietnamese Emotions," Journal of Vietnam Ministry of Information and Communication, pp 86-98, 2016 W F S Felix Burkhardt, "A database of German emotional speech," INTERSPEECH 2005, pp 1517 1520, 2005 N Campbell, "CHATR the Corpus; a 20-year-old archive of Concatenative Speech Synthesis," Proceedings of the Tenth International Conference on Language Resources and Evaluation 56 [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] {LREC} 2016, pp 3436-3439, 2016 H Z A W B Keiichi Tokuda, "An HMM-based speech synthesis system applied to English," Proceedings of 2002 IEEE Workshop on Speech Synthesis, 2002., pp 227-230, 2002 F Eyben, S Buchholz and N Braunschweiler, "Unsupervised clustering of emotion and voice styles for expressive TTS," 2012 International Conference on Acoustics, Speech and Signal, pp 40094012, 2012 G D A G J M K P W P J R Y Z Sercan Arik, "Deep Voice 2: Multi-Speaker Neural Text-to-Speech," Proceedings of the 31st International Conference on Neural Information Processing Systems, p 2966–2974, 2017 Y W a R J S.-R a D S a Y W a R J W a N J a Z Y a Y X a Z C a S B a Q V L a Y A a R A J C a R A Saurous, "Tacotron: Towards End-to-End Speech Synthesis," INTERSPEECH, pp 4006-4010, 2017 K P A G S O A A K S N J R J M Wei Ping, "Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning," International Conference on Learning Representations, pp 1-6, 2018 D V Sang and L X Thu, "FastTacotron: A Fast, Robust and Controllable Method for Speech Synthesis," 2021 International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pp 1-5, 2021 Y Z R S.-R Daisy Stanton, "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," Proceedings of the 35th International Conference on Machine Learning, pp 5180-5189, 2018 O Kwon, I Jang, C Ahn and H.-G Kang, "An Effective Style Token Weight Control Technique for End-to-End Emotional Speech Synthesis," IEEE Signal Processing Letters, pp 1-1, 2019 Z.-h L L.-j L Peng-fei Wu, “End-to-End Emotional Speech Synthesis Using Style Tokens and Semi-Supervised Training,” 2019 APSIPA ASC, pp 623-627, 2019 D Stanton, Y Wang and R Skerry-Ryan, "Predicting Expressive Speaking Style from Text in End-To-End Speech Synthesis," 2018 IEEE Spoken Language Technology Workshop (SLT), pp 595-602, 2018 S P L H Z.-H L Ya-Jie Zhang, "Learning latent representations for style control and transfer in end-to-end speech synthesis," ICASSP 2019, pp 6945-6949, 2019 B S H L Rui Liu, "Reinforcement Learning for Emotional Text-toSpeech Synthesis with Improved Emotion Discriminability," CoRR, pp 4648-4652, 2021 57 [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] C d A R D D T Thi Thu Trang Nguyen, "HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation," INTERSPEECH 2013, pp 2311-2315, 2013 B Q N K H P H V D Thinh Van Nguyen, "Development of Vietnamese Speech Synthesis System using Deep Neural Networks," Journal of Computer Science and Cybernetics, p 349–363, 2019 N M T C X N Do Tri Nhan, "Vietnamese Speech Synthesis with End-to-End Model and Text Normalization," 2020 7th NAFOSTED Conference on Information and Computer Science (NICS), pp 179183, 2020 J S a R P a R J W a M S a N J a Z Y a Z C a Y Z a Y W a R J S.-R a R A S a Y A a Y Wu, "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, pp 4779-4783, 2018 L X Thành, TỔNG HỢP TIẾNG VIỆT VỚI CÁC CHẤT GIỌNG KHÁC NHAU, 2018 K S R P B C Rafael Valle, "Flowtron: an Autoregressive Flowbased Generative Network for Text-to-Speech Synthesis," 9th International Conference on Learning Representations, pp - 17, 2021 G X Z Z Wei Song, "Efficient WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed," INTERSPEECH 2020, pp 225 - 229, 2020 G L a D L Marie Tahon, "Can we Generate Emotional Pronunciations for Expressive Speech Synthesis?," IEEE Transactions on Affective Computing, pp 684-695, 2020 O Kwon, I Jang, C Ahn and H.-G Kang, "Emotional Speech Synthesis Based on Style Embedded Tacotron2 Framework," 2019 ITC-CSCC, pp 1-4, 2019 D K A L A C Chin-Wei Huang, "Neural Autoregressive Flows," Proceedings of the 35th International Conference on Machine Learning, pp 2078-2087, 2018 M C A C G D A G Y K X L J M A N J R S S M S Sercan O Arik, "Deep Voice: Real-time Neural Text-to-Speech," Proceedings of the 34th International Conference on Machine Learning, pp 195-204, 2017 L Q.-H L.-J W.-F Z.-H Wang, "HMM-Based Emotional Speech Synthesis Using Average Emotion Model," Chinese Spoken Language Processing, 5th International Symposium, {ISCSLP}, pp 233-240, 2006 58 ... thực tế Tại Việt Nam, xử lý ngôn ngữ nhiều quan tâm, nghiên cứu, phát triển, có tổng hợp tiếng Việt có cảm xúc Có điều chắn rằng, hệ thống tổng hợp tiếng Việt có cảm xúc làm tốt người Việt - người... xuất giải cho toán tổng hợp tiếng Việt có cảm xúc 18 CHƯƠNG TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC 19 i 2.1 Dữ liệu 19 2.1.1 Bộ liệu AnSpeech 19 2.1.2 Tổng hợp 20... Tổng hợp tiếng nói 1.2.2 Lựa chọn Vocoder 1.2.3 Tổng hợp tiếng Việt có cảm xúc 1.3 Các nghiên cứu giới 1.3.1 Tổng hợp tiếng nói 1.3.2 Tổng hợp tiếng

Định dạng
Số trang	73
Dung lượng	1,4 MB

Tiêu đề	Tổng hợp tiếng Việt có cảm xúc bằng học máy
Tác giả	Lê Trọng An
Người hướng dẫn	TS. Nguyễn Hồng Quang
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Tổng hợp tiếng việt có cảm xúc bằng học máy

Các thí nghiệm nhóm 1 và luồng lưu trữ