MỞ ĐẦU 1. Lý do lựa chọn đề tài Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã tạo nên nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong đó, xử lý tiếng nói nói chung và tổng hợp tiếng nói nói riêng là một vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng để nâng cao hiệu quả sử dụng của máy tính nhằm phục vụ con người trong cuộc sống. Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế. Xử lý ngôn ngữ tiếng Việt nói chung và tổng hợp tiếng Việt nói nói riêng là những vấn đề chỉ có thể làm tốt được bởi chính người Việt. Hiện nay, đã có rất nhiều công trình nghiên cứu về tổng hợp tiếng Việt giọng trần thuật cho kết quả tốt và cùng đã có một số sản phẩm tổng hợp tiếng Việt như VietVoice, vnVoice, VieTTS, VOS hay VnSpeech do người Việt và một số người Việt Nam ở nước ngoài làm ra và đã có những kết quả tốt. Tổng hợp cảm xúc trong tiếng nói không phải là vấn đề mới mẻ, nhiều ngôn ngữ đã có những nghiên cứu về vấn đề này. Các kết quả này nếu được ứng dụng vào các hoạt động của cuộc sống như: trợ lý ảo trên điện thoại, robot giúp việc, các hệ thống nhà thông minh sẽ giúp các hệ thống có thêm nhiều thông tin để phục vụ tốt hơn các yêu cầu của con người. Hiện nay, các nghiên cứu về tổng hợp hay nhận dạng tiếng Việt có cảm xúc chưa nhiều, các kết quả đã công bố thường là các nghiên cứu nhỏ lẻ, trên các bộ ngữ liệu có số lượng ít [123], thường chỉ vài giọng và thường mới chỉ đánh giá so sánh với giọng của nước khác [114] chứ chưa có nghiên cứu một cách hệ thống về tổng hợp tiếng Việt có cảm xúc. Từ các lý do trên, nghiên cứu sinh lựa chọn đề tài nghiên cứu “Tổng hợp tiếng Việt với các chất giọng khác nhau và có biểu lộ cảm xúc” nhằm nghiên cứu sâu hơn về vấn đề tổng hợp tiếng Việt với mục tiêu là hướng tới hệ tổng hợp tiếng Việt chất lượng tốt với các chất giọng khác nhau và có biểu lộ xúc cảm. Đây là vấn đề vẫn còn mới mẻ và có tính thời sự đối với tiếng Việt và có tiềm năng ứng dụng cao, đáp ứng nhu cầu phát tiển của các ứng dụng cả trên phần cứng và phần mềm như: lồng tiếng phim, ứng dụng vào trợ lý ảo, nhà thông minh….
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Lê Xuân Thành TỔNG HỢP TIẾNG VIỆT VỚI CÁC CHẤT GIỌNG KHÁC NHAU VÀ CÓ BIỂU LỘ CẢM XÚC Ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TINH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đặng Văn Chuyết PGS.TS Trịnh Văn Loan Hà Nội - 2018 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT MỤC LỤC CÁC BẢNG 10 MỤC LỤC HÌNH ẢNH 12 MỞ ĐẦU 14 TỔNG QUAN NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI VÀ TỔNG HỢP TIẾNG NÓI CÓ CẢM XÚC 18 1.1 Tình hình nghiên cứu giới tổng hợp tiếng nói 18 1.1.1 Tổng hợp ghép nối 19 1.1.2 Tổng hợp mơ hình 21 1.2 Các nghiên cứu tổng hợp tiếng nói nước 23 1.2.1 Tổng hợp phương pháp ghép nối 24 1.2.2 Tổng hợp dựa mơ hình 24 1.3 Các nghiên cứu tổng hợp tiếng nói có cảm xúc giới 25 1.3.1 Tổng quan 25 1.3.2 Các tham số ảnh hưởng đến cảm xúc tiếng nói 25 1.4 Các nghiên cứu tiếng nói có cảm xúc tiếng Việt 27 1.5 Kết chương 28 XÂY DỰNG BỘ NGỮ LIỆU TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC 31 2.1 Xây dựng ngữ liệu tổng hợp tiếng Việt nói chất lượng tốt 31 2.1.1 Đặc điểm ngữ âm tiếng Việt 31 2.1.2 Hệ thống âm vị cấu trúc âm tiết tiếng Việt 32 2.1.3 Hệ thống điệu 35 2.1.4 Hệ thống âm đầu 36 2.1.5 Hệ thống âm đệm 37 2.1.6 Hệ thống âm 38 2.1.7 Hệ thống âm cuối 39 2.1.8 Xây dựng ngữ liệu tiếng Việt nói chất lượng tốt 40 2.1.9 Xây dựng danh sách âm tiết ngữ liệu 42 2.1.10 Kịch thu 42 2.1.11 Thu âm 43 2.2 Xây dựng ngữ liệu cảm xúc tiếng Việt 44 2.2.1 Mục đích xây dựng ngữ liệu cảm xúc tiếng Việt 44 2.2.2 Các tham số cảm xúc tiếng nói 44 2.2.3 Phương pháp xây dựng ngữ liệu cảm xúc tiếng Việt 46 2.2.4 Phân tích đánh giá số tham số cảm xúc tiếng Việt nói 48 2.2.5 Đánh giá ngữ liệu cảm xúc tiếng Việt 59 2.3 Kết chương 59 TỔNG HỢP TIẾNG VIỆT CÓ BIỂU LỘ CẢM XÚC 61 3.1 Tổng hợp tiếng Việt chất lượng tốt 61 3.1.1 Xây dựng ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt 61 3.1.2 Tổng hợp tiếng Việt chất lượng tốt phương pháp ghép nối 61 3.1.3 Phương pháp đánh giá chủ quan MOS 70 3.1.4 Thử nghiệm tổng hợp số câu nói tổng hợp tiếng Việt chất lượng tốt 71 3.2 Tổng hợp tiếng Việt có cảm xúc 76 3.2.1 Mô hình Fujisaki 77 3.2.2 Tổng hợp tiếng Việt nói có cảm xúc sử dụng mơ hình Fujisaki 80 3.2.3 Đánh giá phương pháp chủ quan chất lượng câu tổng hợp tiếng Việt có cảm xúc 86 3.2.4 Đánh giá phương pháp khách quan chất lượng câu tổng hợp tiếng Việt có cảm xúc 89 3.3 Kết chương 91 KẾT LUẬN VÀ KIẾN NGHỊ 93 CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ 96 TÀI LIỆU THAM KHẢO 97 PHỤ LỤC A – DANH SÁCH CÁC ÂM CẦN THU 107 DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích Accent Trọng âm ANOVA Analysis of variance Phân tích phương sai BKEmon Bach khoa Emotion Bộ ngữ liệu cảm xúc tiếng Việt nghiên cứu sinh xây dựng DRM Distinctive Region Model Mơ hình phần riêng biệt Thời hạn phát âm (là độ dài tín hiệu âm) Duration EEG ElectroEncephaloGram) Tín hiệu điện não F0 Fundamental frequency Tần số GMM Gaussian Mixture Model Mơ hình hỗn hợp Gauss HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân biệt tuyến tính khơng đồng HMM Hidden Markov Model Mơ hình Markov ẩn HTK Hidden Markov Model Toolkit Bộ cơng cụ mơ hình Markov ẩn HTS HMM-based Speech Synthesis System Hệ tổng hợp tiếng nói mơ hình HMM LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đồn liệu ngôn ngữ LLR Log Likelihood Ratio Log tỉ lệ khả LPC Linear Prediction Coding Mã hóa tiên đốn tuyến tính MBROLA Multi-Band Resynthesis OverLap Add Bộ tổng hợp tiếng nói phương pháp ghép nối MFCC Mel Frequency Cepstral Coefficients Các hệ số Cepstral theo thang đo tần số Mel MICA International Research Institute Multimedia, Information, Communication and Applications Viện nghiên cứu Quốc tế Truyền thông, Thông tin, Đa phương tiện Ứng dụng MOS Mean Opinion Score Điểm trung bình số ý kiến NIST National Institute of Standards and Technology Viện Tiêu chuẩn Công nghệ Quốc gia Mỹ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên Pitch Cao độ Pitch contour Đường bao cao độ PCA Principal Component Analysis Phân tích thành phần Phrase Cụm từ PSOLA Pitch Synchronous Overlap Kỹ thuật cộng chồng đồng cao and Add độ SMO Sequential Minimal Optimization Tối ưu hóa cực tiểu Segmental Đoạn tính Suprasegmental Siêu đoạn tính SVM Máy véc-tơ hỗ trợ Support Vector Machines Thanh điệu Tone TTS Văn thành tiếng nói Text-to-Speech Tukey’s test WER Kiểm định T Word Error Rate Tỷ lệ lỗi từ MỤC LỤC CÁC BẢNG Bảng 2.1 Hệ thống phụ âm cách đọc 33 Bảng 2.2 Hệ thống nguyên âm tiếng Việt 34 Bảng 2.3 Cấu trúc âm tiết tiếng Việt 35 Bảng 2.4 Phân loại điệu tiếng Việt 36 Bảng 2.5 Hệ thống âm đầu tiếng Việt 36 Bảng 2.6 Bảng mô tả hệ thống phụ âm đầu tiếng Việt 37 Bảng 2.7 Hệ thống âm tiếng Việt 38 Bảng 2.8 Hệ thống nguyên âm với 13 nguyên âm đơn, nguyên âm đôi 38 Bảng 2.9 Hệ thống âm cuối tiếng Việt 39 Bảng 2.10 Hệ thống âm cuối tiếng Việt theo cách phát âm 40 Bảng 2.11 Cách tổ chức đơn vị âm đầu đơn vị âm cuối 42 Bảng 2.12 Giá trị F P-value phân tích phương sai ANOVA cho giọng nam nữ với tần số 𝐹0 trung bình lượng trung bình 51 Bảng 2.13 Kết phân tích kiểm định T 𝐹0 cho giọng người nói T.T.H Đ.K 52 Bảng 2.14 Kết phân tích kiểm định T lượng trung bình cho giọng Đ.K (nam) T.T.H (nữ) 54 Bảng 2.15 Giá trị F P-value phân tích phương sai ANOVA cho giọng nam nữ với 𝐹0 trung bình lượng trung bình 57 Bảng 2.16 Kết phân tích kiểm định T 𝐹0 trung bình lượng trung bình cho giọng giọng nam 57 Bảng 2.17 Kết phân tích kiểm định T 𝐹0 trung bình lượng trung bình cho giọng giọng nữ 58 Bảng 3.1 Bảng điểm đánh giá theo thang MOS 70 Bảng 3.2 Các câu thử nghiệm tổng hợp giọng trần thuật (cảm xúc bình thường) tổng hợp tiếng Việt chất lượng tốt 71 Bảng 3.3 Kết đánh giá 14 người nghe 72 Bảng 3.4 Bộ tham số điều chỉnh thời hạn phát âm câu "Ơng nói tơi khơng hiểu" 82 10 Bảng 3.5 Bộ tham số điều chỉnh cường độ câu "Ơng nói tơi không hiểu" 83 Bảng 3.6 Bộ tham số điều chỉnh 𝐹0 câu "Ơng nói tơi khơng hiểu" cho cảm xúc tức 84 Bảng 3.7 Ma trận nhầm lẫn giọng nữ cho câu "Ơng nói tơi khơng hiểu" 86 Bảng 3.8 Ma trận nhầm lẫn giọng nam cho câu "Ơng nói tơi khơng hiểu" 87 Bảng 3.9 Ma trận nhầm lẫn tổng hợp giọng nam giọng nữ cho 14 câu 87 Bảng 3.10 Ma trận nhầm lẫn cho giọng nam cho cảm xúc cho 14 câu 87 Bảng 3.11 Ma trận nhầm lẫn cho giọng nữ cho cảm xúc cho 14 câu 87 Bảng 3.12 Kết đánh giá cảm xúc cho giọng nam tất câu 88 Bảng 3.13 Kết đánh giá cảm xúc cho giọng nữ tất câu 88 Bảng 3.14 Kết đánh giá cảm xúc cho hai giọng tất câu 88 11 MỤC LỤC HÌNH ẢNH Hình 1.1 Sơ đồ hệ thống tổng hợp tiếng nói [4] 18 Hình 1.2 Mơ hình tổng hợp tiếng Việt tổng hợp VnSpeech [26] 24 Hình 2.1 Minh họa điệu tiếng Việt 35 Hình 2.2 Cách thức tổ chức lưu trữ đơn vị âm sau thu xử lý 41 Hình 2.3 Slide kịch thu âm 43 Hình 2.4 Tín hiệu âm thu 43 Hình 2.5 Phần mềm dùng để thu âm ngữ liệu cảm xúc tiếng Việt - BKEmo 47 Hình 2.6 Tín hiệu câu mã số 4302 sau cắt bỏ khoảng lặng 48 Hình 2.7 Phân bố F phân tích phương sai ANOVA 49 Hình 2.8 Đồ thị box-plot phân bố giá trị 𝐹0 trung bình theo cảm xúc nghệ sĩ Đ.K (bên trái) H.P (bên phải) 50 Hình 2.9 Đồ thị box-plot phân bố giá trị 𝐹0 trung bình theo cảm xúc người nói T.T.H (phải) B.H.G (trái) 53 Hình 2.10 Đồ thị box-plot phân bố giá trị lượng trung bình theo cảm xúc người nói Đ.K (trái: giọng nam) T.T.H (phải: giọng nữ) 53 Hình 2.11 Đồ thị phân bố giá trị 𝐹0 trung bình so với lượng trung bình theo cảm xúc giọng nam (trái) giọng nữ (phải) 55 Hình 2.12 Đồ thị box-plot phân bố giá trị 𝐹0 trung bình theo cảm xúc giọng nam (trái) giọng nữ (phải) 56 Hình 2.13 Đồ thị box-plot phân bố giá trị lượng trung bình theo cảm xúc, giọng nam (trái) giọng nữ (phải) 56 Hình 3.1 Phần mềm xác định điểm cắt tần số 𝑭𝟎 điểm ghép nối tự xây dựng 62 Hình 3.2 Lưu đồ tổng hợp tiếng Việt phương pháp ghép nối 63 Hình 3.3 Tín hiệu âm đầu "ba": 65 Hình 3.4 Tín hiệu phần âm cuối /àng/: 66 Hình 3.5 Tín hiệu âm tiết "bàng" chưa xử lý điểm ghép nối 66 Hình 3.6 Tín hiệu âm tiết "bàng" chưa xử lý điểm ghép nối 67 Hình 3.7 Tín hiệu âm tiết "bàng" sau cân biên độ cân 𝑭𝟎: 67 12 ... nghiên cứu sâu vấn đề tổng hợp tiếng Việt với mục tiêu hướng tới hệ tổng hợp tiếng Việt chất lượng tốt với chất giọng khác có biểu lộ xúc cảm Đây vấn đề mẻ có tính thời tiếng Việt có tiềm ứng dụng... thường, tức tiếng Việt Nội dung thứ hai xây dựng ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt để chuẩn bị cho tổng hợp tiếng Việt có cảm xúc Chương 3: Tổng hợp tiếng Việt có biểu lộ cảm xúc Chương... [114] chưa có nghiên cứu cách hệ thống tổng hợp tiếng Việt có cảm xúc Từ lý trên, nghiên cứu sinh lựa chọn đề tài nghiên cứu ? ?Tổng hợp tiếng Việt với chất giọng khác có biểu lộ cảm xúc? ?? nhằm nghiên