1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tổng hợp tiếng việt với các chất giọng khác nhau và có biểu lộ cảm xúc tt

24 136 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 1,29 MB

Nội dung

MỞ ĐẦU Lý lựa chọn đề tài Ngày nay, với phát triển mạnh mẽ máy tính, ứng dụng máy tính lĩnh vực sống tạo nên nhiều yêu cầu nhằm đơn giản hố q trình sử dụng, tăng hiệu khai thác máy tính ứng dụng máy tính Trong đó, xử lý tiếng nói nói chung tổng hợp tiếng nói nói riêng vấn đề quan tâm nghiên cứu, phát triển ứng dụng để nâng cao hiệu sử dụng máy tính nhằm phục vụ người sống Trên giới có nhiều nghiên cứu vấn đề đạt nhiều thành công Nhiều sản phẩm hữu ích từ kết nghiên cứu ứng dụng thực tế Xử lý ngôn ngữ tiếng Việt nói chung tổng hợp tiếng Việt nói nói riêng vấn đề làm tốt người Việt Hiện nay, có nhiều cơng trình nghiên cứu tổng hợp tiếng Việt giọng trần thuật cho kết tốt có số sản phẩm tổng hợp tiếng Việt VietVoice, vnVoice, VieTTS, VOS hay VnSpeech người Việt số người Việt Nam nước làm có kết tốt Tổng hợp cảm xúc tiếng nói khơng phải vấn đề mẻ, nhiều ngơn ngữ có nghiên cứu vấn đề Các kết ứng dụng vào hoạt động sống như: trợ lý ảo điện thoại, robot giúp việc, hệ thống nhà thông minh giúp hệ thống có thêm nhiều thơng tin để phục vụ tốt yêu cầu người Hiện nay, nghiên cứu tổng hợp hay nhận dạng tiếng Việt có cảm xúc chưa nhiều, kết cơng bố thường nghiên cứu nhỏ lẻ, ngữ liệu có số lượng [1], thường vài giọng thường đánh giá so sánh với giọng nước khác [2] chưa có nghiên cứu cách hệ thống tổng hợp tiếng Việt có cảm xúc Từ lý trên, nghiên cứu sinh lựa chọn đề tài nghiên cứu “Tổng hợp tiếng Việt với chất giọng khác có biểu lộ cảm xúc” nhằm nghiên cứu sâu vấn đề tổng hợp tiếng Việt với mục tiêu hướng tới hệ tổng hợp tiếng Việt chất lượng tốt với chất giọng khác có biểu lộ xúc cảm Đây vấn đề mẻ có tính thời tiếng Việt có tiềm ứng dụng cao, đáp ứng nhu cầu phát tiển ứng dụng phần cứng phần mềm như: lồng tiếng phim, ứng dụng vào trợ lý ảo, nhà thông minh… Mục tiêu nội dung đề tài Mục tiêu nghiên cứu luận án xây dựng ngữ liệu cảm xúc cho tiếng Việt nói bước đầu lựa chọn cảm xúc là: vui, buồn, bình thường tức Sau đó, tiến hành phân tích đánh giá ảnh hưởng tham số đến việc biểu lộ cảm xúc tiếng Việt Trên sở kết đạt được, đề xuất xây dựng mô hình tổng hợp tiếng Việt có cảm xúc thử nghiệm tích hợp cảm xúc vào tiếng Việt tổng hợp Nhiệm vụ nghiên cứu luận án Để đạt mục tiêu đề ra, luận án cần hoàn thành nhiệm vụ sau: Xây dựng ngữ liệu cảm xúc cho tiếng Việt phân tích, đánh giá ảnh hưởng tham số đến cảm xúc tiếng Việt Tìm quy luật thay đổi tham số tương ứng với cảm xúc Đề xuất mơ hình tổng hợp tiếng Việt nói với yêu cầu chất lượng điệu đặt lên hàng đầu tổng hợp nhiều chất giọng khác Bước đầu thử nghiệm mơ hình tổng hợp tiếng Việt có cảm xúc Đối tượng phạm vi nghiên cứu luận án Đề tài luận án tổng hợp tiếng Việt với chất giọng khác có biểu lộ cảm xúc Trong khuôn khổ đề tài nhiệm vụ đặt ra, nghiên cứu sinh xác định đối tượng phạm vi nghiên cứu cho nhiệm vụ cụ thể sau: - Với nhiệm vụ 1: Cảm xúc tiếng nói đa dạng, cảm xúc lại có nhiều cảm xúc chi tiết (cách thể khác cảm xúc đó) Trong khn khổ nghiên cứu luận án, nghiên cứu sinh tập trung vào cảm xúc bình thường (trung tính), vui, buồn tức Bộ ngữ liệu xây dựng dựa cảm xúc Phần phân tích tập trung phân tích ảnh hưởng tham số tín hiệu tiếng Việt nói - Với nhiệm vụ 2: Nghiên cứu sinh tập trung nghiên cứu cách thức xây dựng tổng hợp yếu tố tổng hợp điệu đặt lên hàng đầu, ngữ liệu thiết kế để tạo nên tổng hợp có số lượng từ vựng khơng hạn chế với ngữ liệu Một nghiên cứu phần mơ hình tổng hợp giọng miễn cịn thu âm ngữ liệu giọng dung lượng ngữ liệu thấp - Với nhiệm vụ 3: Bước đầu thử nghiệm mơ hình tổng hợp tiếng Việt có cảm xúc tập trung vào cảm xúc phân tích tìm quy luật nhiệm vụ Ý nghĩa khoa học thực tiễn luận án Nội dung nghiên cứu luận án, kết đạt đóng góp đáng kể vào lĩnh vực nghiên cứu tổng hợp tiếng Việt có cảm xúc Các nghiên cứu cảm xúc tiếng Việt mặt tín hiệu cịn ít, hướng nghiên cứu luận án giúp mở rộng phạm vi nghiên cứu gia tăng thêm khả ứng dụng vào sản phẩm phục vụ đời sống xã hội Bộ ngữ liệu xây dựng phạm vi luận án số ngữ liệu đầu tiên, đáp ứng mặt số lượng, dung lượng cho nghiên cứu cảm xúc tiếng Việt sau Các kết phân tích ảnh hưởng tham số đến cảm xúc phạm vi luận án kinh nghiệm bước đầu cho nghiên cứu cảm xúc khác tương lai Phương pháp nghiên cứu luận án Luận án kết hợp song song phương pháp nghiên cứu lý thuyết phương pháp nghiên cứu thực nghiệm Về lý thuyết: luận án nghiên cứu tổng quan cảm xúc tiếng nói, tìm hiểu nghiên cứu cảm xúc ngôn ngữ khác, đặc trưng tiếng Việt, nghiên cứu mơ hình tổng hợp tiếng nói tiếng nói có cảm xúc dựa tài liệu, cơng trình khoa học cơng bố, sách báo, giáo trình liên quan Về thực nghiệm: luận án xây dựng ngữ liệu cảm xúc tiếng Việt phục vụ cho nghiên cứu cảm xúc tiếng Việt tổng hợp tiếng Việt có cảm xúc Luận án sử dụng cơng cụ phân tích, thống kê, đánh giá tham số; tổng hợp tiếng nói mã nguồn mở kết hợp lập trình phần mềm thu âm; xử lý đánh giá liệu; thực nghiên cứu, thử nghiệm mơ hình tổng hợp tiếng Việt có cảm xúc Kết nghiên cứu, đóng góp luận án Kết nghiên cứu đóng góp luận án tập trung chủ yếu vào nội dung sau: Xây dựng ngữ liệu cảm xúc cho tiếng Việt phân tích, đánh giá ảnh hưởng tham số đến cảm xúc tiếng Việt, tìm quy luật thay đổi tham số tương ứng với cảm xúc Đề xuất mơ hình tổng hợp tiếng Việt với yêu cầu chất lượng điệu đặt lên hàng đầu tổng hợp nhiều chất giọng khác Đề xuất mơ hình thử nghiệm tổng hợp tiếng Việt có cảm xúc Nội dung luận án Luận án trình bày thành chương có nội dung sau: Chương 1: Tổng quan nghiên cứu tổng hợp tiếng nói tổng hợp tiếng nói có cảm xúc Chương trình bày tình hình nghiên cứu nước quốc tế tổng hợp tiếng nói nói chung tổng hợp có cảm xúc nói riêng có tiếng Việt Chương trình bày kết nghiên cứu ảnh hưởng số tham số đến tiếng nói tổng hợp tiếng nói tổng hợp có cảm xúc Chương làm rõ vấn đề cần nghiên cứu giải luận án Chương 2: Xây dựng ngữ liệu tiếng Việt có cảm xúc Chương trình bày nội dung lớn Nội dung thứ xây dựng ngữ liệu cảm xúc tiếng Việt phân tích đánh giá ảnh hưởng tham số F0, lượng, cường độ thời hạn… đến cảm xúc vui, buồn, bình thường, tức giận tiếng Việt Nội dung thứ xây dựng ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt để chuẩn bị cho tổng hợp tiếng Việt có cảm xúc Chương 3: Tổng hợp tiếng Việt có biểu lộ cảm xúc Chương trình bày mơ hình tổng hợp tiếng Việt nói Mơ hình mơ hình tổng hợp tiếng Việt cho phép tổng hợp tiếng Việt nói với yêu cầu chất lượng tổng hợp điệu đặt lên hàng đầu tổng hợp giọng khác Mơ hình thứ hai mơ hình thử nghiệm tổng hợp tiếng Việt có cảm xúc phương pháp ghép nối Phần Kết luận trình bày tổng hợp kết nghiên cứu đạt được, hướng mở rộng nghiên cứu đóng góp luận án TỔNG QUAN NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI VÀ TỔNG HỢP TIẾNG NĨI CĨ CẢM XÚC 1.1 Tình hình nghiên cứu giới tổng hợp tiếng nói 1.1.1 Tổng hợp ghép nối 1.1.2 Tổng hợp cộng hưởng tần số 1.1.3 Tổng hợp mô phát âm 1.1.4 Tổng hợp dựa HMM 1.2 Các nghiên cứu tổng hợp tiếng nói nước 1.2.1 Tổng hợp phương pháp ghép nối 1.2.2 Tổng hợp tần số formant 1.2.3 Tổng hợp dựa HMM 1.3 Các nghiên cứu tổng hợp tiếng nói có cảm xúc giới 1.3.1 Tổng quan 1.3.2 Các tham số ảnh hưởng đến cảm xúc tiếng nói 1.4 Các nghiên cứu tiếng nói có cảm xúc tiếng Việt Hiện nay, nghiên cứu tiếng nói có cảm xúc tiếng Việt với giọng trần thuật (bình thường) có nhiều kết tốt Trong đó, nghiên cứu phương diện cảm xúc tổng hợp hay nhận dạng tiếng Việt chưa nhiều Một số nghiên cứu cảm xúc tiếng Việt công bố thường thực ngữ liệu đa thể thức, kết hợp video biểu khn mặt, cử tiếng nói với ứng dụng chủ yếu để tổng hợp tiếng Việt Chẳng hạn nghiên cứu [62], [63] thử nghiệm mơ hình hóa ngôn điệu tiếng Việt với ngữ liệu đa thể thức nhằm tổng hợp tiếng Việt biểu cảm Các tác giả [64] đề xuất mơ hình biến đổi tiếng Việt nói để tạo biểu cảm kênh tiếng nói cho nhân vật ảo nói tiếng Việt Trong nghiên cứu này, ngữ liệu có cảm xúc bao gồm phát âm tiếng Việt nam nghệ sĩ nữ nghệ sĩ phát âm 19 câu năm trạng thái bản: tự nhiên, vui, buồn, giận, giận Đối với nhận dạng cảm xúc tiếng Việt, nghiên cứu [65] sử dụng SVM để phân lớp với đầu vào tín hiệu điện não (EEG) Kết cho thấy nhận dạng thời gian thực trạng thái cảm xúc với độ xác trung bình 70,5% Một số tác giả Trung Quốc [2], [1] có kết hợp với sinh viên Việt Nam xây dựng ngữ liệu cảm xúc tiếng Việt theo cách đóng kịch biểu lộ cảm xúc Người nói sinh viên Việt Nam, nghiên cứu [2] có nam, nữ, cịn [1] có người nói với cảm xúc vui, bình thường, buồn, ngạc nhiên, tức, sợ hãi Các tác giả ban đầu xây dựng ngữ liệu với ý định nghiên cứu chéo ngôn ngữ Việt Nam Trung Quốc 1.5 Kết chương Trong phương pháp tổng hợp tiếng nói phổ biến nay, có nhiều hệ tổng hợp tạo tiếng nói gần với giọng tự nhiên phương pháp ghép nối [1], [2], [3], [4], [5] tổng hợp tham số [6], [7], [8] tạo giọng nói tổng hợp chất lượng tốt [9] cho giọng trần thuật Trong đó, tiếng nói tổng hợp từ tham số tổng hợp HTS nhóm Yamagishi [10] có chất lượng chưa tốt tổng hợp tiếng nói ghép nối lựa chọn âm vị nhóm Kraiskos [9] Mỗi phương pháp có ưu khuyết điểm nghiên cứu để tạo tiếng nói có cảm xúc Ví dụ phương pháp tổng hợp ghép nối lựa chọn đơn vị cần số lượng lớn liệu tiếng nói cho cảm xúc [11], [12], [13], [14], phương pháp khó triển khai tốn xây dựng ngữ liệu để phân tích tổng hợp Một số nhóm nghiên cứu tìm cách kết hợp ngữ điệu cách thức phát âm phương pháp tổng hợp lựa chọn đơn vị nhóm Hamza cộng [15], [14], [16], quy luật cảm xúc tổng hợp đánh giá công bố Marc Schröder [17] điều chỉnh thời hạn phát âm (duration time) Tuy nhiên, phương pháp khơng có hiệu với tất trường hợp cịn tùy thuộc vào mục tiêu, chi phí đề dự án tổng hợp yêu cầu, cảm nhận từ người nghe hệ thống tổng hợp [18] Ngồi ra, đa dạng cảm xúc mang tính phân nhánh (ví dụ cảm xúc buồn có cảm xúc buồn rười rượi, buồn bã, buồn mênh mang, buồn…) nên lúc có liệu để đáp ứng cần can thiệp điều chỉnh tín hiệu dẫn đến suy giảm chất lượng tiếng nói tổng hợp Một yêu cầu xác nhãn xắp xếp theo thời gian âm kép bán âm kép Trong tổng hợp tiếng nói có cảm xúc, việc đánh nhãn xác quan trọng xử lý gán nhãn tự động [19] Hạn chế tổng hợp mơ hình phổ ngữ điệu tiếng nói tạo HMM mượt mà thiếu nhiều chi tiết so với phổ ngữ điệu tiếng nói tự nhiên sử dụng giá trị trung bình tham số thống kê Các biến thiên có vai trị quan trọng việc thể cảm xúc, người nghe có xu hướng địi hỏi cao với tiếng nói tổng hợp nhạy cảm việc phát nhược điểm giọng nói tổng hợp [20] Tuy vậy, tổng hợp mơ hình thống kê có ưu điểm so với tổng hợp chọn đơn vị: tham số thống kê sử dụng điều chỉnh tảng (các tổng hợp…), đơn giản để thay đổi tham số cách phát âm cảm xúc cách sử dụng hàm nội suy HMM [21], hồi quy vector cảm xúc [22], sử dụng kỹ thuật thích nghi HMM [23], Phương pháp tổng hợp HMM sử dụng liệu so với tổng hợp chọn đơn vị, thêm vào linh hoạt biến đổi tham số giúp chuyển đổi giọng cảm xúc tốt Một điểm mạnh nhãn cảm xúc xếp theo thời gian dùng đề khởi tạo tham số HMM nên phương án đòi hỏi độ xác nhiều so với tổng hợp chọn đơn vị Sau nghiên cứu trên, nghiên cứu sinh nhận thấy để tổng hợp tiếng Việt có cảm xúc, yêu cầu quan trọng tiếng Việt tổng hợp phải đảm bảo chất lượng điệu gần giọng tự nhiên tốt Trong hai hướng tổng hợp tiếng nói có cảm xúc trình bày trên, tổng hợp ghép nối giữ nguyên điệu tự nhiên có ưu điểm giữ chất lượng tự nhiên tốt đơn vị âm dùng để tổng hợp giọng nói tự nhiên Mặt khác, phương pháp cho phép tổng hợp chất giọng khác với dung lượng ngữ liệu giảm nhỏ Từ ưu điểm đó, luận án lựa chọn theo hướng tổng hợp tiếng Việt có cảm xúc phương pháp ghép nối Để hoàn thành đươc hướng nghiên cứu luận án phải hồn thành ba mục tiêu chính: - Mục tiêu xây dựng ngữ liệu tiếng Việt có cảm xúc dùng để phân tích, đánh giá ảnh hưởng tham số tiếng Việt đến cảm xúc Từ tìm quy luật biến thiên tham số để dùng tổng hợp tiếng Việt có cảm xúc - Mục tiêu thứ hai xây dựng mơ hình tổng hợp tiếng Việt giọng trần thuật yêu cầu chất lượng điệu đặt lên hàng đầu., tiếng nói tổng hợp phải gần giọng tự nhiên Bộ tổng hợp phải có khả tổng hợp nhiều chất giọng khác nhau: nam, nữ, già, trẻ, lứa tuổi khác - Mục tiêu cuối đề xuất mơ hình thử nghiệm tổng hợp tiếng Việt có cảm xúc dựa phương pháp ghép nối XÂY DỰNG BỘ NGỮ LIỆU TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC 2.1 Xây dựng ngữ liệu tổng hợp tiếng Việt chất lượng tốt Một nội dung quan trọng luận án xây dựng tổng hợp tiếng Việt chất lượng tốt, đảm bảo tiếng nói tổng hợp có điệu tự nhiên sau điều chỉnh tham số để có tiếng nói tổng hợp có cảm xúc Bộ ngữ liệu xây dựng để phục vụ cho tổng hợp tiếng Việt nói chất lượng tốt tổng hợp tiếng Việt có cảm xúc sau Theo nghiên cứu nghiên cứu sinh tổng hợp tiếng Việt, chất lượng tiếng nói tổng hơp phụ thuộc phần lớn vào chất lượng âm ngữ liệu chất lượng tổng hợp điệu Việc xây dựng ngữ liệu thiết kế với yêu cầu chất lượng điệu đưa lên hàng đầu, đảm bảo giữ tính tự nhiên điệu để tổng hợp giọng trần thuật tự nhiên (cảm xúc bình thường) Sau nghiên cứu sinh điều chỉnh tham số trình tổng hợp để tạo tiếng nói có cảm xúc khác từ cảm xúc bình thường Để có sở xây dựng ngữ liệu tiếng Việt phù hợp, sau luận án trình bày nét đặc trưng ngữ âm tiếng Việt 2.1.1 Đặc điểm ngữ âm tiếng Việt 2.1.2 Hệ thống âm vị cấu trúc âm tiết tiếng Việt Ở dạng đầy đủ, âm tiết tiếng Việt gồm thành phần: âm đầu, âm đệm, âm chính, âm cuối điệu Trong đó, thành phần điệu bao trùm lên tất âm [88], [89] Trong số âm, ngoại trừ âm đầu phần lại âm tiết bao gồm âm đệm, âm âm cuối ghép lại với tạo thành vần Với người chưa biết chữ không cảm nhận cấu tạo phần vần Vào lớp 1, em học sinh học cách phân tích, tổng hợp âm đệm, âm chính, âm cuối để tạo thành vần (hay cịn gọi ''đánh vần") sau kết hợp với âm đầu điệu để tạo thành âm tiết Cấu trúc âm tiết tiếng Việt mô tả Bảng 2.3 [88] 2.1.3 Hệ thống điệu 2.1.4 Hệ thống âm đầu 2.1.5 Hệ thống âm đệm 2.1.6 Hệ thống âm 2.1.7 Hệ thống âm cuối 2.1.8 Xây dựng ngữ liệu tiếng Việt nói chất lượng tốt Một nhiệm vụ luận án xây dựng tổng hợp tiếng Việt với mục tiêu yếu tố điệu quan trọng nhất, chiếm vị trí hàng đầu Bộ tổng hợp sở để thực hai nhiệm vụ luận án là: tổng hợp tiếng Việt với nhiều chất giọng khác tảng để xây dựng tổng hợp tiếng Việt có cảm xúc Phương pháp lựa chọn tổng hợp ghép nối chọn đơn vị Bộ ngữ liệu để phục vụ cho tổng hợp nêu Khi xây dựng tổng hợp, luận án đặt vấn đề lớn cần giải quyết: - Xử lý điểm ghép nối: Một yêu cầu quan trọng tổng hợp phương pháp ghép nối xử lý điểm ghép nối để loại trừ âm xé, rít khơng đồng tham số F0, lượng, biên độ thành phần điểm ghép nối Ví dụ, theo cấu trúc âm tiết tiếng Việt [89], từ "nhuyễn" tổng hợp từ đơn vị âm đầu /ng/, âm đệm /u/, âm /yê/, âm cuối /n/ điệu /~/ Điều dẫn đến cần xử lý nhiều điểm ghép nối điệu, phức tạp khó đảm bảo yếu tố tự nhiên - Chất lượng điệu: điểm quan trọng với tổng hợp tiếng Việt có cảm xúc đảm bảo điệu cách tự nhiên điệu bị ảnh hưởng âm điểm ghép nối Để giải vấn đề nêu trên, đề xuất giải pháp hoàn toàn sau: - Để giải vấn đề đầu tiên, chia âm tiết tiếng Việt thành hai phần gọi đơn vị âm đầu đơn vị âm cuối Trong đó, thành phần đơn vị âm đầu chứa thành phần âm đầu (Bảng 2.5, Bảng 2.6) ngồi cịn chứa thêm thành phần âm đệm, Đơn vị âm cuối chứa thành phần âm bảng cấu trúc âm tiết tiếng Việt (Bảng 2.7) thành phần lại âm tiết Cách làm đảm bảo âm tiết cần xử lý điểm ghép nối Ví dụ từ "tán" chia thành "ta" "án" - Để giải vấn đề thứ luận án đề xuất phương án điệu thu sẵn đơn vị âm Trong đó, đơn vị âm đầu chứa thành phần ngang đơn vị âm cuối chứa đầy đủ điệu Điều giúp từ tổng hợp có điệu tự nhiên sử dụng điệu thu trước khơng phải xử lý Ví dụ: đơn vị âm đầu: "ta", "ba", "ca" ; đơn vị âm cuối: "áng", "àng", "ang", "ạng", "ãng" 2.1.9 Xây dựng danh sách âm tiết ngữ liệu Việc lập danh sách đầy đủ âm tiết chứa đơn vị âm cần thu dựa vào cấu trúc âm tiết tiếng Việt quy luật chia âm tiết nói phần 2.1.8 (chi tiết xem phụ lục A) Luận án sử dụng phương pháp tổ hợp nhằm vét cạn tất trường hợp có âm tiết tiếng Việt Sau tổ hợp, cần tiến hành loại bỏ tổ hợp không sử dụng tiếng Việt để lọc danh sách âm cần thu phương pháp thủ công Các âm tiết ghi âm dựa số lượng đơn vị âm đầu đơn vị âm cuối xác định - Xây dựng đơn vị âm đầu: Dùng phương pháp tổ hợp phụ âm đầu với ngun âm (có thể có âm đệm) mang ngang ta thu 324 tổ hợp Dựa vào cấu trúc âm tiết tiếng Việt để loại bỏ tổ hợp khơng có tiếng Việt ta thu 294 tổ hợp Ví dụ tổ hợp bị loại bỏ: quơ, khư, châ… - Xây dựng đơn vị âm cuối: Dùng phương pháp tổ hợp trên, tổ hợp âm đệm, âm chính, âm cuối tiến hành loại bỏ tổ hợp không dùng tiếng Việt có 721 tổ hợp cuối cần phải thu Ví dụ số âm vị bị loại bỏ: àt, ảt… Tổng số tổ hợp xây dựng 1015 tổ hợp 2.1.10 Kịch thu Khi có danh sách đầy đủ âm tiết cần thiết, việc xây dựng kịch thu nhằm đảm bảo đơn vị âm thu cho kết tốt Có 1015 tổ hợp cần thu thu trực tiếp cách đọc tổ hợp Mỗi tổ hợp đọc cách thời gian đủ ngắn để tách 10 tổ hợp (chẳng hạn 3s), tổ hợp cần đọc hình tự chuyển 2.1.11 Thu âm Bước đầu, tiến hành ghi âm cho bốn giọng: giọng nam, giọng nữ hai giọng trẻ em Tín hiệu thu lấy mẫu tần số 16000Hz 16 bit cho mẫu Thời gian thu 1015 âm tiết liên tục 50,75 phút (tính thời gian nghỉ âm tiết) Tổng dung lượng 1015 âm tiết 98 MB cho giọng (bao gồm khoảng nghỉ thành phần khác) Đây ngữ liệu xây dựng để phục vụ cho mục đích nghiên cứu Với ứng dụng thực tế, tách lấy đơn vị âm đầu đơn vị âm cuối dùng cho tổng hợp, phần cịn lại cắt bỏ Khi dung lượng giảm khoảng 23,5 MB Theo kết tính tốn, tỷ số trung bình tín hiệu nhiễu ngữ liệu xây dựng 38 dB Đây kết tốt chấp nhận 2.2 Xây dựng ngữ liệu cảm xúc tiếng Việt 2.2.1 Mục đích xây dựng ngữ liệu cảm xúc tiếng Việt 2.2.2 Các tham số cảm xúc tiếng nói 2.2.3 Phương pháp xây dựng ngữ liệu cảm xúc tiếng Việt Để xây dựng ngữ liệu cảm xúc, thực theo phương pháp như: ghi âm trực tiếp đối thoại tự nhiên, xây dựng kịch cho đối thoại nhận vật tùy biến cảm xúc theo tình huống, ghi âm trực tiếp giọng nghệ sĩ diễn đạt nội dung theo yêu cầu biểu đạt cảm xúc cho trước Trong số phương pháp này, phương pháp ghi âm giọng nghệ sĩ biểu đạt cảm xúc cho trước phương pháp cho phép xây dựng ngữ liệu thuận lợi theo thiết kế định sẵn [103], dễ đạt số lớn ngữ liệu đồng nhất, từ thuận tiện cho việc phân tích xác định tham số đặc trưng cách tin cậy Vì vậy, phương pháp lựa chọn để xây dựng ngữ liệu cảm xúc tiếng Việt - BKEmo Với mục tiêu phân tích tập trung vào bốn cảm xúc vui, buồn, tức bình thường, kịch thu âm xây dựng phù hợp yêu cầu người nói thể tập trung vào bốn loại cảm xúc cách tốt Kịch thu âm xây dựng gồm 55 câu theo tiêu chí sau: Nội dung gồm câu cảm thán biểu lộ cảm xúc nói, câu bình thường khơng có từ ngữ cảm thán, biểu cảm mặt cảm xúc 11 Với câu khơng có từ ngữ cảm thán (ví dụ: “Vườn hoa trước nhà”, “Trường Đại học Bách khoa Hà Nội”…) người nói tập trung vào việc biểu lộ cảm xúc mà không bị ảnh hưởng nội dung câu nói Với loại câu có cảm thán (ví dụ: “Thật á”, “Có lương rồi”….) giúp phân tích nhiều tham số cảm xúc tham số phụ ảnh hưởng đến cảm xúc đó; Kịch có tổ hợp từ (ví dụ: “ơi chúa ơi”) câu câu ngắn (ví dụ: “Vườn hoa trước nhà”), câu dài (ví dụ: “À anh dám ăn nói với bố à”) nhằm mục đích phân tích ảnh hưởng tham số từ riêng lẻ hay câu; Kịch thu có xuất câu với độ dài từ ngắn đến dài: hai âm tiết (ví dụ: "Thật á"), âm tiết (ví dụ: "Có lương rồi"), âm tiết (ví dụ: "Sắp đến tết rồi"), âm tiết (ví dụ: "Chán cậu ạ")…để phân tích ảnh hưởng tham số thời gian phát âm, trường độ… đến cảm xúc tiếng Việt Kịch thu thiết kế với câu lặp lặp lại lần cho cảm xúc để có đủ liệu chia tập huấn luyện tập test cho nghiên cứu nhận dạng cảm xúc tiếng Việt Kịch cố gắng lựa chọn câu cho có nhiều âm tiết tiếng Việt tốt để tìm hiểu cách điều chỉnh tham số lên âm tiết, từ tổng hợp tiếng Việt có cảm xúc Kịch thu thiết kế với ngữ cảnh để diễn viên biểu lộ cảm xúc cách rõ rệt nhất, theo phương thức thể tương đồng Ví dụ: với câu "Sắp đến tết rồi" thể với cảm xúc vui theo ngữ cảnh vui tết gần về, thể cảm xúc buồn với kịch tết xa nhà, khơng Điều giúp cách thể cảm xúc ngữ liệu thống nhất, đầy đủ ngữ liệu cho phân tích tham số ảnh hưởng đến cảm xúc tiếng Việt sử dụng tổng hợp phù hợp với việc phân nhóm ngữ liệu nghiên cứu nhận dạng cảm xúc tiếng Việt 2.2.4 Phân tích đánh giá số tham số cảm xúc tiếng Việt nói 2.2.3.1 Phân tích phương sai ANOVA kiểm định T 2.2.3.2 Phân tích biến thiên F0 cảm xúc Theo kinh nghiệm chủ quan, bốn nghệ sĩ tiếng gồm hai nghệ sĩ 12 nam Đ.K (50 tuổi), H.P (40 tuổi) hai nghệ sĩ nữ T.T.H (34 tuổi), B.H.G (38 tuổi) lựa chọn để đánh giá Các nghệ sĩ số 56 nghệ sĩ tham gia thu âm Mỗi cảm xúc nghệ sĩ thể 55 câu, lần (220 file liệu cho cảm xúc) Hình 2.8 mơ tả đồ thị box-plot phân bố giá trị F0 trung bình theo cảm xúc Hình 2.8 đồ thị box-plot thống kê phân bố F0 cho cảm xúc buồn, bình thường, vui tức hai nghệ sĩ Nam Phần hộp hình chữ nhật đồ thị phần tập trung 50% liệu, phần đoạn thẳng hai đầu chữ nhật cho thấy phân tán phần liệu cịn lại Hình 2.8 cho thấy tần số F0 trung bình cho cảm xúc buồn thấp nhất, cảm xúc bình thường Cảm xúc tức cảm xúc vui có lớn so với cảm xúc buồn cảm xúc bình thường Cảm xúc tức có giá trị trung bình lớn Đây giả thuyết ban đầu ảnh hưởng F0 đến cặp cảm xúc Bảng 2.12 Bảng 2.12, phần giá trị trung bình, số liệu cho thấy giá trị P-value nhỏ, giả thuyết bị loại bỏ với tất mức ý nghĩa quan trọng Khi giả thuyết bị loại bỏ tức xuất cặp giá trị khác so với cặp giá trị giả thuyết , Để đánh giá khác biệt 13 giá trị trung bình cảm xúc khác nhau, kiểm định T với mức ý nghĩa 95% sử dụng Kết đánh giá cho Bảng 2.13 Phần liệu trung bình nghệ sĩ Đ.K Bảng 2.13 cho thấy có khác biệt giá trị trung bình tất cặp cảm xúc với ngoại trừ cặp cảm xúc buồn cảm xúc bình thường (P-value = 0,9) Điều phù hợp với Hình 2.8 độ chênh lệch cảm xúc buồn bình thường thấp (giọng nghệ sỹ H.P) gần (giọng nghệ sĩ Đ.K) Trong đó, cảm xúc tức cảm xúc buồn có độ chênh lệch cao nhất, khoảng tin cậy cho sai lệch (92,9 Hz, 107,9 Hz) Cũng với giọng nam, cảm xúc tức cảm xúc vui giọng nữ có lớn so với cảm xúc buồn cảm xúc bình thường Tuy nhiên với giọng nữ, cảm xúc vui lại có lớn so với cảm xúc tức Trong cặp cảm xúc độ lệch cặp cảm xúc buồn bình thường cịn độ lệch cặp cảm xúc vui cảm xúc buồn có độ chênh lệch cao nhất, khoảng tin cậy cho sai lệch (174,4 Hz, 185,5 Hz) 2.2.3.3 Phân tích biến thiên lượng cảm xúc Giá trị lượng tính trung bình câu nói, thể đồ thị box-plot kiểm định phương pháp phân tích 14 phương sai ANOVA kiểm định T Đồ thị box-plot phân bố lượng cho cảm xúc vui, buồn, tức bình thường giọng nam – nghệ sĩ Đ.K giọng nữ, nghệ sĩ T.T.H thể Hình 2.10 Hình 2.10 cho thấy với giọng nam có phân biệt rõ rệt mặt lượng cảm xúc vui/tức so với cảm xúc bình thường/buồn Kết phân tích ANOVA Bảng 2.12 cho thấy có khác biệt mặt lượng trung bình cảm xúc Tuy nhiên, dải biến thiên lượng cảm xúc rộng Do đó, khơng thể tách biệt cảm xúc trường hợp tần số Kiểm định T với mức ý nghĩa 95% sử dụng để đánh giá khác biệt giá trị lượng trung bình cảm xúc khác Kết cho Bảng 2.14 Bảng 2.14 cho thấy có khác biệt giá trị lượng trung bình tất cảm xúc với ngoại trừ cảm xúc buồn cảm xúc bình thường (P-value = 0,22) cảm xúc vui cảm xúc tức (Pvalue = 0,47) Điều phù hợp với Hình 2.10 nhận định Cảm xúc vui cảm xúc bình thường có độ chênh lệch lượng cao nhất, khoảng tin cậy cho sai lệch (5,34 dB, 8,09 dB) Từ Hình 2.10 thấy với nữ giới, cảm xúc rõ ràng qua giá trị lượng trung bình Chẳng hạn, cảm xúc bình thường lại có lượng trung bình cao so với cảm xúc vui Phân tích ANOVA (Bảng 2.12) cho thấy phân biệt cảm xúc với dựa giá trị lượng Từ Bảng 2.14 ta thấy có khác biệt giá trị lượng trung bình tất cảm xúc với ngoại trừ cảm xúc tức cảm xúc bình thường (P-value = 0,99) Điều phù hợp với Hình 2.10 15 Cảm xúc buồn cảm xúc tức có độ chênh lệch lượng cao nhất, khoảng tin cậy cho sai lệch (7,45 dB, 9,42 dB) Trung bình cảm xúc cho giới tính có khoảng 500 câu đánh giá với người nói cho giới tính lấy ngẫu nhiên Người nghe yêu cầu nghe câu có cảm xúc chọn cảm xúc sau nghe Các câu chọn cảm xúc thống kê sử dụng phân tích phương sai ANOVA kiểm định T đánh giá tham số lượng tương tự phần 2.2.3.4 Phương pháp cảm nhận thực tế Từ Hình 2.11 nhận thấy cảm xúc có tập trung tốt vùng định: lượng tham số tốt để phân biệt cảm xúc buồn cảm xúc bình thường, cảm xúc vui cảm xúc tức 16 Ngồi có phân biệt rõ tần số buồn/bình thường so với cảm xúc vui/tức cảm xúc Kết Bảng 2.16 cho thấy có phân biệt rõ rệt cảm xúc cho giọng nam (P-value 0) trung bình cảm xúc tức-buồn cao với khoảng tin cậy (105,5Hz, 113,4Hz) Như vậy, lựa chọn mẫu theo đánh giá cảm nhận cho kết phân biệt cảm xúc xác so lựa chọn mẫu theo kinh nghiệm chủ quan Tuy nhiên, với lượng có giá trị P-value đáng kể (ví dụ 0,0242), phân biệt cảm xúc với mức ý nghĩa 0,01 17 Với giọng nữ, kết Bảng 2.17 cho thấy phân biệt rõ rệt trung bình cảm xúc buồn cảm xúc bình thường (P-value = 0,22) trung bình cảm xúc vui buồn cao với độ tin cậy (125,2Hz, 133,1Hz) 2.2.5 Đánh giá ngữ liệu cảm xúc tiếng Việt Trong công bố này, sử dụng 384 tham số tỉ lệ nhận dạng cao 98,17% với phân lóp lBk thấp 80,64% lớp phân lớp Trees J48 Còn sử dụng 48 tham số liên quan đến F0, lượng…, tỉ lệ nhận dạng trung bình cao 82,59% với lBk thấp 75,25% với phân lớp Trees J48 Nhìn chung tỉ lệ nhận dạng cao, phản ánh độ tin cậy ngữ liệu BKEmo xây dựng 2.3 Kết chương Trong chương 2, luận án trình bày phương pháp xây dựng ngữ liệu phục vụ cho tổng hợp tiếng Việt chất lượng tốt Có thể thấy rằng, việc xây dựng ngữ liệu theo phương pháp tạo điều kiện thuận lợi để thực tổng hợp tiếng Việt giọng địa phương giọng cá nhân mà ta muốn tổng hợp với lượng ngữ liệu cần thu Ngồi ra, ngữ liệu xây dựng sử dụng tốt cho ứng dụng tổng hợp khác, đặc biệt tổng hợp tiếng Việt phương pháp ghép nối Chương mô tả phương pháp xây dựng ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt, đảm bảo chất lượng tiếng nói sau tổng hợp giữ nguyên điệu cho tiếng nói tự nhiên Tiếp theo, luận án sử dụng ngữ liệu cho tổng hợp tiếng Việt có cảm xúc để tổng hợp giọng trần thuật (cảm xúc bình thường) cảm xúc buồn, tức, vui Chương mô tả phương pháp xây dựng ngữ liệu có cảm xúc cho tiếng Việt Chương trình bày tham số cảm xúc, phương pháp xây dựng ngữ liệu cảm xúc cho tiếng Việt, việc sử dụng phân tích phương sai ANOVA, kiểm định T để đánh giá biến thiên , lượng trung bình cảm xúc Kết phân tích cho thấy tần số tham số đáng tin cậy để phân biệt cảm xúc Năng lượng tham số hiệu phân biệt cảm xúc, phản ánh rõ nét giọng nam so với giọng nữ 18 Chương trình bày kết đánh giá ngữ liệu cảm xúc tiếng Việt – BKEmo – kết đánh giá cho thấy ngữ liệu đủ tin cậy để tiến hành nghiên cứu ảnh hưởng tham số đến cảm xúc tiếng Việt Việc đánh giá ngữ liệu tham số lBk, SMO, Trees J48 đạt kết cao (cao 98,17%) cho thấy chất lượng tin cậy cao ngữ liệu TỔNG HỢP TIẾNG VIỆT CÓ BIỂU LỘ CẢM XÚC 3.1 Tổng hợp tiếng Việt chất lượng tốt 3.1.1 Xây dựng ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt 3.1.2 Tổng hợp tiếng Việt chất lượng tốt phương pháp ghép nối 3.1.2.1 Tổng hợp phương pháp ghép nối Quá trình tổng hợp tiếng Việt phương pháp ghép nối thực theo Hình 3.2 Văn đầu vào tách từ gán nhãn theo quy luật trình bày phần xây dựng ngữ liệu Tiếp theo, để tổng hợp âm, cần xác định đơn vị âm (gồm đơn vị âm đầu đơn vị âm cuối) để ghép nối Điểm ghép nối cần chọn thuộc vùng ổn định nguyên âm âm tổng hợp Ví dụ, để tổng hợp âm “tàn”, 19 đơn vị âm đầu “ta”, đơn vị âm cuối “àn” Các đơn vị âm đầu đơn vị âm cuối tổng hợp lựa chọn trình xây dựng ngữ liệu tiếng Việt chất lượng tốt Vì vậy, ngữ liệu có sẵn đơn vị âm với vị trí điểm ghép nối Bộ tổng hợp thực ghép nối đơn vị âm thực thuật giải cân làm trơn tham số điểm ghép nối 3.1.2.2 Các đề xuất cân tham số vị trí ghép nối Tổng hợp tiếng nói phương pháp ghép nối từ đơn vị âm không đồng vấn đề thực từ sớm Các tham số phần ghép nối ảnh hưởng đến chất lượng tiếng nói tổng hợp là: biên độ, tần số phổ (hay formant) 3.1.3 Phương pháp đánh giá chủ quan MOS 3.1.4 Thử nghiệm tổng hợp số câu nói tổng hợp tiếng nói chất lượng tốt 3.1.4.1 Đánh giá chủ quan chất lượng 10 câu nói tổng hợp Kết Bảng 3.2 cho thấy phần lớn câu có chất lượng mức khá, số câu có chất lượng chưa tốt câu 2, câu 3, câu số âm tiết "nhìn" tổng hợp chưa tốt, độ ngắt quãng lớn từ phát âm, từ không đồng tông tổng hợp làm người nghe chưa hài lòng Các câu lại đánh giá mức tốt, riêng câu chọn mức tốt Kết chấp nhận 3.1.4.2 Đánh giá khách quan chất lượng 10 câu nói tổng hợp Từ dạng sóng biến thiên câu tổng hợp, luận án đánh giá tính đắn cơng nghệ dạng sóng biến thiên từ câu mượt, khơng có đoạn gãy khúc đột biến Điều cho thấy tín hiệu tổng hợp có hình dạng tương tự tín hiệu tự nhiên 20 ... tức giận tiếng Việt Nội dung thứ xây dựng ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt để chuẩn bị cho tổng hợp tiếng Việt có cảm xúc Chương 3: Tổng hợp tiếng Việt có biểu lộ cảm xúc Chương... hưởng tham số đến việc biểu lộ cảm xúc tiếng Việt Trên sở kết đạt được, đề xuất xây dựng mơ hình tổng hợp tiếng Việt có cảm xúc thử nghiệm tích hợp cảm xúc vào tiếng Việt tổng hợp Nhiệm vụ nghiên... tổng hợp tiếng Việt có cảm xúc, yêu cầu quan trọng tiếng Việt tổng hợp phải đảm bảo chất lượng điệu gần giọng tự nhiên tốt Trong hai hướng tổng hợp tiếng nói có cảm xúc trình bày trên, tổng hợp

Ngày đăng: 16/07/2018, 16:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w