Các phân tích dưới đây tôi thực hiện cho 12 câu với cảm xúc buồn giọng nữ:
Mã câu Nội dung câu
03 Thôi bác đi đi 13 Thôi vui lên đi ông 15 Sao lại phản bội tôi 17 Đúng là ngựa non háu đá 18 Toàn một lũ bất tài
22 Không biết thì dựa cột mà nghe hiểu chưa 24 Anh đừng nói chuyện với em nữa
30 Đi với chảđứng
31 Hạnh phúc thay khi được làm mẹ!
33 Ôi dào, người như vậy không thay đổi được đâu! 34 Phiền bác ngày mai lại tới!
38 Hôm nay chẳng được việc gì cả
Bảng 4.5: Mã câu và nội dung câu
Trung bình F0 của cảm xúc buồn giọng nữ
Mỗi cột trên đồ thị là biểu diễn giá trị trung bình của F0 của các giọng nữ cho cùng một nội dung câu và cùng một cách biểu lộ cảm xúc của cảm xúc buồn (bảng thống kê trong phụ lục B).
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.6: Trung bình F0 với của một số cách biểu lộ cảm xúc buồn giọng nữ
Trung bình năng lượng của cảm xúc buồn giọng nữ
Mỗi cột trên đồ thị là biểu diễn giá trị trung bình của năng lượng với giọng nữ cho cùng một nội dung câu và cùng một cách biểu lộ cảm xúc của cảm xúc buồn.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.7: Trung bình năng lượng của một số cách biểu lộ cảm xúc buồn giọng nữ
Tương tự như trường hợp đối với giọng nam, có thể đưa ra các nhận xét như sau đối với giọng nữ. Cùng một nội dung câu nhưng được diễn đạt với các cách khác nhau thì giá trị trung bình của F0 và năng lượng có sự chênh lệch do mỗi cách có sự nhấn nhá riêng biệt. Giá trị F0 với giọng nữ luôn lớn hơn của giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
So sánh giá trị trung bình F0 và năng lượng của cảm xúc buồn và cảm xúc trung tính giọng nữ:
Giá trị trung bình của F0 và năng lượng giọng nữ đối với cảm xúc buồn thường nhỏ hơn so với giá trị F0 và năng lượng đối với cảm xúc trung tính và thời gian nói cũng dài hơn.
Bảng 4.8: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc buồn với cảm xúc trung tính giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
4.3.2 Phân tích, thống kê tham số F0 và năng lượng của cảm xúc tức giận
4.3.2.1. Trung bình F0 và năng lượng của cảm xúc tức giận với giọng nam
Các phân tích bên dưới cũng được thực hiện với 12 câu:
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu 03 Thôi bác đi đi
04 Tao không muốn nhìn thấy mặt mày nữa 05 Đừng làm thế nữa
08 Chuối dù ngọt cũng bỏ vỏ ngoài 09 Anh đến đón em nhé
12 Lại phải chờ hả anh 15 Sao lại phản bội tôi
16 Hạnh phúc phải tìm trong trông gai 21 Làm với chảăn toàn lũăn hại 29 Chiều ông bà đón con nhé! 30 Đi với chảđứng
Bảng 4.9: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.10: Trung bình F0 của một số cách biểu lộ cảm xúc tức giận giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.11: Trung bình năng lượng của một số cách biểu lộ cảm xúc tức giận giọng nam
So sánh giá trị trung bình F0 và năng lượng của cảm xúc tức giận và cảm xúc trung tính giọng nam
Từ các bảng 4.10, 4.11, 4.12 có thểđưa ra các nhận xét như sau. Với cảm xúc tức giận được thể hiện bởi giọng nam, giá trị trung bình F0 và năng lượng là cao. Với các hình thức biểu lộ cảm xúc tức giận khác nhau, có sự sai khác nhau về biến thiên của F0 và năng lượng. Giá trị trung bình của F0 và năng lượng đối với cảm xúc tức giận có sự chênh lệch rõ ràng so với cảm xúc trung tính.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.12: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc tức giận với cảm xúc trung tính giọng nam
4.3.2.2. Trung bình F0 và năng lượng của cảm xúc tức giận với giọng nữ
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu 02 Con mèo ngoài sân
03 Thôi bác đi đi
06 Anh đã biết chuyện gì chưa 09 Anh đến đón em nhé
12 Lại phải chờ hả anh 20 Xin hãy buông tha cho tôi
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
23 Cứ lanh chanh, hỏng hết cả việc rồi 25 Mỗi người có một cuộc đời
26 Có lương rồi! 30 Đi với chảđứng!
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Trung bình F0 cảm xúc tức giận giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Trung bình năng lượng cảm xúc tức giận giọng nữ
Bảng 4.15: Trung bình năng lượng của một số cách biểu lộ cảm xúc tức giận giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
So sánh giá trị trung bình F0 và năng lượng của cảm xúc tức giận và trung tính giọng nữ
Bảng 4.16: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc tức giận với cảm xúc trung tính giọng nữ
Tương tự như các phân tích trên với giọng nam, đối với giọng nữ giá trị F0 và năng lượng của cảm xúc tức giận cũng lớn hơn so với cảm xúc trung tính.
4.3.3. Phân tích, thống kê tham số F0 và năng lượng của cảm xúc vui
4.3.3.1 Trung bình F0 và năng lượng của cảm xúc vui với giọng nam
Phân tích được thực hiện với 12 mã câu
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu
03 Thôi bác đi đi
06 Anh đã biết chuyện gì chưa 10 Sắp đến tết rồi
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
13 Thôi vui lên đi ông
16 Hạnh phúc phải tìm trong trông gai 23 Cứ lanh chanh, hỏng hết cả việc rồi 25 Mỗi người có một cuộc đời
26 Có lương rồi!
34 Phiền bác ngày mai lại tới 35 Cuộc chiến hỗn loạn
Bảng 4.17: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Trung bình năng lượng cảm xúc vui giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
So sánh giá trị trung bình F0 và năng lượng của cảm xúc vui và trung tính giọng nam
Bảng 4.20: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc vui với cảm xúc trung tính giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
4.3.3.2 Trung bình F0 và năng lượng của cảm xúc vui với giọng nữ
Mã câu Nội dung câu
05 Đừng làm thế nữa 10 Sắp đến tết rùi 13 Thôi vui lên đi ông
16 Hạnh phúc phải tìm trong trông gai
22 Không biết thì dựa cột mà nghe hiểu chưa
27 Ôi! Chúa ơi!
32 Trời đất ơi! Thuốc gì mà hay quá trừng
43 Mới về à?
45 Đến sớm vậy
49 Mẹơi, con khát nươc quá! 52 Sao nhiều thếạ?
53 Sao lại không được gì?
Bảng 4.21: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.22: Trung bình F0 của một số cách biểu lộ cảm xúc vui giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.23: Trung bình năng lượng của một số cách biểu lộ cảm xúc vui giọng nữ
So sánh giá trị trung bình F0, năng lượng của cảm xúc vui và cảm xúc trung tính giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Với những phân tích trên đối với cảm xúc vui cho cả giọng nam và nữ, cũng có thể thấy được sự chênh lệch giữa các tham số trong các hình thức biệu lộ cảm xúc khác nhau. Đối với cảm xúc vui và cảm xúc trung tính, có sự chênh lệch rõ ràng về giá trị trung bình của F0 và năng lượng.
Thực nghiệm trên chỉ là những nghiên cứu ban đầu cho việc phân loại trên phương diện tín hiệu cho các cảm xúc khác nhau (trung tính, buồn, tức giận, vui) trong tiếng Việt. Trong các phân tích thống kê các tham số trên đây, có thể thấy rằng cảm xúc độc lập với giới tính, quy luật biến thiên của các tham số khác nhau cho cảm nhận cảm xúc khác nhau. Kết quả trên cho thấy sự chênh lệch về giá trị trung bình của F0 và năng lượng trong các cách biệu lộ cảm xúc khác nhau của cùng một loại cảm xúc, và của các cảm xúc với cảm xúc trung tính. Nhìn chung, để tạo cảm xúc tức giận, vui tốc độ nói thường phải nhanh, năng lượng, tần số cơ bản thường cao. Để có được cảm xúc buồn và trung tính tốc độ nói thường chậm lại, giá trị năng lượng và tần số cơ bản thường là thấp.
Các phương pháp tổng hợp tiếng nói hiện nay cơ bản được chia thành hai hướng: tổng hợp tiếng nói trực tiếp và tổng hợp tiếng nói dựa trên mô hình. Với dữ liệu đã phân tích nên áp dụng với phương pháp tổng hợp dựa trên các đơn vị âm đã được ghi âm trực tiếp từ tiếng nói, trong đó mỗi âm tiết tổng hợp được ghép bởi hai đơn vị âm mà chúng tôi đã đặt tên là đơn vị âm đầu và đơn vị âm cuối. Đây là phương pháp cho chất lượng tiếng nói tổng hợp khá tự nhiên. Tổng hợp tiếng nói
Bảng 4.24: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
bằng phương pháp ghép nối từ các đơn vị âm không đồng nhất là vấn đề đã được thực hiện từ rất sớm. Song cho đến nay những tồn tại của vấn đề này vẫn luôn mang tính thời sự và thu hút được sự quan tâm, đó là việc xử lý các tham số của tín hiệu tiếng nói tại điểm ghép nối. Bằng những nghiên cứu và đánh giá vềảnh hưởng của các tham số cơ bản đến chất lượng tiếng Việt tổng hợp bằng phương pháp ghép nối và đã chỉ ra một số tham số cơ bản có ảnh hưởng như: tần số cơ bản F0, năng lượng, phổ (hay các formant), ... Ở cả giá trị tham số hay độ biến thiên, đối với cảm xúc tức giận và vui cần phải tăng lên, giảm đi với cảm xúc buồn và trung tính.
Việc thực hiện tổng hợp tiếng Việt bằng phương pháp ghép nối được thực hiện theo sơđồ sau:
Hình 4.12: Lưu đồ thuật giải tổng hợp tiếng Việt bằng phương pháp ghép nối
- Để cân bằng biên độ có rất nhiều cách để thực hiện, tuy nhiên việc cân bằng phải đảm bảo đoạn tín hiệu tiếng nói sau khi được cân bằng sẽ có ít thay đổi nhất so với tín hiệu gốc ban đầu. Dựa trên cơ sở đó thường cân bằng biên độ của đơn vị âm đầu theo đơn vị âm cuối. Sở dĩ chọn đơn vị âm đầu vì đoạn tín hiệu âm đầu thường ngắn hơn so với đơn vị âm cuối, nên khi cân bằng chúng sẽ ít bị ảnh hưởng hơn.
Các bước thực hiện như sau:
Bước 1: Tìm giá trị biên độ lớn nhất của đơn vị âm đầu và đơn vị âm cuối.
Bắt đầu
Kết thúc
Đọc tín hiệu của 2 đơn vị
âm từ cơ sở dữ liệu
Xác định điểm ghép của đơn vị
âm đầu với đơn vị âm cuối
Xác định 2 đơn vị âm
để tổng hợp
Ghép đơn vị âm đầu và đơn vị
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bước 2: Tính hệ số tương ứng bằng cách lấy giá trị lớn nhất của đơn vị âm cuối chia giá trị lớn nhất của đơn vị âm đầu.
Bước 3: Tính lại các giá trị mẫu của đơn vị âm đầu bằng cách nhân với hệ sốđã tính ở bước 2.
- Đối với tiếng Việt, khi thay đổi tần số F0 sẽ làm thay đổi thanh điệu, ngữđiệu và nhiều thông tin quan trọng khác trong tiếng nói tổng hợp. Chính vì vậy, việc cân bằng tham số F0 là rất quan quan trọng nhằm nâng cao chất lượng tiếng Việt tổng hợp. Nhiều giải pháp được đưa ra để cân bằng tần số cơ bản F0 tại vị trí ghép nối như một số các thuật giải “shift only”, “residual resampling”, “multiplex window processing”.
Phương pháp này được chúng tôi thực hiện bằng thuật giải PSOLA. Giải pháp và các bước thực hiện như sau:
Bước 1: Xác định tần số cơ bản đoạn nguyên âm của đơn vị âm đầu và đơn vị âm cuối.
Bước 2: Thay đổi tần số của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo tần số của đoạn nguyên âm bên đơn vị âm cuối bằng thuật giải PSOLA.
- Làm trơn phổ tại vị trí ghép nối được thực hiện nhằm cân bằng phổ của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo phổ của phần nguyên âm bên đơn vị âm cuối bằng phương pháp LPC. Mục đích là tạo ra tín hiệu mới sẽ mang một phần thông tin của đoạn tín hiệu ban đầu, song thông tin về phổ sẽđược điều khiển để gần giống với phổ của đoạn tín hiệu thuộc nguyên âm của đơn vị âm cuối.
4.4 Kết luận chương
Cao độ giọng nói cũng thay đổi với những trạng thái biểu lộ cảm xúc khác nhau. Cao độ là yếu tố cơ bản tạo nên những hiện tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm và cả trọng âm. Vì vậy, với mỗi cách thể hiện luyến láy khác nhau cho ta một giá trị F0 đặc trưng cho cách biểu cảm của người nói để truyền tải được ý định nội dung cho người nghe.
Năng lượng thể hiện độ to nhỏ của âm thanh. Năng lượng càng lớn thì âm thanh có thể truyền đi được càng xa. Năng lượng là yếu tố chính tạo nên hiện tượng
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
trọng trong việc tạo lập ngữ điệu cho tiếng nói. Việc một âm tiết nào đó vừa mang tính trọng âm, vừa mang thuộc tính của ngữđiệu là một việc hoàn toàn bình thường trong Việt ngữ.
Đây chính là 2 tham số quan trọng để tạo nên ngữđiệu cho tiếng nói mà một số nghiên cứu với các ngôn ngữ khác cũng đã trích chọn và có những nhận định riêng. Đối với CSDL là tiếng nói tiếng Việt, việc đánh giá thống kê các tham số cho các hình thức biểu lộ cảm xúc khác nhau sẽ là cơ sở để xây dựng bộ tổng hợp tiếng Việt nói có cảm xúc.
Các đề xuất trên được sử dụng nhằm cân bằng các tham số tín hiệu tiếng nói tại vị trí ghép nối.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận văn đã trình bày các nghiên cứu lý thuyết và thực nghiệm về cảm xúc tiếng Việt được biểu đạt qua tiếng nói. Các nghiên cứu này đã góp phần giải quyết các yêu cầu đặt ra của đề tài.
Kết quảđạt được
Về mặt lý thuyết: Luận văn đã tìm hiểu và trình bày tổng quan về tiếng nói và một số phương pháp tổng hợp tiếng nói. Đồng thời, luận văn cũng đã đưa ra định nghĩa về ngữ điệu cảm xúc trong tiếng nói, các tham số ảnh hướng đến ngữđiệu của tiếng nói.
Về mặt thực nghiệm: Tham gia xây dựng CSDL tiếng nói tiếng Việt có cảm xúc, phân loại các cách thể hiện cảm xúc, trích xuất các tham số để từ đó