Để tổng hợp tiếng nói có cảm xúc bằng cách thay đổi các thông số của tiếng nói tự nhiên, cần trích xuất các thông số cơ bản để mô tả cảm xúc. Nhưđã phân tích trong chương 3, có thể sử dụng các tham số để tổng hợp cảm xúc của tiếng nói là: cao độ - tần số cơ bản (Pitch), năng lượng - cường độ (Intensity), trường độ (Duration), nhịp độ (Tempo). Vì vậy, trong phần thực nghiệm, bằng cách sử dụng các công cụ phân tích giọng nói và công cụ PRAAT các thông số này đã được trích xuất và biểu diễn để thấy được sự biến thiên của chúng trong từng loại cảm xúc.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Đây là bước đầu phục vụ cho việc đưa tham số vào bộ tổng hợp tiếng nói có cảm xúc.
Hình 4.2 và 4.3 là dạng tín hiệu tiếng nói, biến thiên tần số cơ bản và năng lượng của giọng nam và nữ thể hiện 4 cảm xúc: trung tính, buồn, tức giận, vui với cùng một câu nói “ đừng làm thế nữa”. Ví dụ cho thấy, có nhiều sắc thái biểu diễn khác nhau cho cùng một cảm xúc.
a
b
c
d
Hình 4.2: Tín hiệu tiếng nói, biến thiên F0 và năng lượng của giọng nữ với 4 cảm xúc (trung tính, buồn, tức giận, vui) a. trung tính, b. buồn, c. tức giận, d. vui
Trong hình 4.2, tín hiệu tiếng nói đối với cảm xúc trung tính gần như là liên tục, giọng đều đều vào các từ trong câu, biến thiên của F0 gần như nằm ngang, năng lượng tập trung nhiều vào từ “đừng” ởđầu câu. Trong 4 cảm xúc cho giọng nữ này, thời gian nói cho cảm xúc buồn là dài nhất, tốc độ nói chậm hơn, người nói nhấn mạnh vào từ “đừng” để thể hiện cảm xúc, có khoảng lặng kéo dài sau từ này, thời gian toàn câu giảm đi cho cảm xúc trung tính, vui và tức giận. Với cảm xúc tức giận, giá trị F0 biến thiên liên tục, người nói vẫn nhấn mạnh vào đầu câu để thể hiện cảm xúc, năng lượng có giá trị tương đối lớn. Còn đối với cảm xúc vui, năng lượng và F0 trong câu này đều có giá trị lớn hơn cả. Nhìn chung trong 4 cảm xúc của cùng một câu nói thì giá trị trung bình của F0 thường là thấp với cảm xúc buồn và trung tính, còn cảm xúc vui và tức giận có giá trị F0 thường là cao. Năng lượng trung bình
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
của cảm xúc buồn thấp hơn cả, tốc độ nói chậm, thời gian nói dài hơn so với các cảm xúc còn lại.
Với giọng nam, cách thể hiện các cảm xúc trung tính, buồn, tức giận, vui cho cùng một nội dung câu cũng có sự khác biệt (hình 4.3). Với câu nói “đừng làm thế
nữa”được thể hiện bởi giọng nam, biến thiên F0 có sự liên tục hơn, ít khoảng lặng, giá trị của F0 thấp hơn so với giọng nữ, người nói chủ yếu tập trung vào từđầu tiên để thể hiện cảm xúc.
a b c
d
Hình 4.3 Tín hiệu tiếng nói, biến thiên F0 và năng lượng của giọng nam với 4 cảm xúc (trung tính, buồn, tức giận, vui) a. trung tính, b. buồn, c. tức giận, d. vui
Về mặt tín hiệu, cách biểu đạt cảm xúc của giọng nam và nữ là khác nhau được thể hiện qua tốc độ nói, sự biến thiên của F0, năng lượng, độ nhấn mạnh vào các từđể diễn tả cảm xúc (F0 nữ> F0 nam). Nhưng nhìn chung, cả giọng nam và giọng nữ để diễn đạt được cảm xúc buồn đều nói chậm hơn, biến thiên F0 của cảm xúc trung tính gần như nằm ngang, F0 của cảm xúc vui có giá trị cao nhất đối với giọng nữ, giọng nam thì F0 của cảm xúc tức giận cao nhất. Năng lượng của cảm xúc buồn trong cả 2 giọng đều là nhỏ nhất. Đây là một phân tích minh họa cho cùng một câu nói nhưng cách thể hiện của giọng nam và giọng nữ với 4 cảm xúc (trung tính,
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Để người nghe hiểu được những thông tin về ý định và trạng thái cảm xúc của người nói, mỗi cảm xúc có rất nhiều cách diễn đạt. Giả sử muốn thể hiện cảm xúc buồn, người nói có thể nói với giọng đều đều, nhấn mạnh một từ nào đó, hay kéo dài một từ, ... Tương tự với cảm xúc tức giận, người nói có thể diễn đạt bằng cách cao giọng, kéo dài thời gian nói, nhấn mạnh vào một từ hay một đoạn nào đấy, ... Tương tự như vậy, muốn thể hiện được cảm xúc vui cũng có rất nhiều cách. Người nói có thể lên giọng, kéo dài thời gian nói, ngắt thành nhiều đoạn và nhấn mạnh vào đoạn nào đó, … để người nghe có thể cảm nhận được cảm xúc vui và hiểu được cảm xúc vui về điều gì. Trong từng câu nói cụ thể, cách diễn đạt cảm xúc của mỗi người là khác nhau nên CSDL sau khi được thu âm và chuẩn hóa bằng cách loại bỏ các khoảng lặng đầu và cuối câu đã được phân loại (phụ lục A). Cảm xúc buồn được phân loại làm 40 cách biểu lộ cảm xúc. Cảm xúc tức giận được phân loại làm 35 cách biểu lộ cảm xúc và cảm xúc vui được phân loại là 59 cách tương ứng với số câu trong CSDL. Đối với cảm xúc trung tính, người nói thường nói với giọng đều đều, không có sự nhấn nhá, chỉ có sự chênh lệch về thời gian nhưng không đáng kể, biến thiên của các tham số gần giống nhau. Với câu nói “đừng làm thế nữa”, dưới đây là trích xuất tham số của 2 giọng nam và 2 giọng nữ. Trung bình F0 của giọng nam là gần bằng nhau, sự biến thiên của F0 gần như nằm ngang. Tương tự như vậy với giọng nữ, giá trị trung bình của F0 cũng gần bằng nhau, biến thiên F0 hơi lên cao ở cuối câu. Vì có nhiều sự tương đồng trong cách diễn đạt cảm xúc trung tính nên không có sự phân loại đối với cảm xúc này.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Hình 4.5: 2 giọng nữ nói với cảm xúc trung tính
Với cảm xúc buồn, cùng một câu nói “ con mèo ngoài sân” với 2 giọng nam thì cách thể hiện của mỗi giọng là khác nhau. Người thứ nhất thể hiện cảm xúc buồn với giọng đều đều, F0 gần như nằm ngang, năng lượng tập trung vào đầu và giảm về cuối.
Hình 4.6: Cảm xúc buồn được thể hiện với giọng đều đều
Cũng với nội dung câu trên và một gọng nam khác lại thể hiện cảm xúc buồn bằng cách n gắt câu thành các đoạn nhỏ. F0 được chia thành các đoạn ngắn và giảm dần, năng lượng chủ yếu cũng tập trung ởđoạn đầu.
Hình 4.7: Cảm xúc buồn được thể hiện bằng cách chia câu thành các đoạn
Cảm xúc tức giận cũng có nhiều cách để biểu hiện. Dưới đây là ví dụ với cùng một câu “À! A dám ăn nói với bố thế à?”, cả hai người đều chia câu thành 2 đoạn, đoạn đầu kéo dài từ “À” nhưng một người nhấn mạnh cuối câu, một người nhấn mạnh đoạn gần cuối. Mặc dù cách thể hiện gần giống nhau nhưng vẫn có sự chênh lệch về giá trị trung bình của F0 và năng lượng.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Hình 4.8: Cảm xúc tức giận với câu được chia làm 2 đoạn, nhấn mạnh cuối câu
Hình 4.9: Cảm xúc tức giận với câu chia làm 2 đoạn, nhấn mạnh cảđoạn 2
Hình 4.10 và 4.11 là minh họa điển hình cho 2 cách biểu diễn của cảm xúc vui khác nhau với cùng một nội dung câu “chuyển lá thư này cho anh ấy nhé”:
Hình 4.10: Giọng nữ thể hiện cảm xúc vui bằng cách lên giọng ở cuối câu
Hình 4.11: Giọng nữ thể hiện cảm xúc vui bằng cách nói đều đều
Về mặt tín hiệu, các cách biểu diễn khác nhau sẽ có sự sai khác về mặt thông số. Phụ lục C cho thấy, với 55 câu nói khác nhau có bao nhiêu cách thể hiện cùng một cảm xúc và có bao nhiêu giọng cùng thể hiện cùng một kiểu như vậy trong phụ lục B. Giá trị trung bình của F0 và năng lượng cho một giọng, giá trị trung bình cho nhiều giọng (có phân biệt giới tính) đã được tính toán bằng công cụ Praat. Để có thể quan sát và so sánh giá trị tham số của các hình thức biểu lộ cảm xúc khác nhau cho cùng một loại cảm xúc (vui, buồn, tức giận) và so sánh với cảm xúc trung tính, một
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
số trường hợp đã được biểu diễn trên đồ thị để có thể quan sát một cách trực quan, dễ so sánh. Cao độ của các thanh là giá trị trung bình của tần số cơ bản hoặc năng lượng tương ứng, các con số ghi theo trục hoành là các cách diễn đạt cảm xúc. Đối với cảm xúc, 12 câu đã được chọn ra để phân tích.
4.3.1 Phân tích, thống kê tham số F0 và năng lượng của cảm xúc buồn
Các khía cạnh tình cảm thể hiện trong lời nói chủ yếu là sự thay đổi thông tin trong ngữđiệu: năng lượng, tần số cơ bản, thời gian nói. Các đồ thị dưới đây sẽ thể hiện sự chênh lệch giá trị F0 và năng lượng với cùng một câu nói, cùng một cảm xúc buồn nhưng các hình thức biểu lộ cảm xúc khác nhau, được nói bởi giọng nam và giọng nữ.
4.3.1.1 Trung bình F0 và năng lượng cảm xúc buồn với giọng nam
Tiến hành phân tích trên 12 câu nói: Nội dung của các câu như sau:
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu 03 Thôi bác đi đi
17 Đúng là ngựa non háu đá 18 Toàn một lũ bất tài 19 Thất bại lại thất bại nữa
22 Không biết thì dựa cột mà nghe hiểu chưa 24 Anh đừng nói chuyện với e nữa
30 Đi với chảđứng
33 Ôi dào, người như vậy không thay đổi được đâu 34 Phiền bác ngày mai lại tới
38 Hôm nay chẳng được việc gì cả 46 Ôi! Tình yêu!
Bảng 4.1: Mã câu và nội dung câu
Trung bình F0 cảm xúc buồn giọng nam
Mỗi cột trên đồ thị là biểu diễn giá trị trung bình của F0 của các giọng nam nói cùng một nội dung câu và cùng một cách biểu lộ cảm xúc (bảng thống kê trong phụ lục B).
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.2: Trung bình của F0 của một số cách biểu lộ cảm xúc buồn giọng nam
Mặc dù cùng một cảm xúc buồn, nhưng mỗi giọng sẽ có một cách thể hiện cảm xúc khác nhau dẫn đến có sự biến thiên về giá trị của tần số F0 giúp cho người nghe có thể cảm nhận được ý định mà người nói muốn truyền tải.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Trung bình năng lượng với cảm xúc buồn giọng nam
Tương ứng với các mã câu trong bảng 4.1, các đồ thị trong bảng 4.3 so sánh giá trị trung bình của năng lượng với cùng một câu nói nhưng được giọng nam thể hiện bằng các cách khác nhau để diễn tả cảm xúc buồn.
Mỗi cột trên đồ thị là biểu diễn giá trị trung bình của năng lượng cho cùng một câu, cùng một cách biểu lộ cảm xúc đối với các giọng nói khác nhau (được thống kê trong phụ lục B).
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Ta thấy cũng có sự chênh lệch về giá trị năng lượng giữa các cách biểu lộ cảm xúc khác nhau.
So sánh giá trị trung bình F0 và năng lượng của cảm xúc buồn và cảm xúc trung tính với giọng nam
Bảng 4.4: So sánh giá trị trung bình F0 và năng lượng của một số cách biểu lộ cảm xúc buồn với cảm xúc trung tính giọng nam
Như phân tích ở trên, cảm xúc buồn và cảm xúc trung tính có giá trị biến thiên của F0 gần bằng nhau. Cũng như vậy đối với biến thiên năng lượng. Vì vậy, đồ thị biểu diễn giá trị trung bình của F0 và năng lượng của một số hình thức biểu lộ cảm xúc buồn và trung tính cho thấy không có sự chênh lệch nhiều, giá trị trung bình các tham số của cảm xúc buồn thường là nhỏ hơn.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
4.3.1.2 Trung bình F0 và năng lượng cảm xúc buồn với giọng nữ
Các phân tích dưới đây tôi thực hiện cho 12 câu với cảm xúc buồn giọng nữ:
Mã câu Nội dung câu
03 Thôi bác đi đi 13 Thôi vui lên đi ông 15 Sao lại phản bội tôi 17 Đúng là ngựa non háu đá 18 Toàn một lũ bất tài
22 Không biết thì dựa cột mà nghe hiểu chưa 24 Anh đừng nói chuyện với em nữa
30 Đi với chảđứng
31 Hạnh phúc thay khi được làm mẹ!
33 Ôi dào, người như vậy không thay đổi được đâu! 34 Phiền bác ngày mai lại tới!
38 Hôm nay chẳng được việc gì cả
Bảng 4.5: Mã câu và nội dung câu
Trung bình F0 của cảm xúc buồn giọng nữ
Mỗi cột trên đồ thị là biểu diễn giá trị trung bình của F0 của các giọng nữ cho cùng một nội dung câu và cùng một cách biểu lộ cảm xúc của cảm xúc buồn (bảng thống kê trong phụ lục B).
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.6: Trung bình F0 với của một số cách biểu lộ cảm xúc buồn giọng nữ
Trung bình năng lượng của cảm xúc buồn giọng nữ
Mỗi cột trên đồ thị là biểu diễn giá trị trung bình của năng lượng với giọng nữ cho cùng một nội dung câu và cùng một cách biểu lộ cảm xúc của cảm xúc buồn.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.7: Trung bình năng lượng của một số cách biểu lộ cảm xúc buồn giọng nữ
Tương tự như trường hợp đối với giọng nam, có thể đưa ra các nhận xét như sau đối với giọng nữ. Cùng một nội dung câu nhưng được diễn đạt với các cách khác nhau thì giá trị trung bình của F0 và năng lượng có sự chênh lệch do mỗi cách có sự nhấn nhá riêng biệt. Giá trị F0 với giọng nữ luôn lớn hơn của giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
So sánh giá trị trung bình F0 và năng lượng của cảm xúc buồn và cảm xúc trung tính giọng nữ:
Giá trị trung bình của F0 và năng lượng giọng nữ đối với cảm xúc buồn thường nhỏ hơn so với giá trị F0 và năng lượng đối với cảm xúc trung tính và thời gian nói cũng dài hơn.
Bảng 4.8: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc buồn với cảm xúc trung tính giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
4.3.2 Phân tích, thống kê tham số F0 và năng lượng của cảm xúc tức giận
4.3.2.1. Trung bình F0 và năng lượng của cảm xúc tức giận với giọng nam
Các phân tích bên dưới cũng được thực hiện với 12 câu:
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu 03 Thôi bác đi đi
04 Tao không muốn nhìn thấy mặt mày nữa 05 Đừng làm thế nữa
08 Chuối dù ngọt cũng bỏ vỏ ngoài 09 Anh đến đón em nhé
12 Lại phải chờ hả anh 15 Sao lại phản bội tôi
16 Hạnh phúc phải tìm trong trông gai 21 Làm với chảăn toàn lũăn hại 29 Chiều ông bà đón con nhé! 30 Đi với chảđứng
Bảng 4.9: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.10: Trung bình F0 của một số cách biểu lộ cảm xúc tức giận giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.11: Trung bình năng lượng của một số cách biểu lộ cảm xúc tức giận giọng nam
So sánh giá trị trung bình F0 và năng lượng của cảm xúc tức giận và cảm xúc trung tính giọng nam
Từ các bảng 4.10, 4.11, 4.12 có thểđưa ra các nhận xét như sau. Với cảm xúc