Các phân tích bên dưới cũng được thực hiện với 12 câu:
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu 03 Thôi bác đi đi
04 Tao không muốn nhìn thấy mặt mày nữa 05 Đừng làm thế nữa
08 Chuối dù ngọt cũng bỏ vỏ ngoài 09 Anh đến đón em nhé
12 Lại phải chờ hả anh 15 Sao lại phản bội tôi
16 Hạnh phúc phải tìm trong trông gai 21 Làm với chảăn toàn lũăn hại 29 Chiều ông bà đón con nhé! 30 Đi với chảđứng
Bảng 4.9: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.10: Trung bình F0 của một số cách biểu lộ cảm xúc tức giận giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.11: Trung bình năng lượng của một số cách biểu lộ cảm xúc tức giận giọng nam
So sánh giá trị trung bình F0 và năng lượng của cảm xúc tức giận và cảm xúc trung tính giọng nam
Từ các bảng 4.10, 4.11, 4.12 có thểđưa ra các nhận xét như sau. Với cảm xúc tức giận được thể hiện bởi giọng nam, giá trị trung bình F0 và năng lượng là cao. Với các hình thức biểu lộ cảm xúc tức giận khác nhau, có sự sai khác nhau về biến thiên của F0 và năng lượng. Giá trị trung bình của F0 và năng lượng đối với cảm xúc tức giận có sự chênh lệch rõ ràng so với cảm xúc trung tính.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.12: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc tức giận với cảm xúc trung tính giọng nam
4.3.2.2. Trung bình F0 và năng lượng của cảm xúc tức giận với giọng nữ
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu 02 Con mèo ngoài sân
03 Thôi bác đi đi
06 Anh đã biết chuyện gì chưa 09 Anh đến đón em nhé
12 Lại phải chờ hả anh 20 Xin hãy buông tha cho tôi
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
23 Cứ lanh chanh, hỏng hết cả việc rồi 25 Mỗi người có một cuộc đời
26 Có lương rồi! 30 Đi với chảđứng!
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Trung bình F0 cảm xúc tức giận giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Trung bình năng lượng cảm xúc tức giận giọng nữ
Bảng 4.15: Trung bình năng lượng của một số cách biểu lộ cảm xúc tức giận giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
So sánh giá trị trung bình F0 và năng lượng của cảm xúc tức giận và trung tính giọng nữ
Bảng 4.16: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc tức giận với cảm xúc trung tính giọng nữ
Tương tự như các phân tích trên với giọng nam, đối với giọng nữ giá trị F0 và năng lượng của cảm xúc tức giận cũng lớn hơn so với cảm xúc trung tính.
4.3.3. Phân tích, thống kê tham số F0 và năng lượng của cảm xúc vui
4.3.3.1 Trung bình F0 và năng lượng của cảm xúc vui với giọng nam
Phân tích được thực hiện với 12 mã câu
Mã câu Nội dung câu
01 Ông nói gì thế tôi không hiểu
03 Thôi bác đi đi
06 Anh đã biết chuyện gì chưa 10 Sắp đến tết rồi
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
13 Thôi vui lên đi ông
16 Hạnh phúc phải tìm trong trông gai 23 Cứ lanh chanh, hỏng hết cả việc rồi 25 Mỗi người có một cuộc đời
26 Có lương rồi!
34 Phiền bác ngày mai lại tới 35 Cuộc chiến hỗn loạn
Bảng 4.17: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Trung bình năng lượng cảm xúc vui giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
So sánh giá trị trung bình F0 và năng lượng của cảm xúc vui và trung tính giọng nam
Bảng 4.20: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc vui với cảm xúc trung tính giọng nam
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
4.3.3.2 Trung bình F0 và năng lượng của cảm xúc vui với giọng nữ
Mã câu Nội dung câu
05 Đừng làm thế nữa 10 Sắp đến tết rùi 13 Thôi vui lên đi ông
16 Hạnh phúc phải tìm trong trông gai
22 Không biết thì dựa cột mà nghe hiểu chưa
27 Ôi! Chúa ơi!
32 Trời đất ơi! Thuốc gì mà hay quá trừng
43 Mới về à?
45 Đến sớm vậy
49 Mẹơi, con khát nươc quá! 52 Sao nhiều thếạ?
53 Sao lại không được gì?
Bảng 4.21: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.22: Trung bình F0 của một số cách biểu lộ cảm xúc vui giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.23: Trung bình năng lượng của một số cách biểu lộ cảm xúc vui giọng nữ
So sánh giá trị trung bình F0, năng lượng của cảm xúc vui và cảm xúc trung tính giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Với những phân tích trên đối với cảm xúc vui cho cả giọng nam và nữ, cũng có thể thấy được sự chênh lệch giữa các tham số trong các hình thức biệu lộ cảm xúc khác nhau. Đối với cảm xúc vui và cảm xúc trung tính, có sự chênh lệch rõ ràng về giá trị trung bình của F0 và năng lượng.
Thực nghiệm trên chỉ là những nghiên cứu ban đầu cho việc phân loại trên phương diện tín hiệu cho các cảm xúc khác nhau (trung tính, buồn, tức giận, vui) trong tiếng Việt. Trong các phân tích thống kê các tham số trên đây, có thể thấy rằng cảm xúc độc lập với giới tính, quy luật biến thiên của các tham số khác nhau cho cảm nhận cảm xúc khác nhau. Kết quả trên cho thấy sự chênh lệch về giá trị trung bình của F0 và năng lượng trong các cách biệu lộ cảm xúc khác nhau của cùng một loại cảm xúc, và của các cảm xúc với cảm xúc trung tính. Nhìn chung, để tạo cảm xúc tức giận, vui tốc độ nói thường phải nhanh, năng lượng, tần số cơ bản thường cao. Để có được cảm xúc buồn và trung tính tốc độ nói thường chậm lại, giá trị năng lượng và tần số cơ bản thường là thấp.
Các phương pháp tổng hợp tiếng nói hiện nay cơ bản được chia thành hai hướng: tổng hợp tiếng nói trực tiếp và tổng hợp tiếng nói dựa trên mô hình. Với dữ liệu đã phân tích nên áp dụng với phương pháp tổng hợp dựa trên các đơn vị âm đã được ghi âm trực tiếp từ tiếng nói, trong đó mỗi âm tiết tổng hợp được ghép bởi hai đơn vị âm mà chúng tôi đã đặt tên là đơn vị âm đầu và đơn vị âm cuối. Đây là phương pháp cho chất lượng tiếng nói tổng hợp khá tự nhiên. Tổng hợp tiếng nói
Bảng 4.24: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
bằng phương pháp ghép nối từ các đơn vị âm không đồng nhất là vấn đề đã được thực hiện từ rất sớm. Song cho đến nay những tồn tại của vấn đề này vẫn luôn mang tính thời sự và thu hút được sự quan tâm, đó là việc xử lý các tham số của tín hiệu tiếng nói tại điểm ghép nối. Bằng những nghiên cứu và đánh giá vềảnh hưởng của các tham số cơ bản đến chất lượng tiếng Việt tổng hợp bằng phương pháp ghép nối và đã chỉ ra một số tham số cơ bản có ảnh hưởng như: tần số cơ bản F0, năng lượng, phổ (hay các formant), ... Ở cả giá trị tham số hay độ biến thiên, đối với cảm xúc tức giận và vui cần phải tăng lên, giảm đi với cảm xúc buồn và trung tính.
Việc thực hiện tổng hợp tiếng Việt bằng phương pháp ghép nối được thực hiện theo sơđồ sau:
Hình 4.12: Lưu đồ thuật giải tổng hợp tiếng Việt bằng phương pháp ghép nối
- Để cân bằng biên độ có rất nhiều cách để thực hiện, tuy nhiên việc cân bằng phải đảm bảo đoạn tín hiệu tiếng nói sau khi được cân bằng sẽ có ít thay đổi nhất so với tín hiệu gốc ban đầu. Dựa trên cơ sở đó thường cân bằng biên độ của đơn vị âm đầu theo đơn vị âm cuối. Sở dĩ chọn đơn vị âm đầu vì đoạn tín hiệu âm đầu thường ngắn hơn so với đơn vị âm cuối, nên khi cân bằng chúng sẽ ít bị ảnh hưởng hơn.
Các bước thực hiện như sau:
Bước 1: Tìm giá trị biên độ lớn nhất của đơn vị âm đầu và đơn vị âm cuối.
Bắt đầu
Kết thúc
Đọc tín hiệu của 2 đơn vị
âm từ cơ sở dữ liệu
Xác định điểm ghép của đơn vị
âm đầu với đơn vị âm cuối
Xác định 2 đơn vị âm
để tổng hợp
Ghép đơn vị âm đầu và đơn vị
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bước 2: Tính hệ số tương ứng bằng cách lấy giá trị lớn nhất của đơn vị âm cuối chia giá trị lớn nhất của đơn vị âm đầu.
Bước 3: Tính lại các giá trị mẫu của đơn vị âm đầu bằng cách nhân với hệ sốđã tính ở bước 2.
- Đối với tiếng Việt, khi thay đổi tần số F0 sẽ làm thay đổi thanh điệu, ngữđiệu và nhiều thông tin quan trọng khác trong tiếng nói tổng hợp. Chính vì vậy, việc cân bằng tham số F0 là rất quan quan trọng nhằm nâng cao chất lượng tiếng Việt tổng hợp. Nhiều giải pháp được đưa ra để cân bằng tần số cơ bản F0 tại vị trí ghép nối như một số các thuật giải “shift only”, “residual resampling”, “multiplex window processing”.
Phương pháp này được chúng tôi thực hiện bằng thuật giải PSOLA. Giải pháp và các bước thực hiện như sau:
Bước 1: Xác định tần số cơ bản đoạn nguyên âm của đơn vị âm đầu và đơn vị âm cuối.
Bước 2: Thay đổi tần số của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo tần số của đoạn nguyên âm bên đơn vị âm cuối bằng thuật giải PSOLA.
- Làm trơn phổ tại vị trí ghép nối được thực hiện nhằm cân bằng phổ của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo phổ của phần nguyên âm bên đơn vị âm cuối bằng phương pháp LPC. Mục đích là tạo ra tín hiệu mới sẽ mang một phần thông tin của đoạn tín hiệu ban đầu, song thông tin về phổ sẽđược điều khiển để gần giống với phổ của đoạn tín hiệu thuộc nguyên âm của đơn vị âm cuối.
4.4 Kết luận chương
Cao độ giọng nói cũng thay đổi với những trạng thái biểu lộ cảm xúc khác nhau. Cao độ là yếu tố cơ bản tạo nên những hiện tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm và cả trọng âm. Vì vậy, với mỗi cách thể hiện luyến láy khác nhau cho ta một giá trị F0 đặc trưng cho cách biểu cảm của người nói để truyền tải được ý định nội dung cho người nghe.
Năng lượng thể hiện độ to nhỏ của âm thanh. Năng lượng càng lớn thì âm thanh có thể truyền đi được càng xa. Năng lượng là yếu tố chính tạo nên hiện tượng
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
trọng trong việc tạo lập ngữ điệu cho tiếng nói. Việc một âm tiết nào đó vừa mang tính trọng âm, vừa mang thuộc tính của ngữđiệu là một việc hoàn toàn bình thường trong Việt ngữ.
Đây chính là 2 tham số quan trọng để tạo nên ngữđiệu cho tiếng nói mà một số nghiên cứu với các ngôn ngữ khác cũng đã trích chọn và có những nhận định riêng. Đối với CSDL là tiếng nói tiếng Việt, việc đánh giá thống kê các tham số cho các hình thức biểu lộ cảm xúc khác nhau sẽ là cơ sở để xây dựng bộ tổng hợp tiếng Việt nói có cảm xúc.
Các đề xuất trên được sử dụng nhằm cân bằng các tham số tín hiệu tiếng nói tại vị trí ghép nối.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận văn đã trình bày các nghiên cứu lý thuyết và thực nghiệm về cảm xúc tiếng Việt được biểu đạt qua tiếng nói. Các nghiên cứu này đã góp phần giải quyết các yêu cầu đặt ra của đề tài.
Kết quảđạt được
Về mặt lý thuyết: Luận văn đã tìm hiểu và trình bày tổng quan về tiếng nói và một số phương pháp tổng hợp tiếng nói. Đồng thời, luận văn cũng đã đưa ra định nghĩa về ngữ điệu cảm xúc trong tiếng nói, các tham số ảnh hướng đến ngữđiệu của tiếng nói.
Về mặt thực nghiệm: Tham gia xây dựng CSDL tiếng nói tiếng Việt có cảm xúc, phân loại các cách thể hiện cảm xúc, trích xuất các tham số để từ đó phân tích, đánh giá và so sánh các tham sốảnh hưởng đến ngữđiệu tiếng nói.
Những mặt hạn chế
Đây cũng chỉ là bước đầu của quá trình xây dựng một hệ thống tổng hợp tiếng nói có cảm xúc, vì thời gian nghiên cứu hạn hẹp. Chính vì vậy, phần thực nghiệm của mới chỉ dừng lại ở mức phân tích, so sánh một số tham số cơ bản của tiếng nói có cảm xúc trong bộ CSDL thu được. Phải mất khá nhiều thời gian thu thập và phân loại CSDL do CSDL tương đối lớn.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Từ những kết quả phân tích ban đầu và những mặt còn hạn chế, có thể đề xuất một số hướng phát triển của đề tài trong tương lai như sau:
o Xây dựng một bộ tổng hợp tiếng Việt hoàn chỉnh.
o Xây dựng một hệ thống nhận dạng cảm xúc với CSDL thu được.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
TÀI LIỆU THAM KHẢO Tài liệu tiếng việt
[1] Bộ Giáo dục và Đào tạo Tâm lý đại cương (Dùng cho các trường Đại học và Cao đẳng Sư phạm), Hà Nội (1995).
[2] Đinh Đồng Lưỡng, Trịnh Văn Loan, Phạm Thị Kim Ngoan, “Xây dựng cơ sở
dữ liệu cho tổng hợp tiếng Việt chất lượng tốt”, Bài báo trình bày tại Hội thảo Quốc gia lần thứ 12, Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông, Biên Hòa, 5-6 tháng 8, 2009
[3] Đoàn Thiện Thuật, “Ngữ âm tiếng Việt”, NXB Đại học Quốc Gia Hà Nội, (1999).
[4] Đỗ Tiến Thắng, “Ngữ điệu tiếng Việt sơ khảo”, NXB Đại học Quốc Gia Hà Nội.
[5] Viện Từ điển học và Bách khoa thư Việt Nam, “Viện khoa học xã hội Việt Nam- Viện từđiển học và bách khoa thư Việt Nam,” [Online].
Tài liệu tiếng nước ngoài
[6] D. Ververidis and C. Kotropoulos, “ A Review of Emotional Speech
Database”, in Proc. Of Panhellenic Conference on Informatics (PCI),
Thessaloniki, 2003
[7] D. Ververidis and C. Kotropoulos, “Emotional speech recognition: Resources, features, and methods, “Speech Communication, vol. 48, no. 9, pp. 1162-1181, 2006.
[8] Deepa P. Gopinat, Sheeba P.S, and Achuthsankar S. Nair, “Emotional
Analysis for Malayalam Text to Speech Synthesis Systems”, 4thInternational
Conference: Sciences of Electronic, Technologies of Information and Telecommunications, March 25-29, 2007.
[9] E. Navas, A. Castelruiz, I. Luengo, J. Sánschez and I Hernáez, “Designing and Recording an Audiovisual Database of Emotional Speech in Basque,” in Proc. Of the LREC, Lisbon, 2004.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
[10] F. Burkhardt, A. Paeschke, M. Rolfes and W. Sendlmeier, “Emo-DB,”