Mã câu Nội dung câu
05 Đừng làm thế nữa 10 Sắp đến tết rùi 13 Thôi vui lên đi ông
16 Hạnh phúc phải tìm trong trông gai
22 Không biết thì dựa cột mà nghe hiểu chưa
27 Ôi! Chúa ơi!
32 Trời đất ơi! Thuốc gì mà hay quá trừng
43 Mới về à?
45 Đến sớm vậy
49 Mẹơi, con khát nươc quá! 52 Sao nhiều thếạ?
53 Sao lại không được gì?
Bảng 4.21: Mã câu và nội dung câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.22: Trung bình F0 của một số cách biểu lộ cảm xúc vui giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.23: Trung bình năng lượng của một số cách biểu lộ cảm xúc vui giọng nữ
So sánh giá trị trung bình F0, năng lượng của cảm xúc vui và cảm xúc trung tính giọng nữ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Với những phân tích trên đối với cảm xúc vui cho cả giọng nam và nữ, cũng có thể thấy được sự chênh lệch giữa các tham số trong các hình thức biệu lộ cảm xúc khác nhau. Đối với cảm xúc vui và cảm xúc trung tính, có sự chênh lệch rõ ràng về giá trị trung bình của F0 và năng lượng.
Thực nghiệm trên chỉ là những nghiên cứu ban đầu cho việc phân loại trên phương diện tín hiệu cho các cảm xúc khác nhau (trung tính, buồn, tức giận, vui) trong tiếng Việt. Trong các phân tích thống kê các tham số trên đây, có thể thấy rằng cảm xúc độc lập với giới tính, quy luật biến thiên của các tham số khác nhau cho cảm nhận cảm xúc khác nhau. Kết quả trên cho thấy sự chênh lệch về giá trị trung bình của F0 và năng lượng trong các cách biệu lộ cảm xúc khác nhau của cùng một loại cảm xúc, và của các cảm xúc với cảm xúc trung tính. Nhìn chung, để tạo cảm xúc tức giận, vui tốc độ nói thường phải nhanh, năng lượng, tần số cơ bản thường cao. Để có được cảm xúc buồn và trung tính tốc độ nói thường chậm lại, giá trị năng lượng và tần số cơ bản thường là thấp.
Các phương pháp tổng hợp tiếng nói hiện nay cơ bản được chia thành hai hướng: tổng hợp tiếng nói trực tiếp và tổng hợp tiếng nói dựa trên mô hình. Với dữ liệu đã phân tích nên áp dụng với phương pháp tổng hợp dựa trên các đơn vị âm đã được ghi âm trực tiếp từ tiếng nói, trong đó mỗi âm tiết tổng hợp được ghép bởi hai đơn vị âm mà chúng tôi đã đặt tên là đơn vị âm đầu và đơn vị âm cuối. Đây là phương pháp cho chất lượng tiếng nói tổng hợp khá tự nhiên. Tổng hợp tiếng nói
Bảng 4.24: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
bằng phương pháp ghép nối từ các đơn vị âm không đồng nhất là vấn đề đã được thực hiện từ rất sớm. Song cho đến nay những tồn tại của vấn đề này vẫn luôn mang tính thời sự và thu hút được sự quan tâm, đó là việc xử lý các tham số của tín hiệu tiếng nói tại điểm ghép nối. Bằng những nghiên cứu và đánh giá vềảnh hưởng của các tham số cơ bản đến chất lượng tiếng Việt tổng hợp bằng phương pháp ghép nối và đã chỉ ra một số tham số cơ bản có ảnh hưởng như: tần số cơ bản F0, năng lượng, phổ (hay các formant), ... Ở cả giá trị tham số hay độ biến thiên, đối với cảm xúc tức giận và vui cần phải tăng lên, giảm đi với cảm xúc buồn và trung tính.
Việc thực hiện tổng hợp tiếng Việt bằng phương pháp ghép nối được thực hiện theo sơđồ sau:
Hình 4.12: Lưu đồ thuật giải tổng hợp tiếng Việt bằng phương pháp ghép nối
- Để cân bằng biên độ có rất nhiều cách để thực hiện, tuy nhiên việc cân bằng phải đảm bảo đoạn tín hiệu tiếng nói sau khi được cân bằng sẽ có ít thay đổi nhất so với tín hiệu gốc ban đầu. Dựa trên cơ sở đó thường cân bằng biên độ của đơn vị âm đầu theo đơn vị âm cuối. Sở dĩ chọn đơn vị âm đầu vì đoạn tín hiệu âm đầu thường ngắn hơn so với đơn vị âm cuối, nên khi cân bằng chúng sẽ ít bị ảnh hưởng hơn.
Các bước thực hiện như sau:
Bước 1: Tìm giá trị biên độ lớn nhất của đơn vị âm đầu và đơn vị âm cuối.
Bắt đầu
Kết thúc
Đọc tín hiệu của 2 đơn vị
âm từ cơ sở dữ liệu
Xác định điểm ghép của đơn vị
âm đầu với đơn vị âm cuối
Xác định 2 đơn vị âm
để tổng hợp
Ghép đơn vị âm đầu và đơn vị
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bước 2: Tính hệ số tương ứng bằng cách lấy giá trị lớn nhất của đơn vị âm cuối chia giá trị lớn nhất của đơn vị âm đầu.
Bước 3: Tính lại các giá trị mẫu của đơn vị âm đầu bằng cách nhân với hệ sốđã tính ở bước 2.
- Đối với tiếng Việt, khi thay đổi tần số F0 sẽ làm thay đổi thanh điệu, ngữđiệu và nhiều thông tin quan trọng khác trong tiếng nói tổng hợp. Chính vì vậy, việc cân bằng tham số F0 là rất quan quan trọng nhằm nâng cao chất lượng tiếng Việt tổng hợp. Nhiều giải pháp được đưa ra để cân bằng tần số cơ bản F0 tại vị trí ghép nối như một số các thuật giải “shift only”, “residual resampling”, “multiplex window processing”.
Phương pháp này được chúng tôi thực hiện bằng thuật giải PSOLA. Giải pháp và các bước thực hiện như sau:
Bước 1: Xác định tần số cơ bản đoạn nguyên âm của đơn vị âm đầu và đơn vị âm cuối.
Bước 2: Thay đổi tần số của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo tần số của đoạn nguyên âm bên đơn vị âm cuối bằng thuật giải PSOLA.
- Làm trơn phổ tại vị trí ghép nối được thực hiện nhằm cân bằng phổ của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo phổ của phần nguyên âm bên đơn vị âm cuối bằng phương pháp LPC. Mục đích là tạo ra tín hiệu mới sẽ mang một phần thông tin của đoạn tín hiệu ban đầu, song thông tin về phổ sẽđược điều khiển để gần giống với phổ của đoạn tín hiệu thuộc nguyên âm của đơn vị âm cuối.
4.4 Kết luận chương
Cao độ giọng nói cũng thay đổi với những trạng thái biểu lộ cảm xúc khác nhau. Cao độ là yếu tố cơ bản tạo nên những hiện tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm và cả trọng âm. Vì vậy, với mỗi cách thể hiện luyến láy khác nhau cho ta một giá trị F0 đặc trưng cho cách biểu cảm của người nói để truyền tải được ý định nội dung cho người nghe.
Năng lượng thể hiện độ to nhỏ của âm thanh. Năng lượng càng lớn thì âm thanh có thể truyền đi được càng xa. Năng lượng là yếu tố chính tạo nên hiện tượng
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
trọng trong việc tạo lập ngữ điệu cho tiếng nói. Việc một âm tiết nào đó vừa mang tính trọng âm, vừa mang thuộc tính của ngữđiệu là một việc hoàn toàn bình thường trong Việt ngữ.
Đây chính là 2 tham số quan trọng để tạo nên ngữđiệu cho tiếng nói mà một số nghiên cứu với các ngôn ngữ khác cũng đã trích chọn và có những nhận định riêng. Đối với CSDL là tiếng nói tiếng Việt, việc đánh giá thống kê các tham số cho các hình thức biểu lộ cảm xúc khác nhau sẽ là cơ sở để xây dựng bộ tổng hợp tiếng Việt nói có cảm xúc.
Các đề xuất trên được sử dụng nhằm cân bằng các tham số tín hiệu tiếng nói tại vị trí ghép nối.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận văn đã trình bày các nghiên cứu lý thuyết và thực nghiệm về cảm xúc tiếng Việt được biểu đạt qua tiếng nói. Các nghiên cứu này đã góp phần giải quyết các yêu cầu đặt ra của đề tài.
Kết quảđạt được
Về mặt lý thuyết: Luận văn đã tìm hiểu và trình bày tổng quan về tiếng nói và một số phương pháp tổng hợp tiếng nói. Đồng thời, luận văn cũng đã đưa ra định nghĩa về ngữ điệu cảm xúc trong tiếng nói, các tham số ảnh hướng đến ngữđiệu của tiếng nói.
Về mặt thực nghiệm: Tham gia xây dựng CSDL tiếng nói tiếng Việt có cảm xúc, phân loại các cách thể hiện cảm xúc, trích xuất các tham số để từ đó phân tích, đánh giá và so sánh các tham sốảnh hưởng đến ngữđiệu tiếng nói.
Những mặt hạn chế
Đây cũng chỉ là bước đầu của quá trình xây dựng một hệ thống tổng hợp tiếng nói có cảm xúc, vì thời gian nghiên cứu hạn hẹp. Chính vì vậy, phần thực nghiệm của mới chỉ dừng lại ở mức phân tích, so sánh một số tham số cơ bản của tiếng nói có cảm xúc trong bộ CSDL thu được. Phải mất khá nhiều thời gian thu thập và phân loại CSDL do CSDL tương đối lớn.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Từ những kết quả phân tích ban đầu và những mặt còn hạn chế, có thể đề xuất một số hướng phát triển của đề tài trong tương lai như sau:
o Xây dựng một bộ tổng hợp tiếng Việt hoàn chỉnh.
o Xây dựng một hệ thống nhận dạng cảm xúc với CSDL thu được.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
TÀI LIỆU THAM KHẢO Tài liệu tiếng việt
[1] Bộ Giáo dục và Đào tạo Tâm lý đại cương (Dùng cho các trường Đại học và Cao đẳng Sư phạm), Hà Nội (1995).
[2] Đinh Đồng Lưỡng, Trịnh Văn Loan, Phạm Thị Kim Ngoan, “Xây dựng cơ sở
dữ liệu cho tổng hợp tiếng Việt chất lượng tốt”, Bài báo trình bày tại Hội thảo Quốc gia lần thứ 12, Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông, Biên Hòa, 5-6 tháng 8, 2009
[3] Đoàn Thiện Thuật, “Ngữ âm tiếng Việt”, NXB Đại học Quốc Gia Hà Nội, (1999).
[4] Đỗ Tiến Thắng, “Ngữ điệu tiếng Việt sơ khảo”, NXB Đại học Quốc Gia Hà Nội.
[5] Viện Từ điển học và Bách khoa thư Việt Nam, “Viện khoa học xã hội Việt Nam- Viện từđiển học và bách khoa thư Việt Nam,” [Online].
Tài liệu tiếng nước ngoài
[6] D. Ververidis and C. Kotropoulos, “ A Review of Emotional Speech
Database”, in Proc. Of Panhellenic Conference on Informatics (PCI),
Thessaloniki, 2003
[7] D. Ververidis and C. Kotropoulos, “Emotional speech recognition: Resources, features, and methods, “Speech Communication, vol. 48, no. 9, pp. 1162-1181, 2006.
[8] Deepa P. Gopinat, Sheeba P.S, and Achuthsankar S. Nair, “Emotional
Analysis for Malayalam Text to Speech Synthesis Systems”, 4thInternational
Conference: Sciences of Electronic, Technologies of Information and Telecommunications, March 25-29, 2007.
[9] E. Navas, A. Castelruiz, I. Luengo, J. Sánschez and I Hernáez, “Designing and Recording an Audiovisual Database of Emotional Speech in Basque,” in Proc. Of the LREC, Lisbon, 2004.
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
[10] F. Burkhardt, A. Paeschke, M. Rolfes and W. Sendlmeier, “Emo-DB,” [Online]. Available: http://pascal.kgw.tu-berlin.de/emodb/. [Accessed 29 May 2013].
[11] Gregor O. Hofer, “Emotional Speech Synthesis”, Master of ScienceSchool of InformaticsUniversity of Edinburgh, 2004
[12] Iain R. Murray , Mike D. Edgington , Diane Campion and Justin Lynn, “
Rule-based emotion synthesis using concatenated speech” Department of
Applied Computing, The University, Dundee DD1 4HN. Formerly at Speech Technology Unit, BT Labs, Ipswich IP5 3RE.
[13] J.A. Louw, “A Short Guide to Pitch-marking in the Festival Speech Synthesis
System and Recommendation for Improvements”.
[14] Tran Do Dat, Eric Castelli, Jean-Francois Serignat, Trinh Van Loan, Le Xuan Hung, “Influence of F0 on VietNamese syllable perception”.
[15] Sami Lemetty, “Review of Speech Systhesis Technology”, (1999)
[16] Syed Abbas Ali, Sitwat Zehra, Mohsin Khan and Faisal Wahab, “Development and Analysis of Speech Emotion Corpus Using Prosodic Features for Cross
Linguistics”, International Journal of Scientific & Engineering Research
Volume 4, Issue 1, January-2013.
Một số Website
[17] Advanced analysis speech tool: Praat.
http://homepage.ntu.edu.tw/~karchung/Phonetics%20II%20page%20twenty
three.htm
[18] http://en.wikipedia.org/wiki/Speech_synthesis
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
PHỤ LỤC Phụ lục A
Phân loại thể hiện các cảm xúc khác nhau: Cảm xúc buồn (có 40 cách biểu lộ)
Các cách biểu lộ
cảm xúc buồn
Cảm nhận tương ứng
Buồn 1: giọng đều đều Buồn 2: kéo dài cuối câu Buồn 3: kéo dài đầu câu
Buồn 4: kéo dài đầu câu, lên giọng cuối câu Buồn 5: kéo dài từ thứ 2
Buồn 6: nhấn mạnh cuối câu Buồn 7: nhấn mạnh đầu câu
Buồn 8: nhấn mạnh đầu câu, lên giọng cuối câu Buồn 9: nhấn mạnh đầu và cuối câu
Buồn 10: nhấn mạnh giữa câu
Buồn 11: nhấn mạnh giữa câu, lên giọng cuối câu Buồn 12: nhấn mạnh từ gần cuối Buồn 13: nhấn mạnh từ thứ 2 Buồn 14: nhấn mạnh từ thứ 2, hơi lên giọng ở cuối câu Buồn 15: ngắt câu thành 2 đoạn Buồn 16: ngắt câu thành 2 đoạn, xuống giọng cuối câu Buồn 17: ngắt câu thành 2 đoạn, lên giọng đoạn cuối Buồn 18: ngắt câu thành 2 đoạn, lên giọng cuối câu
Buồn 19: ngắt câu thành 2 đoạn, lên giọng ở cuối mỗi đoạn Buồn 20: ngắt câu thành 2 đoạn, nhấn mạnh đầu mỗi đoạn Buồn 21: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 1
Buồn 22: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 1, lên giọng đoạn 2 Buồn 23: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 2
Buồn 24: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 1, lên giọng cuối câu Buồn 25: ngắt câu thành 2 đoạn, nhấn mạnh cuối câu
Buồn 26: ngắt câu thành 3 đoạn
Buồn 27: ngắt câu thành 3 đoạn, nhấn mạnh đoạn cuối Buồn 28: ngắt từ cuối câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Buồn 29: ngắt từđầu tiên
Buồn 30: ngắt từđầu tiên, lên giọng ở cuối câu Buồn 31: ngắt từđầu tiên, lên giọng ởđoạn 2 Buồn 32: ngắt từđầu tiên, nhấn mạnh từ gần cuối Buồn 33: lên giọng đầu câu Buồn 34: lên giọng cuối câu Buồn 35: lên giọng ở từ thứ 2 và từ cuối Buồn 36: lên giọng từ gần cuối câu Buồn 37: lên giọng từ thứ 2 Buồn 38: xuống giọng cuối câu Buồn 39: hơi lên giọng Buồn 40: nói rời rạc Cảm xúc tức (có 35 cách biểu lộ) Các cách biểu lộ cảm xúc tức giận Cảm nhận tương ứng Tức 1: ngắt thành 2 đoạn, cao giọng Tức 2: ngắt thành 2 đoạn, nhấn mạnh các từ, lên giọng cuối câu Tức 3: ngắt thành 2 đoạn, nhấn mạnh cuối câu Tức 4: ngắt thành 2 đoạn, nhấn mạnh cuối đoạn 1 và đoạn 2 Tức 5: ngắt thành 2 đoạn, nhấn mạnh cuối mỗi đoạn Tức 6: ngắt thành 2 đoạn, nhấn mạnh đầu đoạn 1 và đoạn 2 Tức 7: ngắt thành 2 đoạn, nhấn mạnh đầu đoạn 2 Tức 8: ngắt thành 2 đoạn, nhấn mạnh đầu mỗi đoạn Tức 9: ngắt thành 2 đoạn, nhấn mạnh đoạn 1 và cuối đoạn 2 Tức 10: ngắt thành 2 đoạn, nhấn mạnh đoạn 1, lên giọng đoạn 2 Tức 11: ngắt thành 2 đoạn, nhấn mạnh đoạn 2 Tức 12: ngắt thành 2 đoạn, nhấn mạnh tất cả các từ Tức 13: ngắt thành 3 đoạn, nhấn mạnh tất cả các từ Tức 14: nhấn mạnh tất cả các từ Tức 15: nhấn mạnh tất cả các từ, lên giọng từ cuối Tức 16: nhấn mạnh cuối câu Tức 17: nhấn mạnh đầu câu Tức 18: nhấn mạnh đầu và cuối câu Tức 19: nhấn mạnh giữa câu
Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Tức 21: nhấn mạnh nửa sau của câu
Tức 22: nhấn mạnh ở giữa câu, lên giọng ở cuối câu Tức 23: nhấn mạnh ởđầu và giữa câu Tức 24: nhấn mạnh ởđầu, lên giọng ở cuối câu Tức 25: nhấn mạnh từ gần cuối câu Tức 26: nhấn mạnh từ thứ 2 Tức 27: nhấn mạnh từ thứ 2 và từ cuối Tức 28: ngắt và nhấn mạnh từ cuối Tức 29: cao giọng
Tức 30: cao giọng, kéo dài từ cuối Tức 31: cao giọng, nhấn mạnh cuối câu