Trung bình F0 vàn ăng lượng của cảm xúc vui với gi- 123docz.net

Mã câu Nội dung câu

05 Đừng làm thế nữa 10 Sắp đến tết rùi 13 Thôi vui lên đi ông

16 Hạnh phúc phải tìm trong trông gai

22 Không biết thì dựa cột mà nghe hiểu chưa

27 Ôi! Chúa ơi!

32 Trời đất ơi! Thuốc gì mà hay quá trừng

43 Mới về à?

45 Đến sớm vậy

49 Mẹơi, con khát nươc quá! 52 Sao nhiều thếạ?

53 Sao lại không được gì?

Bảng 4.21: Mã câu và nội dung câu

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Bảng 4.22: Trung bình F0 của một số cách biểu lộ cảm xúc vui giọng nữ

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Bảng 4.23: Trung bình năng lượng của một số cách biểu lộ cảm xúc vui giọng nữ

 So sánh giá trị trung bình F0, năng lượng của cảm xúc vui và cảm xúc trung tính giọng nữ

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Với những phân tích trên đối với cảm xúc vui cho cả giọng nam và nữ, cũng có thể thấy được sự chênh lệch giữa các tham số trong các hình thức biệu lộ cảm xúc khác nhau. Đối với cảm xúc vui và cảm xúc trung tính, có sự chênh lệch rõ ràng về giá trị trung bình của F0 và năng lượng.

Thực nghiệm trên chỉ là những nghiên cứu ban đầu cho việc phân loại trên phương diện tín hiệu cho các cảm xúc khác nhau (trung tính, buồn, tức giận, vui) trong tiếng Việt. Trong các phân tích thống kê các tham số trên đây, có thể thấy rằng cảm xúc độc lập với giới tính, quy luật biến thiên của các tham số khác nhau cho cảm nhận cảm xúc khác nhau. Kết quả trên cho thấy sự chênh lệch về giá trị trung bình của F0 và năng lượng trong các cách biệu lộ cảm xúc khác nhau của cùng một loại cảm xúc, và của các cảm xúc với cảm xúc trung tính. Nhìn chung, để tạo cảm xúc tức giận, vui tốc độ nói thường phải nhanh, năng lượng, tần số cơ bản thường cao. Để có được cảm xúc buồn và trung tính tốc độ nói thường chậm lại, giá trị năng lượng và tần số cơ bản thường là thấp.

Các phương pháp tổng hợp tiếng nói hiện nay cơ bản được chia thành hai hướng: tổng hợp tiếng nói trực tiếp và tổng hợp tiếng nói dựa trên mô hình. Với dữ liệu đã phân tích nên áp dụng với phương pháp tổng hợp dựa trên các đơn vị âm đã được ghi âm trực tiếp từ tiếng nói, trong đó mỗi âm tiết tổng hợp được ghép bởi hai đơn vị âm mà chúng tôi đã đặt tên là đơn vị âm đầu và đơn vị âm cuối. Đây là phương pháp cho chất lượng tiếng nói tổng hợp khá tự nhiên. Tổng hợp tiếng nói

Bảng 4.24: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

bằng phương pháp ghép nối từ các đơn vị âm không đồng nhất là vấn đề đã được thực hiện từ rất sớm. Song cho đến nay những tồn tại của vấn đề này vẫn luôn mang tính thời sự và thu hút được sự quan tâm, đó là việc xử lý các tham số của tín hiệu tiếng nói tại điểm ghép nối. Bằng những nghiên cứu và đánh giá vềảnh hưởng của các tham số cơ bản đến chất lượng tiếng Việt tổng hợp bằng phương pháp ghép nối và đã chỉ ra một số tham số cơ bản có ảnh hưởng như: tần số cơ bản F0, năng lượng, phổ (hay các formant), ... Ở cả giá trị tham số hay độ biến thiên, đối với cảm xúc tức giận và vui cần phải tăng lên, giảm đi với cảm xúc buồn và trung tính.

Việc thực hiện tổng hợp tiếng Việt bằng phương pháp ghép nối được thực hiện theo sơđồ sau:

Hình 4.12: Lưu đồ thuật giải tổng hợp tiếng Việt bằng phương pháp ghép nối

- Để cân bằng biên độ có rất nhiều cách để thực hiện, tuy nhiên việc cân bằng phải đảm bảo đoạn tín hiệu tiếng nói sau khi được cân bằng sẽ có ít thay đổi nhất so với tín hiệu gốc ban đầu. Dựa trên cơ sở đó thường cân bằng biên độ của đơn vị âm đầu theo đơn vị âm cuối. Sở dĩ chọn đơn vị âm đầu vì đoạn tín hiệu âm đầu thường ngắn hơn so với đơn vị âm cuối, nên khi cân bằng chúng sẽ ít bị ảnh hưởng hơn.

Các bước thực hiện như sau:

Bước 1: Tìm giá trị biên độ lớn nhất của đơn vị âm đầu và đơn vị âm cuối.

Bắt đầu

Kết thúc

Đọc tín hiệu của 2 đơn vị

âm từ cơ sở dữ liệu

Xác định điểm ghép của đơn vị

âm đầu với đơn vị âm cuối

Xác định 2 đơn vị âm

để tổng hợp

Ghép đơn vị âm đầu và đơn vị

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Bước 2: Tính hệ số tương ứng bằng cách lấy giá trị lớn nhất của đơn vị âm cuối chia giá trị lớn nhất của đơn vị âm đầu.

Bước 3: Tính lại các giá trị mẫu của đơn vị âm đầu bằng cách nhân với hệ sốđã tính ở bước 2.

- Đối với tiếng Việt, khi thay đổi tần số F0 sẽ làm thay đổi thanh điệu, ngữđiệu và nhiều thông tin quan trọng khác trong tiếng nói tổng hợp. Chính vì vậy, việc cân bằng tham số F0 là rất quan quan trọng nhằm nâng cao chất lượng tiếng Việt tổng hợp. Nhiều giải pháp được đưa ra để cân bằng tần số cơ bản F0 tại vị trí ghép nối như một số các thuật giải “shift only”, “residual resampling”, “multiplex window processing”.

Phương pháp này được chúng tôi thực hiện bằng thuật giải PSOLA. Giải pháp và các bước thực hiện như sau:

Bước 1: Xác định tần số cơ bản đoạn nguyên âm của đơn vị âm đầu và đơn vị âm cuối.

Bước 2: Thay đổi tần số của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo tần số của đoạn nguyên âm bên đơn vị âm cuối bằng thuật giải PSOLA.

- Làm trơn phổ tại vị trí ghép nối được thực hiện nhằm cân bằng phổ của đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo phổ của phần nguyên âm bên đơn vị âm cuối bằng phương pháp LPC. Mục đích là tạo ra tín hiệu mới sẽ mang một phần thông tin của đoạn tín hiệu ban đầu, song thông tin về phổ sẽđược điều khiển để gần giống với phổ của đoạn tín hiệu thuộc nguyên âm của đơn vị âm cuối.

4.4 Kết luận chương

Cao độ giọng nói cũng thay đổi với những trạng thái biểu lộ cảm xúc khác nhau. Cao độ là yếu tố cơ bản tạo nên những hiện tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm và cả trọng âm. Vì vậy, với mỗi cách thể hiện luyến láy khác nhau cho ta một giá trị F0 đặc trưng cho cách biểu cảm của người nói để truyền tải được ý định nội dung cho người nghe.

Năng lượng thể hiện độ to nhỏ của âm thanh. Năng lượng càng lớn thì âm thanh có thể truyền đi được càng xa. Năng lượng là yếu tố chính tạo nên hiện tượng

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

trọng trong việc tạo lập ngữ điệu cho tiếng nói. Việc một âm tiết nào đó vừa mang tính trọng âm, vừa mang thuộc tính của ngữđiệu là một việc hoàn toàn bình thường trong Việt ngữ.

Đây chính là 2 tham số quan trọng để tạo nên ngữđiệu cho tiếng nói mà một số nghiên cứu với các ngôn ngữ khác cũng đã trích chọn và có những nhận định riêng. Đối với CSDL là tiếng nói tiếng Việt, việc đánh giá thống kê các tham số cho các hình thức biểu lộ cảm xúc khác nhau sẽ là cơ sở để xây dựng bộ tổng hợp tiếng Việt nói có cảm xúc.

Các đề xuất trên được sử dụng nhằm cân bằng các tham số tín hiệu tiếng nói tại vị trí ghép nối.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Luận văn đã trình bày các nghiên cứu lý thuyết và thực nghiệm về cảm xúc tiếng Việt được biểu đạt qua tiếng nói. Các nghiên cứu này đã góp phần giải quyết các yêu cầu đặt ra của đề tài.

Kết quảđạt được

Về mặt lý thuyết: Luận văn đã tìm hiểu và trình bày tổng quan về tiếng nói và một số phương pháp tổng hợp tiếng nói. Đồng thời, luận văn cũng đã đưa ra định nghĩa về ngữ điệu cảm xúc trong tiếng nói, các tham số ảnh hướng đến ngữđiệu của tiếng nói.

Về mặt thực nghiệm: Tham gia xây dựng CSDL tiếng nói tiếng Việt có cảm xúc, phân loại các cách thể hiện cảm xúc, trích xuất các tham số để từ đó phân tích, đánh giá và so sánh các tham sốảnh hưởng đến ngữđiệu tiếng nói.

Những mặt hạn chế

Đây cũng chỉ là bước đầu của quá trình xây dựng một hệ thống tổng hợp tiếng nói có cảm xúc, vì thời gian nghiên cứu hạn hẹp. Chính vì vậy, phần thực nghiệm của mới chỉ dừng lại ở mức phân tích, so sánh một số tham số cơ bản của tiếng nói có cảm xúc trong bộ CSDL thu được. Phải mất khá nhiều thời gian thu thập và phân loại CSDL do CSDL tương đối lớn.

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Từ những kết quả phân tích ban đầu và những mặt còn hạn chế, có thể đề xuất một số hướng phát triển của đề tài trong tương lai như sau:

o Xây dựng một bộ tổng hợp tiếng Việt hoàn chỉnh.

o Xây dựng một hệ thống nhận dạng cảm xúc với CSDL thu được.

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

TÀI LIỆU THAM KHẢO Tài liệu tiếng việt

[1] Bộ Giáo dục và Đào tạo Tâm lý đại cương (Dùng cho các trường Đại học và Cao đẳng Sư phạm), Hà Nội (1995).

[2] Đinh Đồng Lưỡng, Trịnh Văn Loan, Phạm Thị Kim Ngoan, “Xây dựng cơ sở

dữ liệu cho tổng hợp tiếng Việt chất lượng tốt”, Bài báo trình bày tại Hội thảo Quốc gia lần thứ 12, Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông, Biên Hòa, 5-6 tháng 8, 2009

[3] Đoàn Thiện Thuật, “Ngữ âm tiếng Việt”, NXB Đại học Quốc Gia Hà Nội, (1999).

[4] Đỗ Tiến Thắng, “Ngữ điệu tiếng Việt sơ khảo”, NXB Đại học Quốc Gia Hà Nội.

[5] Viện Từ điển học và Bách khoa thư Việt Nam, “Viện khoa học xã hội Việt Nam- Viện từđiển học và bách khoa thư Việt Nam,” [Online].

Tài liệu tiếng nước ngoài

[6] D. Ververidis and C. Kotropoulos, “ A Review of Emotional Speech

Database”, in Proc. Of Panhellenic Conference on Informatics (PCI),

Thessaloniki, 2003

[7] D. Ververidis and C. Kotropoulos, “Emotional speech recognition: Resources, features, and methods, “Speech Communication, vol. 48, no. 9, pp. 1162-1181, 2006.

[8] Deepa P. Gopinat, Sheeba P.S, and Achuthsankar S. Nair, “Emotional

Analysis for Malayalam Text to Speech Synthesis Systems”, 4thInternational

Conference: Sciences of Electronic, Technologies of Information and Telecommunications, March 25-29, 2007.

[9] E. Navas, A. Castelruiz, I. Luengo, J. Sánschez and I Hernáez, “Designing and Recording an Audiovisual Database of Emotional Speech in Basque,” in Proc. Of the LREC, Lisbon, 2004.

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

[10] F. Burkhardt, A. Paeschke, M. Rolfes and W. Sendlmeier, “Emo-DB,” [Online]. Available: http://pascal.kgw.tu-berlin.de/emodb/. [Accessed 29 May 2013].

[11] Gregor O. Hofer, “Emotional Speech Synthesis”, Master of ScienceSchool of InformaticsUniversity of Edinburgh, 2004

[12] Iain R. Murray , Mike D. Edgington , Diane Campion and Justin Lynn, “

Rule-based emotion synthesis using concatenated speech” Department of

Applied Computing, The University, Dundee DD1 4HN. Formerly at Speech Technology Unit, BT Labs, Ipswich IP5 3RE.

[13] J.A. Louw, “A Short Guide to Pitch-marking in the Festival Speech Synthesis

System and Recommendation for Improvements”.

[14] Tran Do Dat, Eric Castelli, Jean-Francois Serignat, Trinh Van Loan, Le Xuan Hung, “Influence of F0 on VietNamese syllable perception”.

[15] Sami Lemetty, “Review of Speech Systhesis Technology”, (1999)

[16] Syed Abbas Ali, Sitwat Zehra, Mohsin Khan and Faisal Wahab, “Development and Analysis of Speech Emotion Corpus Using Prosodic Features for Cross

Linguistics”, International Journal of Scientific & Engineering Research

Volume 4, Issue 1, January-2013.

Một số Website

[17] Advanced analysis speech tool: Praat.

http://homepage.ntu.edu.tw/~karchung/Phonetics%20II%20page%20twenty

three.htm

[18] http://en.wikipedia.org/wiki/Speech_synthesis

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

PHỤ LỤC Phụ lục A

Phân loại thể hiện các cảm xúc khác nhau: Cảm xúc buồn (có 40 cách biểu lộ)

Các cách biểu lộ

cảm xúc buồn

Cảm nhận tương ứng

Buồn 1: giọng đều đều Buồn 2: kéo dài cuối câu Buồn 3: kéo dài đầu câu

Buồn 4: kéo dài đầu câu, lên giọng cuối câu Buồn 5: kéo dài từ thứ 2

Buồn 6: nhấn mạnh cuối câu Buồn 7: nhấn mạnh đầu câu

Buồn 8: nhấn mạnh đầu câu, lên giọng cuối câu Buồn 9: nhấn mạnh đầu và cuối câu

Buồn 10: nhấn mạnh giữa câu

Buồn 11: nhấn mạnh giữa câu, lên giọng cuối câu Buồn 12: nhấn mạnh từ gần cuối Buồn 13: nhấn mạnh từ thứ 2 Buồn 14: nhấn mạnh từ thứ 2, hơi lên giọng ở cuối câu Buồn 15: ngắt câu thành 2 đoạn Buồn 16: ngắt câu thành 2 đoạn, xuống giọng cuối câu Buồn 17: ngắt câu thành 2 đoạn, lên giọng đoạn cuối Buồn 18: ngắt câu thành 2 đoạn, lên giọng cuối câu

Buồn 19: ngắt câu thành 2 đoạn, lên giọng ở cuối mỗi đoạn Buồn 20: ngắt câu thành 2 đoạn, nhấn mạnh đầu mỗi đoạn Buồn 21: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 1

Buồn 22: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 1, lên giọng đoạn 2 Buồn 23: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 2

Buồn 24: ngắt câu thành 2 đoạn, nhấn mạnh đoạn 1, lên giọng cuối câu Buồn 25: ngắt câu thành 2 đoạn, nhấn mạnh cuối câu

Buồn 26: ngắt câu thành 3 đoạn

Buồn 27: ngắt câu thành 3 đoạn, nhấn mạnh đoạn cuối Buồn 28: ngắt từ cuối câu

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Buồn 29: ngắt từđầu tiên

Buồn 30: ngắt từđầu tiên, lên giọng ở cuối câu Buồn 31: ngắt từđầu tiên, lên giọng ởđoạn 2 Buồn 32: ngắt từđầu tiên, nhấn mạnh từ gần cuối Buồn 33: lên giọng đầu câu Buồn 34: lên giọng cuối câu Buồn 35: lên giọng ở từ thứ 2 và từ cuối Buồn 36: lên giọng từ gần cuối câu Buồn 37: lên giọng từ thứ 2 Buồn 38: xuống giọng cuối câu Buồn 39: hơi lên giọng Buồn 40: nói rời rạc Cảm xúc tức (có 35 cách biểu lộ) Các cách biểu lộ cảm xúc tức giận Cảm nhận tương ứng Tức 1: ngắt thành 2 đoạn, cao giọng Tức 2: ngắt thành 2 đoạn, nhấn mạnh các từ, lên giọng cuối câu Tức 3: ngắt thành 2 đoạn, nhấn mạnh cuối câu Tức 4: ngắt thành 2 đoạn, nhấn mạnh cuối đoạn 1 và đoạn 2 Tức 5: ngắt thành 2 đoạn, nhấn mạnh cuối mỗi đoạn Tức 6: ngắt thành 2 đoạn, nhấn mạnh đầu đoạn 1 và đoạn 2 Tức 7: ngắt thành 2 đoạn, nhấn mạnh đầu đoạn 2 Tức 8: ngắt thành 2 đoạn, nhấn mạnh đầu mỗi đoạn Tức 9: ngắt thành 2 đoạn, nhấn mạnh đoạn 1 và cuối đoạn 2 Tức 10: ngắt thành 2 đoạn, nhấn mạnh đoạn 1, lên giọng đoạn 2 Tức 11: ngắt thành 2 đoạn, nhấn mạnh đoạn 2 Tức 12: ngắt thành 2 đoạn, nhấn mạnh tất cả các từ Tức 13: ngắt thành 3 đoạn, nhấn mạnh tất cả các từ Tức 14: nhấn mạnh tất cả các từ Tức 15: nhấn mạnh tất cả các từ, lên giọng từ cuối Tức 16: nhấn mạnh cuối câu Tức 17: nhấn mạnh đầu câu Tức 18: nhấn mạnh đầu và cuối câu Tức 19: nhấn mạnh giữa câu

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Tức 21: nhấn mạnh nửa sau của câu

Tức 22: nhấn mạnh ở giữa câu, lên giọng ở cuối câu Tức 23: nhấn mạnh ởđầu và giữa câu Tức 24: nhấn mạnh ởđầu, lên giọng ở cuối câu Tức 25: nhấn mạnh từ gần cuối câu Tức 26: nhấn mạnh từ thứ 2 Tức 27: nhấn mạnh từ thứ 2 và từ cuối Tức 28: ngắt và nhấn mạnh từ cuối Tức 29: cao giọng

Tức 30: cao giọng, kéo dài từ cuối Tức 31: cao giọng, nhấn mạnh cuối câu

Trung bình F0 vàn ăng lượng của cảm xúc vui với giọng nữ

Phương pháp mô phỏng bộ máy phát âm