Đặc trưng phổ formant đặc trưng cho cơ quan phát âm

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm​ (Trang 25 - 26)

Cảm xúc người nói tồn tại trong cả thơng tin ngôn ngữ và phi ngôn ngữ. Tuy nhiên, các yếu tố phi ngôn ngữ gần với thơng tin về cảm xúc người nói hơn. Các yếu tố phi ngơn ngữ bao gồm các đặc tính vật lý của cơ quan phát âm người nói thể hiện bằng các đặc trưng phổ ảnh hưởng mạnh đến cảm xúc người nói. Tuy nhiên, các đặc trưng như cao độ hay tần số cơ bản F0 cũng ảnh hưởng nhiều tới cảm xúc người nói trong tiếng nói (Lavner et al., 2001; Chappell and Hansen, 1998). Hầu hết các phương pháp biến đổi cảm xúc người nói tập trung vào đặc trưng phổ. Một số phương pháp khác sử dụng các biến đổi thống kê đơn giản như các giá trị kỳ vọng và phương sai của F0 (Tomoki and Tokuda, 2007; Chappell and Hansen, 1998; Gillett and King, 2003; Helander and Nurminen, 2007). Mức phát âm (DoA) được mơ hình hóa bằng sự thay đổi tốc độ nói và các đặc tính phổ động cũng mang các thơng tin về cảm xúc nói (Beller et al., 2008). Sự quá trơn và dịch chuyển quá chậm trong cả đặc trưng phổ và

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn cao độ sinh ra bởi mơ hình thống kê HMM hay GMM có thể ảnh hưởng đến việc tạo ra các mức phát âm DOA phù hợp với các cảm xúc nói.

1.7. Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng

Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn (thường là với cảm xúc trung tính) và huấn luyện trước cho máy tính. Trong nhiều ứng dụng truyền thơng đa phương tiện hiện đại, việc biến đổi cảm xúc người nói trong tín hiệu tiếng nói có vai trị quan trọng.

Một số phương pháp biến đổi cảm xúc người nói điển hình được biết đến là phương pháp thay thế khung [18], phương pháp biến đổi tham số (vector) đặc trưng [25], và phương pháp dùng học máy [8]. Một số vector đặc trưng phổ biến nhất là đặc trưng phổ, năng lượng, …

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm​ (Trang 25 - 26)