Tổng hợp tiếng Việt có cảm xúc với các chất giọng khác nhau và có biểu

Một phần của tài liệu Tổng hợp tiếng việt có cảm xúc bằng học máy (Trang 31)

có biểu lộ cảm xúc.

Nghiên cứu chính là luận án tiến sĩ của thầy Lê Xuân Thành – Trường Đại học Bách Khoa Hà Nội. Trong nghiên cứu này, tác giả đã xây dựng bộ ngữ liệu về cảm xúc cho tiếng Việt mang tên BKEmo. BKEmo bao gồm 4 cảm xúc cơ bản: bình thường, buồn, vui và tức giận. Sau đó tác giả tiến hành phân tích đánh giá sự ảnh hưởng của các tham số đến khả năng biểu đạt cảm xúc trong tiếng Việt. Cuối cùng, hệ thống tích hợp cảm xúc vào tiếng Việt được thực hiện bằng mô hình Fujisaki – mô hình xây dựng dựa trên nền tảng tâm lý học và sinh học của quá trình tạo nên F0 – một trong hai tham số tác giả thực hiện đánh giá và phân tích. Công cụ Praat được sử dụng để biến đổi thời lượng phát âm, cường độ phát âm. Mô hình sẽ lấy các bộ tham số từ các câu có nội dung và cảm xúc tương ứng để tổng hợp thành câu đã được tích hợp cảm xúc.

Dựa trên phương pháp đó, tác giả thực hiện đánh giá bằng cả phương pháp chủ quan và khách quan. Trong 15 câu đánh giá với đầy đủ 4 cảm xúc và đầy đủ giọng nam và nữ. Kết quả đánh giá theo ma trận nhầm lẫn như sau:

BT Tức Vui Buồn

BT 511 24 14 201

Tức 144 335 257 14

Vui 166 196 356 32

Buồn 298 21 17 414

Bảng 1-13. Ma trận nhầm lẫn tổng hợp cả giọng nam và giọng nữ cho 15 câu Bên cạnh đánh giả chủ quan, tác giả sử dụng phương pháp đánh giá khách quan thông qua đo lường khoảng cách phổ giữa tín hiệu của câu nói tự nhiên có cảm xúc và tín hiệu của câu nói tổng hợp tương ứng với cảm xúc đó. Tác giả thực hiện đánh giá với 3 cảm xúc: buồn, vui và tức giận.

Một phần của tài liệu Tổng hợp tiếng việt có cảm xúc bằng học máy (Trang 31)

Tải bản đầy đủ (PDF)

(73 trang)