Các bộ dữ liệu được công bố

Sự phát triển của các hệ thống tổng hợp tiếng nói đi cùng số lượng các công bố về bộ dữ liệu. Thông thường các bộ dữ liệu tiếng nói cảm xúc sẽ được chia thành hai nhóm. Nhóm đầu tiên là âm thanh thu từ các nghệ sĩ chuyên nghiệp như bộ Emo-DB [31]: Bộ dữ liệu của một trường Đại học ở Berlin, Đức với 7 cảm xúc

17 khác nhau. Nhóm thứ hai là bộ dữ liệu thu từ kịch bản thực trong cuộc sống hằng ngày, bộ dữ liệu này là tự phát. Ví dụ trong nhóm này ta có bộ dữ liệu CHATR [32].

1.5.1. Bộ dữ liệu cảm xúc nước ngoài

Bộ Emo-DB là bộ dữ liệu tiếng nói cảm xúc của người Đức. Nhóm tác giả đến từ trường Đại học Kỹ thuật, Berlin, Đức đã thu thập âm thanh từ 10 diễn viên với 5 diễn viên nam và 5 diễn viên nữ. Bộ dữ liệu bao gồm gần 800 câu âm thanh với 7 cảm xúc khác nhau: bình thường, buồn, vui vẻ, tức giận, lo lắng, sợ hãi và chán ghét. Để thực hiện thu âm, nhóm nghiên cứu thực hiện với ba chuyên gia ngôn ngữ để tư vấn và giám sát trong quá trình huấn luyện. Mỗi câu nói đều được thu âm với bối cảnh để người thực hiện có thể biểu đạt cảm xúc tốt nhất trong câu. Kịch bản bao gồm 10 câu khác nhau ( 5 câu ngắn và 5 câu dài). Các diễn viên được thu âm trong phòng thu với các thiết bị chuyên nghiệp. Các bản ghi được lấy mẫu với tần số 48kHz và sau đó được lấy mẫu xuống 16kHz.

CHATR là dự án được công bố vào năm 1996 bởi phòng thí nghiệm ATR ở Kyoto, Nhật Bản. Kho dữ liệu bao gồm 1537 câu tổng hợp từ 211 trang với rất nhiều chủ đề khác nhau. Sản phẩm được xây dựng với mục tiêu quan trọng nhất là tính đa ngôn ngữ với các ngôn ngữ mục tiêu là tiếng Đức, tiếng Hàn, tiếng Trung, tiếng Nhật và tiếng Anh. Tổng kích thước bộ dữ liệu là 1,65GB.

1.5.2. Bộ dữ liệu cảm xúc trong nước

Hiện tại, với vốn hiểu biết cá nhân, tác giả nhận thấy chỉ duy nhất BKEmo là bộ dữ liệu tiếng Việt cảm xúc. BKEmo được xây dựng tập trung vào 04 cảm xúc cơ bản: bình thường, buồn, vui và tức giận. Kịch bản thu âm được người phát triển xây dựng phù hợp, thể hiện rõ nét các cảm xúc bao gồm 55 câu cảm thán, được các nghệ sĩ nổi tiếng thực hiện với các câu có độ dài ngắn khác nhau. Bộ ngữ liệu được thu âm trong phòng thu chuyên nghiệp với hệ thống cách âm, lọc nhiễu tốt, theo 04 cảm xúc và thu trong 04 phiên, tổng cộng mỗi nghệ sĩ sẽ thu 220 câu đối với 01 cảm xúc. Mỗi câu được lưu thành file đuôi “.wav”, tín hiệu được lấy mẫu ở tần số 16kHz và bit-depth là 16 bit.

Sơ đồ kiến trúc Flowtron

Các thí nghiệm nhóm 1 và luồng lưu trữ