Cơ sở dữ liệu tiếng nói tiếng Việt

5. Ý nghĩa khoa học và thực tiễn

3.2. Cơ sở dữ liệu tiếng nói tiếng Việt

Trong phần này, chúng tôi giới thiệu một số bộ cơ sở dữ liệu tiếng nói tiếng Việt trung bình và lớn phổ biến.

Cơ sở dữ liệu tiếng nói phát thanh VOV

Bộ cơ sở dữ liệu này đƣợc xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [15]. Bộ cơ sở dữ liệu gồm các câu chuyện, báo cáo, bản tin,… đƣợc Đài tiếng nói Việt Nam VOV phát thanh và

đƣợc sƣu tập từ 15 ngƣời nói giọng Hà Nội chuẩn. Âm thanh dạng RealAudio đƣợc sƣu tập từ website của VOV và đƣợc chuyển đổi về dạng âm thanh PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu là 16 KHz.

Bộ cơ sở dữ liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết. Số lƣợng các âm tiết phân biệt là 4379 trong khi số lƣợng các âm tiết phân biệt không tính thanh điệu là 1646 bao phủ gần nhƣ toàn bộ các âm tiết tiếng Việt. Kích cỡ bộ cơ sở dữ liệu khoảng 2.5 GB.

Bộ cơ sở dữ liệu đƣợc lựa chọn cân bằng giữa mỗi ngƣời nói và mỗi phiên và đƣợc gán nhãn bằng tay chỉ ở mức âm tiết. Mặc dù đây là một bộ cơ sở dữ liệu lớn, việc sử dụng bộ cơ sở dữ liệu này cho nghiên cứu là khá khó khăn do chƣa có nhãn gán ở mức âm vị.

Cơ sở dữ liệu DEMEN567

Bộ cơ sở dữ liệu này cũng đƣợc xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [15]. Kịch bản văn bản đƣợc trích ra từ câu chuyện Dế mèn phiêu lƣu ký nổi tiếng. Ngƣời nói là một nữ phát thanh viên giọng Hà Nội chuẩn. Tiếng nói đƣợc ghi âm ở dạng PCM WAV, tần số lấy mẫu là 11025 Hz, mã hóa 16 bit/mẫu. Cơ sở dữ liệu bao gồm 567 câu với độ dài mỗi câu khoảng 15 âm tiết. Kích cỡ bộ cơ sở dữ liệu vào khoảng 70 MB và độ dài vào khoảng gần 1 giờ nói.

Bộ cơ sở dữ liệu đƣợc gán nhãn bằng tay ở cả mức âm tiết và âm vị bao gồm thông tin thanh điệu. Đây là bộ cơ sở dữ liệu kích cỡ trung bình với chất lƣợng cao do việc thiết kế kịch bản văn bản đảm bảo độ cân bằng âm cao cũng nhƣ việc gán nhãn ở mức âm vị là khá chính xác.

Cơ sở dữ liệu MICA VNSpeech

Đây là bộ cơ sở dữ liệu đƣợc xây dựng tại Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội. Bộ cơ sở dữ liệu đƣợc nói bởi 50 ngƣời

nói bao gồm 25 nữ và 25 nam với độ tuổi từ 15 đến 45. Ngƣời nói hầu hết có trình độ đại học với ba phƣơng ngữ chính: miền Nam, miền Bắc, và miền Trung Việt nam. Mỗi ngƣời nói khoảng 60 phút. Tần số lấy mẫu là 16 KHz. Mức độ cân bằng về ngữ âm và âm vị đƣợc đảm bảo khá tốt [16].

Mặc dù bộ cơ sở dữ liệu này đƣợc xem là một cơ sở dữ liệu tiếng nói lớn với chất lƣợng thu âm cao, nhãn mô tả trong cơ sở dữ liệu đƣợc tạo ra bằng phƣơng pháp gán nhãn tự động có sai số lớn đã giới hạn khả năng sử dụng cơ sở dữ liệu này trong các nghiên cứu về xử lý tiếng nói tiếng Việt.

Do có chất lƣợng cao và đƣợc gán nhãn ở mức âm vị, chúng tôi lựa chọn cơ sở dữ liệu DEMEN567 để thực nghiệm và đánh giá cho luận văn này.