Cơ sở dữ liệu tiếng nói tiếng Việt

5. Ý nghĩa khoa học và thực tiễn

3.2. Cơ sở dữ liệu tiếng nói tiếng Việt

Nghiên cứu về xử lý tiếng nói tiếng Việt bắt đầu từ khoảng 2 thập kỷ nay. Tuy nhiên, số lượng nghiên cứu là không nhiều. Một trong những lí do dẫn tới sự phát triển của nghiên cứu về xử lý tiếng nói tiếng Việt chưa thực sự mạnh mẽ là do chưa có nhiều những bộ cơ sở dữ liệu tiếng nói tiếng Việt tin cậy được chuẩn hóa.

Ở Việt Nam, thông thường mỗi nhóm nghiên cứu tự xây dựng các bộ cơ sở dữ liệu tiếng nói để thực nghiệm. Do giới hạn về thời gian, kiến thức, và kinh phí dẫn tới các bộ cơ sở dữ liệu này thường không đủ lớn cũng như chất lượng chưa cao. Ngoài ra, việc từng nhóm nghiên cứu sử dụng các bộ cơ sở dữ liệu riêng dẫn tới việc phối hợp nghiên cứu giữa các nhóm nghiên cứu là rất khó khăn, nhiều khi là không thể.

Trong phần này, chúng tôi liệt kê một số bộ cơ sở dữ liệu tiếng nói tiếng Việt được sử dụng phổ biến trong các nghiên cứu về xử lý tiếng nói tiếng Việt gần đây.

a. Cơ sở dữ liệu số điện thoại

Cơ sở dữ liệu tiếng nói này được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [12]. Định dạng âm thanh là PCM .WAV với tần số lấy mẫu là tần số lấy mẫu của hệ thống điện thoại công cộng PSTN 8KHz. Mã hóa 16 bit / mẫu. Kích cỡ bộ cơ sở dữ liệu khá nhỏ với 1541 từ mô tả các số điện thoại. Phần đầu bao gồm 170 người nói với 94 đàn ông và 76 phụ nữ đến từ các địa phương khác nhau trong khu vực miền Bắc. Phần hai gồm 208 người nói bao gồm 130 đàn ông và 78 phụ nữ đến từ các địa phương trong khu vực miền Nam. Cơ sở dữ liệu được gán nhãn ở mức âm vị.

b.Cơ sở dữ liệu tiếng nói phát thanh VOV

Bộ cơ sở dữ liệu này được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [12]. Bộ cơ sở dữ liệu gồm các câu chuyện, báo cáo, bản tin,… được Đài tiếng nói Việt Nam VOV phát thanh và được sưu tập từ 15 người nói giọng Hà Nội chuẩn. Âm thanh dạng RealAudio được sưu tập từ website của VOV và được chuyển đổi về dạng âm thanh PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu là 16 KHz.

Bộ cơ sở dữ liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết. Số lượng các âm tiết phân biệt là 4379 trong khi số lượng các âm tiết phân biệt không tính thanh điệu là 1646 bao phủ gần như toàn bộ các âm tiết tiếng Việt. Kích cỡ bộ cơ sở dữ liệu khoảng 2.5 GB.

Bộ cơ sở dữ liệu được lựa chọn cân bằng giữa mỗi người nói và mỗi phiên và được gán nhãn bằng tay chỉ ở mức âm tiết. Mặc dù đây là một bộ cơ

c. Cơ sở dữ liệu DEMEN567

Bộ cơ sở dữ liệu này cũng được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [12]. Kịch bản văn bản được trích ra từ câu chuyện Dế mèn phiêu lưu ký nổi tiếng. Người nói là một nữ phát thanh viên giọng Hà Nội chuẩn. Tiếng nói được ghi âm ở dạng PCM WAV, tần số lấy mẫu là 11025 Hz, mã hóa 16 bit / mẫu. Cơ sở dữ liệu bao gồm 567 câu với độ dài mỗi câu khoảng 15 âm tiết. Kích cỡ bộ cơ sở dữ liệu vào khoảng 70 MB và độ dài vào khoảng gần 1 giờ nói.

Bộ cơ sở dữ liệu được gán nhãn bằng tay ở cả mức âm tiết và âm vị bao gồm thông tin thanh điệu. Mặc dù kích cỡ khá nhỏ, đây có thể xem là một bộ cơ sở dữ liệu chất lượng cao do việc thiết kế kịch bản văn bản đảm bảo độ cân bằng âm cao cũng như việc gán nhãn ở mức âm vị là khá chính xác.

d. Cơ sở dữ liệu MICA VNSpeech

Đây là bộ cơ sở dữ liệu được xây dựng tại Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội. Bộ cơ sở dữ liệu đươc nói bởi 50 người nói bao gồm 25 nữ và 25 nam với độ tuổi từ 15 đến 45. Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, và miền Trung Việt nam. Mỗi người nói khoảng 60 phút. Tần số lấy mẫu là 16 KHz. Mức độ cân bằng về ngữ âm và âm vị được đảm bảo khá tốt [11].

Mặc dù bộ cơ sở dữ liệu này được xem là một cơ sở dữ liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả trong cơ sở dữ liệu được tạo ra bằng phương pháp gán nhãn tự động có sai số lớn đã giới hạn khả năng sử dụng cơ sở dữ liệu này trong các nghiên cứu về xử lý tiếng nói tiếng Việt.

e. Các cơ sở dữ liệu khác

Gần đây, một số nhóm nghiên cứu đã cố gắng thu thập các nguồn tài nguyên tiếng nói để xây dựng các bộ cơ sở dữ liệu tiếng nói tiếng Việt lớn, ví dụ như bộ cơ sở dữ liệu tin tức phát thanh tiếng Việt (VNBN) với khoảng 40 giờ và một bộ cơ sở dữ liệu đàm thoại với khoảng 11 giờ tiếng nói [19]. Tuy

nhiên những bộ cơ sở dữ liệu này hoặc chưa được gán nhãn hoặc chỉ gán nhãn ở mức âm vị. Do đó chúng chưa được sử dụng rộng rãi trong các nghiên cứu về xử lý tiếng nói tiếng Việt.

Cơ sở dữ liệu tiếng nói tiếng Việt

Làm trơn điểm ghép nối

Mô hình Gaussian hỗn hợp