Thu âm tiếng nói

Một phần của tài liệu xây dựng hệ thống nhận dạng tiếng việt nói trên nền bộ công cụ kaldi tích hợp mạng nơ ron sâu (Trang 65 - 66)

1. Tổng quan về mạng Nơ ron sâụ

3.2.1. Thu âm tiếng nói

Bước này tiếng hành thu âm các giọng nói và lưu trữ dưới dạng tập tin wav. Cơ sở dữ liệu thu âm bởi 35 người (16 nam và 19 nữ) có độ tuổi từ 17 – 29 tuổi, giọng nói miền Bắc gồm: giọng Hà Nội, Hà Tây, Hưng Yên, Hải Dương.

Phần mềm hỗ trợ việc ghi âm, được viết bằng ngôn ngữ Tcl/Tk. Do đặc điểm của ngôn ngữ Tcl/Tk nên phần mềm có khả năng chạy trên mọi nền tảng (Windows, Unix, Macintosh).

Chức năng phần mềm: Đọc các file text từ thư mục text. Chọn file text một cách ngẫu nhiên và hiện thị trên màn hình. Trước tiên người ghi âm chọn mã người ghi âm nếu chưa có thì nhập mã người ghi âm vàọ Sau đó chọn next để hiển thị tiếp câu cần ghi âm. Giao diện phần mềm được thể hiện trong hình 3.2.

56

Dữ liệu được ghi về các chủ đề gồm: đời sống, kinh doanh, khoa học, ô tô-xe máy, pháp luật. Tiếng nói được ghi âm ở dạng đọc, được thu trong môi trường phòng làm việc bình thường, thu âm ở tần số lấy mẫu 16kHz, 16 bits cho một mẫu, ở chế độ monọ Dữ liệu được ghi vào file Wav. Kết quả đã tạo được cơ sở dữ liệu tiếng nói phục vụ cho quá trình nhận dạng tiếng nóị Tên của tập tin âm thanh có dạng xx.wav. Trong đó:

+ 2 ký tự đầu là mã của người nói

+ 6 ký tự tiếp theo là tên của file text tương ứng với file âm thanh đó. Ví dụ: 01-kd0000.wav

02-ds0011.wav

Thông tin chi tiết về dữ liệu được mô tả ở bảng 3.1. Bảng 3.1: Cơ sở dữ liệu tiếng Việt nói

Tập dữ liệu Giới tính người nói Bản ghi âm (giờ) Tổng số câu

Nam Nữ

Huấn luyện 12 15 6 3.375

Kiểm thử 4 4 2 1.000

Tổng 16 19 8 4.375

Một phần của tài liệu xây dựng hệ thống nhận dạng tiếng việt nói trên nền bộ công cụ kaldi tích hợp mạng nơ ron sâu (Trang 65 - 66)