Chuẩn bị thư mục

Một phần của tài liệu xây dựng hệ thống nhận dạng tiếng việt nói trên nền bộ công cụ kaldi tích hợp mạng nơ ron sâu (Trang 80 - 82)

1. Tổng quan về mạng Nơ ron sâụ

3.4.2. Chuẩn bị thư mục

- Tạo thư mục để huấn luyện dữ liệu và mô hình $cd Kaldi-trunk/egs

$mkdir VS/s5

- Mục đích của bước này là tạo cấu trúc thư mục làm việc. Cấu trúc này được xây dựng bắt đầu từ S5.

- Copy kịch bản path.sh và các tập tin steps, utils, src từ thư mục WSJ sang thư mục VS/S5 (xem hình 3.8).

- Chỉnh sửa tập tin path.sh để đường dẫn tới thư mục KALDI-ROOT đúng (export KALDI_ROOT=../../..)

- Tạo thư mục /data và hai thư mục con là /train/test nhằm lưu các tập tin âm thanh tách riêng thành 2 phần để thực hiện huấn luyện và kiểm thử.

Câu lệnh thực hiện: $cd VS/s5

71 $cd data

$mkdir train $mkdir test

- Dữ liệu thu âm và văn bản chuẩn bị được đặt trong một thư mục chung /home/thanh/Resource, thực hiện tách thành 2 phần train và test.

+ Tập train lấy các tập tin âm thanh có định danh người nói từ 01 đến 27 + Tập test lấy các tập tin âm thanh có định danh người nói từ 28 đến 35 - Lệnh thực hiện lấy các tập tin âm thanh và văn bản từ /home/thanh/Resource tách thành tập train và test riêng biệt được đặt trong thư mục VS/s5/data:

local/data_split.sh --every_n $EVERY_N $DATA_ROOT

- Cùng với việc chia dữ liệu âm thanh thành 2 tập, dòng lệnh trên tạo thư mục làm việc lang_prep chứa các thư mục con: local, train, test_build0 và test_build2.

- Trong đó thư mục /local gồm 2 thư mục con local/trainlocal/test, hai thư mục này là giống nhau về thông tin dữ liệu, chỉ khác nhau ở chỗ một dành cho thông tin người nói trong tập huấn luyện, một dành cho thông tin người nói trong tập kiểm thử. Chúng đều chứa các tập tin: spk2utt, trans.txt, utt2spk, wav.scp

1. spk2utt: spk2utt là một tập tin chứa ánh xạ từ người nói tới lời nói tương

ứng.

Ví dụ: 01 01-ds0000

2. spk2utt: chứa các ánh xạ của mỗi một lời nói tương ứng với người nóị Tập tin utt2spk có dạng: utt_id spk

utt_id = utterance ID spk = speaker ID Ví dụ:

01-ds0001 01 (ID của người nói là 01, ID của lời nói là 01-ds0001) 02-kd0001 02

03-ox0002 03

3. trans.txt: chứa nội dung lời nói ghi âm Ví dụ:

72

01-ds0000 SỞ HỮU CỦA CẢI KHỔNG LỒ BẢO NGHĨ MÌNH SẼ BÙ ĐẮP ĐƯỢC NHỮNG THIỆT THÒI CHO VŨ VÀ MANG ĐẾN CHO HẢI NHỮNG NGÀY HẠNH PHÚC MĨ MÃN

4. wav.scp: định dạng của tập tin này là: <ID file âm thanh> <đường dẫn đến file âm thanh tương ứng>

01-ds0000 /home/thanh/kaldi-trunk/egs/VS/s5/data/train/01-ds0000.wav 01-ds0001 /home/thanh/kaldi-trunk/egs/VS/s5/data/train/01-ds0001.wav - Thư mục /test_build0/test_build2 trong đó

+ /test_build0 chứa mô hình ngôn ngữ bigram cho tập huấn luyện, được ước lượng sử dụng bộ công cụ SRILM được cài đặt cùng bộ công cụ Kaldị

+ /test_build2 chứa mô hình ngôn ngữ zerogram cho tập kiểm thử, được ước lượng sử dụng bộ công cụ SRILM.

Một phần của tài liệu xây dựng hệ thống nhận dạng tiếng việt nói trên nền bộ công cụ kaldi tích hợp mạng nơ ron sâu (Trang 80 - 82)