Chuẩn bị dữ liệu

Một phần của tài liệu nhận dạng tiếng nói việt nam từ vựng lớn (Trang 39 - 43)

L ỜI CẢM ƠN Error! Bookmark not defined.

2.3.1Chuẩn bị dữ liệu

Dữ liệu cho nhận dạng đọc số tương đối đơn giản vì kích thước từ vựng nhỏ

với 10 chữ số. Bộ dữ liệu đọc số nhóm em chuẩn bị là 200 câu và do nhiều người

thu âm. Để học tiếng Việt thì chúng ta phải chuẩn bị các dữ liệu đầu vào như sau:

VT.dic

Là tập tin từ điển tiếng Việt theo phiên âm quốc tế (lexicon). Đây là lexicon

cho đọc số, chỉ có 10 chữ “không”, “một”, ..., “chín”.

Từ điển đọc số tiếng Việt phiên âm quốc tế:

BA B 0 AA B\u1ea2Y B 3 AY B\u1ed0N B 4 AO NG

CH\u00cdN T Y 4 IY N HAI HH 0 AA Y KH\u00d4NG K HH 0 AW NG M\u1ed8T M 5 AO K N\u0102M N 0 AH M S\u00c1U SH 4 AW T\u00c1M T 4 AA M VT.filler

Là một tập tin đóng vai trò là một bộ lọc nhiễu.

<S> SIL <SIL> SIL </S> SIL

Trong đó:

<S> : khoảng nặng đầu câu

<SIL> : khoản nặng trong câu

</S> : khoảng nặng cuối câu

VT.phone

Là tập tin chứa các phonemes xuất hiện trong từ điển đọc số (VT.dic) và trong bộ lọc nhiễu (VT.filler), có 20 phonemes được sử dụng cho 10 chữ từ 0 đến 9 là:

0 3

4 5 AA AH AO AW AY B HH IY K M N NG SH SIL T Y

Các phonemes này phải duy nhất trong tập tin VT.phone và chỉ gồm những

phonemes mà chúng ta cần (xuất hiện trong VT.dic và VT.filler).

VT_train.transcription

Là tập tin chứa các câu mà chúng ta dùng để học. Dưới đây là một số câu trong 200 câu dùng để huấn luyện đọc số:

………... <S> N\u0102M HAI B\u1ed0N B\u1ed0N </S>

<S> CH\u00cdN KH\u00d4NG M\u1ed8T </S> <S> BA M\u1ed8T KH\u00d4NG B\u1ea2Y </S> <S> M\u1ed8T B\u1ea2Y CH\u00cdN </S> <S> BA S\u00c1U N\u0102M </S>

<S> CH\u00cdN B\u1ea2Y HAI </S>

<S> M\u1ed8T KH\u00d4NG HAI B\u1ed0N </S> <S> N\u0102M KH\u00d4NG HAI </S>

<S> M\u1ed8T KH\u00d4NG HAI B\u1ed0N </S>

<S> KH\u00d4NG N\u0102M M\u1ed8T BA KH\u00d4NG M\u1ed8T B\u1ed0N BA </S>

<S> KH\u00d4NG N\u0102M M\u1ed8T BA KH\u00d4NG KH\u00d4NG B\u1ed0N S\u00c1U </S>

<S> KH\u00d4NG N\u0102M M\u1ed8T BA KH\u00d4NG M\u1ed8T B\u1ed0N HAI </S> (adsbygoogle = window.adsbygoogle || []).push({});

<S> CH\u00cdN KH\u00d4NG KH\u00d4NG M\u1ed8T </S> <S> HAI N\u0102M T\u00c1M CH\u00cdN </S>

<S> BA HAI </S>

………... Thu âm 800 câu đọc số và lưu các tập tin âm thanh .raw trong thư mục wav.

VT _train.fileids

Là tập tin chứa tất cả tên các tập tin âm thanh trong thư mục wav (không để đuôi .raw), thứ tự tên tập tin âm thanh trong VT_train.fileids tương ứng với thứ tự

câu được thu âm trong tập tin VT_train.transcription (số dòng trong

VT_train.fileids phải bằng số dòng trong VT_train.transcription). 001

002 003 ... 800 Chú ý kiểm tra:

 Các tập tin .dic, .filler, .phones, and .transcription nội dung đều viết hoa.

 Mỗi tập tin đều có một dòng trống ở cuối.

 Phải có cùng số dòng trong tập tin .transcription và tập tin .fileids.

 Chắc chắn rằng tập tin .phone không có dòng nào bị trùng lắp.

Một phần của tài liệu nhận dạng tiếng nói việt nam từ vựng lớn (Trang 39 - 43)