L ỜI CẢM ƠN Error! Bookmark not defined.
2.3.1 Chuẩn bị dữ liệu
Dữ liệu cho nhận dạng đọc số tương đối đơn giản vì kích thước từ vựng nhỏ
với 10 chữ số. Bộ dữ liệu đọc số nhóm em chuẩn bị là 200 câu và do nhiều người
thu âm. Để học tiếng Việt thì chúng ta phải chuẩn bị các dữ liệu đầu vào như sau:
VT.dic
Là tập tin từ điển tiếng Việt theo phiên âm quốc tế (lexicon). Đây là lexicon
cho đọc số, chỉ có 10 chữ “không”, “một”, ..., “chín”.
Từ điển đọc số tiếng Việt phiên âm quốc tế:
BA B 0 AA B\u1ea2Y B 3 AY B\u1ed0N B 4 AO NG
CH\u00cdN T Y 4 IY N HAI HH 0 AA Y KH\u00d4NG K HH 0 AW NG M\u1ed8T M 5 AO K N\u0102M N 0 AH M S\u00c1U SH 4 AW T\u00c1M T 4 AA M VT.filler
Là một tập tin đóng vai trò là một bộ lọc nhiễu.
<S> SIL <SIL> SIL </S> SIL
Trong đó:
<S> : khoảng nặng đầu câu
<SIL> : khoản nặng trong câu
</S> : khoảng nặng cuối câu
VT.phone
Là tập tin chứa các phonemes xuất hiện trong từ điển đọc số (VT.dic) và trong bộ lọc nhiễu (VT.filler), có 20 phonemes được sử dụng cho 10 chữ từ 0 đến 9 là:
0 3
4 5 AA AH AO AW AY B HH IY K M N NG SH SIL T Y
Các phonemes này phải duy nhất trong tập tin VT.phone và chỉ gồm những
phonemes mà chúng ta cần (xuất hiện trong VT.dic và VT.filler).
VT_train.transcription
Là tập tin chứa các câu mà chúng ta dùng để học. Dưới đây là một số câu trong 200 câu dùng để huấn luyện đọc số:
………... <S> N\u0102M HAI B\u1ed0N B\u1ed0N </S>
<S> CH\u00cdN KH\u00d4NG M\u1ed8T </S> <S> BA M\u1ed8T KH\u00d4NG B\u1ea2Y </S> <S> M\u1ed8T B\u1ea2Y CH\u00cdN </S> <S> BA S\u00c1U N\u0102M </S>
<S> CH\u00cdN B\u1ea2Y HAI </S>
<S> M\u1ed8T KH\u00d4NG HAI B\u1ed0N </S> <S> N\u0102M KH\u00d4NG HAI </S>
<S> M\u1ed8T KH\u00d4NG HAI B\u1ed0N </S>
<S> KH\u00d4NG N\u0102M M\u1ed8T BA KH\u00d4NG M\u1ed8T B\u1ed0N BA </S>
<S> KH\u00d4NG N\u0102M M\u1ed8T BA KH\u00d4NG KH\u00d4NG B\u1ed0N S\u00c1U </S>
<S> KH\u00d4NG N\u0102M M\u1ed8T BA KH\u00d4NG M\u1ed8T B\u1ed0N HAI </S>
<S> CH\u00cdN KH\u00d4NG KH\u00d4NG M\u1ed8T </S> <S> HAI N\u0102M T\u00c1M CH\u00cdN </S>
<S> BA HAI </S>
………... Thu âm 800 câu đọc số và lưu các tập tin âm thanh .raw trong thư mục wav.
VT _train.fileids
Là tập tin chứa tất cả tên các tập tin âm thanh trong thư mục wav (không để đuôi .raw), thứ tự tên tập tin âm thanh trong VT_train.fileids tương ứng với thứ tự
câu được thu âm trong tập tin VT_train.transcription (số dòng trong
VT_train.fileids phải bằng số dòng trong VT_train.transcription). 001
002 003 ... 800 Chú ý kiểm tra:
Các tập tin .dic, .filler, .phones, and .transcription nội dung đều viết hoa.
Mỗi tập tin đều có một dòng trống ở cuối.
Phải có cùng số dòng trong tập tin .transcription và tập tin .fileids.
Chắc chắn rằng tập tin .phone không có dòng nào bị trùng lắp.