HUN LU YN MÔ HÌNH ÂM THANH 43

M C LC v

3.3.2 HUN LU YN MÔ HÌNH ÂM THANH 43

T o sao và khi nào thì chúng ta hu n luy n mô hình âm thanh:

Khi chúng ta mu n t o ra m t mô hình thanh cho ngôn ng m i c th đây là mô hình âm thanh cho các s t 0 đ n 9 trong Ti ng Vi t.

Ho c khi chúng ta c n mô hình âm thanh đ c tr ng cho m t ng d ng nào đó nh t

đi n và s t c n đ nh n di n là r t nh và không đáng k .

Khi chúng ta có r t nhi u d li u âm thanh đ c ghi t nhi u ngu n khác nhau:

M t gi ghi âm các l nh và các l nh đi u khi n cho m t ng i nói duy nh t. 5 gi ghi âm c a 200 ng i nói. 10 gi ghi âm nh n di n ch vi t c a m t ng i. 50 gi ghi âm 200 ng i nói cho vi c nh n di n ch vi t. B n c ng c n ph i có ki n th c v c u trúc âm

v c a ngôn ng và th i gian đ hu n luy n cho mô hình và t i u hóa toán t v âm thanh nh m giúp cho vi c nh n di n đ c chính xác h n.

Nh ng cách t t nh t đ có đ c m t c s d li u cho m t ngôn ng m i là ghi âm th công t ng đo n v i nh ng đo n v n có s n. Ghi âm gi ng c a b n, gia đình, đ ng nghi p.

đây chúng ta s s d ng m t m t b công c mã ngu n m có s n c a tr ng đ i h c Carnegie Mellon h tr t t trên môi tr ng Linux.

Chu n b môi tr ng và d li u ti n hành cho vi c xây d ng mô hình âm thanh. d dàng trong vi c hu n luy n, nhóm nghiên c u s d ng h đi u hành Ubuntu (Linux), t o m t th m c etc ch a các t p tin c n thi t cho vi c xây d ng mô hình, th m c wav ch a các t p tin t ghi âm b n thân, ng i thân, b n bè, đ ng nghi p, đây nhóm nghiên c u t p trung ghi âm gi ng c a b n thân và các sinh viên trong tr ng.

i u ki n là chúng ta đã cài đ t hai gói h tr cho vi c nh n di n gi ng nói là pocketsphins và sphinxbase

Bên trong th m c etc là các t p tin: TV.dic, TV.phone, TV.filler, TV_train.fileids, TV_train.transcription, sphinx_train.cfg

T p tin TV.dic là t p tin t đi n ti ng Vi t theo phiên âm do nhóm nghiên c u ch n. ây là lexicon cho đ c s , ch có 10 ch s t “0”, “1” đ n “9”. Do đó t đi n đ c s ti ng Vi t theo ki u đánh ch Telex c th nh sau:

0 KH OO NG 1 M OOJ T 2 H AI 3 B A 4 B OOS N 5 N AW M 6 S AUS 7 B AYR 8 T AS M 9 CH IS N

T p tin TV.filler là m t t p tin đóng vai trò là m t b l c nhi u: <S> SIL

<S>: kho ng l ng đ u câu <SIL>: kho ng l ng trong câu </S>: kho ng l ng cu i câu

T p tin TV.phone là t p tin ch a các âm v xu t hi n trong t p tinTV.dic và trong b l c nhi u TV.filler, có 20 âm v đ c s d ng cho 10 t t 0 đ n 9 là:

A AI AS AUS AW AYR B CH H IS KH M NG OO OOJ OOS S T TH

Các âm v này ph i duy nh t trong t p tin TV.phone và ch g m nh ng âm v mà chúng ta c n (xu t hi n trong TV.dic và TV.filler).

T p tin TV_train.transcription là t p tin ch a các câu mà chúng ta dùng đ h c. D i

đây là m t s câu trong 150 câu mà tôi dùng đ hu n luy n đ c s : <S> 1 2 3 4 5 </S> (12345) <S> 6 7 8 9 0 </S> (67890) <S> 0 2 4 6 8 </S> (02468) <S> 1 3 5 7 9 </S> (13579) <S> 1 1 1 1 1 </S> (11111) <S> 2 2 2 2 2 </S> (22222)

Thu âm 150 câu đ c s và l u các t p tin âm thanh .wav trong th m c wav. Chú ý: n m bên trong ngo c đ n là ch các t p tin âm thanh ghi âm, chúng ta không c n ghi ph n m r ng .wav mà ch c n ghi tên c a t p tin đó

T p tin TV _train.fileids

Là t p tin ch a t t c tên các t p tin âm thanh trong th m c wav th t tên t p tin âm7 thanh trong TV_train.fileids t ng ng v i th t câu đ c thu âm trong t p tin TV_train.transcription (s dòng trong TV_train.fileids ph i b ng s dòng trong TV_train.transcription). 12345 67890 02468 13579 11111 22222 T p tin sphinx_train.cfg

T p tin này đ c phát sinh t b công c dùng đ hu n luy n cho mô hình âm thanh có tên là SphinxTrain. có đ c t p tin này ta s d ng hai dòng l nh sau:

../SphinxTrain/scripts_pl/setup_SphinxTrain.pl -task TV ../pocketsphinx/scripts/setup_sphinx.pl -task TV

Trong t p tin này, chúng ta có th đi u ch nh s l ng senone trong nh n di n gi ng nói, s l ng senone m c đnh là 1000, v i s này, nhóm nghiên c u nh n th y t l nh n di n thành công là cao nh t và t l gi gi ng là th p nh t.

Sau khi đã chu n b đ y đ các t p tin, chúng ta b t đ u quá trình ghi âm: ./scripts_pl/make_feats -ctl etc/TV_train.fileids

./scripts_pl/RunAll.pl

Sau khi th c hi n xong các dòng l nh, chúng ta đã hoàn thành vi c hu n luy n mô hình âm thanh. Và có đ c th m c model_parameters ch a các th m c c a mô hình HMM.

XÂY D NG MÔ HÌNH NGÔN NG 46