HUN LU YN MÔ HÌNH ÂM THANH 43

Một phần của tài liệu Xây dựng hệ thống phần mềm điểm danh ứng dụng nhận diện giọng nói tiếng việt (Trang 53)

M C LC v 

3.3.2 HUN LU YN MÔ HÌNH ÂM THANH 43

T o sao và khi nào thì chúng ta hu n luy n mô hình âm thanh:

Khi chúng ta mu n t o ra m t mô hình thanh cho ngôn ng m i c th đây là mô hình âm thanh cho các s t 0 đ n 9 trong Ti ng Vi t.

Ho c khi chúng ta c n mô hình âm thanh đ c tr ng cho m t ng d ng nào đó nh t

đi n và s t c n đ nh n di n là r t nh và không đáng k .

Khi chúng ta có r t nhi u d li u âm thanh đ c ghi t nhi u ngu n khác nhau:

M t gi ghi âm các l nh và các l nh đi u khi n cho m t ng i nói duy nh t. 5 gi ghi âm c a 200 ng i nói. 10 gi ghi âm nh n di n ch vi t c a m t ng i. 50 gi ghi âm 200 ng i nói cho vi c nh n di n ch vi t. B n c ng c n ph i có ki n th c v c u trúc âm

v c a ngôn ng và th i gian đ hu n luy n cho mô hình và t i u hóa toán t v âm thanh nh m giúp cho vi c nh n di n đ c chính xác h n.

Nh ng cách t t nh t đ có đ c m t c s d li u cho m t ngôn ng m i là ghi âm th công t ng đo n v i nh ng đo n v n có s n. Ghi âm gi ng c a b n, gia đình, đ ng nghi p.

đây chúng ta s s d ng m t m t b công c mã ngu n m có s n c a tr ng đ i h c Carnegie Mellon h tr t t trên môi tr ng Linux.

Chu n b môi tr ng và d li u ti n hành cho vi c xây d ng mô hình âm thanh. d dàng trong vi c hu n luy n, nhóm nghiên c u s d ng h đi u hành Ubuntu (Linux), t o m t th m c etc ch a các t p tin c n thi t cho vi c xây d ng mô hình, th m c wav ch a các t p tin t ghi âm b n thân, ng i thân, b n bè, đ ng nghi p, đây nhóm nghiên c u t p trung ghi âm gi ng c a b n thân và các sinh viên trong tr ng.

i u ki n là chúng ta đã cài đ t hai gói h tr cho vi c nh n di n gi ng nói là pocketsphins và sphinxbase

Bên trong th m c etc là các t p tin: TV.dic, TV.phone, TV.filler, TV_train.fileids, TV_train.transcription, sphinx_train.cfg

T p tin TV.dic là t p tin t đi n ti ng Vi t theo phiên âm do nhóm nghiên c u ch n. ây là lexicon cho đ c s , ch có 10 ch s t “0”, “1” đ n “9”. Do đó t đi n đ c s ti ng Vi t theo ki u đánh ch Telex c th nh sau:

0 KH OO NG 1 M OOJ T 2 H AI 3 B A 4 B OOS N 5 N AW M 6 S AUS 7 B AYR 8 T AS M 9 CH IS N

T p tin TV.filler là m t t p tin đóng vai trò là m t b l c nhi u: <S> SIL

<S>: kho ng l ng đ u câu <SIL>: kho ng l ng trong câu </S>: kho ng l ng cu i câu

T p tin TV.phone là t p tin ch a các âm v xu t hi n trong t p tinTV.dic và trong b l c nhi u TV.filler, có 20 âm v đ c s d ng cho 10 t t 0 đ n 9 là:

A AI AS AUS AW AYR B CH H IS KH M NG OO OOJ OOS S T TH

Các âm v này ph i duy nh t trong t p tin TV.phone và ch g m nh ng âm v mà chúng ta c n (xu t hi n trong TV.dic và TV.filler).

T p tin TV_train.transcription là t p tin ch a các câu mà chúng ta dùng đ h c. D i

đây là m t s câu trong 150 câu mà tôi dùng đ hu n luy n đ c s : <S> 1 2 3 4 5 </S> (12345) <S> 6 7 8 9 0 </S> (67890) <S> 0 2 4 6 8 </S> (02468) <S> 1 3 5 7 9 </S> (13579) <S> 1 1 1 1 1 </S> (11111) <S> 2 2 2 2 2 </S> (22222)

Thu âm 150 câu đ c s và l u các t p tin âm thanh .wav trong th m c wav. Chú ý: n m bên trong ngo c đ n là ch các t p tin âm thanh ghi âm, chúng ta không c n ghi ph n m r ng .wav mà ch c n ghi tên c a t p tin đó

T p tin TV _train.fileids

Là t p tin ch a t t c tên các t p tin âm thanh trong th m c wav th t tên t p tin âm7 thanh trong TV_train.fileids t ng ng v i th t câu đ c thu âm trong t p tin TV_train.transcription (s dòng trong TV_train.fileids ph i b ng s dòng trong TV_train.transcription). 12345 67890 02468 13579 11111 22222 T p tin sphinx_train.cfg

T p tin này đ c phát sinh t b công c dùng đ hu n luy n cho mô hình âm thanh có tên là SphinxTrain. có đ c t p tin này ta s d ng hai dòng l nh sau:

../SphinxTrain/scripts_pl/setup_SphinxTrain.pl -task TV ../pocketsphinx/scripts/setup_sphinx.pl -task TV

Trong t p tin này, chúng ta có th đi u ch nh s l ng senone trong nh n di n gi ng nói, s l ng senone m c đnh là 1000, v i s này, nhóm nghiên c u nh n th y t l nh n di n thành công là cao nh t và t l gi gi ng là th p nh t.

Sau khi đã chu n b đ y đ các t p tin, chúng ta b t đ u quá trình ghi âm: ./scripts_pl/make_feats -ctl etc/TV_train.fileids

./scripts_pl/RunAll.pl

Sau khi th c hi n xong các dòng l nh, chúng ta đã hoàn thành vi c hu n luy n mô hình âm thanh. Và có đ c th m c model_parameters ch a các th m c c a mô hình HMM.

Một phần của tài liệu Xây dựng hệ thống phần mềm điểm danh ứng dụng nhận diện giọng nói tiếng việt (Trang 53)

Tải bản đầy đủ (PDF)

(76 trang)