Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh Xây dựng hệ thống nhận dạng âm thanh
ỏn tt nghip LI CM N Em xin c cm n thy, Thc s Nguyn Cụng Phng, ngi ó tn tỡnh hng dn em sut quỏ trỡnh thc v lm ỏn tt nghip Xin c gi li cm n n thy Nguyn Quc Cng, anh Nguyn Quang Vinh, ton th cỏc thy cụ giỏo, cỏc anh ch, cỏc bn sinh viờn ti trung tõm MICA v tt c nhng ngi ó giỳp v to iu kin cho em hon thnh ỏn ny Nguyn Vit Hng KS CLC K48 - THCN ỏn tt nghip MC LC M U I Ni dung ỏn II Trung tõm nghiờn cu quc t MICA .5 CHNG I: TNG QUAN V NHN DNG TING NểI I Cỏc khỏi nim v c im õm hc ca ting núi II Cỏc hng tip cn vic t ng nhn dng ting núi 10 III Cỏc phng phỏp phõn tớch c trng ca tớn hiu ting núi .11 1.Mụ hỡnh LPC (Linear Predictive Coding model) .11 2.Phng phỏp MFCC (Mel-Frequency Ceptrum Coefficients) 17 IV Mt s khỏc 20 1.Vn xỏc nh im u v im cui ca tớn hiu (speech detection) 20 2.Lng t hoỏ Vector 20 CHNG II: CC THUT TON V Mễ HèNH NHN DNG TING NểI 24 Mụ hỡnh Markov n (HMM) 24 2.Cỏc thnh phn ca HMM 24 3.3 ca HMM .25 4.p dng vo bi toỏn nhn dng cỏc t riờng bit 25 5.Gii quyt ca HMM 26 6.So sỏnh mụ hỡnh HMM 31 7.Cỏc cu trỳc mụ hỡnh HMM v la chn mụ hỡnh cho bi toỏn 32 Mụ hỡnh s dng mng Neuron .33 1.Mt s khỏi nim c bn v mng Neuron 33 2.Kin trỳc mng Neuron .35 3.Nhng im mnh ca kin trỳc mng Neuron 37 4.Qui trỡnh hc cho mng tin MLP lp n: .38 CHNG III : THC HIN BI TON NHN DNG 40 I S dng mụ hỡnh HMM 40 1.Xõy dng thut toỏn trờn nn cụng c Matlab 40 2.Chy th v kim tra kt qu 42 II S dng mng Neuron 45 1.Xõy dng thut toỏn trờn cụng c Matlab 45 2.Cỏc kt qu thu c ng vi tng phng phỏp trớch c trng 47 III Nhn xột kt qu : 47 CHNG IV : CI T THUT TON NHN DNG TRấN VI X L DSP .49 I Gii thiu v DSP C6713 .49 II Mt s c im k thut ca DSP C6713 49 III B DSK 6713 .50 IV B Codec AIC23 51 V Code Compose Studio (CCS) .52 I Ci t thut toỏn nhn dng trờn DSP 6713 53 VI Thu tớn hiu õm trờn DSK 6713 53 VII Ci t thut toỏn trớch c trng MFCC v mng Neuron lờn chip DSP 53 KT LUN 54 TI LIU THAM KHO .55 Nguyn Vit Hng KS CLC THCN K48 ỏn tt nghip Nguyn Vit Hng KS CLC K48 - THCN ỏn tt nghip M U Ni dung ỏn Nm khuụn kh ca d ỏn VLSR Nhm hon thin mt h thng phõn tớch, tng hp, nhn dng v xõy dng giao din tng tỏc Ngi-Mỏy bng ngụn ng ting Vit, ti tt nghip ca em nhm mc ớch xõy dng m h thng nhn dng 10 t khoỏ õm iu khin thit b, mỏy múc Nhng cụng vic cn lm thc hin ti: Nghiờn cu thut toỏn nhn dng t khoỏ c lp: Tỡm hiu v nhn dng ting núi, c bit l nhn dng t khoỏ ri rc Trong ú cn tỡm hiu cỏc nghiờn cu v cỏc thut toỏn phõn tớch c trng õm (Tn s, cng , cỏc h s quan trng: MFCC, LPC) v cỏc mụ hỡnh nhn dng ph bin (Mụ hỡnh Markov n, mụ hỡnh Neuron ) Chy th, nhn xột kt qu tỡm mụ hỡnh v tham s ti u cho bi toỏn vi 10 t iu khin : Tt, Bt, Chy, Dng, Tin, Lựi, Trỏi, Phi, Trờn, Di Ci t thut toỏn trờn chip iu khin DSP (Texas Intrusments): Chun thut toỏn nhn dng v dng code C np vo chip DSP (vi x lý c dựng õy l TMS320C713) Vi ni dung nh trờn, ỏn c trỡnh by vi kt cu nh sau: Phm vi ng dng ca ti ny rt rng, bi toỏn nhn dng ting núi t ng cú th ng dng thit k h thng giao tip vi mỏy tớnh bng li núi, cỏc h thng iu khin t ng, iu khin robot, h tr ngi tn tt, quay s in thoi bng li núi, ca úng m t ng, Do hn ch v kin thc v thi gian cú hn, ỏn ny khú trỏnh nhng thiu sút Vỡ vy em rt mong nhn c s ch dn v gúp ý ca cỏc thy cụ giỏo ỏn c hon thin hn Nguyn Vit Hng KS CLC THCN K48 ỏn tt nghip Trung tõm nghiờn cu quc t MICA Trung tõm nghiờn cu quc t MICA c thnh lp vo nm 2001 nhm ỏp ng nhu cu phỏt trin Cụng ngh thụng tin, truyn thụng v a phng tin Vit Nam Cỏc lnh vc hin ang c nghiờn cu ti MICA : X lý cỏc tớn hiu phc (õm thanh, hỡnh nh) Phỏt trin cỏc ng dng a phng tin Xõy dng cỏc thit b o o v phõn tỏn Trung tõm MICA cú ba nhim v chớnh sau õy: Tin hnh cỏc hot ng nghiờn cu cht lng cao o to cỏn b Vit Nam Tr thnh i tỏc c lc ca cỏc ngnh cụng nghip da vo cỏc chuyờn gia t ca nhúm Cỏc nhúm nghiờn cu ca MICA Nhúm SIA: nghiờn cu cỏc h thng o lng tiờn tin Nhúm TIM: nghiờn cu v x lớ thụng tin a phng tin Nhúm API: nghiờn cu v giao thc cụng nghip v ng dng Nhúm t MICA: t cho cỏc nh u t nc ngoi cú ý nh u t sn xut ti Vit Nam Nhúm SIA Nghiờn cu v cỏc h thng o lng tiờn tin, vi cỏc hng nghiờn cu: H thng o lng nõng cao Dng c o o X lớ nhỳng X lớ phõn tỏn Hng nghiờn cu x lớ nhỳng trung vo vic x lớ tớn hiu nõng cao trờn cỏc h thng chuyờn bit vi chc nng thi gian thc nh b x lớ DSP hay vi iu khin ng thi nghiờn cu v trin khai cỏc kin trỳc nhỳng v t ng húa Nguyn Vit Hng KS CLC K48 - THCN ỏn tt nghip CHNG I: TNG QUAN V NHN DNG TING NểI Nhng nghiờn cu u tiờn v nhn dng ting núi ó xut hin t nhng nm 1950, vi h thng nhn dng cỏc ch s riờng bit cho ngi núi ca Davis, Bidulph, v Balashek ti phũng thớ nghim Bell V n nhng nm 1980 thỡ cỏc h thng nhn dng ting núi ó c hon thin vi nhng thut toỏn hin i Nhng h thng vi t vng ln, chớnh xỏc cao, nhn dng ting núi liờn tc, nhn dng cõu, cng ó c xõy dng thnh cụng V n ngy nay, ngy cng nhiu cỏc quc gia thnh cụng vic nghiờn cu cỏc h thng t ng nhn dng ting núi (ASR Automatique Speech Recognition) Vit Nam, mt nhng trung tõm i u vic nghiờn cu nhn dng ting núi, l trung tõm MICA, H Bỏch Khoa H Ni, vi nhiu ti ln v phõn tớch c trng v nhn dng ting Vit, v cng ó cú nhiu kt qu thnh cụng Nguyn Vit Hng KS CLC THCN K48 ỏn tt nghip Nguyn Vit Hng KS CLC K48 - THCN ỏn tt nghip Hỡnh 1Mụ hỡnh tng quỏt ca mt h nhn dng ting núi Cỏc khỏi nim v c im õm hc ca ting núi Quỏ trỡnh to ting núi ngi Mi ngi bỡnh thng u cú mt h thng phỏt õm thanh, hay ting núi Khụng khớ c a vo phi thụng qua c ch hớt th thụng thng, sau ú c y t phi qua khớ qun v lm rung cỏc dõy qun Cỏc dũng khớ c ngt thnh cỏc dao ng tun hon i qua khoang hng, khoang ming, v c khoang mi Tu thuc vo v trớ khỏc ca cỏc b phn phỏt õm (hm, li, mụi, ming ) m cỏc õm khỏc c phỏt Hỡnh II-2: Cu to ca h thng phỏt õm ngi Nguyn Vit Hng KS CLC THCN K48 ỏn tt nghip Biu din ting núi thi gian v tn s Hỡnh II- 3: th theo thi gian tớn hiu ban u ca cõu "It's time" Tớn hiu ting núi cú th coi l bin i chm theo thi gian, ta phõn tớch nhng khong thi gian ngn (t n 100ms), cỏc c im ca nú khỏ n nh Tuy nhiờn vi nhng khong thi gian ln hn (trờn 1/5s) cỏc c im ca tớn hiu cú s thay i phn ỏnh s khỏc ca cỏc t c núi Cỏc s kin chớnh mt t c phỏt cú th c phõn loi (dỏn nhón) theo mt cỏch n gin l: Yờn lng (S silence): khụng cú õm no c phỏt Khụng õm (U unvoice): Khi dõy qun khụng rung m (V voice): dõy qun rung v to cỏc tớn hiu õm gi tun hon (ting núi) Mt cỏch biu din khỏc ca tớn hiu õm l thụng qua ph tn s Nguyn Vit Hng KS CLC K48 - THCN ỏn tt nghip Hỡnh II-3: Biu biu din ph tn s theo thi gian Ngoi cng cú th biu din cỏc c tớnh ca õm thụng qua cỏc tham s ca ph tn da trờn mt mụ hỡnh to ting núi Vớ d nh cỏc formant, Cỏc hng tip cn vic t ng nhn dng ting núi Mt cỏch tng quan, cú hng tip cn mt h thng nhn dng ting núi : Phng phỏp: Ng õm-m hc (Acoustic-Phonetic) Phng phỏp: Nhn dng mu (Pattern-recognition) S dng: Trớ tu nhõn to (Artifical Intelligence) Phng phỏp ng õm - õm hc da trờn nhng lý thuyt v õm hc v ng õm cho rng cú hu hn cỏc n v õm hc riờng bit mt ngụn ng v vy cú th c c trng bi mt cỏc thuc tớnh biu hin tớn hiu ting núi hoc biu din ph ca nú Bc u tiờn ca phng phỏp ny l phõn on tớn hiu ting núi thnh cỏc vựng cú c tớnh õm hc c trng cho mt n v ng õm v gỏn cho mi vựng mt nhón ng õm Bc th l xỏc nh mt t cú ngha t cỏc chui nhón ng õm ú Mc dự vy, phng phỏp ny gp phi khỏ nhiu khú khn trin khai thc t nh: S ũi hi mt kin thc khỏ ln v cỏc c dim õm hc ca cỏc n v ng õm S la chn cỏc c trng c thc hin mt cỏch khụng chc chn Khụng cú mt thut toỏn hay th tc no mnh thc hin dỏn nhón cỏc tớn hiu hun luyn mnh cho nhiu khu vc khỏc v c chp nhn bi ụng o cỏc nh chuyờn gia v ngụn ng hc Phng phỏp nhn dng mu s dng trc tip cỏc mu thnh phn ca ting núi m khụng quan tõm nhiu n cỏc c tớnh v mt ng õm Trong hu ht cỏc thut toỏn nhn dng mu, cú bc chớnh l hun luyn v nhn dng Cỏc kin thc ca h c xõy dng qua th tc hun luyn H ghi nhn cỏc c tớnh ca cỏc tớn hiu ting núi c hc thụng qua cỏc tham s c trng Tớn hiu cn c nhn dng s c tớnh toỏn a kt qu cú xỏc sut gn nht Hin nay, phng phỏp nhn dng mu ó tr nờn ph bin cỏc nghiờn cu v nhn dng ting núi, da trờn cỏc c im: La chn n gin, phng phỏp d hiu Cỏc thut toỏn v quy lut phng phỏp, cng nh cỏc c tớnh i vi cỏc b t vng v cỏc ngi dựng khỏc l bt bin v rt mnh Nguyn Vit Hng KS CLC THCN K48 10 ỏn tt nghip 1.2 Quỏ trỡnh kim tra : Hỡnh 16 Quỏ trỡnh kim tra HMM Vi phng phỏp MFCC: tớn hiu c chia thnh cỏc frame cú di N = 512 mu vi chng lp M = 100 Vi phng phỏp LPC: Cỏc frame cú kớch thc N = 400; M = 100 Cỏc hm chớnh: codebook_lpc.m v codebook_mfcc.m : Xõy dng code book cho tt c cỏc vector c trng ca tớn hiu c trớch bng phng phỏp LPC v MFCC tng ng Trong ú cú s dng cỏc hm l matrix_lpc.m v matrix_mfcc.m to cỏc ma trn vector c trng cho tng mu tớn hiu V hm vqsplit.m tin hnh lng t hoỏ vector mk_lpc_train_all.m v mk_mfcc_train_all.m : Hun luyn mụ hỡnh HMM theo cỏc d liu ó c lng t hoỏ bng codebook ó tớnh c t bc trờn, v to 10 mụ hỡnh HMM riờng bit cho tng t khoỏ nhn dng Cỏc mụ hỡnh ny c lu li di dng file HMM_(t khoỏ).mat mk_test_lpc.m v mk_test_mfcc.m kim tra mu nhn dng vi th tc forward tớnh xỏc sut ca chui quan sỏt vi mụ hỡnh HMM cho trc iu kin viter cú Nguyn Vit Hng KS CLC K48 - THCN 41 ỏn tt nghip mc v tng ng vi vic hin kt qu ca chui trng thỏi tt nht ng vi chui quan sỏt Chy th v kim tra kt qu Cỏc tham s c thay i v chy th vi b d liu gm 20 ngi: 13 nam v n Cỏc d liu c thu õm bng micro v mỏy tớnh cỏ nhõn vi mc nhiu khỏ cao Mi ngi cú mu: mu cho vo b hun luyn, mu cho vo b kim tra Cỏc vector c trng c trớch t MFCC gm 13 mfcc v 12 delta Cỏc vector c trng c trớch t LPC cú kớch thc tu theo bc LPC Cụng vic cn lm l chy th kim tra tỡm rat ham s ti u cho mụ hỡnh Cỏc kt qu thu c ng vi cỏc tham s: 85 % % nhận dạng 80 75 70 65 Kích th ớc codebook 60 32 64 128 Hỡnh 17 Kt qu theo kớch thc codebook Chn kớch thc codebook l 64 2.1 Trớch c trng theo phng phỏp LPC % 80.5 % nhận dạng 80 79.5 79 78.5 78 77.5 Số trạng thái HMM 77 Hỡnh 18 Kt qu theo s trng thỏi HMM Nguyn Vit Hng KS CLC THCN K48 42 ỏn tt nghip 82 % % nhận dạng 80 78 76 74 72 70 Số bậc LPC 68 10 11 12 Hỡnh 19 Kt qu theo s bc LPC Nh vy kt qu ti u nhn c l s dng LPC bc trớch c trng v hun luyn bng mụ hỡnh HMM trng thỏi Kt qu nhn dng t 80% 2.2 Trớch c trng theo phng phỏp MFCC 77 76 75 74 73 72 71 70 69 % % nhận dạng Số trạng thái HMM Hỡnh 20 Kt qu theo s trng thỏi HMM Kt qu nhn dng t 76% 2.3 Nhn xột kt qu Kt qu tt nht t c vi phng phỏp LPC bc 8, mụ hỡnh HMM trng thỏi v kớch thc codebook 64 Vi kh nng nhn dng trung bỡnh l 80% Cú th núi õy l mt kt qu cha tt bi bờn cnh mt s t ó nhn dng khỏ tt (80Nguyn Vit Hng KS CLC K48 - THCN 43 ỏn tt nghip 90%) thỡ nhng t khỏc mụ hỡnh li cho kt qu khụng cao Hay núi cỏch khỏc l kh nng nhn dng cỏc t khụng ng u Cú cỏc nhúm t hay b nhn dng nhm vi : {dng, di}; {trỏi, chy}; (tin trờn); (tt, phi) Nguyờn nhõn : o Cht lng ca cỏc mu d liu khụng cao ( nhiu ln, v thu t cỏc mụi trng nhiu khỏc nhau) o Cỏc tham s chn la cha ti u o Mt s t cú cỏch phỏt õm gn ging Thc hin test ln nõng cao kt qu nhn dng Hỡnh 21 Test ln nõng cao kt qu Kt qu thu c: Nguyn Vit Hng KS CLC THCN K48 44 ỏn tt nghip Vi phng phỏp MFCC, t l nhn dng c tng lờn 80% S dng mng Neuron Xõy dng thut toỏn trờn cụng c Matlab Mng Neuron c xõy dng vi lp n v hai hm n tng ng l hm logsig v hm pureline Mng cú 10 u ng vi 10 t iu khin Cỏc tham s c la chn : + S bc LPC : + Cỏc h s MFCC : 13 Vic cn lm, la chn s nỳt n ti u cho mụ hỡnh mng Neuron Nguyn Vit Hng KS CLC K48 - THCN 45 ỏn tt nghip Hỡnh 22 Quỏ trỡnh tỡm tham s ti u cho mng Neuron Cỏc hm chớnh : Hm get_data.m gi cỏc hm : data_lpc (hoc data_mfcc) v hm matrix_lpc (hoc matrix_mfcc) thc hin trớch c trng ca tt c cỏc mu d liu b hc v xp thnh ma trn cỏc vector c trng ln lt tng ng vi cỏc t iu khin Hm nr_train_all.m : s a d liu vo v hun luyn cho mng Neuron Mng sau hun luyn s c lu li dng file mat Hm nr_test.m : S load mng Neuron t file mat ri ln lt a d liu qua mng Neuron ó c hun luyn kim tra Nguyn Vit Hng KS CLC THCN K48 46 ỏn tt nghip Cỏc kt qu thu c ng vi tng phng phỏp trớch c trng 2.1 Trớch c trng bng hng phỏp LPC : 77 76 75 74 73 72 71 70 69 % Sai số học Sai số kiểm tra Số nút ẩn 100 160 180 200 220 240 260 280 300 350 Hỡnh 23Mng Neuron vi c trng LPC Kt qu nhn dng t : 91% 2.2 Trớch c trng bng phng phỏp MFCC 77 76 75 74 73 72 71 70 69 % Sai số học Sai số kiểm tra Số nút ẩn 100 160 180 200 220 240 260 280 300 350 Hỡnh 24Mng Neuron vi c trng MFCC Kt qu nhn dng t : 94% Nhn xột kt qu : T nhng kt qu thu c cú th thy phng phỏp nhn dng bng mng Neuron cho nhng kt qu kh quan hn so vi s dng mụ hỡnh Markov n (Kt qu nhn dng 94% so vi 80 %) Nh vy, qua quỏ trỡnh th nghim cỏc mụ hỡnh cng nh cỏc phng phỏp trớch c trng Quyt nh cui cng c a l la chn mụ hỡnh Neuron vi 250 nỳt n, cỏc hm truyn l hm logsigmoid v hm purelin Cựng vi phng phỏp trớch c trng l MFCC 13 h s Nguyn Vit Hng KS CLC K48 - THCN 47 ỏn tt nghip Nguyn Vit Hng KS CLC THCN K48 48 ỏn tt nghip CHNG IV : CI T THUT TON NHN DNG TRấN VI X L DSP Gii thiu v DSP C6713 Vi x lý TMS320C6713 nm series chip DSP TMS320C67x l dũng chip DSP du phy ng (floating-point) da trờn nn TNS320C6000 C6713 da trờn kin trỳc very-longintruction-word (VLIW) c phỏt trin bi Texas Intrusment (TI), iu ny lm nú tr thnh mt s la chn hon ho cho cỏc ng dng a kờnh v a chc nng Mt s c im k thut ca DSP C6713 Hot ng trờn tn s 225MHz, C6713 cú th thc hin 1350 triu phộp toỏn du phy ng mt giõy (MFLOPS), 1800 triu cõu lnh trờn giõy (MIPS) C6713 s dng kin trỳc b nh cache cp: Cp1: B nh chng trỡnh (L1P) l b nh a ch trc tip 4K-Byte, v b nh d liu chiu 4K-Byte Cp2: l mt khụng gian b nh 256K-Byte c s dng chung gia b nh chng trỡnh v b nh d liu Trong ú 64K cú th cu hỡnh thnh memory hoc cache hoc l kt hp ca c 192K cũn li c nh v lm SRAM EDMA L2 Cache/RA M (Optional) 64Kb Max L2 RAM 192Kb L1P Cache 4Kb CPU L1D Cache 4Kb Internal Memory Hỡnh : Cu trỳc b nh ca DSP C6713 Bờn vi x lý C6713 cú hm bao gm tớnh toỏn logic (ALU) v nhõn, mt c ch bus a ch 32bit cho phộp ỏnh a ch 4G, v cỏc ghi generalperpose 32-bit C6713 cú mt b ngoi vi khỏ phong phỳ nh cng Serial Audio a kờnh (McASPs), cng Serial Buffered a kờnh (McBSPs), mch bus tớch hp, mụ dun Input/Output GeneralPurpose (GPIO), timer, Mụ un giao din ca hai kờnh McASP h tr mt di xung nhp ng h cho vic truyn v mt di cho vic nhn Mi kờnh cú chõn d liu ni tip cú th c phõn phi vi bt kỡ Nguyn Vit Hng KS CLC K48 - THCN 49 ỏn tt nghip di xung nhp ng h no trờn Cng ni tip h tr phõn chia thi gian a thnh phn (time-division multiplexing) trờn mi chõn t n 32 time slot Nú cú di thụng rng h tr c 16 chõn d liu ni tip truyn mt tớn hiu 192kHz stereo Tớn hiu cú th c truyn v nhn trờn cỏc chõn ni tip v c nh dng mt cỏch da dng da trờn nh dng õm ca Philips Inter-IC Thờm vo ú, b truyn nhn ca McASP cú th c lp trỡnh a d liu c mó hoỏ theo cỏc chun S/PDIF, IEC60958, AES-3, CP-430, vi b nh RAM cha cỏc d liu ca ngi dựng v trng thỏi ca kờnh McASP cng cung cp cỏc chc nng kim tra li v phc hi, nh: mch phỏt hin li xung ng h xỏc nhn xung master nm di tn s ó c lp trỡnh cng I2C trờn TMS320C6713 cho phộp DSP cú th d dng iu khin cỏc thit b ngoi vi v cú th giao tip vi chớp chớnh Thờm vo ú, cng McBSP cú th c s dng giao tip vi cỏc thit b ngoi vi s dng chun giao tip SPI (serial peripheral interface) B DSK 6713 B kit phỏt trin C6713 l mt b kit tng i r (395$) ca hóng Texas Instrument bao gm c phn cng v cỏc phn mm i kốm d s dng Cỏc c trng chớnh ca b kit phỏt trin ny l: Gm mt Vi x lớ TMS320C6713 DSP vi tn s hot ng lờn n 225Mhz v rt phự hp vi cỏc ng dng liờn qua n tớnh toỏn n du phy ng Mt b codec AIC23 phự hp vi cỏc ng dng v õm Gm phớm nhn v ốn LED d dng cho vic kim tra B nh flash v b nh SDRAM lờn ti 16Mb Hỡnh 25Bng mch DSK 6713 Nguyn Vit Hng KS CLC THCN K48 50 ỏn tt nghip Hỡnh 26 Cu trỳc b kit DSK 6713 i kốm vi b kit phỏt trin ny cũn cú phn mm Code Composer Studio h tr cho vic vit v g ri cỏc chng trỡnh hay thut toỏn tớnh toỏn B Codec AIC23 Mụ hỡnh b AIC23 Hỡnh 27 Mụ hỡnh b CodecAIC23 DSK 6713 dựng b codec AIC23 ca hóng Texas Instrumnet cho tớn hiu vo õm B codec ly mu tớn hiu tng t t ng mic in hay ng line in v chuyn chỳng thnh dng s thụng qua ADC sau ú c x lớ tip theo Sau DSP kt thỳc vic x lớ, d liu Nguyn Vit Hng KS CLC K48 - THCN 51 ỏn tt nghip c chuyn qua mt b DAC thnh dng tớn hiu tng t v a u ca b codec l line out hay head phone Giao tip vi b codec thụng qua kờnh ni tip, mt dung iu khin b codec thụng qua vic cu hỡnh cho cỏc ghi iu khin bờn v mt cỏi cũn li dựng cho vic truyn nhn d liu dng s AIC23 h tr nhiu cỏch cõu hỡnh m cú th thay i nh dng ca d liu ca kờnh iu khin v kờnh d liu Cỏc thụng s iu khin c cha cỏc ghi iu khin Cỏc giỏ tr ny c truyn thụng qua kờnh McBSP0 16 bit õy l ng truyn ch cú mt chiu nht t DSP n b codec Cỏc ghi cú rng l bit Mt t 16 bit c truyn n b codec 16 bit gm bit u tiờn nh a ch ca ghi, bit cũn li cha d liu c truyn n ghi Code Compose Studio (CCS) CCS cung cp mt Intergrated Development Environment (IDE) CCS cú cỏc tool cho vic son code, nh trỡnh dch C, mt b hp ng, v mt linker Nú cú cỏc chc nng ho v h tr g ri thi gian thc õy l mt cụng c phn mm d s dng xõy dng v debug mt chng trỡnh Trỡnh dch C dch chng trỡnh mó ngun C (file c)thnh mó ngun hp ng (file asm) Chng trỡnh dch hp ng dch file asm ny v ngụn ng mỏy (file obj) B linker s kt hp object file vi cỏc th vin object to thnh mt file chy (.out) File chy ny cú th c np xung v chy trc tip trờn vi x lý C6713 Hỡnh 28Kt ni CCS vi DSK 6713 Nguyn Vit Hng KS CLC THCN K48 52 ỏn tt nghip Ci t thut toỏn nhn dng trờn DSP 6713 Thu tớn hiu õm trờn DSK 6713 Hai hm chớnh input_sample v output_sample Cú phng phỏp lp trỡnh thu õm: Thu õm s dng ngt (Tớn hiu vo t line in) Thu õm dựng vũng quột (Tớn hiu vo t MIC) Thu õm s dng ngt: Sau khi to v cho phộp ngt, chng trỡnh i mt vũng lp vụ hn n s kin ngt xut hin Ngt c thc hin mi chu kỡ ly mu (Vớ d vi tn s ly mu l 8kHz thỡ chu kỡ l 0.125ms), ti mi thi im ú, giỏ tr ca tớn hiu vo c c v a n ADC ca b mó hoỏ v gi n b DAC Hon ton cú th t thờm cỏc h s khuych i cho vic thu v phỏt tớn hiu Thu õm s dng vũng quột: ADC ly tớn hiu vo t ng MIC IN S dng k thut vũng quột nh mt th tc liờn tc kim tra xem no d liu ó sn sng õy l k thut n gin hn k thut ngt nhng nú kộm hiu qu hn d liu cn c kim tra liờn tc xỏc nh xem no nú sn sng c nhn hay truyn i Cỏc hm chớnh nh input_sample, output_sample, comm_intr hay comm_poll c nh ngha sn file C6713dskinit.c iu ny giỳp cho cỏc chng trỡnh ngun gim i kớch thc rt nhiu Ci t thut toỏn trớch c trng MFCC v mng Neuron lờn chip DSP Ton b chng trỡnh x lý c chuyn t code Matlab thnh dng code C v nm file mfcc_neuron.c Tớn hiu sau c thu s c s lý trớch c trng MFCC, s cho mt vect h s c trng Ceptrals gm 130 phn t Mng Neuron sau c hun luyn bng chng trỡnh Matlab c lu li di dng ma trn W, L, B1, B2 cỏc file text tng ng : W.txt, L.txt, B1.txt, B1.txt v s c chng trỡnh C c vo Chng trỡnh s tớnh toỏn vector c trng vi mng Neuron v a kt qu cui cựng l t nhn c Nguyn Vit Hng KS CLC K48 - THCN 53 ỏn tt nghip KT LUN Nhn xột kt qu chung ca ỏn ỏn ó thc hin c vic xõy dng cỏc mụ hỡnh nhn dng ting núi, c th l nhn dng cỏc t iu khin ri rc: Tt, Bt, Chy, Dng, Tin, Lựi, Trỏi, Phi, Trờn, Di V ó tin hnh chy th nghim da trờn cỏc phng phỏp phõn tớch c trng ca tớn hiu l LPC v MFCC Da trờn c s d liu thu thp c ó a c mt mụ hỡnh nhn dng thớch hp nht Tuy nhiờn khụng trỏnh mt s hn ch: S lng mu cũn ớt, nờn cha khng nh c s hi t ca thut toỏn Cht lng mu khụng cao v khụng ng nht tin hnh thu bng mỏy tớnh cỏ nhõn v cỏc a im khỏc Cũn mt s hn ch phng phỏp lm vic thiu kinh nghim Vic chuyn i thut toỏn t Matlab sang C ci t cho DSP gp phi mt s sai s tớnh toỏn Dn n kt qu nhn dng thc t khụng c cao nh chy th nghim trờn mỏy tớnh Ngoi cũn mt s khú khn khỏch quan: nh c trng ca cỏc t ting Vit khỏc bit so vi t ting Anh, mt s t iu khin cú nhiu c im ging dn n nhn dng sai (nh trỏi - phi; dng - di ) Trong quỏ trỡnh thc lm ỏn, sinh viờn ó c gng ht sc nghiờn c v lm vic nghiờm tỳc hon thnh yờu cu ca ti T ú thu c nhng kin thc v nhng kinh nghim rt b ớch Tuy nhiờn, quỏ trỡnh lm vic, cng nh bn thõn ỏn ny khụng trỏnh nhng thiu sút, vy s ch bo, gúp ý ca cỏc thy cụ giỏo s l s giỳp vụ cựng quớ bỏu ỏn c hon thin hn Nguyn Vit Hng KS CLC THCN K48 54 ỏn tt nghip TI LIU THAM KHO [1] Fundamentals of speech recognition Lawrence Rabiner Prentice Hall 1993 [2] A turial on Hidden Markov Model and selected applications in speech recognition Lawrence Rabiner IEEE - 1989 [3] Chapter 9: Automatic Speech Recognition Speech and Language Processing: An Introduction to natural processing, computational linguistics and speech recognition Daniel Jurafsky & James H Martin 2007 [4] Nhn dng ting Vit dựng mng Neuron v trớch c trng dựng LPC v AMDF Hong ỡnh Chin [5] Speech Recognition using Neural Network Joe Tebelskis 1995 [6] Bi ging mụn nhn dng ca thy Trn Hoi Linh, HBK H Ni, 2007 [7] Digital Signal Processing and Applications with the C6713 and C6416 DSK Rulph Chassaing Wiley 2004 [8] C Algorithms For Real-Time DSP Paul M Embree Prentice Hall 1995 [9] Lp trỡnh Matlab v ng dng Nguyn Hong Hi , Nguyn Vit Anh NXB Khoa hc k thut HN 2005 [10] Mel frequency ceptral coefficients Wikipedia.org v cỏc link tham chiu [11] HMM toolbox for matlab -http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html [12] Auditory toolbox for matlab - http://www.slaney.org/malcolm/pubs.html [13] ECE4703 Real-Time DSP Orientation Lab - D Richard Brown III 2004 V mt s ti liu khỏc Nguyn Vit Hng KS CLC K48 - THCN 55 [...]... nghiệp ổn định của âm thanh, mô hình LPC cho ta một xấp xỉ khá tốt của phổ âm thanh Tuy trong các vùng ngắn và không âm, mô hình LPC hoạt động kém hiệu quả hơn vùng có âm, nhưng nó vẫn cung cấp một mô hình có thể sử dụng tốt cho mục đích nhận dạng tiếng nói Cách mà LPC được ứng dụng trong việc phân tích tín hiệu tiếng nói dẫn đến một sự phân tách hợp lý các âm nguồn âm thanh Và như vậy, việc biểu... Ngữ âm – Âm học và nhận dạng mẫu, sử dụng những khái niệm và ý tưởng của cả 2 phương pháp trên Phương pháp này thực hiện các thủ tục nhận dạng dựa theo cách con người tưởng tượng, phân tích và đưa ra quyết định dựa vào các đặc tính âm học Một hệ chuyên gia sẽ được sử dụng để phân đoạn và dán nhãn, thực hiện thuật toán học và thích ứng theo thời gian, có thể sử dụng một mạng neuron để học mối quan hệ. .. các dải âm thanh là hoàn toàn có thể Phương pháp tính toán của LPC chính xác về mặt toán học và đơn giản, trực tiếp trong việc cài đặt lên cả phần cứng hoặc phần mềm Số lượng tính toán trong xử lý LPC cũng ít hơn trong phương pháp filters-bank Mô hình LPC hoạt động tốt trong các ứng dụng nhận dạng Knh nghiệm cho thấy, các hệ thống nhận dạng sử dụng mô hình LPC cho kết quả tốt hơn so với các hệ sử dụng... học mối quan hệ giữa các nhân tố ngữ âm và các biến vào khác ( âm học, từ vựng, cú pháp, ngữ nghĩa ) cũng như là phân biệt gữa các lớp âm gần giống nhau ΙΙΙ Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói Hình 2 Ttrích đặc trưng của tiếng nói 1 Mô hình LPC (Linear Predictive Coding model) Mô hình LPC được sử dụng khá rông rãi trong các hệ thống nhận dạng tiếng nói là bởi các lý do sau:... lấy Q=3/2p) Hệ số ceptral là các hệ số của biến đổi Fourier cho log cường độ phổ Các hệ số này được cho là đáng tin cậy hơn các hệ số LPC • Bước 7: Tính toán các hệ số ceptral có trọng số cˆm = w m cm Với 1 ≤ m ≤ Q Trong đó : Q π m w m = 1 + sin ÷ Q 2 Với 1 ≤ m ≤ Q Việc này nhằm giảm sự ảnh hưởng của overall spectral slope tới các hệ số ceptral bậc thấp và nhiễu tới các hệ số ceptral... quan tâm với các phần khác của tín hiệu (môi trường, nhiễu …) Điều này là rất cần thiết trong nhiều lĩnh vực Đối với việc tự động nhận dạng tiếng nói, speech detection là cần thiết để tách riêng đoạn tín hiệu là tiếng nói từ đó tạo ra các mẫu (pattern) phục vụ cho việc nhận dạng Câu hỏi đặt ra ở đây là làm sao để xác định chính xác tín hiệu tiếng nói, từ đó cung cấp mẫu “tốt nhất” cho việc nhận dạng. .. gần nhất với tín hiệu tiếng nói ban đầu Bởi vậy, với mỗi từ phải huấn luyện, tức là sử dụng các mẫu khác nhau của từ đó (do một hoặc nhiều người phát âm) để tối ưu các tham số Có 3 việc chính cần làm trong việc xây dựng một bộ nhận dạng dựa trên HMM 1 Xây dựng một mô hình cho các từ riêng rẽ, sử dụng vấn đề 3 để tối ưu hoá các tham số cho mỗi mô hình tương ứng với từ đó 2 Dùng vấn đề 2 để phân đoạn cá... đó tăng khả năng mô hình hoá của chuỗi từ được nói 3 Cuối cùng, việc nhận dạng từ được biểu diễn bằng cách sử dụng vấn đề 1 Từ được chọn làm kết quả nhận dạng là từ có kết quả tính được cao nhất 5 Giải quyết 3 vấn đề của HMM Như đã trình bày ở trên, giải quyết 3 vấn đề của HMM cũng chính là tìm ra thuật toán đề thực hiện một hệ nhận dạng dựa trên HMM Vấn đề 1: Các giải pháp được đưa ra • Tính trực tiếp... diễn rời rạc cho tín hiệu âm tiếng nói Bằng việc đưa ra một codebook “tốt”, ta có thể gán cho mỗi codevector một nhãn ngữ âm ứng với một frame tín hiệu, và cho ta một hệ nhận dạng tiếng nói khá hiệu quả Tuy nhiên, nó vẫn có một số hạn chế như: • Mất mát thông tin trong việc phục hồi vector gốc • Dung lượng lưu trữ không phải lúc nào cũng là nhỏ 2.2 Một số yếu tố cần quan tâm 1 Một tập đủ lớn cá vector... được những đặc trưng ngữ âm quan trọng người ta sử dụng các bộ lọc tuyến tính với dải tần thấp và các bộ lọc có đặc tính loga với dải tần số cao Trong phương pháp này, ta sử dụng Mel-scale tuyến tính với các tần số dưới 1000Hz và tỉ lệ loga với các tần số trên 1000Hz 2.1 Mel-frequency scale Các nghiên cứu tâm sinh lý đã chỉ ra rằng nhận thức của con người đối với tần số của âm thanh của các tín hiệu ... s: 85 % % nhận dạng 80 75 70 65 Kích th ớc codebook 60 32 64 128 Hỡnh 17 Kt qu theo kớch thc codebook Chn kớch thc codebook l 64 2.1 Trớch c trng theo phng phỏp LPC % 80.5 % nhận dạng 80 79.5... 77 Hỡnh 18 Kt qu theo s trng thỏi HMM Nguyn Vit Hng KS CLC THCN K48 42 ỏn tt nghip 82 % % nhận dạng 80 78 76 74 72 70 Số bậc LPC 68 10 11 12 Hỡnh 19 Kt qu theo s bc LPC Nh vy kt qu ti u nhn... thỏi Kt qu nhn dng t 80% 2.2 Trớch c trng theo phng phỏp MFCC 77 76 75 74 73 72 71 70 69 % % nhận dạng Số trạng thái HMM Hỡnh 20 Kt qu theo s trng thỏi HMM Kt qu nhn dng t 76% 2.3 Nhn xột kt