1. Trang chủ
  2. » Ngoại Ngữ

speech 2013

32 235 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

15/04/2013 Ni dung X Lí TING NểI Trnh Vn Loan i hc Bỏch khoa H Ni 1 Mt s khỏi nim c bn X lý tớn hiu ting núi Mó hoỏ ting núi Tng hp ting núi Nhn dng ting núi Ti liu tham kho La parole et son traitement automatique Calliope, Masson, 1989 Traitement de la parole Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987 Fundamentals of Speech Signal Processing Saito S., Nakata K , Academic Press, 1985 Digital Processing of Speech Signals Lawrence R Rabiner, Ronald W Schafer, Prentice-Hall 1978 Discrete-Time Processing of Speech Signals John R Deller, John G Proakis, Hansen John H L IEEE Press, 2000 Ting Vit hin i (Ng õm, ng phỏp, phong cỏch) Nguyn Hu Qunh, H Ni, 1994 Dn lun Ngụn ng hc Nguyn Thin Giỏp, on Thin Thut , Nguyn Minh Thuyt, H Ni, 1994 15/04/2013 Mt s khỏi nim c bn X lý thụng tin cha tớn hiu ting núi nhm truyn, lu tr tớn hiu ny hoc tng hp, nhn dng ting núi Cỏc nghiờn cu c tin hnh x lý ting núi yờu cu nhng hiu bit trờn nhiu lnh vc ngy cng a dng: t ng õm v ngụn ng hc cho n x lý tớn hiu Mc ớch Mó hoỏ mt cỏch cú hiu qu tớn hiu ting núi truyn v lu tr ting núi Tng hp v nhn dng ting núi tin ti giao tip ngi-mỏy bng ting núi Tt c cỏc ng dng ca x lý ting núi u cn phi da trờn cỏc kt qu ca phõn tớch ting núi 15/04/2013 Mt s khỏi nim c bn B mỏy phỏt õm Phõn bit ting núi v õm Ting núi c phõn bit vi cỏc õm khỏc bi cỏc c tớnh õm hc cú ngun gc t c ch to ting núi Cú loi ngun õm tun hon (dõy rung) õm (dõy khụng rung) 11 B mỏy phỏt õm B mỏy phỏt õm NASAL CAVITY: Khoang mi SOFT PALATE: Vũm ming mm EPIGLOTTIS: Np qun VOCAL FOLDS (CORDS): Dõy OESOPHAGUS: Thc qun TRACHEA: Khớ qun PHARYNX: Hng 10 12 15/04/2013 Một số khái niệm S b mỏy phỏt õm Thanh mụn cỏc v trớ hớt, th,phỏt õm, núi thỡ tho 13 15 Thanh mụn Dõy mt chu k dao ng Thanh mụn Dõy 14 16 15/04/2013 Biu din tớn hiu ting núi Biu din tớn hiu ting núi 30 Ph tớn hiu ting núi Dng súng theo thi gian 20 Decibels 10 -10 -20 -30 17 File WAV 500 1000 1500 2000 2500 3000 Frequency in Hz 19 3500 4000 4500 5000 Biu din tớn hiu ting núi Spectrogram (Sonagram) Tn s ly mu: 8kHz, F1= 11025 Hz, 2F1, 4F1 (16kHz, 10kHz) S bit/mu: 8,16 Mono, Stereo 18 20 15/04/2013 Biu din tớn hiu ting núi Biu din tớn hiu ting núi Thu bng micro khỏc loi 21 23 Biu din tớn hiu ting núi Biu din tớn hiu ting núi Hai ging khỏc cho cựng mt õm 22 24 15/04/2013 To õm hu Formant v antiformant Biu din tớn hiu ting núi Cựng ngi núi, cựng mt õm Tớn hiu ngun hu Tớn hiu õm hu Ph ca õm hu Ph ca ngun hu 25 27 Nng lng, t l bin thiờn qua giỏ tr khụng To õm vụ file:C:\wav\1-6-5-8-10-0.wav, ss,es:1, 43029, window length, shift (samples):160, 40, wtype:1 amplitude 0.4 0.2 -0.2 -0.4 Signal -0.6 short-time energy 0.5 short-time magnitude 1.5 2.5 3.5 En Tớn hiu ngun vụ Tớn hiu õm vụ 0.5 zero crossing rate 1 1.5 15 2.5 3.5 2.5 3.5 Mn 10 0.5 1.5 80 ZC 60 Ph ca ngun vụ 40 20 26 0.5 1.5 time in seconds 28 2.5 3.5 15/04/2013 Mt s c im ng õm ting Vit n õm tit Cú iu (6), bin i iu kốm theo bin i ngha Khụng bin i hỡnh thỏi 29 Mt s c im ng õm ting Vit Mt s c im ng õm ting Vit b bng bnh H thng õm v: 22 ph õm 12 tr trng p p ộp 13 s sinh viờn v v 14 r rng ph phụi pha 15 ch chụng m m mng 16 nh nhc t 17 ng,ngh t tin tng 18 c,k,q th th thn 19 kh d,gi duyờn, gi 20 g,gh g gh 10 n núng 21 h h hờ 11 l long lanh 22 x xa xụi 31 ngụ nghờ con,kt,qua khỳc Mt s c im ng õm ting Vit H thng õm v: 14 nguyờn õm (11 nguyờn õm n, nguyờn õm ụi, 22 ph õm) i,y ờ ch e e dố a mt b ph õ õn cn t t Phõn loi nguyờn õm theo nõng ca li v chuyn ng ca li ý ụ ụtụ 10 o co ro 11 u lự mự 30 ia,yờ,ya,iờ (c ia, yờ) ua,uụ (c ua) a, (c a) kỡa, yờu kiu, khuya, tiờn tin tua rua, luụn la tha, lt nõng cao Hng trc i gia sau e u trung bỡnh e ụ thp õ a o 32 15/04/2013 Mt s c im ng õm ting Vit Mt s c im ng õm ting Vit Phõn loi ph õm theo tc hay xỏt, hu hay vụ thanh, mi húa Phõn loi nguyờn õm theo m ca ming v chuyn ng ca li V trớ cu õm Hng hng trc m hp i ia,yờ,ya,iờ hi hp hi rng e hng sau khụng trũn mụi a õ hng sau trũn mụi Phng thc cu õm Bt hi u ua ụ Tc n o rng a u li Mụi Xỏt n Vụ Khụng bt hi Hu Vang mi Vụ Hu Vang bờn Rng Vũm ming Mt li Cui li p t b m ph v n x d,gi l tr ch c,k,qu nh ng,ngh kh g s r 33 35 Mt s c im ng õm ting Vit Dng súng mt s t ting Vit m tc: ting n, phỏt sinh lung khớ t phi i b cn tr hon ton, phi phỏ v s cn tr ú thoỏt m xỏt: ting c xỏt, phỏt sinh lung khụng khớ i b cn tr khụng hon ton (ch b khú khn), phi lỏch qua mt khe h nh v thoỏt nh vy phi c xỏt vo thnh ca b mỏy phỏt õm Ph õm bờn: u li tip xỳc vi li chn li thoỏt ca khụng khớ, buc nú phi lỏch qua khe h hai bờn cnh li tip giỏp vi mỏ m ngoi to nờn ting xỏt nh (l) Lung khụng khớ thoỏt ngoi b cn tr, to nờn ting xỏt hay ting n, dng tớn hiu khụng tun hon gi l ting ng (n) Trong phỏt õm mt s ph õm, dõy cng hot ng ng thi to nờn ting Ph õm cú t l ting ng ln hn gi l ph õm n Ph õm cú t l ting ln hn gi l ph õm vang 34 phờ v Hng th h 36 chố 15/04/2013 Dng súng mt s t ting Vit Dng súng mt s t ting Vit CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms 0.5 0.4 0.3 0.2 tr Amplitude 0.1 tỡm -0.1 -0.2 -0.3 -0.4 -0.5 ỏnh tỏm 50 100 150 200 250 Time in ms 300 350 400 450 500 37 39 Dng súng mt s t ting Vit Dng súng mt s t ting Vit DDEER.WAV, Fs = 11025Hz, 5278 samples, Time = 479ms 0.4 0.3 0.2 l Amplitude 0.1 k -0.1 -0.2 -0.3 -0.4 kh 38 50 100 150 200 40 250 Time in ms 300 350 400 450 10 15/04/2013 Phng phỏp t tng quan cú ci tin Vớ d 0.3 0.2 Hn ch, loi b |x| < CL x(n) 0.1 -0.1 -0.2 700 750 800 850 900 950 n 1000 1050 1100 1150 0.015 0.01 r(k) 0.005 -0.005 -0.01 50 100 150 k 200 250 300 50 100 150 k 200 250 300 0.2 D(k) 0.15 0.1 0.05 69 71 Da vo hm vi sai biờn trung bỡnh Dựng b lc o (SIFT - Simplified Inverse (AMDF- Average Magnitude Difference Function) Filter Tracking) N D (k ) = x(n + m) x(n + m k ) k = 0,1, , K m =0 D(iP ) = 0, i = 0,1, N N 1 u (n) n =0 N 10kHz 1/ N u (n) n=0 Thụng thp Thụng thp 4700Hz 900Hz 1-z-1 1/2 N-1 D(k ) = [ x(n + m) x(n + m k )]2 N m=0 1/ = [2r (0) 2r (k )] k = 0,1, , K N với < 70 W(n) LPC(p=4) A(z) Hm t tng quan HT/VT ỏnh giỏ kt qu Ni suy Tỡm cc i F0 72 18 15/04/2013 X lý ng hỡnh X lý ng hỡnh Tớn hiu ting núi B lc hiu chnh Ca s log10|.| FFT FFT-1 FFT Wc(n) 73 75 Xỏc nh formant X lý ng hỡnh Tham s cn xỏc nh -20 Formant Fk Di thụng Bk -40 Decibels Phng phỏp X lý ng hỡnh LPC -60 -80 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Frequency in Hz units 74 76 19 15/04/2013 Mt s tớnh cht thng kờ ca tớn hiu ting núi Phng phỏp LPC B lc hiu chnh Tớnh h s Ca s Mt xỏc sut N : s lng mu x(n) s(n) Tớnh1/ |A(ej)| bng FFT Tỡm cc i Fk,Bk Quyt nh Tớnh nghim ca A(z) Ting núi cú biờn khong [-/2, +/2] n [-N, ,N] x egodic pv( dng ) = lim [ N /(2 N + 1)] x N 77 79 Mó húa ting núi Giỏ tr trung bỡnh v phng sai Giỏ tr trung bỡnh ca tớn hiu dng Dóy thao tỏc mó hoỏ v gii mó Lc1 AD Nhiu, suy gim, sai s Mó hoỏ àx = vi tớn hiu ting núi àx = Phng sai Nhiu, suy gim, sai s Gii mó DA Lc2 x2 = N x ( n) N N + n = N px ( ) d = lim 78 N x ( n) N N + n = N px ( ) d = lim 80 20 15/04/2013 Lng t tc thi (khụng nh) Lut lng t y = Q(x) c nh ngha: (L+1) mc tớn hiu x(0), x(1), , x(L) L mc lng t hoỏ Mi mc lng t hoỏ biu din bng t b bit L = 2b Sai s lng t (tp õm lng t) eq = Q(x) - x Bc lng t : hiu mc tớn hiu k (i) = x(i)-x(i-1) Thụng lng I = bFs (bit/s) Fs : tn s ly mu Thụng lng Tn s ly mu (kHz) S bit cho mu Thụng lung kbit/s Dung lng / phỳt (kbyte) 48 16 768 11520 Ghi õm chuyờn nghip 44,1 16 705,6 10584 CD Audio 32 16 512 7680 Radio FM 22 12 264 3960 Radio AM 8 64 960 in thoi 81 83 Thụng lng Lng t u Tớn hiu lng t bit (256 mc), Fs = kHz Thụng lng = 64 kbit/s Tớn hiu lng t 16 bit (65536 mc), Fs = 16 kHz Thụng lng = 256 kbit/s , gi ting núi ~100 Mbyte Cn phi mó hoỏ tớn hiu ting núi (MPEG, GSM, G723, ) truyn ting núi trờn mng hoc lu tr 82 Lnh vc Tng quỏt, bc lng t l hm ca biờn tớn hiu x (lng t khụng u) n gin nht l lng t u Lng t n cc: Tớn hiu tng t bin thiờn t von n n mt giỏ tr dng no ú Lng t lng cc: Tớn hiu tng t bin thiờn t giỏ tr õm n giỏ tr dng no ú xmax, xmin: giỏ tr cc i v cc tiu ca tớn hiu tng t x 84 21 15/04/2013 Lng t u L: S mc lng t, b: s bit cho mt mc lng t dựng ADC L = 2b Bc lng t = ( xmax- xmin)/ L i: ch s tng ng vi mó nh phõn i = round (( x- xmin)/ ) xq: mc lng t xq= xmin + i, i = 0, 1,, L eq: sai s lng t eq= xq - x Lng t u Bng lng t ca b lng t n cc bit, xmin= xmax= giỏ tr in ỏp cc i 85 87 Lng t u Lng t u n cc xmin= xmax= b=3 L=8 xq= + i, i = 0, 1,, L -/2 eq /2 Lng cc xmin= - xmax= b=3 86 88 22 15/04/2013 Lng t u Lng t u L = 16 Bng lng t ca b lng t lng cc bit, xmax= giỏ tr in ỏp cc i, xmin= -xmax -0 -0 -0 -0 -1 10 89 91 Lng t u Lng t u 12 14 1 0.8 -1 0.6 10 12 10 12 10 12 10 12 0.4 0.2 -1 -0.2 -0.4 -1 -0.6 ation E rror Quantific 0.2 -0.8 -1 90 10 12 14 -0.2 92 23 15/04/2013 Lng t u Cỏc tớnh cht lng t u SN = T s tớn hiu trờn nhiu bit x2 e2 x SN ( dB ) = 10 lg x2 = 6, 02b + 4, 77 20 lg max e x Nếu xmax = max SN (d B) = 6b 7,3 bit Vi b 6, tng dB mi tng bit lng t cú cht lng thớch hp cn cú b 11 Cú th tớnh SN nh sau: N N 1 N SN = N 16 bit 95 93 Cỏc tớnh cht lng t u Mt xỏc sut sai s lng t pe ( ) = px (i + ), = ( L 1) / i = phõn b u gia - /2 v + /2 pe ( ) = 1/ , / = 0, > / Trung bỡnh õm lng t = /2 Phng sai e2 = / d = /12 / 94 x n=0 N e n=0 2 q (n) = (n) x n =0 N (n) q (n) e n=0 T s tớn hiu trờn nhiu SN = Năng lợng tín hiệu Ws = Năng lợng nhiễu Wn SN dB = 10 log 10 SN hoc SN dB = 20 log 10 Biê n độ tín hiệu Biê n độ nhiễu 96 24 15/04/2013 T s tớn hiu trờn nhiu Nng lng Lng t logarit SN (dB) Tớn hiu = Nhiu Tớn hiu = Nhiu Tớn hiu = 10 Nhiu 10 Tớn hiu = 100 Nhiu 20 Tớn hiu = 1000 Nhiu 30 Tớn hiu = 10N Nhiu Hai gii phỏp dựng cho in thoi Lut (dựng M) y = log(1 + ) N x 10 97 99 Lng t logarit Lng t logarit Sau ly logarit biờn tớn hiu s mó hoỏ tuyn tớnh y(n) y(n) x(n) log(1 + x ) log[] Q[] Mó húa c(n) Hai gii phỏp dựng cho in thoi Lut A(dựng chõu u) y = signe[] y '(n) c(n) Gii mó x '(n) exp[] signe[x(n)] 98 + log A x + log A = 255 A = 87,56 x '(n) bit logarit ~ 12 bit lng t u 100 25 15/04/2013 Mt s chun mó hoỏ õm thanh/ting núi Lng t thớch nghi Bc lng t tu thuc vo biờn tớn hiu Thớch nghi trc y(n)= x(n) G(n) x(n) y (n) Q[] Mó húa c(n) Thớch nghi k.i G(n) y'(n) x'(n) = G'(n) : y '(n) G(n) Gii mó c(n) G(n) 101 Lng t thớch nghi Thớch nghi sau 103 Tng hp ting núi Mó húa y(n) c(n) G(n) y'(n) x'(n) = G'(n) G.721 : ADPCM, 32 kbps, 4bits, 8kHz G.722 : ~ADPCM, 48 n 64 kbps, G.723 : ~ADPCM, 24 kbps, bits, 8kHz G.728 : 16 Kbps GSM : in thoi di ng, 13 kbps Linear Predictive Encoding (Xerox), kbps Code Excited Linear Prediction (CELP) Digital Video Interactive : ~ADPCM, n bits VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s) y (n) Q[] x(n) : y '(n) G(n) 102 Tng hp trc tip Tng hp da trờn mụ hỡnh Thớch nghi k.i Gii mó Thớch nghi k.i To ting núi xut phỏt t biu din ng õm ca li núi K thut tng hp ting núi: c(n) B tng hp formant B tng hp dựng LPC B tng hp mụ phng b mỏy phỏt õm 104 26 15/04/2013 Phõn loi Tng hp formant A1 F0 F1 To xung Cht lng b tng hp: Mc t nhiờn F2 F3 A2 Mc rừ Thanh iu Ng iu Khoang ming S lng t vng: A3 Hn ch Khụng hn ch Kờnh mi B tng hp ting núi t bn (Text-toSpeech) A4 To õm 105 Tng hp trc tip õm v : hin tng ng cu õm (coarticulation) õm tit (diphone - õm v kộp) t t hp t Cõu nam = n + a + m = n + am = na + m = na + am 106 B2 B3 107 Tng hp LPC F0 Ghi õm ting núi t nhiờn - n v ghi õm - Ghộp cỏc n v ghi õm: t, cõu n v ghi õm B1 A To xung B lc s bc p To õm a1 a2 ap Synthesis-by-Analysis 108 27 15/04/2013 Mụ phng b mỏy phỏt õm Ngun õm Mụ phng tuyn õm Tuyn õm Ri rc húa Tham s iu khin ng õm tng ng ng õm c ri rc húa Mụ phng ngun õm (ngun tun hon) Mụ phng dõy thanh:Mụ hỡnh mt khi, Mụ hỡnh hai khi, Mụ hỡnh nhiu khi, Mụ hỡnh hai dm 109 111 Mụ hỡnh ngun õm Mụ hỡnh phn x Gi thit Vỏch ngn cng Súng truyn n hng (dc theo trc ng)ch xột cỏc tn s < 5000 Hz, bin thiờn din tớch khụng quỏ t ngt B qua tn hao: tớnh lng, truyn nhit Mụ hỡnh Mụ hỡnh nhiu Mụ hỡnh dm 110 112 28 15/04/2013 Xột tn s ng tit din u, khụng tn hao Súng ti v súng phn x cú dng ng tit din u v ng dõy tng ng v(l,t)=0 H phng trỡnh Webster x u p u ( x, t) = u + t = c x A t u A p + x = p ( x, t ) = u t x 0c t c x u t + c x + u t + c u: thụng lng, p: ỏp sut, : mt khụng khớ, c: tc súng õm x x j (t ) j (t + ) x x c c u+ t = K +e , u t + = K e c c iu kin biờn ti mụn u (0, t ) = uG (t ) = U G ()e jt p ( , t ) = iu kin biờn ti mụi 0c A p(x, t) = jZ0 sin[( x)/ c] cos[( x)/ c] UG ()e jt , u(x, t) = UG ()e jt cos / c cos / c Z0 = c A 113 115 Tng t õm hc in hc ỏp ng tn s m hc in hc p: p sut v: in ỏp u: Thụng lng i: Dũng in 0/A: in cm õm hc L: in cm A/0 c 2: in dung õm hc C: in dung u (, t ) = U (, )e jt x = U ( , ) = U G ( ) Ti mụi cos ( / c ) U ( , ) H () = = ỏp ng tn s U G () cos( / c) H () với (2n + 1)c f = = 17,5 cm, c=350 m/s f = 500,1500, 2500 Hz 114 116 29 15/04/2013 Mụ hỡnh phn x khụng tn hao (Kelly-Lochbaum) Phõn b súng u k+ + (t) u k+ + (t - k + ) u k+ (t) u k+ (t - k ) u k- (t) u k- (t + k ) u+k (t) uk+ (t ) (1+ rk ) u+k+1(t) trễ rk u k- + (t) u k- + (t + k + ) k tit din k +1 Ak tit din Cỏc ng c bn cú cựng chiu di Ak+1 k = k +1 = uk (t) trễ ng k trễ uk++1(t ) rk uk (t +) (1 rk ) uk+1(t) trễ uk+1 (t+) ng k+1 Tip giỏp = c 117 119 Mụ hỡnh phn x khụng tn hao (Kelly-Lochbaum) Hiu ng ca cỏc tn hao Tớnh liờn tc ca ỏp sut v thụng lng p k (, t) = p k +1 (0, t) u k (, t) = u k +1 (0, t) A k+1 A Ak u k+ (t - ) + k+1 u k +1 (t) A k+1 + A k A k+1 + A k A Ak + Ak u k (t+ ) = k+1 u k (t - ) + u k +1 (t) A k+1 + A k A k+1 + A k Tn hao dch chuyn khụng khớ tuyn õm Do tớnh lng ca khụng khớ Do truyn nhit Do rung vỏch ngn u +k+1 (t) = t h s phn x rk = A k+1 A k A k+1 + A k u +k+1 (t) = (1 + rk ) u +k (t - ) + rk u k +1 (t) u k (t+ ) = rk u +k (t - ) + (1 rk ) u k +1 (t) 118 tớnh lng rung truyn nhit 120 30 15/04/2013 Nhn dng ting núi Hiu ng ca cỏc tn hao Tn hao bc x ti mụi Hai giai on: hun luyn (hc) nhn dng Phõn loi theo Mụ hỡnh qu búng vụ hn Tr khỏng bc x p () j Lr Rr Zr = = U (, ) Rr + j Lr 128 8a , Lr = c a: bán kính mở môi Rr = S lng t vng T ri rc liờn tc Mt ngi núi nhiu ngi núi Nhn dng t cõu 121 123 Hiu ng chung ca cỏc tn hao Phõn loi theo phc Di thụng Bc x ti mụi Rung Nhit+lng 122 Nhn dng t riờng l, t vng ớt ([...]... 15 15/04 /2013 S khi x lý ng hỡnh x(n) B lc hiu chnh Ca s Hamming FFT Log |.| N FFT-1 s (n) frame 0 63 X lý ng hỡnh (homomorphic) e(n) h(n) s(n) Vớ d c(n) T0 T0 s(n)=h(n)*e(n) S() = H().E() log[S()]= log[H()]+ log[E()] F-1{log[S()]} = F-1{log[H()]} + F-1{log[E()]} F-1{log[S()]} = s (n) F-1{log[H()]} = h ( n) F-1{log[E()]} = s (n) = h ( n) + e (n) e( n ) 62 h(n) 64 16 15/04 /2013 Tiờn... giỏ kt qu Ni suy Tỡm cc i F0 72 18 15/04 /2013 X lý ng hỡnh X lý ng hỡnh Tớn hiu ting núi B lc hiu chnh Ca s log10|.| FFT FFT-1 FFT Wc(n) 73 75 Xỏc nh formant X lý ng hỡnh 0 Tham s cn xỏc nh -20 Formant Fk Di thụng Bk -40 Decibels Phng phỏp X lý ng hỡnh LPC -60 -80 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Frequency in Hz units 74 76 19 15/04 /2013 Mt s tớnh cht thng kờ ca tớn hiu ting... 22 15/04 /2013 Lng t u Lng t u 1 L = 16 Bng lng t ca b lng t lng cc 3 bit, xmax= giỏ tr in ỏp cc i, xmin= -xmax 0 8 0 6 0 4 0 2 0 -0 2 -0 4 -0 6 -0 8 -1 0 2 4 6 8 10 89 91 Lng t u Lng t u 12 14 1 1 0 0.8 -1 0.6 0 2 4 6 8 10 12 0 2 4 6 8 10 12 0 2 4 8 10 12 0 2 4 8 10 12 1 0.4 0 0.2 -1 0 1 -0.2 0 -0.4 -1 -0.6 6 ation E rror Quantific 0.2 -0.8 0 -1 0 2 4 6 90 8 10 12 14 -0.2 6 92 23 15/04 /2013 Lng t... hp ting núi: c(n) B tng hp formant B tng hp dựng LPC B tng hp mụ phng b mỏy phỏt õm 104 26 15/04 /2013 Phõn loi Tng hp formant A1 F0 F1 To xung Cht lng b tng hp: Mc t nhiờn F2 F3 A2 Mc rừ Thanh iu Ng iu Khoang ming S lng t vng: A3 Hn ch Khụng hn ch Kờnh mi B tng hp ting núi t vn bn (Text-toSpeech) A4 To tp õm 105 Tng hp trc tip õm v : hin tng ng cu õm (coarticulation) õm tit (diphone -... Amplitude 0.1 G( z ) = 0 A (1 + z )(1 + z 1 ) R ( z ) = C (1 z 1 ) 1 -0.1 -0.2 V ( z) = -0.3 -0.4 B K (1 + b k =1 1k z 1 + b2 k z 2 ) -0.5 0 100 200 300 54 400 Time in ms 500 600 700 800 56 14 15/04 /2013 Mụ hỡnh ton im cc (AR) T ( z ) = G ( z )V ( z ) R( z ) = Di thụng Biờn 1 A( z ) 1/ 2(3dB) A(z): Hm truyn t ca b lc o T ( z) = A( z ) = 1 + A( z ) 2 K +1 ai z i i =1 p A( z ) = ai z i i =0 Di...15/04 /2013 Dng súng mt s t ting Vit Dng súng mt s t ting Vit XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms 0.6 0.4 0.4 0.2 0.2 Amplitude Amplitude 0 -0.2... Tớnh hm t tng quan R(k) ca tớn hiu ting núi x(n) R(k ) = N 1 k x(n) x(n + k ) k = 0,1, , K n=0 Fs = 10 kHz, N = 300, K = 150.Tỡm cc i trong khong (0, K) Tin Xỏc nh ỏnh giỏ x lý Fo kt qu 66 68 17 15/04 /2013 Phng phỏp t tng quan cú ci tin Vớ d 0.3 0.2 Hn ch, loi b |x| < CL x(n) 0.1 0 -0.1 -0.2 700 750 800 850 900 950 n 1000 1050 1100 1150 0.015 0.01 r(k) 0.005 0 -0.005 -0.01 0 50 100 150 k 200 250 300... 0 8 m s 0 3 0.4 0 2 0.2 0 Amplitude Amplitude 0 1 -0 1 0 -0 2 -0 2 -0 3 0 1 0 0 2 0 0 3 0 0 T im e in m s 4 0 0 5 0 0 6 0 0 -0 4 -0 6 0 42 100 2 00 3 00 T im e in m s 4 00 5 00 60 0 44 11 15/04 /2013 Dng súng mt s t ting Vit Dng súng mt s t ting Vit MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms 0.2 0.4 0.3 0.15 0.2 0.1 0.1 0.05 Amplitude Amplitude... hoỏ àx = vi tớn hiu ting núi àx = 0 Phng sai Nhiu, suy gim, sai s Gii mó DA Lc2 x2 = N 1 x 2 ( n) N 2 N + 1 n = N 2 px ( ) d = lim 78 N 1 x ( n) N 2 N + 1 n = N px ( ) d = lim 80 20 15/04 /2013 Lng t tc thi (khụng nh) Lut lng t y = Q(x) c nh ngha: (L+1) mc tớn hiu x(0), x(1), , x(L) L mc lng t hoỏ Mi mc lng t hoỏ biu din bng t b bit L = 2b Sai s lng t (tp õm lng t) eq = Q(x) - x Bc... Lng t n cc: Tớn hiu tng t bin thiờn t 0 von n n mt giỏ tr dng no ú Lng t lng cc: Tớn hiu tng t bin thiờn t giỏ tr õm n giỏ tr dng no ú xmax, xmin: giỏ tr cc i v cc tiu ca tớn hiu tng t x 84 21 15/04 /2013 Lng t u L: S mc lng t, b: s bit cho mt mc lng t dựng trong ADC L = 2b Bc lng t = ( xmax- xmin)/ L i: ch s tng ng vi mó nh phõn i = round (( x- xmin)/ ) xq: mc lng t xq= xmin + i, i = 0, 1,, L

Ngày đăng: 25/08/2016, 23:15

Xem thêm: speech 2013

TỪ KHÓA LIÊN QUAN

w