HMM và ứng dụng HMM trong nhận dạng tiếng nói
Computer Based Automatic Speech Processing MC LC Mc lc8 trang 1 Gii thiu trang MarKov Models (HM) .trang Hidden MarKov Models (HMM)- Mụ hỡnh Markov n trang Ba bi toỏn c bn ca HMM trang ng dng HMM t ng nhn dng ting núi- ASR .trang 17 HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing Gii thiu Hc thuyt v chui Markov c phỏt trin vo nhng nm 1900 Mụ hỡnh Markov n phỏt trin vo cui nhng nm 60 v c s dng rng rói lnh vc nhn dng ting núi vo nhng nm 1960-1970 v c a vo khoa hc mỏy tớnh nm 1989 Nhiu bi toỏn thc t c biu din di mi quan h nhõn qu, nhng ch quan sỏt c phn qu cũn phn nhõn thỡ n HMM l mt thut toỏn cho phộp gii quyt cỏc bi toỏn xỏc lp mi nhõn qu cc b núi trờn Mụ hỡnh Markov n (Hidden Markov Model - HMM) l mụ hỡnh thng kờ ú h thng c mụ hỡnh húa c cho l mt quỏ trỡnh Markov vi cỏc tham s khụng bit trc Nhim v l xỏc nh cỏc tham s n t cỏc tham s quan sỏt c, da trờn s tha nhn ny Cỏc tham s ca mụ hỡnh c rỳt sau ú cú th s dng thc hin cỏc phõn tớch k tip Cỏc ng dng ph bin ca mụ hỡnh Markov n: Tin sinh hc (bioinformatics): l mt lnh vc khoa hc s dng cỏc cụng ngh ca cỏc ngnh toỏn hc ng dng, tin hc, thng kờ, khoa hc mỏy tớnh, trớ tu nhõn to, húa hc v húa sinh (biochemistry) gii quyt cỏc sinh hc X lý tớn hiu, phõn tớch d liu v nhn dng mu HMMs c dựng rt nhiu phõn tớch ngụn ng: Nhn dng ting núi (i tng quan sỏt c: tớn hiu õm thanh, i tng n: t ng) Nhn dng ch vit tay (observed: kớ hiu, hidden: t ng) Phõn loi v gỏn th cho t ng (Part-of-speech tagging) (observed: t ng, hidden: th (danh t, ng t, t) H thng dch ngụn ng (observed: t nc ngoi, hidden: t ng ng vi ngụn ng cn dch) HMM v ng dng HMM nhn dng ting núi tớnh Trang Computer Based Automatic Speech Processing MarKov Models (HM): Mt dóy trng thỏi ngu nhiờn gi l cú thuc tớnh Markov nu nh xỏc sut chuyn sang trng thỏi tip theo ch ph thuc vo trng thỏi hin ti v quỏ kh Dóy chuyn trng quan sỏt c c gi l chui Markov hay Xớch Markov Dóy chuyn trng khụng quan sỏt c gi l mụ hỡnh Markov n Cú N trng thỏi: s1, s2 sN Cỏc bc thi gian ri rc tng ng: t=0, t=1, Ti bc thi gian th t, h thng mt cỏc trng thỏi trờn, gi l qt Vi qt {s1, s2 sN } Trng thỏi hin ti N=3 t=0, qt=q0=s3 S S S Gia mi bc thi gian, trng thỏi tip theo c chn mt cỏch ngu nhiờn Trng thỏi hin ti s quyt nh xỏc xut phõn b ca trng thỏi tip theo (thng c kớ hiu bng vũng cung kt ni cỏc trng thỏi) Trng thỏi qt+1 c lp cú iu kin vi { qt-1, qt-2, q1, q0 }, c a bi qt P(A) l xỏc sut trc hay xỏc sut b P(A|B) l xỏc sut sau hay xỏc sut cú iu kin, l xỏc sut xut hin A i vi B( hay xỏc xut chuyn tip t B n A) Mt chui q c gi l chui Markov, tha thuc tớnh ca Markov, trng thỏi tip theo ch ph thuc vo trng thỏi hin ti v khụng ph thuc vo trng thỏi no quỏ kh õy c gi l mụ hỡnh Markov bc HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing Mụ hỡnh Markov bc 2: l mụ hỡnh c to trờn c s trng thỏi hin ti qt ph thuc v hai trng thỏi lin k trc ú Mụ hỡnh Markov n gin cho d bỏo thi tit Thi tit mt ngy cú th ri vo mt ba trng thỏi sau: S1: ma S2: mõy mự S3: nng S1 S1 A = {aij } = S2 S3 S2 S3 0.4 0.3 0.3 ữ 0.2 0.6 0.2 ữ 0.1 0.1 0.8 ữ HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing Vớ d : Xác suất vào (phù hợp model) để thời tiết ngày nối tiếp "0= mặt trời - mặt trời - ma - ma - mặt trời - có mây - mặt trời ? Cách giải Chúng ta định nghĩa việc quan sát, O nh : O= = (nắng, nắng, nắng, ma, ma, nắng, mây, nắng ) (3, Ngày 3, 3, 1, 1, 3, 2, ,3 ) ối yêu cầu điều kiện thời tiết kỳ ngày muốn tính toán P (O/ Model) xác suất việc quan sát O, da vo mụ hỡnh d bỏo thi tit nh trờn Chúng ta trực tiếp gây P (O/ Model) nh : 0,4 A(aij ) = 02 0.1 0.3 0.3 0.6 0.2 0.1 0.8 P(O/Model) = P [3,3,3,1,1,3,2,3|Model] = P [3]P[3|3]2P[1|3]P[1|1] P[3|1]P[2|3]P[3|2] = 3.(a33)2a31a11a13a32a23 = (1.0)(0.8)2(0.1)(0.4)(0.3)(0.1)(0.2) = 1.536x10-4 õy sử dụng i = p [ q1 = i] i N Hidden MarKov Models (HMM)- Mụ hỡnh Markov n Mụ hỡnh trc gi s rng mi trng thỏi cú th l nht tng ng vi mt bng chng quan sỏt c Khi cú c mt quan sỏt, trng thỏi nhn c ca h thng s tr thnh vụ giỏ tr(khụng cũn nhiu ý ngha s dng) Mụ hỡnh ny quỏ hn ch gii quyt cỏc trong thc t xõy dng mt mụ hỡnh linh ng hn, chỳng ta gi s rng nhng quan sỏt c ca mụ hỡnh l mt hm xỏc xut ca mi trng thỏi HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing Mi trng thỏi cú th to mt s u da trờn phõn b xỏc xut v mi u riờng bit cú th cú kh nng c to bi mt trng thỏi no ú Mụ hỡnh Markov n (HMM), bi vỡ chui trng thỏi khụng th quan sỏt trc tip, nú ch cú th xp x gn ỳng vi cỏc chui quan sỏt c h thng a Gi s bn cú mt mỏy bỏn nc ngt t ng: nú cú th trng thỏi, chn cola (CP) v chn iced tea (IP), nú chuyn trng thỏi ngu nhiờn sau mi ln mua hng, nh sau: NOT OBSERVABLE Ma trn xỏc xut u Cú u quan sỏt c : cola, iced Tea, lemonade Nh vy mụ hỡnh Markov n cho mt mỏy bỏn nc ngt t ng s l Vớ d 1: d bỏo thi tit Cỏc trng thỏi cú th quan sỏt c: Ly li- m t- khụ- khụ hanh Cỏc trng thỏi n: Nng mõy mự- ma HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing Vớ d 2: nhn dng ting núi Cỏc thnh phn ca HMM qt - Trng thỏi thi im t ot= (ký hiu) Quan sỏt ti thi im t = {i} Phõn b trng thỏi ban u A = {aij} Phõn b xỏc xut chuyn trng thỏi B = {bik} Phõn b xỏc xut kớ hiu quan sỏt c theo trng thỏi HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing HMM c xỏc nh bi thnh phn ( S , O, , A, B) 1- Tp hp cỏc trng thỏi n: N: s trng thỏi, St trng thỏi ti thi gian t S = {1, 2, , N } 2- Tp hp cỏc kớ hiu quan sỏt c, M:s kớ hiu quan sỏt c O = {o1 , o2 , , oM } 3- Phõn b trng thỏi ban u = { i } i = P( s0 = i) i N 4- Phõn b xỏc xut chuyn trng thỏi A = {aij } aij = P ( st = j | st = i ), i, j N 5- Phõn b xỏc xut kớ hiu quan sỏt c theo trng thỏi B = {b j (k )} b j ( k ) = P ( X t = ok | st = j ) j N ,1 k M Túm li, cỏc thnh phn ca HMM gm: tham s khụng i v kớch c: N v M (tng s trng thỏi v tng s kớ hiu quan sỏt c S,O) hp phõn b xỏc xut: A, B, Ba bi toỏn c bn ca HMM Bi toỏn 1: (Evaluation problem- Bi toỏn c lng) Cho dóy quan sỏt O = (o1o2 oT ) v HMM - ( hay ) hóy xỏc nh xỏc sut sinh dóy t mụ hỡnh P(O| ) Bi toỏn 2: (Decoding problem- Bi toỏn gii mó) Cho dóy quan sỏt O = (o1o2 oT ) v HMM- , hóy xỏc nh dóy chuyn trng Q =(q1q2 qT ) cho xỏc sut sinh O ln nht (optimal path).õy chớnh l bi toỏn xỏc nh dóy chuyn trng thỏi gn ỳng nht Q =(q1q2 qT ) ca mụ hỡnh to cỏc quan sỏt O Bi toỏn 3: (Learning problem- Bi toỏn hun luyn) Hiu chnh HMM - cc i hoỏ xỏc sut sinh X P(O| ) (tỡm mụ hỡnh khp dóy quan sỏt nht.) Bi toỏn 1: (Evaluation problem- Bi toỏn c lng) HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing Cho dóy quan sỏt O = (o1o2 oT ) v HMM - ( hay ) hóy xỏc nh xỏc sut sinh dóy t mụ hỡnh P(O| ) thc hin bi toỏn ny ta nghiờn cu thut toỏn lan truyn xuụi Straightforward tớnh xỏc xut gn ỳng P(O| )ca chui quan sỏt O = (o1o2 oT ) ca HMM- , cỏch d thy nht l ly tng xỏc xut ca tt cỏc cỏc chui trng thỏi: p dng gi thuyt Markov: p dng gi thuyt u c lp: HMM v ng dng HMM nhn dng ting núi Trang Computer Based Automatic Speech Processing HMM v ng dng HMM nhn dng ting núi Trang 10 Computer Based Automatic Speech Processing phc thi gian: O(N2T) phc khụng gian: O(NT) Thut toỏn truyn xuụi ngc Cho cỏc thụng s ntruyn ngc nh bng di Vy ta cú: HMM v ng dng HMM nhn dng ting núi Trang 11 Computer Based Automatic Speech Processing Bi toỏn 2: Thut toỏn Viterbi(Decoding problem) Cho dóy quan sỏt O = (o1o2 oT ) v HMM- , hóy xỏc nh dóy chuyn trng Q =(q1q2 qT ) cho xỏc sut sinh O ln nht (optimal path).õy chớnh l bi toỏn xỏc nh dóy chuyn trng thỏi gn ỳng nht Q =(q1q2 qT ) ca mụ hỡnh to cỏc quan sỏt O Mc tiờu ca bi toỏn ny l ta i tỡm giỏ tr maxP(Q|O,) ó cú c chui quan sỏt O = (o1o2 oT ) v HMM- Quy trỡnh thc hin thut toỏn Viterbi thc hin nh sau: - Dóy quan sỏt O = (o1o2 oT ) v HMM- - ng vi dóy chuyn i trng thỏi Q =(q1q2 qT ), Xỏc sut quan sỏt O = (o1o2 oT ) v HMM- l HMM v ng dng HMM nhn dng ting núi Trang 12 Computer Based Automatic Speech Processing HMM v ng dng HMM nhn dng ting núi Trang 13 Computer Based Automatic Speech Processing Quy trỡnh: Bi toỏn 3: Thut toỏn Baum-Welch(Learning problem) Hiu chnh HMM - cc i hoỏ xỏc sut sinh Q P(O| ) (tỡm mụ hỡnh khp dóy quan sỏt nht.) HMM v ng dng HMM nhn dng ting núi Trang 14 Computer Based Automatic Speech Processing K vng tỡm c dóy chuyn trng thỏi Q theo P(O| ) Để miêu ta lại trình tham số HMM, phải định nghĩa t (i,j), khả i thời điểm t j điểm (t + 1) đa dạng chuỗi HMM v ng dng HMM nhn dng ting núi Trang 15 Computer Based Automatic Speech Processing t (i) khả i điểm t chuỗi quan sát hoàn toàn dạng Chúng ta nối t (i) với t(i,j) cách tính qua j ng dng HMM t ng nhn dng ting núi- ASR HMM v ng dng HMM nhn dng ting núi Trang 16 Computer Based Automatic Speech Processing Nhng yu t nh hng n ASR - Tỡnh khỏc - Kiu khỏc nhau: nhn dng t riờng bit d hn nhn dng mt chui t, nhn dng c d hn nhn dng hi thoi - Ngi núi núi khỏc nhau: speaker-independent VS speaker-dependent - Mụi trng khỏc nhau: nhiu nn Nhim v ca nhn dng ting núi l nhn u vo súng õm v u l chui ca cỏc t Vi mt chui õm nhn c O = (o1o2 on ) Nhim v ca ASR l tỡm chui W = (w1w2 wn ) t tng ng cú xỏc xut posterior P(W|O) Acoustic Model Language Model Cu trỳc ca mt mụ hỡnh nhn dng ting núi n gin HMM v ng dng HMM nhn dng ting núi Trang 17 Computer Based Automatic Speech Processing Mụ hỡnh thụng dng nht dựng cho ting núi l constrained (min cng), cho phộp mt trng thỏi chuyn i thnh chớnh nú hoc thnh mt trng thỏi khỏc HMM v ng dng HMM nhn dng ting núi Trang 18 Computer Based Automatic Speech Processing HMM v ng dng HMM nhn dng ting núi Trang 19 [...]... problem) Hiu chnh HMM - cc i hoỏ xỏc sut sinh Q P(O| ) (tỡm mụ hỡnh khp dóy quan sỏt nht.) HMM v ng dng HMM trong nhn dng ting núi Trang 14 Computer Based Automatic Speech Processing K vng tỡm c dóy chuyn trng thỏi Q theo P(O| ) Để miêu ta lại quá trình tham số HMM, đầu tiên chúng ta phải định nghĩa t (i,j), khả năng i tại thời điểm t và j tại điểm (t + 1) đa ra dạng và chuỗi HMM v ng dng HMM trong nhn dng... tr maxP(Q|O,) khi ó cú c chui quan sỏt O = (o1o2 oT ) v HMM- Quy trỡnh thc hin thut toỏn Viterbi thc hin nh sau: - Dóy quan sỏt O = (o1o2 oT ) v HMM- - ng vi dóy chuyn i trng thỏi Q =(q1q2 qT ), Xỏc sut quan sỏt O = (o1o2 oT ) v HMM- l HMM v ng dng HMM trong nhn dng ting núi Trang 12 Computer Based Automatic Speech Processing HMM v ng dng HMM trong nhn dng ting núi Trang 13 Computer Based Automatic... mt mụ hỡnh nhn dng ting núi n gin HMM v ng dng HMM trong nhn dng ting núi Trang 17 Computer Based Automatic Speech Processing Mụ hỡnh thụng dng nht dựng cho ting núi l constrained (min cng), cho phộp mt trng thỏi chuyn i thnh chớnh nú hoc thnh mt trng thỏi khỏc HMM v ng dng HMM trong nhn dng ting núi Trang 18 Computer Based Automatic Speech Processing HMM v ng dng HMM trong nhn dng ting núi Trang 19... trong nhn dng ting núi Trang 15 Computer Based Automatic Speech Processing t (i) là khả năng i tại điểm t là 1 chuỗi quan sát hoàn toàn và là 1 dạng Chúng ta có thể nối t (i) với t(i,j) bằng cách tính qua j 5 ng dng HMM trong t ng nhn dng ting núi- ASR HMM v ng dng HMM trong nhn dng ting núi Trang 16 Computer Based Automatic Speech Processing Nhng yu t nh hng n ASR - Tỡnh hung khỏc nhau - Kiu khỏc nhau:... thi gian: O(N2T) phc tp khụng gian: O(NT) Thut toỏn truyn xuụi ngc Cho cỏc thụng s ntruyn ngc nh bng di Vy ta cú: HMM v ng dng HMM trong nhn dng ting núi Trang 11 Computer Based Automatic Speech Processing Bi toỏn 2: Thut toỏn Viterbi(Decoding problem) Cho dóy quan sỏt O = (o1o2 oT ) v HMM- , hóy xỏc nh dóy chuyn trng Q =(q1q2 qT ) cho xỏc sut sinh O ln nht (optimal path).õy chớnh l bi toỏn xỏc nh ... oT ) v HMM- Quy trỡnh thc hin thut toỏn Viterbi thc hin nh sau: - Dóy quan sỏt O = (o1o2 oT ) v HMM- - ng vi dóy chuyn i trng thỏi Q =(q1q2 qT ), Xỏc sut quan sỏt O = (o1o2 oT ) v HMM- l HMM v... trng thỏi Q theo P(O| ) Để miêu ta lại trình tham số HMM, phải định nghĩa t (i,j), khả i thời điểm t j điểm (t + 1) đa dạng chuỗi HMM v ng dng HMM nhn dng ting núi Trang 15 Computer Based Automatic... t (i) khả i điểm t chuỗi quan sát hoàn toàn dạng Chúng ta nối t (i) với t(i,j) cách tính qua j ng dng HMM t ng nhn dng ting núi- ASR HMM v ng dng HMM nhn dng ting núi Trang 16 Computer Based