Trang 2 ------PHẠM QUANG DUYNGHIÊN CỨU PHÁT TRIỂN HỆ THỐNGNHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNGLUẬN VĂN THẠC SỸ KHOA HỌCKỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓ
Trang 2- -PHẠM QUANG DUY
NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG
LUẬN VĂN THẠC SỸ KHOA HỌC
KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Mạc Đăng Khoa
Hà Nội – 2018
Trang 4DANH M C HÌNH Ụ Ả NH
v c u t o b ph n phát âm i(Huang et al., 2001a) 5
: Bi d ng sóng c a s kh u c a l 6
: Ph c a l 7
: Cu trúc c a m t h nh n d ng ti ng nói(Jurafsky and Martin, 2000) 11
: Ví d mô hình Markov (B.H Juang, Lawrence R Rabiner, 2005) 13
: Mô hình HMM t (Jurafsky and Martin, 2000) 16
: Mô hình Markov n cho b t v ng là các s (Jurafsky and Martin, 2000) 17
: Quá trình nh n d ng chu n t tín hi u ti ng nói(Jurafsky and Martin, 2000) 17
: Mô hình phi tuy n c a m t m ng Neuron 18
: Hình nh ng d ng Google Assistant 23
: Hình nh ng d ng Siri 24
: ng d ng Alice 25
: ng dn tho i Samsung 25
: ng d ng cotana 26
: ng d ng danh b c a Google Contact 29
: Kin trúc Sphin4 (Huang et al., 1993) 32
:VD Search Graph (Huang et al., 1993) 32
: Phân b d li u ti dài câu 34
: n ng d ng voicetrans 35
: Màn hình ho ng ng d ng Voicetrans 35
: Quy trình thu th p d u 37 li m quá trình nh n d ng 39
: Bi use case v chg ph n m m Voice Contact 41
trình t (Sequence Diagram) ng d ng Voice Contact 43
: quy trình ph n m m Voice Contact 44
: Hình nh ho ng ca ng d ng Voice Contact 45
: Màn hình chi tit danh b 46
: quá trình t o mô hình ngôn ng b ng công c CMUclmk 55
Trang 5DANH M C B Ụ Ả NG
B ng 1.1 :C u t o âm tit ca ting Vi (Bùi Tt 8
B ng 3.1 c l y t báo vi thng 34
B ng 3.2: B ng phân b i nghi âm theo vùng mi n 36
B ng 3.3: Th nghi m và k t qu i s v ng th i gian training khác nhau 38
B ng 3.4: K t qu nh n d ng 40
B ng 4.1: T l ra lnh thành công 47
Trang 6DANH M Ụ C Ừ VIẾ T T T T VÀ THU T NG Ắ Ậ Ữ
HMM : Hidden Markov Model
GMM : Gaussian Mixture Model
DNN : Deep Neural Network
CMU : Carnegie Mellon University
CME : Minimum Classification Erro
DTW : Dynamic Time Warping
ASR : Automatic Speech Recognition
MMI : Maximum Mutual Information
MLLR : Maximum Likelihood Linear Regression
PMC : Parallel Model Combination
ATIS : Air Travel Information Service
Trang 7M C L C Ụ Ụ
LỜ I CẢM ƠN iii
DANH MỤC HÌNH ẢNH iv
DANH M C B NGỤ Ả v
DANH M C T VIỤ Ừ ẾT TẮT VÀ THU T NG vi Ậ Ữ MỤ C LỤC vii
M Ở ĐẦU 1
Chương 1. T NG QUAN V X LÝ TI NG NÓI VÀ NH N D NG Ổ Ề Ử Ế Ậ Ạ TIẾNG NÓI 5
1.1 Ting nói và bi u di n ti ng nói 5
1.2 Ting Vi t và ng âm ti ng Vi t 7
1.3 Nhn d ng ti ng nói 10
1.3.1 Mô hình chung h thng nh n d ng ti ng nói 10
1.3.2 n 12
1.3.2.1 Gaussian Mixture Model Hidden Markov Model (GMM-HMM) 1.3.2.2 Deep Neural Network (DNN) 18
1.3.2.3 La chn mô hình phù h p cho bài toán 19
1.3.3 Gii thiu công c framework s n có cho nh n d ng ti ng nói 20
1.4 Nhn d ng ti ng nói cho ti ng Vi t 20
1.5 Kt lun 21
Chương 2. NH N D NG TI NG NÓI TRÊN THI T B Ậ Ạ Ế Ế Ị DI ĐỘNG VÀ ỨNG D NG CHO DANH B 23 Ụ Ạ 2.1 ng d ng nh n d ng ti ng nói cho danh b n tho i 23
2.1.1 Mc tiêu ng d ng 23
2.1.2 Mt s s n ph gi i 23
2.1.3 26
Trang 82.2 xut gii pháp 27
2.2.1 Các v c n ph i gi i quy t 27
2.2.2 xut gii pháp 28
Chương 3. XÂY D NG MÔ HÌNH NH N D NG TI NG VI T CHO Ự Ậ Ạ Ế Ệ ỨNG D NG DANH B 30 Ụ Ạ 3.1 Công c CMU SphinX 30
3.2 Xây d d u hu n luy n 33li 3.2.1 Xây d ng d lin 33
3.2.2 Xây d ng ph n m m thu âm d u ti li n tho i 34
3.3 Xây d ng mô hình âm h c 38
3.4 Thích nghi t n nh n d ng cho ng d ng danh b 39
Chương 4 XÂY D NG NG D NG DANH B ĐI N THO Ự Ứ Ụ Ạ Ệ ẠI TƯƠNG TÁC BẰNG TI ẾNG NÓI TIẾNG VIỆT 41
4.1 Phân tích 41
4.2 Thit k 42
4.3 Trin khai 45
4.4 Th nghigiá 47
Chương 5. K T LU N 49 Ế Ậ TÀI LIỆU THAM KH O 51 Ả PHỤ LỤC 53
Trang 9M Ở ĐẦ U
Nhn d ng ti ng nói hi c nghiên c u và phát tri n nhi u công
u trung tâm nghiên c u khác nhau Hi n nay công ngh nh n d ng ting thành t Ví d s ki n Google I/O 20181,
ph n m m Google assitant n kh giao ti p v i nhân viên ho c khách hàng hoàn toàn t ng b ng ti ng nói thì công ngh
nh n d ng ti ng nói c a Google có th nói c m c ch
ng v hi u l i nói c i Ngoài tìm
thy r t nhi u các h th ng nh n d ng ti ng c gi i thi u và ng d ng trong nhiIBM Watson Speech to Text2,Nuance Dragon3,
Ngoài ti ng Anh, công ngh nh n d ng ti c nghiên c u và phát tri n m nh m v i các ngôn ng ph bi t, Hàn , Trung, Pháp Công ngh nh n d ng ti ng vi t c b u nghiên c u và phát tri n t nh
2000 v i nhi u nghiên c u t khác nhau n CNTT, vi n Hàn lâm KH&CN Vi t Nam, AILab i h HCM, Vi n NCQT
i h c Bách Khoa Hà N i G êm s tham gia nghiên c u phát trin s n ph m c a các t lFPT Tiêu bi u là s n ph m c 4 c
Thi bu i hi n tho thành v t không th thi u v i
m i chúng ta.Trong m c ng d ng công ngh nhn d ng ti ng nói trên các thi t b ng ngày càng tr nên ph bi n, v i nhi u s n ph c phát tri n b i các hang công ngh l Google Voice search, Google Assistant5, Apple Siri6 , Samsung xbBi y 7
Tuy nhiên, công ngh nh n d ng ti ng nói khi ng d ng trên thi t b ng
h y h t là theo ki n trúc Client-Server.R t ít h thng hong hoàn toàn trên thit
b ng, b i các h thng nh n d ng khá n ng và chi m tài nguyên Tuy nhiên h thng nh n d y l m l n là luôn ph i k t n i m ng
Trang 10trên thi t b c bi t Vic phí 3G khá cao, nên v i nh ng tác
v ng xuyên thì không th s d ng 3G liên t c Vic luôn ph i g i d u li
v o m i dùng.b t i v
Vi bi cnh trên, luc th c hi n v i hai m c tiêu chính:
Tri c h th ng nh n d ng ti ng Vi t v n hành hoàn toàn trên thi t b ng (ch y offline không c n k t n i internet)
ng d ng tích h p nh n d ng ti ng nói cho ng d ng danh b trên
v i danh b m i mn, tên riêng, vit
Trang 11.Chương 1.Tổng quan v x lý ti ng nói và nh n d ng ti ng nói ề ử ế ậ ạ ế
8 http://vtcc.vn/
Trang 13Chương 1 T NG QUAN V X LÝ TI NG NÓI VÀ NH N Ổ Ề Ử Ế Ậ
D NG TI NG NÓI Ạ Ế
1.1. Tiếng nói và biể u diễn tiếng nói
M u có m t h thng phát ra âm thanh hay còn g i là ti n c a ti i thông qua hít th thô y t ph i qua khí qu n và làm rung các dây thanh qu c ng ng tu khoang h ng, khoang mi ng, và c
Âm thanh (hay ti ng nói) m i s khác nhau b khác nhau v các b
ph n phát am (mi i, )
1.1: v c u t o b ph n phát âm i(Huang et al., 2001a)
V i kho ng th i gian ng n (t n 100ms) tín hi u ti ng nói có th coi là
bii chm theo th m tính cht ca nó khá nh
Tuy nhiên v i nh ng kho ng th i gian xét l m
ca tín hiu có s i phn ánh s khác nhau c a các t c nói
Các s ki n chính khi m t t c phát ra có th c phân lo i (dán nhãn) theo mn là:
● Yên lng (S silence): c phát ra
● Không âm (U unvoice): Khi dây thanh qu n không rung
Trang 14● Âm (V voice): Khi dây thanh qu n rung và t o các tín hi u âm thanh
gi tun hoàn (ti ng nói)
Mt cách biu di n khác c a tín hiu âm thanh là thông qua ph t n s
1.2: Bi d ng sóng c a s kh u c i a l
(Huang et al., 2001b)
Trang 151.3: Ph c a l
1.2. Tiếng Việt và ng âm tiữ ế ng Việt
Ting Vi t là ngôn ng t(Bùi T , t c là các t khi
vi t ra ch c lên thành m t ti ng, không có t nào (thu n Vi t) phát âm t 2 ti ng
tr lên.
M t t ng có c u t o g m 2 ph n : Nguyên âm V (vowel) và ph âm C
c k t h t o nên t ti ng Vi t:
- C+V (ph âm + nguyên âm) Ví d : b , m , ca
- C+V+C (ph âm + nguyên âm + ph âm) Ví d : tôi , b n , mãi
- V+C (nguyên âm + ph âm) Ví d : ôm, p , ép
Trong ti ng Vi t, ngoài 2 thành ph n chính là nguyên âm, ph âm, chúng ta còn có các thành ph n khác giúp cho Vi t phân lo i trong âm ti t tr nên rõ ràng
h p âm, tam h p âm, ph âm kép
V i ti ng Vi t, t vi c h c chúng ta ph i n m v ng các nguyên âm, ph âm,
nh h p âm, tam h p âm, ph âm kép, ta có quy t c ghép n i các thành
Trang 16ph t o thành âm ti t ho c m t t i tiv m t t ng Vic Vi t ra,
ta s c c a t ng quy t c k t h p trên V i m t t vi t ra mà không theo quy tc k h nh s n trong ti ng Vi t, thì không th ta c
t t trong ti ng Vi t ch có m c (tr
ng h p ti ng vùng mi i ti ng Anh (VD: present có 2
c), không có quy tnh trong vi c t o ra m t t , m t t ch t n t i khi
nó xu t hi n trong t c c a t thì m i có th c
B ng ch cái ti ng Vi t ta có 29 ch cái n Thu t, 1977)theo th t
lt sau:
[a, ă, â, b, c, d, đ, e, ê, g, h, i, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ƣ, v, x, y]
chia làm hai ph n: Nguyên âm (M u t chính) và ph âm (m u t ph )
- Nguyên âm: Trong ti ng Vi
i liên h ph c t p gi a nguyên âm và cách phát âm c a chúng V i m t nguyên âm có nhi u cách phát âm khác nhau, tùy theo nó nu khi các cách vi t nguyên
Trong ti ng Vi t, các âm ti t có c u trúc r t ch t ch , m i âm v có m t v trí
nhnh trong âm ti t Theo m t s nhà nghiên c u âm v h c trong ti ng Vi t, âm
Trang 17T i v trí th nht trong âm ti u này có ch u âm ti t Nhng âm ti t mà chính t im, emc m u b ng
t ng t, gây nên m t ti ng b ng tác m u y có giá tr t ph âm và ta g i là âm t c thanh h u (kí hi u: /?/)
y, âm ti t trong ti ng Vi t luôn luôn có m u (ph u) Vi
nh ng âm ti t mang âm t c thanh h a nêu trên thì trên ch vi c ghi ly v trí xu t hi n c a nó trong âm ti t là zero, trên ch vi t nó th
C v ng trong ti ng Vi t ch gi i h n t 6000-8000 t , tuy nhiên vti i các t trong ti ng Vi t s c biu di n âm bao g m:
Ph ug m 22 ph n t : ,
,h, /
m : /w/
Âm chính g m 16 ph n t : , , , uo/
Âm cu i g m 6 ph âm: , 2 bán nguyên âm/- - w, j/.
u
u ng r t nhi n ti chia các nguyên âm ra các
ng hguyên âm) ta s m i nguyên âm s có 6
ng vu T âm c n hu n luy n s kho ng 137
âm Vic hu n luy n là hu n luy n theo âm v (137 âm v ) t m ginhi u so v i hun luy n 6000-8000 t khác nhau
Trang 181.3. Nhận dạng tiế ng nói
1.3.1 Mô hình chung h ệ thống nhận d ng ti ng nói ạ ế
Nhn d ng ti ng nói là m t h th ng t o kh chuy n ti
b n V b n ch i tín hic ci nói
n tho i ho c các thi t b khác thành m t chu i các t K t
qu c a quá trình nh n d ng có th c ng du khi n thi t b , nh p
d u, so n th li n b ng l i, quay s n tho i t ng ho i mt quá trình x lý ngôn ng m
Mt cách t n ng ti p c n m t h thng nh n d ng ti ng nói :
- Ng âm- âm h c (Acoustic-Phonetic)
- Nhn d ng m u (Pattern- recognition)
- S d ng t rí tu nhân t o (Artifical Intelligence)
âm - âm h c(Acoustic-Phonetic) d a trên nh ng lý thuy v âm h c và ng âm cho r ng có h u ht âm h c riêng bi t trong
m t ngôn ng và do v y có th i m t t p các thu c tính bi u hi n trong tín hi u ti ng nói ho c bi u di n ph c u tiên c
m u thành ph n c a ti ng nói mà không quan tâm nhi c tính v m t
ng âm Trong h u h t các thu t toán nh n d ng m c chính là hu n luy n và nh n d ng
d ng trí tu nhân t o (Artifical Intelligence) pháp m i nh t, tuy nhiên các thông tin v n ch , v n còn
c nghiên c u và phát tri n
Trang 19n tha h c xây d ng qua th t c hu n luy n H ghi nh n
c tính c a các tín hi u ti Tín hi u c c nh n d ng s t qu có xác su t g n
Representation là b ph n chuy i các tín hi u ti ng nói thành
K t qu c sau quá trình này là t c
c t o d ng thành 1 hay nhi c gc
, bi u di ng nói ph bi n nh c áp d ng trong nh n
d ng ti
Search là b ph n tìm ra chu ng vu di n tín hi u ti c trích ra b i b Representation B c xây d ng
d a trên ba mô hình là mô hình âm h c (Acoustic Model), mô hình t v ng
Trang 20(Lexical model) và mô hình ngôn ng (Language Model) có th thc hi n vi c
c h t h th ng ph c hu n luy n (training) và xây d c
i có th so sánh v i các tham s nh n d ng Trong quá trình hu n luy n, h th
ng, tính toán các tham s cho các m c g i là m u tham kh o) M t
m u tham kh o chính là b n m so sánh và nh n d ng, các m u tham kh o này mô ph ng cho m t t , m t âm ti t, hoc th m chí m t âm v
Trong quá trình nhn di các
m u tham kh c xây d ng th ng (likelihood) cu tham kh o Vi
c th c hi n b ng cách áp d ng các thu c ch ng minh
hi u qu t toán Vitertbi (trong Hidden Markov Model) M
ng cao nh c cho là k t qu c a quá trình nh n d ng
1.3.2. Các phương pháp cơ bản
Nhn d ng ti ng nói t ng (Automatic Speech Recognition AS i
m qua các h th thành tu n i b t :
Cun d ng ti ng nói liên t c b
và truy v t lùi tìm k t qu c a tác gi Reddy i h c CMU (M )(Sadaoki Furui, 2005)
n nh i Nga và Nh t ,Velichko và Zagoruyko ( Nga) là nh c áp d ng v phân l p m u cho n này là Harpy và Hearsay-
II ci hc CMU-M , h thng HWIM c a BBN (Sadaoki Furui, 2005)
Trang 21n th p k 80, chuy n t cách ti p c i sánh m u sang cách ti p c n s
d ng mô hình th ng kê H u h t các h thu d a trên mô hình th ng kê
c phát tri n th p k này, cùng v i nhi u c i ti n th p k 90 Tuy nghiên công trình quá tr ng nh n này là mô hình Markov n (Hidden Markov Model HMM) Các h th i trong th i gian này có th k n: h thng Sphinx c i h c CMU, Byblos c a công ty BBN, Decipher c a vi n SRI,
và các h thng khác ca Lincoln Labs, MIT và AT&T Bell Labs
Thp niên 90 phát tric phân l p m u , t y sinh m t s t
n luyn riêng bi t (Discriminative Training) V i hai d ng
n hình c a phép hu n luy n này là: CME (Minimum Classification Error) và MMI (Maximum Mutual Information) K t h p vái các k thu t nh n d ng d liu nhi u MLLR (MaximumLikelihood Linear Regression), PMC (Parallel Model Combination) (Sadaoki Furui, 2005) Các s n ph m n i b n này là : h thng tr l i thông tin t ng cho các chuy n bay (Air Travel Information Service ATIS), h thng ghi l i các b n tin phát than (Broadcast News Transcription System)
n nhu th k 21, các công trình t p trung nghiên c u vào vi c nâng cao k t qu nh n d ng ti ng nói V Affordable Reusable Speech- -Text) (Sadaoki Furui, 2005) to
n hi n nay, các h th ng nh n d ng ti ng nói ch y c phát tri n
v i hai k thut chính là : Gaussian Mixture Model Hidden Markov Model (GMM-HMM) vàDeep Neural Network (DNN)
1.3.2.1 Gaussian Mixture Model Hidden Markov Model (GMM-HMM) –
1.5 : Ví d mô hình Markov(B.H Juang, Lawrence R Rabiner, 2005)
- x Các tr ng thái trong mô hình Markov
Trang 23Vấ n đ ề c a HMM ủ
1 (Computing likelihood Cho chu i quan sát O = O): 1O2T , và mô hình
= (A,B, ), làm sao ta có th tính m t cách hi u qu xác su t P(O| )?
2 ( Decoding): Cho chu i quan sát O = O 1O2T , và mô hình
chc chui Q = q1q2T tt
3 ( Learning): i các tham s c a = (A,B, xác sut P(O|t c i ?
Mô hình ngôn ng N-gram ữ
Mô hình ngôn ng N-gram là m t mô hình xác su t có kh xut
hi n c a m t t d a trên N-1 t t hi n t t chu i các t w1,w2, ,wn hay vi t g n là wn và xác su t xu t hi n c a chu i t này là P(w1,w2, ,wn) hay P(wn) là chui n t xu t phát t w1 Bài toán c a ta là tính xác xut n-1 t
1 (wk w )
Trang 24Cui cùng thay k t qu c a (1.3.2.4) vào (1.3.2.2) ta s c xác su t xu t hi n
ca chui các t w1,,,wn
Áp dụ ng mô hình Markov n cho nh n dạ ẩ ậ ng ti ng nói ế
Trong mô hình chung c a nh n d ng ti c s d
mô hình hóa t ng âm Có nhi u cách tri n khai áp d ng mô hình Markov n khác nhau, n nh t là m i âm v c mô hình b i m t
mô hình Markov n ba tr ng thái,m i tr ng thái ch có th chuy n sang tr ng thái k tip ho c l i là chính nó M t t c phiên âm là m t chu i các âm v
m t t s c mô hình hóa b ng cách ghép n i các mô hình Markov ba tr ng thái
c a các âm v c u thành nên t
1.6 :Mô hình HMM t (Jurafsky and Martin, 2000)
Hình 1.6 mô t mô hình Markov n áp d ng cho t six v i phiên âm c a t /s ih k s/ M t âm v c mô hình hóa b i mô hình Markov n ba tr ng thái, ví d
âm v c mô hình hóa b i mô hình Markov n v i ba tr ng thái là s b,s ,sm t Hình 1.6 mô t m t mô hình t v c xây d ng trên mô hình Markov n, v i các chu i tr ng thái tính t ng thái b tr n tr ng thái k t thúc mô t m t t trong t n
Trang 251.7 :Mô hình Markov n cho b t v ng là các s (Jurafsky and Martin, 2000)
hóa b t v ng b ng mô hình Markov n, mô hình ngôn ng
b ng mô hình N-gram và mô hình âm h c b ng mô hình Markov- Gaussian nhiu chic m t h th ng có th coi hoàn ch nh c a m t b ASR Hình 1.8 cho
ta th nh n ra m t chu n t tín hi u ti u vào
1.8 :Quá trình nh n d ng chu n t tín hi u ti ng nói(Jurafsky and
Martin, 2000)
Trang 261.3.2.2 Deep Neural Network (DNN)
M t m ng Neuron là m t mô hình lp trình r t hay ly cm hng t m-ron
thn kinh Kt hp vt hc sâu (Deep Learning - DL thành mt
công c rt mnh m mang li hi u qu tt nht cho nhin ging nói hay x lý ngôn ng t nhiên
1.9 : Mô hình phi tuy n c a m t m ng Neuron
V c gán các tr ng s t qu output y s c tính:
N
i i=1
w i
y f x
ng n i hay offset
Trang 27Nhữ ng đi ểm m nh c a ki n trúc m ng Neuron ạ ủ ế ạ
Có th th c hi n m t kh ng tính toán song song l n Nh c u trúc c a
n, thu n l c lp
Các nút trong cùng 1 l p không ng l n nhau, nên m ng ít b nh
ng b i s ng không t t c a các ph n t riêng l trong m ng
Kh c, các h s u có th c i thi n thông qua quá trình h c, t o cho
c tính l i c a hàm phân ph i Gauss
DNN có th p nh n nhi u lo ti u vào khác nhau Trong
nh n d ng ti ng nói, ch c n n i nói (ivector) vào vector ti t c
u vào cho m ng DNN
Tuy nhiên DNN l có m t s h n chi phát tri n trên tr
n n t n, m i ch phát tri n cho h thng nh n d ng trên máy tính Vì th u ki n nghiên c u , nên tác gi d ng mô hình HMM-
mô hình ph bi n và g n nh phù h p v i n n t n tho
ng Ngoài ra nguyên nhân chính ta ch
la chn (Sphinx) b i hi n t i Sphinx m i h tr n mô hình HMM-GMM
Trang 281.3.3. Giới thiệu công c framework s n có cho nhụ ẵ ậ n dạng ti ng nói ế
u tiên ph n t framework ph bi n nh c nhii s d ng nht bi mt s m ni bt:
Có th nh n d ng liên t c, có th s d
Cho phép ta d ng nhi u ki u t v ng l n nh
Có th làm vi c l p v i b t c i nói nào
Là mt h thng mã ngu n m phát tri n trên Java
Ti n là HTK (Hidden Markov Model Toolkit) là m t b công c ph n
m c quy x lý các HMM Nó ch y u dành cho nh n d ng gi ng nói,
c s d ng trong nhi u ng d ng nh n d ng m u khác s d ng HMM, bao g m t ng h p gi ng nói, nh n d ng ký t và trình t DNA Tuy nhiên hi n nay
n n t ng này v t h n ch v m t license , khi áp d ng cho
mi nên framework này rt khó th s d ng
Julius là b công c phn m m gi i mã nh n d ng gi ng nói liên t c t v ng kép hi u su t cao Nó có th thc hi n gi i mã h u h t th i gian th c trên h u h t các máy tính hi n t i trong nhi m v chính t t 60k s d ng t 3-gram và HMM
ph thuc vào ng c nh Tuy nhiên b công c này ch y c s d ng Nh t
Trang 29 Nghiên c u c a Nguy n H ng Quang (Nguyen Hong Quang et al., 2008) trên t n s n F0 và giá tr ng c a ti ng nói, nh n d ng ti ng Vi t liên
tc th c nghi m v i k t qu khá cao trên d u (kho ng 14 gi d li lit
Bên c nh các k t qu nghiên c u chuyên sâu, g u s n ph m ng
d ng công ngh nh n d ng ti ng nói cho ng Vi ti c ra m c t
Có th k n các s n ph H thng nh n d ng ti ng nói, t ng h p ti ng nói (VnVoice), h th ng d ch ti ng nói Anh-Vi c du l ch c Vin hàn a lâm Khoa h c và Công ngh Vit Nam; H thng t và ph n m m tra c u du
lch bng ti ng nói iSolar c a Phòng thí nghim v trí tu nhân ti hc khoa h c t nhiên, Tp H Chí Minh; h thng nh n d ng ti ng nói c a t FPT (FPT.AI) và Viettel
Tuy v y, vi c xây d ng m t h thng nh n d ng ng nói ti ng Vi t tri n khai hoàn ti toàn trên thi t b ng hit trong nh ng m c
t ra c tài
1.5 K ết luận
ác gi t p trung tìm hi u thành công v các mô hình nh n
d ng ti ng nói và l a ch n mô hình phù h p cho bài toán
Ch ng c a các h th ng nh n d ng ti ng nói s d ng các mô hình hc
Hidden Markov Model (GMM-HMM) ph thu c r t l n vào d li u hu n luy n Vì th c ch t có th các hàm mô t m i quan h gi a X và Y có d vector bi u di u ti ng nói c a m t câu phát âm, Y={yi}, v i yi là
Trang 30mô hình h c máy có th c m i quan h
ph i m i m t v t v ng v gi ng nói, vùng mi n Th c t cho th y ngay c i trong m t s ng h hi c cùng m t câu nói n c phát âm b i m i u
t o b máy phát âm c a m i là khác nhau nên tín hi u ti ng nói c a chúng ta nói chung là s khác nhau dù chúng ta có phát âm cùng m t câu
t p trung vào gi i quy t các v v chính xác mô hình nh n d ng và t p trung gi i quy t v nhn d ng khác nhau gi a các vùng mi n
Trang 31Chương 2 NH N D NG TI NG NÓI TRÊN THI T B Ậ Ạ Ế Ế Ị
DI ĐỘ NG VÀ NG D NG CHO DANH B Ứ Ụ Ạ
2.1. Ứng dụng nhận dạng tiế ng nói cho danh bạ điện tho i ạ
2.1.1 M c tiêu ụ ứ ng dụng
ng d ng có m c tiêu có th thay th danh b m nh vì th các ch
n qu n lý danh b s hoàn toàn gi ng v i danh b m c bi
ng d ng có th g n b ng gi ng nói , t i dùng có th không dùng tay
mà v n có th thc hic cuc gi
c công b u tiên t i Goolge I/O vào tháng 5.2016 Assistant c a Google
t phiên b n nâng c p ho c m r ng c a Google №w, cho phép
m r ng kh u khi n b ng gi ng th i m r u khi n
b ng gi ng nói N ng dùng Google №w, nó thu hút các thông tin có liên
n b n Nó bi m cu c h p, k ho ch du l ch, i bóng
Trang 32 li c trình bày trong th và qua l i nh c trên thi t b Android ca bn
V i Google №w, b n có th thc hi n các l nh tho i, tìm ki m b ng gi ng
u khi n thi t b b ng gi ng nói, cho phép b n làm nh ng vi i tin
nh n, ki m tra cu c h n trên Android V i Assistant, nó k t h p t t c nh u này cùng tri nghim AI m bi t
i nhc tích h p bên trong cùng v ng b v giúp cho google assistant x lý m nh nh t trên n n t ng android M c
dù th google assistant l i ph i s d ng m ng nên yêu c n c a nó là ph i k t
Trang 34 lý u v i Siri c a Apple Cortana
c tích h p s n trên các thi t b ch y Windows 10 tr lên và nó có th th c hi n hàng lo i SMS, g i mail, theo dõi các v , t o ghi chú,