Nghiên ứu phát triển hệ thống nhận dạng tiếng việt cho ứng dụng danh bạ trên thiết bị di động

Trang 2 ------PHẠM QUANG DUYNGHIÊN CỨU PHÁT TRIỂN HỆ THỐNGNHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNGLUẬN VĂN THẠC SỸ KHOA HỌCKỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓ

Trang 2

- -PHẠM QUANG DUY

NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG

LUẬN VĂN THẠC SỸ KHOA HỌC

KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Mạc Đăng Khoa

Hà Nội – 2018

Trang 4

DANH M C HÌNH Ụ Ả NH

    v c u t o b ph n phát âm    i(Huang et al., 2001a) 5

: Bi  d ng sóng c a s kh  u c a l      6

: Ph   c a l 7

: Cu trúc c a m t h nh n d ng ti ng nói(Jurafsky and Martin, 2000) 11      

: Ví d mô hình Markov (B.H Juang, Lawrence R Rabiner, 2005) 13

 : Mô hình HMM t  (Jurafsky and Martin, 2000) 16

 : Mô hình Markov n cho b t v ng là các s (Jurafsky and Martin, 2000)     17

  : Quá trình nh n d ng chu    n t tín hi u ti ng nói(Jurafsky and    Martin, 2000) 17

: Mô hình phi tuy n c a m t m ng Neuron 18  

: Hình nh ng d ng Google Assistant 23  

: Hình nh ng d ng Siri 24  

: ng d ng Alice 25 

: ng dn tho i Samsung 25 

: ng d ng cotana 26 

: ng d ng danh b c a Google Contact 29   

: Kin trúc Sphin4 (Huang et al., 1993) 32

:VD Search Graph (Huang et al., 1993) 32

: Phân b   d li u ti dài câu 34

 :  n ng d ng voicetrans 35

: Màn hình ho  ng ng d ng Voicetrans 35  

: Quy trình thu th p d u 37 li  m quá trình nh n d ng 39  

: Bi use case v chg ph n m m Voice Contact 41

 trình t (Sequence Diagram) ng d ng Voice Contact 43   

:  quy trình ph n m m Voice Contact 44 

 : Hình nh ho  ng ca ng d ng Voice Contact 45

: Màn hình chi tit danh b 46 

:  quá trình t o mô hình ngôn ng b ng công c CMUclmk 55   

Trang 5

DANH M C B Ụ Ả NG

B ng 1.1 :C u t o âm tit ca ting Vi (Bùi Tt  8

B ng 3.1 c l y t báo vi thng 34

B ng 3.2: B ng phân b    i nghi âm theo vùng mi n 36

B ng 3.3: Th nghi m và k   t qu i s  v ng th i gian training khác nhau 38

B ng 3.4: K t qu  nh n d ng 40 

B ng 4.1: T  l ra lnh thành công 47

Trang 6

DANH M Ụ C Ừ VIẾ T T T T VÀ THU T NG Ắ Ậ Ữ

HMM : Hidden Markov Model

GMM : Gaussian Mixture Model

DNN : Deep Neural Network

CMU : Carnegie Mellon University

CME : Minimum Classiﬁcation Erro

DTW : Dynamic Time Warping

ASR : Automatic Speech Recognition

MMI : Maximum Mutual Information

MLLR : Maximum Likelihood Linear Regression

PMC : Parallel Model Combination

ATIS : Air Travel Information Service

Trang 7

M C L C Ụ Ụ

LỜ I CẢM ƠN iii

DANH MỤC HÌNH ẢNH iv

DANH M C B NGỤ Ả v

DANH M C T VIỤ Ừ ẾT TẮT VÀ THU T NG vi Ậ Ữ MỤ C LỤC vii

M Ở ĐẦU 1

Chương 1. T NG QUAN V X LÝ TI NG NÓI VÀ NH N D NG Ổ Ề Ử Ế Ậ Ạ TIẾNG NÓI 5

1.1 Ting nói và bi u di n ti ng nói 5  

1.2 Ting Vi t và ng âm ti ng Vi t 7   

1.3 Nhn d ng ti ng nói 10 

1.3.1 Mô hình chung h thng nh n d ng ti ng nói 10  

1.3.2 n 12

1.3.2.1 Gaussian Mixture Model  Hidden Markov Model (GMM-HMM) 1.3.2.2 Deep Neural Network (DNN) 18

1.3.2.3 La chn mô hình phù h p cho bài toán 19

1.3.3 Gii thiu công c framework s n có cho nh n d ng ti ng nói 20    

1.4 Nhn d ng ti ng nói cho ti ng Vi t 20   

1.5 Kt lun 21

Chương 2. NH N D NG TI NG NÓI TRÊN THI T B Ậ Ạ Ế Ế Ị DI ĐỘNG VÀ ỨNG D NG CHO DANH B 23 Ụ Ạ 2.1 ng d ng nh n d ng ti ng nói cho danh b      n tho i 23

2.1.1 Mc tiêu ng d ng 23

2.1.2 Mt s  s n ph   gi i 23

2.1.3  26

Trang 8

2.2  xut gii pháp 27

2.2.1 Các v  c n ph i gi i quy t 27  

2.2.2  xut gii pháp 28

Chương 3. XÂY D NG MÔ HÌNH NH N D NG TI NG VI T CHO Ự Ậ Ạ Ế Ệ ỨNG D NG DANH B 30 Ụ Ạ 3.1 Công c CMU SphinX 30

3.2 Xây d  d u hu n luy n 33li   3.2.1 Xây d ng d  lin 33

3.2.2 Xây d ng ph n m m thu âm d u ti   li n tho i 34

3.3 Xây d ng mô hình âm h c 38 

3.4 Thích nghi t n nh n d ng cho ng d ng danh b 39    

Chương 4 XÂY D NG NG D NG DANH B ĐI N THO Ự Ứ Ụ Ạ Ệ ẠI TƯƠNG TÁC BẰNG TI ẾNG NÓI TIẾNG VIỆT 41

4.1 Phân tích 41

4.2 Thit k 42

4.3 Trin khai 45

4.4 Th nghigiá 47

Chương 5. K T LU N 49 Ế Ậ TÀI LIỆU THAM KH O 51 Ả PHỤ LỤC 53

Trang 9

M Ở ĐẦ U

Nhn d ng ti ng nói hi  c nghiên c u và phát tri n nhi u công    

u trung tâm nghiên c u khác nhau Hi n nay công ngh nh n d ng     ting thành t Ví d    s ki n Google I/O 20181,

ph n m m Google assitant     n kh   giao ti p v i nhân viên ho  c khách hàng hoàn toàn t ng b ng ti ng nói      thì công ngh 

nh n d ng ti ng nói c a Google có th nói        c m c ch   

ng v  hi u l i nói c i Ngoài  tìm 

thy r t nhi u các h   th ng nh n d ng ti ng    c gi i thi u và ng d ng    trong nhiIBM Watson Speech to Text2,Nuance Dragon3,

Ngoài ti ng Anh, công ngh nh n d ng ti       c nghiên c u và phát tri n m nh m v i các ngôn ng ph bi      t, Hàn , Trung, Pháp Công ngh nh n d ng ti ng vi    t c b u nghiên c u và phát tri n t nh    

2000 v i nhi u nghiên c u t      khác nhau n CNTT, vi n Hàn lâm KH&CN Vi t Nam, AILab i h HCM, Vi n NCQT 

 i h c Bách Khoa Hà N i G êm s tham gia nghiên c u phát  trin s n ph m c a các t              lFPT Tiêu bi u là s n ph m c   4 c



Thi bu i hi n tho thành v t không th thi u v i    

m i chúng ta.Trong m c ng d ng công ngh  nhn d ng ti ng  nói trên các thi  t b ng ngày càng tr nên ph bi n, v i nhi u s n ph      c phát tri n b i các hang công ngh l    Google Voice search, Google Assistant5, Apple Siri6 , Samsung xbBi y 7

Tuy nhiên, công ngh nh n d ng ti ng nói khi ng d ng trên thi t b        ng

h y h t là theo ki n trúc Client-Server.R t ít h     thng hong hoàn toàn trên thit

b  ng, b i các h  thng nh n d ng khá n ng và chi m tài nguyên Tuy  nhiên h thng nh n d  y l m l n là luôn ph i k t n i m ng     

Trang 10

trên thi  t b c bi t Vic phí 3G khá cao, nên v i nh ng tác  

v  ng xuyên thì không th s d ng 3G liên t   c Vic luôn ph i g i d u    li

v   o m   i dùng.b t i v

Vi bi cnh trên, luc th c hi n v i hai m c tiêu chính:    

 Tri  c h th ng nh n d ng ti ng Vi t v n hành hoàn toàn       trên thi t b  ng (ch y offline không c n k  t n i internet)

 ng d ng tích h p nh n d ng ti ng nói cho ng d ng danh b trên        

v i danh b m  i mn, tên riêng, vit

Trang 11

.Chương 1.Tổng quan v x lý ti ng nói và nh n d ng ti ng nói ề ử ế ậ ạ ế

8 http://vtcc.vn/

Trang 13

Chương 1 T NG QUAN V X LÝ TI NG NÓI VÀ NH N Ổ Ề Ử Ế Ậ

D NG TI NG NÓI Ạ Ế

1.1. Tiếng nói và biể u diễn tiếng nói

M    u có m t h   thng phát ra âm thanh hay còn g i là ti n c a ti i thông qua hít th thô y t ph i qua khí qu n và làm rung các dây thanh  qu     c ng    ng tu    khoang h ng, khoang mi ng, và c    

Âm thanh (hay ti ng nói) m   i s khác nhau b khác nhau v các b   

ph n phát am (mi i, )

 1.1:    v c u t o b ph n phát âm     i(Huang et al., 2001a)

V i kho ng th i gian ng n (t       n 100ms) tín hi u ti ng nói có th coi là   

bii chm theo th  m tính cht ca nó khá nh

Tuy nhiên v i nh ng kho ng th i gian xét l    m

ca tín hiu có s  i phn ánh s khác nhau c a các t c nói

Các s ki n chính khi m t t     c phát ra có th  c phân lo i (dán nhãn) theo mn là:

● Yên lng (S silence): c phát ra 

● Không âm (U unvoice): Khi dây thanh qu n không rung  

Trang 14

● Âm (V voice): Khi dây thanh qu n rung và t o các tín hi u âm thanh    

gi tun hoàn (ti ng nói) 

Mt cách biu di n khác c a tín hiu âm thanh là thông qua ph t n s   

1.2: Bi  d ng sóng c a s   kh u c  i a l

(Huang et al., 2001b)

Trang 15

1.3: Ph   c a l

1.2. Tiếng Việt và ng âm tiữ ế ng Việt

Ting Vi t là ngôn ng    t(Bùi T  , t c là các t khi 

vi t ra ch c lên thành m t ti ng, không có t nào (thu n Vi t) phát âm t 2 ti ng          

tr lên.

M t t   ng có c u t o g m 2 ph n : Nguyên âm V (vowel) và ph âm C     

c k t h   t o nên t ti ng Vi t:   

- C+V (ph âm + nguyên âm) Ví d : b , m ,   ca

- C+V+C (ph âm + nguyên âm + ph âm) Ví d  : tôi , b n , mãi 

- V+C (nguyên âm + ph âm) Ví d : ôm, p ,   ép

Trong ti ng Vi t, ngoài 2 thành ph n chính là nguyên âm, ph âm, chúng ta    còn có các thành ph n khác giúp cho Vi t phân lo i trong âm ti t tr nên rõ ràng     

  h p âm, tam h p âm, ph    âm kép

V i ti ng Vi t, t vi c h c chúng ta ph i n m v ng các nguyên âm, ph âm,          

nh h p âm, tam h p âm, ph      âm kép, ta có quy t c ghép n i các thành  

Trang 16

ph  t o thành âm ti t ho c m t  t  i   tiv m t t ng Vic Vi t ra, 

ta s  c c a t   ng quy t c k t h p trên V i m t t vi t ra mà       không theo quy tc k  h nh s n trong ti ng Vi t, thì không th    ta  c

       t t trong ti ng Vi t ch có m     c (tr 

ng h p ti ng vùng mi     i ti ng Anh (VD: present có 2 

c), không có quy tnh trong vi c t o ra m t t , m t t ch t n t i khi         

nó xu t hi n trong t    c   c a t thì m i có th   c

B ng ch cái ti ng Vi t ta có 29 ch     cái n Thu t, 1977)theo th t   

lt sau:

[a, ă, â, b, c, d, đ, e, ê, g, h, i, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ƣ, v, x, y]

chia làm hai ph n: Nguyên âm (M u t chính) và ph âm (m u t ph )       

- Nguyên âm: Trong ti ng Vi       

 i liên h ph c t p gi a nguyên âm và    cách phát âm c a chúng V i m t nguyên âm có nhi u cách phát âm khác nhau, tùy    theo nó nu khi các cách vi t nguyên 

Trong ti ng Vi t, các âm ti t có c u trúc r t ch t ch , m i âm v có m t v trí           

nhnh trong âm ti t Theo m t s nhà nghiên c u âm v h c trong ti ng Vi t, âm        

Trang 17

T i v   trí th nht trong âm ti  u này có ch    u âm ti t Nhng âm ti t mà chính t   im, emc m u b ng   

 t ng t, gây nên m t ti ng b   ng tác m u y có giá tr     t ph âm và ta g i là âm t c thanh h u (kí hi u: /?/)     

 y, âm ti t trong ti ng Vi t luôn luôn có m     u (ph   u) Vi

nh ng âm ti t mang âm t c thanh h   a nêu trên thì trên ch vi c ghi ly v trí xu t hi n c a nó trong âm ti t là zero, trên ch vi t nó th        

C v ng trong ti ng Vi t ch gi i h n t 6000-8000 t , tuy nhiên vti        i các t trong ti ng Vi t s    c biu di n âm bao g m:  

 Ph  ug m 22 ph n t :  ,  

 ,h, /

 m : /w/

 Âm chính g m 16 ph n t   :  ,   ,  , uo/

 Âm cu i g m 6 ph   âm:  , 2 bán nguyên âm/- - w, j/.

 u

 u ng r t nhi n ti chia các nguyên âm ra các

ng hguyên âm) ta s m i nguyên âm s có 6   

ng vu T   âm c n hu n luy n s kho ng 137     

âm Vic hu n luy n     là hu n luy n theo âm v (137 âm v ) t       m ginhi u so v i hun luy n 6000-8000 t khác nhau  

Trang 18

1.3. Nhận dạng tiế ng nói

1.3.1 Mô hình chung h ệ thống nhận d ng ti ng nói ạ ế

Nhn d ng ti ng nói là m t h th ng t o kh        chuy n ti 

b n V b n ch   i tín hic ci nói

n tho i ho c các thi t b khác thành m t chu i các t K t        

qu c a quá trình nh n d ng có th      c ng du khi n thi t b , nh p    

d u, so n th li  n b ng l i, quay s    n tho i t ng ho    i mt quá trình x lý ngôn ng m   

Mt cách t n ng ti p c n m  t h thng nh n d ng ti ng nói :   

- Ng âm- âm h c (Acoustic-Phonetic) 

- Nhn d ng m u (Pattern-  recognition)

- S d ng t  rí tu nhân t o (Artiﬁcal Intelligence) 

    âm - âm h c(Acoustic-Phonetic) d a trên nh ng lý   thuy v âm h c và ng âm cho r ng có h u ht       âm h c riêng bi t trong  

m t ngôn ng và do v y có th     i m t t p các thu c tính bi u hi n     trong tín hi u ti ng nói ho c bi u di n ph c      u tiên c

m u thành ph n c a ti ng nói mà không quan tâm nhi     c tính v m t

ng âm Trong h u h t các thu t toán nh n d ng m         c chính là hu n luy n và nh n d ng   

   d ng trí tu nhân t o (Artifical Intelligence)   pháp m i nh t, tuy nhiên các thông tin v    n ch , v n còn  

c nghiên c u và phát tri n  

Trang 19

n tha h  c xây d ng qua th t c hu n luy n H ghi nh n       

c tính c a các tín hi u ti   Tín hi u c c nh n d ng s     t qu có xác su t g n   

Representation là b ph n chuy  i các tín hi u ti ng nói thành  

   K t qu    c sau quá trình này là t     c

 c t o d ng thành 1 hay nhi c gc

, bi u di ng nói ph bi n nh  c áp d ng trong nh n  

d ng ti 

Search là b ph n tìm ra chu  ng vu di n tín hi u ti c trích ra b i b Representation B    c xây d ng 

d a trên ba mô hình là mô hình âm h c (Acoustic Model), mô hình t v ng    

Trang 20

(Lexical model) và mô hình ngôn ng (Language Model) có th   thc hi n vi c

 c h t h th ng ph   c hu n luy n (training) và xây d   c

i có th   so sánh v i các tham s    nh n d ng  Trong quá trình hu n luy n, h   th

 ng, tính toán các tham s cho các m c g i là m u tham kh o) M t    

m u tham kh o chính là b n m    so sánh và nh n d ng, các m u tham kh o    này mô ph ng cho m t t , m t âm ti    t, hoc th m chí m t âm v   

Trong quá trình nhn di các

m u tham kh c xây d ng   th ng (likelihood) cu tham kh o Vi  

c th c hi n b ng cách áp d ng các thu    c ch ng minh 

hi u qu   t toán Vitertbi (trong Hidden Markov Model) M 

ng cao nh  c cho là k t qu c a quá trình nh n d ng       

1.3.2. Các phương pháp cơ bản

Nhn d ng ti ng nói t ng (Automatic Speech Recognition     AS  i

m qua các h th thành tu n i b t :

Cun d ng ti ng nói liên t c b   

và truy v t lùi tìm k t qu c a tác gi Reddy        i h c CMU (M )(Sadaoki Furui, 2005)

n nh       i Nga và Nh t ,Velichko và Zagoruyko ( Nga) là nh       c áp d  ng v phân l p m u cho   n này là Harpy và Hearsay-

II ci hc CMU-M , h  thng HWIM c a BBN (Sadaoki Furui, 2005) 

Trang 21

n th p k 80, chuy n t cách ti p c     i sánh m u sang cách ti p c n s    

d ng mô hình th ng kê H u h t các h     thu d a trên mô hình th ng kê  

c phát tri n th p k này, cùng v i nhi u c i ti n th p k 90 Tuy nghiên công           trình quá tr ng nh n này là mô hình Markov n (Hidden Markov Model  HMM) Các h  th   i trong th i gian này có th k n: h      thng Sphinx c i h c CMU, Byblos c a công ty BBN, Decipher c a vi n SRI,   

và các h thng khác ca Lincoln Labs, MIT và AT&T Bell Labs

Thp niên 90 phát tric phân l p m u , t    y sinh m t s   t

   n luyn riêng bi t (Discriminative Training) V i hai d ng   

n hình c a phép hu n luy n này là: CME (Minimum Classiﬁcation Error) và   MMI (Maximum Mutual Information) K t h p vái các k thu t nh n d ng d       liu nhi u MLLR (MaximumLikelihood Linear Regression), PMC (Parallel Model Combination) (Sadaoki Furui, 2005) Các s n ph m n i b   n này là : h thng tr l i thông tin t ng cho các chuy n bay (Air Travel Information Service     ATIS), h  thng ghi l i các b n tin phát than (Broadcast News Transcription  System)

n nhu th k 21, các công trình t p trung nghiên c u vào vi c     nâng cao k t qu nh n d ng ti ng nói V           Affordable Reusable Speech- -Text) (Sadaoki Furui, 2005) to

n hi n nay, các h th ng nh n d ng ti ng nói ch y       c phát tri n 

v i hai k  thut chính là : Gaussian Mixture Model  Hidden Markov Model (GMM-HMM) vàDeep Neural Network (DNN)

1.3.2.1 Gaussian Mixture Model Hidden Markov Model (GMM-HMM) –

1.5 : Ví d mô hình Markov(B.H Juang, Lawrence R Rabiner, 2005)

 - x Các tr ng thái trong mô hình Markov  

Trang 23

Vấ n đ ề c a HMM ủ

1 (Computing likelihood Cho chu i quan sát O = O):  1O2T , và mô hình 

= (A,B, ), làm sao ta có th tính m t cách hi u qu xác su t P(O|      )?

2 ( Decoding): Cho chu i quan sát O = O 1O2T , và mô hình 

chc chui Q = q1q2T tt

3 ( Learning):  i các tham s c a  = (A,B, xác sut P(O|t c  i ?

Mô hình ngôn ng N-gram ữ

Mô hình ngôn ng N-gram là m t mô hình xác su t có kh       xut

hi n c a m t t d a trên N-1 t       t hi n t   t chu i các t  w1,w2, ,wn hay vi t g n là wn và xác su t xu t hi n c a chu i t này là        P(w1,w2, ,wn) hay P(wn) là chui n t xu t phát t w1 Bài toán c a ta là tính    xác xut n-1 t  

1 (wk w )

Trang 24

Cui cùng thay k t qu c a (1.3.2.4) vào (1.3.2.2) ta s     c xác su t xu t hi n   

ca chui các t w1,,,wn 

Áp dụ ng mô hình Markov n cho nh n dạ ẩ ậ ng ti ng nói ế

Trong mô hình chung c a nh n d ng ti   c s d  

mô hình hóa t ng âm Có nhi u cách tri n khai áp d ng mô hình Markov n khác     nhau,  n nh t là m i âm v    c mô hình b i m t  

mô hình Markov n ba tr ng thái,m i tr ng thái ch có th chuy n sang tr ng thái k         tip ho c   l i là chính nó M t t   c phiên âm là m t chu i các âm v  

m t t s    c mô hình hóa b ng cách ghép n i các mô hình Markov ba tr ng thái   

c a các âm v c u thành nên t     

 1.6 :Mô hình HMM t   (Jurafsky and Martin, 2000)

Hình 1.6 mô t mô hình Markov n áp d ng cho t six v i phiên âm c a t        /s ih k s/ M t âm v   c mô hình hóa b i mô hình Markov n ba tr ng thái, ví d    

âm v  c mô hình hóa b i mô hình Markov n v i ba tr ng thái là     s b,s ,sm t Hình 1.6 mô t m t mô hình t v   c xây d ng trên mô hình Markov n, v  i các chu i tr ng thái tính t ng thái b   tr n tr ng thái k t thúc mô t m t t     trong t n

Trang 25

1.7 :Mô hình Markov n cho b t v ng là các s (Jurafsky and Martin, 2000)     

hóa b t v ng b ng mô hình Markov n, mô hình ngôn ng      

b ng mô hình N-gram và mô hình âm h c b ng mô hình Markov-   Gaussian nhiu chic m t h th ng có th coi hoàn ch nh c a m t b ASR Hình 1.8 cho        

ta th nh n ra m t chu   n t tín hi u ti u vào

 1.8 :Quá trình nh n d ng chu     n t tín hi u ti ng nói(Jurafsky and 

Martin, 2000)

Trang 26

1.3.2.2 Deep Neural Network (DNN)

M t m ng Neuron là m  t mô hình lp trình r t hay ly cm hng t m-ron 

thn kinh Kt hp vt hc sâu (Deep Learning - DL thành mt

công c rt mnh m mang li hi u qu tt nht cho nhin ging nói hay x lý ngôn ng t nhiên

 1.9 : Mô hình phi tuy n c a m   t m ng Neuron

V c gán các tr ng s    t qu output y s  c tính:

N

i i=1

w i

y f x 

 ng n i hay offset 

Trang 27

Nhữ ng đi ểm m nh c a ki n trúc m ng Neuron ạ ủ ế ạ

 Có th th c hi n m t kh    ng tính toán song song l n Nh c u trúc c a    

n, thu n l c lp

 Các nút trong cùng 1 l p không   ng l n nhau, nên m ng ít b nh    

ng b i s   ng không t t c a các ph n t riêng l trong m ng      

 Kh  c, các h s u có th c i thi n thông qua quá trình h c, t o cho        

c tính l i c a hàm phân ph i Gauss   

 DNN có th p nh n nhi u lo ti     u vào khác nhau Trong

nh n d ng ti ng nói, ch c n n          i nói (ivector) vào vector ti        t c

u vào cho m ng DNN 

Tuy nhiên DNN l có m t s h n chi     phát tri n trên tr 

n n t   n, m i ch phát tri n cho h     thng nh n d ng trên  máy tính Vì th  u ki n nghiên c u , nên tác gi      d ng mô hình HMM-

   mô hình ph bi n và g n nh phù h p v i n n t        n tho 

ng Ngoài ra nguyên nhân chính ta ch

la chn (Sphinx) b i hi n t i Sphinx m   i h tr  n mô hình HMM-GMM

Trang 28

1.3.3. Giới thiệu công c framework s n có cho nhụ ẵ ậ n dạng ti ng nói ế

u tiên ph n   t framework ph bi n nh    c nhii s  d ng nht bi mt s m ni bt:

 Có th nh n d ng liên t c,     có th   s d

 Cho phép ta d ng nhi u ki u t v ng l n nh       

 Có th làm vi  c l p v i b t c       i nói nào

 Là mt h thng mã ngu n m phát tri n trên Java   

Ti n là HTK (Hidden Markov Model Toolkit) là m t b công c ph n    

m c quy  x lý các HMM Nó ch y u dành cho nh n d ng gi ng nói,     

c s d ng trong nhi u ng d ng nh n d ng m u khác s d ng HMM,          bao g m t ng h p gi ng nói, nh n d ng ký t và trình t DNA Tuy nhiên hi n nay         

n n t ng này v   t h n ch v m t license , khi áp d ng cho    

mi nên framework này rt khó th   s d ng

Julius là b công c  phn m m gi i mã nh n d ng gi ng nói liên t c t v ng        kép hi u su t cao Nó có th   thc hi n gi i mã h u h t th i gian th c trên h u h       t các máy tính hi n t i trong nhi m v chính t t 60k s d ng t 3-gram và HMM         

ph thuc vào ng c nh Tuy nhiên b công c này ch y   c s d ng Nh t    

Trang 29

 Nghiên c u c a Nguy  n H ng Quang (Nguyen Hong Quang et al., 2008) trên t n s   n F0 và giá tr  ng c a ti ng nói, nh n d ng ti ng Vi t liên      

tc th c nghi m v i k t qu khá cao trên d u (kho ng 14 gi d      li   lit

Bên c nh các k t qu nghiên c u chuyên sâu, g    u s n ph m ng

d ng công ngh nh n d ng ti ng nói cho ng Vi     ti c ra m c t

Có th k n các s n ph     H thng nh n d ng ti ng nói, t ng h p ti ng nói      (VnVoice), h  th ng d ch ti ng nói Anh-Vi  c du l ch c Vin hàn a lâm Khoa h c và Công ngh  Vit Nam; H thng t và ph n m m tra c u du   

lch bng ti ng nói iSolar c a Phòng thí nghim v trí tu nhân ti hc khoa h c t nhiên, Tp H Chí Minh; h     thng nh n d ng ti ng nói c a t     FPT (FPT.AI) và Viettel

Tuy v y, vi c xây d ng m t h     thng nh n d ng ng nói ti ng Vi t tri n khai hoàn   ti   toàn trên thi t b   ng hit trong nh ng m c

t ra c  tài

1.5 K ết luận

ác gi t p trung tìm hi u thành công v các mô hình nh n     

d ng ti ng nói và l a ch n mô hình phù h p cho bài toán     

Ch ng c a các h th ng nh n d ng ti ng nói s d ng các mô hình hc        

      Hidden Markov Model (GMM-HMM) ph thu  c r t l n vào d  li u hu n luy n Vì th c ch t có th    các hàm mô t m i quan h gi a X và Y có d    vector bi u di u ti ng nói c a m t câu phát âm, Y={yi}, v i yi là    

Trang 30

mô hình h c máy có th   c m i quan h   

ph  i m i m   t v t v ng v gi ng nói, vùng mi n Th c t     cho th y ngay c    i trong m t s   ng h    hi c cùng m t câu nói n c phát âm b i m i  u

t o b máy phát âm c a m   i là khác nhau nên tín hi u ti ng nói c a chúng ta   nói chung là s khác nhau dù chúng ta có phát âm cùng m t câu

   t p trung vào gi i quy t các v   v chính xác mô hình nh n d ng và t p trung gi i quy t v     nhn d ng khác nhau gi a các  vùng mi n 

Trang 31

Chương 2 NH N D NG TI NG NÓI TRÊN THI T B Ậ Ạ Ế Ế Ị

DI ĐỘ NG VÀ NG D NG CHO DANH B Ứ Ụ Ạ

2.1. Ứng dụng nhận dạng tiế ng nói cho danh bạ điện tho i ạ

2.1.1 M c tiêu ụ ứ ng dụng

ng d ng có m c tiêu có th thay th danh b m      nh vì th các ch 

n qu n lý danh b s hoàn toàn gi ng v i danh b m      c bi

ng d ng có th g  n b ng gi ng nói , t  i dùng có th không dùng tay 

mà v n có th  thc hic cuc gi

c công b u tiên t i Goolge I/O vào tháng 5.2016 Assistant c a Google    

t phiên b n nâng c p ho c m r ng c a Google №w, cho phép      

m r ng kh     u khi n b ng gi    ng th i m r    u khi n 

b ng gi ng nói N   ng dùng Google №w, nó thu hút các thông tin có liên

n b n Nó bi m cu c h p, k ho ch du l ch, i bóng      

Trang 32

      li c trình bày trong th và qua l i nh c trên thi t b     Android ca bn

V i Google №w, b n có th    thc hi n các l nh tho i, tìm ki m b ng gi ng      

u khi n thi t b b ng gi ng nói, cho phép b n làm nh ng vi       i tin

nh n, ki m tra cu c h n trên Android V i Assistant, nó k t h p t t c nh         u này cùng tri nghim AI m  bi t

 i nhc tích h p bên trong cùng v  ng b v   giúp cho google assistant x lý m nh nh t trên n n t ng android M    c

dù th google assistant l i ph i s d ng m ng nên yêu c      n c a nó là ph i k  t

Trang 34

 lý  u v i Siri c a Apple Cortana  

c tích h p s n trên các thi t b ch y Windows 10 tr lên và nó có th th c hi n         hàng lo i SMS, g i mail, theo dõi các v  , t o ghi chú,

Tiêu đề	Nghiên Cứu Phát Triển Hệ Thống Nhận Dạng Tiếng Việt Cho Ứng Dụng Danh Bạ Trên Điện Thoại Di Động
Tác giả	Phạm Quang Duy
Người hướng dẫn	TS. Mạc Đăng Khoa
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khoa Học Kỹ Thuật Điều Khiển Và Tự Động Hóa
Thể loại	Luận Văn Thạc Sỹ
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	69
Dung lượng	4,33 MB