Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205210211000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM QUANG DUY NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG LUẬN VĂN THẠC SỸ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Mạc Đăng Khoa Hà Nội – 2018 Luận văn thạc sỹ 2018 LỜI CẢM ƠN , y Nguyn Vi p th n Th Thanh H Phm Quang Duy Phạm Quang Duy iii Luận văn thạc sỹ 2018 DANH MỤC HÌNH ẢNH v cu to b phn phát âm i(Huang et al., 2001a) .5 : Bi dng sóng ca s khu ca l : Ph ca l : Cu trúc ca mt h nhn dng ting nói(Jurafsky and Martin, 2000) .11 : Ví d mơ hình Markov (B.H Juang, Lawrence R Rabiner, 2005) 13 : Mơ hình HMM t (Jurafsky and Martin, 2000) .16 : Mơ hình Markov n cho b t vng s (Jurafsky and Martin, 2000) 17 : Quá trình nhn dng chu n t tín hiu ting nói(Jurafsky and Martin, 2000) .17 : Mơ hình phi tuyn ca mt mng Neuron 18 : Hình nh ng dng Google Assistant .23 : Hình nh ng dng Siri .24 : ng dng Alice 25 : ng dn thoi Samsung 25 : ng dng cotana 26 : ng dng danh b ca Google Contact .29 : Kin trúc Sphin4 (Huang et al., 1993) 32 :VD Search Graph (Huang et al., 1993) 32 : Phân b d liu ti dài câu 34 : n ng dng voicetrans 35 : Màn hình hong ng dng Voicetrans 35 : Quy trình thu thp d liu 37 m trình nhn dng 39 : Bi use case v chg phn mm Voice Contact 41 trình t (Sequence Diagram) ng dng Voice Contact 43 : quy trình phn mm Voice Contact 44 : Hình nh hong ca ng dng Voice Contact 45 : Màn hình chi tit danh b 46 : q trình to mơ hình ngơn ng bng cơng c CMUclmk .55 Phạm Quang Duy iv Luận văn thạc sỹ 2018 DANH MỤC BẢNG Bng 1.1:Cu to âm tit ca ting Vit (Bùi T .8 Bng 3.1c ly t báo vi thng .34 Bng 3.2: Bng phân b i nghi âm theo vùng min 36 Bng 3.3: Th nghim kt qu vi s ng thi gian training khác 38 Bng 3.4: Kt qu nhn dng 40 Bng 4.1: T l lnh thành công 47 Phạm Quang Duy v Luận văn thạc sỹ DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ HMM : GMM : DNN : Deep Neural Network CMU : Carnegie Mellon University CME : Minimum Classification Erro DTW : Dynamic Time Warping ASR : Automatic Speech Recognition MMI : Maximum Mutual Information MLLR : Maximum Likelihood Linear Regression PMC : Parallel Model Combination ATIS : Air Travel Information Service Phạm Quang Duy Hidden Markov Model Gaussian Mixture Model vi 2018 Luận văn thạc sỹ 2018 MỤC LỤC LỜI CẢM ƠN iii DANH MỤC HÌNH ẢNH iv DANH MỤC BẢNG v DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ vi MỤC LỤC vii MỞ ĐẦU Chƣơng TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI VÀ NHẬN DẠNG TIẾNG NÓI .5 1.1 Ting nói biu din ting nói 1.2 Ting Vit ng âm ting Vit 1.3 Nhn dng ting nói 10 1.3.1 Mơ hình chung h thng nhn dng ting nói 10 1.3.2 n 12 1.3.2.1 Gaussian Mixture Model Hidden Markov Model (GMM-HMM) 1.3.2.2 Deep Neural Network (DNN) 18 1.3.2.3 La chn mơ hình phù hp cho toán 19 1.3.3 Gii thiu cơng cframework sn có cho nhn dng ting nói 20 1.4 Nhn dng ting nói cho ting Vit .20 1.5 Kt lun 21 Chƣơng NHẬN DẠNG TIẾNG NÓI TRÊN THIẾT BỊ DI ĐỘNG VÀ ỨNG DỤNG CHO DANH BẠ .23 2.1 ng dng nhn dng ting nói cho danh b n thoi .23 2.1.1 Mc tiêu ng dng 23 2.1.2 Mt s sn ph gii 23 2.1.3 .26 Phạm Quang Duy vii Luận văn thạc sỹ 2018 2.2 xut gii pháp .27 2.2.1 Các v cn phi gii quyt .27 2.2.2 xut gii pháp 28 Chƣơng XÂY DỰNG MÔ HÌNH NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ 30 3.1 Công c CMU SphinX 30 3.2 Xây d d liu hun luyn .33 3.2.1 Xây dng d lin 33 3.2.2 Xây dng phn mm thu âm d liu tin thoi .34 3.3 Xây dng mơ hình âm hc 38 3.4 Thích nghi t n nhn dng cho ng dng danh b 39 Chƣơng XÂY DỰNG ỨNG DỤNG DANH BẠ ĐIỆN THOẠI TƢƠNG TÁC BẰNG TIẾNG NÓI TIẾNG VIỆT .41 4.1 Phân tích 41 4.2 Thit k 42 4.3 Trin khai .45 4.4 Th nghigiá 47 Chƣơng KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 53 Phạm Quang Duy viii Luận văn thạc sỹ 2018 MỞ ĐẦU Nhn dng ting nói hic nghiên cu phát trin nhiu công u trung tâm nghiên cu khác Hin cơng ngh nhn dng ting thành t Ví d s kin Google I/O 2018 1, phn mm Google assitant n kh giao tip vi nhân viên hoc khách hàng hồn tồn t ng bng ting nói cơng ngh nhn dng ting nói ca Google có th nói c mc ch ng v hiu li nói ci Ngồi tìm thy rt nhiu h thng nhn dng ting c gii thiu ng dng nhiIBM Watson Speech to Text2,Nuance Dragon 3, Ngồi ting Anh, cơng ngh nhn dng ti c nghiên cu phát trin mnh m vi ngôn ng ph bit, Hàn , Trung, Pháp Công ngh nhn dng ting vit c b u nghiên cu phát trin t nh 2000 vi nhiu nghiên cu t khác n CNTT, vin Hàn lâm KH&CN Vit Nam, AILabi h HCM, Vin NCQT i hc Bách Khoa Hà Ni Gêm s tham gia nghiên cu phát trin sn phm ca t l FPT Tiêu biu sn phm c4 c Thi bui hin tho thành vt không th thiu vi mi chúng ta.Trong mc ng dng cơng ngh nhn dng ting nói thit b ng ngày tr nên ph bin, vi nhiu sn phc phát trin bi hang công ngh l Google Voice search, Google Assistant 5, Apple Siri6 , Samsung Bixby Tuy nhiên, công ngh nhn dng ting nói ng dng thit b ng hy ht theo kin trúc Client-Server.Rt h thng hong hoàn toàn thit b ng, bi h thng nhn dng nng chim tài nguyên Tuy nhiên h thng nhn dy lm ln phi kt ni mng https://events.google.com/io/ https://www.ibm.com/watson/services/speech-to-text/ https://www.nuance.com/dragon.html https://speech.openfpt.vn/ https://assistant.google.com/#?modal_active=none https://www.apple.com/siri/ https://www.samsung.com/vn/apps/bixby/ Luận văn thạc sỹ 2018 thit b c bit Vic phí 3G cao, nên vi nhng tác v ng xun khơng th s dng 3G liên tc Vic phi gi d liu v bo mt i vi dùng Vi bi cnh trên, luc thc hin vi hai mc tiêu chính: Tri c h thng nhn dng ting Vit vn hành hoàn toàn thit b ng (chy offline không cn kt ni internet) ng dng tích hp nhn dng ting nói cho ng dng danh b n thoi Vi thit b ng gn tác v cn thit s dng xuyên, tác gi p trung phát trin h thng nhn dng danh b bng ting nói mt ng dng rt phù hp cho toán nhn dng offline bi nu nhn dng online rt tn tài nguyên mng ng dng hong liên tc.V n cn gii quyt ca toán (1) hin thong vi tài nguyên hn ch xác cn thit c v nhn dng danh b, vi danh b mi mn, tên riêng, vit tt rt phc tp làm th h thng chy t xác nht Ngồi mt v ln khác, h thng phi hong vi nhiu ging nói khác nhiu vùng min khác L Hidden Markov Model (GMM- 105