Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 95 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
95
Dung lượng
2,19 MB
Nội dung
I H C QU C GIA TP HCM TR NGă I H C CƠNG NGH THƠNG TIN Phan Hồng Ân NGHIÊN C U V NH N D NG TI NG NÓI TI NG VI T VÀ NG D NGăTRONGă I U KHI N MÁY TÍNH LU NăV N TH CăS NGÀNH CÔNG NGH THÔNG TIN Mã s : 60.48.02.01 TP H CHÍ MINH ậ 2015 I H C QU C GIA TP HCM TR NGă I H C CÔNG NGH THƠNG TIN Phan Hồng Ân NGHIÊN C U V NH N D NG TI NG NÓI TI NG VI T VÀ NG D NGăTRONGă I U KHI N MÁY TÍNH LU NăV NăTH CăS NGÀNH CƠNG NGH THƠNG TIN Mã s : 60.48.02.01 NG IăH NG D N KHOA H C PGS TS V ă TP H C LUNG CHÍ MINH ậ 2015 L IăCÁMă N Nh n d ng ti ng nói m tă l nhă v c nghiên c u l n liênă quană đ n nhi u nghành khác nên b tă đ u nghiên c uăđ tƠiă nƠy,ă emă đưă g p r t nhi uă khóă kh nă v i nhi u v nă đ c n ph i gi i quy t Nh s giúpă đ ,ă h d n h tr t n tình c a th yăV ă căLungăđưăgiúpăemăt ngăb ng c kh c ph c khóăkh năvƠăhoƠn thành lu năv năt t nghi pănƠy.ăEmăxinăđ c g i l i c mă nă sâu s căđ n th y Lung tồn th q th y cô c aătr i h c Công Ngh Thông Tin Nh ng ki n th că mƠă emă đ trênăconăđ ngă c truy nă đ t s hành trang quí giá ng h c t p, làm vi c nghiên c u sau c a M cădùăđưăc g ngăđ hồn thành lu năv n,ăsongăc ngăkhơngătránhăkh i nh ng sai sót Em kính mong nh năđ c nh ng nh n xét góp ý c a quý th y cô b năđ em có th hồn ch nhăđ tài c a t tăh n TP HCM, tháng 12 n m 2015 H c viên Phan Hoàng Ân i TịMăT TăLU NăV N Nh n d ng ti ngănóiăđưăđ n mă quaă vƠă đ tă đ căcácăn c th gi i nghiên c u t nhi u c nh ng thành t u nh tă đ nh Ngày nay, v i s phát tri n c a khoa h c công ngh , s raăđ i c a thi t b thơngăminhănh ămáy tính,ătablet,ăsmartphone,ăsmartTV,ầăngƠyăcƠngănhi u ph d ngăđ n m i m t c aăđ i s ng Do v y, có th nóiăđơyălƠăth iăđi m mà cơng ngh x lý ti ng nói đ c phát huy m nh m n c ta c ngăcóănhi u cơng trình nghiên c u th nghi m v v năđ này, nhiên, k t qu th c nghi m v n h n ch c n ph i có nhi u nghiên c uăh năn a Lu nă v nă t p trung vào nghiên c uă đ c thù ti ng nói, rútă tríchă đ că tr ngă ti ng nói b ng MFCC (Mel-scale Frequency Cepstral Coefficient) LPC (Linear Predictive Coding), mô hình HMM (Hidden Markov Model), nâng cao hi u qu nh n d ng c a b th ă vi n nh n d ng ti ng nói ti ng Vi t n n t ng NET (VietnameseASR nhóm nghiên c u c a PGS TS V ă c Lung phát tri n) Qua trình nghiên c u, lu nă v nă đưă n mă đ môă hình,ăph ngă phápă nƠoă lƠăt c cách x lý ti ng nói, ngă đ i t t nh t cho vi c nh n d ng ti ng nói ti ng Vi t Bên c nhă đó,ă lu nă v nă c ngă xơyă d ngă đ c m tă ch ngă trìnhă th nghi m cho vi c nh n d ng ti ng nói ti ng Vi tădùngătrongăđi u n máy tính m căđ đ năgi n v i s l ng câu l nh 100 câu ii M CăL C L IăCÁMă N i TÓM T T LU NăV N ii M C L C iii DANH M C B NG vi DANH M C HÌNH V vii M U viii CH NGă1 T NG QUAN 1.1 Gi i thi uăđ tài 1.2 T ng quan v tình hình nghiên c uătrongăvƠăngoƠiăn c 1.2.1 Tình hình nghiên c u th gi i .1 1.2.2 Tình hình nghiên c uătrongăn c 1.3 M c tiêu c a lu năv n iăt 1.4 ng ph m vi nghiên c u .6 1.5 Tính khoa h c tính m i c aăđ tài 1.6 C u trúc lu năv n CH NGă2 C ăS LÝ THUY T 2.1 C ăs ng âm ti ng Vi t 2.1.1 Khái ni m v âm ti t .8 2.1.2 căđi m âm ti t ti ng Vi t 2.1.2.1 Tính ch tăđ năơm .8 2.1.2.2 M i t đ năđ u có cách phát âm riêng bi t .9 2.1.2.3 Không bi năđ i v cách vi t cách phát âm 2.2 C ăs toán h c: 10 2.2.1 H s t ngăquan: .10 iii 2.2.2 Mơ hình phân ph i Gaussian h n h p 11 2.3 C ăs x lý âm 13 2.3.1 Bi u di n âm .13 2.3.2 M u âm .13 2.3.3 T n s l y m u 13 2.3.4 phân gi i m u 14 2.3.5 Kênh 14 2.4 Trích xu tăđ cătr ngăơmăthanh 15 CH 2.4.1 Ph ngăphápărútătríchăđ cătr ngăLPC .15 2.4.2 Ph ngăphápărútătríchăđ cătr ngăMFCC .19 NGă3.ăNH N D NG TI NG NÓI 25 3.1 Mơ hình Markov n 25 3.1.1 Gi i thi u 25 3.1.2 Các khái ni măc ăb n 25 3.1.3 Gi thuy t Markov 26 3.1.4 Mơ hình Markov 26 3.1.5 Mơ hình Markov n 29 3.1.6 BaăbƠiătoánăc ăb n c a HMM .33 3.2 Mơ hình Markov n k t h p phân ph i Gaussian .41 3.3 Nh ng v năđ th c t vi c s d ng mơ hình HMM 42 3.3.1 căl ngăbanăđ u .42 3.3.2 Mơ hình liên k t c u trúc 42 3.3.3 Tiêu chí hu n luy n: 43 3.3.4 Phép n i suy lo i b : 43 3.3.5 T iă uătoánăt .44 iv 3.3.6 Bi u di n xác su t .45 3.4 Nh ng h n ch c a HMM 47 3.4.1 Mô ph ng kho ng th i gian t n t i 47 3.4.2 Gi đ nh b căđ u tiên 49 3.4.3 Gi đ nhăđ c l păcóăđi u ki n .50 3.5 So kh p m u v i Dynamic Time Warping .50 3.5.1 DynamicăTimeăWarpingăs ăkhai .51 3.5.2 Cross-words reference template 52 CH NGă TH ă VI N NH N D NG TI NG NÓI TI NG VI T VIETNAMESEASR 53 4.1 Gi i thi u 53 4.2 T ng quan v VietnameseASR 53 4.3 Chi ti t VietnameseASR 56 4.3.1 Quy trình hu n luy n v i DTW 56 4.3.2 Quy trình nh n d ng DTW 59 4.3.3 Quy trình hu n luy n HMM .63 4.3.4 Quy trình nh n d ng HMM 64 CH NGă5 XÂY D NGăCH NGăTRÌNHăTH NGHI M 67 5.1 Gi i thi u 67 5.2 Ch ngătrình 70 5.2.1 Xây d ng b t n 70 5.2.2 Xây d ngăch ngătrìnhăvƠăhi u ch nh k t qu v i DTW 72 5.3 K t qu th nghi m 75 K T LU N 81 TÀI LI U THAM KH O 83 v DANHăM CăB NG B ng 2.1 Câu trúc âm ti t ti ng Vi t B ng 5.1 Danh m c 100 câu l nhăđi u nătrongăch ngătrình th nghi m 68 B ng 5.3 K t qu th c nghi m 74 B ng 5.4 K t qu th nghi m nh n d ng câu l nh v i DTW, HMM, HMM có hi u ch nh k t qu sau nh n d ng d a DTW (HMM+) 79 B ng 5.5 K t qu th nghi m nh n d ng câu l nh v i DTW, HMM, HMM+ v i y u t gi ng nói theo vùng mi n 80 vi DANHăM CăHÌNHăV Hình 2.1 Mơ hình GMM 12 Hình 2.2 Câu l nhăắm so n th oăv năb n”ăđ c bi u di n d ng sóng theo th i gian 13 Hình 2.3 Cácăcơngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCC 19 Hình 3.1 Minh h a mơ hình Makov 27 Hình 3.2 Ví d th i ti t m t vùng v i mơ hình xác su t 28 Hình 3.3 Ví d mơ hình Markov n tr ng thái 30 Hình 3.4 Ví d HMMăđ năgi n v m i liên h gi a s l ng que kem v i th i ti t 31 Hình 3.5 Ví d HMM v m i liên h gi a th i ti t vƠăđ m 32 Hình 3.6 Ví d mơ hình HMM chu n 48 Hình 4.1 Quy trình hu n luy n t ng quát 55 Hình 4.2 Quy trình nh n d ng t ng quát 56 Hình 4.3 Quy trình hu n luy n v iăph ngăphápăDynamicăTimeăWarping 57 Hình 4.4 Minh h aăb c c t câu l nh thành âm ti t riêng bi t 58 Hình 4.5 B c x lýărútătríchăđ cătr ngăơmăti t quy trình hu n luy n 59 Hình 4.6 B c x lý t ng h p m u quy trình hu n luy n 60 Hình 4.7 Quy trình nh n d ng v iăph ngăphápăDynamicăTimeăWarping 61 Hình 4.8 B c x lý tìm m u kh p nh t quy trình nh n d ng 62 Hình 4.9 K t qu tr v c aăb c x lý tìm m u kh p nh t 63 Hình 4.10 Quy trình hu n luy n v iăph ngăphápăs d ng mơ hình HMM 64 Hình 4.11 Quy trình nh n d ng v iăph ngăphápăHMM 65 Hình 4.12 B c x lýă căl ng tham s quy trình nh n d ng v i HMM 66 Hình 5.1 Cơng c xây d ng b t n HMM c a VietnameseASR 71 Hình 5.2 S ăđ quáătrìnhă Hình 5.3 S ăđ căl ng tham s sau hi u ch nh 72 ng d ng Kho ng cách leveinshteitn đ hi u ch nh 74 vii M ă U Hi n nay, v i s phát tri n c aă ngƠnhă n t công ngh thông tin, h th ng máy t đ ngăđưăd n thay th conăng i nhi uăcơngăđo n c a cơng vi c Máy có kh n ngă lƠmă vi c hi u qu vƠă n ngă su tă caoă h nă ng i r t nhi u.ăSongăchoăđ n nay, v năđ giao ti păng i ậ máyă tuyăđưăđ c c i thi n nhi u nh ngăv n r t th cơng: thơng qua bàn phím thi t b nh p d li u khác Giao ti p v i thi t b máy b ng ti ng nói s lƠăph t nhiên nh t, d u n giao ti păng nh n c a s giao ti p gi aă ng ph ngăth c giao ti păv năminhă i ậ máy s m tăđiămƠăthayăvƠoăđóălƠăc m i v iă ng i, n u hồn thi nă thìă đơyă s m t ngăth c giao ti p ti n l i hi u qu nh t Do có s khác bi t v m t ng âm gi a ngôn ng nên ta không th áp d ngăcácăch ngătrìnhănh n d ng ti ng nói khácăđ nh n d ng ti ng Vi t M t h th ng nh n d ng ti ng nói n c ta ph iăđ c xây d ng n n t ng c a ti ng nói ti ng Vi t Trên th gi iăđưăcóăr t nhi u h th ng nh n d ng ti ng nói (ti ngă Anh)ăđưă vƠă đangă đ c ng d ng r t hi u qu nh :ă Viaă Voiceă c a IBM, Spoken Toolkit c a CSLU (Central of Spoken Laguage Under-standing) Tuy nhiên, m n c ta, nh n d ng ti ng nói v n m tăl nhă v c m i nănayătuyăđưăcóănhi u nghiên c u v nh n d ng ti ng nói ti ng Vi t đưăđ tăđ c m t s thành t u nh :ăAILab,ăVietvoice,ăVspeechầ.ă, nh ngănhìnă chung v năch aăđ tăđ c k t qu c n thi tăđ có th t o s n ph m mang tính ng d ng cao V i m c tiêu hi u v cách giao ti p gi aă ng nghiên c uă cácă ph ch i máy tính, lu nă v nă ngă phápă nh n d ng ti ng nói, t đóă xơyă d ng m t ngătrìnhăth nghi m nh n d ng ti ng nói ti ng Vi t đ u n máy tính b ng ti ng nói viii s_004_ NguyenVanA _01.wav cau b ngăđi u n ầ - File C: âm n3 anh ánh ầ Hình 5.1 Cơng c xây d ng b t n HMM c a VietnameseASR K t qu c a trình hu n luy n file t n ch a nh ng mơ hình HMM c a t ng t danh sách câu l nh File file ch a danh sách câu l nh m u 71 (file A) s đ cădùngă nh ăđ u vào cho trình nh n d ng c aăch ngătrìnhăth nghi m 5.2.2 Xây d ngăch u vào c aăch ngătrình hi u ch nh k t qu v i DTW ngătrìnhălƠăfileăch a câu l nh thu âm file t n file ch a danh sách câu l nh m uăđ b ct o nh n d ng câu l nh, lu năv năđưăđi u ch nh b c c ắu căl nâng cao hi u qu ng tham s ”, ắghép n i t ”,ă ắhi u ch nh”ă trình nh n d ng c aă th ă vi n VietnameseASR Nh ngăthayăđ iăđ 5.2.2.1 U căl c c th hóaănh ăsau: ng tham s TrongăVietnameseASR,ăđ i v iăph ngăphápănh n d ng HMM vi c nh n d ng m t t câu l nh ch c n tìm mơ hình HMM sinh xác su t l n nh t r i gán nhãn c a mơăhìnhăđóăchoăt c n nh n d ng.ăTuyănhiên,ăđi u không ph i lúc c ngăđúng,ăxácăsu t l n nh tăch aăh năđưălƠăt c nătìm,ămƠăđơiăkhiăt đóăcóă xác su t l n th 3, th Vì v y,ăđ t ngăkh n ngănh n d ng, lu năv năđ xu t b sung thêm mơ hình hi u ch nh k t qu sau nh n d ng d a mơ hình xác su t DTWătheoăđóăm i ti ng nh n d ngăđ c s l y k t qu có xác su t l n nh t t h p ghép n i ti ng ba k t qu có xác su t l n nh t (b ng DTW) trùng v i câu l nhăđi u n s đ c hi u ch nh Câu l nh thu âm STE - ZCR - TIME Nt ầ T T (x1, y1) (x1, y1) (x1, y1) (x2, y2) (x2, y2) (x2, y2) ầ ầ ầ (xi, yi) (xi, yi) (xi, yi) Hình 5.2 S ăđ trình căl 72 T N ng tham s sau hi u ch nh Trongăđó:ăNălƠăs t sau c t câu l nh v i thu t toán STE ậ ZCR ậ TIME, (xi, yi) nhãn xác su t th i c a t 5.2.2.2 Ghép n i t Thay ti n hành ghép n i nhãn có xác su t l n nh t c a t ng t v i l i thành m t câu l nh nh ăVietnameseASR b t danh sách nh n d ng c a m i t b c này, ta s l y c Nh ăv y s câu l nh ta s có sau Trong lu năv nănƠy,ăgiáătr ghép n i là: Ti p theo, ta s d ngă ph xác su t l n nh t đ c dùng ngăphápăDTW nh ăđã nói trênăđ tìm danh sách câu l nh có t l kh p cao nh t Nh ng câu l nh s đ danh sách nh ng câu l nh m u có t đ cădùngătrongăch ) N uă nh ă cơuă l nh ghép n i có ng c l iăđ aăvƠoădanhăsáchă s đ c so sánh v i ngătrìnhă(ký hi u că đ aă vƠoă danh sách Các câu l nh hai danh sách s đ s p theo th t xác su t giãm d năvƠăđ aăquaăx lý b , cs p c hi u ch nh 5.2.2.3 Hi u ch nh b că nƠyă taă cóă đ c hai danh sách câu l nh n ngăcó ho c khơng có câu l nh t p câu l nh m u c aăch ă Trongă đóă có kh danh sách câu l nh khơng có ngătrình.ăDoăđóătaăc n ph i ti n hành hi u ch nhăđ tìm danh sách câu l nhă cóă trongă ch ph , ngă trìnhă ( ) t thơng qua ngăphápătìmăki m Fuzzy Seach d a thu tătốnăắKho ngăcáchăLevenshtein” (Levenshtein distance) a Fuzzy Seach Fuzzy Seach (tìm ki m "m "),ăhayăcònăhayăđ c g i Approximate Search (tìm ki m "x p x ") khái ni măđ ch k thu tăđ tìm ki m m t chu i "g n gi ng" (thay "gi ng h t") so v i m t chu iăchoătr c Vi c tích h p k thu t Fuzzy Search vào b th ăvi n s giúp cho trình nh n d ng câu l nhăchínhăxácăh n b Kho ng cách leveinshteitn Levenshtein distance thu tătoánăđ ng l iă Nga,ă ng căđ t theo tên c a m t nhà khoa h c iă đưă nghiênă c u phát tri nă nóă vƠoă n mă 1965.ă ơyă lƠă m tă đ i ngădùngăđ so sánh s khác gi a chu i 73 Kho ng cách Levenshtein gi a hai chu i ký t s l n nh t c n ph i th c hi năđ bi năđ i m t chu i thành chu i l i.ăCácăthaoătácăthayăđ i thêm, xóa thay th m t ký t đ n Cách th c hi n thu t tốn: Ví d : Kho ng cách Levenshtein gi a t kitten sitting ( thao tác thayăđ i l n chu iăkittenăđ tr thành sitting ) Kitten -> sitten ( ) Sitten ->sittin (2 ) Sittin -> sitting (3) ng d ngăvƠoăth ăvi n: Danh sách câu l nh m u Câu l nh t Tính kho ng cách Levenshtein Ch n câu l nh có kho ngăcáchăLDă>ă0,6ăđ aă vào K t qu câu l nh có xác su t l n nh t Hình 5.3 S ăđ N u ng d ng Kho ng cách leveinshteitn đ hi u ch nh khơng có câu l nh nào, câu l nh l n có xác su t l n nh t k t qu c n tìm N u nh t t S p x p theo xác su t giãm d n có ch a câu l nh, ta so sánh câu l nh có xác su t l n k t qu c nătìm.ăNgoƠiăra,ătaăc ngăcóăth so sánh câu l nh t đ đ m b o k t qu nh n d ngăchínhăxácăh n 5.2.2.4 Moduleăđi u u Moduleăđi u u sauăkhiăđ nói nh n d ngă đ c g i truy n vào tham s k t qu ti ng c s th c hi nă côngă đo nă u n d a vào n iă dungă đó.ă Moduleă nƠyă đ m nh n nhi m v nh n l nhă d n Sau nh năđ c n iădungăd i d ngă textă đ th c hi n l nhă u i d ng text choăng 74 i dùng l nh, module nh n d ng s ti n hành so kh p l nhăcóătrongăc ăs d li u l nh, hi n th l nh nh n d ngăđ c,ăsauăđóăth c hi n l nhăđi u n 5.3 K t qu th nghi m L ng t v ngăđ c lu năv n ti n hành th nghi m 160 t S l đ hu n luy n 103 câu v i ng i nam S l trình nh n d ng 103 câu qua l năđ c đ luy n th nghi măđ k t qu căthuătrongămôiătr ngă cơuă đ th nghi m cho c đ aăvƠoă1ăb th nghi m B hu n ngălýăt ng K t qu th nghi măđ b ng 5.3 nh ăsau: B ngă5.3 K tăqu ăth cănghi m Cơuăl nhăth ănghi m STT ng câu S ăl nănh n d ngăđúng T ăl ă(%) b tăđ u 80 t t máy 100 kh iăđ ng l i 60 b ngăđi u n 60 gõ ti ng vi t 100 gõ ti ng anh 40 ti t ki m pin 40 không ti t ki m pin 60 t i l i trang web 80 10 m dòng l nh 80 11 m thùng rác 80 12 làm s ch thùng rác 100 13 m 40 14 đóngăc a s hi n t i 40 15 đóngăc a s 40 16 chuy n c a s khác 40 17 m qu n lý thi t b 100 18 m so n th oăv năb n 40 19 đóngăso n th oăv năb n 100 đ aăc 75 c 20 m trình s a nh 80 21 trình s a nh 60 22 m qu n lý t p tin 40 23 m qu n lý tài li u 80 24 m trình chi u 60 25 đóngătrìnhăchi u 100 26 ch y ghi 60 27 ch iănh c 80 28 thoátăch iănh c 40 29 ch y bàn tính 100 30 trình t 80 31 chuy n sang so n th oăv năb n 80 32 chuy n sang trình chi u 60 33 chuy n sang ghi 60 34 chuy năsangăch iănh c 40 40 35 nt tc 36 t o m iăth ăm c 100 37 t o m iăđ 40 38 t ngăơmăthanh 80 39 gi m âm 40 40 giúpăđ 40 41 chép 100 42 dán 100 43 xóa 60 44 yên l ng 40 45 s p x p theo ngày 60 46 s p x p theo tên 80 47 s p x pătheoăkíchăth 80 48 đ i tên 80 49 ch n t t c 40 ng d n c 76 50 thu nh 80 51 phóng to 40 52 l u 40 53 l uăm i 80 54 xem thu c tính 100 55 t ol it t 100 56 thu h i l nh 100 57 l p l nh 80 58 quay l i 80 59 t iătr 60 60 xemătr 60 61 khôngăxemătr 60 62 qu n lý tác v 80 63 xem thơng tin máy tính 40 64 đínhăvƠoăthanhătácăv 100 65 gõăđ a ch 60 66 đ năđ u trang 80 67 đ n cu i trang 80 68 chuy n th 60 69 b tăđ u bàn phím 60 70 thơi bàn phím 60 71 ti n t i 100 72 xóa trái 100 73 xóa ph i 60 74 ch đ ng 80 75 m qu n lý phông ch 40 76 m qu n lý 80 77 m qu n lý máy tính 60 78 m trungătơmăđi u n 60 79 m qu n lý k t n i m ng 40 c c c đa 77 80 lùi l i 60 81 chu t trái 60 82 chu t ph i 80 83 chu tăđúp 80 84 cu n lên 40 85 cu n xu ng 100 86 m qu n lý s ki n 40 87 m qu nălýăch 100 88 nhanh 80 89 ch m 100 90 m qu n lý hình n n 40 91 m qu n lý ngày gi 80 92 d ng 80 93 d ng l i 40 94 tìm 40 95 m qu n lý bàn phím 60 96 m qu n lý âm 60 97 m qu n lý chu t 60 98 m thu c tính h th ng 40 99 m qu n lý khu v c 80 100 trái 100 101 ph i 80 102 lên 100 103 xu ng 60 ngătrình ánhăgiáăk t qu nh n d ng: Khi th c hi nă đ c l nhă u nă thìă ch ngă trìnhă demoă choă k t qu nh n d ng không cao (ch có kho ng 76/103 câu l nhă cóă đ đánhă giáă nh n d ng xác 74%) Khi ti n hành nh n d ng d a file câu l nhă đưă hu n 78 luy n, kh n ngănh n d ngăđúng lên t i 98% Theoătơi,ăcóăvƠiăngunănhơnătácăđ ng đ n k t qu nh n d ngănh ăsau: - B t v ng c a b t n ít, th c hi năthuăơmăch aănhi u - Y u t ngo i c nh,ămơiătr ng xung quanh có t p âm hay khơng có t p âm, tâm sinh lý c aă ng i nói, t că đ nói có nhă h ch tăl ch ng ti ngănóiăchoănênăc ngă nhăh ng r t l nă đ n ngăđ n k t qu nh n d ng c a ngătrìnhăth nghi m So sánh v iăcácăph ngăpháp nh n d ng DTW, HMM so sánh v iă cácă ph ngă phápă nh n d ng DTW, HMM (khơng có dùng DTWăđ hi u ch nh k t qu ), ta s d ng cơng th c tính giá tr căl ng nh ăsau: - WARălƠăđ xác tính theo t V i c s t nh n d ngăđúngă(trênătoƠn b câu l nh) N t ng s t có câu l nh c n nh n d ng, cơng th cătínhăWRRănh ăsau:ă (5.1) - SERă(SentenceăErrorăRate)ălƠăđ sai s theo câu M tăcơuăđ d ngăđúngăkhiă vƠăch tồn b t Ng trongăcơuăđ c tính nh n c nh n d ngăđúng.ă c l i,ăcơuăđóăs tính câu nh n d ng sai V i sw s câu nh n d ng sai SN t ng s câu l nh nh n d ng, ta có: (5.3) B ngă5.4ăK tăqu ăth ănghi mănh năd ngăcơuăl nhăv iăDTW,ăHMM, HMMăcóăhi uăch nhă k tăqu ăsauănh năd ngăd aătrênăDTWă(HMM+) WAR SER B d li u S câu DTW HMM HMM+ DTW HMM HMM+ B 103 40.63 61.25 68.75 70.88 53.4 39.81 D a k t qu này, có th nh n th y r ngă ph ngă phápă nh n d ng dùng mơ hình HMM có hi u ch nh k t qu d a DTW cho k t qu nh n d ngăcaoăh năcácăph ngăphápăkhác,ăcóăth nóiăđơyălƠăm t ph 79 ngăphápăhi u qu cho nh n d ng ti ng nói ti ng Vi t h th ngăđi u n v iăl ng t v ng v a nh So sánh k t qu nh n d ng gi ng nói theo vùng mi n L l ng t v ngă đ c s d ngă đ ti n hành th nghi m 146 t S ngăcơuăđ hu n luy n 107,ătrongăđóăm iăcơuăđ th c hi n thu âm (g mă7ăng cóă2ăng i n 16ăng i nam có gi ng mi n b c,ă1ăng c thu âm 10 l n, doă23ăng i i nam thu căđ tu i 20 - 30,ătrongăđóă i nam gi ng mi n trung, l i gi ng mi n nam) Quá trình th nghi m g m có b d li u, m i b g m 107 câu l nh, trongăđóăb gi ng b c, b gi ng mi n trung, b gi ng mi n nam Các b hu n luy n th nghi mă đ nghi măđ c t ng k t c thu môi tr ngă lýă t ng K t qu th b ng 5.5 nh ăsau: B ngă5.5 K tăqu ăth ănghi mănh năd ngăcơuăl nhăv iăDTW,ăHMM, HMM+ v iăy uăt ă gi ngănóiătheoăvùngămi n WAR SER B d li u S câu DTW HMM HMM+ DTW HMM HMM+ B 107 40.31 60.92 68.79 63.25 49.23 36.58 B 107 36.89 57.13 63.18 68.47 51.34 40.86 B 107 65.84 81.19 88.44 43.93 32.71 20.56 D a k t qu này, có th nh n th y r ngă ph ngă phápă nh n d ng dùng mơ hình HMM có hi u ch nh k t qu d a DTW v n cho k t qu nh n d ngăcaoăh năcácăph ngăphápăkhác K t qu nh n d ng ti ng nói v i gi ng nói mi n b căvƠătrungăcònăch aăcaoălƠădoăs l nh ng mi n h n ch Tóm l i, ph ng thu âm c aăng i có gi ng nói ngăphápănh n d ng HMM có hi u ch nh k t qu sau nh n d ng d aătrênăDTWărõărƠngăđưăc i thi n hi u qu nh n d ng ti ng nói m tăcáchăđángăk 80 K TăLU N K t qu đ tăđ c Qua trình nghiên c u v nh n d ng ti ng nói ti ng Vi t ng d ng th nghi mătrongăđi u n máy tính, lu năv năđưăđ tăđ - Nghiên c u v ti ngă nói,ă cácă ph c nh ng m c tiêu sau: ngă phápă x lý ti ng nói, c ă s lý thuy t, rútătríchăđ cătr ng,ăđ căđi m ti ng nói Ti ng Vi t - Nghiên c u th c hi n hu n luy n mơ hình HMM áp d ng cho ti ng Vi t Nghiên c u ki n trúc h th ng nh n d ng ti ng nói b ng VietnameseASR - xu t b sung thêm mô hình hi u ch nh k t qu sau nh n d ng d a mơ hình xác su tăvƠăDTWătheoăđóăm i ti ng nh n d ngăđ cs l y k t qu có xác su t l n nh t t h p ghép n i ti ng ba k t qu có xác su t l n nh t (b ng DTW) trùng v i câu l nhăđi u n s đ - c hi u ch nh Xây d ng ph n m m th nghi m, ki mă traă vƠă đánhă giáă mơă hìnhă đ xu t so v i mơ hình g c nh n d ng ti ng nói ti ng Vi t d a ti ng, k th a phát tri n t th ăvi n c aănhómătr - c VietnameseASR Xây d ng b d li u hu n luy n t 2060 file thu âm câu l nhăc ăb n trongăđi u n máy tính Nâng cao hi u qu nh n d ng v i mơ hình HMM c a b th ăvi n VietnameseASR V i vi c th c hi n nh n d ng ti ng nói ti ng Vi t v i u n máy tính h uăhƠnhăWindowă8.1,ăđ tài ch ng minh kh n ngă ng d ng b th ă vi n VietnameseASR ti n g năh năt i vi căđ aăh th ng nh n d ng xu ng thi t b nhúng Nh ngăđi m h n ch - B t v ng q so v i t t c t đ năc a ti ng Vi tă(h nă7000ă t ).ă cóăđ c b t v ng l năh năđòiăh i ph i b r t nhi u công s c bao g m c thu th p d li u, xây d ng mơ hình phiên âm xác, thu âm, phân tích ng pháp,ầă 81 - B t n h n ch ,ăđ i v i m tăng mơ hình v n có th nh n d ngăđ iăch aăđ c hu n luy n c ti ng nói c a h nh ngăđ xác không cao H - ng nghiên c u phát tri n M r ng v n t v ng c a b t n, th c hi n thu âm v i quy mô r ngărưiăh n,ăđaăd ng gi ngănóiăh n,ănh m m căđíchăxơyăd ng m t h nh n d ng ti ngănóiăđ c l păng - i nói K t h p nhi u mơ hình ho c th nghi m k t h p v a nh n d ng theo câu (theo âm v ), v a nh n d ng theo ti ng ho c th nghi m v i Deep learning - X lý nhi u trình ghi âm đ có k t qu nh n d ng t tăh n - Tìm hi u thêm v mơ hình ngơn ng thu t tốn tìm ki m nh n d ng ti ngănóiăđ t ngăt căđ nh n d ng - Xây d ng ng d ng c th hóaăh năs d ngăcácămơăhìnhăđưăđ hu n luy n Các ng d ngăt ngătácăgi a ng i thi t b b ng ti ng nói, h tr s thông minh cho thi t b ho c h tr ho tăđ ng c aăng khuy t t t 82 c i TÀIăLI UăTHAMăKH O Ti ng Vi t Mai Ng c Ch ,ăV ă c Nghi u, Hoàng Tr ng Phi n (2011), C s ngôn ng h c ti ng Vi t, Nxb Giáo d c D V ă ph ngăTônă m (2006), Q trình ng u nhiên, Nxb.ă HQGăH Chí Minh c Lung, Nguy năTháiăÂnăvƠă ƠoăAnhăNguyênă(2014),ăắT ng h p ngăpháp tách âm c a m t t ti ng Vi tăvƠăđ xu tăph ngăăphápăcáiă ti n”,ă K y u H i ngh Qu c gia l n th VII v Nghiên c u c b n ng d ng Công ngh thông tin (FAIR), Thái Nguyên, ngày 19-20/6/2014 ISBN: 978-604-913-300-8 ƠoăAnhăNguyên,ăV ă c Lung, Nguy năTháiăÂnă(2014),ăắMơăhìnhănh n d ng gi ng nói ti ng Vi tătrongăđi u nătheoăgócăđ âm ti t”,ăK y u H i ngh Qu c gia l n th VII v Nghiên c u c b n ng d ng Công ngh thông tin (FAIR), Thái Nguyên, ngày 19-20/6/2014 ISBN: 978-604-913-3008 Ti ng Anh W.ăH.ăAbdulla,ăD.ăChow,ăandăG.ăSină(2003),ăắCross-words reference template for DTW-basedăspeechărecognitionăsystems”,ăinăăTENCON 2003 Conference on Convergent Technologies for the Asia-Pacific Region, pp 1576-1579 Vol.4 M Aymen,ăA.ăAbdelaziz,ăS.ăHalim,ăandăH.ăMaarefă(2011),ăắHiddenăMarkovăă Modelsă foră automatică speechă recognition”,ă ină Communications, Computing and Control Applications (CCCA), 2011 International Conference on, pp 1-6 Amarin Deemagarn and Asanee Kawtrakul (2004),ă ắThaiă connectedă digit speechărecognitionăusingăHiddenăMarkovămodels”, in 9th Conference Speech and Computer, pp 731-735 Lingyună Guă andă Stephenă Aă Zahoriană (2002),ă ắAă newă robustă algorithmă forăă isolatedăwordăendpointădetection”, Energy, vol 2, p Wang Hsin-min, Shen Jia-Lin, Yang Yen-Ju, Tseng Chiu-Yu, and Lee LinShană (1995),ă ắCompleteă recognitionă ă ofă continuousă Mandarină speechă forăă Chineseă languageă withă veryă largeă vocabularyă bută limitedă trainingă data”,ă inăă 83 Acoustics, Speech, and Signal Processing, 1995 ICASSP-95, 1995 International Conference on, 1995, pp 61-64 vol.1 10 M.ăJalil,ăF.ăA.ăButt,ăandăA.ăMalik(2013),ăắShort-time energy, magnitude, zero crossing rate and autocorrelation measurement for discriminating voiced and unvoicedă segmentsă ofă speechă signals”,ă ină ă Technological Electrical, Electronics and Computer Engineering Advances in (TAEECE), 2013 International Conference on, pp 208-212 11 BiingăHwangăJuangăandăLaurenceăRăRabiner(1991),ăắHiddenăMarkovămodelsă forăspeechărecognition”, Technometrics, vol 33, pp 251-272 12 Jean-Claude Junqua (2004), Robust speech recognition in embedded systems and pc applications, Kluwer Academic Publishers, ISBN: 0792378733, 177p 13 Tomi Kinnunen (2003), “Spectral features for automatic text-independent speaker recognition”,ăLicentiate’săThesis,ăUniversityăofăJoensuu,ăFinland 14 K.ă F.ă Leeă andă H.ă W.ă Honă (1989),ă ắSpeaker-independent phone recognition usingă hiddenă Markovă models”,ă ă Acoustics, Speech and Signal Processing, IEEE Transactions on, vol 37, pp 1641-1648 15 JosephăLeeăRodgersăandăWăAlanăNicewanderă(1988),ăắThirteen ways to look atăătheăcorrelationăcoefficient”,ăThe American Statistician, vol 42, pp 59- 66 16 Vu Duc Lung, Phan Dinh Duy, Nguyen Vo An Phu, Nguyen Hoang Long, andă Truongă Nguyenă Vuă (2013),ă ắSpeechă Recognitionă ină Human-Computer Interactiveă Control”,ă Journal of Automation and Control Engineering, vol Vol 1, Sep 2013 17 Vu Duc Lung, Truong V.N (2013),ă ắVietnamese speech recognition using Dynamic Time Warping and Coefficient of Correlation”,ăăControl, Automation and Information Sciences (ICCAIS), 2013 International Conference on, pp 64 - 67, Nov 2013 18 Lindasalwaă Muda,ă Mumtajă Begam,ă andă Iă Elamvazuthiă (2010),ă ắVoiceă recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamicătimeăwarpingă(DTW)ătechniques”,ăarXiv preprint arXiv:1003.4083 84 19 Lawrence Rabiner (1989), ắA tutorial on hidden Markov models and selected applications in speech recognition”, Proceedings of the IEEE, vol 77, pp 257286 20 Că Myersă andă Lă Rabineră (1981),ă ắAă levelă buildingă dynamică timeă warpingăă algorithmă foră connectedă wordă recognition”,ă ă Acoustics, Speech and Signal Processing, IEEE Transactions on, vol 29, pp 284-297 21 Quangă Nguyenă Hong,ă Loană Trinhă Van,ă andă Dată Leă Theă (2010),ă ắAutomaticăă Speechă Recognitionăforă Vietnameseă Usingă HTKă System”,ă in Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2010 IEEE RIVF International Conference on, pp 1-4 22 Shing-Tai Pan, Chih-Chin Lai, and Bo-YuăTsaiă(2011),ăắTheăimplementation of speech recognition systems on FPGA-based embedded systems with SoC architecture”,ăInt Journal of Innovative Computing, Information and Control, vol 7, pp 6161-6175 23 Quană Vu,ă Krisă Demuynck,ă andă Dirkă Vană Compernolleă (2006),ă ắVietnameseă automatic speech recognition: the Flavoră approach”ă ină Chinese Spoken Language Processing, ed: Springer, pp 464-474 24 Cliffordă J.ă Weinsteină (1990),ă ắOpportunitiesă foră ă Advancedă ă Speechă Processing in Military Computer-Basedă ă Systems”,ă Proceedings of the workshop on Speech and Natural Language, Hidden Valley, Pennsylvania, p 433 ậ 452, 990 85 ... u qu h năv i máy tính M t nh ngăh ti ng nói trong traoăđ iăthơngătinăng ngă i làm ng nghiên c u s d ng i ậ máy T sau h th ng nh n d ng ti ng nói đ uătiênăraăđ iăvƠoăn mă1952,ăvi c nghiên c u v... ngătrìnhăth nghi m nh n d ng ti ng nói ti ng Vi t đ u n máy tính b ng ti ng nói viii CH NGă1 T NGăQUAN 1.1 Gi i thi uăđ tài NgƠyănay,ă máy tính đưătr thành m t ph n quan tr ng trong đ i s ng hàng ngày... GIA TP HCM TR NGă I H C CƠNG NGH THƠNG TIN Phan Hồng Ân NGHIÊN C U V NH N D NG TI NG NÓI TI NG VI T VÀ NG D NG TRONG I U KHI N MÁY TÍNH LU NăV NăTH CăS NGÀNH CÔNG NGH THÔNG TIN Mã s : 60.48.02.01