39 Trang 5 v Danh mục các ký hiệu và các chữ viết tắtKý hi u ệ Tên ti ng Anh ếANN Artificial eural etwork NNASR Automatic peech ecognition SRDCT Discrete osine ransform CTDFT Discrete o
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM HỮU BIÊN ỨNG DỤNG LÝ THUYẾT PHI TUYẾN TRONG XỬ LÝ VÀ NHẬN DẠNG TIẾNG VIỆT CHUYÊN NGÀNH: KỸ THUẬT ĐIỆN TỬ LUTHC K THUN T NG DN KHOA HC PGS.TS Nguyễn Tiến Dũng Hà Ni 2014 i 170809406158320f8a108-8abe-4ae8-93d2-0adbcc6d2840 17080940615839bfbfa8f-9da1-44e0-9184-38b4fec174b2 17080940615834579c49f-ac9d-4af7-b844-499b4d72c9b0 Lời cam đoan trình nghiên cu thc s ca cá nhân tơi, c thc hii s ng dn khoa hc ca PGS.TS Nguyn Ti Các s liu, kt qu nghiên cu luc Tơi xin chu trách nhim v nghiên cu ca Hc viên Phm Hu Biên ii MỤC LỤC L ii MC LC iii Danh mc ký hiu ch vit tt v Danh sách bng vi Danh sách hình v th vii M U U TNG QUAN 1.1 Tng quan tình hình nghiên cu nhn dng tic th gii 1.2 Lch s nghiên cu nhn dng ting nói t ng (ASR) 1.3 Mi quan h gia ting nói h thng phi tuyn 1.4 Tng kt X LÝ TING NĨI VÀ CÁC MƠ HÌNH NH N DNG TING NÓI x lý tín hiu s 10 2.1.1 Phép bii tn s liên tc 10 2.1.2 Phép bii tn s ri rc 13 2.1.3 Các b lc s 15 2.2 Phân tích ph 17 2.2.1 Gii thi 17 2.2.2 H s Cepstral tn s Mel (MFCC) 19 no hàm bo hàm bc 23 2.2.4 Tng h 24 2.3 Mơ hình thng kê cho nhn dng mu 25 2.3.1 Mơ hình Gauss 25 2.3.2 Mơ hình Markov n 30 2.4 HMM toán nhn dng ting nói 39 iii 2.4.1 Xây dng mơ hình Markov n 39 2.4.2 Xây dng HMM cho nhn dng s ting Vit 39 2.5 Tng kt 40 C X LÝ TÍN HIU PHI TUYN TÍNH VÀ CÁC N TÍNH 41 lý thuynh lý ca Takens 42 c t không gian RPS 45 3.2.1 Phân b t nhiên 45 3.2.2 Thông tin qu o 47 3.2.3 Kt hc t x lý phi tuyn vect 48 3.3 K thut mơ hình hóa nhn dng 50 c RPS 50 52 3.3.3 Xây dng mơ hình nhn dng t ting Vit 53 3.4 Tng kt 55 N DNG TI KT QU 56 4.1 Phn mm 56 4.2 D liu 57 t thí nghim 58 4.3.1 La chn tham s 58 4.3.2 Xây dng thí nghim 61 4.4 Mt s kt qu 62 t qu 72 KT LUNG PHÁT TRIN 76 Tài liu tham kho 77 PH LC 80 iv Danh mục ký hiệu chữ viết tắt Ký hiệu Tên tiếng Anh ANN Artificial Neural Network ASR Automatic Speech Recognition DCT Discrete Cosine Transform DFT Discrete Fourier Transform DTW Dynamic Time Warping EM Expectation Maximization FFT Fast Fourier Transform GMM Gaussian Mixture Model HMM Hidden Markov Model HTK Hidden Markov Modeling Toolkit IDFT Inverse Discrete Fourier Transform LPC Linear Predicative Coding Mel Frequency Cepstral Coefficients MFCC PDF Probability Density Function RPS Reconstructed Phase Space Texas Instruments & Massachusetts TIMIT Institute of Technology speech corpus Z Transform Z Mixture of Gauss Hidden Markov Model MGHMM v Danh sách bảng Bng 1: Bng ký hiu dùng cho phân tích tín hiu Bng 2: Bng ký hi x lý tín hiu khơng gian phi tuyn tính 41 Bng 3: Bng ký hiu dùng cho thí nghim 56 Bng 4: Tên thí nghim thc hin 61 Bng 5: Kt qu nhn dng s d 62 Bng 6: Kt qu nhn dng s dn 64 Bng 7: Kt qu nhn dng s dng kt hn v 66 Bng 8: Kt qu nhn dng s dng mơ hình trng s 68 Bng 9: Bng so sánh kt qu nhn dng v 72 Bng 10: Bng so sánh kt qu nhn dng gi 74 vi Danh sách hình vẽ đồ thị khơng gian pha (RPS) ca ting nói ca mt t th hàm X( e jw) 10 Hình 3: Biu din Z theo phn thc phn o 11 Hình 4: Biu din Z mt phng phc 12 Hình 5: Thc hin bi 12 khi mô hình to ting nói 17 khi mơ hình lc ngun to ting nói 17 th minh h ln ph 18 19 th ca s Hamming 21 th minh ha mi quan h gia thang tn s Mel thang tn s Hz 22 khi minh h 25 Hình 13: Hàm m Gauss 25 Hình 14: Mơ hình Gauss 26 Hình 15: Hàm m Gauss ca ba phân phi 27 Hình 16: Mơ hình Markov trng thái 30 Hình 17: Mơ hình Markov n trng thái 31 Hình 18: Chui Q tc b 35 xây dng HMM 40 Hình 20: Hình v minh ha RPS ca t 43 th RPS ca t tr 44 Hình 22: So sánh tâm bán kính ca qu o t o t 45 Hình 23: So sánh tâm bán kính ca qu o t 46 Hình 24: So sánh tâm bán kính ca qu o t i nói khác 47 Hình 25: Hình v minh ha phân b m RPS qu o RPS 47 Hình 26: Mi quan h gia ch s ng hp 50 vii Hình 27: Minh ha RPS bng mơ hình Gauss vi 256 Mixtures 51 Hình 28: Mơ hình Markov n left-right n trng thái 53 khi to ma trn xác sut phát 54 thut toán hun luyn 54 Hình 31: Thut toán nhn dng t ting Vit 54 n âm hun luyn 57 thut toán ct t ng 58 th RPS ca t tr khác 58 th minh ho RPS dùng mơ hình Gauss vi 256 Mixtures 60 th kt qu nhn dng s ting Vit v 63 th kt qu nhn dng s ting Vit vc t RPS 65 Hình 38: Bi th hin t l nhn dng xác s ting Vit v c t c kt hp t 67 th kt qu nhn dng s dng mơ hình Markov n trng thái vc ng s) 69 th kt qu nhn dng s dng mơ hình Markov n 15 trng thái v dùng mơ hình trng s) 70 Hìn th kt qu nhn dng vi mơ hình Markov n 70 Hình 42: Giao dit qu 71 Hình 43 th kt qu nhn dng vi mơ hình dùng trng s không dùng trng s 75 viii MỞ ĐẦU Ngày nhu c i thông tin ngày nhiu d n s a t nhic tip c thơng qua sóng tín hi lnh cho máy, thơng qua ting nói, thơng qua c ch chuyng Mt nhc giao tip vi máy tính c phát trin nhiu nhng t nhiu cơng trình nghiên cu v nhn dng ting nói th gi thng nhn dng ting nói ting Anh Via Voice ca IBM, Spoken Toolkit ca CSLU(Central of Spoken Laguage Under-standing), Speech Recognition ca Microsoft, Hidden Markov Model tookit ca i hc Cambridge, CMU Sphinx ci hNgoài mt s h thng nhn dng ting nói ti c, Trung Qu n Nhn dng ting nói ting Vit t s ng dn lng dn viên bo tàng, Phn ln cơng trình nghiên cu s dng cơng c k thut phân tích x lý tín hiu tuyn tính Gt cơng c c phát trin cho vic phân tích x lý tín hiu mơ hình ng dng lý thuyt v phi tuyn Ti mt s t, Pháp, Anh c áp dng cho nhn dng ting t qu tt i vi ting Vi p cn nghiên cu dùng lý thuyt phi tuyn nhm ng dng cho nhn dng ting nói chc nghiên cu Vi mong mun góp phn to nên nhc phát tric nhn dng ting nói c ta c v mt nghiên cng dng sn phm thc tin i sng, vi s ng ca thy giáo PGS.TS Nguyễn Tiến Dũng thy giáo PGS.TS Hoàng Mạnh Thắng lun ting nói kt qu c v cho vic hoàn t c lu y giáo PGS.TS Nguyễn Tiến Dũng thy giáo PGS.TS Hồng Mạnh Thắng ng dn em q trình thc hin luy, cô giáo Vi n t - vin thông i hc Bách khoa Hà N u kin cho em hoàn thành lu n sinh u kin cho em trình thu thp d liu làm lu B cc ca luc t chc nh C Nghiên cu tng quan i thiu tng quan v tình hình nghiên cu nhn dng ting nói c c th gii, lch s phát trin ca nghiên cu nhn dng ting nói, gii thiu mt s kt qu nhn dng ting nói s dng lý thuyt phi tuyn gii hn phm vi nghiên cu ca lu x lý ting nói mơ hình nhn dng ting nói gii thiu mơ hình tuyn tính s dng cho phân tích tìm a t ting Vit cn nhn dng, gii thiu mơ hình thng kê nhn dng mu, xây dng mơ hình nhn dng t ting Vit s dng mơ hình Markov n c x lý tín hiu phi tuyn n tính i thiu kt qu lý thuyt phi tuyn tính c tuyn tính, xây dng mơ hình Markov n cho nhn dng t ting Vit vi phi tuyt hp c tách t không gian phi tuyn c tách t c x lý tuyn tính ng Xây dng mơ hình Markov n cho c n dng ting t qu trình bày kt qu nhn dng ting nói v c không gian phi tuy c không gian phi tuyn kt hp vi c MFCC, ng tht qu nhn dng ti c Phn cui ca lu t lu ng phát trin c tài trình bày v v luc v cn phát trin sau lu t t: