B GIÁO DO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Ngọc Hưng NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT THEO PHƯƠNG THỨC PHÁT ÂM Chuyên ngành: Hệ thống thông tin Mã số: 62480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Trịnh Văn Loan TS Nguyễn Hồng Quang Hà Nội - 2017 LỜI CAM ĐOAN tt c ni dung lun dng t ng ting nói phát âm liên t ca ting Vit cơng trình nghiên cu c a riêng tơi Các s liu, kt qu lun án trung th c c công b bt k công trình khác c cơng b lun án Vic tham kho ngun tài li c thc hin trích dn ghi ngun tài liu tham khnh ™ TP TH NG DN KHOA HC TÁC GI LU N ÁN PGS.TS Tr Phm Ng LỜI CẢM ƠN Tơi xin bày t lịng bii hc Bách khoa Hà Ni, Vin Công ngh Thông tin Truyn thơng, B mơn K thut máy tính, B mơn H tho u kin thun li cho tơi q trình hc tp tng Tôi mun gi li c c bit ti tp th ng dn trc tip PGS.TS Trn Hng Quang Hai Th, ng li khuyên, nhng khoa hc r tơi có th trin khai hồn thành cơng vic nghiên cu ca Xin chân thành c ng nghip B môn H thng Thơng tin, B mơn K thut máy tính, Vin Công ngh Thông tin Truyn thông, i hc Bách khoa Hà Ni i hc tp, thc hi tài nghiên c t ng viên sut q trình nghiên cu C Khoa Cơng ngh Thông tin Tng i h m K thut nu kin cho tơi sut q trình nghiên cu hoàn thành lun án Vi t m lịng bin thy cơ, nhà khoa hng nghip bn bè thân h tơi q trình nghiên cu Cui tơi mun bày t lịng bi c tng ngung l t mi tr ng hoàn thành lun án Phạm Ngọc Hưng MỤC LỤC MC LC GII THÍCH CÁC KÝ HIU VÀ CH VIT TT DANH MC CÁC BNG 10 DANH MC CÁC HÌNH TH 12 M U 14 TNG QUAN V NHN DNG TING NÓI VÀ NHN DNG 19 1.1 Nhn dng ting nói 19 1.1.1 Tng quan v nhn dng ting nói 19 1.1.2 Lch s phát trin tin b nghiên cu nhn dng ting nói 20 1.1.3 Các thách thi vi nhn dng t ng ting nói 21 1.1.4 Phân loi h thng nhn dng t ng ting nói 22 1.2 Nhn d 24 1.2.1 Các mơ hình nhn d 24 1.2.2 Nhn d n khác 25 1.3 Nghiên cu nhn dng ting nói nhn d ting Vit 30 1.4 Mt s mơ hình nhn dng 31 1.4.1 Mơ hình GMM 31 1.4.2 B phân lp SVM 33 1.4.3 Mn to 39 1.5 K 43 XÂY DNG B NG LIU CHO NGHIÊN CU NHN D TING VIT 45 2.1 T ting Vit 45 2.1.1 ting Vit 45 2.1.2 m ng ca ting Vit 46 2.1.3 S khác bit v t vng ng ting Vit 47 2.2 Cu trúc âm tit, âm v ting Vit 49 2.2.1 Âm tit âm v ting Vit 49 2.2.2 m cách kt h 53 2.3 Ph ting Vit 54 2.3.1 H thng ph u 54 2.3.2 So sánh h thng ph Bc-Trung-Nam 56 2.4 H thu bin th ting Vit 56 2.4.1 H thu Hà Ni 57 2.4.2 H thu Ngh - 57 2.4.3 H thng Thành ph H Chí Minh 58 2.4.4 Mt s nhn xét v h thu cá 59 2.5 ng c ti nhn dng ting nói 60 2.6 Ng li th gii xây dng b ng liu dùng cho nhn dng ting Vit 60 2.6.1 ng b ng li ting Vit 62 2.6.2 Chun b chun 62 2.6.3 Ghi âm 64 2.6.4 Kt qu c tính VDSPEC 67 2.7 2.7.1 Bin thiên tn s u c 68 2.7.2 Phân tích thng kê phân b F0 cu 70 2.7.3 Phân tích d liu dùng LDA 72 2.8 Phân tích mt s ting Vit ca b ng liu VDSPEC 68 K 76 NHN D TING VIT 78 3.1 Nhn d ting Vi t vi GMM 78 3.1.1 Công c th nghim nhn d ALIZE 78 3.1.2 L a chn s ng h s MFCC 80 3.1.3 Th nghim nhn d ting Vi ng hp kt hp MFCC vi tham s F0 81 3.1.4 Th nghim nhn d ting Vi ng hp kt hp formant, dng tham s F0 84 3.1.5 ng ca s ng thành ph i vi hi n d ng ting Vit 85 3.2 SVM nhn d ting Vit 87 3.2.1 B phân lp SMO 87 3.2.2 3.3 Th nghim nhn d ting Vit s dng SMO 88 lBk nhn d ting Vit 92 3.3.1 B phân lp IBk 92 3.3.2 Kt qu nhn d ting Vit s dng IBk 95 3.4 Nhn d ting Vi t vi b phân lp MultilayerPerceptron 96 3.4.1 B phân lp MultilayerPerceptron Weka 96 3.4.2 MultilayerPerceptron nhn d ting Vit 96 3.5 JRip nhn d ting Vit 97 3.5.1 B phân lp JRip 97 3.5.2 Nhn d ting Vi t vi JRip 98 3.6 Nhn d ting Vi t vi PART 99 3.6.1 B phân lp PART 99 3.6.2 Kt qu dùng PART nhn d ting Vit 99 3.7 K 99 CI THIN HI N DNG TING VIT VI THÔNG TIN V 102 4.1 HMM nhn dng ting Vit nói 102 4.1.1 Mô hình HMM 102 4.1.2 HMM nhn dng ting Vi 115 4.2 ng Ci thin hi n dng ting Vit nói thơng qua s d 120 4.2.1 Mơ hình nhn dng ting Vit nói vi vic s d 120 4.2.2 Nhn dng ting Vi 122 4.3 K 123 KT LUN VÀ KIN NGH 125 TÀI LIU THAM KHO 128 DANH MC CA LUN ÁN 140 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AANN Auto-Associative Neural Network AM Acoustic Model Mơ hình âm hc ANN Artificial Neural Network M-ron nhân to ARFF Attribute-Relation File Format nh dng file tham s Weka ASR Automatic Speech Recognition T ng nhn dng ting nói BKSPEC Bach Khoa SPEech Corpus B ng lic phát trin ti B môn K thut Máy tính Vin Cơng ngh Thơng tin Truyn thơng i hc Bách khoa Hà Ni BKTC Bach Khoa Text Code BMMI Boosted Maximum Mutual Information c ng CD Concept Description Mô t khái nim CFG Context-Free Grammar Ng pháp phi ng cnh CMS Cepstral Mean Subtraction Tr trung bình Cepstral CMU SLM Carnegie Mellon University Statistical Language Modeling Toolkit B cơng c mơ hình hóa ngơn ng thng kê cng Carnegie Mellon DCF Detection Cost Function Hàm giá phát hin DET Detection Error Tradeoff Cân bng sai s phát hin DL Descrition Length dài mô t DNN Deep Neural Networks M-ron sâu ELRA European Language Resources Association Hi tài nguyên ngôn ng châu Âu EM Expectation Maximization Ci hóa k vng ERM Empirical Risk Minimization Ti thiu hóa ri ro theo kinh nghim F0 Fundamental frequency Tn s n fMLLR feature-space MLLR fMMI feature-space MMI fMPE feature-space Minimum Phone Error FST Finite-State-Transducer Chuyn trng thái hu hn GMM Gaussian Mixture Model Mơ hình hn hp Gauss HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân bit tuyn tính hip ng nht HMM Hidden Markov Model Mơ hình Markov n HTK Hidden Markov Model Toolkit B cơng c mơ hình Markov n IBk Instance Based k Tên gi b phân lp k láng ging gn nht Weka IBL Instance Based Learning Hc dng IREP Incremental Reduced Error Pruning JRip KKT KarushKuhnTucker u kin KarushKuhnTucker k-NN k-Nearest Neighbour K láng ging gn nht LDA Linear Discriminant Analysis Phân tích phân bit tuyn tính LDC Linguistic Data Consortium H liu ngôn ng LLR Log Likelihood Ratio LPC Linear Prediction Coding MAP Maximum a Posteriori MFCC Mel Frequency Cepstral Coefficients MHAH Mơ hình âm hc MHNN Mơ hình ngơn ng MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transforms MMI Maximum Mutual Information MPE Minimum Phone Error Cc tiu hóa li âm NIST National Institute of Standards and Technology Vin Tiêu chun Công ngh Quc gia ca M NLP NN N lL P Neural Networks X lý n tính i Các h s tn s Mel ô hiê PART PCA Principal Component Analysis Phân tích thành phn PLP Perceptual Linear Prediction m th tuyn tính PNB Bc PNN nam PNT Trung PPR Parallel Phone Recognition PPRLM Parallel Phone Recognition followed by Language Modeling PRLM Phone Recognition followed by Language Modeling QP Quadratic Programming Quy ho RBF Radial Basis Function ng Gauss RIPPER Repeated Incremental Pruning to Produce Error Reduction RM Risk Minimization Ti thiu hóa ri ro SAT Speaker Adaptive Training Hun luyi nói SBS Sequential Backward Selection La chn lùi lt SFS Sequential Forward Selection La chn tin lt SMO Sequential Minimal Optimization Thut gii tc tiu ln t SRILM Stanford Research Institute Language Modeling B công c to mơ hình ngơn ng SRI SRM Structural Risk Minimization Ti thiu hóa ri ro cu trúc SVM Support Vector Machines Máy véc- tr TTS Text-to-Speech n thành ting nói VDSPEC Vietnamese Dialect Speech Corpus B ng li ting Vit VTLN Vocal Tract Length №rmalization Chun hóa chiu dài tuyn âm WER Word Error Rate T l li t DANH MỤC CÁC BẢNG Bng 2.1: S khác bit gi v t cách s dng t 48 Bng 2.2: Cu trúc âm tit ting Vit 50 Bng 2.3: H thng ph u 51 Bng 2.4: B 52 Bng 2.5: Cách th hin bng ch vit nguyên âm 52 Bng 2.6: V trí âm v h thng âm cui 53 Bng 2.7: H thng ph u Bc B 55 Bng 2.8: So sánh h thng ph u gia PNB, PNT PNN 56 Bng 2.9: Phân lou theo truyn thng 56 Bn theo ch 63 Bng 2.11: T ch liu ca ng liu VDSPEC 67 Bng 2.12: Thng kê thng ghi âm c 67 Bng 2.13: Thng kê thng ghi âm ca VDSPEC theo ch 68 Bng 2.14: Ng cnh chn t khu 69 Bng 3.1: Kt qu nhn dng dùng GMM vi tham s MFCC, F0 giá tr chun hóa t F0 83 Bng 3.2: Ma trn nhm ln nhn d khơng ph thuc gii tính s dng h s MFCC kt hp vi tham s F0 83 Bng 3.3: Kt qu th nghim nhn d ting Vi ng hp kt hp formant, dng tham s F0 85 Bng 3.4: T l nhn dng trung bình vi s ng thành phn Gauss khác 87 Bng 3.5: B phân lp SMO, kt qu nhn dng vi 384 tham s 89 Bng 3.6: B phân lp SMO, ma trn sai nh m vi 384 tham s 90 Bng 3.7: B phân lp SMO, kt qu nhn dng khơng có thơng tin liên quan trc ti p F0 90 Bng 3.8: B phân lp SMO, ma tr n sai nh m không c thông tin liên quan tr c tip F0 90 Bng 3.9: B phân lp SMO, kt qu th nghim ch dùng tham s liên quan trc ti p F0 91 Bng 3.10: B phân lp SMO, ma tr n sai nh m ch s dng tham s liên quan trc tip F0 91 Bng 3.11: B phân lp SMO, kt qu nhn d ng ch dùng tham s liên quan trc tip MFCC 91 Bng 3.12: B phân lp SMO, ma tr n sai nh m ch dùng tham s liên quan trc tip MFCC 91 Bng 3.13: Thut gii IBl, CD Concept Description [8] 93 10 ... Vit nói 1.1 Nhận dạng tiếng nói 1.1.1 Tổng quan nhận dạng tiếng nói Nhim v ca h thng nhn dng ting nói làm cho h thng hi c ting nói ci Nh h thng này, ting nói có... có liên kt vi nên h thng cho phép ti ng nói cn nhn dng có th c phân tách vi bi khong lng nh 3) Hệ thống nhận dạng tiếng nói phát âm liên tục: h thng làm vic vi ting nói. .. thống nhận dạng tự động tiếng nói Các h thng nhn dng t ng ting nói có th c phân loi theo cách khác tùy thuc tiêu chí s dng phân loa s ph thum liên