Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của Tiếng việt theo phương thức phát âm220

141 4 0
Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của Tiếng việt theo phương thức phát âm220

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B GIÁO DO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Ngọc Hưng NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT THEO PHƯƠNG THỨC PHÁT ÂM Chuyên ngành: Hệ thống thông tin Mã số: 62480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Trịnh Văn Loan TS Nguyễn Hồng Quang Hà Nội - 2017 LỜI CAM ĐOAN  tt c ni dung lun dng t ng ting nói phát âm liên t  ca ting Vit  cơng trình nghiên cu c a riêng tơi Các s liu, kt qu lun án trung th c   c công b bt k  công trình khác    c cơng b lun án Vic tham kho ngun tài li c thc hin trích dn ghi ngun tài liu tham khnh ™ TP TH NG DN KHOA HC TÁC GI LU N ÁN PGS.TS Tr Phm Ng LỜI CẢM ƠN Tơi xin bày t lịng bii hc Bách khoa Hà Ni, Vin Công ngh Thông tin Truyn thơng, B mơn K thut máy tính, B mơn H tho u kin thun li cho tơi q trình hc tp tng Tôi mun gi li c  c bit ti tp th ng dn trc tip PGS.TS Trn Hng Quang Hai Th, ng li khuyên, nhng khoa hc r tơi có th trin khai hồn thành cơng vic nghiên cu ca Xin chân thành c      ng nghip B môn H thng Thơng tin, B mơn K thut máy tính, Vin Công ngh Thông tin Truyn thông, i hc Bách khoa Hà Ni  i hc tp, thc hi  tài nghiên c  t  ng viên sut q trình nghiên cu C Khoa Cơng ngh Thông tin Tng i h  m K thut  nu kin cho tơi sut q trình nghiên cu hoàn thành lun án Vi t m lịng bin thy cơ, nhà khoa hng nghip bn bè thân h tơi q trình nghiên cu Cui tơi mun bày t lịng bi c tng ngung l t mi tr ng hoàn thành lun án Phạm Ngọc Hưng MỤC LỤC MC LC GII THÍCH CÁC KÝ HIU VÀ CH VIT TT DANH MC CÁC BNG 10 DANH MC CÁC HÌNH  TH 12 M U 14 TNG QUAN V NHN DNG TING NÓI VÀ NHN DNG 19 1.1 Nhn dng ting nói 19 1.1.1 Tng quan v nhn dng ting nói 19 1.1.2 Lch s phát trin tin b nghiên cu nhn dng ting nói 20 1.1.3 Các thách thi vi nhn dng t ng ting nói 21 1.1.4 Phân loi h thng nhn dng t ng ting nói 22 1.2 Nhn d 24 1.2.1 Các mơ hình nhn d 24 1.2.2 Nhn d n khác 25 1.3 Nghiên cu nhn dng ting nói nhn d ting Vit 30 1.4 Mt s mơ hình nhn dng 31 1.4.1 Mơ hình GMM 31 1.4.2 B phân lp SVM 33 1.4.3 Mn to 39 1.5 K 43 XÂY DNG B  NG LIU CHO NGHIÊN CU NHN D TING VIT 45 2.1 T ting Vit 45 2.1.1   ting Vit 45 2.1.2 m ng  ca ting Vit 46 2.1.3 S khác bit v t vng ng  ting Vit 47 2.2 Cu trúc âm tit, âm v  ting Vit 49 2.2.1 Âm tit âm v ting Vit 49 2.2.2 m cách kt h 53 2.3 Ph  ting Vit 54 2.3.1 H thng ph u 54 2.3.2 So sánh h thng ph  Bc-Trung-Nam 56 2.4 H thu bin th  ting Vit 56 2.4.1 H thu Hà Ni 57 2.4.2 H thu Ngh -  57 2.4.3 H thng Thành ph H Chí Minh 58 2.4.4 Mt s nhn xét v h thu cá 59 2.5 ng c ti nhn dng ting nói 60 2.6 Ng li th gii xây dng b ng liu dùng cho nhn dng  ting Vit 60 2.6.1 ng b ng li ting Vit 62 2.6.2 Chun b chun 62 2.6.3 Ghi âm 64 2.6.4 Kt qu c tính VDSPEC 67 2.7 2.7.1 Bin thiên tn s u c 68 2.7.2 Phân tích thng kê phân b F0 cu 70 2.7.3 Phân tích d liu dùng LDA 72 2.8 Phân tích mt s  ting Vit ca b ng liu VDSPEC 68 K 76 NHN D TING VIT 78 3.1 Nhn d ting Vi t vi GMM 78 3.1.1 Công c th nghim nhn d ALIZE 78 3.1.2 L a chn s ng h s MFCC 80 3.1.3 Th nghim nhn d   ting Vi  ng hp kt hp MFCC vi tham s F0 81 3.1.4 Th nghim nhn d   ting Vi  ng hp kt hp formant, dng tham s F0 84 3.1.5  ng ca s ng thành ph  i vi hi  n d ng  ting Vit 85 3.2 SVM nhn d ting Vit 87 3.2.1 B phân lp SMO 87 3.2.2 3.3 Th nghim nhn d ting Vit s dng SMO 88 lBk nhn d ting Vit 92 3.3.1 B phân lp IBk 92 3.3.2 Kt qu nhn d ting Vit s dng IBk 95 3.4 Nhn d ting Vi t vi b phân lp MultilayerPerceptron 96 3.4.1 B phân lp MultilayerPerceptron Weka 96 3.4.2 MultilayerPerceptron nhn d ting Vit 96 3.5 JRip nhn d ting Vit 97 3.5.1 B phân lp JRip 97 3.5.2 Nhn d ting Vi t vi JRip 98 3.6 Nhn d ting Vi t vi PART 99 3.6.1 B phân lp PART 99 3.6.2 Kt qu dùng PART nhn d ting Vit 99 3.7 K 99 CI THIN HI  N DNG TING VIT VI THÔNG TIN V  102 4.1 HMM nhn dng ting Vit nói 102 4.1.1 Mô hình HMM 102 4.1.2 HMM nhn dng ting Vi 115 4.2 ng Ci thin hi n dng ting Vit nói thơng qua s d 120 4.2.1 Mơ hình nhn dng ting Vit nói vi vic s d 120 4.2.2 Nhn dng ting Vi 122 4.3 K 123 KT LUN VÀ KIN NGH 125 TÀI LIU THAM KHO 128 DANH MC  CA LUN ÁN 140 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AANN Auto-Associative Neural Network AM Acoustic Model Mơ hình âm hc ANN Artificial Neural Network M-ron nhân to ARFF Attribute-Relation File Format nh dng file tham s  Weka ASR Automatic Speech Recognition T ng nhn dng ting nói BKSPEC Bach Khoa SPEech Corpus B ng lic phát trin ti B môn K thut Máy tính  Vin Cơng ngh Thơng tin Truyn thơng  i hc Bách khoa Hà Ni BKTC Bach Khoa Text Code BMMI Boosted Maximum Mutual Information  c ng CD Concept Description Mô t khái nim CFG Context-Free Grammar Ng pháp phi ng cnh CMS Cepstral Mean Subtraction Tr trung bình Cepstral CMU SLM Carnegie Mellon University Statistical Language Modeling Toolkit B cơng c mơ hình hóa ngơn ng thng kê cng Carnegie Mellon DCF Detection Cost Function Hàm giá phát hin DET Detection Error Tradeoff Cân bng sai s phát hin DL Descrition Length  dài mô t DNN Deep Neural Networks M-ron sâu ELRA European Language Resources Association Hi tài nguyên ngôn ng châu Âu EM Expectation Maximization Ci hóa k vng ERM Empirical Risk Minimization Ti thiu hóa ri ro theo kinh nghim F0 Fundamental frequency Tn s n fMLLR feature-space MLLR fMMI feature-space MMI fMPE feature-space Minimum Phone Error FST Finite-State-Transducer Chuyn trng thái hu hn GMM Gaussian Mixture Model Mơ hình hn hp Gauss HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân bit tuyn tính hip ng nht HMM Hidden Markov Model Mơ hình Markov n HTK Hidden Markov Model Toolkit B cơng c mơ hình Markov n IBk Instance Based k Tên gi b phân lp k láng ging gn nht Weka IBL Instance Based Learning Hc dng IREP Incremental Reduced Error Pruning JRip KKT KarushKuhnTucker u kin KarushKuhnTucker k-NN k-Nearest Neighbour K láng ging gn nht LDA Linear Discriminant Analysis Phân tích phân bit tuyn tính LDC Linguistic Data Consortium H liu ngôn ng LLR Log Likelihood Ratio LPC Linear Prediction Coding MAP Maximum a Posteriori MFCC Mel Frequency Cepstral Coefficients MHAH Mơ hình âm hc MHNN Mơ hình ngơn ng MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transforms MMI Maximum Mutual Information MPE Minimum Phone Error Cc tiu hóa li âm NIST National Institute of Standards and Technology Vin Tiêu chun Công ngh Quc gia ca M  NLP NN N lL P Neural Networks X lý n tính i Các h s  tn s Mel ô  hiê PART PCA Principal Component Analysis Phân tích thành phn PLP Perceptual Linear Prediction m th tuyn tính PNB  Bc PNN  nam PNT  Trung PPR Parallel Phone Recognition PPRLM Parallel Phone Recognition followed by Language Modeling PRLM Phone Recognition followed by Language Modeling QP Quadratic Programming Quy ho RBF Radial Basis Function ng Gauss RIPPER Repeated Incremental Pruning to Produce Error Reduction RM Risk Minimization Ti thiu hóa ri ro SAT Speaker Adaptive Training Hun luyi nói SBS Sequential Backward Selection La chn lùi lt SFS Sequential Forward Selection La chn tin lt SMO Sequential Minimal Optimization Thut gii tc tiu ln t SRILM Stanford Research Institute Language Modeling B công c to mơ hình ngơn ng SRI SRM Structural Risk Minimization Ti thiu hóa ri ro cu trúc SVM Support Vector Machines Máy véc- tr TTS Text-to-Speech n thành ting nói VDSPEC Vietnamese Dialect Speech Corpus B ng li ting Vit VTLN Vocal Tract Length №rmalization Chun hóa chiu dài tuyn âm WER Word Error Rate T l li t DANH MỤC CÁC BẢNG Bng 2.1: S khác bit gi v t cách s dng t 48 Bng 2.2: Cu trúc âm tit ting Vit 50 Bng 2.3: H thng ph u 51 Bng 2.4: B 52 Bng 2.5: Cách th hin bng ch vit nguyên âm 52 Bng 2.6: V trí âm v h thng âm cui 53 Bng 2.7: H thng ph u  Bc B 55 Bng 2.8: So sánh h thng ph u gia PNB, PNT PNN 56 Bng 2.9: Phân lou theo truyn thng 56 Bn theo ch  63 Bng 2.11: T ch liu ca ng liu VDSPEC 67 Bng 2.12: Thng kê thng ghi âm c 67 Bng 2.13: Thng kê thng ghi âm ca VDSPEC theo ch  68 Bng 2.14: Ng cnh chn t khu 69 Bng 3.1: Kt qu nhn dng dùng GMM vi tham s MFCC, F0 giá tr chun hóa t F0 83 Bng 3.2: Ma trn nhm ln nhn d khơng ph thuc gii tính s  dng h s MFCC kt hp vi tham s F0 83 Bng 3.3: Kt qu th nghim nhn d ting Vi ng hp kt hp formant, dng tham s F0 85 Bng 3.4: T l nhn dng trung bình vi s ng thành phn Gauss khác 87 Bng 3.5: B phân lp SMO, kt qu nhn dng vi 384 tham s 89 Bng 3.6: B phân lp SMO, ma trn sai nh m vi 384 tham s 90 Bng 3.7: B phân lp SMO, kt qu nhn dng khơng có thơng tin liên quan trc ti p F0 90 Bng 3.8: B phân lp SMO, ma tr n sai nh m không c thông tin liên quan tr c tip F0 90 Bng 3.9: B phân lp SMO, kt qu th nghim ch dùng tham s liên quan trc ti p F0 91 Bng 3.10: B phân lp SMO, ma tr  n sai nh m ch s dng  tham s liên quan trc tip F0 91 Bng 3.11: B phân lp SMO, kt qu nhn d ng ch dùng tham s liên quan trc tip MFCC 91 Bng 3.12: B phân lp SMO, ma tr n sai nh m ch dùng tham s  liên quan trc tip MFCC 91 Bng 3.13: Thut gii IBl, CD  Concept Description [8] 93 10 ... Vit nói 1.1 Nhận dạng tiếng nói 1.1.1 Tổng quan nhận dạng tiếng nói Nhim v ca h thng nhn dng ting nói làm cho h thng hi c ting nói ci Nh h thng này, ting nói có... có liên kt vi nên h thng cho phép ti ng nói cn nhn dng có th c phân tách vi bi khong lng nh 3) Hệ thống nhận dạng tiếng nói phát âm liên tục: h thng làm vic vi ting nói. .. thống nhận dạng tự động tiếng nói Các h thng nhn dng t ng ting nói có th c phân loi theo cách khác tùy thuc tiêu chí s  dng phân loa s ph thum liên

Ngày đăng: 11/03/2022, 20:52

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan