Luận án nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm

150 1 0
Luận án nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CAM ĐOAN Tôi xin cam đoan tất nội dung luận án “Nhận dạng tự động tiếng nói phát âm liên tục cho phương ngữ tiếng Việt theo phương thức phát âm” cơng trình nghiên cứu riêng tơi Các số liệu, kết luận án trung thực chưa cơng bố cơng trình Việc tham khảo nguồn tài liệu thực trích dẫn ghi nguồn tài liệu tham khảo quy định TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS Trịnh Văn Loan Phạm Ngọc Hưng TS Nguyễn Hồng Quang LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin Truyền thơng, Bộ mơn Kỹ thuật máy tính, Bộ mơn Hệ thống thông tin tạo điều kiện thuận lợi cho tơi q trình học tập Trường Tơi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp PGS.TS Trịnh Văn Loan TS Nguyễn Hồng Quang Hai Thầy ln tận tình giúp đỡ, đưa lời khuyên, định hướng khoa học q báu để tơi triển khai hồn thành cơng việc nghiên cứu Xin chân thành cảm ơn thầy cô, đồng nghiệp Bộ môn Hệ thống Thông tin, Bộ môn Kỹ thuật máy tính, Viện Cơng nghệ Thơng tin Truyền thông, Trường Đại học Bách khoa Hà Nội nơi học tập, thực đề tài nghiên cứu nhiệt tình giúp đỡ động viên tơi suốt q trình nghiên cứu Cảm ơn Khoa Cơng nghệ Thơng tin Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi công tác tạo điều kiện cho tơi suốt q trình nghiên cứu hồn thành luận án Với lòng biết ơn đến thầy cô, nhà khoa học, đồng nghiệp bạn bè thân hữu động viên giúp đỡ tơi q trình nghiên cứu Cuối tơi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi ni dưỡng nguồn động lực để tơi vượt trở ngại khó khăn để hồn thành luận án Phạm Ngọc Hưng MỤC LỤC MỤC LỤC GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG 10 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ 12 MỞ ĐẦU 14 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ 18 1.1 Nhận dạng tiếng nói 18 1.1.1 Tổng quan nhận dạng tiếng nói 18 1.1.2 Lịch sử phát triển tiến nghiên cứu nhận dạng tiếng nói 19 1.1.3 Các thách thức nhận dạng tự động tiếng nói 20 1.1.4 Phân loại hệ thống nhận dạng tự động tiếng nói 21 1.2 Nhận dạng phương ngữ 23 1.2.1 Các mơ hình nhận dạng phương ngữ 23 1.2.2 Nhận dạng phương ngữ theo phương diện khác 24 1.3 Nghiên cứu nhận dạng tiếng nói nhận dạng phương ngữ tiếng Việt 29 1.4 Một số mô hình nhận dạng 30 1.4.1 Mơ hình GMM 30 1.4.2 Bộ phân lớp SVM 32 1.4.3 Mạng nơ ron nhận tạo 38 1.5 Kết chương 54 XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 56 2.1 Tổng quan phương ngữ tiếng Việt 56 2.1.1 Phương ngữ phân vùng phương ngữ tiếng Việt 56 2.1.2 Đặc điểm ngữ âm ba vùng phương ngữ tiếng Việt 57 2.1.3 Sự khác biệt từ vựng ngữ nghĩa ba vùng phương ngữ tiếng Việt 58 2.2 Cấu trúc âm tiết, âm vị phương ngữ tiếng Việt 60 2.2.1 Âm tiết âm vị tiếng Việt 60 2.2.2 Âm đệm cách kết hợp âm đệm phương ngữ 64 2.3 Phụ âm đầu phương ngữ tiếng Việt 65 2.3.1 Hệ thống phụ âm đầu 65 2.3.2 So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam 67 2.4 Hệ thống điệu biến thể phương ngữ tiếng Việt 67 2.4.1 Hệ thống điệu Hà Nội 68 2.4.2 Hệ thống điệu Nghệ - Tĩnh Huế 68 2.4.3 Hệ thống điệu Đà Nẵng Thành phố Hồ Chí Minh 69 2.4.4 Một số nhận xét hệ thống điệu phương ngữ 70 2.5 Ảnh hưởng phương ngữ tới nhận dạng tiếng nói 71 2.6 Ngữ liệu phương ngữ giới xây dựng ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt 71 2.6.1 Phương pháp xây dựng ngữ liệu phương ngữ tiếng Việt 72 2.6.2 Chuẩn bị chuẩn hóa văn 73 2.6.3 Ghi âm 75 2.6.4 Kết ghi âm đặc tính VDSPEC 78 2.7 2.7.1 Biến thiên tần số F0 theo điệu ba phương ngữ 79 2.7.2 Phân tích thống kê phân bố F0 điệu 81 2.7.3 Phân tích liệu dùng LDA 83 2.8 Phân tích số đặc trưng phương ngữ tiếng Việt ngữ liệu VDSPEC 79 Kết chương 87 NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 89 3.1 Nhận dạng phương ngữ tiếng Việt với GMM 89 3.1.1 Công cụ thử nghiệm nhận dạng phương ngữ ALIZE 89 3.1.2 Lựa chọn số lượng hệ số MFCC 91 3.1.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp MFCC với tham số F0 92 3.1.4 Thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp formant, dải thông tương ứng tham số F0 95 3.1.5 Ảnh hưởng số lượng thành phần Gauss hiệu nhận dạng phương ngữ tiếng Việt 96 3.2 SVM nhận dạng phương ngữ tiếng Việt 98 3.2.1 Bộ phân lớp SMO 98 3.2.2 3.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO 99 lBk nhận dạng phương ngữ tiếng Việt 103 3.3.1 Bộ phân lớp IBk 103 3.3.2 Kết nhận dạng phương ngữ tiếng Việt sử dụng IBk 106 3.4 Nhận dạng phương ngữ tiếng Việt với phân lớp MultilayerPerceptron 107 3.4.1 Bộ phân lớp MultilayerPerceptron Weka 107 3.4.2 MultilayerPerceptron nhận dạng phương ngữ tiếng Việt 107 3.5 JRip nhận dạng phương ngữ tiếng Việt 108 3.5.1 Bộ phân lớp JRip 108 3.5.2 Nhận dạng phương ngữ tiếng Việt với JRip 109 3.6 Nhận dạng phương ngữ tiếng Việt với PART 110 3.6.1 Bộ phân lớp PART 110 3.6.2 Kết dùng PART nhận dạng phương ngữ tiếng Việt 110 3.7 Kết chương 110 CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ 112 4.1 HMM nhận dạng tiếng Việt nói 112 4.1.1 Mơ hình HMM 112 4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ 125 4.2 ngữ Cải thiện hiệu nhận dạng tiếng Việt nói thơng qua sử dụng thơng tin phương 130 4.2.1 Mơ hình nhận dạng tiếng Việt nói với việc sử dụng thơng tin phương ngữ 130 4.2.2 Nhận dạng tiếng Việt nói có thơng tin phương ngữ 132 4.3 Kết chương 133 KẾT LUẬN VÀ KIẾN NGHỊ 134 TÀI LIỆU THAM KHẢO 137 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 149 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AANN Auto-Associative Neural Network AM Acoustic Model Mơ hình âm học ANN Artificial Neural Network Mạng nơ-ron nhân tạo ARFF Attribute-Relation File Format Định dạng file tham số đặc trưng Weka ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói BKSPEC Bach Khoa SPEech Corpus Bộ ngữ liệu phát triển Bộ môn Kỹ thuật Máy tính – Viện Cơng nghệ Thơng tin Truyền thông – Đại học Bách khoa Hà Nội BKTC Bach Khoa Text Code BMMI Boosted Maximum Mutual Information Thông tin tương hỗ cực đại tăng cường CD Concept Description Mô tả khái niệm CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh CMS Cepstral Mean Subtraction Trừ trung bình Cepstral CMU SLM Carnegie Mellon University Statistical Language Modeling Toolkit Bộ cơng cụ mơ hình hóa ngơn ngữ thống kê trường Carnegie Mellon DCF Detection Cost Function Hàm giá phát DET Detection Error Tradeoff Cân sai số phát DL Descrition Length Độ dài mô tả DNN Deep Neural Networks Mạng nơ-ron sâu ELRA European Language Resources Association Hội tài nguyên ngôn ngữ châu Âu EM Expectation Maximization Cực đại hóa kỳ vọng ERM Empirical Risk Minimization Tối thiểu hóa rủi ro theo kinh nghiệm F0 Fundamental frequency Tần số fMLLR feature-space MLLR fMMI feature-space MMI fMPE feature-space Minimum Phone Error FST Finite-State-Transducer Chuyển trạng thái hữu hạn GMM Gaussian Mixture Model Mơ hình hỗn hợp Gauss HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân biệt tuyến tính hiệp phương sai khơng đồng HMM Hidden Markov Model Mơ hình Markov ẩn HTK Hidden Markov Model Toolkit Bộ cơng cụ mơ hình Markov ẩn IBk Instance Based k Tên gọi phân lớp k láng giềng gần Weka IBL Instance Based Learning Học dựa đối tượng IREP Incremental Reduced Error Pruning JRip KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker k-NN k-Nearest Neighbour K láng giềng gần LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đồn liệu ngôn ngữ LLR Log Likelihood Ratio LPC Linear Prediction Coding MAP Maximum a Posteriori MFCC Mel Frequency Cepstral Coefficients MHAH Mơ hình âm học MHNN Mơ hình ngơn ngữ MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transforms MMI Maximum Mutual Information MPE Minimum Phone Error Cực tiểu hóa lỗi âm NIST National Institute of Standards and Technology Viện Tiêu chuẩn Công nghệ Quốc gia Mỹ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NN Neural Networks Mã hóa tiên đốn tuyến tính Các hệ số Cepstral theo thang đo tần số Mel PART PCA Principal Component Analysis Phân tích thành phần PLP Perceptual Linear Prediction Tiên đốn cảm thụ tuyến tính PNB Phương ngữ Bắc PNN Phương ngữ nam PNT Phương ngữ Trung PPR Parallel Phone Recognition PPRLM Parallel Phone Recognition followed by Language Modeling PRLM Phone Recognition followed by Language Modeling QP Quadratic Programming Quy hoạch toàn phương RBF Radial Basis Function Hàm hướng Gauss RIPPER Repeated Incremental Pruning to Produce Error Reduction RM Risk Minimization Tối thiểu hóa rủi ro SAT Speaker Adaptive Training Huấn luyện thích nghi người nói SBS Sequential Backward Selection Lựa chọn lùi SFS Sequential Forward Selection Lựa chọn tiến SMO Sequential Minimal Optimization Thuật giải tối ưu hóa cực tiểu SRILM Stanford Research Institute Language Modeling Bộ cơng cụ tạo mơ hình ngơn ngữ SRI SRM Structural Risk Minimization Tối thiểu hóa rủi ro cấu trúc SVM Support Vector Machines Máy véc-tơ hỗ trợ TTS Text-to-Speech Văn thành tiếng nói VDSPEC Vietnamese Dialect Speech Corpus Bộ ngữ liệu phương ngữ tiếng Việt VTLN Vocal Tract Length Normalization Chuẩn hóa chiều dài tuyến âm WER Word Error Rate Tỷ lệ lỗi từ DANH MỤC CÁC BẢNG Bảng 2.1: Sự khác biệt phương ngữ từ cách sử dụng từ 59 Bảng 2.2: Cấu trúc âm tiết tiếng Việt 61 Bảng 2.3: Hệ thống phụ âm làm âm đầu 62 Bảng 2.4: Bảng âm nguyên âm đơn 63 Bảng 2.5: Cách thể chữ viết nguyên âm 63 Bảng 2.6: Vị trí âm vị hệ thống âm cuối 64 Bảng 2.7: Hệ thống phụ âm đầu Bắc Bộ 66 Bảng 2.8: So sánh hệ thống phụ âm đầu PNB, PNT PNN 67 Bảng 2.9: Phân loại điệu theo truyền thống 67 Bảng 2.10: Đặc tính văn theo chủ đề 73 Bảng 2.11: Tổ chức lưu liệu ngữ liệu VDSPEC 78 Bảng 2.12: Thống kê thời lượng ghi âm VDSPEC theo phương ngữ 78 Bảng 2.13: Thống kê thời lượng ghi âm VDSPEC theo chủ đề 79 Bảng 2.14: Ngữ cảnh chọn từ khảo sát điệu 80 Bảng 3.1: Kết nhận dạng dùng GMM với tham số MFCC, F0 giá trị chuẩn hóa từ F0 94 Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ khơng phụ thuộc giới tính sử dụng hệ số MFCC kết hợp với tham số F0 94 Bảng 3.3: Kết thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp formant, dải thông tương ứng tham số F0 96 Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác 98 Bảng 3.5: Bộ phân lớp SMO, kết nhận dạng với 384 tham số 100 Bảng 3.6: Bộ phân lớp SMO, ma trâṇsai nhầm với 384 tham số 101 Bảng 3.7: Bộ phân lớp SMO, kết nhận dạng khơng có thơng tin liên quan trực tiếp F0 101 Bảng 3.8: Bộ phân lớp SMO, ma trâṇsai nhầm không co thông tin liên quan trực tiếp ́ F0 101 Bảng 3.9: Bộ phân lớp SMO, kết thử nghiệm dùng tham số liên quan trực tiếp F0 102 Bảng 3.10: Bộ phân lớp SMO, ma trâṇsai nhầm chi sư duṇg tham sốliên quan trực ̉ ̉ tiếp F0 102 Bảng 3.11: Bộ phân lớp SMO, kết nhận dạng dùng tham số liên quan trực tiếp MFCC 102 Bảng 3.12: Bộ phân lớp SMO, ma trâṇsai nhầm dùng tham sốliên quan trực tiếp MFCC 102 Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] 104 10 ... đoan tất nội dung luận án ? ?Nhận dạng tự động tiếng nói phát âm liên tục cho phương ngữ tiếng Việt theo phương thức phát âm? ?? công trình nghiên cứu riêng tơi Các số liệu, kết luận án trung thực chưa... bớt, hiệu nhận dạng hệ thống cải thiện Từ lý nêu trên, luận án lựa chọn đề tài nghiên cứu ? ?Tự động nhận dạng tiếng nói phát âm liên tục cho phương ngữ tiếng Việt theo phương thức phát âm? ?? nhằm nghiên... ngữ tới hệ thống nhận dạng tự động tiếng Việt nói (2) Xây dựng ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt nhận dạng tiếng Việt nói (3) Nghiên cứu, đề

Ngày đăng: 16/02/2023, 15:35

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan