(Luận Văn Thạc Sĩ) Nhận Dạng Tự Động Tiếng Nói Phát Âm Liên Tục Cho Các Phương Ngữ Chính Của Tiếng Việt Theo Phương Thức Phát Âm.pdf

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Ngọc Hưng NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT THEO PHƯƠNG THỨC PHÁT ÂM Chuyên ngành: Hệ thống thông tin Mã số: 62480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Trịnh Văn Loan TS Nguyễn Hồng Quang Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan tất nội dung luận án “Nhận dạng tự động tiếng nói phát âm liên tục cho phương ngữ tiếng Việt theo phương thức phát âm” cơng trình nghiên cứu riêng Các số liệu, kết luận án trung thực chưa công bố cơng trình Việc tham khảo nguồn tài liệu thực trích dẫn ghi nguồn tài liệu tham khảo quy định TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS Trịnh Văn Loan Phạm Ngọc Hưng TS Nguyễn Hồng Quang LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ mơn Hệ thống thơng tin tạo điều kiện thuận lợi cho tơi q trình học tập Trường Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp PGS.TS Trịnh Văn Loan TS Nguyễn Hồng Quang Hai Thầy ln tận tình giúp đỡ, đưa lời khun, định hướng khoa học quý báu để triển khai hồn thành cơng việc nghiên cứu Xin chân thành cảm ơn thầy cô, đồng nghiệp Bộ môn Hệ thống Thông tin, Bộ mơn Kỹ thuật máy tính, Viện Cơng nghệ Thông tin Truyền thông, Trường Đại học Bách khoa Hà Nội nơi học tập, thực đề tài nghiên cứu nhiệt tình giúp đỡ động viên tơi suốt q trình nghiên cứu Cảm ơn Khoa Công nghệ Thông tin Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi công tác ln tạo điều kiện cho tơi suốt q trình nghiên cứu hoàn thành luận án Với lịng biết ơn đến thầy cơ, nhà khoa học, đồng nghiệp bạn bè thân hữu động viên giúp đỡ tơi q trình nghiên cứu Cuối tơi muốn bày tỏ lịng biết ơn sâu sắc tới gia đình, nơi ni dưỡng nguồn động lực để tơi vượt trở ngại khó khăn để hoàn thành luận án Phạm Ngọc Hưng MỤC LỤC MỤC LỤC GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG 10 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ 12 MỞ ĐẦU 14 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ 19 1.1 Nhận dạng tiếng nói 19 1.1.1 Tổng quan nhận dạng tiếng nói 19 1.1.2 Lịch sử phát triển tiến nghiên cứu nhận dạng tiếng nói 20 1.1.3 Các thách thức nhận dạng tự động tiếng nói 21 1.1.4 Phân loại hệ thống nhận dạng tự động tiếng nói 22 1.2 Nhận dạng phương ngữ 24 1.2.1 Các mơ hình nhận dạng phương ngữ 24 1.2.2 Nhận dạng phương ngữ theo phương diện khác 25 1.3 Nghiên cứu nhận dạng tiếng nói nhận dạng phương ngữ tiếng Việt 30 1.4 Một số mơ hình nhận dạng 31 1.4.1 Mơ hình GMM 31 1.4.2 Bộ phân lớp SVM 33 1.4.3 Mạng nơ ron nhận tạo 39 1.5 Kết chương 43 XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 45 2.1 Tổng quan phương ngữ tiếng Việt 45 2.1.1 Phương ngữ phân vùng phương ngữ tiếng Việt 45 2.1.2 Đặc điểm ngữ âm ba vùng phương ngữ tiếng Việt 46 2.1.3 Sự khác biệt từ vựng ngữ nghĩa ba vùng phương ngữ tiếng Việt 47 2.2 Cấu trúc âm tiết, âm vị phương ngữ tiếng Việt 49 2.2.1 Âm tiết âm vị tiếng Việt 49 2.2.2 Âm đệm cách kết hợp âm đệm phương ngữ 53 2.3 Phụ âm đầu phương ngữ tiếng Việt 54 2.3.1 Hệ thống phụ âm đầu 54 2.3.2 So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam 56 2.4 Hệ thống điệu biến thể phương ngữ tiếng Việt 56 2.4.1 Hệ thống điệu Hà Nội 57 2.4.2 Hệ thống điệu Nghệ - Tĩnh Huế 57 2.4.3 Hệ thống điệu Đà Nẵng Thành phố Hồ Chí Minh 58 2.4.4 Một số nhận xét hệ thống điệu phương ngữ 59 2.5 Ảnh hưởng phương ngữ tới nhận dạng tiếng nói 60 2.6 Ngữ liệu phương ngữ giới xây dựng ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt 60 2.6.1 Phương pháp xây dựng ngữ liệu phương ngữ tiếng Việt 62 2.6.2 Chuẩn bị chuẩn hóa văn 62 2.6.3 Ghi âm 64 2.6.4 Kết ghi âm đặc tính VDSPEC 67 2.7 2.7.1 Biến thiên tần số F0 theo điệu ba phương ngữ 68 2.7.2 Phân tích thống kê phân bố F0 điệu 70 2.7.3 Phân tích liệu dùng LDA 72 2.8 Phân tích số đặc trưng phương ngữ tiếng Việt ngữ liệu VDSPEC 68 Kết chương 76 NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 78 3.1 Nhận dạng phương ngữ tiếng Việt với GMM 78 3.1.1 Công cụ thử nghiệm nhận dạng phương ngữ ALIZE 78 3.1.2 Lựa chọn số lượng hệ số MFCC 80 3.1.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp MFCC với tham số F0 81 3.1.4 Thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp formant, dải thông tương ứng tham số F0 84 3.1.5 Ảnh hưởng số lượng thành phần Gauss hiệu nhận dạng phương ngữ tiếng Việt 85 3.2 SVM nhận dạng phương ngữ tiếng Việt 87 3.2.1 Bộ phân lớp SMO 87 3.2.2 3.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO 88 lBk nhận dạng phương ngữ tiếng Việt 92 3.3.1 Bộ phân lớp IBk 92 3.3.2 Kết nhận dạng phương ngữ tiếng Việt sử dụng IBk 95 3.4 Nhận dạng phương ngữ tiếng Việt với phân lớp MultilayerPerceptron 96 3.4.1 Bộ phân lớp MultilayerPerceptron Weka 96 3.4.2 MultilayerPerceptron nhận dạng phương ngữ tiếng Việt 96 3.5 JRip nhận dạng phương ngữ tiếng Việt 97 3.5.1 Bộ phân lớp JRip 97 3.5.2 Nhận dạng phương ngữ tiếng Việt với JRip 98 3.6 Nhận dạng phương ngữ tiếng Việt với PART 99 3.6.1 Bộ phân lớp PART 99 3.6.2 Kết dùng PART nhận dạng phương ngữ tiếng Việt 99 3.7 Kết chương 99 CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ 102 4.1 HMM nhận dạng tiếng Việt nói 102 4.1.1 Mơ hình HMM 102 4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ 115 4.2 ngữ Cải thiện hiệu nhận dạng tiếng Việt nói thơng qua sử dụng thơng tin phương 120 4.2.1 Mơ hình nhận dạng tiếng Việt nói với việc sử dụng thơng tin phương ngữ 120 4.2.2 Nhận dạng tiếng Việt nói có thơng tin phương ngữ 122 4.3 Kết chương 123 KẾT LUẬN VÀ KIẾN NGHỊ 125 TÀI LIỆU THAM KHẢO 128 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 140 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ AANN Auto-Associative Neural Network AM Acoustic Model Mơ hình âm học ANN Artificial Neural Network Mạng nơ-ron nhân tạo ARFF Attribute-Relation File Format Định dạng file tham số đặc trưng Weka ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói BKSPEC Bach Khoa SPEech Corpus Bộ ngữ liệu phát triển Bộ môn Kỹ thuật Máy tính – Viện Cơng nghệ Thơng tin Truyền thông – Đại học Bách khoa Hà Nội BKTC Bach Khoa Text Code BMMI Boosted Maximum Mutual Information Thông tin tương hỗ cực đại tăng cường CD Concept Description Mô tả khái niệm CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh CMS Cepstral Mean Subtraction Trừ trung bình Cepstral CMU SLM Carnegie Mellon University Statistical Language Modeling Toolkit Bộ cơng cụ mơ hình hóa ngơn ngữ thống kê trường Carnegie Mellon DCF Detection Cost Function Hàm giá phát DET Detection Error Tradeoff Cân sai số phát DL Descrition Length Độ dài mô tả DNN Deep Neural Networks Mạng nơ-ron sâu ELRA European Language Resources Association Hội tài nguyên ngôn ngữ châu Âu EM Expectation Maximization Cực đại hóa kỳ vọng ERM Empirical Risk Minimization Tối thiểu hóa rủi ro theo kinh nghiệm F0 Fundamental frequency Tần số fMLLR feature-space MLLR fMMI feature-space MMI fMPE feature-space Minimum Phone Error FST Finite-State-Transducer Chuyển trạng thái hữu hạn GMM Gaussian Mixture Model Mơ hình hỗn hợp Gauss Giải thích HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân biệt tuyến tính hiệp phương sai khơng đồng HMM Hidden Markov Model Mơ hình Markov ẩn HTK Hidden Markov Model Toolkit Bộ cơng cụ mơ hình Markov ẩn IBk Instance Based k Tên gọi phân lớp k láng giềng gần Weka IBL Instance Based Learning Học dựa đối tượng IREP Incremental Reduced Error Pruning JRip KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker k-NN k-Nearest Neighbour K láng giềng gần LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đồn liệu ngơn ngữ LLR Log Likelihood Ratio LPC Linear Prediction Coding MAP Maximum a Posteriori MFCC Mel Frequency Cepstral Coefficients MHAH Mơ hình âm học MHNN Mơ hình ngôn ngữ MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transforms MMI Maximum Mutual Information MPE Minimum Phone Error Cực tiểu hóa lỗi âm NIST National Institute of Standards and Technology Viện Tiêu chuẩn Công nghệ Quốc gia Mỹ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NN Neural Networks Mã hóa tiên đốn tuyến tính Các hệ số Cepstral theo thang đo tần số Mel PART PCA Principal Component Analysis Phân tích thành phần PLP Perceptual Linear Prediction Tiên đốn cảm thụ tuyến tính PNB Phương ngữ Bắc PNN Phương ngữ nam PNT Phương ngữ Trung PPR Parallel Phone Recognition PPRLM Parallel Phone Recognition followed by Language Modeling PRLM Phone Recognition followed by Language Modeling QP Quadratic Programming Quy hoạch toàn phương RBF Radial Basis Function Hàm hướng Gauss RIPPER Repeated Incremental Pruning to Produce Error Reduction RM Risk Minimization Tối thiểu hóa rủi ro SAT Speaker Adaptive Training Huấn luyện thích nghi người nói SBS Sequential Backward Selection Lựa chọn lùi SFS Sequential Forward Selection Lựa chọn tiến SMO Sequential Minimal Optimization Thuật giải tối ưu hóa cực tiểu SRILM Stanford Research Institute Language Modeling Bộ cơng cụ tạo mơ hình ngơn ngữ SRI SRM Structural Risk Minimization Tối thiểu hóa rủi ro cấu trúc SVM Support Vector Machines Máy véc-tơ hỗ trợ TTS Text-to-Speech Văn thành tiếng nói VDSPEC Vietnamese Dialect Speech Corpus Bộ ngữ liệu phương ngữ tiếng Việt VTLN Vocal Tract Length Normalization Chuẩn hóa chiều dài tuyến âm WER Word Error Rate Tỷ lệ lỗi từ DANH MỤC CÁC BẢNG Bảng 2.1: Sự khác biệt phương ngữ từ cách sử dụng từ 48 Bảng 2.2: Cấu trúc âm tiết tiếng Việt 50 Bảng 2.3: Hệ thống phụ âm làm âm đầu 51 Bảng 2.4: Bảng âm nguyên âm đơn 52 Bảng 2.5: Cách thể chữ viết nguyên âm 52 Bảng 2.6: Vị trí âm vị hệ thống âm cuối 53 Bảng 2.7: Hệ thống phụ âm đầu Bắc Bộ 55 Bảng 2.8: So sánh hệ thống phụ âm đầu PNB, PNT PNN 56 Bảng 2.9: Phân loại điệu theo truyền thống 56 Bảng 2.10: Đặc tính văn theo chủ đề 63 Bảng 2.11: Tổ chức lưu liệu ngữ liệu VDSPEC 67 Bảng 2.12: Thống kê thời lượng ghi âm VDSPEC theo phương ngữ 67 Bảng 2.13: Thống kê thời lượng ghi âm VDSPEC theo chủ đề 68 Bảng 2.14: Ngữ cảnh chọn từ khảo sát điệu 69 Bảng 3.1: Kết nhận dạng dùng GMM với tham số MFCC, F0 giá trị chuẩn hóa từ F0 83 Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ khơng phụ thuộc giới tính sử dụng hệ số MFCC kết hợp với tham số F0 83 Bảng 3.3: Kết thử nghiệm nhận dạng phương ngữ tiếng Việt trường hợp kết hợp formant, dải thông tương ứng tham số F0 85 Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác 87 Bảng 3.5: Bộ phân lớp SMO, kết nhận dạng với 384 tham số 89 Bảng 3.6: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m với 384 tham số 90 Bảng 3.7: Bộ phân lớp SMO, kết nhận dạng khơng có thơng tin liên quan trực tiếp F0 90 Bảng 3.8: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m không có thông tin liên quan trực tiếp F0 90 Bảng 3.9: Bộ phân lớp SMO, kết thử nghiệm dùng tham số liên quan trực tiếp F0 91 Bảng 3.10: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m chỉ sử du ̣ng tham số liên quan trực tiếp F0 91 Bảng 3.11: Bộ phân lớp SMO, kết nhận dạng dùng tham số liên quan trực tiếp MFCC 91 Bảng 3.12: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m dùng tham số liên quan trực tiếp MFCC 91 Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] 93 10

Định dạng
Số trang	141
Dung lượng	2,51 MB