1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu áp dụng mô hình mạng nơ ron end to end cho nhận dạng tiếng nói tiếng việt

83 176 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 1,55 MB

Nội dung

TRƯỜNG ĐẠI HỌC KÝ THUẬT CÔNG NGHIỆP TRẦN VĂN NGHĨA NGHIÊN CỨU ÁP DỤNG MÔ HÌNH MẠNG NƠ-RON END-TO-END CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT LUẬN VĂN THẠC SĨ KỸ THUẬT VIỄN THÔNG THÁI NGUYÊN 2019 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KÝ THUẬT CÔNG NGHIỆP TRẦN VĂN NGHĨA NGHIÊN CỨU ÁP DỤNG MÔ HÌNH MẠNG NƠ-RON END-TO-END CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Kỹ thuật viễn thông Mã số: 8520208 LUẬN VĂN THẠC SĨ KỸ THUẬT VIỄN THÔNG KHOA CHUYÊN MÔN TRƯỞNG KHOA NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN VĂN HUY PHÒNG ĐÀO TẠO THÁI NGUYÊN 2019 Lời nói đầu Nhận dạng tiếng nói là mong ước của khoa học và con người Những người máy có thể hiểu được tiếng người nói và thực thi nhiệm vụ theo mệnh lệnh người nói Các kỹ thuật nhận dạng tiếng nói đã và đang rất phát triển, đặc biệt với một số ngôn ngữ phổ dụng như Anh, Pháp, Trung Quốc,… Những yếu tố chính ảnh hưởng đến chất lượng của một hệ thống nhận dạng tiếng nói như: Người nói, tốc độ nói, hoàn cảnh nói, nhiễu, kích thước từ điển, cách thức phát âm,… tuy nhiên hiện nay vẫn chưa có một giải pháp nào hoàn thiện giải quyết tất cả các yếu tố đó Các phương pháp cơ bản thường được sử dụng cho nhận dạng tiếng nói là: Kỹ thuật so khớp mẫu, mạng nơ-ron, phương pháp dựa trên tri thức và mô hình Markov ẩn Trong đó phương pháp sử dụng mô hình Markov ẩn (Hidden Markov Model HMM) được sử dụng phổ biến nhất Đối với tiếng Việt hiện nay vẫn chưa thực sự được nghiên cứu rộng rãi về nhận dạng Các công việc nghiên cứu mới đang ở những bài toán cơ bản Tiếng Việt là một ngôn ngữ có thanh điệu, vì thế ngoài những khó khăn gặp phải tương tự như việc nhận dạng các ngôn ngữ không có thanh điệu khác (Anh, pháp, …), nhận dạng tiếng Việt còn phải nghiên cứu vấn đề nhận dạng thanh điệu Tiếng Việt có sáu thanh điệu, một cách tổng quát có thể coi như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương ứng với sáu thanh điệu đó Việc nhận dạng thanh điệu là một công việc khó do thanh điệu chỉ tồn tại ở vùng âm hữu thanh Vì thế đường đặc tính của nó không liên tục khi chuyển tiếp giữa hai vùng hữu thanh và vô thanh Các đặc trưng được sử dụng phổ biến trong nhận dạng tiếng nói như MFCC (Mel Frequency Cepstral Coefficient) và PLP (Perceptual Linear Prediction) lại không mô tả được các đặc tính của thanh điệu, do vậy trước khi nhận dạng được thanh điệu ta phải áp dụng các kỹ thuật tính toán đặc trưng thanh điệu trong tín hiệu tiếng nói Khi áp dụng mô hình mạng nơ-ron (Deep Neural Network – DNN) cho nhận dạng tiếng Việt, cụ thể là trong quá trình trích chọn đặc trưng BottleNeck, đã giúp cải thiện chất lượng hệ thống nhận dạng Tuy nhiên, nếu sử dụng mô i hình mạng nơ-ron truyền thống, các mô hình DNN này được huấn luyện trên tập dữ liệu đã được gán nhãn, sẽ cần tốn nhiều thời gian cho việc huấn luyện, và chất lượng mô hình huấn luyện phụ thuộc vào thủ tục liên kết các mô hình trong nó Do mô hình truyền thống gồm ba phần chính: là mô hình phát âm (pronunciation model – PM), mô hình ngữ âm (acoustic model – AM) và mô hình ngôn ngữ (language model – LM), chúng được huấn luyện độc lập nhau Vì vậy, việc nghiên cứu loại mô hình mạng nơ-ron giúp tích hợp ba thành phần PM, AM và LM trong mô hình mạng nơ-ron truyền thống, vào một mô hình đơn nhất là cần thiết, và việc huấn luyện có thể thực hiện trực tiếp trên tập dữ liệu chưa được gán nhãn Nghĩa là việc huấn luyện chỉ yêu cầu các file tiếng nói (audio file) và phiên âm của chúng – đây chính là mô hình End-to-End (E2E) Xuất phát từ nhận thức trên, được sự gợi hướng của Thầy giáo, TS Nguyễn Văn Huy, học viên xin trình bày luận văn tốt nghiệp Thạc sỹ chuyên ngành Kỹ thuật Viễn thông về “Nghiên cứu áp dụng mô hình mạng nơ-ron End-to-End cho nhận dạng tiếng nói tiếng Việt” Nội dung chính của luận văn được trình bày thành 03 chương với bố cục như sau:  Chương 1: Mở đầu Giới thiệu tổng quan về nhận dạng tiếng nói và ứng dụng Các vấn đề khó khăn cần giải quyết trong lĩnh vực nhận dạng tiếng nói Giới thiệu tổng quan về tình hình nghiên cứu nhận dạng tiếng Việt trong và ngoài nước Giới thiệu các nội dung nghiên cứu chính của luận văn  Chương 2: Mô hình mạng nơ-ron học sâu End-to-End cho nhận dạng tiếng nói Giới thiệu về các thành phần cơ bản trong hệ thống nhận dạng tiếng nói từ vựng lớn Mô hình dựa trên mạng nơ-ron học sâu (Deep Neural Network - DNN) cho nhận dạng tiếng nói Phân loại mô hình mạng DNN truyền thống, mạng DNN End-to-End; và ứng dụng trong nhận dạng tiếng nói ngôn ngữ không phải tiếng Việt ii  Chương 3: Áp dụng mô hình mạng nơ-ron End-to-End cho nhận dạng tiếng Việt Trình bày tổng quan về cấu trúc ngữ âm tiếng Việt, đề xuất cho việc nhận dạng tiếng nói tiếng Việt và thử nghiệm thực tế Tôi xin được gửi lời cảm ơn đặc biệt đến TS Nguyễn Văn Huy, đã luôn chỉ bảo, định hướng, tạo điệu kiện thuận lợi nhất để tôi có thể hoàn thành luận văn này Thái Nguyên, ngày tháng Trần Văn Nghĩa iii năm 2019 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của TS Nguyễn Văn Huy Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và có nguồn gốc rõ ràng Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được thu thập từ các thử nghiệm thực tế Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình Tác giả Trần Văn Nghĩa 4 Mục lục Lời nói đầu i Lời cam đoan iv lục Mục v Danh mục các từ viết tắt vii Danh mục bảng biểu ix Danh mục hình ảnh x Chương 1: Mở đầu 1 1.1 Tổng quan về nhận dạng tiếng nói 1 1.1.1 Nhận dạng tiếng nói 1 1.1.2 Ứng dụng 2 1.1.3 Các vấn đề trong nhận dạng tiếng nói 4 1.2 Tình hình nghiên cứu hiện nay về nhận dạng tiếng nói 6 1.2.1 Về trích chọn đặc trưng 7 1.2.2 Về mô hình ngữ âm (acoustic model) 9 1.2.3 Về mô hình ngôn ngữ 12 1.2.4 Về bộ giải mã 13 1.3 Nhận dạng tiếng Việt và các nghiên cứu hiện nay 13 1.4 Một số nghiên cứu gần đây trên các ngôn ngữ có thanh điệu 18 1.5 Kết luận, các nội dung và phạm vi nghiên cứu chính của luận văn 19 Chương 2: Mô hình mạng nơ-ron học sâu End-to-End cho nhận dạng tiếng nói 22 2.1 Các thành phần chính của một hệ thống nhận dạng tiếng nói 22 2.1.1 Trích chọn đặc trưng 22 2.1.1.1 Đặc trưng MFCC 23 2.1.1.2 Đặc trưng PLP 26 2.1.2 Mô hình ngữ âm 27 2.1.2.1 Tổng quan về mô hình HMM: 28 5 2.1.2.2 Áp dụng mô hình HMM trong nhận dạng tiếng nói 29 2.1.3 Mô hình ngôn ngữ 30 2.1.3.1 Tổng quan về mô hình n-gram: 31 6 2.1.3.2 Các vấn đề tồn tại của n-gram 31 2.1.3.3 Một số phương pháp làm trơn mô hình n-gram 32 2.2 Mô hình mạng nơ-ron 33 2.2.1 Mô hình mạng nơ-ron truyền thống 33 2.2.2 Mô hình End-to-End 33 2.3 Một số cách áp dụng trên các ngôn ngữ khác 34 2.3.1 Hàm mục tiêu CTC 38 2.3.2 Mô hình DNN 38 2.3.3 Nhận dạng tiếng nói sử dụng E2E 40 Chương 3: Áp dụng mô hình End-to-End cho nhận dạng tiếng nói tiếng Việt 42 3.1 Tổng quan về tiếng Việt 42 3.1.1 Bộ âm vị tiếng Việt 43 3.1.2 Thanh điệu và đặc trưng thanh điệu 45 3.3 Thực nghiệm và Kết quả 47 3.3.1 Bộ dữ liệu huấn luyện và kiểm tra 47 3.3.2 Huấn luyện mô hình E2E 49 3.3.3 Mô hình ngôn ngữ (LM) 49 3.3.4 So sánh với mô hình DNN 49 3.3.5 Các kết quả và thảo luận 50 Kết luận 52 Danh mục các tài liệu tham khảo: 54 7 Danh mục các từ viết tắt TT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Viết tắt AM AMDF CNN CP CTC DCT DFT DNN E2E F0 FST G2P GMM GPU HMM IDFT LDA LM LPC LSTM MFCC MLLT MLP MSD NCC NN PLP PM PP RNN T1 T2 T3 Nghĩa Acoustic Model Average Magnitude Difference Function Convolution Neural Network Character-based Phoneset Connectionist Temporal Classification Discrete cosine transform Discrete Fourier transform Deep Neural Network End-to-End Fundamental Frequency Finite-State Transducer Grapheme to Phoneme Gaussian Mixture Model Graphical processing unit Hidden Markov Model Invert Discrete Fourier transform Linear Discriminant Analysis Language Model Linear Prediction Coding Long Short-Term Memory Mel Frequency Cepstral Coefficients Maximum Likelihood Linear Transform Multilayer Perceptron Multispace Distribution Normalized Cross-Correlation Neural Network Perceptual Linear Prediction Pronunciation Model Phoneme-based Phoneset Recurrent Neural Networks Tone 1 Tone 2 Tone 3 vii Danh mục các tài liệu tham khảo: [1] Jurafsky, Daniel and Martin, James H Speech and Language Processing - 2nd Edition Prentice Hall, ISBN-13: 978-0131873216, ISBN-10: 0131873210, 2008 [2] Ambra, N and Catia, C and Wilhelmus, S "Automatic Speech Recognition for second language learning: How and why it actually works." International Congress of Phonetic Sciences (ICPhS) Barcelona, 2003 [3] Tebelskis, Joe Speech Recognition using Neural Networks USA: Carnegie Mellon University, 1995 [4] Đức, Đặng Ngọc Mạng nơron và mô hình Markov ẩn trong nhận dạng tiếng Việt Hà Nội: Luấn án tiến sỹ, Trường ĐH Khoa học tự nhiên – ĐH Quốc gia hà Nội, 2003 [5] Lei, Xin Modeling Lexical Tones for Mandarin Large Vocabulary Continuous Speech Recognition USA: University of Washington, 2006 [6] Muda, Lindasalwa and Begam, Mumtaj and Elamvazuthi, I "Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques." journal of computing, V.2, No.2, ISSN 2151-9617, 2010 [7] Florian, Honig and Georg, Stemmer and Christian, Hacker and Fabio, Brugnara "Revising Perceptual Linear Prediction (PLP)." INTERSPEECH Lisbon, Portugal, 2005 [8] Haeb-Umbach, R and Ney, H "Linear discriminant analysis for improved large vocabulary continuous speech recognition." Acoustics, Speech, and Signal Processing (ICASSP) California, USA, 1992 13-16 [9] Sakai, M.,Denso Corp "Generalization of Linear Discriminant Analysis used in Segmental Unit Input HMM for Speech Recognition." Acoustics, Speech and Signal Processing (ICASSP) Honolulu, 2007 IV-333 - IV-336 [10] Psutka, Josef V "Benefit of Maximum Likelihood Linear Transform (MLLT) Used at Different Levels of Covariance Matrices Clustering in ASR Systems." Text, Speech and Dialogue, 10th International Conference (TSD) Czech Republic, 2007 [11] Anastasakos, T and McDonough, J and Makhoul, J "Speaker adaptive training: a maximum likelihood approach to speaker normalization." Acoustics, Speech and Signal Processing (ICASSP) Munich, 1997 1043 – 1046 [12] Martin, Karafiat and Lukas, Burget and Pavel, Matejka and Ondrej, Glembek "iVector-Based Discriminative Adaptation for Automatic Speech Recognition." Automatic Speech Recognition and Understanding (ASRU) Waikoloa: IEEE, 2011 152-157 [13] F Metze, Z A W Sheikh, A Waibel, J Gehring, K Kilgour, Q B Nguyen, and V H Nguyen, “Models of tone for tonal and non-tonal languages,” in 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, Dec 2013, pp 261–266 [14] Tuerxun, M and Zhang, Shiliang and Bao, Yebo and Dai, Lirong "Improvements on bottleneck feature for large vocabulary continuous speech recognition." Signal Processing (ICSP) Hangzhou, 2014 516 – 520 [15] Ravanelli, M and Do, Van Hai and Janin, A "TANDEM-bottleneck feature combination using hierarchical Deep Neural Networks." Chinese Spoken Language Processing (ISCSLP) Singapore, 2014 113 – 117 54 [16] Kevin, K and Heck, M and Muller, Markus and Sperber, Matthias and Stuker, Sebastian and Waibe, Alex "The 2014 KIT IWSLT Speech-to-Text Systems for English, German and Italian." The International Workshop on Spoken Language Translation (IWSLT) Lake Tahoe, USA, 2014 [17] Shen, Peng and Lu, Xugang and Hu, Xinhui and Kanda, Naoyuki and Saiko, Masahiro and Hori, Chiori "The NICT ASR System for IWSLT 2014." The International Workshop on Spoken Language Translation (IWSLT) Lake Tahoe, USA, 2014 [18] Ochiai, T and Matsuda, S and Lu, Xugang and Hori, C and Katagiri, S "Speaker Adaptive Training using Deep Neural Networks." Acoustics, Speech and Signal Processing (ICASSP) Florence, 2014 6349 – 6353 [19] Daniel, Povey and Arnab, Ghoshal and Gilles, Boulianne and Lukas, Burget and Ondrej, Glembek and Nagendra, Goel and Mirko, Hannemann and Petr, Motlicek and Yanmin, Qian and Petr, Schwarz and Jan, Silovsky and Georg, Stemmer and Karel, Vesely "The Kaldi Speech Recognition Toolkit." Automatic Speech Recognition and Understanding Hawaii, US, 2011 [20] Tokuda, K and Masuko, Takashi and Miyazaki, Noboru and Kobayashi, Takao "Hidden Markov models based on multi-space probability distribution for pitch pattern modeling." Acoustics, Speech, and Signal Processing (ICASSP) Phoenix, USA, 1999 229-232 [21] Yu, Kai and Young, S "Continuous F0 Modeling for HMM Based Statistical Parametric Speech Synthesis." Audio, Speech, and Language Processing, IEEE, V 19, Issue 5, ISSN:1558-7916 [IEEE], 2010: 1071 – 1079 [22] Kunikoshi, A and Yao, Qian and Soong, F and Minematsu, N "F0 modeling and generation in voice conversion." Acoustics, Speech and Signal Processing (ICASSP) Prague, 2011 4568 – 4571 [23] Miyajima, C and Hattori Y and Tokuda, K and Masuko and Takashi and Kobayashi, T and Kitamura, T "Speaker identification using Gaussian mixture models based on multi-space probability distribution." Acoustics, Speech, and Signal Processing (ICASSP) Salt Lake City, UT, 2001 433 – 436 [24] Qian, Yao and Frank, K Soong "A Multi-Space Distribution (MSD) and two-stream tone modeling approach to Mandarin speech recognition." Speech Communication, Vol 51, 2009: 1169– 1179 [25] Chong-Jia, Ni and Wen-Ju, Liu and Bo, Xu "Prosody Dependent Mandarin Speech Recognition." International Joint Conference on Neural Networks California, USA: IEEE, 2011 197-201 [26] Ney, R K and Hermann "Improved backing-off for n-gram language modeling." Acoustics, Speech and Signal Processing Detroit: IEEE, 1995 181-184 [27] Stolcke, Andreas "Entropy-based Pruning of Backoff Language Models." DARPA Broadcast News Transcription and Understanding Virginia, 1998 270-274 [28] Katz, S "Estimation of probabilities from sparse data for the language model component of a speech recognizer." Acoustics, Speech and Signal Processing IEEE, 1987 400 - 410 [29] Frederick, Jelinek and Robert, L Mercer "Interpolated Estimation of Markov Source Parameters from Sparse Data." Pattern Recognition in The Netherlands: North-Holland, 1980 381-397 [30] Bengio, Yoshua and Rejean, Ducharme and Pascal, Vincent and Christian, Jauvin "A neural probabilistic language." Machine Learning Research, 2003: 1137–1155 [31] Schwenk, Holger "Continuous space language models." Computer Speech and Language, Vol 21, 2007: 492-518 55 [32] Dixon, P.R and Hori, C and Kashioka, H "Development of the SprinTra WFST Speech Decoder." NICT Research Journal, 2012: Journal [33] Khang, Bạch Hưng Tổng Hợp và Nhận dạng tiếng Việt - Đề tài cấp nhà nước Hà Nội: Viện Công Nghệ Thông Tin, 2004 [34] Quoc Cuong, Nguyen and Yen, Pham Thi Ngoc and Castelli, E "Shape vector characterization of Vietnamese tones and application to automatic recognition." Automatic Speech Recognition and Understanding - ASRU Italy: IEEE, 2001 437 - 440 [35] Hong Quang, Nguyen and Nocera, P and Castelli, E and Van Loan, T "Tone recognition of Vietnamese continuous speech using hidden Markov model." Communications and Electronics ICCE Hoi an: IEEE, 2008 235 - 239 [36] Thang, Vu Tat and Tang, Khanh Nguyen and Le, Son Hai and Luong, Mai Chi "Vietnamese tone recognition based on multi-layer perceptron network." Conference of Oriental Chapter of the International Coordinating Committee on Speech Database and Speech I/O System Kyoto,, 2008 253–256 [37] V H Nguyen, C M Luong, and T T Vu, “Tonal phoneme based model for Vietnamese LVCSR,” in 2015 International Conference Oriental CO- COSDA held jointly with 2015 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), Oct 2015, pp 118– 122 [38] N T Vu and T Schultz, “Vietnamese large vocabulary continuous speech recognition,” in 2009 IEEE Workshop on Automatic Speech Recognition Understanding, Nov 2009, pp 333–338 [39] Tuan, Nguyen and Hai Quan, Vu "Advances in Acoustic Modeling for Vietnamese LVCSR." Asian Language Processing Singapore: IEEE, 2009 280 - 284 [40] Sethserey, Sam and Eric, Castelli and Laurent, Besacier "Unsupervised acoustic model adaptation for multi-origin non native." INTERSPEECH Japan: IEEE, 2010 [41] Ferreira, E and Nocera, P and Goudi, M and Thi, N.D.D "YAST: A Scalable ASR Toolkit Especially Designed for Under-Resourced Languages." Asian Language Processing (IALP) Hanoi: IEEE, 2012 141 - 144 [42] Thắng, Vũ Ngọc Automatic Speech Recognition for Low-resource Languages and Accents Using Multilingual and Crosslingual Information Karlsruher - Germany: Karlsruher Instituts of Technologie - KIT, 2014 [43] Chuong, Nguyen Thien Automatic speech recognition of Vietnamese PhD Thesis, Technical University of Liberec, Czech Republic, 2014 [44] Chen, C.J and Haiping Li and Liqin Shen and Guokang Fu "Recognize tone languages using pitch information on the main vowel of each syllable." Acoustics, Speech, and Signal Processing (ICASSP) Salt Lake City, UT: IEEE, 2001 61-64 [45] Sinaporn, Suebvisai and Paisarn, Charoenpornsawat and et "Thai Automatic Speech Recognition." Acoustics, Speech, and Signal Processing (ICASSP) Philadlnphia, USA: IEEE, 2005 857-860 [46] Hermansky, H "Perceptual linear predictive (PLP) analysis of speech." Acoustical Society of America Journal, 1990: 1738–1752 [47] Levinson, N "The Wiener RMS error criterion in filter design and prediction." J Math Physics, 1947: 261–278 [48] D Amodei, R Anubhai, E Battenberg, C Case, J Casper, B Catanzaro, J Chen, M 56 Chrzanowski, A Coates, G Diamos, E Elsen, J Engel, L Fan, C Fougner, T Han, A Y Hannun, B Jun, P LeGresley, L Lin, S Narang, A Y Ng, S Ozair, R Prenger, J Raiman, S Satheesh, D Seetapun, S Sengupta, Y Wang, Z Wang, C Wang, B Xiao, D Yogatama, J Zhan, and Z Zhu, “Deep Speech 2: End-to-End Speech Recognition in English and Mandarin,” CoRR, vol abs/1512.02595, 2015 [49] C Chiu, T N Sainath, Y Wu, R Prabhavalkar, P Nguyen, Z Chen, A Kannan, R J Weiss, K Rao, K Gonina, N Jaitly, B Li, J Chorowski, and M Bacchiani, “State-of-the-art speech recognition with sequence-to-sequence models,” CoRR, vol abs/1712.01769, 2017 [Online] [50] W Chan, N Jaitly, Q V Le, and O Vinyals, “Listen, attend and spell,” CoRR, vol abs/1508.01211, 2015 [Online] Available: http://arxiv.org/abs/1508.01211 [51] R Collobert, C Puhrsch, and G Synnaeve, “Wav2Letter: an End-to-End ConvNet-based Speech Recognition System,” CoRR, vol 1609.03193, 2016 [52] A Graves, S Fernandez, and F Gomez, “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neu- ral networks,” in In Proceedings of the International Conference on Machine Learning, ICML 2006, 2006, pp 369–376 [53] A Graves and N Jaitly, “Towards End-to-end Speech Recognition with Recurrent Neural Networks,” in Proceedings of the 31st International Conference on International Conference on Machine Learning - Volume 32 JMLR.org, 2014, pp 1764–1772 [54] S Hochreiter and J Schmidhuber, “Long Short-term Memory,” Neural computation, vol 9, pp 1735–80, 12 1997 [55] A Waibel, T Hanazawa, G Hinton, K Shikano, and K J Lang, “Phoneme recognition using time-delay neural networks,” IEEE Trans- actions on Acoustics, Speech, and Signal Processing, vol 37, no 3, pp 328 339, March 1989 [56] D Snyder, D Garcia-Romero, and D Povey, “Time delay deep neural network-based universal background models for speaker recognition,” in 2015 IEEE Workshop on Automatic Speech Recognition and Under standing (ASRU), Dec 2015, pp 92–97 [57] D T Thuat, Ngu am tieng Viet (Vietnamese Acoustic) Vietnam National University Press, Hanoi, 2003 [58] Chừ, Mai Ngọc and Nghiệu, Vũ Đức and Phiến, Hoàng Trọng Cơ sở ngôn ngữ học và tiếng Việt Việt Nam: NXB Giáo Dục, 1997 [59] V Peddinti, D Povey, and S Khudanpur, “A time delay neural net- work architecture for efficient modeling of long temporal contexts,” in INTERSPEECH, 2015 [60] VLSP, “VLSP 2018 - Automatic Speech Recognition,” 2018, [Online; accessed 19-Aug-2018] [61] P Mermelstein, “Distance Measures for Speech Recognition– Psychological and Instrumental,” in Joint Workshop on Pattern Recog- nition and Artificial Intelligence, 1976 [62] A Hong Quang, “SRILM: An extensible language modeling toolkit,” in IN PROCEEDINGS OF THE 7TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING (ICSLP 2002), 2002, pp 901– 904 57 ... nhận dạng tiếng nói Phân loại mơ hình mạng DNN truyền thống, mạng DNN End- to -End; ứng dụng nhận dạng tiếng nói ngơn ngữ khơng phải tiếng Việt ii  Chương 3: Áp dụng mơ hình mạng nơ- ron End- to -End. .. Mơ hình mạng nơ- ron học sâu End- to -End cho nhận dạng tiếng nói Giới thiệu thành phần hệ thống nhận dạng tiếng nói từ vựng lớn Mơ hình dựa mạng nơ- ron học sâu (Deep Neural Network - DNN) cho nhận. .. thống nhận dạng dựa mơ hình luận văn có khả nhận dạng tất từ có tiếng Việt 21 Chương 2: Mơ hình mạng nơ- ron học sâu End- to -End cho nhận dạng tiếng nói Giới thiệu thành phần hệ thống nhận dạng tiếng

Ngày đăng: 20/05/2020, 16:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Jurafsky, Daniel and Martin, James H. Speech and Language Processing - 2nd Edition. Prentice Hall, ISBN-13: 978-0131873216, ISBN-10: 0131873210, 2008 Sách, tạp chí
Tiêu đề: Speech and Language Processing - 2nd Edition
[2] Ambra, N. and Catia, C. and Wilhelmus, S. "Automatic Speech Recognition for second language learning: How and why it actually works." International Congress of Phonetic Sciences (ICPhS).Barcelona, 2003 Sách, tạp chí
Tiêu đề: Automatic Speech Recognition for second languagelearning: How and why it actually works
[4] Đức, Đặng Ngọc. Mạng nơron và mô hình Markov ẩn trong nhận dạng tiếng Việt. Hà Nội: Luấn án tiến sỹ, Trường ĐH Khoa học tự nhiên – ĐH Quốc gia hà Nội, 2003 Sách, tạp chí
Tiêu đề: Mạng nơron và mô hình Markov ẩn trong nhận dạng tiếng Việt
[5] Lei, Xin. Modeling Lexical Tones for Mandarin Large Vocabulary Continuous Speech Recognition.USA: University of Washington, 2006 Sách, tạp chí
Tiêu đề: Modeling Lexical Tones for Mandarin Large Vocabulary Continuous Speech Recognition
[6] Muda, Lindasalwa and Begam, Mumtaj and Elamvazuthi, I. "Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques."journal of computing, V.2, No.2, ISSN 2151-9617, 2010 Sách, tạp chí
Tiêu đề: Voice Recognition Algorithms usingMel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques
[7] Florian, Honig and Georg, Stemmer and Christian, Hacker and Fabio, Brugnara. "Revising Perceptual Linear Prediction (PLP)." INTERSPEECH. Lisbon, Portugal, 2005 Sách, tạp chí
Tiêu đề: RevisingPerceptual Linear Prediction (PLP)
[8] Haeb-Umbach, R. and Ney, H. "Linear discriminant analysis for improved large vocabulary continuous speech recognition." Acoustics, Speech, and Signal Processing (ICASSP). California, USA, 1992. 13-16 Sách, tạp chí
Tiêu đề: Linear discriminant analysis for improved large vocabularycontinuous speech recognition
[9] Sakai, M.,Denso Corp. "Generalization of Linear Discriminant Analysis used in Segmental Unit Input HMM for Speech Recognition." Acoustics, Speech and Signal Processing (ICASSP). Honolulu, 2007. IV-333 - IV-336 Sách, tạp chí
Tiêu đề: Generalization of Linear Discriminant Analysis used in Segmental UnitInput HMM for Speech Recognition
[10] Psutka, Josef V. "Benefit of Maximum Likelihood Linear Transform (MLLT) Used at Different Levels of Covariance Matrices Clustering in ASR Systems." Text, Speech and Dialogue, 10th International Conference (TSD). Czech Republic, 2007 Sách, tạp chí
Tiêu đề: Benefit of Maximum Likelihood Linear Transform (MLLT) Used at DifferentLevels of Covariance Matrices Clustering in ASR Systems
[11] Anastasakos, T. and McDonough, J. and Makhoul, J. "Speaker adaptive training: a maximum likelihood approach to speaker normalization." Acoustics, Speech and Signal Processing (ICASSP).Munich, 1997. 1043 – 1046 Sách, tạp chí
Tiêu đề: Speaker adaptive training: a maximumlikelihood approach to speaker normalization
[12] Martin, Karafiat and Lukas, Burget and Pavel, Matejka and Ondrej, Glembek. "iVector-Based Discriminative Adaptation for Automatic Speech Recognition." Automatic Speech Recognition and Understanding (ASRU). Waikoloa: IEEE, 2011. 152-157 Sách, tạp chí
Tiêu đề: iVector-BasedDiscriminative Adaptation for Automatic Speech Recognition
[13] F. Metze, Z. A. W. Sheikh, A. Waibel, J. Gehring, K. Kilgour, Q. B. Nguyen, and V. H. Nguyen,“Models of tone for tonal and non-tonal languages,” in 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, Dec 2013, pp. 261–266 Sách, tạp chí
Tiêu đề: Models of tone for tonal and non-tonal languages,” in "2013 IEEE Workshop on Automatic Speech"Recognition and Understanding
[14] Tuerxun, M. and Zhang, Shiliang and Bao, Yebo and Dai, Lirong. "Improvements on bottleneck feature for large vocabulary continuous speech recognition." Signal Processing (ICSP). Hangzhou, 2014. 516 – 520 Sách, tạp chí
Tiêu đề: Improvements on bottleneckfeature for large vocabulary continuous speech recognition
[15] Ravanelli, M. and Do, Van Hai and Janin, A. "TANDEM-bottleneck feature combination using hierarchical Deep Neural Networks." Chinese Spoken Language Processing (ISCSLP). Singapore, 2014. 113 – 117 Sách, tạp chí
Tiêu đề: TANDEM-bottleneck feature combination usinghierarchical Deep Neural Networks
[16] Kevin, K. and Heck, M. and Muller, Markus and Sperber, Matthias and Stuker, Sebastian and Waibe, Alex. "The 2014 KIT IWSLT Speech-to-Text Systems for English, German and Italian." The International Workshop on Spoken Language Translation (IWSLT). Lake Tahoe, USA, 2014 Sách, tạp chí
Tiêu đề: The 2014 KIT IWSLT Speech-to-Text Systems for English, German and Italian
[17] Shen, Peng and Lu, Xugang and Hu, Xinhui and Kanda, Naoyuki and Saiko, Masahiro and Hori, Chiori. "The NICT ASR System for IWSLT 2014." The International Workshop on Spoken Language Translation (IWSLT). Lake Tahoe, USA, 2014 Sách, tạp chí
Tiêu đề: The NICT ASR System for IWSLT 2014
[18] Ochiai, T. and Matsuda, S. and Lu, Xugang and Hori, C. and Katagiri, S. "Speaker Adaptive Training using Deep Neural Networks." Acoustics, Speech and Signal Processing (ICASSP).Florence, 2014. 6349 – 6353 Sách, tạp chí
Tiêu đề: Speaker AdaptiveTraining using Deep Neural Networks
[19] Daniel, Povey and Arnab, Ghoshal and Gilles, Boulianne and Lukas, Burget and Ondrej, Glembek and Nagendra, Goel and Mirko, Hannemann and Petr, Motlicek and Yanmin, Qian and Petr, Schwarz and Jan, Silovsky and Georg, Stemmer and Karel, Vesely. "The Kaldi Speech Recognition Toolkit."Automatic Speech Recognition and Understanding. Hawaii, US, 2011 Sách, tạp chí
Tiêu đề: The Kaldi Speech Recognition Toolkit
[20] Tokuda, K. and Masuko, Takashi and Miyazaki, Noboru and Kobayashi, Takao. "Hidden Markov models based on multi-space probability distribution for pitch pattern modeling." Acoustics, Speech, and Signal Processing (ICASSP). Phoenix, USA, 1999. 229-232 Sách, tạp chí
Tiêu đề: Hidden Markovmodels based on multi-space probability distribution for pitch pattern modeling
[21] Yu, Kai and Young, S. "Continuous F0 Modeling for HMM Based Statistical Parametric Speech Synthesis." Audio, Speech, and Language Processing, IEEE, V. 19, Issue 5, ISSN:1558-7916 [IEEE], 2010: 1071 – 1079 Sách, tạp chí
Tiêu đề: Continuous F0 Modeling for HMM Based Statistical Parametric SpeechSynthesis

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w