(Luận văn thạc sĩ) nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HUỲNH VĂN TUÂN NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG NHẬN DẠNG TIẾNG NÓI NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 SKC007256 Tp Hồ Chí Minh, tháng 04/2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HUỲNH VĂN TUÂN NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG NHẬN DẠNG TIẾNG NÓI NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Tp Hồ Chí Minh, tháng 04/2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HUỲNH VĂN TUÂN NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG NHẬN DẠNG TIẾNG NĨI NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Hướng dẫn khoa học: PGS.TS TRƯƠNG NGỌC SƠN Tp Hồ Chí Minh, tháng 04/2021 LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC: Họ & tên: Huỳnh Văn Tuân Giới tính: Nam Ngày, tháng, năm sinh: 09/08/1989 Nơi sinh: Bình Định Q qn: Ân Hảo Đơng – Hồi Ân – Bình Định Dân tộc: Kinh Chức vụ, đơn vị cơng tác: Kỹ sư, Viện Khoa học Cơng nghệ Tính toán Chỗ riêng địa liên lạc: 183/72/3 Nguyễn Văn Khối, Phường 8, Quận Gò Vấp, Tp Hồ Chí Minh Điện thoại quan: (+84) 2837154719 Điện thoại nhà riêng: 0974346585 Fax: E-mail: vantuanspkt@gmail.com II QUÁ TRÌNH ĐÀO TẠO: Trung học chuyên nghiệp: Hệ đào tạo: Thời gian đào tạo từ …/… đến …/… Nơi học (trường, thành phố): Ngành học: Đại học: Hệ đào tạo: Chính quy Thời gian đào tạo từ: 09/2007 đến 08/2011 Nơi học: Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh, Tp Hồ Chí Minh Ngành học: Cơng nghệ Kỹ thuật Máy tính Tên đồ án, luận án môn thi tốt nghiệp: Nghiên cứu số KIT DSP triển khai ứng dụng Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 01/08/2011, Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh Người hướng dẫn: ThS Nguyễn Ngô Lâm Thạc sĩ: Hệ đào tạo: Chính quy Thời gian đào tạo từ: 10/2018 đến 02/2020 Nơi học: Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh, Tp Hồ Chí Minh Ngành học: Khoa học Máy tính độ ồn nhiễu nhiều, tiếng nói bên audio khơng rõ ràng Điều này, khắc phục việc tốn thời gian chuẩn bị lại liệu, lọc bớt liệu nhiễu nặng, chuẩn bị nhiều liệu thời gian huấn luyện lâu hơn, nhằm giúp mơ hình khơng bị q lỗng khó hội tụ Theo kết sau nhiều lần thí nghiệm, có nhận xét: với tập liệu tốt VIVOS sử dụng mạng LSTM cải thiện so với mạng GRU, với liệu nhiễu nhiều, đa dạng, việc sử dụng GRU tốt hơn, rút ngắn thời gian dự đốn đạt độ xác khơng xa lệch nhiều với việc sử dụng mạng LSTM v Kiểm thử so sánh Thực kiểm thử mô hình huấn luyện gọi TModel mơ hình có gắng phần mơ-đun hiệu chỉnh, so sánh với chương trình nhận dạng thương mại hố FPT tại: https://fpt.ai/stt, số audio với text có sẵn để đối chiếu, có bảng thống kê sau: Audio/Text FPT Service TModel TModel có Hiệu Chỉnh [VIVOSDEV05_170] Chậm , Bắc chậm nắm bắt chậm nắm bắt xu chậm nắm bắt xu xu hướng phát xu hướng bác hướng phát triển hướng phát triển công triển công nghệ tiển công nghệ công nghệ nghệ mới [VIVOSDEV01_R003] Cũng lên tiếng lên tiến lên tiếng ủng lên tiếng ủng hộ ủng hộ kiến ủng họ kiến hộ kiến nghị kiến nghị nghị nghĩ này [VIVOSDEV01_R012] Những gió gió gió gió mạnh lạnh mưa mạnh mưa mạnh mưa mưa đóng băng gây đóng băng ghi đóng gây đóng băng gây chơn trơn trượt chơn chiến [VIVOSDEV01_R058] Giám đốc Sở giảm đốc sở giá giám đốc sở giáo giám đốc sở giáo dục giáo dục đào tạo dục đào tạo ninh dục đào tạo ninh đào tạo ninh thuận cho ninh thuận cho huậng cho biết thuận cho biết biết biết Bảng 3: So sánh kết nhận dạng số audio thử nghiệm Nhận xét, mơ hình nhận dạng huấn luyện chưa tốt dịch vụ thương mại hoá FPT, nhiên thêm mơ-đun hiệu chỉnh kết tốt hơn, giảm chênh lệch đáng kể với kết nhận dạng FPT CHƯƠNG KẾT LUẬN Qua thời gian thực nghiên cứu đề tài “nghiên cứu ứng dụng mạng nơ-ron hồi quy nhận dạng tiếng nói tiếng nói”, đề tài đạt tất mục tiêu đề ban đầu: - Đã tìm hiểu thực chương trình hỗ trợ rút trích đặc trưng MFCC tín hiệu âm thanh, phục vụ cho mơ hình nhận dạng tiếng nói - Áp dụng thành cơng kiến trúc mơ hình DeepSpeech vào nhận dạng tiếng nói tiếng Việt; mơ hình với khối khối mạng CNN khối mạng RNN Dữ liệu đầu vào dạng phổ (spectrogram) với số lượng feature 128 từ tín hiệu âm thanh, ngõ kí tự nhận dạng, hàm lỗi CTC Loss, tối ưu AdamW kết hợp OneCycleLR, kiến trúc mơ sau: Ø Tầng 1: lớp mạng CNN Ø Tầng 2: lớp Residual Network, lớp gồm: o Hai lớp CNN o Gắn thêm Dropout, p=0.1 tương ứng lớp CNN o lớp chuẩn hoá LayerNorm tương ứng lớp CNN Ø Tầng 3: lớp Fully Connected Ø Tầng 4: lớp Bidirectional RNN, lớp gồm: o Một lớp GRU LSTM (kích cỡ RNN-DIM 512) o Một lớp chuẩn hoá LayerNorm o Gắn Dropout, p=0.1 Ø Tầng 5: lớp phân loại, gồm có lớp: o lớp Fully Connected o lớp GELU o Gắn Dropout (p=0.1) o Và lớp Fully Connected cuối (96 ngõ – tương đương 95 ký tự cần nhận dạng kí tự “NULL”) - Đã xây dựng liệu để huấn luyện tốt cho nhận dạng tiếng nói tiếng Việt, gồm liệu VIVOS (train: 9263, test: 726) , FPT (train: 16.700, test: 7213), VIN (train: 20.000, test: 6426) tất chuẩn hoá độ dài âm từ 1.3s -> 10s, số lượng từ đến 20 từ, tần số lấy mẫu 16KHz, định dạng wav - Trong phần nghiên cứu này, xây dựng thêm mô-đun hiệu chỉnh với 2gram có 20.217 cụm từ có ý nghĩa, tăng độ xác mơ hình lên 60-75% Hướng nghiên cứu mở rộng thêm để cải thiện độ xác mơ hình thơng qua việc tăng độ lớn liệu, chất lượng đa dạng liệu tiếng nói vùng miền, tiếng nói nhiều độ tuổi; bên cạnh nghiên cứu phát triển môđun tiền xử lý nhằm giảm nhiễu, nâng cao chất lượng liệu đầu vào Kết hợp, mơ hình ngơn ngữ để hiệu chỉnh tốt câu sau dự đốn từ mơ hình, điều chỉnh mặt lỗi tả, ngữ nghĩa kết hợp thêm dấu câu Tích cực nghiên cứu giải thuật nhằm tăng giảm thời gian dự đoán, hướng đến đáp ứng theo thời gian thực Có thể hướng đến xây dựng ứng dụng, tảng cung cấp hệ thống nhận dạng tiếng nói tiếng Việt theo thời gian thực, giảm ảnh hưởng nhiễu từ môi trường TÀI LIỆU THAM KHẢO [1] Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., & Ng, A Y (2014) Deep speech: Scaling up end-to-end speech recognition arXiv preprint arXiv:1412.5567 [2] Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., & Zhu, Z (2016, June) Deep speech 2: End-to-end speech recognition in english and mandarin In International conference on machine learning (pp 173-182) PMLR [3] Hannun, A Y., Maas, A L., Jurafsky, D., & Ng, A Y (2014) First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs arXiv preprint arXiv:1408.2873 [4] Vineel Pratap, A H (2018) wav2letter++: The fastest open-source speech recognition system CoRR, vol abs/1812.07625 [5] Park, D S., Chan, W., Zhang, Y., Chiu, C C., Zoph, B., Cubuk, E D., & Le, Q V (2019) Specaugment: A simple data augmentation method for automatic speech recognition arXiv preprint arXiv:1904.08779 [6] Schneider, S., Baevski, A., Collobert, R., & Auli, M (2019) wav2vec: Unsupervised pre-training for speech recognition arXiv preprint arXiv:1904.05862 [7] Luong, H T., & Vu, H Q (2016, December) A non-expert Kaldi recipe for Vietnamese speech recognition system In Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016) (pp 51-55) [8] VinBigData (2020) The speech corpus for the automatic speech recognition task in VLSP-2020,[Online] Available https://slp.vinbigdata.org [9] Tran, Duc Chung (2020) FPT Open Speech Dataset (FOSD) – Vietnamese Mendeley Data, V4, doi: 10.17632/k9sxg2twv4.4 [10] He, K., Zhang, X., Ren, S., & Sun, J (2016) Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 770-778) [11] Smith, L N., & Topin, N (2019, May) Super-convergence: Very fast training of neural networks using large learning rates In Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications (Vol 11006, p 1100612) International Society for Optics and Photonics [12] Vietnamese NLP Research Group – (UnderTheSea) (2021) Word Tokenize Word Tokenize,[Online] Available: http://undertheseanlp.com [13] Acree, B., Hansen, E., Jansa, J., & Shoub, K (2016) Comparing and evaluating cosine similarity scores, weighted cosine similarity scores and substring matching Working Paper [14] Fayek, H (2016) Speech processing for machine learning: Filter banks, melfrequency cepstral coefficients (mfccs) and what’s in-between URL: https://haythamfayek.com/2016/04/21/speech-processingfor-machinelearning.html [15] Choné, A (2018) Computing MFCCs voice recognition features on ARM systems Computing MFCCs voice recognition features on ARM systems,[Online] Available:https://medium.com/linagoralabs/computing-mfccs-voice-recognitionfeatures-on-arm-systemsdae45f016eb6 [16] Wikipedia (2016) Probabilistic parameters of a hidden Markov model Probabilistic parameters of a hidden Markov model,[Online] Available: https://en.wikipedia.org/wiki/Hidden_Markov_model [17] Kiyoshi Kawaguchi (2000) Artificial Neural Networks Artificial Neural Networks, [Online] Available: http://osp.mans.edu.eg/rehan/ann4.htm [18] Colah (2015) Understanding LSTM Networks Understanding LSTM Networks, [Online] Available: https://colah.github.io/posts/2015-08-Understanding-LSTMs [19] Facebook Open Source (2020) Transfer Function Layers Transfer Function Layers, [Online] Available: https://nn.readthedocs.io/en/rtd/transfer [20] Nvidia Inc (2018) DeepSpeech2 DeepSpeech2 OpenSeq2Seq, [Online] Available: https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition/deepspeech2.html NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG NHẬN DẠNG TIẾNG NÓI STUDY OF SPEECH RECOGNITION USING RECURRENT NEURAL NETWORK Huỳnh Văn Tuân, Trương Ngọc Sơn Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Trong viết này, tác giả trình bày nghiên cứu ứng dụng kiến trúc mơ hình DeepSpeech áp dụng tập liệu âm tiếng Việt kết hợp xây dựng mơ đun hiệu chỉnh để nhận dạng tiếng nói Tiếng Việt Kiến trúc mơ hình DeepSpeech tổ hợp lớp mạng nơ-rơn tích chập lớp mạng nơ-ron hồi quy, ngõ vào dạng phổ tín hiệu âm thanh; mô đun hiệu chỉnh sử dụng liệu gồm 20.217 bi-gram, kết hợp thuật toán so sánh khoảng cách Levenshtein tính độ tương tự Cosine Mơ hình huấn luyện dựa liệu âm VIVOS, FPT VIN DATA Mơ hình đánh giá dựa tỉ lệ lỗi từ (WER), độ xác đạt 75%, mơ hình hoạt động hiệu mơi trường nhiễu tốc độ nói không nhanh Kiến trúc DeepSpeech mô đun hiệu chỉnh huấn luyện tập liệu lĩnh vực chuyên dụng hoạt động hiệu kiến trúc phần cứng thấp, không yêu cầu kết nối internet Từ khố: Nhận dạng tiếng nói; DeepSpeech 2; Mạng nơ-ron hồi quy; Mạng nơ-ron tích chập; Khoảng cách Levenshtein; Độ tương tự Cosine ABSTRACT In this paper, the author presents the study of DeepSpeech model structure applied on Vietnamese audio data set combined with building a adjusted module for Vietnamese speech recognition The DeepSpeech model architecture is a combination of convolutional neural network layers and recurrent neural network layers, the input data is the spectrogram of the audio signal; The adjusted module uses a dataset of 20.217 bi-grams, comparison base on the Levenshtein Distance and the Cosine Similarity algorithm The model is trained on the shared audio datasets from VIVOS, FPT and VIN DATA, evaluated based on the word error rate (WER), the accuracy reaches 75%, the model works effectively in low noise environment and the speaking speed is not too fast The DeepSpeech model structure and adjusted module trained on a dedicated field dataset will work well on low-architecture hardware that doesn't require an internet connection Keywords: Speech recognition; DeepSpeech 2; Recurrent Neural Networks; Convolutional Neural Networks; Levenshtein distance; Cosine similarity GIỚI THIỆU Nhận dạng tiếng nói có phạm vi ứng dụng rộng rãi, triển khai trung tâm liên lạc; cung cấp dịch vụ tự động phục vụ; trợ lý ảo hỗ trợ giao dịch, tìm kiếm, điều khiển nhà thông minh; hay ứng dụng hỗ trợ điều hướng cho người khuyết tật; tạo cơng cụ chuyển giọng nói thành văn bản, giúp giảm thời gian, chi phí Ứng dụng mạng học sâu nói chung mạng nơ-ron hồi quy nói riêng nhận dạng tiếng nói đạt bước tiến hỗ trợ tính tốn hiệu vượt trội từ GPU Một số kiến trúc đề xuất gần như: DeepSpeech [1] – mơ hình mở rộng nhận dạng đầu cuối (End-to-End Speech Recognition), đạt tỉ lệ lỗi 16% tập liệu 2000 Hub5 DeepSpeech [2] – cải tiến từ DeepSpeech áp dụng cho nhận dạng tiếng Anh tiếng Quan Thoại, mơ hình hoạt động tốt mơi trường nhiễu, sử dụng lớp mạng nơ-ron tích chập mạng nơ-ron hồi quy chiều (BiDirectional Recurrent DNNs), áp dụng hàm kích hoạt ReLu CTC để dự đốn ký tự ngõ First-Pass Large Vocubulary [3] – sử dụng mạng hồi quy lặp hướng, tỉ lệ lỗi ký tự (CER) 10% tập CSR-II Wav2Letter++ [4] – đạt tỉ lệ lỗi từ WER 4.91 % tập LibriSpeech SpecAugment [5] – phương pháp tăng cường liệu, đạt tỉ lệ lỗi WER 5,8% tập LibriSpeech có mơ hình ngơn ngữ Wav2Vec [6] – sử dụng hình thức học khơng giám sát, đầu vào âm thô, kết đạt tỉ lệ lỗi WER 2.43% tập liệu nov92 Mơ hình hiệu chỉnh độ xác kết nhận dạng dựa từ điển bi-gram thuật toán đánh giá mức độ giống hai chuỗi Levenshtein [5], Cosin Khoảng cách Levenshtein hai từ số lần thêm, sửa, xố, thay kí tự cần thiết để thay đổi từ thành từ lại, khoảng cách nhỏ độ giống lớn Thuật toán tương đồng Cosine Similarity [6], đánh giá khác câu dựa vào giá trị cosine góc vec-tơ từ câu Giá trị lớn độ tương đồng lớn THIẾT KẾ MƠ HÌNH Mơ hình nhận dạng tiếng nói tiếng Việt áp dụng theo kiến trúc DeepSpeech mô tả Hình Bao gồm khối chính: khối mạng nơ-ron tích chập (CNN) khối mạng nơ-ron hồi quy (RNN) Đầu vào tín hiệu âm dạng thô áp dụng bước xử lý giảm nhiễu, khuếch đại tín hiệu, rút trích đặc trưng MFCC chuyển sang tín hiệu dạng phổ (spectrogram) Tiếp theo lớp mạng nơ-ron CNN RNN, cuối đầu xác suất Pt(c) ký tự tương ứng theo bước thời gian từ ký tự cần nhận dạng Mơ hình huấn luyện sử dụng hàm mát phân loại theo thời gian CTC để nhận dạng ký tự, hướng nghiên cứu nhận dạng tiếng Việt nên lựa chọn phương pháp đánh giá lỗi dựa từ (WER – Word Error Rate) làm phương pháp đánh giá độ xác mơ hình Giá trị WER lớn cho biết hai câu có độ khác nhiều WER tính cơng thức: 𝑆+𝐼+𝐷 𝑁 Với S số từ bị thay thế; I số từ chèn vào; D số từ bị xoá; N số lượng từ so sánh 𝑊𝐸𝑅 = Các thơng tin tính tốn tồn mạng no-rơn dạng số, cần giải mã (decoder) Beam Search để chuyển đổi xác suất ký tự dạng số sang dạng từ tương ứng - Tới lớp mạng GRU/ LSTM hai chiều, với lớp gồm: Một lớp GRU/LSTM hai chiều; Lớp Layer Norm; Dropout - Cuối lớp phân loại gồm: lớp kết nối đầy đủ; Hình Sơ đồ khối kiến trúc DeepSpeech [2] Q trình huấn luyện mơ hình có áp dụng số kỹ thuật như: Chuẩn hoá sử dụng Layer Normalization nhằm cải tiến tốc độ huấn luyện mạng, tính trực tiếp số liệu thống kê chuẩn hố từ đầu vào tổng hợp đến nơ-ron lớp ẩn; trình tối ưu AdamW kết hợp với OneCycleLR nhằm đưa mơ hình hội tự đến điểm tốt 2.1 Mơ hình nhận mạng nơ-ron nhận dạng Tổng qt hố lớp mạng nơ-ron mơ hình nhận dạng mơ tả Hình Mơ hình kết hợp nhiều lớp CNN lớp mạng RNN, cuối lớp kết nối đầy đủ Số lượng ngõ tính (feature) ngõ vào 128; số lớp ngõ 96 (gồm 95 kí tự cần nhận dạng + ký tự rỗng NULL); hệ số tốc độ học 0.0005 Mơ hình lớp mạng nơ-ron sếp xếp theo thứ tự: - Một lớp CNN (ngõ vào: 1, ngõ ra: 32, kernel: 3x3, stride=2) - Tiếp đến lớp Residual Networks, lớp gồm: Hai lớp CNN; gắn Dropout; lớp chuẩn hoá Layer Norm - Tiếp theo lớp kết nối đầy đủ Hình Sơ đồ tổng quát lớp mạng nơ-ron mơ hình nhận dạng 2.2 Mơ đun hiệu chỉnh văn đầu Sau mơ hình dự đốn chuỗi văn đầu từ tín hiệu tiếng nói, chuyển qua mơ đun hiệu chỉnh để khắc phục thiếu xác mơ hình Thuật tốn Beam Search áp dụng q trình huấn luyện thử nghiệm với giới hạn tìm kiếm 10 Tức là, thời điểm nhận dạng đưa tối đa 10 câu có xác suất tốt Quá trình tạo bi-gram tổ hợp tất cặp từ kết hợp từ 10 câu theo cụm riêng, cụm tổ hợp bigram Với câu có độ dài L có (L-1) số cụm, tạo từ vị trí thứ n kết hợp với từ vị trí n+1; bên cụm bi-gram riêng biệt Gọi X số câu, Y số từ câu, số cụm (Y-1) Mỗi cụm có tổ hợp bi-gram (X^2), tổng số bi-gram (Y-1)*(X^2) Ví dụ: Có câu: Câu 1: “húng ta làm việc hăm chỉ” Câu 2: “chúng ca làm diệc chăm chi” Câu 3: “chúng ta lam viêc hăm hỉ” Khi đó, có tổ hợp bi-gram sau: “húng ta”, “húng ca”, “chúng ta”, “chúng ca”, “ta làm”, “ta lam”, “làm việc”, “làm diệc”, “làm viêc”, “lam viêc” , Bộ liệu âm sử dụng từ nguồn liệu chia sẻ VIVOS, FTP, VINDATA, số lượng mô tả Bảng Bộ từ điển bigram sưu tập từ trang báo mạng, trang wiki tiếng Việt, lĩnh vực văn hoá, đời sống, giáo dục, giải trí, kinh tế, xã hội; phân rã (tokenize) thành bi-gram, có kèm với xác suất xuất hiện, ví dụ: “đồn thể,0.0001000418” => xác suất xuất hiện, phổ biến là: “0.0001000418”; “nguyên tắc,0.00010016” => xác suất xuất hiện, phổ biến là: “0.00010016”; Các công đoạn mô đun hiệu chỉnh mô tả Hình 3; gồm: Cơng đoạn 1: Lấy bi-gram cụm so sánh với từ điển; tính khoảng cách Levenshtein chúng, chọn tối đa 10 bigram tương đồng cao; công đoạn 2: Lấy bi-gram từ công đoạn so sánh với bigram cần hiệu chỉnh theo thuật toán Consine để chọn bi-gram tương đồng cao ngưỡng > 0.45; công đoạn 3: Sẽ lọc lần bi-gram có xác suất xuất hiện, hay tính phổ biến cao để chọn bi-gram hiệu chỉnh DỮ LIỆU HUẤN LUYỆN Bảng 1: Bộ liệu huấn luyện kiểm thử mơ hình Bộ liệu Số mẫu Train Số mẫu Test VIVOS 9.263 726 FPT 15.700 7.213 VIN DATA 20.000 6.426 Các liệu âm chuẩn hoá định dạng WAV với tần số lấy mẫu 16Khz; độ dài audio từ 1.3 đến 15 giây; độ dài nhãn văn tương ứng đến 20 từ Bộ liệu VIVOS [7] tập Train có 24 giọng nữ 22 giọng nam; tập Test có giọng nữ 12 giọng nam thu âm môi trường yên tĩnh Bộ liệu FPT [8] VINDATA [9] đa dạng, môi trường tự nhiên, gồm tiếng radio, tiếng điện thoại, nhạc, … KẾT QUẢ 4.1 Kết huấn luyện thử nghiệm Kết huấn luyện độ xác qua lần huấn luyện mơ hình tập liệu khác nhau, với Epoch = 50, batch-size 3, 5, 10, 32, linh hoạt theo tập liệu trình bày Bảng Thời gian huấn luyện từ 8h đến 20 Thời gian thử nghiệm từ 16 phút đến 1,4 theo độ lớn tập liệu Bảng Thông tin kết huấn luyện thử nghiệm mơ hình nhận dạng Tên model Hình Mơ tả mơ đun hiệu chỉnh văn Tập liệu Cấu trúc Hệ số Hệ số mạng WER WER (có RNN mơđun hiệu chỉnh) M1.1_ vivos vivos_ gru_ RNN_ 512 M1.1_ vivos vivos_ LSTM _512 M1.3_ vivos vivos_ LSTM _ RNN_ 1024 M2.1_ VIN vin_G RU _RNN _ 512 M2.2_ VIN vin_ LSTM _RNN _512 M3_f FPT pt_GR U_ RNN_ 512 RNNdim 512 0.5476 0.3475 thiện độ xác so với ngõ dự đốn từ mơ hình 4.2 Kiểm thử so sánh với dịch vụ fpt LSTM/ RNNdim: 512 0.5333 0.402 LSTM/ RNNdim: 1024 0.4131 0.2596 GRU/ RNNdim: 512 0.5315 LSTM/ RNNdim: 512 0.5654 0.4911 GRU/ RNNdim: 512 0.4403 0.3201 Thực kiểm thử mô hình huấn luyện gọi TModel, mơ hình có tích hợp mơ-đun hiệu chỉnh so sánh với chương trình nhận dạng thương mại hố FPT tại: https://fpt.ai/stt, số audio với text có sẵn minh hoạ Bảng Bảng 3: So sánh kết nhận dạng số audio thử nghiệm Audio/Text FPT Service TModel TModel có mơđun hiệu chỉnh [VIVOS DEV 05_170] Chậm , Bắc xu hướng phát triển công nghệ chậm nắm bắt xu hướng bác tiển công nghệ chậm nắm bắt xu hướng phát triển công nghệ [VIVOS DEV 01_R003] Cũng lên tiếng ủng hộ lên tiếng ủng kiến hộ kiến nghị nghị này lên tiến ủng họ kiến nghĩ lên tiếng ủng hộ kiến nghị [VIVOS DEV 01_R012] gió mạnh mưa đóng gây gió mạnh mưa đóng băng gây 0.4703 Kết thơng kê cho thấy mơ hình huấn luyện cho kết xác dao động 50-60%, tích hợp mơ đun hiệu chỉnh độ xác tăng lên 75% Khi cấu trúc mạng nơ-ron hồi quy thay đổi từ GRU (Gated Recurrent Units) sang LSTM (Long ShortTerm Memory) thời gian huấn luyện lâu hơn, cho kết tốt tập liệu tốt VIVOS thể qua hệ số WER, với tập liệu lớn, nhiễu nhiều FPT VIN số WER khơng thay đổi nhiều Chỉ số WER giảm từ 13-20% có mơ đun hiệu chỉnh, điều đánh giá khả điều chỉnh tốt từ, cụm từ giúp cải chậm nắm bắt xu hướng phát triển công nghệ Những gió lạnh mưa đóng gió mạnh băng mưa đóng băng gây chơn ghi trơn chơn trượt chiến [VIVOS DEV 01_R058] giám đốc sở giáo dục đào tạo ninh thuận cho biết giám đốc sở giáo dục đào tạo ninh thuận cho biết Giám đốc Sở giáo dục đào tạo ninh thuận cho biết giảm đốc sở giá dục đào tạo ninh huậng cho biết Mơ hình nhận dạng huấn luyện chưa tốt so với dịch vụ FPT, nhiên thêm mô-đun hiệu chỉnh tăng độ xác giảm chênh lệch đáng kể KẾT LUẬN Đã xây dựng thành cơng mơ hình nhận dạng tiếng nói tiếng Việt theo kiến trúc DeepSpeech 2, tích hợp mơ-đun hiệu chỉnh văn đầu ra, giúp mơ hình nhận dạng đạt tỉ lệ xác 75% Hướng phát triển tăng độ xác tăng độ lớn liệu, chất lượng liệu, xây dựng mô-đun tiền xử lý nhiễu, kết hợp mô hình ngơn ngữ để điều chỉnh lỗi ngữ pháp, tả; bên cạnh hướng đến huấn luyện tập liệu chuyên dụng, triển khai phần cứng hạn chế, không phụ thuộc vào kết nối internet LỜI CẢM ƠN Kết nghiên cứu thuộc đề tài thạc sĩ 2021 tác giả TÀI LIỆU THAM KHẢO [1] Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., & Ng, A Y (2014) Deep speech: Scaling up end-to-end speech recognition arXiv preprint arXiv:1412.5567 [2] Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., & Zhu, Z (2016, June) Deep speech 2: End-to-end speech recognition in english and mandarin In International conference on machine learning (pp 173-182) PMLR [3] Hannun, A Y., Maas, A L., Jurafsky, D., & Ng, A Y (2014) First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs arXiv preprint arXiv:1408.2873 [4] Vineel Pratap, A H (2018) wav2letter++: The fastest open-source speech recognition system CoRR, vol abs/1812.07625 [5] A Ene and A Ene, “An application of Levenshtein algorithm in vocabulary learning,” in 2017 9th International Conference on Electronics, Computers and Artificial Intelligence (ECAI), 2017, pp 1–4 [6] Acree, B., Hansen, E., Jansa, J., & Shoub, K (2016) Comparing and evaluating cosine similarity scores, weighted cosine similarity scores and substring matching Working Paper [7] Luong, H T., & Vu, H Q (2016, December) A non-expert Kaldi recipe for Vietnamese speech recognition system In Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016) (pp 51-55) [8] VinBigData (2020) The speech corpus for the automatic speech recognition task in VLSP-2020,[Online] Available https://slp.vinbigdata.org [9] Tran, Duc Chung (2020) FPT Open Speech Dataset (FOSD) – Vietnamese Mendeley Data, V4, doi: 10.17632/k9sxg2twv4.4 Tác giả chịu trách nhiệm viết: Họ tên: PGS.TS Trương Ngọc Sơn Đơn vị: Đại học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh Email: sontn@hcmute.edu.vn S K L 0 ... nơ- ron hồi quy nhận dạng tiếng nói? ??, mục đích nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói ứng dụng mạng nơ- ron hồi quy, đề xuất giới đạt kết xác định vào tốn nhận dạng tiếng nói tiếng. .. phạm vi nghiên cứu v Mục tiêu nghiên cứu: Ø Nghiên cứu kiến trúc hoạt động mạng nơ- ron hồi quy Ø Nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói DeepSpeech vào nhận dạng tiếng nói tiếng. .. ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HUỲNH VĂN TUÂN NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ -RON HỒI QUY TRONG NHẬN DẠNG TIẾNG NÓI NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Tp Hồ Chí Minh,

Tiêu đề	Nghiên Cứu Ứng Dụng Mạng Nơ-Ron Hồi Quy Trong Nhận Dạng Tiếng Nói
Tác giả	Huỳnh Văn Tuân
Người hướng dẫn	PGS.TS Trương Ngọc Sơn
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	91
Dung lượng	11,53 MB