Nghiên Cứu Ứng Dụng Mạng Nơ-Ron Hồi Quy Trong Nhận Dạng Tiếng Nói.pdf

91 4 0
Nghiên Cứu Ứng Dụng Mạng Nơ-Ron Hồi Quy Trong Nhận Dạng Tiếng Nói.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Microsoft Word LVTN 1881306 KMT18B Huynh Van Tuan docx THÀNH PHỐ HỒ CHÍ MINH BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT Tp Hồ Chí Minh, tháng 20 SKC007256 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH /8Ұ19Ă17+Ҥ&6Ƭ +8ǣ1+9Ă178Ỉ1 1*+,ầ1&81*'1*01*1521+, 48 xác suất xuất hiện, phổ biến là: “0.0001000418”; “nguyên tắc,0.00010016” => xác suất xuất hiện, phổ biến là: “0.00010016”; Các công đoạn mô đun hiệu chỉnh mô tả Hình 3; gồm: Cơng đoạn 1: Lấy bi-gram cụm so sánh với từ điển; tính khoảng cách Levenshtein chúng, chọn tối đa 10 bigram tương đồng cao; công đoạn 2: Lấy bi-gram từ công đoạn so sánh với bigram cần hiệu chỉnh theo thuật toán Consine để chọn bi-gram tương đồng cao ngưỡng > 0.45; công đoạn 3: Sẽ lọc lần bi-gram có xác suất xuất hiện, hay tính phổ biến cao để chọn bi-gram hiệu chỉnh DỮ LIỆU HUẤN LUYỆN Bảng 1: Bộ liệu huấn luyện kiểm thử mơ hình Bộ liệu Số mẫu Train Số mẫu Test VIVOS 9.263 726 FPT 15.700 7.213 VIN DATA 20.000 6.426 Các liệu âm chuẩn hoá định dạng WAV với tần số lấy mẫu 16Khz; độ dài audio từ 1.3 đến 15 giây; độ dài nhãn văn tương ứng đến 20 từ Bộ liệu VIVOS [7] tập Train có 24 giọng nữ 22 giọng nam; tập Test có giọng nữ 12 giọng nam thu âm môi trường yên tĩnh Bộ liệu FPT [8] VINDATA [9] đa dạng, môi trường tự nhiên, gồm tiếng radio, tiếng điện thoại, nhạc, … KẾT QUẢ 4.1 Kết huấn luyện thử nghiệm Kết huấn luyện độ xác qua lần huấn luyện mơ hình tập liệu khác nhau, với Epoch = 50, batch-size 3, 5, 10, 32, linh hoạt theo tập liệu trình bày Bảng Thời gian huấn luyện từ 8h đến 20 Thời gian thử nghiệm từ 16 phút đến 1,4 theo độ lớn tập liệu Bảng Thông tin kết huấn luyện thử nghiệm mơ hình nhận dạng Tên model Hình Mơ tả mơ đun hiệu chỉnh văn Tập liệu Cấu trúc Hệ số Hệ số mạng WER WER (có RNN mơđun hiệu chỉnh) M1.1_ vivos vivos_ gru_ RNN_ 512 M1.1_ vivos vivos_ LSTM _512 M1.3_ vivos vivos_ LSTM _ RNN_ 1024 M2.1_ VIN vin_G RU _RNN _ 512 M2.2_ VIN vin_ LSTM _RNN _512 M3_f FPT pt_GR U_ RNN_ 512 RNNdim 512 0.5476 0.3475 thiện độ xác so với ngõ dự đốn từ mơ hình 4.2 Kiểm thử so sánh với dịch vụ fpt LSTM/ RNNdim: 512 0.5333 0.402 LSTM/ RNNdim: 1024 0.4131 0.2596 GRU/ RNNdim: 512 0.5315 LSTM/ RNNdim: 512 0.5654 0.4911 GRU/ RNNdim: 512 0.4403 0.3201 Thực kiểm thử mô hình huấn luyện gọi TModel, mơ hình có tích hợp mơ-đun hiệu chỉnh so sánh với chương trình nhận dạng thương mại hố FPT tại: https://fpt.ai/stt, số audio với text có sẵn minh hoạ Bảng Bảng 3: So sánh kết nhận dạng số audio thử nghiệm Audio/Text FPT Service TModel TModel có mơđun hiệu chỉnh [VIVOS DEV 05_170] Chậm , Bắc xu hướng phát triển công nghệ chậm nắm bắt xu hướng bác tiển công nghệ chậm nắm bắt xu hướng phát triển công nghệ [VIVOS DEV 01_R003] Cũng lên tiếng ủng hộ lên tiếng ủng kiến hộ kiến nghị nghị này lên tiến ủng họ kiến nghĩ lên tiếng ủng hộ kiến nghị [VIVOS DEV 01_R012] gió mạnh mưa đóng gây gió mạnh mưa đóng băng gây 0.4703 Kết thơng kê cho thấy mơ hình huấn luyện cho kết xác dao động 50-60%, tích hợp mơ đun hiệu chỉnh độ xác tăng lên 75% Khi cấu trúc mạng nơ-ron hồi quy thay đổi từ GRU (Gated Recurrent Units) sang LSTM (Long ShortTerm Memory) thời gian huấn luyện lâu hơn, cho kết tốt tập liệu tốt VIVOS thể qua hệ số WER, với tập liệu lớn, nhiễu nhiều FPT VIN số WER khơng thay đổi nhiều Chỉ số WER giảm từ 13-20% có mơ đun hiệu chỉnh, điều đánh giá khả điều chỉnh tốt từ, cụm từ giúp cải chậm nắm bắt xu hướng phát triển công nghệ Những gió lạnh mưa đóng gió mạnh băng mưa đóng băng gây chơn ghi trơn chơn trượt chiến [VIVOS DEV 01_R058] giám đốc sở giáo dục đào tạo ninh thuận cho biết giám đốc sở giáo dục đào tạo ninh thuận cho biết Giám đốc Sở giáo dục đào tạo ninh thuận cho biết giảm đốc sở giá dục đào tạo ninh huậng cho biết Mơ hình nhận dạng huấn luyện chưa tốt so với dịch vụ FPT, nhiên thêm mô-đun hiệu chỉnh tăng độ xác giảm chênh lệch đáng kể KẾT LUẬN Đã xây dựng thành cơng mơ hình nhận dạng tiếng nói tiếng Việt theo kiến trúc DeepSpeech 2, tích hợp mơ-đun hiệu chỉnh văn đầu ra, giúp mơ hình nhận dạng đạt tỉ lệ xác 75% Hướng phát triển tăng độ xác tăng độ lớn liệu, chất lượng liệu, xây dựng mô-đun tiền xử lý nhiễu, kết hợp mô hình ngơn ngữ để điều chỉnh lỗi ngữ pháp, tả; bên cạnh hướng đến huấn luyện tập liệu chuyên dụng, triển khai phần cứng hạn chế, không phụ thuộc vào kết nối internet LỜI CẢM ƠN Kết nghiên cứu thuộc đề tài thạc sĩ 2021 tác giả TÀI LIỆU THAM KHẢO [1] Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., & Ng, A Y (2014) Deep speech: Scaling up end-to-end speech recognition arXiv preprint arXiv:1412.5567 [2] Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., & Zhu, Z (2016, June) Deep speech 2: End-to-end speech recognition in english and mandarin In International conference on machine learning (pp 173-182) PMLR [3] Hannun, A Y., Maas, A L., Jurafsky, D., & Ng, A Y (2014) First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs arXiv preprint arXiv:1408.2873 [4] Vineel Pratap, A H (2018) wav2letter++: The fastest open-source speech recognition system CoRR, vol abs/1812.07625 [5] A Ene and A Ene, “An application of Levenshtein algorithm in vocabulary learning,” in 2017 9th International Conference on Electronics, Computers and Artificial Intelligence (ECAI), 2017, pp 1–4 [6] Acree, B., Hansen, E., Jansa, J., & Shoub, K (2016) Comparing and evaluating cosine similarity scores, weighted cosine similarity scores and substring matching Working Paper [7] Luong, H T., & Vu, H Q (2016, December) A non-expert Kaldi recipe for Vietnamese speech recognition system In Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016) (pp 51-55) [8] VinBigData (2020) The speech corpus for the automatic speech recognition task in VLSP-2020,[Online] Available https://slp.vinbigdata.org [9] Tran, Duc Chung (2020) FPT Open Speech Dataset (FOSD) – Vietnamese Mendeley Data, V4, doi: 10.17632/k9sxg2twv4.4 Tác giả chịu trách nhiệm viết: Họ tên: PGS.TS Trương Ngọc Sơn Đơn vị: Đại học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh Email: sontn@hcmute.edu.vn S K L 0

Ngày đăng: 21/06/2023, 20:11

Tài liệu cùng người dùng

Tài liệu liên quan