(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	80
Dung lượng	6,32 MB

Nội dung

(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói(Luận văn thạc sĩ) Nghiên cứu ứng dụng mạng nơron hồi quy trong nhận dạng tiếng nói

LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu tơi Tất số liệu, kết nghiên cứu luận văn trung thực, chưa cơng bố cơng trình khác Tp Hồ Chí Minh, ngày 20 Tháng 03 Năm 2021 Huỳnh Văn Tuân LỜI CẢM TẠ Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến PGS TS Trương Ngọc Sơn Trong suốt trình thực luận văn, em nhận quan tâm giúp đỡ, hướng dẫn tận tình tâm huyết thầy Thầy giúp em tích luỹ nhiều kiến thức tạo điều kiện tốt để em hoàn thành luận văn Em xin gửi lời cảm ơn đến q thầy mơn Khoa học Máy tính, khoa Công nghệ thông tin, trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh cung cấp đầy đủ kiến thức tảng giúp em phát triển hướng nghiên cứu Em xin gửi lời cảm ơn sâu sắc tới gia đình em ln bên động viên lúc khó khăn, tạo điều kiện tốt giúp em hoàn thành luận văn Xin gửi lời cảm ơn đến bạn bè hỗ trợ, tạo điều kiện có ý kiến đóng ý quý báu giúp em thuận lợi cho việc nghiên cứu Cuối cùng, dù cố gắng khơng tránh khỏi sai sót, mong quý thầy cô, bạn bè thông cảm góp ý để em khắc phục Một lần nữa, em xin gửi lời cảm ơn đến tất Tp.HCM, ngày 20 tháng 03 năm 2021 Học viên Huỳnh Văn Tuân TĨM TẮT Nhận dạng tiếng nói có phạm vi ứng dụng rộng rãi trợ lý ảo hỗ trợ giao dịch, tìm kiếm, điều khiển nhà thơng minh; hay ứng dụng hỗ trợ điều hướng cho người khuyết tật; công cụ chuyển giọng nói thành văn bản,… Ứng dụng mạng học sâu nói chung mạng nơ-ron hồi quy nói riêng đạt nhiều thành tựu đáng kể năm gần Việc xây dựng mơ hình nhận dạng tiếng nói tiếng Việt có độ xác cao cần chi phí đầu tư hạ tầng tính tốn lớn, đội ngũ nghiên cứu giàu kinh nghiệm; hệ thống có kết tốt thương mại hố với giá thành đắt Xuất phát từ đây, học viên lựa chọn đề tài “nghiên cứu ứng dụng mạng nơ-ron hồi quy nhận dạng tiếng nói” Hướng nghiên cứu tập trung vào mục đích: Nghiên cứu kiến trúc hoạt động mạng nơ-ron hồi quy RNN/LSTM; nghiên cứu áp dụng kiến trúc mơ hình DeepSpeech vào nhận dạng tiếng nói tiếng Việt; tạo tập mẫu, huấn luyện kiểm thử hệ thống nhận dạng; tạo mô-đun hiệu chỉnh giúp cải thiện độ xác mơ hình nhận dạng Phương pháp thực hiện: tiến hàng nghiên cứu kỹ thuật, kiến trúc mơ hình đề xuất với tỉ lệ xác cao giới vấn đề nhận dạng tiếng nói tiếng Anh; nghiên cứu lựa chọn áp dụng kiến trúc phù hợp cho tốn nhận dạng tiếng nói tiếng Việt Kết q trình nghiên cứu áp dụng thành cơng kiến trúc DeepSpeech vào mơ hình nhận dạng tiếng nói tiếng Việt; xây dựng mơ đun hiệu chỉnh nâng độ xác mơ hình lên 75%; mơ hình hoạt động hiệu mơi trường nhiễu, giọng nói to, rõ ràng Với liệu huấn luyện hạn chế, việc tích hợp mơ đun hiệu chỉnh giúp cho tỉ lệ xác mơ hình nhận dạng đạt kết cao Từ nghiên cứu này, tích hợp mơ đun tiền xử lý giảm nhiều, bổ sung mơ hình ngơn ngữ giúp điều chỉnh lỗi tả; mở rộng cho tập liệu chuyên dụng, cải tiến mô-đun hiệu chỉnh để triển khai thiết bị có cấu hình phần cứng thấp, hoạt động khơng phụ thuộc vào internet Từ khoá: mạng nơ-ron hồi quy; nhận dạng tiếng nói; deepspeech ABSTRACT Speech recognition is applied as a virtual assistant to support transactions, search, control smart home; or navigation aids for people with disabilities; speech-totext, etc The application of deep learning and recurrent neural networks has achieved great results in recent years Building a high-accuracy Vietnamese speech recognition model requires a large investment in computational infrastructure and an experienced research team; systems with good results are commercialized at relatively high costs Therefore, students choose the topic "study of speech recognition using recurrent neural network" Studying focuses on the following purposes: Studying the architecture and operation of the RNN/LSTM recurrent neural network; researching and applying DeepSpeech model architecture to Vietnamese speech recognition; building a training and testing dataset; building a adjusted module to improve the accuracy of the recognition model Methods: studying techniques, model architectures being proposed with high accuracy rate in speech recognition for English; apply suitable architecture for Vietnamese speech recognition The results of the studying process have successfully applied DeepSpeech architecture to the Vietnamese speech recognition; build a adjusted module that increases model accuracy by 75%; the model works effectively in low-noise environments, with loud and clear voices With limited training data, the integration of the correction module makes the accuracy rate of the recognition model high From this study, it is possible to integrate a reduced noise module, adding a language model to help correct spelling errors; scalable for specialized data sets, the calibration module is enhanced for deployment on devices with low hardware configuration and is independent of the internet Keywords: recurrent neural network; speech recognition; deepspeech MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM TẠ xii MỤC LỤC 15 DANH SÁCH HÌNH 17 DANH SÁCH CÁC BẢNG 19 CHƯƠNG TỔNG QUAN 20 1.1 Tổng quan nghiên cứu nước 20 1.2 Giới thiệu luận văn 22 1.3 Mục tiêu, phạm vi nghiên cứu 23 1.4 Nhiệm vụ nghiên cứu giới hạn đề tài 24 1.5 Phương pháp nghiên cứu 25 1.6 Kế hoạch thực 25 1.7 Cấu trúc luận văn 25 CHƯƠNG CƠ SỞ LÝ THUYẾT 26 2.1 Giới thiệu nhận dạng tiếng nói 26 2.1.1 Tổng quan nhận dạng tiếng nói 26 2.1.2 Rút trích đặc trưng tín hiệu tiếng nói MFCC 28 2.1.3 Mơ hình Markov ẩn 35 2.2 Mạng nơ-ron nhân tạo 36 2.2.1 Mạng nơ-ron sinh học 36 2.2.2 Mạng nơ-ron nhân tạo 37 2.3 Mạng nơ-ron tích chập 41 2.4 Mạng nơ-ron hồi quy 43 2.4.1 Kiến trúc mạng nơ-ron hồi quy 43 2.4.2 Tính tốn bên mạng nơ-ron hồi quy 45 2.4.3 Vấn đề bùng nổ đạo hàm đạo hàm 49 2.4.4 Mạng nơ-ron hồi quy cải tiến LSTM 51 CHƯƠNG THIẾT KẾ MƠ HÌNH NHẬN DẠNG 55 3.1 Giới thiệu kiến trúc mô hình nhận dạng 55 3.2 Các kỹ thuật áp dụng mơ hình 59 3.2.1 Chuẩn hoá (Normalization): 59 3.2.2 Trình tối ưu hệ số tốc độ học 59 3.3.3 Đánh giá lỗi với CTC Loss 60 3.3 Thu thập xử lý liệu 61 3.3.1 Thu thập liệu huấn luyện thử nghiệm 61 3.3.2 Chuẩn bị đồ số ký tự cần nhận dạng tiếng Việt 62 3.3.3 Rút trích đặt trưng MFCC tín hiệu chuẩn hoá độ dài 62 3.3.4 Số hoá nhãn văn 63 3.3.5 Tăng cường đa dạng liệu 64 3.4 Xây dựng lớp mạng nơ-ron 65 CHƯƠNG HUẤN LUYỆN MƠ HÌNH VÀ KẾT QUẢ ĐẠT ĐƯỢC 70 4.1 Quá trình huấn luyện 70 4.2 Kết đạt 72 CHƯƠNG KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 80 DANH SÁCH HÌNH Hình 2.1: Biểu diễn tín hiệu theo thời gian tần số 26 Hình 2.2: Ứng dụng xử lý tiếng nói thực tế 27 Hình 2.3: Sơ đồ khối nhận dạng tiếng nói 27 Hình 2.4: Các cơng đoạn rút trích đặc trưng 29 Hình 2.5: Tín hiệu trước khuếch đại [14] 29 Hình 2.6: Tín hiệu sau khuếch đại [14] 30 Hình 2.7: Thuật tốn rút trích MFCC [15] 32 Hình 2.8: Mối quan hệ tần số tính Hz Mel [14] 33 Hình 2.9: Danh sách 10 lọc sử dụng MFCC [14] 33 Hình 2.10: Áp lọc Mel lên tín hiệu [14] 34 Hình 2.11 : Mơ hình HMM ẩn trạng thái [16] 36 Hình 2.12: Sơ đồ khối hệ thống thần kinh sinh học 36 Hình 2.13: Các thành phần Nơ-ron sinh học [17] 37 Hình 2.14: Linear Threshold Function 39 Hình 2.15: Mơ hình Linear Threshold Gate [17] 39 Hình 2.16: Mơ hình Perceptron [17] 40 Hình 2.17: Mơ hình mạng nhiều lớp [17] 40 Hình 2.18: Mơ tả kiến trức mạng CNN 41 Hình 2.19: Minh hoạ hàm Max Pooling 42 Hình 2.20: Minh họa sơ đồ mạng RNN [18] 44 Hình 2.21: Các dạng mơ hình mạng nơ-ron hồi quy [18] 44 Hình 2.22: Mơ tả tính tốn bên tế bào RNN [18] 45 Hình 2.23: Mơ tả tính tốn liên kết tế bào RNN [18] 46 Hình 2.24: Mơ tả lỗi tồn mạng RNN [18] 48 Hình 2.25: Mơ tả tính lỗi lan truyền mạng RNN [18] 49 Hình 2.26: Biểu diễn hàm đạo hàm [19] 50 Hình 2.27: Biểu diễn hàm sigmoid đạo hàm [19] 50 Hình 2.28: Cấu trúc nơ-ron mạng RNN chuẩn [18] 51 Hình 2.29: Cấu trúc nơ-ron mạng LSTM [18] 52 Hình 2.30: Minh họa trạng thái tế bào mạng LSTM [18] 52 Hình 2.31: Minh họa tầng mạng LSTM [18] 53 Hình 2.32: Minh họa tầng hai LSTM – giai đoạn [18] 53 Hình 2.33: Minh họa tầng hai LSTM – giai đoạn [18] 54 Hình 2.34: Minh họa tầng thứ ba LSTM [18] 54 DANH SÁCH CÁC BẢNG Bảng 1: Thông tin liệu huấn luyện 70 Bảng 2: Thông tin kết huấn luyện thử nghiệm 73 Bảng 3: So sánh kết nhận dạng số audio thử nghiệm 77 CHƯƠNG TỔNG QUAN Tự động nhận dạng tiếng nói (Automatic Speech Recognition – ASR) q trình tín hiệu âm tiếng nói chuyển đổi vào thành chuỗi từ, ngôn ngữ khác cách sử dụng thuật tốn máy tính 1.1 Tổng quan nghiên cứu nước Ứng dụng mạng học sâu nói chung kiến trúc mạng nơ-ron hồi quy nói riêng nhận dạng tiếng nói đạt bước tiến mới, với phát triển công nghệ hỗ trợ khả tính tốn hiệu cao, tận dụng tính toán vượt trội card đồ hoạ (GPU) Các trung tâm nghiên cứu phát triển tập đoàn lớn giới, liên tục đề xuất kiến trúc tốt để mang lại mơ hình dự đốn có độ xác cao Ở phần nghiên cứu này, tổng hợp kiến trúc đề xuất gần tốn nhận dạng tiếng nói: ü DeepSpeech [1] : Mơ hình mở rộng nhận dạng tiếng nói đầu cuối (End-to-End Speech Recognition) Kiến trúc DeepSpeech đề xuất vào tháng 12 năm 2014, nhóm tác giả đến từ phịng thí nghiệm AI Baidu Research Kiến trúc hoạt động hiệu môi trường ồn Với DeepSpeech không cần từ điển âm vị (phoneme), mà hoạt động dựa vào mạng hồi quy RNN tối ưu tính tốn nhiều GPU Mơ hình đạt tỉ lệ lỗi 16.0% toàn tập liệu thử nghiệm 2000 Hub5 DeepSpeech huấn luyện tập liệu tiếng Anh, mơ hình chuyển đổi chuỗi đầu vào thành chuỗi ký tự dự đoán xác suất xuất ký tự ngõ Kiến trúc gồm lớp nơ-ron ẩn, sử phân loại theo thời gian kết nối (CTC) để dự đoán ngõ ra, sử dụng thuật toán tối ưu Nesterov’s Accelerated Gradient method q trình huấn luyện mơ hình ü DeepSpeech [2]: Kiến trúc nhận dạng tiếng nói đầu cuối, đề xuất tháng 12 năm 2015 nhóm tác giả Baidu Research, cải tiến từ DeepSpeech ứng dụng cho nhận dạng tiếng Anh tiếng Quan Thoại Mơ hình đề xuất xử lý ngôn ngữ trọng âm khác nhau, hoạt động hiệu mơi trường nhiễu Mơ hình dựa mạng hồi quy RNN mạng tích chập độ ồn nhiễu nhiều, tiếng nói bên audio khơng rõ ràng Điều này, khắc phục việc tốn thời gian chuẩn bị lại liệu, lọc bớt liệu nhiễu nặng, chuẩn bị nhiều liệu thời gian huấn luyện lâu hơn, nhằm giúp mơ hình khơng bị q lỗng khó hội tụ Theo kết sau nhiều lần thí nghiệm, có nhận xét: với tập liệu tốt VIVOS sử dụng mạng LSTM cải thiện so với mạng GRU, với liệu nhiễu nhiều, đa dạng, việc sử dụng GRU tốt hơn, rút ngắn thời gian dự đoán đạt độ xác khơng xa lệch nhiều với việc sử dụng mạng LSTM v Kiểm thử so sánh Thực kiểm thử mơ hình huấn luyện gọi TModel mơ hình có gắng phần mơ-đun hiệu chỉnh, so sánh với chương trình nhận dạng thương mại hoá FPT tại: https://fpt.ai/stt, số audio với text có sẵn để đối chiếu, có bảng thống kê sau: Audio/Text FPT Service TModel TModel có Hiệu Chỉnh [VIVOSDEV05_170] Chậm , Bắc chậm nắm bắt chậm nắm bắt xu chậm nắm bắt xu xu hướng phát xu hướng bác hướng phát triển hướng phát triển công triển công nghệ tiển công nghệ công nghệ nghệ mới [VIVOSDEV01_R003] Cũng lên tiếng lên tiến lên tiếng ủng lên tiếng ủng hộ ủng hộ kiến ủng họ kiến hộ kiến nghị kiến nghị nghị nghĩ này [VIVOSDEV01_R012] Những gió gió gió gió mạnh lạnh mưa mạnh mưa mạnh mưa mưa đóng băng gây đóng băng ghi đóng gây đóng băng gây chơn trơn trượt chơn chiến [VIVOSDEV01_R058] Giám đốc Sở giảm đốc sở giá giám đốc sở giáo giám đốc sở giáo dục giáo dục đào tạo dục đào tạo ninh dục đào tạo ninh đào tạo ninh thuận cho ninh thuận cho huậng cho biết thuận cho biết biết biết Bảng 3: So sánh kết nhận dạng số audio thử nghiệm Nhận xét, mơ hình nhận dạng huấn luyện chưa tốt dịch vụ thương mại hố FPT, nhiên thêm mơ-đun hiệu chỉnh kết tốt hơn, giảm chênh lệch đáng kể với kết nhận dạng FPT CHƯƠNG KẾT LUẬN Qua thời gian thực nghiên cứu đề tài “nghiên cứu ứng dụng mạng nơ-ron hồi quy nhận dạng tiếng nói tiếng nói”, đề tài đạt tất mục tiêu đề ban đầu: - Đã tìm hiểu thực chương trình hỗ trợ rút trích đặc trưng MFCC tín hiệu âm thanh, phục vụ cho mơ hình nhận dạng tiếng nói - Áp dụng thành cơng kiến trúc mơ hình DeepSpeech vào nhận dạng tiếng nói tiếng Việt; mơ hình với khối khối mạng CNN khối mạng RNN Dữ liệu đầu vào dạng phổ (spectrogram) với số lượng feature 128 từ tín hiệu âm thanh, ngõ kí tự nhận dạng, hàm lỗi CTC Loss, tối ưu AdamW kết hợp OneCycleLR, kiến trúc mơ sau: Ø Tầng 1: lớp mạng CNN Ø Tầng 2: lớp Residual Network, lớp gồm: o Hai lớp CNN o Gắn thêm Dropout, p=0.1 tương ứng lớp CNN o lớp chuẩn hoá LayerNorm tương ứng lớp CNN Ø Tầng 3: lớp Fully Connected Ø Tầng 4: lớp Bidirectional RNN, lớp gồm: o Một lớp GRU LSTM (kích cỡ RNN-DIM 512) o Một lớp chuẩn hoá LayerNorm o Gắn Dropout, p=0.1 Ø Tầng 5: lớp phân loại, gồm có lớp: o lớp Fully Connected o lớp GELU o Gắn Dropout (p=0.1) o Và lớp Fully Connected cuối (96 ngõ – tương đương 95 ký tự cần nhận dạng kí tự “NULL”) - Đã xây dựng liệu để huấn luyện tốt cho nhận dạng tiếng nói tiếng Việt, gồm liệu VIVOS (train: 9263, test: 726) , FPT (train: 16.700, test: 7213), VIN (train: 20.000, test: 6426) tất chuẩn hoá độ dài âm từ 1.3s -> 10s, số lượng từ đến 20 từ, tần số lấy mẫu 16KHz, định dạng wav - Trong phần nghiên cứu này, xây dựng thêm mơ-đun hiệu chỉnh với 2gram có 20.217 cụm từ có ý nghĩa, tăng độ xác mơ hình lên 60-75% Hướng nghiên cứu mở rộng thêm để cải thiện độ xác mơ hình thông qua việc tăng độ lớn liệu, chất lượng đa dạng liệu tiếng nói vùng miền, tiếng nói nhiều độ tuổi; bên cạnh nghiên cứu phát triển mơđun tiền xử lý nhằm giảm nhiễu, nâng cao chất lượng liệu đầu vào Kết hợp, mơ hình ngơn ngữ để hiệu chỉnh tốt câu sau dự đốn từ mơ hình, điều chỉnh mặt lỗi tả, ngữ nghĩa kết hợp thêm dấu câu Tích cực nghiên cứu giải thuật nhằm tăng giảm thời gian dự đoán, hướng đến đáp ứng theo thời gian thực Có thể hướng đến xây dựng ứng dụng, tảng cung cấp hệ thống nhận dạng tiếng nói tiếng Việt theo thời gian thực, giảm ảnh hưởng nhiễu từ môi trường TÀI LIỆU THAM KHẢO [1] Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., & Ng, A Y (2014) Deep speech: Scaling up end-to-end speech recognition arXiv preprint arXiv:1412.5567 [2] Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., & Zhu, Z (2016, June) Deep speech 2: End-to-end speech recognition in english and mandarin In International conference on machine learning (pp 173-182) PMLR [3] Hannun, A Y., Maas, A L., Jurafsky, D., & Ng, A Y (2014) First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs arXiv preprint arXiv:1408.2873 [4] Vineel Pratap, A H (2018) wav2letter++: The fastest open-source speech recognition system CoRR, vol abs/1812.07625 [5] Park, D S., Chan, W., Zhang, Y., Chiu, C C., Zoph, B., Cubuk, E D., & Le, Q V (2019) Specaugment: A simple data augmentation method for automatic speech recognition arXiv preprint arXiv:1904.08779 [6] Schneider, S., Baevski, A., Collobert, R., & Auli, M (2019) wav2vec: Unsupervised pre-training for speech recognition arXiv preprint arXiv:1904.05862 [7] Luong, H T., & Vu, H Q (2016, December) A non-expert Kaldi recipe for Vietnamese speech recognition system In Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016) (pp 51-55) [8] VinBigData (2020) The speech corpus for the automatic speech recognition task in VLSP-2020,[Online] Available https://slp.vinbigdata.org [9] Tran, Duc Chung (2020) FPT Open Speech Dataset (FOSD) – Vietnamese Mendeley Data, V4, doi: 10.17632/k9sxg2twv4.4 [10] He, K., Zhang, X., Ren, S., & Sun, J (2016) Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 770-778) [11] Smith, L N., & Topin, N (2019, May) Super-convergence: Very fast training of neural networks using large learning rates In Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications (Vol 11006, p 1100612) International Society for Optics and Photonics [12] Vietnamese NLP Research Group – (UnderTheSea) (2021) Word Tokenize Word Tokenize,[Online] Available: http://undertheseanlp.com [13] Acree, B., Hansen, E., Jansa, J., & Shoub, K (2016) Comparing and evaluating cosine similarity scores, weighted cosine similarity scores and substring matching Working Paper [14] Fayek, H (2016) Speech processing for machine learning: Filter banks, melfrequency cepstral coefficients (mfccs) and what’s in-between URL: https://haythamfayek.com/2016/04/21/speech-processingfor-machinelearning.html [15] Choné, A (2018) Computing MFCCs voice recognition features on ARM systems Computing MFCCs voice recognition features on ARM systems,[Online] Available:https://medium.com/linagoralabs/computing-mfccs-voice-recognitionfeatures-on-arm-systemsdae45f016eb6 [16] Wikipedia (2016) Probabilistic parameters of a hidden Markov model Probabilistic parameters of a hidden Markov model,[Online] Available: https://en.wikipedia.org/wiki/Hidden_Markov_model [17] Kiyoshi Kawaguchi (2000) Artificial Neural Networks Artificial Neural Networks, [Online] Available: http://osp.mans.edu.eg/rehan/ann4.htm [18] Colah (2015) Understanding LSTM Networks Understanding LSTM Networks, [Online] Available: https://colah.github.io/posts/2015-08-Understanding-LSTMs [19] Facebook Open Source (2020) Transfer Function Layers Transfer Function Layers, [Online] Available: https://nn.readthedocs.io/en/rtd/transfer [20] Nvidia Inc (2018) DeepSpeech2 DeepSpeech2 OpenSeq2Seq, [Online] Available: https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition/deepspeech2.html NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG NHẬN DẠNG TIẾNG NÓI STUDY OF SPEECH RECOGNITION USING RECURRENT NEURAL NETWORK Huỳnh Văn Tuân, Trương Ngọc Sơn Trường đại học Sư phạm Kỹ thuật TP.HCM TĨM TẮT Trong viết này, tác giả trình bày nghiên cứu ứng dụng kiến trúc mơ hình DeepSpeech áp dụng tập liệu âm tiếng Việt kết hợp xây dựng mô đun hiệu chỉnh để nhận dạng tiếng nói Tiếng Việt Kiến trúc mơ hình DeepSpeech tổ hợp lớp mạng nơ-rơn tích chập lớp mạng nơ-ron hồi quy, ngõ vào dạng phổ tín hiệu âm thanh; mơ đun hiệu chỉnh sử dụng liệu gồm 20.217 bi-gram, kết hợp thuật toán so sánh khoảng cách Levenshtein tính độ tương tự Cosine Mơ hình huấn luyện dựa liệu âm VIVOS, FPT VIN DATA Mơ hình đánh giá dựa tỉ lệ lỗi từ (WER), độ xác đạt 75%, mơ hình hoạt động hiệu mơi trường nhiễu tốc độ nói khơng q nhanh Kiến trúc DeepSpeech mô đun hiệu chỉnh huấn luyện tập liệu lĩnh vực chuyên dụng hoạt động hiệu kiến trúc phần cứng thấp, khơng u cầu kết nối internet Từ khố: Nhận dạng tiếng nói; DeepSpeech 2; Mạng nơ-ron hồi quy; Mạng nơ-ron tích chập; Khoảng cách Levenshtein; Độ tương tự Cosine ABSTRACT In this paper, the author presents the study of DeepSpeech model structure applied on Vietnamese audio data set combined with building a adjusted module for Vietnamese speech recognition The DeepSpeech model architecture is a combination of convolutional neural network layers and recurrent neural network layers, the input data is the spectrogram of the audio signal; The adjusted module uses a dataset of 20.217 bi-grams, comparison base on the Levenshtein Distance and the Cosine Similarity algorithm The model is trained on the shared audio datasets from VIVOS, FPT and VIN DATA, evaluated based on the word error rate (WER), the accuracy reaches 75%, the model works effectively in low noise environment and the speaking speed is not too fast The DeepSpeech model structure and adjusted module trained on a dedicated field dataset will work well on low-architecture hardware that doesn't require an internet connection Keywords: Speech recognition; DeepSpeech 2; Recurrent Neural Networks; Convolutional Neural Networks; Levenshtein distance; Cosine similarity GIỚI THIỆU Nhận dạng tiếng nói có phạm vi ứng dụng rộng rãi, triển khai trung tâm liên lạc; cung cấp dịch vụ tự động phục vụ; trợ lý ảo hỗ trợ giao dịch, tìm kiếm, điều khiển nhà thơng minh; hay ứng dụng hỗ trợ điều hướng cho người khuyết tật; tạo công cụ chuyển giọng nói thành văn bản, giúp giảm thời gian, chi phí Ứng dụng mạng học sâu nói chung mạng nơ-ron hồi quy nói riêng nhận dạng tiếng nói đạt bước tiến hỗ trợ tính tốn hiệu vượt trội từ GPU Một số kiến trúc đề xuất gần như: DeepSpeech [1] – mơ hình mở rộng nhận dạng đầu cuối (End-to-End Speech Recognition), đạt tỉ lệ lỗi 16% tập liệu 2000 Hub5 DeepSpeech [2] – cải tiến từ DeepSpeech áp dụng cho nhận dạng tiếng Anh tiếng Quan Thoại, mơ hình hoạt động tốt môi trường nhiễu, sử dụng lớp mạng nơ-ron tích chập mạng nơ-ron hồi quy chiều (BiDirectional Recurrent DNNs), áp dụng hàm kích hoạt ReLu CTC để dự đoán ký tự ngõ First-Pass Large Vocubulary [3] – sử dụng mạng hồi quy lặp hướng, tỉ lệ lỗi ký tự (CER) 10% tập CSR-II Wav2Letter++ [4] – đạt tỉ lệ lỗi từ WER 4.91 % tập LibriSpeech SpecAugment [5] – phương pháp tăng cường liệu, đạt tỉ lệ lỗi WER 5,8% tập LibriSpeech có mơ hình ngơn ngữ Wav2Vec [6] – sử dụng hình thức học khơng giám sát, đầu vào âm thô, kết đạt tỉ lệ lỗi WER 2.43% tập liệu nov92 Mơ hình hiệu chỉnh độ xác kết nhận dạng dựa từ điển bi-gram thuật toán đánh giá mức độ giống hai chuỗi Levenshtein [5], Cosin Khoảng cách Levenshtein hai từ số lần thêm, sửa, xoá, thay kí tự cần thiết để thay đổi từ thành từ cịn lại, khoảng cách nhỏ độ giống lớn Thuật toán tương đồng Cosine Similarity [6], đánh giá khác câu dựa vào giá trị cosine góc vec-tơ từ câu Giá trị lớn độ tương đồng lớn THIẾT KẾ MƠ HÌNH Mơ hình nhận dạng tiếng nói tiếng Việt áp dụng theo kiến trúc DeepSpeech mơ tả Hình Bao gồm khối chính: khối mạng nơ-ron tích chập (CNN) khối mạng nơ-ron hồi quy (RNN) Đầu vào tín hiệu âm dạng thơ áp dụng bước xử lý giảm nhiễu, khuếch đại tín hiệu, rút trích đặc trưng MFCC chuyển sang tín hiệu dạng phổ (spectrogram) Tiếp theo lớp mạng nơ-ron CNN RNN, cuối đầu xác suất Pt(c) ký tự tương ứng theo bước thời gian từ ký tự cần nhận dạng Mơ hình huấn luyện sử dụng hàm mát phân loại theo thời gian CTC để nhận dạng ký tự, hướng nghiên cứu nhận dạng tiếng Việt nên lựa chọn phương pháp đánh giá lỗi dựa từ (WER – Word Error Rate) làm phương pháp đánh giá độ xác mơ hình Giá trị WER lớn cho biết hai câu có độ khác nhiều WER tính công thức: 𝑆+𝐼+𝐷 𝑁 Với S số từ bị thay thế; I số từ chèn vào; D số từ bị xoá; N số lượng từ so sánh 𝑊𝐸𝑅 = Các thơng tin tính tốn tồn mạng no-rơn dạng số, cần giải mã (decoder) Beam Search để chuyển đổi xác suất ký tự dạng số sang dạng từ tương ứng - Tới lớp mạng GRU/ LSTM hai chiều, với lớp gồm: Một lớp GRU/LSTM hai chiều; Lớp Layer Norm; Dropout - Cuối lớp phân loại gồm: lớp kết nối đầy đủ; Hình Sơ đồ khối kiến trúc DeepSpeech [2] Quá trình huấn luyện mơ hình có áp dụng số kỹ thuật như: Chuẩn hoá sử dụng Layer Normalization nhằm cải tiến tốc độ huấn luyện mạng, tính trực tiếp số liệu thống kê chuẩn hoá từ đầu vào tổng hợp đến nơ-ron lớp ẩn; trình tối ưu AdamW kết hợp với OneCycleLR nhằm đưa mơ hình hội tự đến điểm tốt 2.1 Mơ hình nhận mạng nơ-ron nhận dạng Tổng quát hoá lớp mạng nơ-ron mơ hình nhận dạng mơ tả Hình Mơ hình kết hợp nhiều lớp CNN lớp mạng RNN, cuối lớp kết nối đầy đủ Số lượng ngõ tính (feature) ngõ vào 128; số lớp ngõ 96 (gồm 95 kí tự cần nhận dạng + ký tự rỗng NULL); hệ số tốc độ học 0.0005 Mơ hình lớp mạng nơ-ron sếp xếp theo thứ tự: - Một lớp CNN (ngõ vào: 1, ngõ ra: 32, kernel: 3x3, stride=2) - Tiếp đến lớp Residual Networks, lớp gồm: Hai lớp CNN; gắn Dropout; lớp chuẩn hoá Layer Norm - Tiếp theo lớp kết nối đầy đủ Hình Sơ đồ tổng qt lớp mạng nơ-ron mơ hình nhận dạng 2.2 Mô đun hiệu chỉnh văn đầu Sau mơ hình dự đốn chuỗi văn đầu từ tín hiệu tiếng nói, chuyển qua mơ đun hiệu chỉnh để khắc phục thiếu xác mơ hình Thuật tốn Beam Search áp dụng trình huấn luyện thử nghiệm với giới hạn tìm kiếm 10 Tức là, thời điểm nhận dạng đưa tối đa 10 câu có xác suất tốt Q trình tạo bi-gram tổ hợp tất cặp từ kết hợp từ 10 câu theo cụm riêng, cụm tổ hợp bigram Với câu có độ dài L có (L-1) số cụm, tạo từ vị trí thứ n kết hợp với từ vị trí n+1; bên cụm bi-gram riêng biệt Gọi X số câu, Y số từ câu, số cụm (Y-1) Mỗi cụm có tổ hợp bi-gram (X^2), tổng số bi-gram (Y-1)*(X^2) Ví dụ: Có câu: Câu 1: “húng ta làm việc hăm chỉ” Câu 2: “chúng ca làm diệc chăm chi” Câu 3: “chúng ta lam viêc hăm hỉ” Khi đó, có tổ hợp bi-gram sau: “húng ta”, “húng ca”, “chúng ta”, “chúng ca”, “ta làm”, “ta lam”, “làm việc”, “làm diệc”, “làm viêc”, “lam viêc” , Bộ liệu âm sử dụng từ nguồn liệu chia sẻ VIVOS, FTP, VINDATA, số lượng mô tả Bảng Bộ từ điển bigram sưu tập từ trang báo mạng, trang wiki tiếng Việt, lĩnh vực văn hoá, đời sống, giáo dục, giải trí, kinh tế, xã hội; phân rã (tokenize) thành bi-gram, có kèm với xác suất xuất hiện, ví dụ: “đồn thể,0.0001000418” => xác suất xuất hiện, phổ biến là: “0.0001000418”; “nguyên tắc,0.00010016” => xác suất xuất hiện, phổ biến là: “0.00010016”; Các công đoạn mô đun hiệu chỉnh mơ tả Hình 3; gồm: Công đoạn 1: Lấy bi-gram cụm so sánh với từ điển; tính khoảng cách Levenshtein chúng, chọn tối đa 10 bigram tương đồng cao; công đoạn 2: Lấy bi-gram từ công đoạn so sánh với bigram cần hiệu chỉnh theo thuật toán Consine để chọn bi-gram tương đồng cao ngưỡng > 0.45; công đoạn 3: Sẽ lọc lần bi-gram có xác suất xuất hiện, hay tính phổ biến cao để chọn bi-gram hiệu chỉnh DỮ LIỆU HUẤN LUYỆN Bảng 1: Bộ liệu huấn luyện kiểm thử mơ hình Bộ liệu Số mẫu Train Số mẫu Test VIVOS 9.263 726 FPT 15.700 7.213 VIN DATA 20.000 6.426 Các liệu âm chuẩn hoá định dạng WAV với tần số lấy mẫu 16Khz; độ dài audio từ 1.3 đến 15 giây; độ dài nhãn văn tương ứng đến 20 từ Bộ liệu VIVOS [7] tập Train có 24 giọng nữ 22 giọng nam; tập Test có giọng nữ 12 giọng nam thu âm môi trường yên tĩnh Bộ liệu FPT [8] VINDATA [9] đa dạng, môi trường tự nhiên, gồm tiếng radio, tiếng điện thoại, nhạc, … KẾT QUẢ 4.1 Kết huấn luyện thử nghiệm Kết huấn luyện độ xác qua lần huấn luyện mơ hình tập liệu khác nhau, với Epoch = 50, batch-size 3, 5, 10, 32, linh hoạt theo tập liệu trình bày Bảng Thời gian huấn luyện từ 8h đến 20 Thời gian thử nghiệm từ 16 phút đến 1,4 theo độ lớn tập liệu Bảng Thông tin kết huấn luyện thử nghiệm mô hình nhận dạng Tên model Hình Mơ tả mơ đun hiệu chỉnh văn Tập liệu Cấu trúc Hệ số Hệ số mạng WER WER (có RNN mơđun hiệu chỉnh) M1.1_ vivos vivos_ gru_ RNN_ 512 M1.1_ vivos vivos_ LSTM _512 M1.3_ vivos vivos_ LSTM _ RNN_ 1024 M2.1_ VIN vin_G RU _RNN _ 512 M2.2_ VIN vin_ LSTM _RNN _512 M3_f FPT pt_GR U_ RNN_ 512 RNNdim 512 0.5476 0.3475 thiện độ xác so với ngõ dự đốn từ mơ hình 4.2 Kiểm thử so sánh với dịch vụ fpt LSTM/ RNNdim: 512 0.5333 0.402 LSTM/ RNNdim: 1024 0.4131 0.2596 GRU/ RNNdim: 512 0.5315 LSTM/ RNNdim: 512 0.5654 0.4911 GRU/ RNNdim: 512 0.4403 0.3201 Thực kiểm thử mơ hình huấn luyện gọi TModel, mơ hình có tích hợp mơ-đun hiệu chỉnh so sánh với chương trình nhận dạng thương mại hoá FPT tại: https://fpt.ai/stt, số audio với text có sẵn minh hoạ Bảng Bảng 3: So sánh kết nhận dạng số audio thử nghiệm Audio/Text FPT Service TModel TModel có mơđun hiệu chỉnh [VIVOS DEV 05_170] Chậm , Bắc xu hướng phát triển công nghệ chậm nắm bắt xu hướng bác tiển công nghệ chậm nắm bắt xu hướng phát triển công nghệ [VIVOS DEV 01_R003] Cũng lên tiếng ủng hộ lên tiếng ủng kiến hộ kiến nghị nghị này lên tiến ủng họ kiến nghĩ lên tiếng ủng hộ kiến nghị [VIVOS DEV 01_R012] gió mạnh mưa đóng gây gió mạnh mưa đóng băng gây 0.4703 Kết thơng kê cho thấy mơ hình huấn luyện cho kết xác dao động 50-60%, tích hợp mơ đun hiệu chỉnh độ xác tăng lên 75% Khi cấu trúc mạng nơ-ron hồi quy thay đổi từ GRU (Gated Recurrent Units) sang LSTM (Long ShortTerm Memory) thời gian huấn luyện lâu hơn, cho kết tốt tập liệu tốt VIVOS thể qua hệ số WER, với tập liệu lớn, nhiễu nhiều FPT VIN số WER không thay đổi nhiều Chỉ số WER giảm từ 13-20% có mơ đun hiệu chỉnh, điều đánh giá khả điều chỉnh tốt từ, cụm từ giúp cải chậm nắm bắt xu hướng phát triển cơng nghệ Những gió lạnh mưa đóng gió mạnh băng mưa đóng băng gây chơn ghi trơn chơn trượt chiến [VIVOS DEV 01_R058] giám đốc sở giáo dục đào tạo ninh thuận cho biết giám đốc sở giáo dục đào tạo ninh thuận cho biết Giám đốc Sở giáo dục đào tạo ninh thuận cho biết giảm đốc sở giá dục đào tạo ninh huậng cho biết Mơ hình nhận dạng huấn luyện chưa tốt so với dịch vụ FPT, nhiên thêm mô-đun hiệu chỉnh tăng độ xác giảm chênh lệch đáng kể KẾT LUẬN Đã xây dựng thành cơng mơ hình nhận dạng tiếng nói tiếng Việt theo kiến trúc DeepSpeech 2, tích hợp mơ-đun hiệu chỉnh văn đầu ra, giúp mơ hình nhận dạng đạt tỉ lệ xác 75% Hướng phát triển tăng độ xác tăng độ lớn liệu, chất lượng liệu, xây dựng mô-đun tiền xử lý nhiễu, kết hợp mơ hình ngơn ngữ để điều chỉnh lỗi ngữ pháp, tả; bên cạnh hướng đến huấn luyện tập liệu chuyên dụng, triển khai phần cứng hạn chế, không phụ thuộc vào kết nối internet LỜI CẢM ƠN Kết nghiên cứu thuộc đề tài thạc sĩ 2021 tác giả TÀI LIỆU THAM KHẢO [1] Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., & Ng, A Y (2014) Deep speech: Scaling up end-to-end speech recognition arXiv preprint arXiv:1412.5567 [2] Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., & Zhu, Z (2016, June) Deep speech 2: End-to-end speech recognition in english and mandarin In International conference on machine learning (pp 173-182) PMLR [3] Hannun, A Y., Maas, A L., Jurafsky, D., & Ng, A Y (2014) First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs arXiv preprint arXiv:1408.2873 [4] Vineel Pratap, A H (2018) wav2letter++: The fastest open-source speech recognition system CoRR, vol abs/1812.07625 [5] A Ene and A Ene, “An application of Levenshtein algorithm in vocabulary learning,” in 2017 9th International Conference on Electronics, Computers and Artificial Intelligence (ECAI), 2017, pp 1–4 [6] Acree, B., Hansen, E., Jansa, J., & Shoub, K (2016) Comparing and evaluating cosine similarity scores, weighted cosine similarity scores and substring matching Working Paper [7] Luong, H T., & Vu, H Q (2016, December) A non-expert Kaldi recipe for Vietnamese speech recognition system In Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016) (pp 51-55) [8] VinBigData (2020) The speech corpus for the automatic speech recognition task in VLSP-2020,[Online] Available https://slp.vinbigdata.org [9] Tran, Duc Chung (2020) FPT Open Speech Dataset (FOSD) – Vietnamese Mendeley Data, V4, doi: 10.17632/k9sxg2twv4.4 Tác giả chịu trách nhiệm viết: Họ tên: PGS.TS Trương Ngọc Sơn Đơn vị: Đại học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh Email: sontn@hcmute.edu.vn S K L 0 ... nơ-ron hồi quy nhận dạng tiếng nói? ??, mục đích nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói ứng dụng mạng nơ-ron hồi quy, đề xuất giới đạt kết xác định vào tốn nhận dạng tiếng nói tiếng. .. phạm vi nghiên cứu v Mục tiêu nghiên cứu: Ø Nghiên cứu kiến trúc hoạt động mạng nơ-ron hồi quy Ø Nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói DeepSpeech vào nhận dạng tiếng nói tiếng. .. dạng tiếng nói tiếng Anh; nghiên cứu lựa chọn áp dụng kiến trúc phù hợp cho toán nhận dạng tiếng nói tiếng Việt Kết q trình nghiên cứu áp dụng thành công kiến trúc DeepSpeech vào mơ hình nhận dạng

Ngày đăng: 09/12/2022, 14:05