Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói

74 50 0
Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói

MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM TẠ xii MỤC LỤC 15 DANH SÁCH HÌNH 17 DANH SÁCH CÁC BẢNG 19 CHƯƠNG TỔNG QUAN 20 1.1 Tổng quan nghiên cứu nước 20 1.2 Giới thiệu luận văn 22 1.3 Mục tiêu, phạm vi nghiên cứu 23 1.4 Nhiệm vụ nghiên cứu giới hạn đề tài 24 1.5 Phương pháp nghiên cứu 25 1.6 Kế hoạch thực 25 1.7 Cấu trúc luận văn 25 CHƯƠNG CƠ SỞ LÝ THUYẾT 26 2.1 Giới thiệu nhận dạng tiếng nói 26 2.1.1 Tổng quan nhận dạng tiếng nói 26 2.1.2 Rút trích đặc trưng tín hiệu tiếng nói MFCC 28 2.1.3 Mơ hình Markov ẩn 35 2.2 Mạng nơ-ron nhân tạo 36 2.2.1 Mạng nơ-ron sinh học 36 2.2.2 Mạng nơ-ron nhân tạo 37 2.3 Mạng nơ-ron tích chập 41 2.4 Mạng nơ-ron hồi quy 43 2.4.1 Kiến trúc mạng nơ-ron hồi quy 43 2.4.2 Tính tốn bên mạng nơ-ron hồi quy 45 2.4.3 Vấn đề bùng nổ đạo hàm đạo hàm 49 2.4.4 Mạng nơ-ron hồi quy cải tiến LSTM 51 CHƯƠNG THIẾT KẾ MƠ HÌNH NHẬN DẠNG 55 3.1 Giới thiệu kiến trúc mơ hình nhận dạng 55 3.2 Các kỹ thuật áp dụng mơ hình 59 3.2.1 Chuẩn hoá (Normalization): 59 3.2.2 Trình tối ưu hệ số tốc độ học 59 3.3.3 Đánh giá lỗi với CTC Loss 60 3.3 Thu thập xử lý liệu 61 3.3.1 Thu thập liệu huấn luyện thử nghiệm 61 3.3.2 Chuẩn bị đồ số ký tự cần nhận dạng tiếng Việt 62 3.3.3 Rút trích đặt trưng MFCC tín hiệu chuẩn hoá độ dài 62 3.3.4 Số hoá nhãn văn 63 3.3.5 Tăng cường đa dạng liệu 64 3.4 Xây dựng lớp mạng nơ-ron 65 CHƯƠNG HUẤN LUYỆN MƠ HÌNH VÀ KẾT QUẢ ĐẠT ĐƯỢC 70 4.1 Quá trình huấn luyện 70 4.2 Kết đạt 72 CHƯƠNG KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 80 DANH SÁCH HÌNH Hình 2.1: Biểu diễn tín hiệu theo thời gian tần số 26 Hình 2.2: Ứng dụng xử lý tiếng nói thực tế 27 Hình 2.3: Sơ đồ khối nhận dạng tiếng nói 27 Hình 2.4: Các cơng đoạn rút trích đặc trưng 29 Hình 2.5: Tín hiệu trước khuếch đại [14] 29 Hình 2.6: Tín hiệu sau khuếch đại [14] 30 Hình 2.7: Thuật tốn rút trích MFCC [15] 32 Hình 2.8: Mối quan hệ tần số tính Hz Mel [14] 33 Hình 2.9: Danh sách 10 lọc sử dụng MFCC [14] 33 Hình 2.10: Áp lọc Mel lên tín hiệu [14] 34 Hình 2.11 : Mơ hình HMM ẩn trạng thái [16] 36 Hình 2.12: Sơ đồ khối hệ thống thần kinh sinh học 36 Hình 2.13: Các thành phần Nơ-ron sinh học [17] 37 Hình 2.14: Linear Threshold Function 39 Hình 2.15: Mơ hình Linear Threshold Gate [17] 39 Hình 2.16: Mơ hình Perceptron [17] 40 Hình 2.17: Mơ hình mạng nhiều lớp [17] 40 Hình 2.18: Mơ tả kiến trức mạng CNN 41 Hình 2.19: Minh hoạ hàm Max Pooling 42 Hình 2.20: Minh họa sơ đồ mạng RNN [18] 44 Hình 2.21: Các dạng mơ hình mạng nơ-ron hồi quy [18] 44 Hình 2.22: Mơ tả tính tốn bên tế bào RNN [18] 45 Hình 2.23: Mơ tả tính tốn liên kết tế bào RNN [18] 46 Hình 2.24: Mơ tả lỗi tồn mạng RNN [18] 48 Hình 2.25: Mơ tả tính lỗi lan truyền mạng RNN [18] 49 Hình 2.26: Biểu diễn hàm đạo hàm [19] 50 Hình 2.27: Biểu diễn hàm sigmoid đạo hàm [19] 50 Hình 2.28: Cấu trúc nơ-ron mạng RNN chuẩn [18] 51 Hình 2.29: Cấu trúc nơ-ron mạng LSTM [18] 52 Hình 2.30: Minh họa trạng thái tế bào mạng LSTM [18] 52 Hình 2.31: Minh họa tầng mạng LSTM [18] 53 Hình 2.32: Minh họa tầng hai LSTM – giai đoạn [18] 53 Hình 2.33: Minh họa tầng hai LSTM – giai đoạn [18] 54 Hình 2.34: Minh họa tầng thứ ba LSTM [18] 54 DANH SÁCH CÁC BẢNG Bảng 1: Thông tin liệu huấn luyện 70 Bảng 2: Thông tin kết huấn luyện thử nghiệm 73 Bảng 3: So sánh kết nhận dạng số audio thử nghiệm 77 CHƯƠNG TỔNG QUAN Tự động nhận dạng tiếng nói (Automatic Speech Recognition – ASR) q trình tín hiệu âm tiếng nói chuyển đổi vào thành chuỗi từ, ngôn ngữ khác cách sử dụng thuật tốn máy tính 1.1 Tổng quan nghiên cứu nước Ứng dụng mạng học sâu nói chung kiến trúc mạng nơ-ron hồi quy nói riêng nhận dạng tiếng nói đạt bước tiến mới, với phát triển cơng nghệ hỗ trợ khả tính tốn hiệu cao, tận dụng tính tốn vượt trội card đồ hoạ (GPU) Các trung tâm nghiên cứu phát triển tập đoàn lớn giới, liên tục đề xuất kiến trúc tốt để mang lại mơ hình dự đốn có độ xác cao Ở phần nghiên cứu này, tổng hợp kiến trúc đề xuất gần tốn nhận dạng tiếng nói: ü DeepSpeech [1] : Mơ hình mở rộng nhận dạng tiếng nói đầu cuối (End-to-End Speech Recognition) Kiến trúc DeepSpeech đề xuất vào tháng 12 năm 2014, nhóm tác giả đến từ phịng thí nghiệm AI Baidu Research Kiến trúc hoạt động hiệu môi trường ồn Với DeepSpeech không cần từ điển âm vị (phoneme), mà hoạt động dựa vào mạng hồi quy RNN tối ưu tính tốn nhiều GPU Mơ hình đạt tỉ lệ lỗi 16.0% toàn tập liệu thử nghiệm 2000 Hub5 DeepSpeech huấn luyện tập liệu tiếng Anh, mơ hình chuyển đổi chuỗi đầu vào thành chuỗi ký tự dự đoán xác suất xuất ký tự ngõ Kiến trúc gồm lớp nơ-ron ẩn, sử phân loại theo thời gian kết nối (CTC) để dự đoán ngõ ra, sử dụng thuật toán tối ưu Nesterov’s Accelerated Gradient method q trình huấn luyện mơ hình ü DeepSpeech [2]: Kiến trúc nhận dạng tiếng nói đầu cuối, đề xuất tháng 12 năm 2015 nhóm tác giả Baidu Research, cải tiến từ DeepSpeech ứng dụng cho nhận dạng tiếng Anh tiếng Quan Thoại Mơ hình đề xuất xử lý ngôn ngữ trọng âm khác nhau, hoạt động hiệu mơi trường nhiễu Mơ hình dựa mạng hồi quy RNN mạng tích chập CNN, kiến trúc đề xuất lên tới 11 lớp tạo thành từ nhiều lớp lặp lại hai chiều (Bi-Directional) lớp tích chập Khả tính tốn cao lần so với kiến trúc DeepSpeech Kiến trúc sử dụng Layer Normalization để tối ưu, hàm kích hoạt sử dụng ReLu, CTC ngõ để dự đoán xác suất ký tự xuất ü First-Pass Large Vocabulary [3]: Mơ hình nhận dạng tiếng nói liên tục sử dụng mạng hồi quy lặp hai hướng (Bi-Directional Recurrent DNNs) Kiến trúc đề xuất nhóm tác giả từ đại học Stanford Mạng nơ-ron huấn luyện sử dụng CTC để dự đoán chuỗi ký tự, kết đạt tỉ lệ lỗi ký tự (CER) 10% tập CSR-II (WSJ1), đề xuất có tích hợp mơ hình ngơn ngữ n-gram ü Wav2Letter++ [4]: Được nghiên cứu phát triển Facebook AI Research, đề xuất tháng 12 năm 2018, framework mã nguồn mở sử dụng mạng học sâu cho nhận dạng tiếng nói Được phát triển ngơn ngữ C++ thư viện ArrayFire tensor, tối ưu tính tốn GPU CUDA, mơ hình đạt tỉ lệ lỗi WER 4.91% tập liệu LibriSpeech ü SpecAugment [5]: Phương pháp tăng cường liệu để nhận dạng tiếng nói, nhóm tác giả từ Google Brain đề xuất tháng năm 2019, họ sử dụng phương pháp đề huấn luyện mạng nhận dạng tiếng nói đầu cuối gọi LAS (Listen, Attend and Spell) Nhóm tác giả cơng bố thử nghiệm tập liệu LibriSpeech với tỉ lệ lỗi từ WER đạt 6,8% khơng có mơ hình ngơn ngữ 5.8% có mơ hình ngôn ngữ Trong mạng LAS, phổ Mel đưa vào mạng CNN lớp với bước trượt (stride) Đầu mạng CNN chuyển qua mạng LSTM hai chiều (Bi-Directional LSTM) ü Wav2vec [6]: Được nghiên cứu phát triển Facebook AI Research, đề xuất tháng năm 2019, áp dụng học không giám sát (unspervised learning) nhận dạng tiếng nói, sử dụng âm thơ (raw audio) Kết mơ hình huấn luyện dựa tập liệu âm khỗng lồ không dán nhãn Wav2vec đạt tỉ lệ lỗi từ WER 2.43% tập liệu nov92 v Tình hình nghiên cứu nước Ở Việt Nam, năm gần trường, học viện đẩy mạnh nghiên cứu ứng dụng mạng nơ-ron nhận dạng tiếng nói Nhóm nghiên cứu PGS.TS Lương Chi Mai thuộc Viện Công Nghệ Thông tin ứng dụng phương pháp mạng nơ-ron nhân tạo, giải mã thuật tốn Viterbi cơng cụ CSLU nhận dạng tiếng nói Các đề tài nghiên cứu liên quan như: “Phát triển kết tổng hợp, nhận dạng câu lệnh, chuỗi số tiếng Việt liên tục môi trường điện thoại di động”, “Tăng cường độ xác hệ thống mạng neuron nhận dạng tiếng Việt” Nhóm nghiên cứu PGS TS Vũ Hải Quân, thuộc trường Đại học Khoa học Tự nhiên – Đại học Quốc Gia Thành phố Hồ Chí Minh, nhóm nghiên cứu thuộc AILab tập trung vào tốn truy vấn thơng tin tiếng Việt, nhận dạng tiếng nói, tìm kiếm giọng nói,… Các cơng ty lớn Vingroup, VNG, FPT, Viettel tích cực nghiên cứu vào phát triển hệ thống ASR, dần thương mại hố sản phẩm chuyển đổi từ tiếng nói sang văn (Speech to Text) hay văn sang tiếng nói (Text to Speech) Ví dụ: FPT thương mại hố dịch vụ chuyển đổi tiếng nói văn https://fpt.ai/; Viettel cung cấp giải pháp đọc báo tiếng Việt trang báo Dân Trí VinAI Reasearch nghiên cứu phát triển mơ hình ngơn ngữ, cơng bố mơ hình huấn luyện sẵn PhoBert 1.2 Giới thiệu luận văn Giao tiếp vấn đề thiết yếu người, tiếng nói hình thức giao tiếp tự nhiên bên cạnh ánh mắt, nét mặt, ngôn ngữ thể Nhận dạng tiếng nói có phạm vi ứng dụng rộng rãi triển khai hiệu trung tâm liên lạc, cung cấp dịch vụ tự động phục vụ, giúp người dùng hoàn thành giao dịch, giảm thiếu chi phí đại lý, nhân viên hỗ trợ; trợ lý ảo hỗ trợ người dùng thao tác tìm kiếm, quản lý, điều khiển hệ thống nhà thông minh; ứng dụng hỗ trợ điều khiển giọng nói để điều hướng cho người khuyết tật; tạo công cụ chuyển lời nói thành văn góp phần hạn chế thời gian việc đánh máy; ứng dụng người máy hiểu tiếng nói thực thi nhiệm vụ Trên giới, số hệ thống nhận dạng tiếng nói cỡ lớn áp dụng kỹ thuật mạng nơ-ron nhân tạo có độ xác tương đối cao Các hệ thống chủ yếu phát triển công nghệ đại với máy tính lớn, vi mạch xử lý tiếng nói chuyên dụng phần lớn xử lý cho tiếng Anh Ở Việt Nam, việc nghiên cứu phát triển hệ thống nhận dạng tiếng nói cịn mới, việc nhận dạng tiếng nói tiếng Việt gặp nhiều khó khăn tiếng nói phụ thuộc vào tiếng địa phương, giọng nói đa dạng vùng miền khác nhau, độ lớn liệu để huấn luyện mơ hình nhận dạng cịn hạn chế, liệu thu thập không rõ ràng, bị nhiễu tạp Xây dựng mơ hình nhận dạng tiếng Việt có độ xác cao cần đầu tư lớn hạ tầng máy tính, thời gian công sức đội ngũ nghiên cứu giàu kinh nghiệm Các hệ thống đặt kết tương đối tốt thị trường cơng ty thương mại hố với giá thành đắt Xuất phát từ nhận thức trên, đề tài luận văn em “nghiên cứu ứng dụng mạng nơ-ron hồi quy nhận dạng tiếng nói”, mục đích nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói ứng dụng mạng nơ-ron hồi quy, đề xuất giới đạt kết xác định vào tốn nhận dạng tiếng nói tiếng Việt 1.3 Mục tiêu, phạm vi nghiên cứu v Mục tiêu nghiên cứu: Ø Nghiên cứu kiến trúc hoạt động mạng nơ-ron hồi quy Ø Nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói DeepSpeech vào nhận dạng tiếng nói tiếng Việt Ø Tạo tập mẫu, huấn luyện, kiểm thử hệ thống nhận dạng tiếng nói tiếng Việt Ø Tạo mơ-đun hiệu chỉnh giúp cải thiện độ xác mơ hình nhận dạng v Phạm vi nghiên cứu: Ø Nghiên cứu kiến trúc hoạt động mạng RNN, LSTM Ø Nghiên cứu cách thức liên kết hoạt động lớp mạng nơ-ron bên kiến trúc DeepSpeech Ø Xây dựng liệu chất lượng phục vụ cho huấn luyện mơ hình nhận dạng tiếng Việt dựa liệu mở: VIVOS, FPT, VIN Data Ø Xây dựng mơ hình hiệu chỉnh để cải thiện độ xác nhận dạng tiếng nói tiếng Việt giúp đạt gần 75% độ xác 1.4 Nhiệm vụ nghiên cứu giới hạn đề tài Ø Tìm hiểu tổng quan nghiên cứu gần giới Việt Nam vấn đề nhận dạng tiếng nói Ø Nghiên cứu mơ hình thuật tốn xử lý rút trích đặc trưng tiếng nói sử dụng MFCC Ø Nghiên cứu áp dụng kiến trúc mơ hình DeepSpeech vào nhận dạng tiếng nói tiếng Việt Ø Chuẩn bị liệu chất lượng cho huấn luyện mô hình nhận dạng Ø Huấn luyện mơ hình, xây dựng chương trình nhận dạng tiếng nói tiếng Việt Ø Xây dựng mơ-dun hiệu chỉnh cải thiện độ xác mơ hình nhận dạng v Giới hạn đề tài: Ø Trong phạm vi nghiên cứu luận văn này, mơ hình nhận dạng tiếng nói tiếng Việt xây dựng kiến trúc mơ hình nhận dạng tiếng nói DeepSpeech Ø Dữ liệu huấn luyện, kiểm thử xây dựng lại từ liệu âm mở, nên liệu khơng đủ lớn, tích hợp mơ-đun hiệu chỉnh giúp cải thiện nâng độ xác lên 75% mô-đun hiệu chỉnh gây chậm q trình dự đốn kết phải so sánh với từ, cụm từ liệu mẫu, nhiên với hạ tầng máy tính mạnh độ trễ khơng đáng kể Một số hình ảnh biểu đồ tốc độ giảm lỗi WER lần huấn luyện tập liệu khác nhau: Hình 3.9: Một số hình ảnh mơ tả độ giảm lỗi WER trình huấn luyện Các biểu đồ trình bày hình 3.9 mơ tả thay đổi WER suốt q trình huấn luyện, hệ số lỗi có vọt lên cao bất thường điều không tránh khỏi huấn luyện mơ hình, hay huấn luyện theo kiểu kế thừa, nhiên giảm dần số lượng epoch tăng lên Như trình bày phần đầu, epoch q trình huấn luyện, mơ hình sử dụng tối ưu AdamW kết hợp với OneCycleLR, theo chất trình tối ưu đẩy learning rate lên cao nhất, giảm tuyến tính, dẫn đến vượt qua điểm hội tụ, cộng với mô hình có gắn Dropout sau lớp mạng, điều dẫn đến gây mơ hình epoch đầu không tối ưu, hay đánh giá lỗi WER lớn, tăng đột biến Tuy nhiên, lượng epoch tăng lên giảm thời gian tính tốn mơ hình nhanh chóng hội tụ kéo theo hệ số WER giảm, độ xác mơ hình tăng lên Từ epoch 45 trở lên số lỗi WER gần không khác nhau, việc đưa kết luận dù tăng nhiều epoch mơ hình khơng cải thiện nhiều Dễ dàng nhận thấy hệ số WER thấp huấn luyện tập VIVOS tập FPT, VIN Điều hiểu chất lượng liệu tập VIVOS tốt, audio thu âm chất lượng môi trường yên tĩnh không nhiễu Cùng thông số train train tập VIN, FPT hệ số WER đột biến so với tập liệu VIVOS, phần chất lượng liệu khơng tốt, độ ồn nhiễu nhiều, tiếng nói bên audio không rõ ràng Điều này, khắc phục việc tốn thời gian chuẩn bị lại liệu, lọc bớt liệu nhiễu nặng, chuẩn bị nhiều liệu thời gian huấn luyện lâu hơn, nhằm giúp mơ hình khơng bị q lỗng khó hội tụ Theo kết sau nhiều lần thí nghiệm, có nhận xét: với tập liệu tốt VIVOS sử dụng mạng LSTM cải thiện so với mạng GRU, với liệu nhiễu nhiều, đa dạng, việc sử dụng GRU tốt hơn, rút ngắn thời gian dự đoán đạt độ xác khơng xa lệch nhiều với việc sử dụng mạng LSTM v Kiểm thử so sánh Thực kiểm thử mơ hình huấn luyện gọi TModel mơ hình có gắng phần mơ-đun hiệu chỉnh, so sánh với chương trình nhận dạng thương mại hoá FPT tại: https://fpt.ai/stt, số audio với text có sẵn để đối chiếu, có bảng thống kê sau: Audio/Text FPT Service TModel TModel có Hiệu Chỉnh [VIVOSDEV05_170] Chậm , Bắc chậm nắm bắt chậm nắm bắt xu chậm nắm bắt xu xu hướng phát xu hướng bác hướng phát triển hướng phát triển công triển công nghệ tiển công nghệ công nghệ nghệ mới [VIVOSDEV01_R003] Cũng lên tiếng lên tiến lên tiếng ủng lên tiếng ủng hộ ủng hộ kiến ủng họ kiến hộ kiến nghị kiến nghị nghị nghĩ này [VIVOSDEV01_R012] Những gió gió gió gió mạnh lạnh mưa mạnh mưa mạnh mưa mưa đóng băng gây đóng băng ghi đóng gây đóng băng gây chơn trơn trượt chơn chiến [VIVOSDEV01_R058] Giám đốc Sở giảm đốc sở giá giám đốc sở giáo giám đốc sở giáo dục giáo dục đào tạo dục đào tạo ninh dục đào tạo ninh đào tạo ninh thuận cho ninh thuận cho huậng cho biết thuận cho biết biết biết Bảng 3: So sánh kết nhận dạng số audio thử nghiệm Nhận xét, mơ hình nhận dạng huấn luyện chưa tốt dịch vụ thương mại hoá FPT, nhiên thêm mơ-đun hiệu chỉnh kết tốt hơn, giảm chênh lệch đáng kể với kết nhận dạng FPT CHƯƠNG KẾT LUẬN Qua thời gian thực nghiên cứu đề tài “nghiên cứu ứng dụng mạng nơ-ron hồi quy nhận dạng tiếng nói tiếng nói”, đề tài đạt tất mục tiêu đề ban đầu: - Đã tìm hiểu thực chương trình hỗ trợ rút trích đặc trưng MFCC tín hiệu âm thanh, phục vụ cho mơ hình nhận dạng tiếng nói - Áp dụng thành cơng kiến trúc mơ hình DeepSpeech vào nhận dạng tiếng nói tiếng Việt; mơ hình với khối khối mạng CNN khối mạng RNN Dữ liệu đầu vào dạng phổ (spectrogram) với số lượng feature 128 từ tín hiệu âm thanh, ngõ kí tự nhận dạng, hàm lỗi CTC Loss, tối ưu AdamW kết hợp OneCycleLR, kiến trúc mơ sau: Ø Tầng 1: lớp mạng CNN Ø Tầng 2: lớp Residual Network, lớp gồm: o Hai lớp CNN o Gắn thêm Dropout, p=0.1 tương ứng lớp CNN o lớp chuẩn hoá LayerNorm tương ứng lớp CNN Ø Tầng 3: lớp Fully Connected Ø Tầng 4: lớp Bidirectional RNN, lớp gồm: o Một lớp GRU LSTM (kích cỡ RNN-DIM 512) o Một lớp chuẩn hoá LayerNorm o Gắn Dropout, p=0.1 Ø Tầng 5: lớp phân loại, gồm có lớp: o lớp Fully Connected o lớp GELU o Gắn Dropout (p=0.1) o Và lớp Fully Connected cuối (96 ngõ – tương đương 95 ký tự cần nhận dạng kí tự “NULL”) - Đã xây dựng liệu để huấn luyện tốt cho nhận dạng tiếng nói tiếng Việt, gồm liệu VIVOS (train: 9263, test: 726) , FPT (train: 16.700, test: 7213), VIN (train: 20.000, test: 6426) tất chuẩn hoá độ dài âm từ 1.3s -> 10s, số lượng từ đến 20 từ, tần số lấy mẫu 16KHz, định dạng wav - Trong phần nghiên cứu này, xây dựng thêm mô-đun hiệu chỉnh với 2gram có 20.217 cụm từ có ý nghĩa, tăng độ xác mơ hình lên 60-75% Hướng nghiên cứu mở rộng thêm để cải thiện độ xác mơ hình thơng qua việc tăng độ lớn liệu, chất lượng đa dạng liệu tiếng nói vùng miền, tiếng nói nhiều độ tuổi; bên cạnh nghiên cứu phát triển mơđun tiền xử lý nhằm giảm nhiễu, nâng cao chất lượng liệu đầu vào Kết hợp, mơ hình ngôn ngữ để hiệu chỉnh tốt câu sau dự đốn từ mơ hình, điều chỉnh mặt lỗi tả, ngữ nghĩa kết hợp thêm dấu câu Tích cực nghiên cứu giải thuật nhằm tăng giảm thời gian dự đoán, hướng đến đáp ứng theo thời gian thực Có thể hướng đến xây dựng ứng dụng, tảng cung cấp hệ thống nhận dạng tiếng nói tiếng Việt theo thời gian thực, giảm ảnh hưởng nhiễu từ môi trường TÀI LIỆU THAM KHẢO [1] Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., & Ng, A Y (2014) Deep speech: Scaling up end-to-end speech recognition arXiv preprint arXiv:1412.5567 [2] Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., & Zhu, Z (2016, June) Deep speech 2: End-to-end speech recognition in english and mandarin In International conference on machine learning (pp 173-182) PMLR [3] Hannun, A Y., Maas, A L., Jurafsky, D., & Ng, A Y (2014) First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs arXiv preprint arXiv:1408.2873 [4] Vineel Pratap, A H (2018) wav2letter++: The fastest open-source speech recognition system CoRR, vol abs/1812.07625 [5] Park, D S., Chan, W., Zhang, Y., Chiu, C C., Zoph, B., Cubuk, E D., & Le, Q V (2019) Specaugment: A simple data augmentation method for automatic speech recognition arXiv preprint arXiv:1904.08779 [6] Schneider, S., Baevski, A., Collobert, R., & Auli, M (2019) wav2vec: Unsupervised pre-training for speech recognition arXiv preprint arXiv:1904.05862 [7] Luong, H T., & Vu, H Q (2016, December) A non-expert Kaldi recipe for Vietnamese speech recognition system In Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016) (pp 51-55) [8] VinBigData (2020) The speech corpus for the automatic speech recognition task in VLSP-2020,[Online] Available https://slp.vinbigdata.org [9] Tran, Duc Chung (2020) FPT Open Speech Dataset (FOSD) – Vietnamese Mendeley Data, V4, doi: 10.17632/k9sxg2twv4.4 [10] He, K., Zhang, X., Ren, S., & Sun, J (2016) Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 770-778) [11] Smith, L N., & Topin, N (2019, May) Super-convergence: Very fast training of neural networks using large learning rates In Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications (Vol 11006, p 1100612) International Society for Optics and Photonics [12] Vietnamese NLP Research Group – (UnderTheSea) (2021) Word Tokenize Word Tokenize,[Online] Available: http://undertheseanlp.com [13] Acree, B., Hansen, E., Jansa, J., & Shoub, K (2016) Comparing and evaluating cosine similarity scores, weighted cosine similarity scores and substring matching Working Paper [14] Fayek, H (2016) Speech processing for machine learning: Filter banks, melfrequency cepstral coefficients (mfccs) and what’s in-between URL: https://haythamfayek.com/2016/04/21/speech-processingfor-machinelearning.html [15] Choné, A (2018) Computing MFCCs voice recognition features on ARM systems Computing MFCCs voice recognition features on ARM systems,[Online] Available:https://medium.com/linagoralabs/computing-mfccs-voice-recognitionfeatures-on-arm-systemsdae45f016eb6 [16] Wikipedia (2016) Probabilistic parameters of a hidden Markov model Probabilistic parameters of a hidden Markov model,[Online] Available: https://en.wikipedia.org/wiki/Hidden_Markov_model [17] Kiyoshi Kawaguchi (2000) Artificial Neural Networks Artificial Neural Networks, [Online] Available: http://osp.mans.edu.eg/rehan/ann4.htm [18] Colah (2015) Understanding LSTM Networks Understanding LSTM Networks, [Online] Available: https://colah.github.io/posts/2015-08-Understanding-LSTMs [19] Facebook Open Source (2020) Transfer Function Layers Transfer Function Layers, [Online] Available: https://nn.readthedocs.io/en/rtd/transfer [20] Nvidia Inc (2018) DeepSpeech2 DeepSpeech2 OpenSeq2Seq, [Online] Available: https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition/deepspeech2.html NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG NHẬN DẠNG TIẾNG NÓI STUDY OF SPEECH RECOGNITION USING RECURRENT NEURAL NETWORK Huỳnh Văn Tuân, Trương Ngọc Sơn Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Trong viết này, tác giả trình bày nghiên cứu ứng dụng kiến trúc mơ hình DeepSpeech áp dụng tập liệu âm tiếng Việt kết hợp xây dựng mô đun hiệu chỉnh để nhận dạng tiếng nói Tiếng Việt Kiến trúc mơ hình DeepSpeech tổ hợp lớp mạng nơ-rơn tích chập lớp mạng nơ-ron hồi quy, ngõ vào dạng phổ tín hiệu âm thanh; mô đun hiệu chỉnh sử dụng liệu gồm 20.217 bi-gram, kết hợp thuật toán so sánh khoảng cách Levenshtein tính độ tương tự Cosine Mơ hình huấn luyện dựa liệu âm VIVOS, FPT VIN DATA Mơ hình đánh giá dựa tỉ lệ lỗi từ (WER), độ xác đạt 75%, mơ hình hoạt động hiệu mơi trường nhiễu tốc độ nói khơng q nhanh Kiến trúc DeepSpeech mô đun hiệu chỉnh huấn luyện tập liệu lĩnh vực chuyên dụng hoạt động hiệu kiến trúc phần cứng thấp, không yêu cầu kết nối internet Từ khố: Nhận dạng tiếng nói; DeepSpeech 2; Mạng nơ-ron hồi quy; Mạng nơ-ron tích chập; Khoảng cách Levenshtein; Độ tương tự Cosine ABSTRACT In this paper, the author presents the study of DeepSpeech model structure applied on Vietnamese audio data set combined with building a adjusted module for Vietnamese speech recognition The DeepSpeech model architecture is a combination of convolutional neural network layers and recurrent neural network layers, the input data is the spectrogram of the audio signal; The adjusted module uses a dataset of 20.217 bi-grams, comparison base on the Levenshtein Distance and the Cosine Similarity algorithm The model is trained on the shared audio datasets from VIVOS, FPT and VIN DATA, evaluated based on the word error rate (WER), the accuracy reaches 75%, the model works effectively in low noise environment and the speaking speed is not too fast The DeepSpeech model structure and adjusted module trained on a dedicated field dataset will work well on low-architecture hardware that doesn't require an internet connection Keywords: Speech recognition; DeepSpeech 2; Recurrent Neural Networks; Convolutional Neural Networks; Levenshtein distance; Cosine similarity GIỚI THIỆU Nhận dạng tiếng nói có phạm vi ứng dụng rộng rãi, triển khai trung tâm liên lạc; cung cấp dịch vụ tự động phục vụ; trợ lý ảo hỗ trợ giao dịch, tìm kiếm, điều khiển nhà thơng minh; hay ứng dụng hỗ trợ điều hướng cho người khuyết tật; tạo cơng cụ chuyển giọng nói thành văn bản, giúp giảm thời gian, chi phí Ứng dụng mạng học sâu nói chung mạng nơ-ron hồi quy nói riêng nhận dạng tiếng nói đạt bước tiến hỗ trợ tính tốn hiệu vượt trội từ GPU Một số kiến trúc đề xuất gần như: DeepSpeech [1] – mơ hình mở rộng nhận dạng đầu cuối (End-to-End Speech Recognition), đạt tỉ lệ lỗi 16% tập liệu 2000 Hub5 DeepSpeech [2] – cải tiến từ DeepSpeech áp dụng cho nhận dạng tiếng Anh tiếng Quan Thoại, mô hình hoạt động tốt mơi trường nhiễu, sử dụng lớp mạng nơ-ron tích chập mạng nơ-ron hồi quy chiều (BiDirectional Recurrent DNNs), áp dụng hàm kích hoạt ReLu CTC để dự đoán ký tự ngõ First-Pass Large Vocubulary [3] – sử dụng mạng hồi quy lặp hướng, tỉ lệ lỗi ký tự (CER) 10% tập CSR-II Wav2Letter++ [4] – đạt tỉ lệ lỗi từ WER 4.91 % tập LibriSpeech SpecAugment [5] – phương pháp tăng cường liệu, đạt tỉ lệ lỗi WER 5,8% tập LibriSpeech có mơ hình ngơn ngữ Wav2Vec [6] – sử dụng hình thức học không giám sát, đầu vào âm thô, kết đạt tỉ lệ lỗi WER 2.43% tập liệu nov92 Mơ hình hiệu chỉnh độ xác kết nhận dạng dựa từ điển bi-gram thuật toán đánh giá mức độ giống hai chuỗi Levenshtein [5], Cosin Khoảng cách Levenshtein hai từ số lần thêm, sửa, xố, thay kí tự cần thiết để thay đổi từ thành từ lại, khoảng cách nhỏ độ giống lớn Thuật tốn tương đồng Cosine Similarity [6], đánh giá khác câu dựa vào giá trị cosine góc vec-tơ từ câu Giá trị lớn độ tương đồng lớn THIẾT KẾ MƠ HÌNH Mơ hình nhận dạng tiếng nói tiếng Việt áp dụng theo kiến trúc DeepSpeech mô tả Hình Bao gồm khối chính: khối mạng nơ-ron tích chập (CNN) khối mạng nơ-ron hồi quy (RNN) Đầu vào tín hiệu âm dạng thơ áp dụng bước xử lý giảm nhiễu, khuếch đại tín hiệu, rút trích đặc trưng MFCC chuyển sang tín hiệu dạng phổ (spectrogram) Tiếp theo lớp mạng nơ-ron CNN RNN, cuối đầu xác suất Pt(c) ký tự tương ứng theo bước thời gian từ ký tự cần nhận dạng Mơ hình huấn luyện sử dụng hàm mát phân loại theo thời gian CTC để nhận dạng ký tự, hướng nghiên cứu nhận dạng tiếng Việt nên lựa chọn phương pháp đánh giá lỗi dựa từ (WER – Word Error Rate) làm phương pháp đánh giá độ xác mơ hình Giá trị WER lớn cho biết hai câu có độ khác nhiều WER tính cơng thức: 𝑆+𝐼+𝐷 𝑁 Với S số từ bị thay thế; I số từ chèn vào; D số từ bị xoá; N số lượng từ so sánh 𝑊𝐸𝑅 = Các thông tin tính tốn tồn mạng no-rơn dạng số, cần giải mã (decoder) Beam Search để chuyển đổi xác suất ký tự dạng số sang dạng từ tương ứng - Tới lớp mạng GRU/ LSTM hai chiều, với lớp gồm: Một lớp GRU/LSTM hai chiều; Lớp Layer Norm; Dropout - Cuối lớp phân loại gồm: lớp kết nối đầy đủ; Hình Sơ đồ khối kiến trúc DeepSpeech [2] Q trình huấn luyện mơ hình có áp dụng số kỹ thuật như: Chuẩn hoá sử dụng Layer Normalization nhằm cải tiến tốc độ huấn luyện mạng, tính trực tiếp số liệu thống kê chuẩn hoá từ đầu vào tổng hợp đến nơ-ron lớp ẩn; trình tối ưu AdamW kết hợp với OneCycleLR nhằm đưa mơ hình hội tự đến điểm tốt 2.1 Mơ hình nhận mạng nơ-ron nhận dạng Tổng qt hố lớp mạng nơ-ron mơ hình nhận dạng mơ tả Hình Mơ hình kết hợp nhiều lớp CNN lớp mạng RNN, cuối lớp kết nối đầy đủ Số lượng ngõ tính (feature) ngõ vào 128; số lớp ngõ 96 (gồm 95 kí tự cần nhận dạng + ký tự rỗng NULL); hệ số tốc độ học 0.0005 Mơ hình lớp mạng nơ-ron sếp xếp theo thứ tự: - Một lớp CNN (ngõ vào: 1, ngõ ra: 32, kernel: 3x3, stride=2) - Tiếp đến lớp Residual Networks, lớp gồm: Hai lớp CNN; gắn Dropout; lớp chuẩn hoá Layer Norm - Tiếp theo lớp kết nối đầy đủ Hình Sơ đồ tổng quát lớp mạng nơ-ron mô hình nhận dạng 2.2 Mơ đun hiệu chỉnh văn đầu Sau mơ hình dự đốn chuỗi văn đầu từ tín hiệu tiếng nói, chuyển qua mô đun hiệu chỉnh để khắc phục thiếu xác mơ hình Thuật tốn Beam Search áp dụng trình huấn luyện thử nghiệm với giới hạn tìm kiếm 10 Tức là, thời điểm nhận dạng đưa tối đa 10 câu có xác suất tốt Q trình tạo bi-gram tổ hợp tất cặp từ kết hợp từ 10 câu theo cụm riêng, cụm tổ hợp bigram Với câu có độ dài L có (L-1) số cụm, tạo từ vị trí thứ n kết hợp với từ vị trí n+1; bên cụm bi-gram riêng biệt Gọi X số câu, Y số từ câu, số cụm (Y-1) Mỗi cụm có tổ hợp bi-gram (X^2), tổng số bi-gram (Y-1)*(X^2) Ví dụ: Có câu: Câu 1: “húng ta làm việc hăm chỉ” Câu 2: “chúng ca làm diệc chăm chi” Câu 3: “chúng ta lam viêc hăm hỉ” Khi đó, có tổ hợp bi-gram sau: “húng ta”, “húng ca”, “chúng ta”, “chúng ca”, “ta làm”, “ta lam”, “làm việc”, “làm diệc”, “làm viêc”, “lam viêc” , Bộ liệu âm sử dụng từ nguồn liệu chia sẻ VIVOS, FTP, VINDATA, số lượng mô tả Bảng Bộ từ điển bigram sưu tập từ trang báo mạng, trang wiki tiếng Việt, lĩnh vực văn hoá, đời sống, giáo dục, giải trí, kinh tế, xã hội; phân rã (tokenize) thành bi-gram, có kèm với xác suất xuất hiện, ví dụ: “đồn thể,0.0001000418” => xác suất xuất hiện, phổ biến là: “0.0001000418”; “nguyên tắc,0.00010016” => xác suất xuất hiện, phổ biến là: “0.00010016”; Các công đoạn mô đun hiệu chỉnh mô tả Hình 3; gồm: Cơng đoạn 1: Lấy bi-gram cụm so sánh với từ điển; tính khoảng cách Levenshtein chúng, chọn tối đa 10 bigram tương đồng cao; công đoạn 2: Lấy bi-gram từ công đoạn so sánh với bigram cần hiệu chỉnh theo thuật toán Consine để chọn bi-gram tương đồng cao ngưỡng > 0.45; công đoạn 3: Sẽ lọc lần bi-gram có xác suất xuất hiện, hay tính phổ biến cao để chọn bi-gram hiệu chỉnh DỮ LIỆU HUẤN LUYỆN Bảng 1: Bộ liệu huấn luyện kiểm thử mơ hình Bộ liệu Số mẫu Train Số mẫu Test VIVOS 9.263 726 FPT 15.700 7.213 VIN DATA 20.000 6.426 Các liệu âm chuẩn hoá định dạng WAV với tần số lấy mẫu 16Khz; độ dài audio từ 1.3 đến 15 giây; độ dài nhãn văn tương ứng đến 20 từ Bộ liệu VIVOS [7] tập Train có 24 giọng nữ 22 giọng nam; tập Test có giọng nữ 12 giọng nam thu âm môi trường yên tĩnh Bộ liệu FPT [8] VINDATA [9] đa dạng, môi trường tự nhiên, gồm tiếng radio, tiếng điện thoại, nhạc, … KẾT QUẢ 4.1 Kết huấn luyện thử nghiệm Kết huấn luyện độ xác qua lần huấn luyện mơ hình tập liệu khác nhau, với Epoch = 50, batch-size 3, 5, 10, 32, linh hoạt theo tập liệu trình bày Bảng Thời gian huấn luyện từ 8h đến 20 Thời gian thử nghiệm từ 16 phút đến 1,4 theo độ lớn tập liệu Bảng Thông tin kết huấn luyện thử nghiệm mơ hình nhận dạng Tên model Hình Mô tả mô đun hiệu chỉnh văn Tập liệu Cấu trúc Hệ số Hệ số mạng WER WER (có RNN mơđun hiệu chỉnh) M1.1_ vivos vivos_ gru_ RNN_ 512 M1.1_ vivos vivos_ LSTM _512 M1.3_ vivos vivos_ LSTM _ RNN_ 1024 M2.1_ VIN vin_G RU _RNN _ 512 M2.2_ VIN vin_ LSTM _RNN _512 M3_f FPT pt_GR U_ RNN_ 512 RNNdim 512 0.5476 0.3475 thiện độ xác so với ngõ dự đốn từ mơ hình 4.2 Kiểm thử so sánh với dịch vụ fpt LSTM/ RNNdim: 512 0.5333 0.402 LSTM/ RNNdim: 1024 0.4131 0.2596 GRU/ RNNdim: 512 0.5315 LSTM/ RNNdim: 512 0.5654 0.4911 GRU/ RNNdim: 512 0.4403 0.3201 Thực kiểm thử mơ hình huấn luyện gọi TModel, mơ hình có tích hợp mơ-đun hiệu chỉnh so sánh với chương trình nhận dạng thương mại hoá FPT tại: https://fpt.ai/stt, số audio với text có sẵn minh hoạ Bảng Bảng 3: So sánh kết nhận dạng số audio thử nghiệm Audio/Text FPT Service TModel TModel có mơđun hiệu chỉnh [VIVOS DEV 05_170] Chậm , Bắc xu hướng phát triển công nghệ chậm nắm bắt xu hướng bác tiển công nghệ chậm nắm bắt xu hướng phát triển công nghệ [VIVOS DEV 01_R003] Cũng lên tiếng ủng hộ lên tiếng ủng kiến hộ kiến nghị nghị này lên tiến ủng họ kiến nghĩ lên tiếng ủng hộ kiến nghị [VIVOS DEV 01_R012] gió mạnh mưa đóng gây gió mạnh mưa đóng băng gây 0.4703 Kết thơng kê cho thấy mơ hình huấn luyện cho kết xác dao động 50-60%, tích hợp mơ đun hiệu chỉnh độ xác tăng lên 75% Khi cấu trúc mạng nơ-ron hồi quy thay đổi từ GRU (Gated Recurrent Units) sang LSTM (Long ShortTerm Memory) thời gian huấn luyện lâu hơn, cho kết tốt tập liệu tốt VIVOS thể qua hệ số WER, với tập liệu lớn, nhiễu nhiều FPT VIN số WER khơng thay đổi nhiều Chỉ số WER giảm từ 13-20% có mơ đun hiệu chỉnh, điều đánh giá khả điều chỉnh tốt từ, cụm từ giúp cải chậm nắm bắt xu hướng phát triển cơng nghệ Những gió lạnh mưa đóng gió mạnh băng mưa đóng băng gây chơn ghi trơn chơn trượt chiến [VIVOS DEV 01_R058] giám đốc sở giáo dục đào tạo ninh thuận cho biết giám đốc sở giáo dục đào tạo ninh thuận cho biết Giám đốc Sở giáo dục đào tạo ninh thuận cho biết giảm đốc sở giá dục đào tạo ninh huậng cho biết Mơ hình nhận dạng huấn luyện chưa tốt so với dịch vụ FPT, nhiên thêm mơ-đun hiệu chỉnh tăng độ xác giảm chênh lệch đáng kể KẾT LUẬN Đã xây dựng thành cơng mơ hình nhận dạng tiếng nói tiếng Việt theo kiến trúc DeepSpeech 2, tích hợp mơ-đun hiệu chỉnh văn đầu ra, giúp mơ hình nhận dạng đạt tỉ lệ xác 75% Hướng phát triển tăng độ xác tăng độ lớn liệu, chất lượng liệu, xây dựng mơ-đun tiền xử lý nhiễu, kết hợp mơ hình ngơn ngữ để điều chỉnh lỗi ngữ pháp, tả; bên cạnh hướng đến huấn luyện tập liệu chuyên dụng, triển khai phần cứng hạn chế, không phụ thuộc vào kết nối internet LỜI CẢM ƠN Kết nghiên cứu thuộc đề tài thạc sĩ 2021 tác giả TÀI LIỆU THAM KHẢO [1] Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., & Ng, A Y (2014) Deep speech: Scaling up end-to-end speech recognition arXiv preprint arXiv:1412.5567 [2] Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., & Zhu, Z (2016, June) Deep speech 2: End-to-end speech recognition in english and mandarin In International conference on machine learning (pp 173-182) PMLR [3] Hannun, A Y., Maas, A L., Jurafsky, D., & Ng, A Y (2014) First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs arXiv preprint arXiv:1408.2873 [4] Vineel Pratap, A H (2018) wav2letter++: The fastest open-source speech recognition system CoRR, vol abs/1812.07625 [5] A Ene and A Ene, “An application of Levenshtein algorithm in vocabulary learning,” in 2017 9th International Conference on Electronics, Computers and Artificial Intelligence (ECAI), 2017, pp 1–4 [6] Acree, B., Hansen, E., Jansa, J., & Shoub, K (2016) Comparing and evaluating cosine similarity scores, weighted cosine similarity scores and substring matching Working Paper [7] Luong, H T., & Vu, H Q (2016, December) A non-expert Kaldi recipe for Vietnamese speech recognition system In Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016) (pp 51-55) [8] VinBigData (2020) The speech corpus for the automatic speech recognition task in VLSP-2020,[Online] Available https://slp.vinbigdata.org [9] Tran, Duc Chung (2020) FPT Open Speech Dataset (FOSD) – Vietnamese Mendeley Data, V4, doi: 10.17632/k9sxg2twv4.4 Tác giả chịu trách nhiệm viết: Họ tên: PGS.TS Trương Ngọc Sơn Đơn vị: Đại học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh Email: sontn@hcmute.edu.vn ... nơ- ron hồi quy nhận dạng tiếng nói? ??, mục đích nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói ứng dụng mạng nơ- ron hồi quy, đề xuất giới đạt kết xác định vào tốn nhận dạng tiếng nói tiếng. .. phạm vi nghiên cứu v Mục tiêu nghiên cứu: Ø Nghiên cứu kiến trúc hoạt động mạng nơ- ron hồi quy Ø Nghiên cứu áp dụng kiến trúc mơ hình nhận dạng tiếng nói DeepSpeech vào nhận dạng tiếng nói tiếng. .. nghệ nhận dạng tiếng nói, tình hình nghiên cứu giới nước Chương 2: Cơ sở lý thuyết – giới thiệu nhận dạng tiếng nói, mạng nơ- ron tích chập, mạng nơ- ron hồi quy Chương 3: Thiết kế mơ hình nhận dạng

Ngày đăng: 15/03/2022, 21:55

Tài liệu cùng người dùng

Tài liệu liên quan