1. Trang chủ
  2. » Công Nghệ Thông Tin

Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring

3 10 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 3
Dung lượng 273,45 KB

Nội dung

Bài viết Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring trình bày các nội dung chính sau: Hệ thống nhận dạng tiếng nói sử dụng kỹ thuật RNN-LM Rescoring; Ảnh hưởng của rescoring weight đến chất lượng nhận dạng.

Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI SỬ DỤNG KỸ THUẬT RNN LANGUAGE MODEL RESCORING Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn GIỚI THIỆU CHUNG Hiện sử dụng mơ hình ngơn ngữ n-gram để phục vụ cho tốn nhận dạng tiếng nói Mơ hình n-gram xây dựng việc dự đốn xác suất từ dựa (n-1) từ phía trước Điều thực việc thống kê mẫu từ liền tập văn huấn luyện Mơ hình n-gram có kiến trúc đơn giản, dễ dàng tích hợp vào hệ thống nhận dạng dựa framework FST Kaldi [1] Tuy nhiên n-gram có nhược điểm mơ hình hóa ngơn ngữ khơng mạnh, ví dụ:  Do n nhỏ thường 3, 4, ta khơng thể lưu trữ long history từ, mà thực tế, từ phụ thuộc vào từ trước xa  N-gram ước lượng túy dựa vào việc đếm tần suất cặp từ tập văn huấn luyện Trong đó, từ thực thể độc lập khơng có mối liên hệ ngữ nghĩa Để khắc phục nhược điểm đó, có nhiều nghiên cứu khác nhằm xây dựng mơ hình ngơn ngữ tốt hơn, phổ biến RNN-LM (Recurrent Neural Network Language Model) [2] Mơ hình dựa mạng học sâu nhằm giải nhược điểm mơ hình n-gram Tuy nhiên RNNLM lưu trữ lịch sử vơ hạn từ phía trước nên khơng thể trực tiếp kết hợp với mơ hình âm học từ điển phát âm thành static decoding graph Do để tận dụng ưu điểm RNNLM ta thực theo cách sau:  Bước 1: Dùng n-gram LM để nhận dạng Tuy nhiên trường hợp ta không đưa kết nhận dạng tốt (1-best) mà ta đưa không gian kết có (decoding lattice)  Bước 2: Sử dụng mơ hình RNN-LM để thay đổi trọng số (rescore) decoding lattice từ tìm kết tốt đưa cho người dùng HỆ THỐNG NHẬN DẠNG TIẾNG NÓI SỬ DỤNG KỸ THUẬT RNN-LM RESCORING Hình mơ tả sơ đồ hệ thống nhận dạng sử dụng kỹ thuật RNN-LM rescoring Quá trình huấn luyện: n-gram LM RNN-LM huấn luyện sử dụng tập text từ nguồn web sfive kết hợp với transcript từ Youtube Về nguyên tắc ta sử dụng nguồn text khác để huấn luyện LM Cũng lưu ý thời gian huấn luyện RNN-LM lâu nhiều lần mơ hình n-gram (lên đến khoảng tuần với 3GB liệu text) Quá trình triển khai (decode): Ta sử dụng mơ hình nhận dạng thơng thường với mơ hình ngơn ngữ n-gram để sinh lattices Sau ta sử dụng RNN-LM để rescore lattice để tạo lattice Cuối ta tìm kết nhận dạng cách tìm đường tốt lattice 96 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 Hình Sơ đồ hệ thống nhận dạng sử dụng kỹ thuật RNN-LM rescoring Bộ test Hệ thống 1hkehet bmhh fpt vcson vivos vlsp2019 vlsp2018 voicenote Mơ hình gốc 8.62 14.58 17.08 13.21 6.16 21.23 4.24 21.39 +RNNLM rescoring 7.11 12.25 16.38 11.72 6.01 19.79 3.80 19.29 Relative Improvement 17.5% 16.0% 4.1% 11.3% 2.4% 6.8% 10.4% 9.8% Bảng Word Error Rate (%) cho hệ thống nhận dạng gốc sau sử dụng RNNLM rescoring với tập test khác Về nguyên tắc giải pháp sử dụng cho nhận dạng offline Có nghĩa bước ta nhận dạng hết câu để sinh lattice sau ta áp dụng lattice rescoring lattice Tuy nhiên, ta tăng tốc q trình cách kết hợp code nhận dạng code rescoring code để ta ghi lattice xuống ổ cứng THÍ NGHIỆM 3.1 Thiết lập thí nghiệm Ta sử dụng 3000 liệu Youtube kết hợp với kỹ thuật data augmentation để huấn luyện mơ hình âm học (acoustic model) Mơ hình n-gram huấn luyện từ webtext (2.3GB) lấy từ sfive kết hợp với 210 MB text từ transcript Youtube Trong RNN-LM huấn luyện với 210MB từ liệu Youtube (do thời gian hạn chế) Mơ hình RNN-LM train với toàn liệu thực hi vọng cho kết tốt Test set Rescoring weight 1hkehet bmhh FPT vcson vivos vlsp2019 vlsp2018 voicenote (no-rescoring) baseline 8.62 14.58 17.08 13.21 6.16 21.23 4.24 21.39 0.30 7.65 13.10 15.77 12.15 5.63 19.89 3.81 20.03 0.40 7.48 12.78 15.62 11.94 5.63 19.76 3.78 19.77 0.50 7.29 12.59 15.70 11.86 5.74 19.60 3.75 19.7 0.60 7.21 12.42 15.83 11.78 5.79 19.60 3.77 19.55 97 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 0.70 7.12 12.26 16.01 11.78 5.94 19.66 3.79 19.34 0.80 7.11 12.25 16.38 11.72 6.01 19.79 3.80 19.29 0.90 7.14 12.28 16.67 11.76 6.24 19.93 3.79 19.33 0.99 7.14 12.36 16.86 11.88 6.50 20.14 3.86 19.33 1.00 7.14 12.38 16.83 11.87 6.49 20.15 3.86 19.33 Bảng Ảnh hưởng rescoring weight đến sai số nhận dạng (WER) test khác (các giá trị gạchchân điểm mơ hình đạt kết tốt nhất) gần với liệu huấn luyện RNNLM (Youtube transcript) 1hkehet, bmhh, vcson rescoring weight tối ưu thường cao ~ 0.8 tức với tập test ảnh hưởng mơ hình 3.2 Kết thí nghiệm với tập test khác Kết thử nghiệm kỹ thuật RNNLM rescoring tập test khác khả quan Sai số giảm đáng kể đa số tập, đặc biệt tập test có phong cách nói chuyện đối thoại Youtube 1hkehet (1 kể hết), bmhh (bạn muốn hẹn hò), vcson (vợ chồng son), tập thời VLSP 2018, chí tập liệu thực tế voicenote Sau ta xem xét ảnh hưởng tham số đến trình rescoring KẾT LUẬN Trong nghiên cứu ta thành công việc sử dụng kỹ thuật sử dụng mơ hình ngơn ngữ mạng nơ ron hồi quy (RNNLM) để nâng cao chất lượng nhận dạng Thử nghiệm tập test khác cho kết khả quan, sai số giảm rõ rệt Trong thời gian tới ta nghiên cứu cách thức để tối ưu thời gian xử lý giữ chất lượng kỹ thuật LMRNN rescoring 3.3 Ảnh hưởng rescoring weight đến chất lượng nhận dạng Cách thức hoạt động RNNLM rescoring thay phần hoàn toàn điểm số cho n-gram LM lattice thông qua tham số rescoring weight Khi tham số có nghĩa không sử dụng rescoring tức thay hoàn toàn ngram RNNLM Bảng mô tả chi tiết ảnh hưởng rescoring weight đến test khác nhau, ta thấy với test khác giá trị tối ưu rescoring weight khác Đó đặc tính ngơn ngữ test khác Ta thấy với tập test TÀI LIỆU THAM KHẢO [1] Povey, Daniel, et al "The Kaldi speech recognition toolkit." IEEE 2011 workshop on automatic speech recognition and understanding No CONF IEEE Signal Processing Society, 2011 [2] Tomas Mikolov, Stefan Kombrink, Anoop Deoras, Lukar Burget, and Jan Cernocky, “Rnnlm-recurrent neural network language modeling toolkit,” in Proc of the 2011 ASRU Workshop, 2011, pp 196-201 98 ... thống nhận dạng gốc sau sử dụng RNNLM rescoring với tập test khác Về nguyên tắc giải pháp sử dụng cho nhận dạng offline Có nghĩa bước ta nhận dạng hết câu để sinh lattice sau ta áp dụng lattice rescoring. .. rescoring KẾT LUẬN Trong nghiên cứu ta thành công việc sử dụng kỹ thuật sử dụng mơ hình ngơn ngữ mạng nơ ron hồi quy (RNNLM) để nâng cao chất lượng nhận dạng Thử nghiệm tập test khác cho kết khả quan,... cách thức để tối ưu thời gian xử lý giữ chất lượng kỹ thuật LMRNN rescoring 3.3 Ảnh hưởng rescoring weight đến chất lượng nhận dạng Cách thức hoạt động RNNLM rescoring thay phần hồn tồn điểm số cho

Ngày đăng: 10/07/2022, 13:27

HÌNH ẢNH LIÊN QUAN

Bảng 1. Word Error Rate (%) cho bởi hệ thống nhận dạng gốc và sau khi sử dụng RNNLM rescoring với các tập test khác nhau - Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring
Bảng 1. Word Error Rate (%) cho bởi hệ thống nhận dạng gốc và sau khi sử dụng RNNLM rescoring với các tập test khác nhau (Trang 2)
Hình 1. Sơ đồ hệ thống nhận dạng sử dụng kỹ thuật RNN-LM rescoring - Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring
Hình 1. Sơ đồ hệ thống nhận dạng sử dụng kỹ thuật RNN-LM rescoring (Trang 2)
Bảng 2. Ảnh hưởng của rescoring weight đến sai số nhận dạng (WER) trên bộ test khác nhau (các giá trị được gạchchân là điểm mơ hình đạt kết quả tốt nhất)  3.2 - Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring
Bảng 2. Ảnh hưởng của rescoring weight đến sai số nhận dạng (WER) trên bộ test khác nhau (các giá trị được gạchchân là điểm mơ hình đạt kết quả tốt nhất) 3.2 (Trang 3)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN