Bài viết Phương pháp sử dụng dữ liệu băng hẹp để cải thiện mô hình nhận dạng tiếng nói băng rộng trình bày việc xây dựng dữ liệu băng hẹp để nâng cao chất lượng của mô hình nhận dạng tiếng nói băng rộng. Các thử nghiệm khác nhau đã chỉ ra rằng, sử dụng thêm dữ liệu băng hẹp luôn mang lại sự cải thiện cho mô hình băng rộng.
Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 PHƯƠNG PHÁP SỬ DỤNG DỮ LIỆU BĂNG HẸP ĐỂ CẢI THIỆN MƠ HÌNH NHẬN DẠNG TIẾNG NĨI BĂNG RỘNG Đỗ Văn Hải, Phạm Thanh Bình, Nguyễn Thị Phương Thảo Trường Đại học Thủy lợi MỞ ĐẦU Trong hệ thống nhận dạng tiếng nói tín hiệu ghi âm thường lấy mẫu tần số 16kHz (tín hiệu băng rộng) dùng ứng dụng ghi âm thông thường Tuy nhiên hệ thống điện thoại, tần số lấy mẫu 8kHz (tín hiệu băng hẹp) Thông thường hai loại liệu sử dụng độc lập để huấn luyện hai loại mô hình nhận dạng tiếng nói riêng biệt Hình miêu tả tín hiệu file tiếng nói băng rộng có tần số lấy mẫu 16kHz (fmax = 8kHz dưới) nguồn âm lấy mẫu 8kHz (hình trên) Ta thấy với tín hiệu có tần số lấy mẫu 8kHz tồn phổ (spectrum) tín hiệu từ 4kHz đến 8kHz bị Hình Spectrogram tín hiệu tiếng nói băng hẹp (tần số lấy mẫu 8kHz) băng rộng Trong nghiên cứu này, đề xuất phương pháp tận dụng liệu băng hẹp để nâng cao chất lượng nhận dạng cho mơ hình băng rộng Có thể chất lượng tín hiệu băng hẹp không liệu liệu băng rộng nhiên với số lượng lớn loại liệu khác biệt, ta hi vọng liệu băng hẹp bổ sung thêm thông tin để vào để tăng cường chất lượng mơ hình băng rộng PHƯƠNG PHÁP TIẾP CẬN Một vấn đề đặt sử dụng liệu băng rộng với liệu băng hẹp mà tồn phổ thơng tin tiếng nói từ 4-8kHz tín hiệu băng hẹp bị hết Hình Xuất phát từ ý tưởng khử nhiễu (denoiser) phát triển gần ta đưa đầu vào tín hiệu tiếng nói có nhiễu đầu tín hiệu tiếng nói [1], xây dựng tái tạo (reconstructor) từ tín hiệu băng hẹp lên tín hiệu băng rộng sử dụng chế tương tự với denoiser Trong nghiên cứu này, sử dụng đầu vào tái tạo tín hiệu băng hẹp đầu tín hiệu băng rộng tái tạo lại từ tín hiệu băng hẹp Để huấn luyện “việc tái tạo” ta thực quy trình huấn luyện sử dụng mơ hình mạng nơ ron nhân tạo Hình Bộ liệu sử dụng liệu băng rộng (16kHz) mà khơng cần có nhãn (label) Dữ liệu chuyển thành liệu băng hẹp cách giảm tần số lấy mẫu từ 16kHz xuống 8kHz (down sample) để làm đầu vào huấn luyện cho tái tạo Đầu tái tạo tín hiệu băng rộng ban đầu Với cách huấn luyện này, 80 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 tái tạo học bổ sung phổ tín hiệu bị cắt tín hiệu băng hẹp Mơ hình 3: mơ hình huấn luyện dùng 20.000 câu huấn luyện băng rộng Bảng Sai số từ mô hình khác Mơ hình Hình Q trình huấn luyện cho tái tạo Tuy nhiên áp dụng mơ hình để tái tạo tín hiệu băng rộng áp dụng vào nhận dạng tiếng nói kết khơng tốt Một ngun nhân việc tái tạo tín hiệu băng rộng gây méo (distortion) so với tín hiệu băng rộng gốc Do để giảm méo ta thay tái tạo tồn phổ tín hiệu băng rộng Hình 2, ta đề xuất phương pháp thực miền tần số thay miền thời gian sau: Bóc tách tín hiệu băng rộng thành hai thành phần riêng biệt 0-4kHz 4-8kHz Đầu mạng nơ ron Hình phổ tín hiệu 4-8kHz thay 0-8kHz cách tiếp cận trước Tái tạo phần phổ từ 4-8k từ tín hiệu băng hẹp dùng mạng nơ ron Sau kết hợp phần phổ tín hiệu lại tức là: từ 0-4kHz lấy từ tín hiệu băng hẹp gốc (by pass) phần phổ 4-8kHz tái tạo nhờ mạng nơ ron Hình Do với cách tiếp cận ta làm giảm méo tín hiệu tái tạo, ta tái tạo phần phổ bị thay tái tạo tồn phổ tín hiệu THỬ NGHIỆM 3.1 Thử nghiệm với tập liệu huấn luyện nhỏ Trước hết ta thử nghiệm mơ hình nhận dạng với liệu nhỏ Mơ hình 1: mơ hình huấn luyện dùng 10.000 câu huấn luyện băng rộng Mơ hình 2: dùng 10.000 câu huấn luyện băng rộng kết hợp với 10.000 câu huấn luyện băng hẹp tái tạo phần Dữ liệu WER (%) Băng rộng 10.000 câu 36,23 Băng rộng 10.000 câu + băng hẹp 10.000 câu 32,08 Băng rộng 20.000 câu 31,84 Tất mơ hình huấn luyện sử dụng kiến trúc TDNN-LSTM kết hợp với mô hình ngơn ngữ 4-gram [2] với cơng cụ sử dụng Kaldi [3] Kết thử nghiệm với thử nghiệm băng rộng độc lập trình bày Bảng Chúng sử dụng số sai số từ (WER - Word Error Rate1) để đánh giá chất lượng hệ thống nhận dạng Kết so sánh mô hình 2, ta thấy việc sử dụng thêm liệu băng hẹp phương pháp đề xuất làm giảm sai số từ 36,23% xuống 32,08% Chú ý mơ hình cho kết tiệm cận với mơ hình tức mơ hình sử dụng toàn 20.000 câu liệu băng rộng để huấn luyện 3.2 Thử nghiệm với tập liệu lớn lượng liệu tái tạo khác Như phần 3.1 phương pháp đề xuất cho hiệu cao với tập liệu huấn luyện nhỏ (10.000 đến 20.000 câu) Tuy nhiên hệ thống nhận dạng tiếng nói thực tế, người ta sử dụng hàng trăm nghìn đến hàng triệu câu liệu huấn luyện Trong phần nghiên cứu thử nghiệm với tập liệu lớn nhiều lần để đánh giá độ hiệu phương pháp đề xuất thực tế Ngoài ta xem xét ảnh hưởng mơ hình sử dụng liệu băng hẹp tái tạo khác 81 https://en.wikipedia.org/wiki/Word_error_rate Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 Mơ hình yt310k: sử dụng 310.000 câu băng rộng để huấn luyện Dữ liệu lấy từ Youtube Mơ hình yt310k+ipcc150k: sử dụng 310.000 câu băng rộng để huấn luyện kết hợp với 150.000 câu huấn luyện băng hẹp tái tạo phần Dữ liệu băng hẹp lấy từ tổng đài thoại (ipcc) Tương tự mơ hình yt310k+ipcc310k, yt310k+ipcc460k mơ hình kết hợp với 310.000 460.000 câu băng hẹp vào tập huấn luyện Kết thử nghiệm với bốn mô hình sáu tập kiểm thử khác trình bày Hình Trục tung sai số từ WER(%) mục đích bổ sung thơng tin cịn thiếu hụt liệu băng rộng thay liệu băng rộng Tỷ lệ trộn liệu băng rộng băng hẹp hợp lý 1:1 đảm bảo chất lượng nhận dạng thời gian huấn luyện mơ hình KẾT LUẬN Trong nghiên cứu này, xây dựng phương pháp nhằm tận dụng liệu băng hẹp để nâng cao chất lượng mơ hình nhận dạng tiếng nói băng rộng Các thử nghiệm khác rằng, sử dụng thêm liệu băng hẹp mang lại cải thiện cho mơ hình băng rộng Qua nghiên cứu này, ta thấy rằng, liệu băng hẹp mặt băng thơng so với liệu băng rộng, nhiên mặt đặc thù liệu liệu băng hẹp thu thập từ trò chuyện qua điện thoại, loại liệu chưa xuất tập liệu băng rộng từ Youtube, ghi âm,… Do đó, việc bổ sung liệu băng hẹp vào liệu băng rộng giúp tăng độ đa dạng liệu huấn luyện lên nhiều TÀI LIỆU THAM KHẢO Hình Sai số từ (%) của mơ hình với thử nghiệm khác Ta thấy việc bổ sung liệu băng hẹp (ipcc) làm giảm sai số đáng kể (3 cột sau so với cột đầu tiên) Trong việc bổ sung 310.000 câu băng hẹp làm giảm sai số tương đối so với bổ sung 150.000 câu Tuy nhiên ta tiếp tục bổ sung liệu băng hẹp lên thành 460.000 câu sai số có giảm nhiên mức độ nhỏ Điều hợp lý mơ hình băng rộng tập thử nghiệm băng rộng băng hẹp nên liệu băng hẹp thêm vào liệu huấn luyện mang [1] Yu, Cheng, et al "Speech enhancement based on denoising autoencoder with multibranched encoders." IEEE/ACM Transactions on Audio, Speech, and Language Processing 28 (2020): 2756-2769 [2] Povey, D., Hadian, H., Ghahremani, P., Li, K., & Khudanpur, S (2018, April) A timerestricted self-attention layer for ASR In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp 5874-5878) IEEE [3] Povey, Daniel, et al "The Kaldi speech recognition toolkit." IEEE 2011 workshop on automatic speech recognition and understanding No CONF IEEE Signal Processing Society, 2011 82 ... pháp nhằm tận dụng liệu băng hẹp để nâng cao chất lượng mơ hình nhận dạng tiếng nói băng rộng Các thử nghiệm khác rằng, sử dụng thêm liệu băng hẹp mang lại cải thiện cho mô hình băng rộng Qua nghiên... câu băng rộng để huấn luyện Dữ liệu lấy từ Youtube Mơ hình yt310k+ipcc150k: sử dụng 310.000 câu băng rộng để huấn luyện kết hợp với 150.000 câu huấn luyện băng hẹp tái tạo phần Dữ liệu băng hẹp. .. hụt liệu băng rộng thay liệu băng rộng Tỷ lệ trộn liệu băng rộng băng hẹp hợp lý 1:1 đảm bảo chất lượng nhận dạng thời gian huấn luyện mơ hình KẾT LUẬN Trong nghiên cứu này, xây dựng phương pháp