Bài viết Một phương pháp mô hình hóa nhiễu để tăng cường chất lượng nhận dạng tiếng nói tập trung vào tìm hiểu cách tiếp cận thứ 3 (data augmentation) và tìm cách nâng cao chất lượng của mô hình. Hiện tại ta bổ sung rất nhiều loại noise khác nhau với cường độ alpha khác nhau vào dữ liệu để tăng độ tổng quát.
Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 MỘT PHƯƠNG PHÁP MƠ HÌNH HĨA NHIỄU ĐỂ TĂNG CƯỜNG CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy Lợi, email: haidv@tlu.edu.vn GIỚI THIỆU CHUNG Đối với nhận dạng tiếng nói nói riêng lĩnh vực nhận dạng mẫu nói chung liệu thực tế thử nghiệm (test) giống với liệu huấn luyện (train) tốt Tuy nhiên, điều xảy thực tế Do ln có sai khác (mismatch) liệu huấn luyện (dẫn xuất mơ hình) liệu test Để tăng chất lượng nhận dạng, ta cần thu hẹp sai khác Cơ có cách tiếp cận sau: Feature adaptation: tức thay đổi liệu test gần với mơ hình Ta xây dựng biến đổi (transform) liệu khác sau qua biến đổi sang không gian chung (kể tập train test) Các liệu khác có biến đổi khác Một ví dụ điển hình trường hợp kỹ thuật fMLLR [1] dùng phổ biến DNN training Model adaptation: tức thay đổi model huấn luyện gần với tập test Tức với liệu khác nhau, số tham số mơ hình thay đổi theo số tiêu chí ví dụ maximum likelihood, maximum a posterior, Với mơ hình GMM (Gaussian Mixture Model), kỹ thuật phổ biến MAP (Maximum a posterior) [2], với mơ hình DNN (Deep Neural Network) có nhiều biến thực cách xây dựng kiến trúc mạng nơ ron đặc biệt để thích nghi (adapt) nhanh với liệu test khác [3] Training data augmentation: cách thực làm tăng độ tổng quát liệu huấn luyện với hi vọng bao phủ hầu hết cases liệu test Ví dụ ta thay đổi tốc độ nhanh chậm liệu huấn luyện [4] ví dụ từ tín hiệu x(t) ta sinh thành version x(0.9t), x(t), x(1.1t) bổ sung vào tập train Hoặc để mô môi trường vang, nhiễu ta thêm vang cách mơ đáp ứng xung (RIR) phòng phổ biến, bổ sung loại noise thông dụng [5] Cách tiếp cận phù hợp với triển khai thực tế ta cần huấn luyện lần triển khai khơng cần train hay adapt lại Do đáp ứng yêu cầu thời gian thực Tuy nhiên có nhược điểm thời gian huấn luyện tăng lên nhiều lần Trong nghiên cứu này, tập trung vào tìm hiểu cách tiếp cận thứ (data augmentation) tìm cách nâng cao chất lượng mơ hình Hiện ta bổ sung nhiều loại noise khác với cường độ alpha khác vào liệu để tăng độ tổng quát x'(t) = x(t) + alpha*n(t) Trong x(t) tín hiệu tiếng nói gốc, n(t) tín hiệu noise, x’(t) tín hiệu tiếng nói tạo ra, alpha hệ số thêm nhiễu Để nâng cao chất lượng kỹ thuật data augmentation ta cần áp dụng cách thức sau: Chọn loại noise phù hợp Xây dựng thuật tốn cho data augmentation để mơ hình hóa noise tốt Tại Trung tâm Không gian Mạng Viettel (VTCC), chọn lọc nhiều loại noise khác thu thập từ nguồn từ Internet thu âm trực tiếp môi trường phổ biến phòng họp, sảnh văn phòng, đường phố, bến tàu xe,… Khi bổ 108 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 sung loại noise vào sở liệu tiếng nói để huấn luyện mơ hình giúp tăng đáng kể sự ổn định mơ hình nhận dạng điều kiện khác Hình Cách thức gán nhãn noise cho transcript Ở nghiên cứu ta đơn bổ sung nhiễu vào tín hiệu audio transcript (văn tương ứng đoạn audio) ta giữ nguyên Trong nghiên cứu này, đề xuất phương án tăng cường chất lượng nhận dạng cách mơ hình hóa loại noise khác cách bổ sung vào transcript liệu tương ứng noise tag XÂY DỰNG PHƯƠNG PHÁP MÔ HÌNH HĨA NHIỄU Như nói, phương pháp data augmentation truyền thống audio bổ sung noise với loại, cường độ khác phần transcript khơng đổi Điều xảy hệ thống làm vậy? Mơ hình học tất tín hiệu noise khác lớp SIL (silence) Do số lượng noise tăng lên, đa dạng hơn, cường độ lớn lên model cho class SIL trở nên đơn giản so với đa dạng liệu đầu vào mà cần mơ hình hóa Vả lại thân HMM topology SIL sinh cho SIL nhiễu nhỏ chưa phù hợp với tất tín hiệu noise khác Giải pháp đề xuất là, ta phải tìm cách mơ hình hóa loại noise khác không để chung vào model SIL trước Cách tiếp cận phù hợp phương pháp "chia để trị" sử dụng thành công nhận dạng speech attribute [6] nhận dạng đối tượng rộng, đa dạng, ta chia đối tượng thành subobjects xây dựng mơ hình riêng, nhận dạng xong, tập hợp kết lại Với phương pháp ta cần biết loại noise ta bổ sung vào audio Tuy nhiên ta gán nhãn noise tag vào transcript Do noise bổ sung tồn audio file nên ta khơng thể bổ sung noise tag vào tất transcript Với giả thiết đầu cuối câu silence (điều ta hồn tồn điều khiển được cách trèn thêm (padding) đoạn nhỏ silence vào đầu vào cuối câu) Do vậy, ta gán noise tag vào đầu cuối câu Hình mơ tả ví dụ việc gán noise vào audio transcript liệu huấn luyện Sau thực gán noise audio transcript theo cách đề xuất trên, ta cần đặc tả loại noise mơ hình hóa Trong báo cáo để đơn giản, ta biểu diễn loại noise phoneme có topology giống nonsilence phoneme khác Để tránh việc lúc nhận dạng cho noise tag, lúc tạo mơ hình ngơn ngữ ta khơng cho văn có noise tag vào khơng sử dụng word-list có chứa noise tag Điều giúp ta mơ hình hóa mặt âm học (acoustic) noise khơng mơ hình hóa chúng mơ hình ngơn ngữ THỬ NGHIỆM Việc thử nghiệm thực cách sử dụng 200 liệu huấn luyện Có mơ hình huấn luyện từ tập liệu này: S1: mơ hình không áp dụng kỹ thuật data augmentation 109 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 S2: mơ hình áp dụng kỹ thuật data augmentation cách bổ sung noise vào audio data liệu huấn luyện S3: mơ hình đề xuất sử dụng kỹ thuật data augmentation cách bổ sung noise vào audio data noise tag vào transcript (noise modelling) Test set Model vlsp2019 Vivos SNR=0 dB Vivos SNR=3 dB Vivos SNR=5dB s1 clean 35.29 57.93 38.02 28.21 s2 addnoise 30.86 40.42 25.03 18.83 s3 addnoise + noise modelling 30.66 35.51 23.10 18.65 Bảng 2- Sai số từ - WER (%) phương pháp sử dụng không sử dụng noise modelling với tập test khác Ta sử dụng test khác nhau: Tập test vlsp2019 đưa tổ chức VLSP (Vietnamese Language and Speech Processing) Tập Vivos Đại học Quốc gia Hồ Chí Minh Tập liệu bổ sung nhiễu với cường độ khác Tỷ số tín hiệu nhiễu (SNR) từ 0dB đến 5dB (SNR cao, tín hiệu nhiễu) Bảng trình bày sai số từ (càng thấp tốt) thử nghiệm test với mơ hình Ta thấy mơ hình S2 việc áp dụng kỹ thuật data augmentation làm giảm đáng kể sai số nhận dạng so với mơ hình S1 tất tập test Mơ hình đề xuất S3 đơn giản mơ hình hóa noise cách bổ sung noise tag transcript làm giảm sai số nhận dạng so với mơ hình S2 đặc biệt trường hợp nhiễu lớn (SNR thấp) KẾT LUẬN Bài báo trình bày nghiên cứu thử nghiệm để xây dựng hệ thống nhận dạng tiến nói miễn nhiễm với mơi trường khác cách tác động lên các loại noise cải tiến thuật tốn data augmentation Thay đơn trước ta bổ sung noise mà không quan tâm noise gì, ta thêm thơng tin loại noise để mơ hình hóa chúng xác Kết thử nghiệm chứng minh hiệu phương pháp đề xuất TÀI LIỆU THAM KHẢO [1] Parthasarathi, Sree Hari Krishnan, et al "fMLLR based feature-space speaker adaptation of DNN acoustic models." in INTERSPEECH, 2015 [2] Povey, Daniel, Philip C Woodland, and Mark JF Gales "Discriminative MAP for acoustic model adaptation." in ICASSP, 2003 [3] Xue, Shaofei, et al "Fast adaptation of deep neural network based on discriminant codes for speech recognition." IEEE/ACM Transactions on Audio, Speech, and Language Processing 22.12, pp 1713-1725, 2014 [4] Ko, Tom, et al "Audio augmentation for speech recognition." in INTERSPEECH, 2015 [5] Ko, Tom, et al "A study on data augmentation of reverberant speech for robust speech recognition." in ICASSP, 2017 [6] Van Hai Do, et al “Speech attribute recognition using context-dependent modeling,” in APSIPA ASC, 2011 110 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 111 ... xuất phương án tăng cường chất lượng nhận dạng cách mơ hình hóa loại noise khác cách bổ sung vào transcript liệu tương ứng noise tag XÂY DỰNG PHƯƠNG PHÁP MƠ HÌNH HĨA NHIỄU Như nói, phương pháp. .. vào sở liệu tiếng nói để huấn luyện mơ hình giúp tăng đáng kể sự ổn định mô hình nhận dạng điều kiện khác Hình Cách thức gán nhãn noise cho transcript Ở nghiên cứu ta đơn bổ sung nhiễu vào tín... số nhận dạng so với mơ hình S1 tất tập test Mơ hình đề xuất S3 đơn giản mơ hình hóa noise cách bổ sung noise tag transcript làm giảm sai số nhận dạng so với mơ hình S2 đặc biệt trường hợp nhiễu