Bài viết Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2end trình bày cách tiếp cận mới cho nhận dạng tiếng nói dựa trên kiến trúc end2end và so sánh với mô hình hybrid truyền thống. Việc thử nghiệm kiến trúc end2end cho bài toán nhận dạng tiếng nói tiếng Việt cho kết quả ban đầu rất khả quan, mô hình end2end cho kết quả tốt hơn hybrid truyền thống ở tất cả các tập thử nghiệm.
Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 XÂY DỰNG MƠ HÌNH NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT THEO KIẾN TRÚC END2END Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn MỞ ĐẦU Mô hình nhận dạng tiếng nói phổ biến dựa kiến trúc lai (hybrid) mơ hình Markov ẩn (HMM - Hidden Markov Model) mơ hình mạng nơ ron sâu (DNN Deep Neural Network) đề xuất vào năm 2012 [1] Mơ hình lai sử dụng HMM để mơ hình hóa thơng tin thời gian tiếng nói, DNN sử dụng để mơ hình phân bố đặc trưng khơng gian tiếng nói (mơ hình âm học) Ngồi để hệ thống nhận dạng hybrid hoạt động ta cần có từ điển phát âm để tạo ánh xạ từ mức từ sang mức âm vị mô hình ngơn ngữ để lưu trữ thơng tin tri thức ngữ pháp quy luật phân bố từ lĩnh vực hay ngôn ngữ Trải qua năm phát triển, mơ hình lai có nhiều biến thể để nâng cao độ xác giảm thời gian huấn luyện Tuy nhiên module mơ hình nhận dạng lai thiết kế tối ưu độc lập lắp ghép lại khơng đưa mơ hình tổng thể tối ưu Mặt khác việc thiết kế module lại cần có kiến thức chuyên gia ví dụ việc từ điển phát âm cần chuyên gia sâu ngôn ngữ để định nghĩa ánh xạ định nghĩa tập âm vị phù hợp với ngôn ngữ, vùng miền Trong năm gần đây, lên cách tiếp cận nhận dạng tiếng nói nhóm nghiên cứu lớn nghiên cứu phát triển nhận dạng tiếng nói dựa kiến trúc end-to-end (E2E) Cơng nghệ E2E dựa chế từ chuỗi đến chuỗi (sequence to sequence) áp dụng toán dịch máy Trong toán này, đầu vào chuỗi từ ngôn ngữ nguồn, đầu chuỗi từ ngơn ngữ đích Chiều dài chuỗi đầu vào đầu khác Cơng nghệ E2E cho nhận dạng tiếng nói nghiên cứu phát triển khoảng năm gần đây, đầu vào hệ thống chuỗi vector đặc trưng trích chọn từ tín hiệu tiếng nói, đầu chuỗi từ hay ký tự nhận dạng Với thiết kế hệ thống mơ hình đơn loại bỏ phức tạp kiến trúc giảm cần thiết chuyên gia ngôn ngữ xây dựng hệ thống Trong xây dựng hệ thống ASR truyền thống ta cần xây dựng tối ưu riêng mơ hình âm học, ngơn ngữ, từ điển phát âm Do đó, hệ thống E2E triển khai nhanh với ngôn ngữ mà không cần nhiều đến giúp đỡ chun gia ngơn ngữ Do đó, ưu điểm lớn mà tập đoàn đa quốc gia muốn tập trung nghiên cứu, phát triển Do công nghệ E2E thực học ánh xạ từ chuỗi vector đặc trưng file audio đầu vào đến từ hay ký tự đầu ra, mà không cần biết trước đến ràng buộc, hiểu biết âm học ngôn ngữ Để học ánh xạ đủ tốt, cần nhiều liệu huấn luyện Do đó, cách tiếp cận đầy hứa hẹn tương lai liệu lực tính tốn ngày tăng lên Nghiên cứu đại học Kyoto [2] với liệu huấn luyện mơ hình E2E cho kết nhiều so với mơ hình lại Tuy nhiên tăng liệu huấn luyện lên, mơ hình E2E tiệm cận với 74 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 chất lượng mơ hình lai Điều giải thích mơ hình mơ hình E2E phải tự học ánh xạ từ âm từ (ký tự) cách trực tiếp để đạt chất lượng tốt yêu cầu nhiều liệu huấn luyện cho mơ hình Ở phương diện xây dựng sản phẩm thực tế, hãng Google, Microsoft đưa mơ hình E2E Ví dụ nghiên cứu [3] Google sử dụng 12.000 liệu huấn luyện Kết thử nghiệm tập voice search tập dictation, mơ hình E2E cho kết tốt mơ hình hybrid Hãng Microsoft nghiên cứu [4] sử dụng 65.000 liệu huấn luyện Với lượng liệu này, mơ hình E2E Microsoft cho kết tốt nhiều so với mơ hình lai mạnh họ XÂY DỰNG MƠ HÌNH NHẬN DẠNG TIẾNG VIỆT 2.1 Lựa chọn kiến trúc mơ hình Từ kết đáng khích lệ trên, nghiên cứu thử nghiệm kiến trúc nhận dạng E2E cho tiếng Việt, với mục tiêu tiệm cận tiến tới thay mơ hình hybrid truyền thống Dựa khảo sát nghiên cứu kiến trúc E2E khác chọn kiến trúc Conformer mắt vào tháng 10/2020 Google để thử nghiệm [5] Kiến trúc Conformer kết hợp kiến trúc Transformer and mạng nơ ron tích chập (Convolution neural network - CNN) sử dụng rộng rãi tốn xử lý ngơn ngữ tự nhiên thị giác máy Bằng việc kết hợp hai kiến trúc với nhau, tận dụng sức mạnh phương pháp Transformer có ưu việc mơ hình hóa nội dung theo chuỗi dài CNN lại hiệu việc phân tích đặc trưng mức cục Hình mơ tả kiến trúc Conformer encoder, chi tiết khối Convolution module, Multi-Headed self-attention module, Feed forward module xem báo Google [5] Hình Kiến trúc Conformer encoder [5] 2.2 Lựa chọn đơn vị biểu diễn (token) Để huấn luyện mơ hình E2E ASR trước hết ta cần định nghĩa “đơn vị” để mã hóa đầu hệ thống (token) Đơn giản token ký tự (character), cao token mức từ (word) với tiếng Việt âm tiết (syllable) Với cách sử dụng token ký tự số lượng token tương đối ít, nhiên sử dụng mức từ lên đến hàng chục chí trăm nghìn từ với tiếng Anh, cỡ 10k từ với tiếng Việt Đây số lượng lớn nhiều token có chí khơng tồn tập huấn luyện, dẫn đến chúng có khả xuất giải mã Một giải pháp trung lập sử dụng rộng rãi mã hóa token dạng subword BPE (byte pair encoding) BPE dạng mã hóa sử dụng dịch máy nhận dạng tiếng nói E2E Với BPE, ta định nghĩa trước số lượng token mà ta mong muốn tất nhiên lớn số ký tự nhỏ số lượng từ Tuy nhiên mã hóa theo BPE túy dựa thống kê từ liệu (data driven), mà khơng cần kiến thức ngơn ngữ Tuy nhiên với tiếng Việt ngơn ngữ đánh vần đề đọc 75 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 xác, sử sụng cách tiếp cận khác dựa ngữ âm cách tách âm tiết thành âm bản1 Từ âm lắp thành từ tiếng Việt chí từ viết tắt, vay mượn (do mã ký tự đơn) THỬ NGHIỆM Chúng thử nghiệm với 1,4 triệu câu tập huấn luyện, tương đương với khoảng 1500 liệu Sử dụng kiến trúc Conformer với có kích thước trung bình (medium size) với 29,1M tham số Kết thử nghiệm tính dựa theo sai số từ (WER%) cho hai mơ hình hybrid E2E thử nghiệm nội khác miêu tả Bảng Bảng So sánh sai số từ (%) mơ hình Hybrid mơ hình E2E Tập thử nghiệm Mơ hình mhkh bmhh vcs vlsp2019 Voice Meeting note note Hybrid 8,62 14,58 13,21 21,23 21,06 11,29 E2E 6,05 12,27 10,24 16,70 16,37 10,25 Ta thấy sai số tất tập thử nghiệm giảm mạnh sử dụng mơ hình E2E chứng tỏ cách tiếp cận đầy hứa hẹn cho tốn nhận dạng tiếng nói tiếng Việt Trong thời gian tới, chúng tơi tiếp tục nghiên cứu hồn thiện vấn đề với mơ hình E2E như: Tăng cường khả nhận dạng với từ chuyên môn, vay mượn, nước Nghiên cứu khả sử dụng thêm đặc trưng tần số (pitch) nhằm mơ hình hóa điệu tốt cho tốn tiếng Việt hình hybrid truyền thống Việc thử nghiệm kiến trúc end2end cho tốn nhận dạng tiếng nói tiếng Việt cho kết ban đầu khả quan, mơ hình end2end cho kết tốt hybrid truyền thống tất tập thử nghiệm Chứng tỏ cách tiếp cận đầy tiềm đặc biệt lượng liệu huấn luyện lực tính tốn ngày lớn TÀI LIỆU THAM KHẢO [1] Hinton, Geoffrey, et al "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE Signal processing magazine 29.6 (2012): 82-97 [2] Ueno, Sei, et al "Acoustic-to-word attention-based model complemented with character-level CTC-based model." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) IEEE, 2018 [3] Chiu, Chung-Cheng, et al "State-of-the-art speech recognition with sequence-tosequence models." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) IEEE, 2018 [4] Li, Jinyu, et al "On the comparison of popular end-to-end models for large scale speech recognition." arXiv preprint arXiv:2005.14327 (2020) [5] Gulati, Anmol, et al "Conformer: Convolution-augmented transformer for speech recognition." In Proceedings of INTERSPEECH (2020) KẾT LUẬN Trong nghiên cứu này, trình bày cách tiếp cận cho nhận dạng tiếng nói dựa kiến trúc end2end so sánh với mô https://mltav.asn.au/vietnamese/images/documents/ Van/wa-van.pdf 76 ... huấn luyện Với lượng liệu này, mơ hình E2E Microsoft cho kết tốt nhiều so với mơ hình lai mạnh họ XÂY DỰNG MƠ HÌNH NHẬN DẠNG TIẾNG VIỆT 2.1 Lựa chọn kiến trúc mơ hình Từ kết đáng khích lệ trên,... nghiên cứu thử nghiệm kiến trúc nhận dạng E2E cho tiếng Việt, với mục tiêu tiệm cận tiến tới thay mơ hình hybrid truyền thống Dựa khảo sát nghiên cứu kiến trúc E2E khác chọn kiến trúc Conformer mắt... môn, vay mượn, nước Nghiên cứu khả sử dụng thêm đặc trưng tần số (pitch) nhằm mô hình hóa điệu tốt cho tốn tiếng Việt hình hybrid truyền thống Việc thử nghiệm kiến trúc end2end cho tốn nhận dạng