Bài viết Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt sử dụng mô hình ngôn ngữ Transformer-XL đánh giá hiệu quả của Transformer-XL với tiếng Việt cũng như việc áp dụng chúng vào một hệ thống nhận dạng tiếng nói.
Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MƠ HÌNH NGƠN NGỮ TRANSFORMER-XL Nguyễn Quang Trung1, Đỗ Văn Hải2 Trung tâm Không gian Mạng Viettel Trường Đại học Thủy lợi 1 GIỚI THIỆU CHUNG Mơ hình ngơn ngữ thành phần thiếu hệ thống nhận dạng tiếng nói đại Chúng giúp đưa kết xác người nói bị ngọng đơi ngun nhân làm giảm độ xác không phản ánh phân bố xác suất ngôn ngữ Tuy chứng minh hiệu so với mơ hình n-gram truyền thống, mơ hình ngôn ngữ dựa mạng nơ-ron vốn thường sử dụng mạng hồi quy (RNN) biến thể gặp phải vấn đề cố hữu mạng RNN là: - Khó song song hóa - Tất nội dung mã hóa vào véc-tơ - Các từ câu có vai trị giống từ cần dự đốn khơng thể hiệu nội dung câu Từ nhược điểm trên, xu cộng đồng trí tuệ nhân tạo dần chuyển sang sử dụng mơ hình Transfomer [2] thay cho RNN chứng minh hiệu định Bài báo trình bày thử nghiệm chúng tơi áp dụng mơ hình Transformer-XL [1] - biến thể mạng Transformer vào hệ thống nhận dạng tiếng nói tiếng Việt Theo chúng tơi biết, chưa có báo đánh giá hiệu Transformer-XL với tiếng Việt việc áp dụng chúng vào hệ thống nhận dạng tiếng nói PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Hệ thống nhận dạng tiếng nói Một hệ thống nhận dạng tiếng nói thường gồm thành phần hình dưới: Hình Hệ thống nhận dạng tiếng nói Tại khối decoder, hệ thống sử dụng mô hình ngơn ngữ để đánh giá lại tất giả thuyết nhận dạng từ đầu mơ hình phát âm (pronunciation model) Số lượng giả thuyết lên tới hàng triệu với câu nói, mơ hình ngơn ngữ thường sử dụng n-gram tốc độ tính tốn nhanh Trong khối decoder lưới từ có dạng sau: Thời/1 tiếc/0.66 tiết/0 34 thật/0.6 rất/0.4 thật/ đẹp/0.5 địp/0.5 Hình Đầu hệ thống nhận dạng tiếng nói Kết nhận dạng cuối đường có xác suất cao theo cơng thức: P(w1,…, wm) = Π im=1P( wi | w1 , ,wi − ) trường hợp là: “Thời tiếc thật đẹp” Do số lĩnh vực có lượng liệu nên mơ hình ngơn ngữ 192 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 yếu, chưa phản ánh tốt mơ hình xác suất lĩnh vực Hệ độ xác hệ thống nhận dạng tiếng nói bị hạn chế Trong đó, mơ hình ngơn ngữ đại dựa mạng nơ-ron mơ hình hóa tốt n-gram nên tận dụng nguồn liệu tốt 2.2 Transformer Mơ hình transformer giới thiệu báo “Attention is All You Need” [2] nhắm tới giải tốn mơ hình hố chuỗi sequence to sequence với hai thành phần khối mã hóa - encoder (hình trái) mã hố chuỗi đầu vào, khối giải mã decoder (hình phải) giải mã thơng tin từ encoder kết với phần tử decode từ trước để đưa dự đốn phần tử Với số điểm đáng ý như: - Multi-head attention: Tính tốn attention với sub-feature véc-tơ đầu vào, giống việc có nhiều ‘góc nhìn’ đối tượng - Position encoding: Mã hóa vị trí đối tượng từ ta khơng cần phải xử lý với RNN - Position wise feed forward: lớp mạng feed forward áp dụng với vị trí giúp Transformer mơ hình hố chuỗi giống với RNN 2.3 Transformer-XL Như đề cập giới thiệu transformer, khối giải mã sử dụng phần tử đầu trước để dự đốn từ tiếp theo, gần với với mơ hình ngơn ngữ Do từ mơ hình Transformer ban đầu ta bỏ khối encoder để mơ hình học cách dự đoán phần tử dựa vào phần tử đứng trước Hình Transfomer-XL 2.4 Áp dụng Transfomer-XL vào hệ thống nhận dạng Do lượng giả thuyết cần tính tốn lớn nên chúng tơi khơng thay trực tiếp mơ hình n-gram hệ thống nhận dạng mơ hình Transfomer-XL mà áp dụng theo quy trình bước: - (1) Hệ thống nhận dạng thơng thường Tuy nhiên thay đưa kết nhận dạng đầu khối decoder lưới từ khác Lưới từ giới hạn số đường từ đỉnh để giảm lượng tính tốn cho bước sau đánh đổi lại độ xác bị giảm - (2) Đánh giá lại xác suất lưới từ bước (1) với mơ hình Transfomer-XL, đưa chuỗi từ có xác suất cao Trong hình 1, ta thấy “thời tiết” hợp lý nhiều “thời tiếc” Tuy nhiên người nói ngọng mơ hình ngơn ngữ hệ thống (1) chưa đánh giá tốt trường hợp dẫn tới xác suất từ “tiếc” lại cao so với từ “tiết” Lưới từ sau qua hệ thống (2) cho ta lưới từ đánh giá lại sau: thật/0 tiếc/0.25 Hình Mơ hình Transformer Thời/1 tiết/0.75 rất/0.3 thật/ đẹp/0.9 địp/0.1 Hình Lưới từ sau đánh giá lại 193 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 Theo đó, kết đầu cuối có xác suất cao là: “Thời tiết thật đẹp” KẾT QUẢ NGHIÊN CỨU Trong đánh giá xây dựng hai mơ hình ngơn ngữ dựa Transformer-XL mơ hình RNN để so sánh độ hiệu chúng dùng để đánh giá lại lưới từ hệ thống nhận dạng sinh Dữ liệu học cho hai mơ hình ngơn ngữ dùng để đánh giá gồm 180941 câu thoại hai người Trong thử nghiệm, với mơ hình Transfomer-XL chúng tơi sử dụng tham số tương tự tham số sử dụng báo [1] Tuy nhiên, số tham số nhiều nhiều so với liệu học, nhằm hạn chế overfit áp dụng mức dropout 0,2 Với mơ hình RNN, chúng tơi sử dụng mơ hình mặc định từ Recurrent Neural Network Language Modeling Toolkit [3] phiên 0.4 Tập đánh giá gồm 1000 audio trị chuyện điện thoại Thang đo chúng tơi dùng để đánh giá thử nghiệm tỉ lệ sai số mức từ (WER%) Kết thử nghiệm đưa bảng đây: Bảng Hiệu Transformer-XL so với RNN theo WER (%) Oracle (WER%) 25,65 RNN TransformerASR (WER%) (WER%) XL (WER%) 39,08 38,27 37,05 Trong đó: Oracle WER: sai số mức từ tối thiểu mà hệ thống nhận dạng đạt ta có mơ hình ngơn ngữ hồn hảo ASR WER: sai số mức từ hệ thống nhận dạng (1) RNN/Transformer-XL WER: tương ứng sai số sau đánh giá lại sử dụng mơ hình ngơn ngữ dựa RNN/ Transformer-XL Như thấy, áp dụng Transformer-XL vào nhận dạng tiếng nói giúp giảm 5,19% sai số tương đối mức từ, gấp 2,5 lần so với sử dụng mơ hình ngơn ngữ dựa RNN KẾT LUẬN Mơ hình Transfomer-XL cho thấy khả vượt trội so với RNN áp dụng vào hệ thống nhận dạng tiếng nói dù với lượng liệu học nhỏ Tuy mang lại kết cao việc sử dụng mơ hình Transformer-XL gặp nhiều khó khăn như: - Mơ hình có nhiều tham số, dễ dẫn tới overfit nên cần tuning tham số cẩn thận - Tốn nhiều tài ngun tính tốn Thêm vào so với mức sai số tối thiểu, hệ thống nhiều khả để tối ưu Trong thời gian tới, chúng tơi sử dụng thuật tốn A* để giới hạn lưới từ hiệu để giảm thiểu số lượng tính tốn mà khơng làm tăng sai số tối thiểu hệ thống, giúp thử nghiệm đáp ứng tốt yêu cầu hiệu áp dụng vào thực tế TÀI LIỆU THAM KHẢO [1] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V Le, Ruslan Salakhutdinov 2019 “Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context” [2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia Polosukhin 2017 “Attention Is All You Need” [3] Mehryar Mohri, Fernando Pereira, Michael Riley 2002 “Weighted Finite-State Transdu cers in Speech Recognition” [4] Tomas Mikolov, Stefan Kombrink, Anoop Deoras, Lukas Burget, Jan Honza Cernocky 2011 “Recurrent Neural Network Language Modeling Toolkit” [5] Stanley F Chen, Joshua Goodman 1999 “An empirical study of smoothing techniques forlanguage modeling” 194 ... vượt trội so với RNN áp dụng vào hệ thống nhận dạng tiếng nói dù với lượng liệu học nhỏ Tuy mang lại kết cao việc sử dụng mơ hình Transformer-XL gặp nhiều khó khăn như: - Mơ hình có nhiều tham số,... mơ hình ngơn ngữ hồn hảo ASR WER: sai số mức từ hệ thống nhận dạng (1) RNN /Transformer-XL WER: tương ứng sai số sau đánh giá lại sử dụng mơ hình ngơn ngữ dựa RNN/ Transformer-XL Như thấy, áp dụng. .. Transformer-XL Như thấy, áp dụng Transformer-XL vào nhận dạng tiếng nói giúp giảm 5,19% sai số tương đối mức từ, gấp 2,5 lần so với sử dụng mơ hình ngơn ngữ dựa RNN KẾT LUẬN Mơ hình Transfomer-XL cho thấy