1. Trang chủ
  2. » Công Nghệ Thông Tin

Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau

3 3 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Bài viết Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau trình bày đánh giá sự ảnh hưởng của kênh truyền điện thoại đến chất lượng nhận dạng; Đánh giá sự ảnh hưởng cách nói đến hệ thống nhận dạng.

Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 ĐÁNH GIÁ TỔNG THỂ CÁC MƠ HÌNH NHẬN DẠNG TIẾNG NÓI VỚI CÁC YẾU TỐ KHÁC NHAU Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn GIỚI THIỆU CHUNG Để huấn luyện mơ hình nhận dạng tiếng nói, yếu tố quan trọng liệu huấn luyện [1,2] Với hệ thống nhận dạng thương mại cần hàng nghìn đến hàng chục nghìn liệu audio huấn luyện Có nhiều nguồn tiếng nói khác như:  Từ Internet Youtube (tần số lấy mẫu 16kHz)  Thuê người đọc văn có sẵn thu âm (tần số lấy mẫu 16kHz)  Từ kênh thoại tổng đài chăm sóc khách hàng (tần số lấy mẫu 8kHz) Ngoài cần chuẩn bị liệu văn (text) để huấn luyện mô hình ngơn ngữ Ta lấy văn trực tiếp từ transcript liệu audio Tuy nhiên lượng liệu thường Một cách thơng dụng khác thường dùng crawl văn từ trang tin tức, từ Wikipedia Mục đích báo nhằm trả lời câu hỏi sau: Kênh truyền điện thoại (mã hóa, nén, đường truyền) có ảnh hưởng nhiều đến chất lượng tiếng nói khơng? Nếu khơng ảnh hưởng ta dùng liệu thu âm trực tiếp để xây dựng mơ hình nhận dạng cho gọi qua điện thoại Từ ta chủ động nguồn liệu, lấy từ YouTube, thu âm trực tiếp xây dựng mơ hình cho trợ lý ảo downsample xuống 8kHz cho tốn nhận dạng tiếng nói điện thoại Giọng đọc (thu âm) giọng nói (nói tự nhiên) có tương tự khơng? Dùng mơ hình huấn luyện với giọng đọc nhận dạng tốt với giọng nói khơng ngược lại Trả lời câu hỏi giúp xây dựng nguồn liệu huấn luyện phù hợp với toán thực tế với chi phí thời gian nhỏ ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA KÊNH TRUYỀN ĐIỆN THOẠI ĐẾN CHẤT LƯỢNG NHẬN DẠNG Hiện hầu hết sử dụng điện thoại di động để gọi lên tổng đài qua giao thức 2G 3G Trong trình này, tiếng nói downsample xuống 8kHz sau mã hóa nén với chuẩn khác nhau, truyền qua kênh truyền trước đến tổng đài giải mã Q trình dẫn đến suy giảm chất lượng thuật toán nén lossy, gói tin đường truyền, v.v Để định lượng suy giảm đó, thiết lập thử nghiệm sau 2.1 Thiết lập thử nghiệm Dùng máy tính phát file audio ghi âm sẵn, dùng jack audio 3.5mm với đầu male, đầu cắm vào cổng speaker máy tính, đầu cịn lại cắm vào đầu vào microphone chia từ cổng 3.5, chân (tích hợp mic loa vào một) sang cổng 3.5, chân Với thiết lập tín hiệu audio phát từ máy tính thu trực tiếp vào đầu vào mic điện thoại truyền 102 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 Bảng Kết thử nghiệm ảnh hưởng kênh truyền (Sai số từ - WER%) # Testset Model VTR16k VTR8k IPCC News_16k 3.09 - - News_8k - 3.15 7.29 News_phone2phone - 3.30-3.92 8.53-8.70 News_8k_upsample16k 5.01 - - Sau tiến hành gọi từ điện thoại đến điện thoại khác, trình điều chỉnh âm lượng máy tính cho âm ko bị cắt to (clipping) để an toàn ta giảm volume thêm 50% so với ngưỡng bị clipping Trong thử nghiệm ta dùng tập liệu news thu âm giọng người đọc phát triển SpeechOcean (tập News Corpus) Sau ta có tập liệu kiểm thử (testset) để so sánh sau  News_16k: Dữ liệu audio gốc 16k News corpus  News_8k: Dữ liệu audio gốc News corpus downsample xuống 8kHz  News_phone2phone: Dữ liệu audio truyền từ điện thoại đến điện thoại từ điện thoại đến tổng đài  News_8k_upsample16k: Dữ liệu 8k upsample lên 16k để test với model 16k 2.2 Kết thử nghiệm Kết thử nghiệm trình bày Bảng số sai số từ (word error rate %) Ba model nhận dạng tiếng nói sử dụng thử nghiệm bao gồm:  Model IPCC huấn luyện với liệu thoại chăm sóc khách hàng  Model VTR16k huấn luyện với liệu ghi âm  Model VTR8k huấn luyện với liệu ghi âm downsample xuống 8kHz Từ Bảng ta thấy rằng, với model VTR16k ta cho kết 3.09% WER ta suy giảm chút xuống 3.15% dùng model VTR8k Bây ta quan sát dòng thứ thứ để đánh giá chất lượng audio thu âm trực tiếp qua kênh điện thoại Ta thấy với hệ thống VTR8k IPCC bị suy giảm đôi chút, khơng nhiều Chú ý dịng chạy nhiều thí nghiệm với điện thoại khác lần gọi khác kết nằm dải Điều đặc biệt với hệ thống IPCC coi phù hợp (match) với liệu qua kênh điện thoại bị suy giảm chất lượng Điều chứng tỏ truyền audio qua kênh điện thoại không làm sai lệch (mismatch) với audio thu âm trực tiếp, điều mà ta lo ngại (như bị méo, phổ bị cắt, ) Còn suy giảm chất lượng nhận dạng (WER tăng đơi chút) mát trình biến đổi từ file sang speech từ speech sang file jack nối, kênh truyền bị gói tin Do hồn tồn dùng liệu từ nguồn khác để dùng cho toán nhận dạng qua kênh điện thoại khơng có mismatch audio thu âm trực tiếp qua kênh điện thoại Trên dòng thứ Bảng 1, ta upsample audio thu âm trực tiếp test từ 8k lên 16k ta thấy kết nhận dạng tệ không dùng VTR8k nhận dạng 8k WER tăng từ 3.09% lên đến 5.01% hứng tỏ sai khác (mismatch) lớn tín hiệu mơ hình 103 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 ĐÁNH GIÁ SỰ ẢNH HƯỞNG CÁCH NÓI ĐẾN HỆ THỐNG NHẬN DẠNG Trong phần ta nghiên cứu cách nói (đọc nói) ảnh hưởng đến hệ thống nhận dạng Để trả lời câu hỏi đó, ta thử nghiệm với liệu Trong liệu test có giọng người nói hồn cảnh khác  Testset1: Giọng đọc diễn văn  Testset2: Giọng nói trò chuyện Bảng Kết thử nghiệm ảnh hưởng cách nói (WER%) # Model Testset VTR8k IPCC Testset1 22.82 32.41 Testset2 40.27 27.60 Ta dùng model VTR8k (huấn luyện giọng đọc) IPCC (huấn luyện liệu thoại) Kết WER biểu diễn Bảng Ta thấy dòng 1, giọng đọc, VTR model cho kết tốt rõ rệt IPCC Tuy nhiên liệu thứ có kết ngược lại hồn tồn Mơ hình VTR cho kết với giọng nói chuyện tự nhiên Trong mơ hình IPCC chí lại cho kết tốt tập testset1, coi tập test dễ Điều chứng tỏ rằng, kênh truyền mà giọng đọc, cách đọc yếu tố ảnh hưởng đến chất lượng hệ thống nhận dạng Do để xây dựng hệ thống nhận dạng đủ tốt ta cần có liệu huấn luyện có nhiều giọng nói khác đặc biệt giọng tự nhiên Cũng ý liệu có giọng nói tự nhiên thường có phần giọng đọc Ví dụ giọng phát viên, giọng điện thoại viên coi chuẩn mực giọng khá giống với giọng đọc KẾT LUẬN Trong báo phần trả lời câu hỏi quan trọng có kết luận sau:  Kênh truyền điện thoại khơng ảnh hưởng nhiều đến chất lượng tiếng nói Hầu khơng có mismatch tiếng nói thu trực tiếp qua kênh điện thoại Việc downsample từ 16kHz xuống 8kHz làm giảm vài % sai số tương đối (relative word error rate)  Giọng đọc giọng nói khác hệ thống nhận dạng tiếng nói Từ kết luận ta đưa giải pháp nhằm tăng cường chất lượng nhận dạng  Tăng cường thu thập thêm liệu học giọng nói (giọng tự nhiên) từ nguồn YouTube, VTV, VOV, tổng đài  Các liệu dùng lẫn cho cho ứng dụng khác bị ảnh hưởng yếu tố kênh truyền điện thoại phân tích nghiên cứu TÀI LIỆU THAM KHẢO [1] Hinton, Geoffrey, et al "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE Signal processing magazine 29.6, pp 82-97, 2012 [2] Nguyen Quoc Bao, Mai Van Tuan, Le Quang Trung, Dam Ba Quyen, and Do Van Hai "Development of a Vietnamese Large Vocabulary Continuous Speech Recognition System under Noisy Conditions." in Proceedings of the Ninth International Symposium on Information and Communication Technology, pp 222226 ACM, 2018 104 ... 978-604-82-3869-8 ĐÁNH GIÁ SỰ ẢNH HƯỞNG CÁCH NÓI ĐẾN HỆ THỐNG NHẬN DẠNG Trong phần ta nghiên cứu cách nói (đọc nói) ảnh hưởng đến hệ thống nhận dạng Để trả lời câu hỏi đó, ta thử nghiệm với liệu Trong... kênh truyền mà giọng đọc, cách đọc yếu tố ảnh hưởng đến chất lượng hệ thống nhận dạng Do để xây dựng hệ thống nhận dạng đủ tốt ta cần có liệu huấn luyện có nhiều giọng nói khác đặc biệt giọng tự... rate)  Giọng đọc giọng nói khác hệ thống nhận dạng tiếng nói Từ kết luận ta đưa giải pháp nhằm tăng cường chất lượng nhận dạng  Tăng cường thu thập thêm liệu học giọng nói (giọng tự nhiên) từ nguồn

Ngày đăng: 10/07/2022, 13:28

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Từ Bảng 1 ta có thể thấy rằng, với model VTR16k  ta  cho  kết  quả  3.09%  WER  và  ta  chỉ  suy  giảm  1  chút  xuống  3.15%  khi  dùng  model VTR8k - Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau
Bảng 1 ta có thể thấy rằng, với model VTR16k ta cho kết quả 3.09% WER và ta chỉ suy giảm 1 chút xuống 3.15% khi dùng model VTR8k (Trang 2)
Bảng 1. Kết quả thử nghiệm sự ảnh hưởng của kênh truyền (Sai số từ - WER%). - Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau
Bảng 1. Kết quả thử nghiệm sự ảnh hưởng của kênh truyền (Sai số từ - WER%) (Trang 2)
Bảng 2. Kết quả thử nghiệm sự ảnh hưởng của cách nói (WER%).  - Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau
Bảng 2. Kết quả thử nghiệm sự ảnh hưởng của cách nói (WER%). (Trang 3)
w