Quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói ở phía khách hàng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	3
Dung lượng	171,48 KB

Nội dung

Bài viết Quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói ở phía khách hàng trình bày quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói nhằm liên tục nâng cao chất lượng của hệ thống nhận dạng tiếng nói phù hợp với chính nhu cầu, dữ liệu của người dùng.

Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 QUY TRÌNH XÂY DỰNG DỮ LIỆU VÀ HUẤN LUYỆN LIÊN TỤC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Ở PHÍA KHÁCH HÀNG Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn MỞ ĐẦU Hiện ứng dụng nhận dạng tiếng nói trở nên phổ biến Ví dụ nhập liệu, tìm kiếm tiếng nói thay gõ vào bàn phím qua ứng dụng hệ điều hành iOS, Android, Windows,… Để xây dựng hệ thống nhận dạng tiếng nói cần có q trình huấn luyện để máy tính học mối quan hệ tiếng nói đầu vào văn đầu Về nguyên tắc ta có nhiều liệu huấn luyện hệ thống nhận dạng có khả nhận dạng xác Tuy nhiên để huấn luyện hệ thống nhận dạng tiếng nói với lượng liệu lớn ta cần nhiều thời gian, với hệ thống máy tính mạnh Do đó, việc huấn luyện mơ hình nhận dạng tiếng nói thường thực cơng ty cung cấp dịch vụ nhận dạng tiếng nói, mà khó triển khai phía người dùng sử dụng dịch vụ Trong q trình sử dụng dịch vụ nhận dạng tiếng nói, phía người dùng thu thập nhiều liệu thực tế, với việc phát trường hợp máy nhận dạng nhầm Mong muốn người dùng huấn luyện cho máy biết lỗi sai trình sử dụng khắc phục lần sau Do cần thiết có phương pháp huấn luyện hệ thống nhận dạng tiếng nói liên tục từ cập nhật nhanh hệ thống nhận dạng với liệu thực phía người dùng Trong nghiên cứu này, đưa quy trình xây dựng liệu huấn luyện liên tục hệ thống nhận dạng tiếng nói nhằm liên tục nâng cao chất lượng hệ thống nhận dạng tiếng nói phù hợp với nhu cầu, liệu người dùng QUY TRÌNH ĐỀ XUẤT - Bước 1: thu thập liệu tiếng nói; bước thực phương thức khác lấy tệp tiếng nói trực tiếp từ thiết bị lưu trữ thơng qua kết nối mạng liệu; - Bước 2: tự động cắt tệp tiếng nói thành đoạn nhỏ; bước thực cách dựa vào đặc tính tín hiệu tiếng nói; - Bước 3: chuyển đổi tiếng nói sang văn bản; bước này, tất đoạn tiếng nói bước chuyển sang văn cách sử dụng hệ thống nhận dạng tiếng nói, với đoạn tiếng nói thu văn tương ứng có số từ N số độ tin cậy nhận dạng DTC; - Bước 4: lựa chọn đoạn tiếng nói thỏa mãn điều kiện; bước này, lựa chọn đoạn tiếng nói bước thỏa mãn hai điều kiện: có độ tin cậy bước nằm ngưỡng cho phép, tức DTC ≥ DTCmin DTC ≤ DTCmax; hai là: có số từ nhận dạng văn bước nằm ngưỡng cho phép, tức là: N ≥ Nmin N ≤ Nmax Trong DTCmin có giá trị từ 0,4 đến 0,8 nhằm loại bỏ đoạn tiếng nói có độ tin cậy thấp thường đoạn tiếng nói có chất lượng môi trường nhiễu; DTCmax có giá trị từ 0,8 đến 1,0 nhằm loại bỏ đoạn tiếng nói có độ tin cậy cao, bổ sung vào 107 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 liệu học khơng mang lại nhiều giá trị; Nmin có giá trị từ đến 10 nhằm loại bỏ đoạn tiếng nói q ngắn khơng chứa nhiều thơng tin; Nmax có giá trị từ 10 đến 40 nhằm loại bỏ đoạn tiếng nói dài gây khó khăn việc nghe làm liệu; - Bước 5: gán nhãn chỉnh sửa lại văn bản; bước này, đưa đoạn tiếng nói lựa chọn bước với văn tương ứng nhận dạng bước lên hệ thống gán nhãn để người gán nhãn nghe chỉnh sửa lại văn cho với nội dung đoạn tiếng nói; - Bước 6: kiểm tra chất lượng gán nhãn; bước này, người kiểm tra đánh giá chất lượng nhãn văn gán bước 5, với đoạn tiếng nói không đạt yêu cầu người gán nhãn chỉnh sửa lại, đạt cho đoạn tiếng nói văn tương ứng vào kho liệu gán nhãn; - Bước 7: tạo tập kiểm thử; theo đó, người quản trị định lựa chọn số đoạn tiếng nói kho liệu gán nhãn bước để tạo tập kiểm thử với yêu cầu kích thước tập kiểm thử cần lớn Htest_min liệu để đảm bảo tập kiểm thử đủ lớn tin cậy, Htest_min ≥ 0,5 giờ; với đoạn tiếng nói lựa chọn làm tập kiểm thử xóa khỏi kho liệu gán nhãn; - Bước 8: lựa chọn thời điểm huấn luyện hệ thống; thời điểm liệu huấn luyện kho lớn ngưỡng Htrain_min liệu có định người quản trị, Htrain_min ≥ ; - Bước 9: huấn luyện hệ thống nhận dạng; bước này, cách áp dụng học chuyển tiếp (transfer learning) với tốc độ học khởi tạo α, hệ thống đầu vào hệ thống nhận dạng tại, liệu huấn luyện để học chuyển tiếp liệu tiếng nói kho liệu gán nhãn; 0,001 ≥ α ≥ 0,00001; sau kết thúc lần duyệt liệu huấn luyện (epoch) ta lưu hệ thống để thực kiểm thử bước tiếp theo; - Bước 10: đánh giá hệ thống nhận dạng với tập kiểm thử; bước này, cách sử dụng hệ thống thời hệ thống tạo từ bước để nhận dạng đoạn tiếng nói tập kiểm thử sử dụng công cụ để tự động so sánh văn nhận dạng với văn người gán nhãn liệu nhập để đưa bảng số sai số từ (word error rate1) hệ thống với tập kiểm thử; - Bước 11: lựa chọn cập nhật hệ thống nhận dạng; từ kết bước 10, người quản trị định lựa chọn hệ thống nhận dạng có sai số trung bình thấp để cập nhật giữ nguyên hệ thống thời THỬ NGHIỆM Giải pháp đưa vào hoạt động để xây dựng quy trình làm liệu huấn luyện liên tục cho hệ thống nhận dạng tiếng nói tổng đài chăm sóc khách hàng Viettel Chúng tơi xây dựng hệ thống nhận dạng tiếng nói để chuyển đổi tồn gọi chăm sóc khách hàng sang văn Từ giám sát, thống kê nội dung gọi cách tự động nhanh chóng Ngồi ra, ta cịn biết tâm tư, xúc khách hàng việc trả lời khách hàng điện thoại viên [1] Tất mơ hình huấn luyện sử dụng kiến trúc TDNN-LSTM kết hợp với mơ hình ngơn ngữ 4-gram [2] với công cụ sử dụng Kaldi [3] Quy trình nhận dạng tiếng nói huấn luyện ban đầu sử dụng 1000 liệu Thời gian để huấn luyện hệ thống 83 Khi bắt đầu triển khai trung tâm CSKH, hệ thống nhận dạng tiếng nói cịn có tỷ lệ lỗi cao, tỷ lệ lỗi từ (word error rate) = 22,1%, tức trung bình 1000 từ có 221 từ bị nhận dạng sai Chúng tơi áp dụng quy trình đề xuất để làm liệu huấn luyện liên tục với tham số sau: 108 https://en.wikipedia.org/wiki/Word_error_rate Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0  DTCmin = 0,6  DTCmax = 0,95  Nmin =  Nmax = 20  Htest_min =  Htrain_min = 30  α = 0,0001 Kết thu thể Bảng ta huấn luyện liên tục theo mức liệu khác nhau, giảm thời gian huấn luyện chờ đợi Để so sánh, ta dùng phương pháp huấn luyện từ đầu tức lần thêm 30 liệu ta lại gộp vào 1000 liệu gốc huấn luyện thời gian huấn luyện cần 83 thay 2,5 phương pháp đề xuất KẾT LUẬN Bảng Đánh giá kết huấn luyện liên tục hệ thống nhận dạng tiếng nói Lần cập nhật Số lượng liệu làm (giờ) Thời gian huấn luyện (giờ) Kết sai số từ (%) Hệ thống gốc - - 22,1 30 2,5 21,4 30 2,5 20,9 30 2,5 20,4 30 2,5 19,7 30 2,5 19,4 30 2,5 18,9 30 2,5 18,2 30 2,5 17,4 30 2,5 16,9 10 30 2,5 16,5 Trong báo này, chúng tơi trình bày quy trình xây dựng liệu huấn luyện liên tục hệ thống nhận dạng tiếng nói nhằm liên tục nâng cao chất lượng hệ thống nhận dạng tiếng nói phù hợp với nhu cầu, liệu người dùng Kết thử nghiệm phương pháp đề xuất giảm thời gian huấn luyện để cập nhật mơ hình, giúp mơ hình nhận dạng cập nhật nhanh chóng TÀI LIỆU THAM KHẢO Bên CSKH thực quy trình làm liệu theo phương pháp đề xuất Sau làm 30 liệu hệ thống nhận dạng lại huấn luyện bổ sung, thời gian huấn luyện 2,5 Ta thấy sai số hệ thống nhận dạng giảm ổn định bổ sung liệu huấn luyện liên tục Sau mười lần cập nhật sai số giảm từ 22,1% xuống 16,5% Với phương pháp đề xuất [1] Quoc Bao Nguyen, Ba Quyen Dam, Van Hai Do and Minh Hung Le "Development of a Vietnamese speech recognition system for Viettel call center." 2017 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA) IEEE, 2017 [2] Povey, D., Hadian, H., Ghahremani, P., Li, K., & Khudanpur, S (2018, April) A timerestricted self-attention layer for ASR In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp 5874-5878) IEEE [3] Povey, Daniel, et al "The Kaldi speech recognition toolkit." IEEE 2011 workshop on automatic speech recognition and understanding No CONF IEEE Signal Processing Society, 2011 109 ... hệ thống nhận dạng có sai số trung bình thấp để cập nhật giữ nguyên hệ thống thời THỬ NGHIỆM Giải pháp đưa vào hoạt động để xây dựng quy trình làm liệu huấn luyện liên tục cho hệ thống nhận dạng. .. trình bày quy trình xây dựng liệu huấn luyện liên tục hệ thống nhận dạng tiếng nói nhằm liên tục nâng cao chất lượng hệ thống nhận dạng tiếng nói phù hợp với nhu cầu, liệu người dùng Kết thử nghiệm... độ học khởi tạo α, hệ thống đầu vào hệ thống nhận dạng tại, liệu huấn luyện để học chuyển tiếp liệu tiếng nói kho liệu gán nhãn; 0,001 ≥ α ≥ 0,00001; sau kết thúc lần duyệt liệu huấn luyện (epoch)

Ngày đăng: 09/07/2022, 15:57