Xây dựng phương pháp giảm tỷ lệ bỏ qua trên Voicetrans

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	3
Dung lượng	323 KB

Nội dung

Để huấn luyện mô hình nhận dạng tiếng nói, yếu tố tiên quyết đó là dữ liệu huấn luyện. Với các hệ thống nhận dạng thương mại cần ít nhất hàng nghìn giờ dữ liệu huấn luyện. Bài viết trình bày việc xây dựng phương pháp giảm tỷ lệ bỏ qua trên Voicetrans.

Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 XÂY DỰNG PHƯƠNG PHÁP GIẢM TỶ LỆ BỎ QUA TRÊN VOICETRANS Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn suy giảm đáng kể chất lượng tiếng nói Dẫn đến người transcriber khó khăn việc nghe xác văn cần gõ Bảng thể kết làm voicetrans với liệu thoại Tổng số 224.839 segment đưa lên voicetrans, transcriber bỏ qua 194.723 segment tương đương với 87% GIỚI THIỆU CHUNG Để huấn luyện mơ hình nhận dạng tiếng nói, yếu tố tiên liệu huấn luyện [1] Với hệ thống nhận dạng thương mại cần hàng nghìn liệu huấn luyện Tại Viettel, chúng tơi thu thập nhiều nguồn tiếng nói khác từ Internet Youtube từ tổng đài chăm sóc khách hàng Những liệu thơ sau cắt thành đoạn (segment) nhỏ vài giây nhờ VAD (voice activity detector) Những segment đưa cho người nghe (transcriber) để gõ văn tương ứng với segment Bài tốn gọi tốn voicetrans Tuy nhiên trình thực tế làm voicetrans, chúng tơi nhận thấy có nhiều trường hợp transcriber khơng nghe rõ đoạn audio nhiễu, nhiều người nói lẫn, câu khó nghe,… Do vậy, transcriber khơng thể gõ xác văn tương ứng Với segment này, transcriber phép bỏ qua Với việc áp dụng chế bỏ qua giúp cho việc thống người transcriber người reviewer trở nên dễ dàng hơn, tránh việc không thống nhất, dẫn đến review đi, review lại vừa tốn thời gian, vừa gây ức chế cho người làm Trong q trình làm voicetrans, chúng tơi nhận thấy liệu từ nguồn gọi thoại chăm sóc khách hàng tỉ lệ bỏ qua lớn nhiều so với nguồn từ Youtube Điều giải thích chất lượng đường truyền điện thoại với tần số lấy mẫu 8kHz chuẩn nén thoại làm Bảng Thống kê kết làm với liệu thoại theo số segment Tổng Đã làm Bỏ qua 224839 30116 194723 13% 87% Tỷ lệ bỏ qua cao dẫn đến suất bị giảm, người transcriber phải nghe trung bình 100 segment mà lấy 13 segment để gõ văn thời gian nghe 87 câu bỏ qua Vấn đề đặt giảm tỷ lệ bỏ qua xuống mà giữ chất lượng liệu PHƯƠNG PHÁP ĐỀ XUẤT Nhiệm vụ xây dựng thuật toán để lọc câu có khả bỏ qua trước đẩy lên hệ thống voicetrans Để làm điều đó, ta cần phân tích đặc điểm câu bỏ qua, so với câu thông thường từ xem đặc tính khác biệt để làm tiêu chí nhận diện Trong nghiên cứu ban đầu này, giá trị trị số tin cậy - confidence score (CS) sử dụng để làm tiêu chí đánh giá Với câu đưa vào hệ thống nhận dạng tiếng nói CS tính tỷ số xác suất 99 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 giả thuyết nhận dạng tốt chia cho tổng xác suất tất top-N giả thuyết có [2] Ví dụ CS tiệm cận đến tức xác suất giả thiết nhận dạng tốt lớn nhiều giả thuyết cịn lại Do ta dùng số để đánh giá độ “dễ” hay “khó” đoạn tiếng nói hệ thống nhận dạng KẾT QUẢ THỬ NGHIỆM Trong nghiên cứu này, ta tìm hiểu ta dùng CS để làm tiêu chí nhận diện ta lọc % câu có khả bị bỏ qua Trong sở liệu có 224.839 câu ta chọn ngưỡng câu có CS > 0,7 đưa vào hệ thống voicetrans Bảng Thống kê kết trước sau dùng CS để lọc liệu Hình Biểu đồ biễu diễn phân bố confidence score với câu làm bỏ qua Hình biễu diễn phân bố CS với câu làm bỏ qua với 1000 câu làm 1000 câu ngẫu nhiên lấy từ tập làm bỏ qua, trục tung CS Ta thấy rằng, trung bình CS câu làm cao câu bỏ qua Từ phân tích trên, chúng tơi đề xuất thuật tốn đơn giản để giảm tỷ lệ bỏ qua sau: Bước 1: Nhận dạng câu sở liệu Bước 2: Tính tính confidence score câu Bước 3: Lựa chọn câu có confidence score >  để đưa lên hệ thống voicetrans cho transcriber làm Trong α giá trị định nghĩa trước dải (0, 1) Lọc Tổng Đã làm Bỏ qua Không 224.839 (100%) 30.116 (13%) 194.723 (87%) CS>0,7 198.637 (100%) 29.423 (15%) 169.214 (85%) Từ bảng ta thấy ta dùng CS > 0,7 tiêu chí lọc tổng số câu giảm từ 224.839 xuống 198.637 Trong đó, số câu bỏ qua giảm từ 194.723 xuống 169.214 tỷ lệ bỏ qua (skip-rate) giảm từ 87% xuống 85% Tuy nhiên số câu làm bị lọc bớt số Tỷ lệ giữ lại câu làm (retain-rate) = 29.423/30.116 = 98% Hình biểu diễn mối quan hệ skiprate retain-rate theo giá trị CS khác Ta thấy CS = tức ta lọc, tỷ lệ bỏ qua 87% ta giữ 100% số câu gõ text Ta tăng ngưỡng lên ta giảm tỷ lệ bỏ qua, nhiên ta loại bỏ câu gõ text (thể qua đường retain giảm), điều tức ta cần nhiều liệu thô để làm Ví dụ với ngưỡng CS = 0.9 tỷ lệ bỏ qua giảm 73% ta giữ lại 45% câu gõ text Tức với lượng câu hoàn thiện ta cần sử dụng nhiều gấp đôi liệu thô đầu vào Từ hình ta chọn ngưỡng cho tỷ lệ bỏ qua giảm nhanh tỷ lệ retain khơng giảm q, ví dụ điểm CS = 0.94 100 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 NHẬN XÉT Ta thấy rằng, dùng CS ta làm tiêu chí lọc để giảm tỷ lệ bỏ qua từ 87% xuống 61% tương đương với việc nghe 100 câu làm 39 câu thay 13 câu Tuy nhiên tỉ lệ liệu giữ lại so với liệu gốc 10% tức để làm khối liệu thành phẩm, ta cần tăng khối lượng liệu thô lên gần 10 lần Do phương pháp áp dụng với trường hợp ta có nhiều liệu thơ Ngồi CS đặc trưng mức cao (highlevel feature), ta phân tích tương quan, ảnh hưởng đặc trưng mức thấp (low-level feature) zero-crossing rate, average energy, SNR, RMS,… đến câu bỏ qua Và tiến tới ta nghiên cứu xây dựng mơ hình học máy để phát câu mà người dùng có xu hướng bỏ qua KẾT LUẬN Trong nghiên cứu này, ta nghiên cứu sử dụng đặc trưng confidence score nhận dạng tiếng nói làm tiêu chí lọc nhằm loại bỏ câu mà người làm liệu tiếng nói thường bỏ qua Trong tương lai ta cần nghiên cứu bổ sung thêm đặc trưng khác giúp việc lọc trở nên hiệu TÀI LIỆU THAM KHẢO [1] Hinton, Geoffrey, et al "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE Signal processing magazine 29.6 (2012): 82-97 [2] Jiang, Hui "Confidence measures for speech recognition: A survey." Speech communication 45.4 (2005): 455-470 Hình Tỷ lệ % bỏ qua % liệu làm giữ lại (retain) theo CS 101 ... diễn mối quan hệ skiprate retain-rate theo giá trị CS khác Ta thấy CS = tức ta lọc, tỷ lệ bỏ qua 87% ta giữ 100% số câu gõ text Ta tăng ngưỡng lên ta giảm tỷ lệ bỏ qua, nhiên ta loại bỏ câu gõ... 224.839 xuống 198.637 Trong đó, số câu bỏ qua giảm từ 194.723 xuống 169.214 tỷ lệ bỏ qua (skip-rate) giảm từ 87% xuống 85% Tuy nhiên số câu làm bị lọc bớt số Tỷ lệ giữ lại câu làm (retain-rate) =... làm bỏ qua Hình biễu diễn phân bố CS với câu làm bỏ qua với 1000 câu làm 1000 câu ngẫu nhiên lấy từ tập làm bỏ qua, trục tung CS Ta thấy rằng, trung bình CS câu làm cao câu bỏ qua Từ phân tích trên,

Ngày đăng: 10/07/2022, 13:28