Phương pháp phân tách, nhận dạng tiếng nói trong tổng đài chăm sóc khách hàng

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết Phương pháp phân tách, nhận dạng tiếng nói trong tổng đài chăm sóc khách hàng trình bày một phương pháp để phân tách và nhận dạng lời nói của điện thoại và khách hàng trong một cuộc trò chuyện qua tổng đài chăm sóc khách hàng. Thông tin về tiếng nói được sử dụng để phân cụm các đoạn giọng nói thành hai cụm.

Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 PHƯƠNG PHÁP PHÂN TÁCH, NHẬN DẠNG TIẾNG NÓI TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn MỞ ĐẦU Ngày nay, số lượng gọi chăm sóc khách hàng tăng lên nhanh chóng nhiều lĩnh vực viễn thơng, tài chính, điện lực, bán lẻ,… Do đó, để biết mong muốn, băn khoăn khách hàng điện thoại viên có tư vấn xác, mực hay khơng nhu cầu cấp thiết người quản lý Việc thực thủ cơng cách sử dụng người giám sát nghe ngẫu nhiên số gọi Tuy nhiên phương pháp tốn nhân lực, chậm trễ mặt thời gian thông tin thu lại phụ thuộc vào chủ quan người giám sát Trong nghiên cứu trước [1], sử dụng công nghệ nhận dạng tiếng nói để chuyển đổi tồn gọi chăm sóc khách hàng thành văn Sau áp dụng công nghệ xử lý ngôn ngữ tự nhiên để phân tích nội dung, sắc thái văn từ biết nội dung cảm xúc khách hàng Để làm điều này, cần thực nhận dạng giọng nói riêng biệt cho phía khách hàng phía điện thoại viên Tuy nhiên, nhiều tổng đài Việt Nam, luồng tín hiệu âm điện thoại viên khách hàng bị trộn lẫn với nhiều nguyên nhân tiết kiệm dung lượng phần cứng, lưu trữ Điều dẫn đến hệ thống giám sát [1] hoạt động khơng xác ta biết đoạn âm điện thoại viên hay khách hàng nói Lý là, câu nói nói người điện thoại viên có ý nghĩa khác với lời nói khách hàng Do đó, để giám sát tổng đài vậy, điều quan trọng phải phân tách đoạn khách hàng, đoạn điện thoại viên nói Trong báo này, đề xuất phương pháp để xác định lời nói điện thoại viên khách hàng điện thoại có hai kênh trộn lẫn vào Đầu tiên, ta phân cụm phân đoạn giọng nói hội thoại kênh hỗn hợp thành hai cụm cách sử dụng thông tin đặc trưng người nói tiếng nói Sau đó, kỹ thuật mơ hình hóa ngơn ngữ hoạt động với hệ thống nhận dạng tiếng nói (ASR) để xác định nhãn điện thoại viên / khách hàng cho phân đoạn Kết thực nghiệm cho thấy độ xác phương pháp đề xuất 95% PHƯƠNG PHÁP ĐỀ XUẤT Phương pháp đề xuất bao gồm bước sau Bước 1: thu thập liệu tiếng nói gọi tổng đài để phân tách, gán nhãn văn thủ công Bước thực phương thức khác lấy tệp tiếng nói trực tiếp từ thiết bị lưu trữ ổ đĩa cứng, băng từ,… thông qua kết nối mạng liệu, tệp ứng với gọi tổng đài Bước 2: phân tách gán nhãn văn cho tệp tiếng nói Tại bước này, đưa tệp tiếng nói bước lên hệ thống gán nhãn để người gán nhãn nghe, phân tách gán nhãn văn cho phần nói điện thoại viên khách hàng Đầu bước tập tiếng nói phân loại gán nhãn riêng biệt thành tập tiếng nói điện thoại viên tập tiếng nói khách hàng 104 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 Bước 3: tạo tập huấn luyện kiểm thử Theo đó, liệu tiếng nói gán nhãn tệp điện thoại viên tệp khách hàng bước ≥ Hlabel_min liệu, Hlabel_min ≥ 10 nhằm đảm bảo tập liệu đủ lớn Người quản trị định lựa chọn số tệp tiếng nói gán nhãn bước để tạo tập huấn luyện, tệp lại sử dụng để tạo tập kiểm thử với yêu cầu kích thước tập kiểm thử cần lớn Htest_min liệu, Htest_min ≥ nhằm đảm bảo tập kiểm thử đủ lớn tin cậy Bước 4: xây dựng hai mơ hình ngơn ngữ, LMa cho điện thoại viên LMb cho khách hàng dựa tập liệu huấn luyện tạo bước nhằm lưu trữ đặc điểm ngôn ngữ nói cụm từ thường xuyên nói điện thoại viên khách hàng từ để phân biệt câu nói điện thoại viên hay khách hàng bước sau Trong nghiên cứu này, mơ hình ngơn ngữ xây dựng 4-gram Bước 5: thu thập liệu tiếng nói gọi tổng đài cần phân tách, nhận dạng tự động Bước thực phương thức khác lấy tệp tiếng nói trực tiếp từ thiết bị lưu trữ ổ đĩa cứng, băng từ,… thông qua kết nối mạng liệu, tệp ứng với gọi tổng đài Bước 6: tự động cắt tệp tiếng nói thành đoạn nhỏ Với tệp tiếng nói thu bước 5, tiếng nói tự động cắt thành đoạn dựa theo đặc tính tín hiệu Trong nghiên cứu này, chúng tơi dựa vào mơ hình học máy huấn luyện trước để phân biệt phần tiếng nói, phần khơng phải tiếng nói người Bước 7: trích chọn véc tơ đặc trưng người nói Tất các đoạn tiếng nói thu bước trích chọn véc tơ đặc trưng người nói cách sử dụng mạng trích chọn đặc trưng huấn luyện trước mạng nơ rơn học sâu (DNN) [2] Với đoạn tiếng nói thu véc tơ đặc trưng người nói tương ứng Bước 8: phân cụm đoạn tiếng nói Với tệp tiếng nói, phân cụm đoạn tiếng nói bước thành cụm C1 C2 dựa véc tơ đặc trưng người nói trích xuất bước Bước 9: chuyển đổi tiếng nói sang văn Tất đoạn tiếng nói bước chuyển sang văn cách sử dụng hệ thống nhận dạng tiếng nói Với đoạn tiếng nói thu văn tương ứng số độ tin cậy nhận dạng DTC có giá trị từ đến Bước 10: lựa chọn đoạn tiếng nói thỏa mãn điều kiện làm phân loại Với tệp tiếng nói, lựa chọn đoạn tiếng nói bước thỏa mãn điều kiện: có độ tin cậy DTC ≥ α, 0,5 ≤ α ≤ 0,95 nhằm loại bỏ đoạn tiếng nói có độ tin cậy thấp thường đoạn tiếng nói có chất lượng môi trường nhiễu ảnh hưởng đến chất lượng hệ thống phân loại Nếu không lựa chọn đoạn tiếng nói thỏa mãn, bỏ qua tệp chuyển sang tệp tiếng nói Bước 11: phân loại đoạn tiếng nói điện thoại viên khách hàng Với đoạn tiếng nói lựa chọn bước 10 chia thành hai cụm bước 8, tính: PPLa1, PPLa2, PPLb1, PPLb2 số độ hỗn loạn (perplexity) cho mơ hình ngơn ngữ LMa, LMb bước tính với tập liệu văn đoạn tiếng nói lựa chọn bước 10 PPLa1, PPLb1 tính ứng với đoạn cụm C1 PPLa2, PPLb2 ứng với đoạn cụm C2 Ta thấy rằng, cụm C1 tiếng nói điện thoại viên, C2 tiếng nói khách hàng mơ hình ngơn ngữ điện thoại viên LMa cho giá trị PPLa1 thấp, PPLa2 cao Trong ngược lại mơ hình ngôn ngữ khách hàng, LMb cho giá trị PPLb1 cao PPLb2 thấp Điều dẫn đến w cơng thức có giá trị nhỏ Thuật tốn phân tách sau: w ≤ θ, tồn đoạn tiếng nói cụm C1 105 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 xác định điện thoại viên, toàn đoạn tiếng nói cụm C2 xác định khách hàng ngược lại w > θ, tồn đoạn tiếng nói cụm C2 xác định điện thoại viên, toàn đoạn tiếng nói cụm C1 xác định khách hàng Trong nghiên cứu ngưỡng θ đơn giản gán THỬ NGHIỆM Chúng sử dụng liệu sử dụng để đào tạo (ở bước 3) với tổng số 316,3 Các liệu đào tạo sử dụng để đào tạo hệ thống nhận dạng tiếng nói, trích xuất véc tơ đặc trưng người nói hai mơ hình ngơn ngữ LMa, LMb Tập kiểm thử bao gồm 561 hội thoại ghi lại từ tổng đài Viettel Từ 561 phân tách thành 29.508 đoạn 15.308 đoạn dành cho điện thoại viên 14.200 đoạn dành cho khách hàng Chúng sử dụng cơng cụ nhận dạng giọng nói Kaldi [3] sử dụng để xây dựng mơ-đun nhận dạng giọng nói, trích xuất i-vector Đặc trưng đầu vào sử dụng MFCC có 40 chiều kết hợp với đặc trưng tần số để tăng độ xác với ngơn ngữ có điệu cho tiếng Việt [1] Mơ hình âm học sử dụng để mơ hình hóa phân bố đặc điểm âm vị khác Chúng sử dụng mạng nơron trễ thời gian (TDNN) nhớ dài ngắn hai chiều (BLSTM) [4] làm mơ hình âm Các thiết lập khác tương tự [1] Mơ hình ngơn ngữ sử dụng 4-gram với tính làm mịn Kneser-Ney Bảng Kết phân loại điện thoại viên/ khách hàng Thực tế Điện thoại Khách viên hàng Nhận dạng Điện thoại viên 14.566 (95,15%) 662 (4,66%) Khách hàng 742 (4,85%) 13.538 (95,34%) Bảng biểu diễn kết phân loại điện thoại viên / khách hàng Có thể thấy điện thoại viên khách hàng, độ xác đạt 95% Chỉ 4,66% câu nói khách hàng nhận điện thoại viên 4,85% câu nói điện thoại viên dự đốn khách hàng KẾT LUẬN Bài báo trình bày phương pháp để phân tách nhận dạng lời nói điện thoại khách hàng trị chuyện qua tổng đài chăm sóc khách hàng Thơng tin tiếng nói sử dụng để phân cụm đoạn giọng nói thành hai cụm Sau đó, sử dụng đặc trưng ngôn ngữ để gán nhãn câu nói điện thoại viên hay khách hàng dựa vào giả thuyết, cách nói người khác điện thoại Kết thực nghiệm cho thấy phương pháp đề xuất đạt độ xác cao (trên 95%) Một số cơng việc tiến hành tương lai:  Cải thiện độ xác phương pháp phân cụm trường hợp liệu cân nặng, tức trị chuyện chủ yếu nói điện thoại viên khách hàng  Sử dụng phương pháp dựa mạng nơron để phân loại văn thay phương pháp mơ hình ngơn ngữ n-gram đơn giản TÀI LIỆU THAM KHẢO [1] Quoc Bao Nguyen, Ba Quyen Dam, Van Hai Do and Minh Hung Le "Development of a Vietnamese speech recognition system for Viettel call center." In O-COCOSDA IEEE, 2017 [2] Kanagasundaram, Ahilan, et al "I-vector based speaker recognition on short utterances." In INTERSPEECH, 2011 [3] Povey, Daniel, et al "The Kaldi speech recognition toolkit." IEEE 2011 workshop on automatic speech recognition and understanding IEEE Signal Processing Society, 2011 [4] Povey, D., Hadian, H., Ghahremani, P., Li, K., & Khudanpur, S “A time-restricted self-attention layer for ASR” In ICASSP, pp 5874-5878, 2018 106 ... Bài báo trình bày phương pháp để phân tách nhận dạng lời nói điện thoại khách hàng trị chuyện qua tổng đài chăm sóc khách hàng Thơng tin tiếng nói sử dụng để phân cụm đoạn giọng nói thành hai cụm... Với đoạn tiếng nói thu véc tơ đặc trưng người nói tương ứng Bước 8: phân cụm đoạn tiếng nói Với tệp tiếng nói, phân cụm đoạn tiếng nói bước thành cụm C1 C2 dựa véc tơ đặc trưng người nói trích... Bước 9: chuyển đổi tiếng nói sang văn Tất đoạn tiếng nói bước chuyển sang văn cách sử dụng hệ thống nhận dạng tiếng nói Với đoạn tiếng nói thu văn tương ứng số độ tin cậy nhận dạng DTC có giá trị

Ngày đăng: 09/07/2022, 15:56