Một phương pháp tăng cường dữ liệu cho bài toán nhận dạng ngữ điệu tiếng nói

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	3
Dung lượng	297,8 KB

Nội dung

Bài viết Một phương pháp tăng cường dữ liệu cho bài toán nhận dạng ngữ điệu tiếng nói đề xuất phương pháp thay đổi tốc độ để gia tăng dữ liệu học giúp tăng chất lượng nhận dạng cảm xúc. Kết quả thử nghiệm trên tập dữ liệu IEMOCAP cho 4 lớp ngữ điệu khác nhau: Angry, happy, neutral, sad cho kết quả khả quan.

Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 MỘT PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU CHO BÀI TỐN NHẬN DẠNG NGỮ ĐIỆU TIẾNG NĨI Lê Đăng Linh1,2, Đỗ Văn Hải3 Khoa Điện, Trường Đại học Bách Khoa Hà Nội Trung tâm Không gian Mạng Viettel Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1 GIỚI THIỆU CHUNG Hiện nay, có nhiều ứng dụng thực tế cần thông tin cảm xúc tiếng nói Ví dụ hệ thống tổng đài chăm sóc khách hàng, việc đánh giá mức độ hài lịng thái độ người dùng giúp cho việc nâng cao chất lượng dịch vụ vô cần thiết Trong năm gần đây, phương pháp học sâu đem lại tiến vượt bậc xử lý tiếng nói [1,2] Đặc biệt với tốn nhận dạng cảm xúc lời nói [3] Những nghiên cứu gần [4] việc sử dụng mạng nơ-ron tích chập (CNN) làm phân lớp cho tốn nhận dạng ngữ điệu tiếng nói cho kết tốt nhiều so với phương pháp truyền thống khác mơ hình GMM, mơ hình mạng nơ-ron sâu (DNN) Tuy nhiên liệu cho việc đào tạo mơ hình khó khăn lớn đặt liệu tiếng nói nói chung đặc biệt liệu cảm xúc nói riêng có khó tìm Do phương pháp gia tăng liệu học cho toán cần nghiên cứu, thử nghiệm Trong bài đề xuất phương pháp thay đổi tốc độ để gia tăng liệu học giúp tăng chất lượng nhận dạng cảm xúc Kết thử nghiệm tập liệu IEMOCAP [5] cho lớp ngữ điệu khác nhau: angry, happy, neutral, sad cho kết khả quan PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Xây dựng hệ thống Hệ thống nhận dạng cảm xúc tiếng nói xây dựng dựa mơ hình phân lớp liệu Hệ thống bao gồm phần chính: xử lý liệu, trích chọn đặc trưng, huấn luyện nhận dạng Hình Cấu trúc hệ thống nhận dạng Trong tốn này, trích chọn đặc trưng cảm xúc vấn đề ảnh hưởng tới chất lượng hệ thống Rất nhiều nghiên cứu đề xuất sử dụng đặc trưng tiếng nói [6] bao gồm thông tin cảm xúc energy, pitch, formant frequency, MelFrequency Cepstrum coefficients (MFCC) Những đặc trưng sau lựa chọn đưa qua thuật tốn phân lớp.Trong báo chúng tơi sử dụng mạng CNN giúp đem lại chất lượng nhận dạng tốt Bên cạnh việc lựa chọn đặc trưng mô hình phân lớp liệu yếu tố quan trọng định tới tính xác hệ thống nhận dạng tiếng nói 2.2 Tăng cường liệu học Như đề cập lượng liệu cho tốn nhận dạng cảm xúc so với tốn học máy Do chúng tơi đề xuất kĩ thuật làm giàu liệu học cách thay đổi tỉ lệ tốc độ Phương pháp chứng minh đạt hiệu cao toán 201 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 nhận dạng tiếng nói [7] Với tín hiệu tiếng nói x(t) biến đổi thành tín hiệu x(αt) Thay đổi tốc độ audio đồng nghĩa với việc thay đổi độ dài file làm biến dạng giọng nói Đặc biệt với cảm xúc thay đổi tốc độ lớn làm biến dạng cảm xúc mà file audio thể Do chúng tơi sử dụng hệ số α nằm dải (0,9; 0,95; 1,05; 1,1) giúp cho liệu không bị biến dạng nhiều mà đặc trưng cảm xúc Dữ liệu sau sử dụng phương pháp gia tăng đáng kể giúp cho mơ hình tránh vấn đề khớp đồng thời tăng độ xác mơ hình KẾT QUẢ NGHIÊN CỨU 3.1 Thiết lập thí nghiệm 3.1.1 Xử lý liệu Để đánh giá tính hiệu phương pháp, chúng tơi sử dụng lớp liệu: angry, happy, neutral, sad tập IEMOCAP Với số lượng mẫu bao gồm: 1103 mẫu angry, 595 mẫu happy, 1708 mẫu neutral, 1084 mẫu sad Tập liệu có phân bố lớp khơng nhau, đặc biệt lớp neutral có số lượng liệu lớn gấp lần so với lớp happy, điều gây ảnh hưởng lớn tới độ xác mơ hình dự đốn Để giải vấn đề chúng tơi thử nghiệm phương án • Phương án 1: sử dụng oversampling lớp happy (tăng liệu lớp happy lên lần) • Phương án 2: gộp liệu có nhãn excited vào nhãn happy Kết cho thấy phương án cho kết tốt tập validation (61,5% so với 59,1%) Để đưa liệu vào mạng CNN, cần chuyển tín hiệu từ âm sang ma trận chiều Do tập liệu IEMOCAP có độ dài phân bố khơng (Hình 2) với độ dài trung bình 4,5s nhiều phần khơng có tiếng nói Do vậy, để chuẩn hóa đầu vào, chúng tơi loại bỏ khoảng lặng câu công cụ sox sau chúng tơi cắt audio thành đoạn có độ dài 3s dịch 0,5s (những file có độ dài nhỏ 1s bị loại bỏ, file lại chèn thêm phần khoảng lặng) Hình Phân phối liệu theo độ dài tập liệu IEMOCAP Trong báo xem xét sử dụng đặc trưng MFCC Đặc trưng bao gồm thơng tin tần số, lượng tín hiệu âm Với đoạn có độ dài 3s, chúng tơi sử dụng cửa sổ có độ dài 30ms dịch 15ms; từ tính vector MFCC có 40 thành phần Do đầu vào mạng CNN ma trận có kích thước 40x199 3.1.2 Cài đặt tham số mơ hình Mơ hình mạng nghiên cứu chúng tơi sử dùng mạng tích chập (CNN) Mạng CNN chúng tơi sử dụng gồm lớp tích chập để trích xuất đặc trưng mức cao Sau lớp CNN sử dụng phương pháp drop out (xác suất loại bỏ 0,5) giúp tránh việc overfitting q trình huấn luyện mơ hình Sau đó, đưa kết thu vào lớp softmax để tính tốn xác suất mẫu đầu vào theo lớp Cùng với để phân lớp đầu sử dụng hàm mát cross-entropy Tại lớp mạng CNN, sử dụng 64 kernel với kích thước 40×8, lớp thứ với 128 kernel 20×4 Chúng tơi sử dụng 80% liệu để huấn luyện đánh giá mơ hình (tỉ lệ train:valid=80:20), 20% cịn lại để test mơ hình Mơ hình huấn luyện qua 1500 epoch với batch size 64 với thuật toán stochastic gradient descent Tốc độ học chọn giảm qua 500 epoch: 0.001; 0.0005; 0.0001 202 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 3.2 Phương pháp đánh giá KẾT LUẬN Để đánh giá độ xác mơ hình chúng tơi sử dụng thang đo Weighted Accuracy (WA) Unweighted Accuracy (UA): • WA: tính tổng số dự đoán tổng số mẫu: WA = t n • UA: tính giá trị trung bình độ xác lớp: UA = c ti ∑ C i =1 ni 3.3 Kết thí nghiệm Kết cho thấy phương pháp làm giàu liệu đạt 61,54% (UA) 60,7% (WA) Với liệu gốc kết thu được: 43,9% (UA) 63,46% (WA) So với liệu gốc ban đầu độ xác UA tăng 17,6%, giảm 2,7% so với WA Đồng thời tỉ lệ nhận dạng sai lớp happy giảm đáng kể so với chưa sử dụng phương pháp cân liệu làm giàu liệu học Mặc dù, tỉ lệ nhận sai lớp angry, neutral sad có giảm với việc tăng đáng kể độ xác nhận dạng lớp happy giúp độ tin cậy mơ hình tăng lên vượt trội Bảng Confusion matrix với liệu gốc ang hap neu sad ang 74.9% 0.6% 21.8% 15.9% hap 25.1% 3.4% 52.0% 19.4% neu 10.2% 0.1% 73.8% 15.9% sad 4.0% 0.5% 27.7% 67.8% Bảng Confusion matrix với data augmentation cân liệu ang hap neu sad ang 65.9% 10.6% 7.7% 15.9% hap 3.1% 86.0% 0.1% 10.8% neu 18.5% 20.8% 37.3% 23.5% sad 8.5% 26.1% 8.5% 57.0% Trong báo này, đề xuất phương án làm giàu liệu học cho toán nhận dạng cảm xúc xử lý cân liệu Kết cho thấy mơ hình nhận dạng đạt kết xác 17.6% so với liệu gốc ban đầu Bên cạnh độ chênh lệch metric unweighted accuracy weighted accuracy giảm đáng kể phương pháp cân liệu học lớp Mặc dù phương pháp cải thiện đáng kể độ xác mơ hình, chúng tơi cố gắng cải thiện cách tiếp cận khác việc kết hợp mạng tích chập mạng hồi quy; kết hợp thêm đặc trưng tiếng nói khác Mơ hình có khả mang lại kết tốt hơn, độ tin cậy cao tập liệu thực tế TÀI LIỆU THAM KHẢO [1] D Amodei and etc 2015.“Deep speech 2: End-to-end speech recognition in english and mandarin,” in Proc of ICML [2] I Medennikov, A Prudnikov, and A Zatvornitskiy 2016 “Improving english conversational telephone speech recognition,” in Proc of Interspeech pp 2–6 [3] J Lee and I.Tashev 2015 “High-level feature representation using recurrent neural network for speech emotion recognition,” in Proc of Interspeech [4] M.Neumann, T.N Vu 2015."Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of Input Features, Signal Length, and Acted Speech" ArXiv e-prints [5] C Busso, M Bulut, C.-C Lee, A Kazemzadeh, E Mower, S Kim, J N Chang 2008 S Lee, and S S Narayanan, “Iemocap: interactive emotional dyadic motion capture database,” Language Resources and Evaluation, vol 42, no 4, pp 335–359 [6] V Surabhi and M Saurabh 2016."Speech Emotion Recognition: A review", IRJET [7] T Ko, V Peddinti, D Povey, and S Khudanpur 2015 "Audio Augmentation for Speech Recognition", in Proceedings of INTERSPEECH 203 ... lệ nhận dạng sai lớp happy giảm đáng kể so với chưa sử dụng phương pháp cân liệu làm giàu liệu học Mặc dù, tỉ lệ nhận sai lớp angry, neutral sad có giảm với việc tăng đáng kể độ xác nhận dạng. .. biến dạng cảm xúc mà file audio thể Do chúng tơi sử dụng hệ số α nằm dải (0,9; 0,95; 1,05; 1,1) giúp cho liệu không bị biến dạng nhiều mà đặc trưng cảm xúc Dữ liệu sau sử dụng phương pháp gia tăng. .. nghiệm phương án • Phương án 1: sử dụng oversampling lớp happy (tăng liệu lớp happy lên lần) • Phương án 2: gộp liệu có nhãn excited vào nhãn happy Kết cho thấy phương án cho kết tốt tập validation

Ngày đăng: 30/07/2022, 16:21