a. Cơ sở dữ liệu
Cơ sở dữ liệu được sử dụng để nhận dạng là cơ sở dữ liệu được ghi lại trong một tổng đài dịch vụ tư vấn y tế (call center) tại Pháp.
Dữ liệu sử dụng khoảng 10 giờ ghi âm bao gồm 404 cuộc đối thoại giữa nhân viên hỗ trợ và khách hàng gọi tới (agent-callers) trong đó 6 nhân viên hỗ trợ và 404 khách hàng.
Bảng 1.1: Đặc điểm của cơ sở dữ liệu: 404 hộp thoại agent-callers, trong khoảng 10 giờ, M là nam, F là nữ
Đặc điểm Dữ liệu
Nhân viên hỗ trợ 6 (2M, 4F)
Khách hàng 404 (152M, 266F)
Các cuộc hội thoại được nghe, loại bỏ các đoạn nhầm lẫn và được gán nhãn với 2 loại cảm xúc: tiêu cực (negative- NEG), tích cực (positive - POS).
Hệ thống phát hiện cảm xúc được xây dựng từ 800 phân đoạn cảm xúc không có sự nhầm lẫn, 400 phân đoạn cho mỗi cảm xúc (tiêu cực và tích cực).
Bộ dữ liệu được chia thành 5 tập (4 tập cho đào tạo và 1 tập cho thử nghiệm). b. Phương pháp thực hiện
Nhóm tác giả sử dụng chương trình Praat để trích chọn đặc trưng ngữ điệu (F0
và năng lượng), phổ (formants và băng thông) của tín hiệu. Sau đó sử dụng phần mềm WEKA (SVM, Oner, CfsSubset, GainRatio) để chọn 20 đặc trưng tốt nhất cho phát hiện cảm xúc tích cực và tiêu cực.
Với các đặc trưng được lựa chọn thì hai mô hình khác nhau đã được lựa chọn để huấn luyện:
- SVM (Support Vector Machines): các thuật toán tìm kiếm một hyperplan tối ưu để tách dữ liệu.
- LMT (Logistic Model Tree): cây phân loại với các chức năng hồi quy logic ở nút lá.
Tất cả các thí nghiệm đã được thực hiện bằng cách sử dụng jack-Knifing với 5 tập con (4 tập con được sử dụng để đào tạo và một cho kiểm tra) các thử nghiệm được lặp lại 4 lần với mỗi nhóm được sử dụng để kiểm tra. Thủ tục này được lặp đi lặp lại 20 lần với tập con khác nhau.
c. Kết quả
Bảng 1.2: Kết quả nhận dạng (%) theo số đặc trưng được lựa chọn: số trong ngoặc là độ lệch chuẩn. SVM LMT 5 đặc trưng tốt nhất 80.28 (3.71) 80.69 (3.14) 10 đặc trưng tốt nhất 82.68 (3.17) 82.65 (3.28) 15 đặc trưng tốt nhất 83.17 (2.94) 83.49 (3.03) 20 đặc trưng tốt nhất 83.36 (3.02) 83.42 (3.35) Tất cả các đặc trưng 83.16 (2.74) 82.85 (3.36)