KẾT QUẢ THỰC NGHIỆM

Một phần của tài liệu Nhận diện cảm xúc kết hợp tiếng nói và văn bản (Trang 39 - 43)

3.1 Giới thiệu

Sau quá trình huấn luyện mô hình trên tập dataset IEMOCAP [3] với các tham số huấn luyện như đã đề cập ở mục 2.4.3 và 2.5.3 ở trên để tìm ra phương pháp, kết quả tốt nhất. Đánh giá dựa trên độ chính xác (accuracy-ACC).

 Nhận dạng cảm xúc từ tiếng nói

 Chưa tăng cường dữ liệu (Non-Augmentation):

- Có 2 tùy chọn trích xuất đặc trưng: MFCC [5], Melspectrogram [4]

- Có 2 tùy chọn mô hình: CNN, CNN area attention [1]

 Có tăng cường dữ liệu (Augmentation):

- Có 1 tùy chọn trích xuất đặc trưng: Melspectrogram [4]

- Có 2 tùy chọn mô hình: CNN, CNN area attention [1]

Vậy tăng cường dữ liệu (Augmentation) là gì? Tăng cường dữ liệu là 1 phương pháp thay đổi một số thuộc tính nhằm sinh thêm dữ liệu cho phong phú, đa dạng. Bởi vì dữ liệu tiếng nói của tập IEMOCAP [3] còn ít nên em áp dụng phương pháp VTLP [11]

(Vocal Tract Length Perturbation) của thư viện nlpaug [11] để làm nhiễu loạn chiều dài đường thanh âm nhằm làm phong phú, đa dạng thêm dữ liệu.

 Nhận dạng cảm xúc từ băn bản

Có 2 tùy chọn mô hình: các mô hình truyền thống (MLP [12], LR [13], RF [14], LSTM [15]) với mô hình BERT [2] [8].

Môi trường:

 Colab pro

 Tensorflow > 2.0

 Pytorch

 Transformer

 Keras

3.2 Kết quả thực nghiệm

3.2.1 Kết quả nhận dạng cảm xúc từ tiếng nói a) Chưa tăng cường dữ liệu (Non-Augmentation)

 Có 2 tùy chọn trích xuất đặc trưng: MFCC [5], Melspectrogram [4]

 Có 2 tùy chọn mô hình: CNN, CNN area attention [1]

Sau khi tiến hành huấn luyện và kiểm thử mô hình với các tham số đã trình bày ở mục 2.4.3 ở trên thì em thu được bảng kết quả sau:

Mô hình Đặc

trưng

CNN (%) CNN area attention (%)

MFCC 68.8 74.8

Melspectrogram 72.4 79.6

Bảng 3.1. Kết quả nhận diện cảm xúc từ tiếng nói khi chưa tăng cường dữ liệu (độ đo accuracy)

b) Có tăng cường dữ liệu (Augmentation)

Bởi vì thực nghiệm trên trích xuất đặc trưng MFCC có độ chính xác thấp hơn so với Melspectrogram nên em chỉ tăng cường dữ liệu cho trích xuất đặc trưng Melspectrogram.

 Có 1 tùy chọn trích xuất đặc trưng: Melspectrogram [4]

 Có 2 tùy chọn mô hình: CNN, CNN area attention [1]

Sau khi tiến hành huấn luyện và kiểm thử mô hình với các tham số đã trình bày ở mục 2.4.3 ở trên thì em thu được bảng kết quả sau:

Mô hình Đặc

trưng

CNN (%) CNN area attention (%)

Melspectrogram 73.2 80.08

Bảng 3.2. Kết quả nhận diện cảm xúc từ tiếng nói khi tăng cường dữ liệu (độ đo accuracy)

Kết luận: Dựa vào 2 bảng kết quả trên, em nhận thấy rằng nhận dạng cảm xúc dựa trên tín hiệu tiếng nói khi trích chọn đặc trưng Melspectrogram với kiến trúc model CNN kết hợp area attention, đồng thời có tăng cường dữ liệu (Augmentation) ta thu được kết quả tốt nhất với độ chính xác (~ 0.80).

3.2.2 Kết quả nhận dạng cảm xúc từ văn bản a) Các model truyền thống

 Random Forest (RF): có các tham số huấn luyện: tree = 600, depth = 25.

 Logistic Regression (LR): có các tham số huấn luyện: max_iter =1000, multi_class = ‘multinomial’.

 Multi Layer Perceptron (MLP): có các tham số huấn luyện:

hidden_layer_sizes = (500,), activation = ‘relu’, solver = ‘adam’.

 Long Short Term Memory (LSTM): có các tham số huấn luyện:

hidden_layer = 4, dropout = 0.2, optimizer = ‘adam’.

Mô hình Accuracy (%)

Random Forest (RF) 62.2 Logistic Regression (LR) 64.2 Multi Layer Perceptron (MLP) 60.6 Long Short Term Memory (LSTM) 63.1

Bảng 3.3. Kết quả nhận diện cảm xúc từ văn bản khi áp dụng các mô hình truyền thống

Mô hình Accuracy (%)

BERT 71.6

Bảng 3.4. . Kết quả nhận diện cảm xúc từ văn bản khi áp dụng mô hình BERT Kết luận: Dựa vào 2 bảng kết quả trên, em nhận thấy rằng khi nhận dạng cảm xúc dựa trên văn bản thì việc huấn luyện trên mô hình BERT [8] [2] cho kết quả tốt nhất (~ 0.72), tốt hơn nhiều so với các mô hình truyền thống như: MLP [12], LR [13], RF [14], LSTM [15], …

3.2.3 Kết quả nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Em lựa chọn mô hình tốt nhất của nhận dạng cảm xúc từ tiếng nói và mô hình tốt nhất của nhận dạng cảm xúc từ văn bản tổng hợp lại.

Mô hình Accuracy (%)

Combine 81.8

Bảng 3.5. Kết quả nhận diện cảm xúc kết hợp tiếng nói và văn bản

Kết luận: Dựa vào bảng kết quả trên ta thấy khi kết hợp cả nhận diện cảm xúc từ tiếng nói và nhận diện cảm xúc từ văn bản thì độ chính xác tăng lên (~ 0.82)

Một phần của tài liệu Nhận diện cảm xúc kết hợp tiếng nói và văn bản (Trang 39 - 43)

Tải bản đầy đủ (PDF)

(50 trang)