3.3.1.1. Thử nghiệm nhận dạng giới tính
a. Huấn luyện mô hình giới tính
Hệ thống cần nhận dạng ra giới tính là nam hay nữ do đó trong bước huấn luyện sẽ phải huấn luyện hai mô hình giới tính. Để có hai mô hình giới tính thì tương ứng ta cũng phải có hai tập dữ liệu âm thanh: tập dữ liệu âm thanh của nam và tập dữ liệu âm thanh của nữ để làm đầu vào cho quá trình huấn luyện.
Sử dụng các câu lệnh trong bộ công cụ ALIZE, gói thư viện LIA-RAL, SPro sau bước huấn luyện ta sẽ có mô hình GMM của giới tính nam và giới tính nữ được mô tả trong hình 3.3.
Hình 3.3: Sơ đồ mô hình giới tính sau bước huấn luyện
GMM (Nam -M)
GMM (Nữ - F) Vector đặc trưng của
file âm thanh sử dụng cho huấn luyện
Hình 3.3 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 2 tập file âm thanh tương ứng với 2 giới tính (nam và nữ )sử dụng cho huấn luyện, hệ thống sẽ huấn luyện để tạo ra 2 mô hình GMM tương ứng là GMM của giới tính nam và GMM của giới tính nữ.
b. Thử nghiệm nhận dạng giới tính
Đối với thử nghiệm nhận dạng giới tính trên CSDL EMO-DB ta sẽ thực hiện thử nghiệm lần lượt, mỗi thử nghiệm sẽ sử dụng 2 người nói (1 nam và 1 nữ) để thử nghiệm những người nói còn lại sử dụng cho huấn luyện. Tổng hợp các thử nghiệm được trình bày trong bảng 3.3.
Bảng 3.3: Bảng tổng hợp các thử nghiệm nhận dạng giới tính STT Thử nghiệm 1 Tiêu chí 1 Tiêu chí 2 1 G01_AF G02_AF 2 G01_BG G02_BG 3 G01_CH G02_CH 4 G01_DI G02_DI 5 G01_EJ G02_EJ
Ký hiệu trong bảng trên được hiểu như sau: G: nhận dạng giới tính; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).
3.3.1.2. Thử nghiệm nhận dạng cảm xúc
a. Huấn luyện mô hình cảm xúc
Thử nghiệm với CSDL EMO-DB hệ thống cần phải nhận dạng 7 cảm xúc do đó trong pha huấn luyện sẽ phải huấn luyện 7 mô hình cảm xúc. Để có 7 mô hình cảm xúc sẽ phải có 7 tập dữ liệu âm thanh tương ứng với 7 cảm xúc để làm đầu vào cho quá trình huấn luyện.
Tuy nhiên, vì số lượng diễn viên trong cơ sở dữ liệu ít nên mỗi thử nghiệm sẽ sử dụng 2 người nói để nhận dạng và những người nói còn lại sử dụng cho huấn luyện.
Sau bước huấn luyện ta sẽ có mô hình GMM của 7 cảm xúc như sơ đồ được trình bày trong hình:
Hình 3.4: Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện
Hình 3.4 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 7 tập file âm thanh tương ứng với 7 cảm xúc sử dụng cho huấn luyện thì hệ thống sẽ huấn luyện để tạo ra 7 mô hình GMM tương ứng với 7 cảm xúc.
b. Thử nghiệm nhận dạng cảm xúc
- Các thử nghiệm nhận dạng cảm xúc khi không có nhận dạng giới tính: sử dụng lần lượt 2 người nói (1 nam và 1 nữ) để thử nghiệm và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.4. Bảng 3.4: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc STT Thử nghiệm 2 Tiêu chí 1 Tiêu chí 2 1 E01_AF E02_AF 2 E01_BG E02_BG 3 E01_CH E02_CH 4 E01_DI E02_DI GMM (Tức giận - W) GMM (Chán nản - L) GMM (Ghê tởm - E) GMM (Sợ hãi - A) GMM (Vui vẻ - F) GMM (Bình thường-N) GMM (Buồn - T) Vector đặc trưng của
file âm thanh sử dụng cho huấn luyện
Ký hiệu trong bảng trên được hiểu như sau: E: nhận dạng cảm xúc; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).
- Thử nghiệm nhận dạng cảm xúc khi có nhận dạng giới tính: Sử dụng lần lượt 2 người nói để thử nghiệm những người nói còn lại được sử dụng cho huấn luyện và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.5 và bảng 3.6.
Bảng 3.5: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.
STT Thử nghiệm 3 Thử nghiệm 4
Tiêu chí 1 Tiêu chí 2 Tiêu chí 1 Tiêu chí 2
1 EGM01_AB EGM02_AB EGF01_FG EGF02_FG
2 EGM01_AC EGM02_AC EGF01_FH EGF02_FH
3 EGM01_AD EGM02_AD EGF01_FI EGF02_FI
4 EGM01_AE EGM02_AE EGF01_FJ EGF02_FJ
5 EGM01_BC EGM02_BC EGF01_GH EGF02_GH
6 EGM01_BD EGM02_BD EGF01_GI EGF02_GI
7 EGM01_BE EGM02_BE EGF01_GJ EGF02_GJ
8 EGM01_CD EGM02_CD EGF01_HI EGF02_HI
9 EGM01_CE EGM02_CE EGF01_HJ EGF02_HJ
10 EGM01_DE EGM02_DE EGF01_IJ EGF02_IJ
Ký hiệu trong bảng trên được hiểu như sau: EGM: thử nghiệm nhận dạng với người nói là nam trên CSDL cảm xúc được huấn luyện của nam; EGF: thử nghiệm nhận dạng với người nói là nữ trên CSDL cảm xúc được huấn luyện của nữ; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AB: hai người nói A và B được sử dụng để thử nghiệm (tương tự với AC, AD, AE, BC, BD, BE,CD, CE, DE). Bảng 3.6: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và có sự nhầm lẫn
(Các thử nghiệm này mang tính chất tham khảo cho trường hợp nhận dạng giới tính cho kết quả xấu nhất ).
STT Thử nghiệm 5 Thử nghiệm 6 1 EMF01_AB EFM01_FG 2 EMF01_AC EFM01_FH 3 EMF01_AD EFM01_FI 4 EMF01_AE EFM01_FJ 5 EMF01_BC EFM01_GH 6 EMF01_BD EFM01_GI 7 EMF01_BE EFM01_GJ 8 EMF01_CD EFM01_HI 9 EMF01_CE EFM01_HJ 10 EMF01_DE EFM01_IJ
Ký hiệu trong bảng trên được hiểu như sau: EMF: thử nghiệm với người nói là nam trên CSDL cảm xúc được huấn luyện của nữ. EFG: thử nghiệm với người nói là nữ trên CSDL cảm xúc được huấn lyện của nam. 01: thử nghiệm theo tiêu chí 1. 02: thử nghiệm theo tiêu chí 2; AB: hai người nói A và B được sử dụng để thử nghiệm (tương tự với AC, AD, AE, BC, BD, BE,CD, CE, DE).
3.3.2. Thử nghiệm với CSDL VEMO-DB 3.3.2.1. Thử nghiệm nhận dạng giới tính 3.3.2.1. Thử nghiệm nhận dạng giới tính
a. Huấn luyện mô hình giới tính
Huấn luyện mô hình giới tính để thử nghiệm với CSDL VEMO-DB cũng tương tự như huấn luyện mô hình giới tính để thử nghiệm với CSDL EMO-DB.
b. Thử nghiệm nhận dạng giới tính
Đối với thử nghiệm nhận dạng giới tính trên CSDL VEMO-DB ta sẽ thực hiện thử nghiệm lần lượt, mỗi thử nghiệm sẽ sử dụng 2 nhóm người nói (1 nam và 1 nữ) để thử nghiệm những nhóm người nói còn lại sử dụng cho huấn luyện. Tổng hợp các thử nghiệm được trình bày trong bảng 3.7.
Bảng 3.7: Bảng tổng hợp các thử nghiệm nhận dạng giới tính STT Thử nghiệm 1 Tiêu chí 1 Tiêu chí 2 1 G01_AF G02_AF 2 G01_BG G02_BG 3 G01_CH G02_CH 4 G01_DI G02_DI 5 G01_EJ G02_EJ
Ký hiệu trong bảng trên được hiểu như sau: G: nhận dạng giới tính; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai nhóm người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).
3.3.2.2. Thử nghiệm nhận dạng cảm xúc
a. Huấn luyện mô hình cảm xúc
Thử nghiệm với CSDL VEMO-DB hệ thống cần phải nhận dạng 4 cảm xúc do đó trong bước huấn luyện sẽ phải huấn luyện 4 mô hình cảm xúc. Để có 4 mô hình cảm xúc sẽ phải có 4 tập dữ liệu âm thanh tương ứng với 4 cảm xúc để làm đầu vào cho quá trình huấn luyện.
Tuy nhiên, vì số lượng diễn viên trong cơ sở dữ liệu đủ lớn nên mỗi thử nghiệm sẽ sử dụng 1 nhóm người nói để thử nghiệm và các nhóm còn lại sử dụng cho huấn luyện.
Sau bước huấn luyện ta sẽ có mô hình GMM của 7 cảm xúc như sơ đồ được trình bày trong hình 3.5.
Hình 3.5: Sơ đồ mô hình 4 cảm xúc sau bước huấn luyện
GMM (Tức giận - W)
GMM (Vui vẻ - F)
GMM (Buồn – T)
GMM (Bình thường-N) Vector đặc trưng của
file âm thanh sử dụng cho huấn luyện
Hình 3.5 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 4 tập file âm thanh tương ứng với 4 cảm xúc sử dụng cho huấn luyện thì hệ thống sẽ huấn luyện để tạo ra 4 mô hình GMM tương ứng với 4 cảm xúc.
b. Thử nghiệm nhận dạng cảm xúc
- Các thử nghiệm nhận dạng cảm xúc khi không có nhận dạng giới tính: sử dụng lần lượt 2 người nói (1 nam và 1 nữ) để thử nghiệm và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.8. Bảng 3.8: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc STT Thử nghiệm 2 Tiêu chí 1 Tiêu chí 2 1 E01_AF E02_AF 2 E01_BG E02_BG 3 E01_CH E02_CH 4 E01_DI E02_DI 5 E01_EJ E02_EJ
Ký hiệu trong bảng trên được hiểu như sau: E: nhận dạng cảm xúc; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai nhóm người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).
- Thử nghiệm nhận dạng cảm xúc khi có nhận dạng giới tính: Sử dụng lần lượt 1 nhóm người nói để thử nghiệm những người nói còn lại được sử dụng cho huấn luyện và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.9 và bảng 3.10.
Bảng 3.9: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.
STT Thử nghiệm 3 Thử nghiệm 4
Tiêu chí 1 Tiêu chí 2 Tiêu chí 1 Tiêu chí 2
1 EGM01_A EGM02_A EGF01_F EGF02_F
2 EGM01_B EGM02_B EGF01_G EGF02_G
3 EGM01_C EGM02_C EGF01_H EGF02_H
Ký hiệu trong bảng trên được hiểu như sau: EGM: thử nghiệm nhận dạng với người nói là nam trên CSDL cảm xúc được huấn luyện của nam; EGF: thử nghiệm nhận dạng với người nói là nữ trên CSDL cảm xúc được huấn luyện của nữ; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; A: nhóm người nói A được sử dụng để thử nghiệm (tương tự với B, C, D, E).
Bảng 3.10: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và có sự nhầm lẫn
(Các thử nghiệm này mang tính chất tham khảo cho trường hợp nhận dạng giới tính cho kết quả xấu nhất).
STT Thử nghiệm 5 Thử nghiệm 6 1 EMF01_A EFM01_F 2 EMF01_B EFM01_G 3 EMF01_C EFM01_H 4 EMF01_D EFM01_I 5 EMF01_E EFM01_J
Ký hiệu trong bảng trên được hiểu như sau: EMF: thử nghiệm với người nói là nam trên CSDL cảm xúc được huấn luyện của nữ; EFG: thử nghiệm với người nói là nữ trên CSDL cảm xúc được huấn lyện của nam; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; A: nhóm người nói A được sử dụng để thử nghiệm (tương tự với B, C, D, E).
CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM, KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
4.1. Phân tích, đánh giá các kết quả thử nghiệm 4.1.1. Kết quả thử nghiệm trên CSDL EMO-DB 4.1.1. Kết quả thử nghiệm trên CSDL EMO-DB 4.1.1.1. Kết quả thử nghiệm nhận dạng giới tính
Trong các thử nghiệm nhận dạng sử dụng mô hình GMM thì số thành phần Gausian có ảnh hưởng đến kết quả nhận dạng. Tuy nhiên, chưa có nhiều nghiên cứu về việc lựa chọn số thành phần Gaussian cho mô hình GMM mà số thành phần Gaussian được lựa chọn trong quá trình thử nghiệm.
Qua một số thử nghiệm nhận dạng giới tính sử dụng mô hình GMM với CSDL EMO-DB thì số thành phần Gaussian cho kết quả nhận dạng tốt nhất là 16, điều này được thể hiện trong hình 4.1.
Hình 4.1: Biểu đồ tỷ lệ nhận dạng giới tính của thử nghiệm G01_EJ với số thành phần Gaussian thay đổi
0 10 20 30 40 50 60 70 80 90 100 2 4 8 16 32 64 128 256 Nam 80.35 92.85 89.28 94.64 92.85 92.85 92.85 92.85 Nữ 95.77 100 100 100 100 100 100 100 Tỷ lệ đúng (%) Số TP Gaussian Nội dung của chương này sẽ trình bày các vấn đề sau:
- Phân tích, đánh giá các kết quả thử nghiệm. - Đưa ra kết luận và hướng hát triển của đề tài
Kết quả trong hình 4.1 được thử nghiệm với 127 file cho nhận dạng (56 file tiếng nói của nam và 71 file tiếng nói của nữ) và 408 file cho huấn luyện.
Trong hình 4.1 khi số thành phần Gaussian ảnh hưởng đến kết quả nhận dạng, khi số thành phần Gaussian thay đổi đến một mức nhất định sẽ cho tỷ lệ nhận dạng tốt nhất sau tỷ lệ nhận dạng sẽ bão hòa. Trong thử nghiệm nghiệm trên thì tỷ lệ nhận dạng tốt nhất khi số thành phần Gaussian bằng 16.
Trong các thử nghiệm tiếp theo số thành phần Gaussian bằng 16 sẽ được lựa chọn để thực hiện thử nghiệm. Kết quả của các thử nghiệm được thể hiện trong hình bảng 4.1.
Bảng 4.1: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính Thử nghiệm
Giới tính
G01_AF G01_BG G01_CH G01_DI G01_EJ
Tỷ lệ trung bình Nam 97,14 89,47 71,42 96,36 94,64 89,80 Nữ 97,67 65,51 91,80 97,10 100,00 90,41 Tỷ lệ TB 97,43 75,00 82,72 96,77 97,63 89,91 Số file nhận dạng 78 (35M, 43F) 96 (38M, 58F) 110 (49M, 61F) 124 (55M, 69F) 127 (56M, 71F) Số file huấn luyện 457 439 425 411 408
Hình 4.2: Biểu đồ tỷ lệ nhận dạng giới tính của các thử nghiệm
0.00 20.00 40.00 60.00 80.00 100.00
G01_AF G01_BG G01_CH G01_DI G01_EJ
Tỷ lệ đúng (%)
Qua bảng 4.1 và hình 4.2 ta thấy rằng hệ thống nhận dạng giới tính đạt tỷ lệ trung bình 89,91%, tỷ lệ nhận dạng đối với giới tính nam 89,80%, tỷ lệ nhận dạng đối với giới tính nữ 90,41%. Tỷ lệ nhận dạng giới tính của nữ cao hơn tỷ lệ nhận dạng giới tính của nam là do số lượng file sử dụng cho nhận dạng đối với giới tính nữ nhiều hơn số file sử dụng cho nhận dạng đối với giới tính nam.
4.1.1.2. Thử nghiệm nhận dạng cảm xúc
Đối với các thử nghiệm nhận dạng cảm xúc sau khi có kết quả nhận dạng sử dụng công cụ ALIZE dưới dạng xác suất, ta sẽ phải xử lý các kết quả nhận dạng đó. Trong bước xử lý kết quả nhận dạng với mỗi thử nghiệm sẽ có một bảng ma trận nhầm lẫn các cảm xúc, thực hiện thử nghiệm trên CSDL EMO-DB sẽ thử nghiệm nhận dạng 7 cảm xúc và ma trận nhầm lẫn được trình bày trong bảng 4.2.
Bảng 4.2: Ma trận nhầm lẫn của thử nghiệm E01_DI theo tiêu chí 1
Cảm xúc Tức giận
Chán nản
Ghê
tởm Sợ hãi Vui Buồn
Bình thường Số file thử nghiệm Tức giận 19 0 0 0 6 0 2 27 Chán nản 0 8 0 0 4 1 3 16 Ghê tởm 0 0 3 0 5 1 1 10 Sợ hãi 1 2 2 1 8 0 8 22 Vui 3 0 1 0 10 1 1 16 Buồn 0 8 0 2 0 6 1 17 Bình thường 0 4 1 0 1 0 10 16
Qua bảng 4.2 ta thấy rằng các cặp cảm xúc bị nhầm lẫn với nhau nhiều là tức giận – vui, buồn – chán nản, sợ hãi – bình thường và một số cảm xúc bị nhận dạng nhầm sang cảm xúc vui.
Bảng 4.3: Tỷ lệ (%) nhận dạng cảm xúc của các thử nghiệm nhận dạng cảm xúc trên trên CSDL huấn luyện cảm xúc cả giọng nam và giọng nữ.
Thử nghiệm Cảm xúc
E01_AF E01_BG E01_CH E01_DI E01_EJ
Tỷ lệ trung bình Tức giận 81,57 68,18 61,53 70,37 92,59 74,85 Chán nản 7,69 11,11 40,00 50,00 43,47 30,45 Ghê tởm 11,11 - - 30,00 31,25 14,47 Sợ hãi 50,00 28,57 27,27 4,54 6,66 23,41 Vui - 46,66 41,17 62,50 5,88 31,24 Buồn - 100,00 83,33 35,29 76,92 59,11 Bình thường 18,18 21,42 20,00 62,50 12,50 26,92 Tỷ lệ chung 34,71 44,79 41,81 45,96 42,51 41,96 Số file nhận dạng 78 96 110 124 127 Số file huấn luyện 457 439 425 411 408
Hình 4.3 : Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc trên trên tập dự liệu huấn luyện cảm xúc cả giọng nam và giọng nữ
34.71 44.79 41.81 45.96 42.51 10.00 15.00 20.00 25.00 30.00 35.00 40.00 45.00 50.00
E01_AF E01_BG E01_CH E01_DI E01_EJ
Tỷ lệ đúng (%)
Hình 4.4: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm nhận dạng cảm xúc trên trên tập dự liệu huấn luyện cảm xúc cả giọng nam
và giọng nữ
Bảng 4.3, hình 4.3 và hình 4.4 cho ta thấy rằng hệ thống nhận dạng tốt với 5