CSDL tiếng Việt VEMO-DB

Là bộ cơ sở dữ liệu do ThS. Lê Xuân Thành– Giảng viên, nghiên cứu sinh tại Bộ môn Kỹ thuật Máy tính xây dựng kịch bản và thu tại phòng thu của Đài truyền hình Việt Nam với người nói thể hiện cảm xúc là các diễn viên. Bộ dữ liệu mới được thu âm và đang trong quá trình xử lý như nghe lại, loại bỏ nhiễu, loại bỏ những file lỗi để đánh giá bộ cơ sở dữ liệu. Thông tin chung về bộ cơ sở dữ liệu cảm xúc:

- Ngôn ngữ sử dụng: tiếng Việt

- Các cảm xúc được thể hiện gồm 4 cảm xúc: Tức giận, Vui, buòn và bình thường (không cảm xúc).

- Số lượng câu: 55 câu nói Tiếng Việt không xác định cảm xúc.

- Số lượng diễn viên: tổng cộng có 55 diễn viên, tuy nhiên trong luận văn chỉ sử dụng các file thu âm cảm xúc của 50 diễn viên (25 nam và 25 nữ) để thử nghiệm bộ dữ liệu có sự đồng đều về giới tính cũng như số lượng file dữ liệu cảm xúc.

- Thực hiện thu âm: cơ sở dữ liệu được thu lại dưới dạng 1 kênh mono 16 bit, tần số lấy mẫu 16kHz. Mỗi diễn viên sẽ nói 55 câu, mỗi câu thể hiện với 4 cảm xúc khác nhau và được thu âm 4 lần.

- Tên file âm thanh của cơ sở dữ liệu tiếng Việt đã được thay đổi và tên file có cấu trúc tương tự như tên file âm thanh của cơ sở dữ liệu tiếng Đức. Thông tin về người nói, các đoạn văn bản được nói, loại cảm xúc và các phiên bản được trình bày chi tiết trong phụ lục của luận văn.

Cơ sở dữ liệu VEMO-DB với số lượng diễn viên nhiều (50 người) nên 5 diễn viên được tập hợp thành 1 nhóm. Mỗi nhóm được ký hiệu như trong bảng tổng hợp sau.

Bảng 3.2: Bảng tổng hợp CSDL VEMO-DB

Ngƣời nói Cảm xúc

Nam (male) Nữ (female) Số

file Kí hiệu A B C D E F G H I J Tức giận W 1095 1100 1100 1098 1098 1100 1099 1100 1100 1099 10989 Vui F 1082 1100 1100 1100 1099 1099 1096 1100 1099 1100 10975 Buồn T 1095 1099 1099 1100 1100 1100 1099 1100 1100 1099 10991 Bình thường N 1092 1100 1100 1100 1100 1098 1100 1100 1100 1099 10989 Số file 4364 4399 4399 4398 4397 4397 4394 4400 4399 4397 43944 3.3. Các thử nghiệm nhận dạng giới tính, cảm xúc của ngƣời nói

Các thử nghiệm được thực hiện theo 2 tiêu chí:

- Tiêu chí 1: Người nói sử dụng để nhận dạng chưa được huấn luyện trong hệ thống.

- Tiêu chí 2: Người nói sử dụng để nhận dạng đã được huấn luyện trong hệ thống.

Đề tài thực hiện 6 thử nghiệm và tùy thuộc vào từng thử nghiệm sẽ thực hiện thử nghiệm với 2 tiêu chí trên cụ thể như sau:

Thử nghiệm Nội dung thử nghiệm Ký hiệu thử nghiệm

Thử nghiệm 1 Thử nghiệm nhận dạng giới tính G (Gender)

Thử nghiệm 2 Thử nghiệm nhận dạng cảm xúc với người nói bao gồm cả nam và nữ trên tập dữ liệu huấn luyện cảm xúc của cả nam và nữ

E (Emotion) Thử nghiệm 3 Thử nghiệm nhận dạng cảm xúc với người nói

là nam trên CSDL cảm xúc được huấn luyện của nam

EGM (Emotion Gender Male) Thử nghiệm 4 Thử nghiệm nhận dạng cảm xúc với người nói

là nữ trên CSDL cảm xúc được huấn luyện của nữ

EGF (Emotion Gender Female) Thử nghiệm 5 Thử nghiệm nhận dạng cảm xúc với người nói

là nam trên CSDL cảm xúc được huấn luyện của nữ (sử dụng để tham khảo cho trường hợp nhận dạng giới tính đạt kết quả xấu nhất)

EMF (Emotion Male

Female) Thử nghiệm 6 Thử nghiệm nhận dạng cảm xúc với người nói

là nữ trên CSDL cảm xúc được huấn luyện của nam (sử dụng để tham khảo cho trường hợp nhận dạng giới tính đạt kết quả xấu nhất)

EFM (Emotion Female Male)

3.3.1. Thử nghiệm với CSDL EMO-DB 3.3.1.1. Thử nghiệm nhận dạng giới tính 3.3.1.1. Thử nghiệm nhận dạng giới tính

a. Huấn luyện mô hình giới tính

Hệ thống cần nhận dạng ra giới tính là nam hay nữ do đó trong bước huấn luyện sẽ phải huấn luyện hai mô hình giới tính. Để có hai mô hình giới tính thì tương ứng ta cũng phải có hai tập dữ liệu âm thanh: tập dữ liệu âm thanh của nam và tập dữ liệu âm thanh của nữ để làm đầu vào cho quá trình huấn luyện.

Sử dụng các câu lệnh trong bộ công cụ ALIZE, gói thư viện LIA-RAL, SPro sau bước huấn luyện ta sẽ có mô hình GMM của giới tính nam và giới tính nữ được mô tả trong hình 3.3.

Hình 3.3: Sơ đồ mô hình giới tính sau bước huấn luyện

GMM (Nam -M)

GMM (Nữ - F) Vector đặc trưng của

file âm thanh sử dụng cho huấn luyện

Hình 3.3 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 2 tập file âm thanh tương ứng với 2 giới tính (nam và nữ )sử dụng cho huấn luyện, hệ thống sẽ huấn luyện để tạo ra 2 mô hình GMM tương ứng là GMM của giới tính nam và GMM của giới tính nữ.

b. Thử nghiệm nhận dạng giới tính

Đối với thử nghiệm nhận dạng giới tính trên CSDL EMO-DB ta sẽ thực hiện thử nghiệm lần lượt, mỗi thử nghiệm sẽ sử dụng 2 người nói (1 nam và 1 nữ) để thử nghiệm những người nói còn lại sử dụng cho huấn luyện. Tổng hợp các thử nghiệm được trình bày trong bảng 3.3.

Bảng 3.3: Bảng tổng hợp các thử nghiệm nhận dạng giới tính STT Thử nghiệm 1 Tiêu chí 1 Tiêu chí 2 1 G01_AF G02_AF 2 G01_BG G02_BG 3 G01_CH G02_CH 4 G01_DI G02_DI 5 G01_EJ G02_EJ

Ký hiệu trong bảng trên được hiểu như sau: G: nhận dạng giới tính; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

3.3.1.2. Thử nghiệm nhận dạng cảm xúc

a. Huấn luyện mô hình cảm xúc

Thử nghiệm với CSDL EMO-DB hệ thống cần phải nhận dạng 7 cảm xúc do đó trong pha huấn luyện sẽ phải huấn luyện 7 mô hình cảm xúc. Để có 7 mô hình cảm xúc sẽ phải có 7 tập dữ liệu âm thanh tương ứng với 7 cảm xúc để làm đầu vào cho quá trình huấn luyện.

Tuy nhiên, vì số lượng diễn viên trong cơ sở dữ liệu ít nên mỗi thử nghiệm sẽ sử dụng 2 người nói để nhận dạng và những người nói còn lại sử dụng cho huấn luyện.

Sau bước huấn luyện ta sẽ có mô hình GMM của 7 cảm xúc như sơ đồ được trình bày trong hình:

Hình 3.4: Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện

Hình 3.4 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 7 tập file âm thanh tương ứng với 7 cảm xúc sử dụng cho huấn luyện thì hệ thống sẽ huấn luyện để tạo ra 7 mô hình GMM tương ứng với 7 cảm xúc.

b. Thử nghiệm nhận dạng cảm xúc

- Các thử nghiệm nhận dạng cảm xúc khi không có nhận dạng giới tính: sử dụng lần lượt 2 người nói (1 nam và 1 nữ) để thử nghiệm và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.4. Bảng 3.4: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc STT Thử nghiệm 2 Tiêu chí 1 Tiêu chí 2 1 E01_AF E02_AF 2 E01_BG E02_BG 3 E01_CH E02_CH 4 E01_DI E02_DI GMM (Tức giận - W) GMM (Chán nản - L) GMM (Ghê tởm - E) GMM (Sợ hãi - A) GMM (Vui vẻ - F) GMM (Bình thường-N) GMM (Buồn - T) Vector đặc trưng của

file âm thanh sử dụng cho huấn luyện

Ký hiệu trong bảng trên được hiểu như sau: E: nhận dạng cảm xúc; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

- Thử nghiệm nhận dạng cảm xúc khi có nhận dạng giới tính: Sử dụng lần lượt 2 người nói để thử nghiệm những người nói còn lại được sử dụng cho huấn luyện và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.5 và bảng 3.6.

Bảng 3.5: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.

STT Thử nghiệm 3 Thử nghiệm 4

Tiêu chí 1 Tiêu chí 2 Tiêu chí 1 Tiêu chí 2

1 EGM01_AB EGM02_AB EGF01_FG EGF02_FG

2 EGM01_AC EGM02_AC EGF01_FH EGF02_FH

3 EGM01_AD EGM02_AD EGF01_FI EGF02_FI

4 EGM01_AE EGM02_AE EGF01_FJ EGF02_FJ

5 EGM01_BC EGM02_BC EGF01_GH EGF02_GH

6 EGM01_BD EGM02_BD EGF01_GI EGF02_GI

7 EGM01_BE EGM02_BE EGF01_GJ EGF02_GJ

8 EGM01_CD EGM02_CD EGF01_HI EGF02_HI

9 EGM01_CE EGM02_CE EGF01_HJ EGF02_HJ

10 EGM01_DE EGM02_DE EGF01_IJ EGF02_IJ

Ký hiệu trong bảng trên được hiểu như sau: EGM: thử nghiệm nhận dạng với người nói là nam trên CSDL cảm xúc được huấn luyện của nam; EGF: thử nghiệm nhận dạng với người nói là nữ trên CSDL cảm xúc được huấn luyện của nữ; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AB: hai người nói A và B được sử dụng để thử nghiệm (tương tự với AC, AD, AE, BC, BD, BE,CD, CE, DE). Bảng 3.6: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và có sự nhầm lẫn

(Các thử nghiệm này mang tính chất tham khảo cho trường hợp nhận dạng giới tính cho kết quả xấu nhất ).

STT Thử nghiệm 5 Thử nghiệm 6 1 EMF01_AB EFM01_FG 2 EMF01_AC EFM01_FH 3 EMF01_AD EFM01_FI 4 EMF01_AE EFM01_FJ 5 EMF01_BC EFM01_GH 6 EMF01_BD EFM01_GI 7 EMF01_BE EFM01_GJ 8 EMF01_CD EFM01_HI 9 EMF01_CE EFM01_HJ 10 EMF01_DE EFM01_IJ

Ký hiệu trong bảng trên được hiểu như sau: EMF: thử nghiệm với người nói là nam trên CSDL cảm xúc được huấn luyện của nữ. EFG: thử nghiệm với người nói là nữ trên CSDL cảm xúc được huấn lyện của nam. 01: thử nghiệm theo tiêu chí 1. 02: thử nghiệm theo tiêu chí 2; AB: hai người nói A và B được sử dụng để thử nghiệm (tương tự với AC, AD, AE, BC, BD, BE,CD, CE, DE).

3.3.2. Thử nghiệm với CSDL VEMO-DB 3.3.2.1. Thử nghiệm nhận dạng giới tính 3.3.2.1. Thử nghiệm nhận dạng giới tính

a. Huấn luyện mô hình giới tính

Huấn luyện mô hình giới tính để thử nghiệm với CSDL VEMO-DB cũng tương tự như huấn luyện mô hình giới tính để thử nghiệm với CSDL EMO-DB.

b. Thử nghiệm nhận dạng giới tính

Đối với thử nghiệm nhận dạng giới tính trên CSDL VEMO-DB ta sẽ thực hiện thử nghiệm lần lượt, mỗi thử nghiệm sẽ sử dụng 2 nhóm người nói (1 nam và 1 nữ) để thử nghiệm những nhóm người nói còn lại sử dụng cho huấn luyện. Tổng hợp các thử nghiệm được trình bày trong bảng 3.7.

Bảng 3.7: Bảng tổng hợp các thử nghiệm nhận dạng giới tính STT Thử nghiệm 1 Tiêu chí 1 Tiêu chí 2 1 G01_AF G02_AF 2 G01_BG G02_BG 3 G01_CH G02_CH 4 G01_DI G02_DI 5 G01_EJ G02_EJ

Ký hiệu trong bảng trên được hiểu như sau: G: nhận dạng giới tính; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai nhóm người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

3.3.2.2. Thử nghiệm nhận dạng cảm xúc

a. Huấn luyện mô hình cảm xúc

Thử nghiệm với CSDL VEMO-DB hệ thống cần phải nhận dạng 4 cảm xúc do đó trong bước huấn luyện sẽ phải huấn luyện 4 mô hình cảm xúc. Để có 4 mô hình cảm xúc sẽ phải có 4 tập dữ liệu âm thanh tương ứng với 4 cảm xúc để làm đầu vào cho quá trình huấn luyện.

Tuy nhiên, vì số lượng diễn viên trong cơ sở dữ liệu đủ lớn nên mỗi thử nghiệm sẽ sử dụng 1 nhóm người nói để thử nghiệm và các nhóm còn lại sử dụng cho huấn luyện.

Sau bước huấn luyện ta sẽ có mô hình GMM của 7 cảm xúc như sơ đồ được trình bày trong hình 3.5.

Hình 3.5: Sơ đồ mô hình 4 cảm xúc sau bước huấn luyện

GMM (Tức giận - W)

GMM (Vui vẻ - F)

GMM (Buồn – T)

GMM (Bình thường-N) Vector đặc trưng của

file âm thanh sử dụng cho huấn luyện

Hình 3.5 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 4 tập file âm thanh tương ứng với 4 cảm xúc sử dụng cho huấn luyện thì hệ thống sẽ huấn luyện để tạo ra 4 mô hình GMM tương ứng với 4 cảm xúc.

b. Thử nghiệm nhận dạng cảm xúc

- Các thử nghiệm nhận dạng cảm xúc khi không có nhận dạng giới tính: sử dụng lần lượt 2 người nói (1 nam và 1 nữ) để thử nghiệm và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.8. Bảng 3.8: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc STT Thử nghiệm 2 Tiêu chí 1 Tiêu chí 2 1 E01_AF E02_AF 2 E01_BG E02_BG 3 E01_CH E02_CH 4 E01_DI E02_DI 5 E01_EJ E02_EJ

Ký hiệu trong bảng trên được hiểu như sau: E: nhận dạng cảm xúc; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai nhóm người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

- Thử nghiệm nhận dạng cảm xúc khi có nhận dạng giới tính: Sử dụng lần lượt 1 nhóm người nói để thử nghiệm những người nói còn lại được sử dụng cho huấn luyện và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.9 và bảng 3.10.

Bảng 3.9: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.

STT Thử nghiệm 3 Thử nghiệm 4

Tiêu chí 1 Tiêu chí 2 Tiêu chí 1 Tiêu chí 2

1 EGM01_A EGM02_A EGF01_F EGF02_F

2 EGM01_B EGM02_B EGF01_G EGF02_G

3 EGM01_C EGM02_C EGF01_H EGF02_H

Ký hiệu trong bảng trên được hiểu như sau: EGM: thử nghiệm nhận dạng với người nói là nam trên CSDL cảm xúc được huấn luyện của nam; EGF: thử nghiệm nhận dạng với người nói là nữ trên CSDL cảm xúc được huấn luyện của nữ; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; A: nhóm người nói A được sử dụng để thử nghiệm (tương tự với B, C, D, E).

Bảng 3.10: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và có sự nhầm lẫn

(Các thử nghiệm này mang tính chất tham khảo cho trường hợp nhận dạng giới tính cho kết quả xấu nhất).

STT Thử nghiệm 5 Thử nghiệm 6 1 EMF01_A EFM01_F 2 EMF01_B EFM01_G 3 EMF01_C EFM01_H 4 EMF01_D EFM01_I 5 EMF01_E EFM01_J

Ký hiệu trong bảng trên được hiểu như sau: EMF: thử nghiệm với người nói là nam trên CSDL cảm xúc được huấn luyện của nữ; EFG: thử nghiệm với người nói là nữ trên CSDL cảm xúc được huấn lyện của nam; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; A: nhóm người nói A được sử dụng để thử nghiệm (tương tự với B, C, D, E).

CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM, KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

4.1. Phân tích, đánh giá các kết quả thử nghiệm 4.1.1. Kết quả thử nghiệm trên CSDL EMO-DB 4.1.1. Kết quả thử nghiệm trên CSDL EMO-DB 4.1.1.1. Kết quả thử nghiệm nhận dạng giới tính

Trong các thử nghiệm nhận dạng sử dụng mô hình GMM thì số thành phần Gausian có ảnh hưởng đến kết quả nhận dạng. Tuy nhiên, chưa có nhiều nghiên cứu về việc lựa chọn số thành phần Gaussian cho mô hình GMM mà số thành phần Gaussian được lựa chọn trong quá trình thử nghiệm.

Qua một số thử nghiệm nhận dạng giới tính sử dụng mô hình GMM với CSDL EMO-DB thì số thành phần Gaussian cho kết quả nhận dạng tốt nhất là 16, điều này được thể hiện trong hình 4.1.

Hình 4.1: Biểu đồ tỷ lệ nhận dạng giới tính của thử nghiệm G01_EJ với số thành phần Gaussian thay đổi

0 10 20 30 40 50 60 70 80 90 100 2 4 8 16 32 64 128 256 Nam 80.35 92.85 89.28 94.64 92.85 92.85 92.85 92.85 Nữ 95.77 100 100 100 100 100 100 100 Tỷ lệ đúng (%) Số TP Gaussian Nội dung của chương này sẽ trình bày các vấn đề sau:

- Phân tích, đánh giá các kết quả thử nghiệm. - Đưa ra kết luận và hướng hát triển của đề tài

Kết quả trong hình 4.1 được thử nghiệm với 127 file cho nhận dạng (56 file tiếng nói của nam và 71 file tiếng nói của nữ) và 408 file cho huấn luyện.

Trong hình 4.1 khi số thành phần Gaussian ảnh hưởng đến kết quả nhận dạng, khi số thành phần Gaussian thay đổi đến một mức nhất định sẽ cho tỷ lệ nhận dạng

Ngôn ngữ lập trình Python

Thử nghiệm với CSDL EMO-DB