Cơ sở dữ liệu cảm xúc cho thử nghiệm hệ thống nhận- 123docz.net

3.2.1. CSDL tiếng Đức - EMO-DB

EMO-DB là bộ CSDL tiếng Đức được ghi âm tại phòng kỹ thuật âm thanh của trường Đại học Berlin [18].

- Ngôn ngữ thể hiện: tiếng Đức

- Các cảm xúc được thể hiện gồm 7 cảm xúc: tức giận, vui, ghê tởm, sợ hãi, buồn, chán nản và trung lập.

- Số lượng diễn viên: 10 người (05 nam và 05 nữ).

- Số lượng câu nói: 10 câu tiếng Đức không xác định cảm xúc.

- Thực hiện thu âm: cơ sở dữ liệu được thu âm dưới dạng 16 bit, tần số lấy mẫu 16kHz trong điều kiện âm thanh của phòng thu. Mỗi diễn viên sẽ nói một số câu với tất cả các cảm xúc. Việc thu âm một diễn viên diễn tả một câu với 1 cảm xúc có thể được thu âm từ 1 đến 5 lần nên sẽ có các phiên bản. Cơ sở dữ liệu cho phép download là cơ sở dữ liệu đã được loại bỏ một số phiên bản do lỗi hoặc do nhiễu nên tổng số tập tin âm thanh là 535 tập tin.

- Tên file âm thanh trong cơ sở dữ liệu EMO-DB có dạng: 03a01Fa.wav Trong đó:

+ Vị trí 1-2: là mã người nói

+ Vị trí 3-5: mã của đoạn văn bản được nói

+ Vị trí số 6: là loại cảm xúc được kí hiệu dưới dạng tiếng Đức + Vị trí số 7: là các phiên bản của cách thể hiện dạng cảm xúc

Thông tin về người nói, các đoạn văn bản được nói, loại cảm xúc và các phiên bản được trình bày chi tiết trong phụ lục của luận văn.

Cơ sở dữ liệu EMO-DB với 10 diễn viên đã được đánh mã số nên mỗi diễn viên sẽ được đặt ký hiệu như trong bảng tổng hợp sau:

Bảng 3.1: Bảng tổng hợp CSDL EMO-DB

Ngƣời nói Cảm xúc

Nam (male) Nữ (female) Số

file A B C D E F G H I J Tức giận (anger) W 12 10 14 11 13 13 12 12 16 14 127 Chán nản (boredom) L 5 8 5 8 9 4 10 10 8 14 81 Ghê tởm (Disgust ) E 2 1 1 2 5 8 0 8 8 11 46 Sợ hãi (anxiety/fear) A 6 8 4 10 8 1 6 7 12 7 69 Vui (happiness/joy) F 2 4 7 8 6 4 11 10 8 11 71 Buồn (sadness) T 4 3 7 7 4 4 9 5 10 9 62 Bình thường (neutral) N 4 4 11 9 11 9 10 9 7 5 79 Số file 35 38 49 55 56 43 58 61 69 71 535

3.2.2. CSDL tiếng Việt VEMO-DB

Là bộ cơ sở dữ liệu do ThS. Lê Xuân Thành– Giảng viên, nghiên cứu sinh tại Bộ môn Kỹ thuật Máy tính xây dựng kịch bản và thu tại phòng thu của Đài truyền hình Việt Nam với người nói thể hiện cảm xúc là các diễn viên. Bộ dữ liệu mới được thu âm và đang trong quá trình xử lý như nghe lại, loại bỏ nhiễu, loại bỏ những file lỗi để đánh giá bộ cơ sở dữ liệu. Thông tin chung về bộ cơ sở dữ liệu cảm xúc:

- Ngôn ngữ sử dụng: tiếng Việt

- Các cảm xúc được thể hiện gồm 4 cảm xúc: Tức giận, Vui, buòn và bình thường (không cảm xúc).

- Số lượng câu: 55 câu nói Tiếng Việt không xác định cảm xúc.

- Số lượng diễn viên: tổng cộng có 55 diễn viên, tuy nhiên trong luận văn chỉ sử dụng các file thu âm cảm xúc của 50 diễn viên (25 nam và 25 nữ) để thử nghiệm bộ dữ liệu có sự đồng đều về giới tính cũng như số lượng file dữ liệu cảm xúc.

- Thực hiện thu âm: cơ sở dữ liệu được thu lại dưới dạng 1 kênh mono 16 bit, tần số lấy mẫu 16kHz. Mỗi diễn viên sẽ nói 55 câu, mỗi câu thể hiện với 4 cảm xúc khác nhau và được thu âm 4 lần.

- Tên file âm thanh của cơ sở dữ liệu tiếng Việt đã được thay đổi và tên file có cấu trúc tương tự như tên file âm thanh của cơ sở dữ liệu tiếng Đức. Thông tin về người nói, các đoạn văn bản được nói, loại cảm xúc và các phiên bản được trình bày chi tiết trong phụ lục của luận văn.

Cơ sở dữ liệu VEMO-DB với số lượng diễn viên nhiều (50 người) nên 5 diễn viên được tập hợp thành 1 nhóm. Mỗi nhóm được ký hiệu như trong bảng tổng hợp sau.

Bảng 3.2: Bảng tổng hợp CSDL VEMO-DB

Ngƣời nói Cảm xúc

Nam (male) Nữ (female) Số

file Kí hiệu A B C D E F G H I J Tức giận W 1095 1100 1100 1098 1098 1100 1099 1100 1100 1099 10989 Vui F 1082 1100 1100 1100 1099 1099 1096 1100 1099 1100 10975 Buồn T 1095 1099 1099 1100 1100 1100 1099 1100 1100 1099 10991 Bình thường N 1092 1100 1100 1100 1100 1098 1100 1100 1100 1099 10989 Số file 4364 4399 4399 4398 4397 4397 4394 4400 4399 4397 43944 3.3. Các thử nghiệm nhận dạng giới tính, cảm xúc của ngƣời nói

Các thử nghiệm được thực hiện theo 2 tiêu chí:

- Tiêu chí 1: Người nói sử dụng để nhận dạng chưa được huấn luyện trong hệ thống.

- Tiêu chí 2: Người nói sử dụng để nhận dạng đã được huấn luyện trong hệ thống.

Đề tài thực hiện 6 thử nghiệm và tùy thuộc vào từng thử nghiệm sẽ thực hiện thử nghiệm với 2 tiêu chí trên cụ thể như sau:

Thử nghiệm Nội dung thử nghiệm Ký hiệu thử nghiệm

Thử nghiệm 1 Thử nghiệm nhận dạng giới tính G (Gender)

Thử nghiệm 2 Thử nghiệm nhận dạng cảm xúc với người nói bao gồm cả nam và nữ trên tập dữ liệu huấn luyện cảm xúc của cả nam và nữ

E (Emotion) Thử nghiệm 3 Thử nghiệm nhận dạng cảm xúc với người nói

là nam trên CSDL cảm xúc được huấn luyện của nam

EGM (Emotion Gender Male) Thử nghiệm 4 Thử nghiệm nhận dạng cảm xúc với người nói

là nữ trên CSDL cảm xúc được huấn luyện của nữ

EGF (Emotion Gender Female) Thử nghiệm 5 Thử nghiệm nhận dạng cảm xúc với người nói

là nam trên CSDL cảm xúc được huấn luyện của nữ (sử dụng để tham khảo cho trường hợp nhận dạng giới tính đạt kết quả xấu nhất)

EMF (Emotion Male

Female) Thử nghiệm 6 Thử nghiệm nhận dạng cảm xúc với người nói

là nữ trên CSDL cảm xúc được huấn luyện của nam (sử dụng để tham khảo cho trường hợp nhận dạng giới tính đạt kết quả xấu nhất)

EFM (Emotion Female Male)

3.3.1. Thử nghiệm với CSDL EMO-DB 3.3.1.1. Thử nghiệm nhận dạng giới tính 3.3.1.1. Thử nghiệm nhận dạng giới tính

a. Huấn luyện mô hình giới tính

Hệ thống cần nhận dạng ra giới tính là nam hay nữ do đó trong bước huấn luyện sẽ phải huấn luyện hai mô hình giới tính. Để có hai mô hình giới tính thì tương ứng ta cũng phải có hai tập dữ liệu âm thanh: tập dữ liệu âm thanh của nam và tập dữ liệu âm thanh của nữ để làm đầu vào cho quá trình huấn luyện.

Sử dụng các câu lệnh trong bộ công cụ ALIZE, gói thư viện LIA-RAL, SPro sau bước huấn luyện ta sẽ có mô hình GMM của giới tính nam và giới tính nữ được mô tả trong hình 3.3.

Hình 3.3: Sơ đồ mô hình giới tính sau bước huấn luyện

GMM (Nam -M)

GMM (Nữ - F) Vector đặc trưng của

file âm thanh sử dụng cho huấn luyện

Hình 3.3 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 2 tập file âm thanh tương ứng với 2 giới tính (nam và nữ )sử dụng cho huấn luyện, hệ thống sẽ huấn luyện để tạo ra 2 mô hình GMM tương ứng là GMM của giới tính nam và GMM của giới tính nữ.

b. Thử nghiệm nhận dạng giới tính

Đối với thử nghiệm nhận dạng giới tính trên CSDL EMO-DB ta sẽ thực hiện thử nghiệm lần lượt, mỗi thử nghiệm sẽ sử dụng 2 người nói (1 nam và 1 nữ) để thử nghiệm những người nói còn lại sử dụng cho huấn luyện. Tổng hợp các thử nghiệm được trình bày trong bảng 3.3.

Bảng 3.3: Bảng tổng hợp các thử nghiệm nhận dạng giới tính STT Thử nghiệm 1 Tiêu chí 1 Tiêu chí 2 1 G01_AF G02_AF 2 G01_BG G02_BG 3 G01_CH G02_CH 4 G01_DI G02_DI 5 G01_EJ G02_EJ

Ký hiệu trong bảng trên được hiểu như sau: G: nhận dạng giới tính; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

3.3.1.2. Thử nghiệm nhận dạng cảm xúc

a. Huấn luyện mô hình cảm xúc

Thử nghiệm với CSDL EMO-DB hệ thống cần phải nhận dạng 7 cảm xúc do đó trong pha huấn luyện sẽ phải huấn luyện 7 mô hình cảm xúc. Để có 7 mô hình cảm xúc sẽ phải có 7 tập dữ liệu âm thanh tương ứng với 7 cảm xúc để làm đầu vào cho quá trình huấn luyện.

Tuy nhiên, vì số lượng diễn viên trong cơ sở dữ liệu ít nên mỗi thử nghiệm sẽ sử dụng 2 người nói để nhận dạng và những người nói còn lại sử dụng cho huấn luyện.

Sau bước huấn luyện ta sẽ có mô hình GMM của 7 cảm xúc như sơ đồ được trình bày trong hình:

Hình 3.4: Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện

Hình 3.4 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 7 tập file âm thanh tương ứng với 7 cảm xúc sử dụng cho huấn luyện thì hệ thống sẽ huấn luyện để tạo ra 7 mô hình GMM tương ứng với 7 cảm xúc.

b. Thử nghiệm nhận dạng cảm xúc

- Các thử nghiệm nhận dạng cảm xúc khi không có nhận dạng giới tính: sử dụng lần lượt 2 người nói (1 nam và 1 nữ) để thử nghiệm và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.4. Bảng 3.4: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc STT Thử nghiệm 2 Tiêu chí 1 Tiêu chí 2 1 E01_AF E02_AF 2 E01_BG E02_BG 3 E01_CH E02_CH 4 E01_DI E02_DI GMM (Tức giận - W) GMM (Chán nản - L) GMM (Ghê tởm - E) GMM (Sợ hãi - A) GMM (Vui vẻ - F) GMM (Bình thường-N) GMM (Buồn - T) Vector đặc trưng của

file âm thanh sử dụng cho huấn luyện

Ký hiệu trong bảng trên được hiểu như sau: E: nhận dạng cảm xúc; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

- Thử nghiệm nhận dạng cảm xúc khi có nhận dạng giới tính: Sử dụng lần lượt 2 người nói để thử nghiệm những người nói còn lại được sử dụng cho huấn luyện và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.5 và bảng 3.6.

Bảng 3.5: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.

STT Thử nghiệm 3 Thử nghiệm 4

Tiêu chí 1 Tiêu chí 2 Tiêu chí 1 Tiêu chí 2

1 EGM01_AB EGM02_AB EGF01_FG EGF02_FG

2 EGM01_AC EGM02_AC EGF01_FH EGF02_FH

3 EGM01_AD EGM02_AD EGF01_FI EGF02_FI

4 EGM01_AE EGM02_AE EGF01_FJ EGF02_FJ

5 EGM01_BC EGM02_BC EGF01_GH EGF02_GH

6 EGM01_BD EGM02_BD EGF01_GI EGF02_GI

7 EGM01_BE EGM02_BE EGF01_GJ EGF02_GJ

8 EGM01_CD EGM02_CD EGF01_HI EGF02_HI

9 EGM01_CE EGM02_CE EGF01_HJ EGF02_HJ

10 EGM01_DE EGM02_DE EGF01_IJ EGF02_IJ

Ký hiệu trong bảng trên được hiểu như sau: EGM: thử nghiệm nhận dạng với người nói là nam trên CSDL cảm xúc được huấn luyện của nam; EGF: thử nghiệm nhận dạng với người nói là nữ trên CSDL cảm xúc được huấn luyện của nữ; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AB: hai người nói A và B được sử dụng để thử nghiệm (tương tự với AC, AD, AE, BC, BD, BE,CD, CE, DE). Bảng 3.6: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và có sự nhầm lẫn

(Các thử nghiệm này mang tính chất tham khảo cho trường hợp nhận dạng giới tính cho kết quả xấu nhất ).

STT Thử nghiệm 5 Thử nghiệm 6 1 EMF01_AB EFM01_FG 2 EMF01_AC EFM01_FH 3 EMF01_AD EFM01_FI 4 EMF01_AE EFM01_FJ 5 EMF01_BC EFM01_GH 6 EMF01_BD EFM01_GI 7 EMF01_BE EFM01_GJ 8 EMF01_CD EFM01_HI 9 EMF01_CE EFM01_HJ 10 EMF01_DE EFM01_IJ

Ký hiệu trong bảng trên được hiểu như sau: EMF: thử nghiệm với người nói là nam trên CSDL cảm xúc được huấn luyện của nữ. EFG: thử nghiệm với người nói là nữ trên CSDL cảm xúc được huấn lyện của nam. 01: thử nghiệm theo tiêu chí 1. 02: thử nghiệm theo tiêu chí 2; AB: hai người nói A và B được sử dụng để thử nghiệm (tương tự với AC, AD, AE, BC, BD, BE,CD, CE, DE).

3.3.2. Thử nghiệm với CSDL VEMO-DB 3.3.2.1. Thử nghiệm nhận dạng giới tính 3.3.2.1. Thử nghiệm nhận dạng giới tính

a. Huấn luyện mô hình giới tính

Huấn luyện mô hình giới tính để thử nghiệm với CSDL VEMO-DB cũng tương tự như huấn luyện mô hình giới tính để thử nghiệm với CSDL EMO-DB.

b. Thử nghiệm nhận dạng giới tính

Đối với thử nghiệm nhận dạng giới tính trên CSDL VEMO-DB ta sẽ thực hiện thử nghiệm lần lượt, mỗi thử nghiệm sẽ sử dụng 2 nhóm người nói (1 nam và 1 nữ) để thử nghiệm những nhóm người nói còn lại sử dụng cho huấn luyện. Tổng hợp các thử nghiệm được trình bày trong bảng 3.7.

Bảng 3.7: Bảng tổng hợp các thử nghiệm nhận dạng giới tính STT Thử nghiệm 1 Tiêu chí 1 Tiêu chí 2 1 G01_AF G02_AF 2 G01_BG G02_BG 3 G01_CH G02_CH 4 G01_DI G02_DI 5 G01_EJ G02_EJ

Ký hiệu trong bảng trên được hiểu như sau: G: nhận dạng giới tính; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai nhóm người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

3.3.2.2. Thử nghiệm nhận dạng cảm xúc

a. Huấn luyện mô hình cảm xúc

Thử nghiệm với CSDL VEMO-DB hệ thống cần phải nhận dạng 4 cảm xúc do đó trong bước huấn luyện sẽ phải huấn luyện 4 mô hình cảm xúc. Để có 4 mô hình cảm xúc sẽ phải có 4 tập dữ liệu âm thanh tương ứng với 4 cảm xúc để làm đầu vào cho quá trình huấn luyện.

Tuy nhiên, vì số lượng diễn viên trong cơ sở dữ liệu đủ lớn nên mỗi thử nghiệm sẽ sử dụng 1 nhóm người nói để thử nghiệm và các nhóm còn lại sử dụng cho huấn luyện.

Sau bước huấn luyện ta sẽ có mô hình GMM của 7 cảm xúc như sơ đồ được trình bày trong hình 3.5.

Hình 3.5: Sơ đồ mô hình 4 cảm xúc sau bước huấn luyện

GMM (Tức giận - W)

GMM (Vui vẻ - F)

GMM (Buồn – T)

GMM (Bình thường-N) Vector đặc trưng của

file âm thanh sử dụng cho huấn luyện

Hình 3.5 cho ta thấy rằng với các vector đặc trưng đã được chuẩn hóa của 4 tập file âm thanh tương ứng với 4 cảm xúc sử dụng cho huấn luyện thì hệ thống sẽ huấn luyện để tạo ra 4 mô hình GMM tương ứng với 4 cảm xúc.

b. Thử nghiệm nhận dạng cảm xúc

- Các thử nghiệm nhận dạng cảm xúc khi không có nhận dạng giới tính: sử dụng lần lượt 2 người nói (1 nam và 1 nữ) để thử nghiệm và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.8. Bảng 3.8: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc STT Thử nghiệm 2 Tiêu chí 1 Tiêu chí 2 1 E01_AF E02_AF 2 E01_BG E02_BG 3 E01_CH E02_CH 4 E01_DI E02_DI 5 E01_EJ E02_EJ

Ký hiệu trong bảng trên được hiểu như sau: E: nhận dạng cảm xúc; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; AF: hai nhóm người nói A và F được sử dụng để thử nghiệm (tương tự với BG, CH, DI, EJ).

- Thử nghiệm nhận dạng cảm xúc khi có nhận dạng giới tính: Sử dụng lần lượt 1 nhóm người nói để thử nghiệm những người nói còn lại được sử dụng cho huấn luyện và thực hiện tất cả các thử nghiệm theo 2 tiêu chí ta sẽ có bảng tổng hợp các thử nghiệm được trình bày trong bảng 3.9 và bảng 3.10.

Bảng 3.9: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.

STT Thử nghiệm 3 Thử nghiệm 4

Tiêu chí 1 Tiêu chí 2 Tiêu chí 1 Tiêu chí 2

1 EGM01_A EGM02_A EGF01_F EGF02_F

2 EGM01_B EGM02_B EGF01_G EGF02_G

3 EGM01_C EGM02_C EGF01_H EGF02_H

Ký hiệu trong bảng trên được hiểu như sau: EGM: thử nghiệm nhận dạng với người nói là nam trên CSDL cảm xúc được huấn luyện của nam; EGF: thử nghiệm nhận dạng với người nói là nữ trên CSDL cảm xúc được huấn luyện của nữ; 01: thử nghiệm theo tiêu chí 1; 02: thử nghiệm theo tiêu chí 2; A: nhóm người nói A được sử dụng để thử nghiệm (tương tự với B, C, D, E).

Bảng 3.10: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới

Cơ sở dữ liệu cảm xúc cho thử nghiệm hệ thống nhận dạng

Ngôn ngữ lập trình Python

Thử nghiệm với CSDL EMO-DB