Các đặc trưng phổ

Một phần của tài liệu Nhận dạng cảm xúc cho tiếng Việt nói (Trang 69 - 72)

Các đặc trưng phổnhư các thành phần hài (harmonicity), trọng tâm phổ (center of gravity), mômen trung tâm (central spectral moment), độ lệch chuẩn tần số (standard deviation), giá trị trung bình của phổ (mean), độ lệch (skewness), độ nhọn (kurtosis), độ dốc (slope) và độ lệch chuẩn của phổ trung bình dài hạn (standard deviation of LTAS-Long Term Average Spectrum) cũng được xem là các tham sốđặc trưng có liên quan đến cảm xúc tiếng nói. Theo Praat [181], các thành phần hài đại diện cho mức độ tuần hoàn và còn được gọi là tỷ lệ sóng hài-nhiễu HNR (Harmonics-to-Noise

69

Ratio). Harmonicity được biểu diễn theo thang đo dB. Nếu 99% năng lượng của tín hiệu nằm trong chu kỳ và 1% là nhiễu thì HNR là 10 × log10 (99/1) = 20dB. Nếu HNR bằng 0 dB có nghĩa là năng lượng trong sóng hài và trong nhiễu bằng nhau [181]. Giả sử𝑁𝑁(𝑓𝑓) là phổ phức, trong đó 𝑓𝑓 là tần số, trọng tâm phổđược cho bởi công thức (2.11).

∫ 𝑓𝑓0∞ |𝑁𝑁(𝑓𝑓)|𝑝𝑝𝑑𝑑𝑓𝑓

∫0∞|𝑁𝑁(𝑓𝑓)|𝑝𝑝𝑑𝑑𝑓𝑓

(2.11)

Ởđây∫0∞|𝑁𝑁(𝑓𝑓)|𝑝𝑝𝑑𝑑𝑓𝑓 là năng lượng. Như vậy, trọng tâm phổ là trung bình của tần số trên toàn bộ miền tần số với trọng số là |𝑁𝑁 (𝑓𝑓)|𝑝𝑝. Khi 𝑝𝑝= 2, trọng số là phổ công suất, còn 𝑝𝑝 = 1 trọng số là trị tuyệt đối của phổ. Giá trị thường được dùng là 𝑝𝑝= 2/3. Trọng tâm phổ là phép đo tần số trung bình của tần số trong phổ. Đối với tín hiệu hình sin ở tần số 377 Hz, trọng tâm phổlà 377 Hz. Đối với nhiễu trắng ở tần số 22050 Hz, trọng tâm phổ là 5512,5 Hz, tức là bằng nửa tần số Nyquist. Nếu 𝑁𝑁(𝑓𝑓) là phổ phức thì mômen phổ trung tâm thứ𝑛𝑛được cho bởi công thức (2.12) với 𝑓𝑓𝑐𝑐 là trọng tâm phổ.

∫0∞(𝑓𝑓 − 𝑓𝑓𝑐𝑐)𝑛𝑛|𝑁𝑁(𝑓𝑓)|𝑝𝑝𝑑𝑑𝑓𝑓

∫0∞|𝑁𝑁(𝑓𝑓)|𝑝𝑝𝑑𝑑𝑓𝑓 (2.12) Mômen trung tâm thứ𝑛𝑛 là giá trị trung bình của (𝑓𝑓 − 𝑓𝑓𝑓𝑓)𝑛𝑛 trên toàn bộ miền tần số với trọng số là |𝑁𝑁(𝑓𝑓)|𝑝𝑝. Mômen liên quan đến bậc 𝑛𝑛 trong công thức (2.12). Nếu 𝑛𝑛 = 2 ta có phương sai của các tần số trong phổ. Độ lệch chuẩn tần số chính là căn bậc hai của phương sai này.

Nếu 𝑛𝑛 = 3 ta sẽ có mômen phổ trung tâm bậc 3, đó cũng chính là độ bất đối xứng skewness không chuẩn hóa của phổ. Để chuẩn hóa, cần chia cho 1,5 công suất của mômen bậc hai. Skewness cho biết độ lệch của tập dữ liệu so với phân bố chuẩn. Nếu độ lệch nằm dưới giá trị trung bình thì dữ liệu tập trung hơn so với độ lệch nằm trên giá trị trung bình. Độ bất đối xứng skewness của một phân bố xác suất là độđo sự bất đối xứng của phân bốđó. Giá trị tuyệt đối của skewness càng cao thì phân bốđó càng bất đối xứng. Một phân bốđối xứng có skewness bằng 0.

Với 𝑛𝑛 = 4, ta có kurtosis của phổ không chuẩn hóa. Để chuẩn hóa cần chia cho bình phương của mômen bậc hai và trừđi 3. Kurtosis là một chỉ sốđể đánh giá đặc điểm hình dáng của một phân bố xác suất. Cụ thể, kurtosis so sánh độ cao phần trung tâm của một phân bố so với phân bố chuẩn. Phần trung tâm của phân bố càng cao và nhọn thì chỉ số kurtosis của phân bốđó càng lớn. Phân bố chuẩn có kurtosis bằng 3.

Giá trị trung bình của phổliên quan đến độ lệch chuẩn của phổ. Với bài toán phân lớp, khi một tập các giá trị của dữ liệu có xu hướng phân bố gần giá trị trung tâm thì mức độ tập trung của dữ liệu tốt hơn so với tập dữ liệu có xu hướng phân bố xa giá trịtrung tâm. Như vậy, giá trị trung bình có thể là hữu ích để mô tả tập các giá trị của dữ liệu có mối tương quan với nhau. Trung bình của các giá trị𝑥𝑥1, . . . ,𝑥𝑥𝑁𝑁 là:

70 𝑥𝑥̅= 1

𝑁𝑁 � 𝑥𝑥𝑖𝑖

𝑁𝑁

𝑖𝑖=1

(2.13)

Để tiến hành các thử nghiệm nhận dạng, các tham số đặc trưng cho tiếng nói có cảm xúc trong bộ ngữ liệu cảm xúc tiếng Việt đã được trích chọn bằng bộ công cụ Praat [181] và Alize [182]. Các tham số này được đề xuất trong Bảng 2.6. Phạm vi xác định 𝐹𝐹0 phụ thuộc vào giới tính. Đối với giọng nữ, giá trị𝐹𝐹0 tối đa là 350 Hz, và giá trịnày là 200 Hz đối với giọng nam.

Bảng 2.6 Các tham số đặc trưng được dùng cho nhận dạng cảm xúc tiếng Việt.

Chỉ số Tham sốđặc trưng Sốlượng

(1) Các hệ số MFCC 19

(2) Đạo hàm bậc nhất MFCC 19

(3) Đạo hàm bậc hai MFCC 19

(4) Năng lượng, đạo hàm bậc nhất, bậc hai của năng

lượng 3

(5) Tần số cơ bản F0 1

(6) Cường độ tiếng nói 1

(7) Các formant và dải thông tương ứng 8

(8) Các thành phần hài 1

(9) Trọng tâm phổ 1

(10) Mômen trung tâm 1

(11) Skewness 1

(12) Kurtosis 1

(13) Độ lệch chuẩn tần số 1

(14) Giá trị trung bình của phổ 1

(15) Độ dốc và độ lệch chuẩn của phổ trung bình dài hạn

LTAS (Long Term Average Spectrum) 2

(16) dF0 1

(17) F0NormAver 1

(18) F0NormMinMax 1

(19) F0NormAverStd 1

(20) dLogF0 1

(21) LogF0NormMinMax 1

(22) LogF0NormAver 1

(23) LogF0NormAverStd 1

71

Các tham số thống kê trong Bảng 2.6 sẽđược sử dụng cho các thử nghiệm nhận dạng bốn cảm xúc vui, buồn, tức, bình thường trong nghiên cứu của luận án.

Một phần của tài liệu Nhận dạng cảm xúc cho tiếng Việt nói (Trang 69 - 72)

Tải bản đầy đủ (PDF)

(150 trang)