Tham số đặc trưng dùng cho nhận dạng cảm xúc tiếng Việt

Một phần của tài liệu 622 (Trang 66)

Trong giao tiếp thơng thường giữa ngườ ới người v i, ngồi n i dung cộ ủa thơng điệp c n ầ trao đổ người nghe cũng thu đượi, c r t nhi u thơng tin thơng qua các c m xúc ấ ề ả

của người nĩi lúc đĩ. Vì vậy, trong giao tiếp người-máy cần phát triển các hệ ố th ng tiếng nĩi cĩ thể ử x lý các cảm xúc kèm theo n i dung c n truy n t i. Các mộ ầ ề ả ục tiêu cơ

bản của hệ thống xử lý tiếng nĩi cĩ cảm xúc là nh n dậ ạng cảm xúc thể hiện trong tiếng nĩi và tổng hợp cảm xúc mong muốn trong tiếng nĩi để truyền tải ý định nội dung. T ừ gĩc độ ỹ k thuật, để làm được điều này, cần phải tìm được các tham số đặ c

trưng về ả c m xúc trong ti ng nĩi nĩi chung và trong ti ng Vi t nĩi ế ế ệ nĩi riêng sau đĩ đưa ra được các mơ hình t ng h p, nh n d ng ti ng nĩi cĩ c m xúc.ổ ợ ậ ạ ế ả

V mề ặ ỹt k thuật, cĩ rất nhiều nghiên cứu đưa ra các tham số khác nhau ảnh hưởng

đến c m xúc trong nh n dả ậ ạng và tổng hợp tiếng nĩi, các thơng số này s ẽ được phân

tích để tìm ra các quy lu t ậ ảnh hưởng đến c m xúc c a t ng ngơn ngả ủ ừ ữ khác nhau. Ở

mục 2.4, luận ánđã trình bày các tham số đặc trưng của tín hiệu tiếng nĩi dùng cho nhận dạng cảm xúc và mộ ốt s các nghiên cứu đã sử ụ d ng các đặc trưng này phân để

loại các cảm xúc. a theo các nghiên c u vDự ứ ềcác đặc trưng của tín hi u ti ng nĩi và ệ ế

những ứng dụng của nĩ trong các nghiên c u thứ ử ngh m việ ề nhận dạng cảm xúc, trong mục 5.2 của chương này lu n án s ậ ẽ đề xuất các tham số đặc trưng được trình

bày dưới đây dùng cho th nghiử ệm nhận dạng cảm xúc tiếng Việt nĩi.

2.5.1 Các hệ ố s MFCC

Như đã trình bày trong mục 2.4.1, MFCC là các hệ số ceptrum theo tần sốMel được sử dụng rộng rãi trong nhận dạng tiếng nĩi và được Davis và Mermelstein giới thiệu trong những năm 1980. Đã cĩ nhiều nghiên cứu cho thấy các đặc tính MFCC được xem như là tập các đ c điểặ m c a hủ ệ thống để phân loại các cảm xúc. MFCC đã được sử dụng để phân lo i các cạ ảm xúc cho nhiều ngơn ngữkhác nhau như ti ng ế Trung Quốc [175], [176] ti, ếng Đức [177], [178] hay nhận dạng cảm xúc trên ngữ ệ li u đa thể ứ th c IEMOCAP [179]… Do vậy, MFCC được coi là các đặc trưng cơ bản của tín hiệu tiếng

66

nĩi và được sử dụng trong các hệ thống nhận dạng về cảm xúc tiếng nĩi. Quá trình tính tốn các hệ ố s MFCC này thường được th c hiự ện theo sơ đồ Hình 2.4.

Các bước được th c hiự ện trên sơ đồ như sau:

(1). Tiền xử lý tín hiệu tiếng nĩi: Tín hi u ệ tiếng nĩi đượ đưa qua ộc b lọc hiệu

chỉnhcĩ tác dụng bù lại phổ tín hiệu nguồn âm hữu thanh chủ yếu tập trung ở miền tần

thấp và hiệu ứng bức xạ tại mơi tương đương với bộ lọc thơng cao. Bởi vì tiếng nĩi cĩ

s suy giự ảm kho ng 20dB/de de khi lên tả ca ần s o do ố ca đặ đc iểm sinh lý của hệ

th ng phát âm c con ố ủa người nên bước xử lý này sẽ t ng c ng tín hiă ườ ệu lên một giá tr gị ần 20dB/decade khđể ắc phục ự s su giy ảm đĩ.

Để thực hiện lọc hiệu chỉnh thường dùng bộ ọc đáp ứ l ng xung h u h n FIR (ữ ạ Finite

Impulse Response) cĩ hàm truyền đạt:

( ) = 1 (2.1)

Trong , đĩ là s hệ ố hiệu chỉnh, thường cĩ giá tr là 0,95. ị

Hình 2.4 Sơ đồ tính hệ ố MFCC s

(2). Chia tín hiệu tiếng nĩi thành chuỗi các khung với kích thước khung là 20ms

và độ ờ d i khung là 10ms. Sau khi chia khung, tín hiệu được đưa qua cửa s Hammiổ ng (3). Biến đổi tín hiệu về miền tần số: T i bạ ước này, với mỗi khung tín hiệu, sử dụng bộ biến đổi Fourier rời rạc DFT chuyđể ển tín hi u vệ ề miền t n s . Cơng viầ ố ệc tính án to được th hi n bực ệ ằng thuật tốn T. FF

(4). Phổ Mel được tính bằng cách cho tín hiệu DFT đi qua qua băng ộ ọ b l c elM : Phổ ủ c a mỗi khung tín hiệu sau khi thu được qua DFT được x lý qua các bử ộ lọc s ố được áp d nụ g để lọc c tín hi u theo c d t n s khác nhau. Ph n ng c a tai cá ệ cá ải ầ ố ả ứ ủ

ng i vườ ới các thành ph n c a t n s là khơng y n tính. Sầ ủ ầ ố tu ế ự khác nhau v t n s ề ầ ố ở

vùng t n s th p (<1KHz) d ầ ố ấ ễ được nhận biế ởt b i con ng i h n là vùng t n s oườ ơ ở ầ ốca . L c theo thang t n s Mel mơ phọ ầ ố ỏng tính chất này b ng ch dùng các bằ cá ộ lọ được c

cl(n) (n Lọc hiệu chỉnh DFT Các bộ lọc thang Mel Log(Σ|.|2) Biến đ i ngưổ ợc DFT hoặc cosin Lấy đạo hàm Năng lượng Tín hiệu tiếng nĩi Cửa sổ s(n) ( ) Xl(k) Sl(m)

67

phân bố theo một hàm phi ytu ến trong kho ng khơng gian t n s thơng ả ầ ố, thường là hàm Mel:

( ) = 2595 (1 + ) (2.2)

Đầu ra c a các b l c là t ng các thành ph n phủ ộ ọ ổ ầ ổ được lọc. Các bộ ọ l c này mơ phỏng quá trình xửlý của hệ ố th ng thính giác.

(5) L. ấy log của đầu ra các bộ lọc và dùng biến đổi cosin rờ ại r c DCT trên các

véctơ log của phổ ẽ đượ s c các h s MFCC. ệ ố

Các hệ s ốMFCC cĩ thể được lấy đạo hàm để cĩ thơng tin bi n thiên theo th i gian ế ờ

của các vé ctơ đặc trưng như đạ o hàm bậc nh t, ấ đạo hàm b c 2 c a MFCC. ậ ủ

2.5.2 Năng lượng ti ng nĩi ế

Năng lượng ti ng nĩi ế cũng là một tham s ốcĩ liên quan đến c m xúc c a ti ng nĩi. ả ủ ế Năng lượng được tính b ng t ng cằ ổ ủa căn bậc hai độ lớn các thành phần FFT rời rạc của tín hiệu. Tổng này sau đĩ được chuẩn hĩa theo độ dài c a s . ử ổ

2.5.3 Cường độ ế ti ng nĩi

Cường độ ếng nĩi là đặ ti c trưng của ngơn điệu ti ng nĩi. Các cế ảm xúc hưng phấn

thường cĩ cư ng đờ ộ ớn hơn như khi vui thì người ta nĩi to hơn khi buồ l n, hay khi tức

giận thường nĩi to hơn bình thường. Đây cũng là tham số quan tr ng ọ ảnh hưởng t i ớ

phân biệt các cảm xúc vui, bu n, tồ ức hay bình thường.

2.5.4 Tần s cơ b n F0 và các bi n th c a F0 ố ả ế ể ủ

Tiếng Việt là ngơn ngữcĩ thanh điệu nên ngồi các tham số đặc trưng về ngu n ồ

âm, tuyến âm thì đặc trưng vềngơn điệu cĩ t m quan tr ng ầ ọ ảnh hưởng n nh n d ng đế ậ ạ

cảm xúc. Tiếng Việt cĩ sáu thanh điệu: thanh ngang, thanh huyền, thanh sắc, thanh hỏi, thanh ngã và thanh nặng [180]. Các thanh điệu trong tiếng Việt nĩi được th hi n ể ệ

qua qui luật biến thiên tần số cơ bản 0. Vì vậy, đặc trưng tần số cơ bản 0và các biến thể ủ c a 0 sẽ là những tham số ữ h u ích cho nh n dậ ạng cảm xúc ti ng Viế ệt. K t ế

luận n y cà ũng phù hợp với việc sử ụ d ng tham số 0 tđể ổng hợp tiếng Việt cĩ c m ả

xúc trong nghiên cứ đ đượu ã c cơng bố ở bà áo “Ti b ổng hợp tiếng Việt cĩ c m xúcả ” t i ạ Chuyên san các cơng trình nghiên cứu phát triển Cơng ngh Thơng tin và Truyệ ền thơng của tạp chí Bưu chính Viễn thơng, t p V-2, s 18 (38), trang 67-77. ậ ố

Luận án sử dụng các biến thể ủ c a 0được tính theo các cơng thức sau đây:

• Đạo hàm 0:

0( )= 0( )/ (2.3)

• Chuẩn hĩa 0theo giá trịtrung bình c a ủ 0cho mỗi file:

68

• Chuẩn hĩa 0theo giá trị min 0và max 0 cho mỗi file:

0 ( ) = 0( ) min 0( )

max 0( ) min 0( ) (2.5)

• Chuẩn hĩa 0theo trung bình và độ ệ l ch chuẩn của 0:

0 ( ) = 0( ) 0( )

0( ) (2.6)

• Đạo hàm 0:

0

( ) = 0( )/ (2.7)

• Chuẩn hĩa 0theo giá trị min 0 và max 0cho mỗi file:

0 ( ) = max ( )0( )0 minmin 0( )0( ) (2.8)

• Chuẩn hĩa 0theo trung bình 0 cho mỗi file:

0 ( ) = 0( )/ 0( ) (2.9)

• Chuẩn hĩa 0theo trung bình và độ ệ l ch chu n c a ẩ ủ 0 cho m i file: ỗ

0 ( ) = ( )0 0( )

0( ) (2.10)

2.5.5 Các formant và dải thơng tương ứng

Nĩi chung, formant đại di n cho chu i các c u hình tuy n âmệ ỗ ấ ế , do đĩ phân tích

formant sử dụng giá trị, vị trí và băng thơng của chúng cĩ th giúp trích xuể ấ đượt c những thơng tin cụ ể liên quan đế th n cảm xúc t tín hiừ ệu ti ng nĩi. ế Tham số formant rất quan trọng trong nhận dạng giọng nĩi. Vì vậy, mộ ựt s thay đổi nh ỏtrong các tham s ốnày gây ra s khác bi t vự ệ ề ả c m nh n, cĩ th dậ ể ẫn đến s bi u hi n c a nh ng c m ự ể ệ ủ ữ ả

xúc khác nhau.

D i ả thơng tương ứng v i formant khơng ớ ảnh hưởng đến thơng tin ngữâm mà i đạ

diện cho một số thơng tin cụ ể ủ th c a người nĩi. Khi cĩ s ự thay đổi trong d i thơng, ả

formant cũng gây ra những trường hợp thay đổ ề ải v c m xúc. D i thơng formant là dả ải tần số đo đượ ởc kho ng 3dB tính t nh cả ừ đỉ ực đạ tương ứi ng tr xu ng. ở ố

2.5.6 Các đặc trưng phổ

Các đặc trưng phổ như các thành phần hài (harmonicity) tr, ọng tâm phổ (center of gravity), mơmen trung tâm (central spectral moment), độ lệch chuẩn tần số (standard deviation), giá tr ịtrung b nh cì ủa phổ (mean), độ ệ l ch (skewness), nh n (độ ọ kurtosis),

độ ố d c (slope) và l ch chu n c a ph độ ệ ẩ ủ ổ trung bình dài hạn (standard deviation of LTAS-Long Term Average Spectrum)cũng được xem là các tham sốđặc trưng cĩ liên quan đến c m xúc ti ng nĩi. heo Praatả ế T [181], các th nh ph n hà ầ ài đại di n cho mệ ức

69

Ratio). Harmonicity được biểu diễn theo thang đo dB. Nếu 99% năng lượng c a tín ủ

hiệu nằm trong chu k và 1% là nhi u thỳ ễ ì HNR là 10 log10 (99/1) = 20dB. N× ếu HNR bằng 0 dB cĩ nghĩa là năng lượng trong sĩng hài và trong nhi u b ng nhau ễ ằ

[181]. Gi s ả ử ( ) là ph phổ ức, trong đĩ là tần số, trọng tâm phổđược cho b i cơng ở

thức (2.11).

| ( )| | ( )|

(2.11)

Ở đây | ( )| là năng lượng. Như vậy, tr ng tâm ph là trung b nh cọ ổ ì ủa tần

s ốtrên to n bà ộ miền tần số ớ v i trọng số là | ( )|. Khi = 2, trọng số là ph cơng ổ

suất, cịn = 1 trọng số là tr tuyị ệt đối của phổ. Giá trị thường được dùng là = 2/3. Trọng tâm phổ là phép đo tần s trung bình cố ủa tần s trong phố ổ. Đối với tín hiệu h nh sin ì ở ầ t n số377 Hz, trọng tâm phổ là 377 Hz. Đối với nhiễu trắng ở ầ t n số

22050 Hz, trọng tâm ph là 5512,5 Hz, tổ ức là bằng nửa tần số Nyquist. Nếu ( ) là ph phổ ức th mơmen phì ổ trung tâm thứ được cho b i cơng th c (2ở ứ .12) với là trọng tâm phổ.

( ) | ( )|

| ( )| (2.12)

Mơmen trung tâm thứ là giá tr trung bình cị ủa ( )trên tồn bộ miền tần s vố ới trọng số là | ( )|. Mơmen liên quan đến b c trong cơng th c (2 ). Nậ ứ .12 ếu

= 2ta cĩ phương sai của c c tá ần sốtrong phổ. Đ ệộ l ch chuẩn tần số ích nh là căn

bậc hai của phương sai này.

N u ế = 3 ta s cĩ ẽ mơmen phổ trung tâm bậc 3, đĩ cũng ch nh lí à bđộ ấ ốt đ i xứng

skewness khơng chuẩn h a cĩ ủa phổ. Để chuẩn h a, cĩ ần chia cho 1,5 cơng su t cấ ủa mơmen bậc hai. Skewness cho biế ộ ệt đ l ch c a tủ ập d liữ ệu so với phân b chu n. N u ố ẩ ế độ ệ l ch nằm dưới giá tr trung b nh thị ì ì d liữ ệu tập trung hơn so với độ lệch nằm trên giá tr ịtrung bình. Độ ấ ố b t đ i xứng skewness của một phân bốxác su t lấ à độđo sự b t ấ đố ứi x ng c a phân b ủ ố đĩ. Giá trị tuyệt đố ủi c a skewness càng cao thì phân bốđĩ càng

bất đối xứng. Một phân bố đối xứng cĩ skewness bằng . 0

V i ớ = 4, ta cĩ kurtosis của phổ khơng chu n hẩ ĩa. Để chuẩn hĩa cần chia cho bình phương của mơmen bậc hai và tr ừ đi 3. Kurtosis là m t ch s áộ ỉ ốđể đ nh giá đặc

điểm hình dáng c a mủ ột phân b xác su t. Cố ấ ụ ể th , kurtosisso sánh độ cao ph n trung ầ

tâm của một phân b so v i phân b chu n. Ph n trung tâm c a phân b càng cao và ố ớ ố ẩ ầ ủ ố

nhọn th chì s ỉ ố kurtosis của phân bốđĩ càng lớn. Phân b chu n cĩ ố ẩ kurtosis b ng 3 ằ . Giá tr ịtrung b nh cì ủa phổ liên quan đến độ ệ l ch chu n c a ph . Vẩ ủ ổ ới bài toán phân lớp, khi một tập các giá trị ủ c a dữ ệu cĩ xu hướ li ng phân bố ầ g n giá tr trung tâm thì ị

mức đ ậộ t p trung của dữ ệ li u tốt hơn so vớ ậi t p d liữ ệu cĩ xu hướng phân bốxa giá tr ị trung tâm. Như vậy, giá tr trung b nh cị ì ĩ th là hể ữu ích để mơ t tả ập c c giá á tr cị ủa d liữ ệu cĩ mối tương quan với nhau. Trung bình c a các giá trủ ị , . . . , là:

70

=1 (2.13)

Để ế ti n hành các th nghiử ệm nhận dạng, các tham số đặc trưng cho ếti ng nĩi cĩ cảm x c trong bú ộ ngữ ệ li u c m xúc ti ng Viả ế ệt đã được trích chọn bằng bộcơng cụ

Praat [181] và Alize [182]. Các tham số này đượ đềc xu t trong Bấ ảng 2.6. Phạm vi

xác định 0 ph thuụ ộc vào giới tính. Đối với giọng nữ, giá trị 0 tối đa là 350 Hz, và

giá trị này là 200 Hz đối với gi ng nam. ọ

Bảng 2.6 Các tham số đặc trưng được dùng cho nhận d ng cạ ảm xúc tiếng Việt.

Ch sỉ ố Tham số đặc trưng S ố lượng

(1) Các hệ ố s MFCC 19

(2) Đạo h m bà ậc nh t MFCCấ 19

(3) Đạo h m bà ậc hai MFCC 19

(4) Năng lượng, đạlượng o hàm b c nh t, b c hai của năng ậ ấ ậ 3

(5) Tần số cơ bản F0 1

(6) Cường độ ế ti ng nĩi 1

(7) Các formant và dải thơng tương ứng 8

(8) Các th nh phần hà ài 1

(9) Trọng tâm phổ 1

(10) Mơmen trung tâm 1

(11) Skewness 1

(12) Kurtosis 1

(13) Độ ệ l ch chu n t n sẩ ầ ố 1

(14) Giá tr ị trung b nh của phổì 1

(15) Độ ốLTAS (Long Term Average Spectrum) d c và l ch chu n c a ph trung bđộ ệ ẩ ủ ổ ình dài hạn 2

(16) dF0 1 (17) F0NormAver 1 (18) F0NormMinMax 1 (19) F0NormAverStd 1 (20) dLogF0 1 (21) LogF0NormMinMax 1 (22) LogF0NormAver 1 (23) LogF0NormAverStd 1

71

Các tham số ố th ng kê trong B ng 2.6 sả ẽ được sử dụng cho các thử nghi m nh n ệ ậ

dạng bốn cảm xúc vui, buồn, tức, bình thường trong nghiên c u c a lu n án.ứ ủ ậ

2.6 Phân tích ảnh hưởng c a m t số tham số đếủ ộ n khả năng phân

biệt các m xúc c a b cả ủ ộ ngữ liệu cảm xúc tiếng Việt

Luận án s s dẽ ử ụng phân tích phương sai ANOVA và kiểm định T(Tukey’s test)

để đánh giá ảnh hưởng c a m t s tham s ủ ộ ố ốcơ bản như ầt n s ốcơ bản 0trung bình,

năng lượng trung bình, các đ c trưng phổặ c b ng li u của ộ ữ ệ ảm xúc tiếng Việt đã được trình bày c th trong m c 2.3. Mụ ể ụ ục 2.6.1 sau đây sẽ trình bày khái quát về phương

pháp phân tích phương sai ANOVA và kiểm định .

2.6.1 Phân tích phương sai ANOVA và ki m đ nh T ể ị 2.6.1.1 Phân tích phương sai one-way ANOVA

Các phân tích ANOVA [64] thường được xem như là tập h p c a các tình huợ ủ ống thực nghiệm và c c thá ủ ụ t c thống kê đ phân tích các để áp ứng cĩ tính định lượng từ các đơn vị ử th nghi m. Bàệ i toán ANOVA đơn giản được gọ ới v i các tên khác nhau

như nhân tố đơn (single-factor) ho c one-ặ way ANOVA. Bài tốn ANOVA đơn giản

Một phần của tài liệu 622 (Trang 66)

Tải bản đầy đủ (PDF)

(150 trang)