Một số bộ phân lớp thường dùng cho nh nd ậ ạng cm xả úc

Một phần của tài liệu 622 (Trang 39)

Như vậy h s h n hệ ố ỗ ợp đố ới v i th nh phà ần thứ là k trung b nh c a xác su t h u ì ủ ấ ậ

nghiệm m thành phà ần đ ấy để cĩ các điểĩ l m dữ ệ li u.

Cần nhấn mạnh rằng c c ká ết quả (1.33), (1.35) và (1.38) khơng phải là nghi m ệ dướ ại d ng gi i tíả ch đố ới v i c c tham sá ố ủ c a mơ hình h n h p vỗ ợ ì xác suất hậu nghiệm

( ) ph thuụ ộc v o c c tham sà á ố này theo m t cộ ách phức tạp thơng qua (1 ). Tuy .29 nhiên các kết quả này gợi ý cách thức truy hồi đơn gi n đả ể tìm ra nghiệm của bài toán cực đại kh hiả ện, ch nh lí à một trường h p c a thuợ ủ ật tốn EM cho riêng mơ h nh Gauss ì hỗn hợp. Đầu tiên chọn c c giá á tr ịkhở ại t o cho trung b nh, hiì ệp phương sai và các hệ

s hố ỗn hợp sau đĩ s ẽ luân phiên gi a hai cữ ập nhật: bước E và bước M.

Trong bước kỳ vọng (bước E) s dùẽ ng c c giá á trị ệ ạ ủ hi n t i c a các tham s ánh ố để đ

giá cá ác x c suất hậu nghiệm cho bởi (1.29). Sau đĩ dùng cá ác x c suất này ở bước cực

đại hĩa (bước M) để đ ánh giá lại trung bình phương sai và các h s h n h p b ng ệ ố ỗ ợ ằ

cách d ng c c kù á ết quả (1.33), (1 ) v.35 à (1.38). Lưu ý rằng bằng c ch lá àm như thế,

39

giá tr mị ới này để tìm ra c c giá á trị ệp phương sai bằ hi ng cách dùng (1 ) trong khi .35 giữnguyên c c ká ết qu ả tương ứng đối với phân b ố Gauss đơn biến.

Cĩ th ểchỉ ra rằng mỗi cập nhật đối với c c tham sá ố là kết quả ừ bướ t c E sau đĩ là

bước M s m b o làẽ đả ả m tăng hàm log khả ệ hi n. Trên thực tế, thuật tốnđược coi là hội tụ khi cĩ s ự thay đổi của h m log khà ả ệ hi n hoặc là tương đương như vậy cĩ s ự thay đổi c c tham sá ố rơi xuống thấp hơn một ngưỡng nà ĩ o đ .

Hình 1.8Phân bố ủa 2 tập dữ liệu 2D và PDF tương ứng theo GMM c

a) Phân bố ủa 2 tập dữ liệu 2D và khởi tạo ban đầ c u c a EM; ủ b) PDF của 2 tập dữ

liệu sau bước lặp 100 c a EM; ủ c) Log Likelihood theo số bướ ặ- c l p

Cĩ th ểminh họa thuật tốn EM cho hỗn hợp của hai phân bốGauss trên Hình 1.9 với tập dữ ệ li u trên Hì 1.8 nh . Ở đây cĩ h n h p c a hai phân bỗ ợ ủ ố Gauss đượ ử ục s d ng. Các tâm được khởi tạo ban đầu như Hình 1.8, ma trận hiệp phương sai được kh i t o ở ạ

với giá trị như nhau cịn tỷ ệ ủ l c a 2 thành phần được khở ại t o là 0,5 và 0,5. Hình 1.9 cho th y cấ ác điểm dữ ệ li u mầu xanh lam và mầu đỏ cùng với c u h nh kh i t o cấ ì ở ạ ủa mơ hình hỗn hợp trong đ đườĩ ng bao PDF cho hai th nh phà ần Gauss được bi u di n ể ễ

bằng các đường tr n m xanh lam vị àu à màu đỏ. Hình 1.9 a) cho thấy kết quả của bước lặp đầu tiên.

c)

40

Tình trạng sau bước M đầu tiên được bi u di n trên ể ễ Hình 1.9 c) trong đĩ trung bình của phân bốGauss xanh đ đượã c chuy n thành trung b nh cể ì ủa tập dữ liệu được lấy trọng số ằ b ng x c suá ất của mỗi điểm dữ ệ li u thuộc về ụ c m m u xanh, n i c ch à ĩ á khá à c, l điểm chuy n t i tr ng tâm cể ớ ọ ủa màu xanh. Cũng như thế, hiệp phương sai của phân b Gauss mố àu xanh được đặt b ng hiằ ệp phương sai màu xanh. K t quế ả ũ c ng

tương tự như vậy đối với th nh phà ần đỏ. Cá Hình 1.9 c d), e), f) cho th y k t qu sau ấ ế ả

các bước của thuật tốn EM thứ 15 30 và 40 , được ho n thà ành tương ứng.

Hình 1.9 Minh họa thuật tốn EM, phân bố ữ ệu và đánh giá PDF theo EM d li

a) Sau bước lặp 1/100 b) Sau bước lặp ; 5/100; c) Sau bướ ặc l p 10/100; d) Sau bước

41

Hình 1.9 à thuf) l ật tốn tiến tới hội tụ. Lưu ý là thuật tốn EM cần nhiều bướ ặc l p

hơn để ế ti n t i h i t so v i thu t tốn ớ ộ ụ ớ ậ K-mean và mỗi bướ ặc l p c n s ầ ố lượng tính tốn lớn hơn nhiều. Do đ thườĩ ng chạy thuật tốn K-mean tìđể m ra khởi tạo thích hợp cho mơ h nh Gauss hì ỗn hợp sau đĩ m i áớ p dụng thuật tốn EM. Các ma trận hi p ệ phương sai cĩ th kh i t o mể ở ạ ột c ch thuá ận tiện như là các ma tr n hiậ ệp phương sai

của c c cá ụm mà thuật tốn K-mean ã tìđ m ra, c n c c hị á ệ ố s hỗn hợp cĩ th t b ng ể đặ ằ

t l cáỷ ệ c điểm đ đượã c gán cho c c cá ụm tương ứng.

1.4.7.4 Thuật tốn EM cho mơ hình Gauss h n hỗ ợp

Cho mơ h nh Gauss h n hì ỗ ợp, m c tiêu là cụ ực đại hĩa h m kh hià ả ện đối v i các ớ

tham s (bao gố ồm trung b nh, hiì ệp phương sai của các thành ph n vầ à các hệ ố ỗ s h n h p) ợ

• Khởi tạo trung bình , hiệp phương sai và các hệ ố s hỗn hợp đồng thời

đánh gi giá á trị kh i t o c a logarit khở ạ ủ ả ệ hi n.

• Bước E: đánh giá cá ác x c su t h u nghiấ ậ ệm sử ụ d ng giá tr cáị c tham số ệ hi n tại

( ) = ( | , )

, (1.43)

• Bước M: đánh giá lại c tham sác ố ằ b ng cách s d ng cá áử ụ c x c su t h u nghiấ ậ ệm hiện tại = 1 ( ) (1.44) = 1 ( )( )( ) (1.45) = (1.46) Trong đĩ: = ( ) (1.47) Đánh giá logarit kh hi n : ả ệ ln ( | , , ) = ln ( | , ) (1.48)

Và kiểm tra hội tụ của c c tham sá ố ho c cặ ủa logarit khả ệ hi n. N u tiêu chế í hội tụ

khơng thỏa mãn, trở ại bướ l c 2.

Như vậy mơ hình ỗ hợp Gauss h n - GMM là một dạng mơ hình thống kê được xây

dựng từ việc hu n ấ luyện các tham số thơng qua dữ liệu học. Về cơ bản, mơ hình

42

Đối với hướng tiếp cận mơ hình GMM để giải quyết bài tốn nhận dạng cảm xúc của người nĩi, mỗi cảm xúc sẽ được mơ hình hĩa bằng một mơ hình GMM và bộ các tham số sẽ được xác định thơng qua việc huấn luyện trên tập mẫu học.

1.4.8 B phân lộ ớp ANN

B phân l p ộ ớ ANN cĩ mộ ố ưu thết s so với GMM và HMM. ANN được bi t cĩ ế

hiệu quả hơn khi mơ hình hĩa các ánh xạ phi tuyến. Cũng như vậy, hiệu năng phân

lớp của ANN thường tốt hơn GMM và HMM khi số ẫ m u hu n luyấ ện tương đối ít.

Phần l n các ANN cĩ th ớ ể được phân thành 3 d ng chính: m ng truyạ ạ ền thẳng MLP (Multi Linear Perceptrol), m ng hạ ồi quy RNN (Recurrent Neural Networks) và mạng

hướng hàm cơ bản RBF (Radial Basis Functions) [6]. Trong đĩ, dạng RBF ít dùng

trong nh n dậ ạng cảm xúc tiếng nĩi. MLP thường dùng ph bi n trong nh n dổ ế ậ ạng c m ả

xúc tiếng nĩi vì dễ cài đặt và thuật tốn huấn luyện được định nghĩa rõ ràng khi cấu

trúc ANN được hồn tồn qui định. Tuy nhiên, các b phân l p ANN cĩ nhi u thamộ ớ ề

s cố ần phải lựa chọn thiết kế như dạng hàm kích hoạt nơron, số lượng lớ ẩp n và số nơron trong mỗ ới l p. Trên th c t , hiự ế ệu năng của ANN phụ thuộc rất nhiều vào các tham số này. Như ậ v y, trong một số ệ ố h th ng nhận d ng c m xúc ạ ả thường s d ng t ử ụ ừ

2 b ộphân lớp ANN trở lên [29]. Sơ đồ ế ợ k t h p thích hợp thường dùng để ổ ợ t h p các

đầu ra c a các b phân lủ ộ ớp ANN riêng rẽ.

1.5 Một số kết qu nhậả n d ng c m xúc đư c th c hi n trong và ạ ả ợ ự ệ

ngồi nước

Hiện nay, các mơ hình nhận dạng cảm xúc tiếng nĩi khá đa dạng. Vì v y, ậ đã cĩ

nhiều nghiên cứu ph i hố ợp thử nghiệm các phương pháp thực hi n mơ hình khác ệ

nhau. Trong [70], các tác giả đã thực hi n nh n d ng 5 c m xúc v i 25 mệ ậ ạ ả ớ ẫu giọng nĩi cho tiếng Mandarin (Trung Quốc). Cĩ 60 tham số đặc trưng liên quan đến MFCC, tần số cơ bản, biến thiên trung bình qua tr c khơng trong th i gian ngụ ờ ắn và năng lượng trong th i gian ng n ờ ắ được s dử ụng để nhận d ng. K t qu nh n d ng d a vào ạ ế ả ậ ạ ự

b ộ phân lớp GMM đã đạt được tỷ ệ l nhận dạng chính xác trung bình khoảng 80%. Trong [71], tác giả đã sử ụng HMM và GMM để d nhận dạng 5 cảm xúc vui, buồn, t cứ , ngạc nhiên và bình thường với k t qu ế ả đạt được v chính xác t 67,39% - ề độ ừ

82,49% khi dùng HMM và từ 68,39% - 78,27% khi dùng GMM.

Nghiên cứu [72] dùng b ộ phân lớp GMM vớ ộ ữ ệi b d li u ti ng nĩi KISMET chế ứa 726 giọng nĩi. Các cảm xúc được th hi n g m ể ệ ồ tán thành, chú ý, ngăn chặn, d u dàng ị

và trung tính. Tiêu chí lựa chọn mơ hình dựa trên kurtosis đã được sử ụ d ng để xác

định s thành ph n Gauss tố ầ ối ưu cho m i mơ hình [73]. ỗ Do số lượng phát ngơn sẵn cĩ h n chạ ế nên mỗi lần lấy 100 phát ngơn để nhận d ng. K thu t l a chạ ỹ ậ ự ọn đặc trưng SFS được dùng để ự l a chọn các đặc trưng tốt nh t t t p chấ ừ ậ ứa các đặc trưng cao độ và năng lượng hình [6]. Độ chính xác cực đại đạt được là 78 7% v, ới 5 đặc trưng t t ố

nh tấ. Bằng cách sử ụ d ng sơ đồ phân l p tu n t cĩ phân c p, chính xác nh n dớ ầ ự ấ độ ậ ạng

43

Ng liữ ệu này gồm 509 giọng nĩi, trong đĩ cĩ 212 giọng cảm x tán thành, 149 giúc ọng cảm xúc lơi cuốn, 148 giọng cảm xúc ngăn chặn. Lỗi đánh giá chéo được đo vớ ối s thành phần của GMM từ 1-100. Hiệu năng trung bình tốt nh t khoấ ảng 75% tương ứng v i s thành ph n mơ hình bớ ố ầ ằng 10.

Kết quảtương tự với dữ ệ li u FERMUS III [75] chứa 5250 mẫu gồm các cảm xúc cơ

bản và cảm xúc trung tính. Cĩ 16 thành phần GMM được dùng để mơ hình hĩa cảm

xúc. Độ chính xác trung bình đạt 74,83% đối với nh n dậ ạng độ ập ngườc l i nĩi và 98,7%

đố ới v i nh n d ng ph thuậ ạ ụ ộc người nĩi. Các kết quảnày dựa trên đánh giá chéo. Để mơ hình hĩa c u trúc th i gian cấ ờ ủa dữ ệ li u, GMM thích h p vợ ới việc xửlý tự

hồi qui vectơ trong mơ hình GMVAR được dùng cho nhận dạng cảm xúc trong bộ

ng li u Berlin [76]ữ ệ . Các cảm xúc được nhận dạng là vui, buồn, chán, tức, ghê t m ở

và bình thường. Cảm xúc ghê tởm được bớt đi vì số lượng phát ngơn ít. GMVAR cĩ

độ phân l p chính xác là 76% so vớ ới 71% c a HMM, 67% c a k-NN ủ ủ và 55% c a ủ

mạng nơron. Thêm vào đĩ GMVAR cho độ, chính xác 90% khi chia các c m xúc ả

thành 3 l p cịn HMM chớ ỉ đạt 86%.

Để nh n d ng c m xúc cho ti ng nĩi ậ ạ ả ế được ghi l i trong 10 giạ ờ t mừ ột trung tâm trả

lời c c cuá ộc gọi cấp cứu y tế ằ b ng tiếng Pháp, các tác giả trong [77] s dử ụng máy hỗ

tr ợ véctơ SVM và mơ hình cây logic LMT đểphân loại hai m xúcả c tiêu cực và tích cực. T l nhỷ ệ ận dạng đạt khoảng 82%. Với nghiên cứu [78] tá, c giả đ ã s dử ụng mơ hình GMM thực hiện nhận dạng bốn cảm x c vui, buú ồn, tức và bình thường. Ngữ liệu g m ồ 30 giọng nam và 25 giọng nữ, kết qu nhả ận dạng đúng trung bình đạt 60%. Trong [79], các tác giả đã s dử ụng mơ h nh nhì ận dạng SVM cho 6 c m xúc: vui, bu n, chán, ả ồ

ghê tởm, sợ hãi, bình thường v i ng liớ ữ ệu thử nghiệm sử ụ d ng bộ ng liữ ệu tiếng Đức. Cĩ 182 tham số đặc trưng được s dử ụng để nh n d ng bao g m: ậ ạ ồ

• Giá tr ị trung b nh, pì hương sai, trung vị, giá tr ị min, max và phạm vi ủ c a biên

độ tiếng nĩi

• Giá tr ịtrung b nh và ì phương sai của năng lượng tiếng nĩi

• Giá trị trung bình, phương sai, trung vị, giá trịmin, max và dải cao độ tiếng nĩi

• Giá trịtrung bình, phương sai, giá trịmin, max và phạm vi của 4 formant đầu tiên

• Năng lượng của 22 băng tần con đầu tiên theo thang Bark

• Giá tr ịtrung bình, phương sai, giá tr ị min, max và phạm vi ủ c a 12 hệ ố s MFCC

• Các đặc trưngdạng ph : cổ enter of gravity, độ lệch chuẩn, skewness kurtosis và

• Trung bình và lđộ ệch chu n cẩ ủa chu kỳ xung thanh mơn, giá trị tuyệt đối của biến động cục bộ, trung bình tương đối của nhiễu loạn, vi sai của chênh lệch chu kỳ và hệ số nhiễu loạn theo chu kỳ năm điểm.

Trong trường h p này, t l nh n d ng trung b nh lợ ỷ ệ ậ ạ ì à 77,4% - 81,5% cho b n c m ố ả

xúc vui, buồn, bình thường và s hãi B ngợ . ộ ữ ệ li u tiếng Đức cũng được dùng nh n để ậ

dạng với nghiên c u c a [80] trong ứ ủ , đĩgiới tính được nh n dậ ạng trước khi nhận dạng cảm xúc Khi cĩ thêm thơng tin v. ề giới tính, hiệu năng ậnh n d ng c a h th ng ạ ủ ệ ố đã

44

được c i thi n, t l nhả ệ ỷ ệ ận dạng tổng thể tăng 2% - 4% so v i khi khơng cĩ thơng tin ớ

v ềgiới tính.

V i ớ mơ hình HMM, cũng đã cĩ rất nhiều nghiên cứu về nh n d ng c m xúc s ậ ạ ả ử

dụng mơ h nh n y. Nĩi chungì à , HMM cũng cho độ chính xác phân lớp tương thích

với các bộ phân lớp đã biết khác. M ìơ hnh HMM được dùng trong [81] đểphân lớp 7 c m xúcả : vui, buồn, tức, ghê tởm, sợ hãi, ngạc nhiên và bình thường. Các đặc trưng LFPC, LPCC, MFCC được trích ch n t tín hi u ti ng nĩi. Ngọ ừ ệ ế ữ ệ li u th nghi m là ử ệ

tiếng Trung và tiếng Myanma. Trong 7 file ti20 ếng nĩ ĩ 432 file i c được dùng để hu n ấ

luyện cịn lại để nhận dạng. Tỷ ệ l trung bình t t nh t là 78 5% và 75 5% cho tiố ấ , , ếng Trung và tiếng Myanma trong khi dùng người nghe để phân l p ch t 65,ớ ỉ đạ 8%. Như

v y, h thậ ệ ống nhận dạng cảm xúc ti ng nĩi tế ốt hơn đối với riêng ngữ ệ li u này. Tuy nhiên, kết quảnày khơng thểđượ ổc t ng quát hĩa trừ khi cĩ m t nghiên cộ ứu tồn diện

hơn và cĩ nhiều ngữ ệu hơn đượ li c th c hi n. ự ệ

HMM cũng được dùng trong nhi u nghiên cề ứu khác như trong [82], [83]. Trong

[82], độchính xácđạt 70,1% đối với vi c phân l p các gi ng nĩi thành 4 l p v i ng ệ ớ ọ ớ ớ ữ

liệu SUSAS độc lập nội dung. ghiên cN ứu [83] cĩ 2 hệ ố th ng đư c đợ ề xuất, hệ ố th ng th nhứ ất là hệ th nố g thơng thường trong đĩ mỗ ảm xúc đượi c c mơ hình hĩa b ng ằ

HMM liên t c cĩ 12 thành ph n Gauss cho m i tr ng tháiụ ầ ỗ ạ . H thệ ống thứ 2 cĩ HMM liên tục 3 trạng thái được xây d ng cho mự ỗ ới l p âm v . Cĩ 46 âm vị ị được nhĩm thành 5 l p: nguyên âm, ớ âm lướt (glide), âm mũi, âm tắc và âm xát. Mỗi trạng thái được

Một phần của tài liệu 622 (Trang 39)

Tải bản đầy đủ (PDF)

(150 trang)