1 ã trì à
Chương đ nh b y tổng quan nghiên cứu v ề phân loại cảm xúc và mộ ốt s
nghiên cứu mới về nh n d ng c m xúc ậ ạ ả đã được ti n hành ế trong và ngồi nước Nhi. ều b ộ phân lớp đã được thử nghiệm để nhận dạng cảm xúc như HMM, k-NN, GMM, ANN và SVM. Tuy nhiên, rất khĩ để quyế ịt đ nh b phân lộ ớp nào thực hiện tốt nhất cho phân lo i c m xúc vì ạ ả việc nh n dậ ạng được th c hi n trên ự ệ các ngữ ệ li u c m xúc ả
khác nhau với các thi t l p th nghiế ậ ử ệm khác nhau. Các kỹ thuật nhận dạng đã liên tục
được c i ti n nh m cả ế ằ ải thiện độ ích nh x c nhá ận dạng và đây vẫn là thách thức đối với các nh nghiên cà ứu.
Hiệu năng của các bộ nhận dạng hiện nay vẫn c n ph i ầ ả được c i thi n m t cách ả ệ ộ đáng kể Độ. chính xác phân l p trung bình c a các h th ng nh n d ng c m xúc ớ ủ ệ ố ậ ạ ả
khơng phụ thuộc người nĩi đạt khoảng 80% trong h u hầ ết các kỹ thuật được đề xu t ấ
[6]. Trong một số trường h p, ch ng hợ ẳ ạn như [29], t l ỷ ệ đạt vào kho ng 50%ả . Đối với phân l p phớ ụ thuộc người nĩi, độ chính xác nhận dạng vượt trên 90% trong một vài nghiên cứu [30], [89], [106] .
Hầu hết các nhĩm nghiên cứu hiện nay tập trung nhi u ề vào nghiên cứu các đặc
trưng tiếng nĩi và mối quan h c a chúng vệ ủ ớ ội n i dung cảm xúc. Các đặc trưng mới
cũng đã được phát triển như các đặc trưng dựa trên TEO. Ngồi ra, cũng cĩ sử d ng ụ
các kỹ thu t l a chậ ự ọn đặc trưng khác nhau để tìm ra các đặc trưng tốt nh t cho nh n ấ ậ
dạng cảm xúc. Tuy nhiên, kết quả thu được khơng nh t quán t các nghiên c u khác ấ ừ ứ
nhau. Lý do chính cĩ thểlà do thực tế ch tỉ ừng ng liữ ệu cảm xúc riêng biệ đượt c xem xét trong m i nghiên cỗ ứu.
Cũng cần lưu ý rằng, ph n l n các kầ ớ ỹ thu t phân l p hi n nay ậ ớ ệ chưa xét đến mơ hình c u trúc th i gian cấ ờ ủa dữ liệu huấn luyệ và cũng n chỉ cĩ một vài nghiên c u xem ứ
49
xét áp dụng hệ ố th ng phân l p dùng nhi u b phân lớ ề ộ ớp (MCS) để nh n d ng c m xúc ậ ạ ả
[92], [93] .
Các kết qu ả cũng cho thấy, đối với tiếng Việt chưa cĩ nhiều nghiên cứu được cơng bố, do đĩ cần cĩ những nghiên c u vứ ề nh n d ng c m xúc c a ti ng Vi t nĩậ ạ ả ủ ế ệ i để gĩp phần cải thiện c c á ứng dụng cho tiếng Việt cĩ liên quan đến xử lý tiếng nĩi.
Dựa trên các nghiên cứu đã trình bày ở trên, nội dung tiếp theo của luận án sẽ
nghiên cứu lựa chọn và đề xuất bộ ngữ ệ li u c m xúc tiả ếng Việt, xuđề ất b tham sộ ố
tín hi u ti ng nĩi cĩ ệ ế ảnh hưởng tới chất lượng nh n dậ ạng cảm xúc ti ng Viế ệt và sử
dụng một số mơ hình để ự th c hiện nhận dạng thử nghiệm cảm xúc tiếng Việt nĩi. Các nội dung nghiên c u ch nh cứ í ủa chương 1 đã được cơng b ố trong c c b i bá à áo s 2 ố và 4 trong danh mục các cơng trình nghiên c u c a lu n ánứ ủ ậ :
2. “ Emotion recognition and corpus for Vietnamese emotion recognition”, Tạp chí Khoa học và Cơng nghệ, ĐHSPKT Hưng Yên, số 7, ISSN 2354 0575, trang - 51-56 .
4. “ So sánh hiệu năng mộ ốt s phương pháp nhận dạng cảm xúc tiếng Việt nĩi”, K y u Hỷ ế ội nghị khoa h c cơng nghọ ệ qu c gia lố ần th IX, Nghiên cứ ứu cơ bản và Ứng dụng Cơng nghệ Thơng tin, Cần Thơ, trang 656-662.
50
Chương 2. NGỮ LIỆU C M XÚC VÀ CÁC THAM SỐ ĐẶẢ C
TRƯNG CHO CẢM XÚC TIẾNG VIỆT NĨI
Xây dựng ngữ liệu và phân tích đánh giá bộ ngữ ệ li u là khâu quan tr ng trong quá ọ
trình thử nghiệm nhận d ng cạ ảm xúc. Chất lượng c a b ngủ ộ ữ liệu cĩ ảnh hưởng khơng nh ỏ đến kết quả nhận dạng các cảm xúc. M b ng liột ộ ữ ệu tốt được dùng cho nhận dạng với thuật tốnđơn giản s tẽ ốt hơn so với việc sử ụ d ng thuật tốn nhận dạng phức t p ạ song lạ đượi c thử nghiệm trên bộ ng liữ ệu khơng ph n ánh rõ các c m xúc. ả ả Vì vậy, phần này sẽtrình bày các phương phápđể xây dựng mộ ột b ng liữ ệu cĩ cảm xúc
đã được các nghiên cứu thảo luận T. ừ đĩ, ộb ngữ ệ li u c m xúc ti ng Vi t ả ế ệ cũng được lựa chọn và đề xu t cùng v i b tham s dùng cho thấ ớ ộ ố ử nghiệm nghiên c u cứ ủa lu n ậ
án. Các tham sốđặc trưng của tín hi u ti ng nĩi ệ ế cũng là yế ốu t quan tr ng ọ ảnh hưởng tới kết quả nhận dạng cảm xúc. Phần này cũng trình bày các kết qu ả đánh giá bộ ng ữ
li u cệ ảm xúc ti ng Viế ệt và các tham số đặc trưng của tín hi u ti ng nĩi ệ ế đượ ử ục s d ng.
2.1 Phương pháp xây dựng ngữ ệ li u c m xúc ả
Một vấn đềquan trọng cần được xem xét trong việc đánh giá hệ ố th ng ti ng nĩi cĩ ế
cảm xúc là chất lượng của ngữ ệu đượ ử ụ li c s d ng để phát triển và đánh giá hiệu năng
của hệ th ng [6] Mố . ục tiêu và phương pháp thu thập ng liữ ệu tiếng nĩi thay đổi rất nhiều tùy theo các mục đích phát triển hệ ố th ng tiếng nĩi sau đĩ.
Ng liữ ệu tiếng nĩi được xây dựng dùng cho phát triển h thệ ống tiếng nĩi cĩ cảm xúc cĩ thể được chia thành ba loại:
• Ng li u ữ ệ tiếng nĩi cĩ cảm xúc được xây dựng dựa trên đĩng kịch (mơ phỏng)
• Ng li u ữ ệ tiếng nĩi cĩ cảm xúc được xây dựng dựa trên suy diễn
• Ng li u ữ ệ tiếng nĩi được xây dựng dựa trên cảm xúc tự nhiên
Ng liữ ệu tiếng nĩi cĩ c m xúc dả ựa trên đĩng kịch thường được thu thập từ các nghệ sĩ nhà hát hoặc đài phát thanh cĩ kinh nghiệm. Các nghệ sĩ s ẽ được th th hiử ể ện cá cc ảm x c kh c nhau theo ú á nội dung của câu nĩi trung tính về mặt ngơn ngữsau đĩ
th hiể ện các cảm xúc này trong phịng ghi âm. Việc ghi âm được th c hi n trong các ự ệ
phiên khác nhau để tính đến sự ế đổ bi n i theo thời gian c a c mủ ả ức độ ể bi u c m l n ả ẫ
cơ chế ạ t o ti ng nĩi cế ủa con người. Đây là phương pháp dễ dàng hơn và đáng tin cậy
trong việc thu th p ngậ ữ ệ li u ti ng nĩi cĩ c m xúc trong m t phế ả ộ ạm vi rộng. Hơn 60%
các ngữ ệ li u thu th p cho nghiên c u vậ ứ ề tiếng nĩi là thuộc loại ngữ ệ li u này. Các c m ả
xúc thu thập theo cách mơ ph ng cĩ r t nhi u trong tỏ ấ ề ự nhiên và thường được biểu hiện mạnh mẽ, kết h p ph n l n các khía cợ ầ ớ ạnh n i bổ ật đối v i c m xúcớ ả [107]. Nĩi chung, các cảm xúc đĩng kịch cĩ xu hướng được bi u th mể ị ạnh mẽ hơn so ớ ả v i c m xúc thực [6], [108]. Một ví dụ ề v ngữ ệu đượ li c xây dựng theo phương pháp này là
51
Ng li u tiữ ệ ếng nĩi cĩ cảm xúc suy diễn được thu thập bằng cách mơ phỏng các tình huống cảm xúc nhân tạo mà người nĩi (ch th ) khơng biủ ể ết trước các c m xúc ả
cần biểu thị. Người nĩi bị lơi kéo vào những cảm xúc gắn với tình huống, trong đĩ
các bố ải c nh tình huống đượ ạc t o ra c nh thơnố đị g qua đối thoại để suy diễn các cảm xúc khác nhau của chủ ể th mà các chủ th ểkhơng biết trước các lo i c m xúc cạ ả ần diễn
đạt. Ng liữ ệu suy diễn cĩ thể ự t nhiên hơn ngữ ệu đĩng kị li ch, nhưng các chủ ể ẽ th s cĩ th khơng diể ễn đạt được cảm xúc một cách thích h p nợ ếu như họ ết trước đang bi
được ghi âm. Đơi khi, ngữ ệu này đượ li c ghi âm bằng cách yêu cầu chủ ể trao đổ th i bằng lời với máy tính và máy tính do người điều khi n. ể Người điều khi n khơng biể ết gì về ch th i tho i [110]. ủ ể đố ạ
Khơng giống như cảm xúc đĩng kịch, c m xúc tả ự nhiên được bi u th m t cách ể ị ộ
thích hợp hơn. Nhưng đơi khi rất khĩ để nh n bi t mậ ế ột cách rõ ràng các cảm xúc này
và chúng được xem như là cảm xúc khơng rõ ràng. Ngữ ệu trong trườ li ng h p này cĩ ợ
th ể được ghi âm từ các cuộc đối tho i qua tạ ổng đài điện tho i, ghi âm tạ ừ buồng lái máy bay trong các tình huống bất thường, đối thoại giữa bệnh nhân và bác sĩ,…Tuy
vây, rất khĩ để cĩ được dả ải c m xúc r ng trong các ộ trường hợp đĩ. Việc phân lo i ạ
cảm xúc sẽmang tính chủ quan cao và thường khơng thống nhất và đây là loại ngữ
liệu liên quan đến tính pháp lý như tính riêng tư và bản quy n. ề
Các tác giả trong [111] cũng phân biệt hai loại ngữ ệ li u đối với việc xây dựng ngữ
liệu tiếng nĩi cĩ cảm xúc. Đĩ là ngữ liệu nhân tạo (ngữ ệu đĩng kị li ch) và ng liữ ệu t nhiên ự đời thực Ng. ữ ệ li u cĩ c m xúc tả ự nhiên cĩ thể được xây d ng hoự ặc là bằng cách ghi âm tình huống thực như đối thoạ ở ổng đài điệi t n tho i ho c phạ ặ ỏng vấn truyền hình [112]. Hoặc một phương pháp rất phổ ến để bi xây dựng ngữ liệu là thu thập các ngữ ệ li u mà khơng c n cĩ s ầ ự điều khi n nào, t c là ghi âm ti ng nĩi hàng ể ứ ế
ngày hoặc các chương trình mạn đàm. Ngay cả trong các tình hu ng thố ực như vậy,
đặc tính ti ng nĩi cĩ th ế ể được điều khi n nh s tr ể ờ ự ợ giúp của cộng sự ho c các diặ ễn
viên khơng chuyên tham gia vào tương tác. Hơn nữa, ng li u cĩ th ữ ệ ể được xây d ng ự
trong phịng thí nghiệm hoặc trong đời th c. Thách th c trong viự ứ ệc ghi âm đời th c ự
như ghi âm chương trình mạn đàm hay tiếng nĩi hàng ngày là làm thếnào đểcĩ được
ng liữ ệu với chất lượng k thu t tỹ ậ ốt, đặc bi t khơng cĩ nhi u n n bên ngồi. Trong ệ ễ ề
các ứng dụng đặc bi t, khi c m xúc cệ ả ần được nhận dạng ở mơi trường nhi u thì ngễ ữ
liệu cĩ một số ạ d ng nhi u n n l i là h u dễ ề ạ ữ ụng.
Như vậ đểy, xây d ng ngự ữ ệ li u c m xúc cĩ thả ể ự th c hiện theo các phương pháp như: ghi âm trực tiếp các đối tho i t nhiên, xây dạ ự ựng kịch bản sao cho các đối thoại
được các nhân vật tùy bi n c m xúc theo tình hu ng, ghi âm tr c tiế ả ố ự ếp giọng các nghệ sĩ diễn đạt các n i dung theo yêu cộ ầu biểu đạ ảm xúc cho trướt c c. Trong sốcác phương pháp này, phương pháp ghi âm giọng các ngh ệ sĩ biểu đạt cảm xúc cho trước là
52
d t ễ đạ được số lượng lớn ngữ ệu đồ li ng nhất, từ đĩ thuận tiện cho vi c phân tích xác ệ định tham s ố đặc trưng một cách tin c y. Vì v y, ng li u s d ng trong nghiên cậ ậ ữ ệ ử ụ ứu
của luận án cũng được xây dựng theo phương pháp này.
2.2 Một số b ộ ngữ ệ li u c m xúc hi n cĩ trên th ả ệ ế giới
Theo thống kê trong [113], đã cĩ nhiều ngữ ệ li u cảm xúc được xây d ng cho các ự
ngơn ngữ khác nhau trên thế ớ gi i v i sớ ố lượng b ngộ ữ ệu tương ứ li ng đư c đợ ặt trong
ngoặc đơn như sau: Anh (43), Pháp (5), Đức (14), Nga (1), Trung Qu c (11), Nhố ật
(6)…Trong số các ngữ ệ li u này, cĩ m t sộ ố ng liữ ệu được xây dựng đồng thời cho 2, 3 ho c 4 ngơn ng khác nhau.ặ ữ Bảng 2.1 dưới đây thống kê mộ ố ột s b ng liữ ệu dùng cho c c ngơn ngá ữ ákh c nhau.
Bảng 2.1 Một số bộ ngữ liệu cảm xúc (nguồn: [6]) STT Ng li u ữ ệ Các thơng số chung về ộ b ng li u ữ ệ 1 LDC Emotional Prosody Speech and Transcripts [114] - Ngơn ngữ: tiếng Anh
- Cĩ 7 nghệsĩ gồm các diễn viên chuyên nghi p, 10 câu ệ
nĩi
- Cĩ 15 cảm xúc: Bình thường, ho ng lo n, lo lả ạ ắng, nĩng giận, tức giận, lạnh lùng, tuy t vệ ọng, buồn, hân hoan, vui, quan tâm, chán, x u h , kiêu ng o, khinh ấ ổ ạ thường 2 Berlin emotional database [115] - Được cơng bốvà dùng miễn phí - Ngơn ngữ: tiếng Đức
- Cĩ 800 phát ngơn, 10 nghệ sĩ chuyên nghiệp
- Cĩ 7 c m xúc: ả tức, vui, bu n, s hãi, ghê t m, chán nồ ợ ở ản,
bình thường 3 Danish emotional database [116]
- Được cơng bố song c n ầ phí bản quyền - Ngơn ngữ: tiếng Đan Mạch
- Cĩ 4 nghệ sĩ khơng chuyên
- Cĩ 5 cảm xúc: tức, vui, bu n, ngồ ạc nhiên, bình thường
4 Natural [117]
- Khơng cơng bố
- Ngơn ngữ: tiếng Mandarin (Trung Quốc) lấy từ cuộc gọi trung tâm
- Gồm 388 phát ngơn, 11 người nĩi
5 ESMBS [118]
- Khơng cơng bố
- Ngơn ngữ: tiếng Mandarin (Trung Quốc)
- Gồm 720 phát ngơn, 12 người nĩi là nghệ sĩ khơng
chuyên
- Cĩ 6 cảm xúc: tức, buồn, ghê tởm, sợ hãi, ngạc nhiên 6 INTERFACE [119] - Tingơn), ti ng Tây Ban Nha (184 phát ngơn), tiếng Anh (186 phát ngơn), ế tiếng Slovenian (190 phátếng Pháp
53
STT Ng li u ữ ệ Các thơng số chung về ộ b ng li u ữ ệ
- Cĩ 8 cảm xúc: tức, ghê tởm, sợ hãi, vui, ng c nhiên, ạ
buồn, bình thường nĩi chậm, bình thường nĩi nhanh
- Người nĩi là các nghệ sĩ 7 KISMET [120] - Khơng cơng bố - Ngơn ngữ: tiếng Anh Mỹ - Cĩ 1002 phát ngơn - Cĩ 7 cảm xúc: ng lịng (tán thành), ni m nbằ ề ở, ngăn cấm, dễ chịu, tán thành, thu hút, bình thường - Cĩ 3 người nĩi là ngh ệ sĩ khơng chuyên (nữ)
8 BabyEars [121] - Khơng cơng bố - Ngơn ngữ: tiếng Anh - Cĩ 509 phát ngơn - Cĩ 12 nghệ sĩ (6 nam + 6 nữ) - Cĩ 3 cảm xúc: tán thành, thu hút, ngăn cấm 9 MPEG-4 [122] - Khơng cơng bố - Ngơn ngữ: tiếng Anh
- Cĩ 2440 phát ngơn, 35 người nĩi U.S. American movies
- Cĩ 7 cảm xúc: ui, tv ức, ghê tởm, sợ hãi, buồn, ngạc
nhiên, bình thường
10 FERMUS III [123]
- Cơng bố nhưng cần phí bản quyền - Ngơn ngữ: tiếng Đức, tiếng Anh - Cĩ 2829 phát ngơn, 13 nghệ sĩ
- Cĩ 7 cảm xúc: ui, tv ức, ghê tởm, sợ hãi, buồn, ngạc
nhiên, bình thường
11 KES [124]
- Khơng cơng bố
- Ngơn ngữ: tiếng Hàn
- Cĩ 5400 phát ngơn, 10 nghệ sĩ khơng chuyên
- Cĩ 4 cảm xúc: bình thường, vui, bu n, tồ ức
12 CLDC [125]
- Khơng cơng bố
- Ngơn ngữ ế: ti ng Trung
- Cĩ 1200 phát ngơn, 4 nghệ sĩ khơng chuyên
- Cĩ 6 cảm xúc: ui, tv ức, ngạc nhiên, s hãi, bu n, bình ợ ồ thường
13 Amir et al. [126]
- Khơng cơng bố
- Các nghệ sĩ khơng chuyên gồm 60 nghệ ĩ s Hebrew và 1 nghệ sĩ Russian
- Cĩ 6 cảm xúc: tức, ghê tởm, sợ hãi, vui, bình thường, bu n ồ 14 Pereira [127] - Khơng cơng bố - Ngơn ngữ ế: ti ng Anh - Cĩ 5 cảm xúc: nĩng giận, giận l nh lùng, vui, buạ ồn, bình thường
54
Hầu hết các bộ ng liữ ệu đều khơng được ph bi n r ng rãi nên khĩ cĩ thổ ế ộ ể ấ l y để
dùng chung cho các nghiên cứu. Nhìn chung, số lượng giọng nĩi và n i dung nĩi ộ
chưa nhiều, s ố lượng các phát ngơn cho các cảm xúc khơng đều nhau. Vì v y, các ậ