So sánh hiệu năng một số phương pháp nhận dạng cảm xúc tiếng việt nói

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	593,99 KB

Nội dung

Nhận dạng cảm xúc là hướng nghiên cứu được quan tâm trong thời gian gần đây. Những kết quả đã công bố hầu như mới chỉ tập trung vào một số ngôn ngữ thông dụng trên thế giới. Trong khi đó, các nghiên cứu trên tiếng Việt được thực hiện còn rất ít. Phần đầu bài báo sẽ mô tả phương pháp mới để xây dựng bộ ngữ liệu cảm xúc cho tiếng Việt nói với bốn cảm xúc cơ bản: bình thường, vui, buồn và tức giận. Dựa trên bộ ngữ liệu này, việc phân tích ảnh hưởng của các cảm xúc đến hai tham số cơ bản của tiếng nói là tần số cơ bản F0 và cường độ tiếng nói đã được thực hiện.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00082 SO SÁNH HIỆU NĂNG MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NÓI Lê Xuân Thành1, Đào Thị Lệ Thủy2, Nguyễn Hồng Quang1, Trịnh Văn Loan1, Viện Công nghệ Thông tin Truyền thông, Trƣờng Đại học Bách khoa Hà Nội Khoa Công nghệ Thông tin, Trƣờng Cao đẳng nghề Công nghệ cao Hà Nội thanhlx@soict.hust.edu.vn, thuydt@hht.edu.vn, quangnh@soict.hust.edu.vn, loantv@soict.hust.edu.vn TÓM TẮT— Nhận dạng cảm xúc hướng nghiên cứu quan tâm thời gian gần Những kết công bố tập trung vào số ngôn ngữ thông dụng giới Trong đó, nghiên cứu tiếng Việt thực cịn Phần đầu báo mô tả phương pháp để xây dựng ngữ liệu cảm xúc cho tiếng Việt nói với bốn cảm xúc bản: bình thường, vui, buồn tức giận Dựa ngữ liệu này, việc phân tích ảnh hưởng cảm xúc đến hai tham số tiếng nói tần số F0 cường độ tiếng nói thực Kết phân tích cho thấy, có phân nhóm rõ ràng cảm xúc bình thường/buồn với cảm xúc vui/tức giận Quy luật biến thiên tần số F0 đóng vai trị quan trọng tiếng Việt nói quy luật định điệu khác tiếng Việt đồng thời tham gia biểu cảm xúc khác Tần số F0 với cường độ tiếng nói bước đầu sử dụng làm tham số đặc trưng thử nghiệm cho nhận dạng cảm xúc bao gồm: K láng giếng gần (KNN: K-Nearest Neighbor), phân tích phân biệt tuyến tính (LDA: Linear Discriminant Analysis), phân tích phân biệt tồn phương (QDA: Quadratic Discriminant Analysis), phân lớp véc tơ hỗ trợ (SVC: Support Vector Classifier) máy véc tơ hỗ trợ (SVM: Support Vector Machine) Chỉ riêng với tham số đặc trưng nêu trên, phương pháp SVC cho kết tốt với giọng nam, tỷ lệ nhận dạng cảm xúc đạt 56,9% Với giọng nữ, kết tốt 57,7% sử dụng phương pháp SVM Từ khóa— Tiếng Việt nói, nhận dạng cảm xúc, F0, cường độ tiếng nói, K láng giềng gần KNN, phân tích phân biệt tuyến tính LDA, phân tích phân biệt tồn phương QDA, máy véc tơ hỗ trợ SVM I GIỚI THIỆU Cảm xúc ngƣời nói tƣợng tự nhiên, tồn vốn có tiếng nói ngƣời Việc xác minh cảm xúc ngƣời nói giúp hệ thống hiểu rõ trạng thái ngƣời nói, từ đƣa trợ giúp định cho ngƣời Hệ thống nhận dạng cảm xúc đƣợc thực để xác định trạng thái cảm xúc ngƣời nói Những hệ thống đƣợc áp dụng hiệu số lĩnh vực nhƣ trợ giúp lái xe thông minh, trợ giúp bệnh nhân bệnh viện, hệ thống trả lời thông tin tự động v.v… Những kết nghiên cứu nhận dạng cảm xúc công bố hầu nhƣ tập trung vào số ngôn ngữ thông dụng giới Trong đó, nghiên cứu tiếng Việt đƣợc thực cịn [3], [2], [17], [18] Một số tác giả Trung Quốc [9], [13] có kết hợp với sinh viên Việt Nam xây dựng ngữ liệu cảm xúc tiếng Việt theo cách đóng kịch biểu lộ cảm xúc Trong nghiên cứu [9] có giọng nam giọng nữ, [13] có ngƣời nói với cảm xúc vui, bình thƣờng, buồn, ngạc nhiên, tức giận, sợ hãi Ngƣời thể cảm xúc sinh viên Việt Nam Các tác giả ban đầu xây dựng ngữ liệu với ý định nghiên cứu chéo ngôn ngữ Việt Nam Trung Quốc Các tham số ngữ liệu đƣợc phân tích phục vụ nhận dạng cảm xúc bao gồm cao độ (pitch), formant F1, F2, F3 lƣợng tín hiệu GMM (Gaussian Mixture Model) đƣợc sủ dụng [9], [15], MRF (Markov Random Fields) đƣợc sử dụng [13] để nhận dạng cảm xúc Phần đầu báo mô tả vắn tắt phƣơng pháp để xây dựng ngữ liệu cảm xúc cho tiếng Việt nói với bốn cảm xúc bản: bình thƣờng, vui, buồn, tức giận Để xây dựng ngữ liệu cảm xúc, thực theo phƣơng pháp nhƣ: ghi âm trực tiếp đối thoại tự nhiên, xây dựng kịch cho đối thoại đƣợc nhân vật tùy biến cảm xúc theo tình huống, ghi âm trực tiếp giọng nghệ sĩ diễn đạt nội dung theo yêu cầu biểu đạt cảm xúc cho trƣớc [20] Phƣơng pháp sau đƣợc áp dụng để xây dựng ngữ liệu cảm xúc cho tiếng Đức [1] phƣơng pháp đƣợc chọn lựa để xây dựng ngữ liệu cảm xúc cho tiếng Việt Đây phƣơng pháp cho phép chủ động xây dựng đƣợc ngữ liệu cách hiệu Tiếp theo, thử nghiệm nhận dạng cảm xúc đƣợc thực ngữ liệu cảm xúc tiếng Việt xây dựng Để nhận dạng cảm xúc cho tiếng nói thu âm từ tổng đài trả lời tự động, Laurence Vidrascu [5] sử dụng máy hỗ trợ véc tơ SVM mơ hình logic (LMT: Logistic Model Tree) Kalyana Kumar Inakollu [11], sử dụng mơ hình hỗn hợp Gauss đa thể (GMM: Gaussian Mixture Model) với tiếng nói đƣợc mơ hình hóa hệ số theo thang tần số Mel (MFCC: Mel Frequency Cepstral Coefficients) [12] Thurid [16] sử dụng thơng tin giới tính để cải thiện hiệu hệ thống nhận dạng cảm xúc Phần đầu báo trình bày kết phân tích ảnh hƣởng cảm xúc đến hai tham số tiếng nói tần số F0 [6], [4] cƣờng độ tiếng nói Sau đó, báo trình bày việc thực nhận dạng cảm xúc dựa số nhận dạng, bao gồm: K láng giềng gần [14], phân tích phân biệt tuyến tính LDA [8], phân tích phân biệt toàn phƣơng QDA, phân lớp véc tơ hỗ trợ SVC máy véc tơ hỗ trợ SVM [19] Lê Xuân Thành, Đào Thị Lệ Thủy, Nguyễn Hồng Quang, Trịnh Văn Loan 657 Nội dung báo bao gồm: Phần trình bày phƣơng pháp xây dựng ngữ liệu cho tiếng Việt nói có cảm xúc Phần trình bày phƣơng pháp nhận dạng cảm xúc đánh giá, so sánh phƣơng pháp Phần phân tích ảnh hƣởng cảm xúc đến hai tham số tiếng nói tần số F0 cƣờng độ tiếng nói Phần đƣa kết nhận dạng cảm xúc Cuối phần tổng kết mô tả hƣớng nghiên cứu II XÂY DỰNG NGỮ LIỆU CHO TIẾNG VIỆT NÓI CÓ CẢM XÚC Bộ ngữ liệu đƣợc xây dựng cho cảm xúc: bình thƣờng, vui, buồn, tức giận Đầu tiên, chúng tơi chọn lựa kịch để diễn viên thể đƣợc cảm xúc cách tự nhiên Kịch đƣợc xây dựng với giúp đỡ nhà ngôn ngữ Viện Ngôn ngữ Việt Nam Kịch thu âm đƣợc xây dựng gồm 55 câu theo tiêu chí sau: Các câu cần đƣợc biểu lộ cảm xúc nói, khơng chứa từ ngữ cảm thán, biểu cảm mặt cảm xúc Với câu khơng có từ cảm thán (ví dụ: “Vườn hoa trước nhà”, “Trường Đại học Bách khoa Hà Nội”…) ngƣời nói tập trung vào việc biểu lộ cảm xúc mà không bị ảnh hƣởng nội dung câu nói Kịch có tổ hợp từ (ví dụ: “Thật á”) câu ngắn (ví dụ: “Vườn hoa trước nhà”), câu dài (ví dụ: “À anh dám ăn nói với bố à”) nhằm mục đích phân tích đƣợc ảnh hƣởng tham số từ riêng lẻ hay câu; Kịch cố gắng lựa chọn câu cho có nhiều âm tiết tiếng Việt tốt Có 56 giọng đƣợc thu âm, gồm 28 nữ 28 nam diễn viên, nghệ sĩ lồng tiếng chuyên nghiệp, đƣợc lựa chọn theo tiêu chí: có độ tuổi trải từ 18 đến 60 tuổi, có phân bố cân giọng nam giọng nữ, có kinh nghiệm biểu đạt tốt, rõ ràng cảm xúc nói Với cảm xúc, câu đƣợc diễn đạt lặp lại lần, đƣợc xếp cho xuất ngẫu nhiên để ngƣời nói biểu lộ cảm xúc tốt Ngƣời nói đƣợc huấn luyện biểu diễn cảm xúc theo cách thống (cùng kiểu vui, kiểu buồn ) dễ nhận hay dễ biểu lộ để tránh tình trạng liệu gồm nhiều cách biểu lộ khác nhƣng loại lại có vài câu gây khó khăn việc tìm quy luật Dữ liệu thu xong đƣợc xử lý trƣớc cách sử dụng công cụ cắt bỏ hết khoảng lặng đầu cuối câu, đƣợc nghe nhanh lƣợt để loại bỏ câu bị lỗi trình thu cắt tự động Ngữ liệu đƣợc thu phòng thu âm, lồng tiếng chuyên nghiệp có hệ thống cách âm, lọc nhiễu tốt Mỗi câu đƣợc lƣu thành file wav, tín hiệu thu đƣợc lấy mẫu tần số 16000Hz 16 bit cho mẫu Mỗi giọng nói thu đƣợc 220 file cho cảm xúc Dữ liệu thu đƣợc gồm có 52800 file với tổng dung lƣợng 2,68Gb III CÁC PHƯƠNG PHÁP NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NĨI Trong phần này, báo trình bày phân lớp đƣợc thử nghiệm để nhận dạng cảm xúc cho tiếng Việt nói: K láng giềng gần KNN, phân tích phân biệt tuyến tính LDA, phân tích phân biệt toàn phƣơng QDA, phân lớp véc tơ hỗ trợ SVC máy véc tơ hỗ trợ SVM [10] 3.1 Phương pháp phân tích phân biệt tuyến tính LDA Giả sử đối tƣợng thuộc vào N lớp xác suất tiên nghiệm để đối tƣợng đến từ lớp thứ n ( ) ( ) hàm mật độ xác suất để đối tƣợng X lấy giá trị x lớp thứ n, giả định ( ) hàm chuẩn Gauss đa thể (phƣơng trình (1)) ( ) ( ( ) ( ) ( )) (1) Định lý Bayes [7] cho phép tính xác suất hậu nghiệm đối tƣợng thuộc vào lớp n có giá trị x đƣợc mơ tả phƣơng trình (2) ( ) ( ) ∑ ( ) (2) Đối tƣợng đƣợc nhận dạng vào lớp có giá trị xác suất hậu nghiệm lớn (phƣơng trình (2)) tƣơng ứng với lớp Với phƣơng pháp phân tích phân biệt tuyến tính LDA, giả sử lớp có riêng giá trị kỳ vọng song tất lớp có chung ma trận hiệp phƣơng sai  Thực lấy logarit phƣơng trình (4) thu đƣợc phƣơng trình (3) ( ) (3) SO SÁNH HIỆU NĂNG MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NĨI 658 Trong phƣơng trình (3), ( ) đƣợc gọi hàm phân biệt (discriminant function) Vì ( ) hàm tuyến tính x nên phƣơng pháp đƣợc gọi phƣơng pháp phân biệt tuyến tính Các tham số đƣợc xác định dựa ƣớc lƣợng tham số từ liệu huấn luyện 3.2 Phân tích khác biệt tồn phương QDA Với phƣơng pháp này, giả sử lớp có ma trận hiệp phƣơng sai riêng biểu diễn phƣơng trình (4) , hàm phân biệt đƣợc ( ) (4) Các tham số and liệu huấn luyện phƣơng trình (3) (4) đƣợc xác định trình huấn luyện dựa vào 3.3 K láng giềng gần KNN Với đối tƣợng x tập thử nghiệm, tính giá trị ( ) ( ) theo phƣơng trình (5) (5) ( ) Trong phƣơng trình (5), ( ) láng giềng x, bao gồm K điểm gần x tập huấn luyện, trọng số điểm tập huấn luyện Đối tƣợng x đƣợc nhận dạng vào lớp L ( ) đạt giá trị lớn so sánh với giá trị ( ) 3.4 Bộ phân lớp phân biệt tuyến tính với lề cực đại (maximal margin classifier) Lề cực đại đƣợc xác định nhƣ sau: với mẫu tập huấn luyện, tính khoảng cách trực giao đến biên giới phân lớp; lề khoảng cách trực giao tối thiểu tìm đƣợc Bộ phân lớp chọn biên giới phân lớp có lề đạt giá trị lớn nhất, nghĩa biên giới phân lớp phân biệt tốt mẫu tập huấn luyện Các véc tơ nằm lề đƣợc gọi véc tơ hỗ trợ (support vector) 3.5 Bộ phân lớp hỗ trợ véc tơ SVC Phƣơng pháp mở rộng phân lớp phân biệt tuyến tính với lề cực đại (maximal margin classifier), cho phép phân lớp với lớp phân tách biên giới tuyến tính [21] Phƣơng pháp tìm biên giới phân lớp phù hợp với đa số mẫu, chấp nhận số mẫu huấn luyện bị phân lớp sai (đƣợc điều chỉnh tham số C – phƣơng trình (7)) Phiên mở rộng phƣơng pháp máy hỗ trợ véc tơ SVM 3.6 Máy hỗ trợ véc tơ SVM Phƣơng pháp SVC có khả tìm đƣợc biên giới phân lớp tuyến tính Trong đó, biên giới phân lớp tuyến tính lại khơng phù hợp với số liệu cụ thể Để sử dụng biên giới phân lớp tuyến tính, phƣơng pháp đƣợc đề xuất mở rộng số tham số biểu diễn đối tƣợng dựa tham số có SVM phƣơng pháp cho phép thực hiệu mở rộng với mức độ tính tốn hợp lý Xét tốn sử dụng SVM để phân chia mẫu thành lớp Giả sử tập huấn luyện bao gồm N mẫu , Các mẫu đƣợc phân vào lớp , ; y lấy giá trị -1 Biên giới phân lớp đƣợc biểu diễn vế trái phƣơng trình (6) ( ) ∑ Thực chất đa phần giá trị hạn theo phƣơng trình (7) ( ) (6) 0, trừ giá trị véc tơ hỗ trợ Các giá trị bị giới (7) C giá trị cho phép mẫu bị vi phạm Khi C nhỏ lề rộng, ngƣợc lại C lớn lề hẹp k hàm kernel hệ thống, u v hai vec tơ tập huấn luyện, với phân lớp hỗ trợ véc tơ SVC k đƣợc tính theo phƣơng trình (8) ( ) (8) Với SVM, hàm k đƣợc sử dụng để biến đổi khơng gian tham số, đƣợc tính theo phƣơng trình (9), hệ số biến đổi hàm k ( ) * Khi giải thuật thực tìm giá trị ∑ ( ( )) + (9) theo phƣơng trình (10) (10) Lê Xuân Thành, Đào Thị Lệ Thủy, Nguyễn Hồng Quang, Trịnh Văn Loan với k ma trận 659 tính tất cặp mẫu sử dụng trình huấn luyện Q trình phân lớp đƣợc thực tính hàm f (phƣơng trình (6)) mẫu cần thử nghiệm Tùy vào dấu hàm f mà mẫu thử nghiệm đƣợc phân vào lớp Để áp dụng SVM cho toán phân lớp nhiều mẫu, phƣơng pháp đƣợc sử dụng one-versus-one: xây dựng ( ) phân lớp cho cặp lớp Mỗi mẫu thử nghiệm đƣợc đƣa qua tất phân lớp Lớp chiếm đa số đƣợc coi kết nhận dạng 3.7 Nhận xét Trong ba phƣơng pháp đầu, phƣơng pháp QDA thực phân biệt lớp thơng qua biên giới phân lớp tuyến tính, nhƣ biên giới phân lớp tƣơng đối thô với liệu phức tạp Trong với phƣơng pháp KNN, kết nhận dạng lại phụ thuộc vào số mẫu định (K mẫu) xung quanh mẫu cần nhận dạng Vì thế, phƣơng pháp KNN cho kết dao động theo liệu Là cải tiến phƣơng pháp LDA, phƣơng pháp QDA cho phép tạo biên giới phân lớp phi tuyến, nhƣ cho phép nhận dạng mẫu mềm dẻo Hình Phân bố tần số F0 trung bình theo cảm xúc nam nghệ sĩ Đ.K (hình trái) nữ nghệ sĩ T.T.H (hình phải) Các phƣơng pháp sử dụng toàn liệu huấn luyện để xây dựng biên giới phân lớp Trong đó, phƣơng pháp SVM sử dụng véc tơ hỗ trợ để định biên giới phân lớp Phƣơng pháp sử dụng phân lớp hỗ trợ véc tơ SVC sử dụng biên giới phân lớp tuyến tính, cịn phƣơng pháp SVM lại cho phép xây dựng biên giới phi tuyến với mở rộng số lƣợng tham số lớn Về mặt thực chất, phƣơng pháp SVC coi phƣơng pháp SVM với hàm nhân tuyến tính (đƣợc tính theo phƣơng trình 8) Trên sở nhận xét trên, nhóm nghiên cứu đánh giá phƣơng pháp QDA SVM cho kết nhận dạng tốt Hình Phân bố cƣờng độ tiếng nói trung bình theo cảm xúc nam nghệ sĩ Đ.K (hình trái) nữ nghệ sĩ T.T.H (hình phải) 660 SO SÁNH HIỆU NĂNG MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NÓI IV ẢNH HƯỞNG CỦA CẢM XÚC ĐẾN TẦN SỐ CƠ BẢN F0 VÀ CƯỜNG ĐỘ TIẾNG NĨI Thơng thƣờng, hệ thống nhận dạng tiếng nói, hệ số MFCC thƣờng đƣợc sử dụng nhƣ tham số đặc trƣng Tiếng Việt ngơn ngữ có điệu Quy luật biến thiên tần số F0 khác dẫn đến điệu khác tiếng Việt Từ thấy tần số đóng vai trị quan trọng tiếng Việt nói Mặt khác quy luật biến thiên tần số khác dẫn đến thể cảm xúc phân biệt tiếng Việt nói nhƣ phân tích Vì vậy, bài báo chúng tơi mong muốn trƣớc hết khảo sát ảnh hƣởng tham số F0 kết hợp với cƣờng độ tiếng nói để nhận dạng cảm xúc tiếng Việt Dựa cảm nhận chủ quan, hai nghệ sĩ tiếng Việt Nam nghệ sĩ nam Đ.K (50 tuổi) nữ nghệ sĩ T.T.H (34 tuổi) thể cảm xúc chân thật Mỗi nghệ sĩ thể 55 câu, câu lặp lại lần cho cảm xúc Nhƣ vậy, nghệ sĩ ghi âm 880 file tiếng nói Giá trị F0 cƣờng độ tiếng nói đƣợc lấy trung bình file wav Hình mơ tả phân bố F0 hình mơ tả phân bố cƣờng độ tiếng nói theo cảm xúc dƣới dạng đồ thị box-plot Hình cho thấy tần số F0 trung bình cảm xúc buồn thấp nhất, cảm xúc bình thƣờng Tần số F0 cảm xúc vui tức giận cao Trong cảm xúc, tần số F0 cảm xúc tức giận lớn với giọng nam cảm xúc vui với giọng nữ Kết phân tích biến thiên cƣờng độ tiếng nói theo cảm xúc đƣợc mơ tả hình Hình cho thấy có phân biệt rõ rệt cƣờng độ cảm xúc vui/tức giận cảm xúc buồn/bình thƣờng Ngồi ra, khơng có phân biệt rõ ràng cƣờng độ tiếng nói cảm xúc buồn cảm xúc bình thƣờng, cảm xúc vui cảm xúc tức giận Hơn nữa, với giọng nữ cảm xúc khơng đƣợc thể rõ rệt qua cƣờng độ tiếng nói Chẳng hạn, cƣờng độ trung bình cảm xúc bình thƣờng lại cao so với cảm xúc vui V THỬ NGHIỆM NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NÓI Ngữ liệu nghệ sĩ nam (Đ.A.N, Đ.K, H.P, L.V.H) nghệ sĩ nữ (B.H.G, Đ.T.H, N.B.T, T.T.H) đƣợc sử dụng để thử nghiệm nhận dạng Hai thử nghiệm đƣợc thực cho giọng nữ cho giọng nam Mỗi thử nghiệm đƣợc thực theo phƣơng pháp đánh giá chéo (cross-validation): ngƣời nói đƣợc chọn để huấn luyện mơ hình, số ngƣời nói cịn lại đƣợc chọn để thử nghiệm nhận dạng; kết nhận dạng đƣợc tính trung bình cho lần thực Mỗi file cảm xúc đƣợc biểu diễn tham số: tần số F0 trung bình cƣờng độ tiếng nói trung bình Hình Tỷ lệ nhận dạng cảm xúc thử nghiệm sử dụng phân lớp KNN với giá trị K biến thiên từ đến 20 Đối với phƣơng pháp nhận dạng cảm xúc sử dụng phân lớp KNN, cần xác định giá trị K tối ƣu (xem mục 3.3) Giá trị K đƣợc xác định dựa thử nghiệm với giọng nam Tập huấn luyện bao gồm nghệ sĩ Đ.K, H.P, L.V.H Tập thử nghiệm bao gồm ngữ liệu nghệ sĩ Đ.A.N Các giá trị K đƣợc thử nghiệm từ đến 20 Kết thử nghiệm đƣợc mô tả hình Hình cho thấy kết tốt đạt đƣợc K=15 Giá trị đƣợc sử dụng thử nghiệm nhận dạng cảm xúc với phƣơng pháp KNN Các kết thử nghiệm đƣợc trình bày bảng cho thấy phƣơng pháp KNN cho tỉ lệ nhận dạng thấp (tuy nhiên có nhiều ngoại lệ) Trong đó, phƣơng pháp QDA cho kết nhận dạng tốt phƣơng pháp LDA Nhƣ vậy, kết luận biên giới phân lớp tồn phƣơng cho kết nhận dạng xác so với phƣơng pháp sử dụng biên giới phân lớp tuyến tính (khi sử dụng tham số gồm thành phần tần số F0 cƣờng độ tiếng nói) Lê Xuân Thành, Đào Thị Lệ Thủy, Nguyễn Hồng Quang, Trịnh Văn Loan 661 Bảng Tỷ lệ phần trăm nhận dạng cảm xúc Phƣơng pháp KNN : K=15 LDA QDA SVC : C=0.1 SVC : C=1 SVC : C=10 SVM : γ=0,5, C=0,1 SVM : γ=0,5, C=1 SVM : γ=0,5, C=10 SVM : γ=1, C=0,1 SVM : γ=1, C=1 SVM : γ=1, C=10 Giọng nam Giọng nữ 47,4 51,3 55,1 56,3 56,8 56,9 53,4 53,9 53,0 53,3 53,0 53,1 53,0 56,4 57,0 56,2 55,5 55,6 58,1 57,2 56,8 57,7 57,1 57,2 Trong phƣơng pháp thử nghiệm, phƣơng pháp SVC cho kết nhận dạng tốt với giọng nam phƣơng pháp SVM cho kết tốt với giọng nữ (mặc dù khơng có cải thiện đáng kể so sánh với phƣơng pháp QDA SVC) Bảng Ma trận nhầm lẫn (tỷ lệ %) cảm xúc sử dụng phƣơng pháp QDA giọng nam Kết nhận dạng hệ thống Bình thƣờng Buồn Tức giận Vui Tỉ lệ nhận dạng Bình thƣờng Buồn Tức giận Vui 59,7 38,6 0,0 1,7 39,0 60,7 0,3 0,0 8,6 3,0 41,4 47,0 17,0 3,0 36,8 43,2 Bảng Ma trận nhầm lẫn (tỷ lệ %) cảm xúc sử dụng phƣơng pháp QDA giọng nữ Kết nhận dạng hệ thống Bình thƣờng Buồn Tức giận Vui Tỉ lệ nhận dạng Bình thƣờng Buồn Tức giận Vui 33,8 47,8 18,4 0,0 36,8 62,6 0,6 0,0 9,4 0,6 56,7 33,3 0,1 0,0 27,6 72,3 Ma trận nhầm lẫn cảm xúc đƣợc thể bảng (cho giọng nam) bảng (cho giọng nữ), số liệu đƣợc cho hai bảng tỉ lệ nhận dạng tính theo phần trăm Với câu đƣợc thể theo cảm xúc đó, hệ thống nhận dạng nhầm sang cảm xúc khác Do đó, lấy tổng theo hàng không thiết phải tổng số câu đƣợc dùng để nhận dạng không thiết phải 100% tính theo tỷ lệ nhận dạng Kết bảng bảng cho thấy hầu hết lỗi nhận dạng nhầm xảy cảm xúc bình thƣờng cảm xúc buồn, cảm xúc vui cảm xúc tức giận Điều phù hợp với phân tích đƣa mục VI KẾT LUẬN Bài báo mô tả phƣơng pháp xây dựng ngữ liệu có cảm xúc cho tiếng Việt nói việc phân tích tần số F0, cƣờng độ tiếng nói ngữ liệu cho thấy phân biệt đƣợc hai nhóm cảm xúc bình thƣờng/buồn vui/tức giận Việc thử nghiệm số phƣơng pháp phân lớp để nhận dạng cảm xúc tiếng Việt đƣợc thực Biến thiên tần số F0 đóng vai trị quan trọng tiếng Việt nói đƣợc sử dụng kết hợp với cƣờng độ tiếng nói nhƣ tham số đặc trƣng cho phân lớp Kết cho thấy riêng tham số F0 cƣờng độ tiếng nói cho tỉ lệ nhận dạng tốt 56,9% giọng nam sử dụng phƣơng pháp SVC giọng nữ tỉ lệ 57,7% sử dụng phƣơng pháp SVM Trong nghiên cứu tiếp theo, để đề xt mơ hình đầy đủ cho nhận dạng cảm xúc tiếng Việt nói, tham số chi tiết nguồn âm, tuyến âm kỹ thuật nhận dạng tiên tiến khác đƣợc sử dụng nhằm tăng tỷ lệ nhận dạng cảm xúc cho hệ thống nhƣ mơ hình hỗn hợp Gauss đa thể hay mạng nơ ron sâu VII LỜI CẢM ƠN Bài báo đƣợc thực khuôn khổ đề tài nghiên cứu khoa học cấp trƣờng “Xây dựng ngữ liệu cảm xúc tiếng Việt” Trƣờng Đại học Bách khoa Hà Nội Các tác giả chân thành cảm ơn Trƣờng Đại học Bách khoa Hà Nội, Phòng Khoa học Công nghệ, Viện Công nghệ Thông tin Truyền thông hỗ trợ để chúng tơi thực thành công đề tài 662 SO SÁNH HIỆU NĂNG MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NÓI TÀI LIỆU THAM KHẢO [1] Felix Burkhardt, Astrid Paeschke, Miriam Rolfes, Walter Sendlmeier and Benjamin Weiss, “A Database of German Emotional Speech”, In Proceeding of 9th European Conference on Speech Communication and Technology (INTERSPEECH 2005), pp 1-4, 2005 [2] Viet Hoang Anh, Manh Ngo Van, Bang Ban Ha, Thang Huynh Quyet, “A real-time model based Support Vector Machine for emotion recognition through EEG”, In Processding of International Conference on Control, Automation and Information Sciences (ICCAIS), Ho Chi Minh City, pp 191-196, 2012 [3] Thi Duyen Ngo, The Duy Bui, “A study on prosody of Vietnamese emotional speech”, In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering, pp 151-155, 2012 [4] Indranil Chatterjee, Hindol Halder, Sayani Bari, Suman Kumar, Amitabha Roychoudhury, “An Analytical Study of Age and Gender Effects on Voice Range Profile in Bengali Adult Speakers using Phonetogram”, Jaypee Journals, pp.65-70, 2011 [5] Laurence Vidrascu, Laurence Devillers, "Detection of real-life emotions in call centers", In Proceeding of 9th European Conference on Speech Communication and Technology (INTERSPEECH 2005), pp 1841-1844, 2005 [6] S Mwangi, Werner Spiegl, Florian Hoenig, T Haderlein, A Maier, Elmar Noeth, “Effects of vocal aging on fundamental frequency and formants”, In Proceedings of the International Conference on Acoustics (NAG/DAGA) , pp.1761-1764, 2009 [7] Jay L Devore, Probability and Statistics for Engineering and the Sciences, Eighth Edition, Brooks/Cole Edition, USA, 2010 [8] Felix Burkhardt, Markus van Ballegooy, Klaus-Peter Engelbrecht, Tim Polzehl, Joachim Stegmann, “Emotion Detection in Dialog Systems: Applications, Strategies and Challenges”, In Proceeding of 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops (ACII 2009), pp 1-6, 2009 [9] La Vutuan, Huang Cheng-Wei, Ha Cheng, Zhao Li, “Emotional Feature Analysis and Recognition from Vietnamese Speech”, Journal of Signal Processing, vol 29, issue 10, pp 1423-1432, 2013 [10] Prasad Reddy P V G D, Prasad A, Srinivas Y, Brahmaiah P, "Gender Based Emotion Recognition System for Telugu Rural Dialects Using Hidden Markov Models", Journal of Computing, vol 2, issue 6, pp 94-98, 2010 [11] Kalyana Kumar Inakollu, Sreenath Kocharla, "Gender Dependent and Independent Emotion Recognition System for Telugu Speeches Using Gaussian Mixture Models", International Journal of Advanced Research in Computer and Communication Engineering, vol 2, issue 11, pp 4172-4175, 2013 [12] Igor Bisio, Alessandro Delfino, Fabio Lavagetto, Mario Marchese, And Andrea Sciarrone, “Gender-Driven Emotion Recognition Through Speech Signals for Ambient Intelligence Applications”, IEEE transactions on Emerging topics in computing, vol 1, no 2, pp 244-257, 2013 [13] Jiang Zhipeng, Huang Chengwei, “High-Order Markov Random Fields and Their Applications in Cross-Language Speech Recognition”, Cybernetics and Information Technologies, vol 15, no 4, pp 50-57, 2015 [14] Rahul B Lanewar, Swarup Mathurkar, Nilesh Patel, “Implementation and Comparison of Speech Emotion Recognition System using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (K-NN) techniques”, Procedia Computer Science, vol 49, pp 50-57, 2015 [15] Elif Bozkurt, Engin Erzin, Çidem Erolu Erdem, A Tanju Erdem, "Improving Automatic Emotion Recognition from Speech Signals", In Proceeding of 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp 324-327, 2009 [16] Thurid Vogt, Elisabeth André, “Improving Automatic Emotion Recognition from Speech via Gender Differentiation”, In Proceedings of Language Resources and Evaluation Conference LREC, pp 1123-1126, 2006 [17] Dang-Khoa_Mac, Eric Castelli, Véronique Aubergé, “Modeling the Prosody of Vietnamese Attitudes for Expressive Speech Synthesis”, In Processding of International workshop on Spoken Language Technologies for Under-resourced languages (SLTU 2012), pp 114-118, 2012 [18] Dang-Khoa Mac, Do-Dat Tran, “Modeling Vietnamese Speech Prosody: A Step-by-Step Approach Towards an Expressive Speech Synthesis System”, Trends and Applications in Knowledge Discovery and Data Mining, pp 273-287, 2015 [19] Kun Han, Dong Yu, Ivan Tashev, “Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine”, In Processding of International Speech Communication Association 2014, pp 223-227, 2014 [20] Moataz El Ayadi, Mohamed S Kamel, Fakhri Karray, “Survey on speech emotion recognition: Features, classification schemes, and databases”, Pattern Recognition Journal, vol 44, issue 3, pp 572-587, 2011 [21] Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning, 10th Edition, Springer, USA, 2013 COMPARING PERFORMANCE OF SOME RECOGNITION METHODS FOR EMOTION RECOGNITION OF VIETNAMESE Le Xuan Thanh, Dao Thi Le Thuy, Nguyen Hong Quang, Trinh Van Loan ABSTRACT— Emotional identification is an issue receiving the most interest in recent times Recent studies have focused on a number of popular languages in the world However, there is very little research on Vietnamese In this paper, we describe the method to build a corpus of Vietnamese emotional speech and the preliminary evaluation of the distribution of F0 fundamental frequency and intensity for the corpus are also described The variation of F0 plays an important role because this variation decides the six different tones of Vietnamese and takes part in the emotion expression The fundamental frequency and intensity have been used firstly as feature parameters for different classifiers to perform the identification of Vietnamese emotions: KNN (K-Nearest Neighbor), LDA (Linear Discriminant Analysis), QDA (Quadratic Discriminant Analysis), SVC (Support Vector Classifier), and SVM (Support Vector Machine) The recognition results showed a significant proximity between the neutral emotion and the sad emotion, between the happy emotion and angry emotion With only the feature parameters mentionned above, SVC method gave the best results for male voices; the correct emotion recognition rate is 56.9% For female voices, SVM method gave the best result with the correct emotion recognition rate 57.7% Keywords— Vietnamese speech, Emotion recognition, F0, intensity, K-Nearest Neighbors, Linear Discriminant Analysis, Quadratic Discriminant Analysis, Support Vector Machine ... độ tiếng nói trung bình theo cảm xúc nam nghệ sĩ Đ.K (hình trái) nữ nghệ sĩ T.T.H (hình phải) 660 SO SÁNH HIỆU NĂNG MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NÓI IV ẢNH HƯỞNG CỦA CẢM XÚC... phƣơng pháp xây dựng ngữ liệu cho tiếng Việt nói có cảm xúc Phần trình bày phƣơng pháp nhận dạng cảm xúc đánh giá, so sánh phƣơng pháp Phần phân tích ảnh hƣởng cảm xúc đến hai tham số tiếng nói. .. tổng dung lƣợng 2,68Gb III CÁC PHƯƠNG PHÁP NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NÓI Trong phần này, báo trình bày phân lớp đƣợc thử nghiệm để nhận dạng cảm xúc cho tiếng Việt nói: K láng giềng gần KNN, phân

Ngày đăng: 26/11/2020, 00:12