1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm

80 96 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 1,6 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG TRẦN ÍCH ĐẠI NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2019 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG TRẦN ÍCH ĐẠI NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS TS PHÙNG TRUNG NGHĨA THÁI NGUYÊN, 2019 i LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cám ơn PGS.TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hoàn thành luận văn Với lời dẫn, tài liệu, tận tình hướng dẫn lời động viên thầy giúp em vượt qua nhiều khó khăn trình thực luận văn Em xin cám ơn q thầy giảng dạy chương trình cao học "Khoa hoc máy tính” truyền dạy kiến thức quý báu, kiến thức hữu ích giúp em nhiều thực nghiên cứu Cuối cùng, em xin gửi lời cám ơn tới gia đình bạn bè ủng hộ động viên giúp đỡ em suốt năm học vừa qua Em xin chân thành cám ơn! Thái Nguyên, ngày tháng năm 2019 Học viên Trần Ích Đại Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ii LỜI CAM ĐOAN Em xin cam đoan: Luận văn cơng trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học PGS TS Phùng Trung Nghĩa Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Em xin chịu trách nhiệm nghiên cứu Học viên Trần Ích Đại Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn MỤC LỤC TRANG PHỤ BÌA LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC HÌNH vi MỞ ĐẦU 1 Đặt vấn đề Đối tượng phạm vi nghiên cứu Hướng nghiên cứu luận văn Những nội dung nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học luận văn: CHƯƠNG TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI 1.1 Thơng tin tiếng nói 1.2 Tín hiệu tiếng nói 1.3 Q trình tạo tiếng nói 1.4 Cơ quan thính giác 10 1.5 Xử lý tiếng nói 12 1.6 Thơng tin cảm xúc người nói tiếng nói 13 1.7 Biến đổi cảm xúc người nói tiếng nói ứng dụng 16 1.7.1 Phương pháp biến đổi thay đổi tham số trực tiếp 17 1.7.2 Biến đổi cảm xúc người nói dựa vào thay khung 20 1.7.3 Biến đổi thơng tin người nói TD-GMM 21 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 1.7.4 Biến đổi thơng tin người nói HTD [9] 23 CHƯƠNG 30 BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI BẰNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF 30 2.1 Kỹ thuật phân rã ma trận không âm NMF 30 2.1.1 Tổng quan 30 2.1.2 Lịch sử 30 2.1.3 Nền tảng 30 2.1.4 Tính chất phân cụm 32 2.1.5 Các kỹ thuật phân rã ma trận không âm 33 2.2 Ứng dụng kỹ thuật phân rã ma trận khơng âm NMF biến đổi tiếng nói [10] 39 CHƯƠNG 41 ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI 41 3.1 Ngữ âm tiếng Việt 41 3.2 Cơ sở liệu tiếng nói tiếng Việt 43 3.3 Tổng hợp tiếng nói tiếng Việt 46 3.4 Lựa chọn sở liệu 47 3.5 Thực nghiệm phương pháp 47 3.6 Đánh giá phương pháp 47 3.6.1 Tiêu chí kết đánh giá khách quan 47 3.6.2 Tiêu chí kết đánh giá khách quan 48 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 DANH MỤC BẢNG Bảng 3.1: Cấu trúc âm tiết tiếng Việt 43 Bảng 3.2: Sáu điệu tiếng Việt 43 Bảng 3.3: Khoảng cách MCD 49 Bảng 3.4: Độ sai lệch F0 49 Bảng 3.5:Kết đánh giá chủ quan ABX phương pháp TD-GMM (1); HTD (2); NMF (3) 49 DANH MỤC HÌNH Hình 1.1: Dạng sóng tiếng nói câu tiếng Việt Hình 1.2: Tiếng nói hữu Hình 1.3: Bộ phận cung cấp Hình 1.4: Dây âm Hình 1.5: Cấu trúc quan phát âm Hình 1.6: Hình dáng quan phát âm thay đổi trình phát âm Hình 1.7: Mơ hình hóa quan phát âm Hình 1.8: Biểu diễn mơ hình hóa quan phát âm đầy đủ máy tính Hình 1.9: Mơ hình quan thính giác 10 Hình 1.10: Thang tần số Bark 11 Hình 1.11: Ngưỡng nghe 11 Hình 1.12: Mặt nạ thời gian (che âm liền trước liền sau) 11 Hình 1.13: Mặt nạ tần số (che âm có tần số khác phát thời điểm) 12 Hình 1.14: Một số ứng dụng xử lý tiếng nói 13 Hình 1.15: Hệ thống nhận dạng cảm xúc người nói – ứng dụng xử lý thơng tin người nói 13 Hình 1.16: Người nói khác có quan phát âm cách phát âm khác dẫn tới tiếng nói khác nói với cảm xúc khác 14 Hình 1.17: Đặc trưng phổ formant đặc trưng cho quan phát âm 15 Hình 1.18: Tính tốn vector đặc trưng 16 Hình 1.19: Mơ hình học máy thống kê GMM sử dụng để mơ hình hóa người nói 17 Hình 1.20: Phân tích phổ, F0 tái tạo STRAIGHT 18 Hình 1.21: Thuật tốn điều chỉnh trực tiếp tham số tiếng nói 19 Hình1.22: Lựa chọn khung đích phù hợp thay khung nguồn 21 vii Hình1.23.Phương pháp biến đổi TD-GMM 23 Hình 1.24 Mơ hình biến đổi giọng người nói HTD 24 Hình 1.25 Ví dụ phân tích / tái tạo tiếng nói MRTD với N khung K điểm kiện 26 Hình 2.1 NMF 36 Hình 2.2 Xây dựng từ điển nguồn đích cho câu tiếng nói pha huấn luyện 40 Hình 2.3.Pha chuyển đổi 40 Hình 3.1: Đường F0 sáu điệu tiếng Việt theo, dấu ? ngã đường F0 ngã không thống mẫu vùng 42 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NĨI TRONG TIẾNG NĨI Các phương pháp biến đổi thơng tin người nói hướng tới mơ hình độc lập ngơn ngữ, tức áp dụng cho ngôn ngữ nào.Tuy nhiên nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngôn ngữ cụ thể, chí khác đánh giá sở liệu khác Luận văn tập trung vào việc đánh giá phương pháp biến đổi cảm xúc tiếng nói tiếng Việt Qua đó, xác định phương pháp phù hợp với tiếng nói tiếng Việt lớp ứng dụng cụ thể 3.1 Ngữ âm tiếng Việt Tiếng Việt ngơn ngữ thức quốc ngữ Việt Nam.Nó 90 triệu người Việt sử dụng hàng ngày.Khoảng triệu người Việt nước thường xuyên sử dụng tiếng Việt Tóm tắt ngữ âm tiếng Việt trình bày tham khảo từ nghiên cứu Đoàn Thiện Thuật Hoàng Phê a,Cấu trúc âm tiết tiếng Việt Tiếng Việt ngôn ngữ đơn âm có điệu điển hình Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 nhiên có khoảng 7000 âm tiết sử dụng giảm xuống 1200 âm tiết bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt mơ tả hình 3.1 Mỗi âm tiết xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần điệu tiếng Việt Phần đầu thông thường phụ âm (consonant), bị khuyết số âm tiết Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần vần khơng tồn với số âm tiết nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) nguyên âm đôi (diphthong) Đi vần phụ âm bán nguyên âm (semi-vowel).Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt b Thanh điệu tiếng Việt Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn ngơn ngữ có điệu Có sáu điệu phân biệt tiếng Việt bảng 3.2 hình 3.1 Mỗi điệu có đường tần số (F0) xác định Trong tiếng Việt, có hai loại âm tiết phân biệt âm đóng âm mở Âm tiết đóng kết thúc với vần /p/, /t/, /k/ kết hợp với sắc nặng âm tiết mở âm tiết đóng khác kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa Hình 3.2: Đường F0 sáu điệu tiếng Việt theo, dấu ?ở ngã đường F0 ngã không thống mẫu vùng Bảng 3.1: Cấu trúc âm tiết tiếng Việt Thanh điệu Phần đầu âm tiết Phần vần Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2: Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Tên tiếng Anh Ngang Level Huyền Falling Ngã Broken Hỏi Curve Sắc Rising Nặng Drop 3.2 Cơ sở liệu tiếng nói tiếng Việt Nghiên cứu xử lý tiếng nói tiếng Việt khoảng thập kỷ Tuy nhiên, số lượng nghiên cứu khơng nhiều Một lí dẫn tới phát triển nghiên cứu xử lý tiếng nói tiếng Việt chưa thực mạnh mẽ chưa có nhiều sở liệu tiếng nói tiếng Việt tin cậy chuẩn hóa Ở Việt Nam, thơng thường nhóm nghiên cứu tự xây dựng sở liệu tiếng nói để thực nghiệm Do giới hạn thời gian, kiến thức, kinh phí dẫn tới sở liệu thường không đủ lớn chất lượng chưa cao Ngồi ra, việc nhóm nghiên cứu sử dụng sở liệu riêng dẫn tới việc phối hợp nghiên cứu nhóm nghiên cứu khó khăn, nhiều khơng thể Trong phần này, liệt kê số sở liệu tiếng nói tiếng Việt sử dụng phổ biến nghiên cứu xử lý tiếng nói tiếng Việt gần a Cơ sở liệu số điện thoại Cơ sở liệu tiếng nói xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam Định dạng âm PCM WAV với tần số lấy mẫu tần số lấy mẫu hệ thống điện thoại cơng cộng PSTN 8KHz Mã hóa 16 bit / mẫu.Kích cỡ sở liệu nhỏ với 1541 từ mô tả số điện thoại Phần đầu bao gồm 170 người nói với 94 đàn ơng 76 phụ nữ đến từ địa phương khác khu vực miền Bắc Phần hai gồm 208 người nói bao gồm 130 đàn ông 78 phụ nữ đến từ địa phương khu vực miền Nam Cơ sở liệu gán nhãn mức âm vị b.Cơ sở liệu tiếng nói phát VOV Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam Bộ sở liệu gồm câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng RealAudio sưu tập từ website VOV chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân biệt khơng tính điệu 1646 bao phủ gần toàn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói phiên gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chưa có nhãn gán mức âm vị c Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit / mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết.Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Mặc dù kích cỡ nhỏ, xem sở liệu chất lượng cao việc thiết kế kịch văn đảm bảo độ cân âm cao việc gán nhãn mức âm vị xác d Cơ sở liệu MICA VNSpeech Đây sở liệu xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đươc nói 50 người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đảm bảo tốt Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả sở liệu tạo phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt e Cơ sở liệu đa cảm xúc Cho đến Việt Nam có 01 sở liệu đa cảm xúc tiếng Việt với liệu hạn chế, gồm 19 câu nói 01 giọng nam 01 giọng nữ, câu nói nói với cảm xúc nói: hạnh phúc (happiness), lạnh lùng (cold anger), buồn (sadness), nóng giận (hot anger), bình thường (neutral) [11-13] 3.3 Tổng hợp tiếng nói tiếng Việt Chuyển đổi thơng tin người nói xem nhánh nghiên cứu tổng hợp tiếng nói Do đó, phần điểm lại số nghiên cứu tổng hợp tiếng nói tiếng Việt Tổng hợp tiếng nói tiếng Việt bắt đầu nghiên cứu khoảng hai thập kỷ trở lại Hai tổng hợp tiếng nói tiếng Việt coi sơ khai VnSpeech sử dụng công nghệ tổng hợp formant VnVoice sử dụng kỹ thuât ghép nối đơn vị âm Chất lượng tổng hợp chưa cao, chúng gần không phát triển tiếp Một số tổng hợp tiếng nói tiếng Việt thương mại hóa tổng hợp tiếng nói phương Nam (VOS), Sao Mai, Hoa Súng.Đây tổng hợp dựa kỹ thuật ghép nối mức âm tiết, hay mức từ Chúng tổng hợp tốt với giọng người nói sở liệu Tuy nhiên hệ thống chưa tích hợp khả chuyển đổi giọng người nói để tổng hợp nhiều giọng khác Gần đây, hệ thống tổng hợp tiếng nói dùng phương pháp thống kê HMM nghiên cứu phát triển, nhiên vấn đề chuyển đổi giọng người nói để tổng hợp nhiều giọng nói đầu khác với nhiều cảm xúc nói khác chưa quan tâm nghiên cứu 3.4 Lựa chọn sở liệu Do Việt nam chưa có liệu tiếng nói đa cảm xúc lớn xây dựng, sử dụng liệu tiếng nói tiếng Việt đa cảm xúc gồm 19 câu nói 01 giọng nam 01 giọng nữ, câu nói nói với cảm xúc nói: hạnh phúc (happiness), lạnh lùng (cold anger), buồn (sadness), nóng giận (hot anger), bình thường (neutral) [11-13] 3.5 Thực nghiệm phương pháp Phương pháp NMF thực nghiệm so sánh với phương pháp HTD TD-GMM.Các tham số thực nghiệm sử dụng phương pháp cho Bảng Trong tổng số 19 câu sở liệu tiếng nói tiếng Việt đa cảm xúc, sử dụng 15 mẫu để huấn luyện mẫu để đánh giá 3.6 Đánh giá phương pháp 3.6.1 Tiêu chí kết đánh giá khách quan Chúng sử dụng khoảng cách phổ Mel (Mel-cepstral distortion – MCD) làm tiêu chí đánh giá khách quan đặc trưng phổ MCD tính sau MCD  10 ln10 24 t (mfcc  mˆ d t ) d fcc (3.1) d 1 t -th Trong mfccdt , mˆ fcc d hệ số thứd đặc trưng phổ nguồn phổ đích tương ứng MCD tính khung tiếng nói cảm xúc nguồn khung tiếng nói chuyển đổi tương ứng.Các khung tiếng nói lề dùng thuật tốn thời gian động cặp câu nói nguồn đích song song MCD thấp phương pháp biến đổi tốt hơn.Kết đánh giá cho bảng 1.Kết đánh giá cho thấy sử dụng kỹ thuật NMF cho kết tốt phương pháp HTD TD-GMM Lỗi trung bình phương RMSE F0 sử dụng làm độ đo đặc trưng F0 n RMSE  ( f 0i  f 0i ' ) n i1 (3.2) Trong f , f 0' giá trị F0 nguồn đích thứ i-th RMSE F0 tính tốn tiếng nói cảm xúc đích tiếng nói cảm xúc bình thường biến đổi thành cảm xúc đích RMSE nhỏ phương pháp biến đổi tốt Kết đánh giá cho bảng cho thấy phương pháp NMF tốt phương pháp HTD TD-GMM 3.6.2 Tiêu chí kết đánh giá khách quan Trong phương pháp đánh giá chủ quan, phương pháp áp dụng rộng rãi hệ thống chuyển đổi giọng nói có cảm xúc nguồn đích xác định phương pháp ABX [8] Trong A người nói nguồn, B người nói đích, X giọng nói chuyển đổi từ A thành B Người nghe nghe thử giọng nói A B trước Sau đánh giá nghe mẫu chuyển đổi đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ đến Điểm tức giọng chuyển đổi giống giọng nguồn A, điểm tức giọng chuyển đổi giống giọng đích B Phương pháp đánh giá áp dụng để đánh giá phương pháp chuyển đổi giọng với người nói nguồn đích xác định Trong trường hợp người nói đích khơng xác định, phương pháp ABX áp dụng có thay đổi, theo điểm giống giọng nguồn điểm khơng có nghĩa giống giọng đích mà “rất khác” giọng nguồn Trong luận văn này, phương pháp đánh giá chủ quan thực với 05 người đánh giá người Việt sinh viên độ tuổi 18 đến 20 trường Đại học Công nghệ thông tin truyền thơng, Đại học Thái Ngun, có khả nghe bình thường Điểm MOS đánh giá điểm ABX trung bình tất mẫu đánh giá Kết đánh giá ABX cho bảng 3.Kết tiếng nói cảm xúc chuyển đổi kỹ thuật NMF tốt phương pháp HTD TD-GMM Bảng3.3: Khoảng cách MCD MCD (dB) Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật TD- 7.24 GMM Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật HTD Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật NMF 6.58 5.85 Bảng3.4: Độ sai lệch F0 RMSE(F0) Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật TD-GMM Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật HTD Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật NMF 45.3 38.6 35.9 Bảng 3.5:Kết đánh giá chủ quan ABX phương pháp TD-GMM (1); HTD (2); NMF (3) ABX scores (1) (2) (3) 1.9 2.2 3.2 Kết đánh giá chủ quan cho thấy tiếng nói chuyển đổi từ cảm xúc bình thường thành “nóng giận” sử dụng kỹ thuật NMF gần với tiếng nói có cảm xúc nóng giận tự nhiên KẾT LUẬN Để đảm bảo tiếng nói sau xử lý (như tiếng nói tổng hợp) tự nhiên, vấn đề quan trọng cần đảm bảo thông tin cảm xúc nói.Luận văn nghiên cứu trình bày vấn đề: tổng quan thông tin cảm xúc nói tiếng nói, biến đổi thơng tin cảm xúc nói tiếng nói, số phương pháp biến đổi thơng tin cảm xúc nói tiếng nói bao gồm phương pháp biến đổi học máy TD-GMM, phương pháp kết hợp HTD, phương pháp dùng kỹ thuật phân rã ma trận không âm NMF Luận văn nghiên cứu cài đặt đánh giá thực nghiệm phương pháp với sở liệu tiếng Việt đa cảm xúc Các kết đánh giá thực nghiệm luận văn cho thấy phương pháp NMF có hiệu rõ rệt so với hai phương pháp TD-GMM HTD Do điều kiện thực tế khơng có sở liệu đa cảm xúc nói kịch nói lớn, kết đánh giá thực nghiệm nghiên cứu dừng lại với sở liệu nhỏ chưa đủ bao phủ tập âm vị tiếng Việt Khi có sở liệu lớn để thực nghiệm, đánh giá với tập liệu đánh giá lớn hơn, chia cặp liệu huấn luyện / đánh giá theo mức dựa phân tích chi tiết mật độ âm vị mức để đảm bảo kết đánh giá thực nghiệm tin cậy khách quan TÀI LIỆU THAM KHẢO [1] Jurafsky, Daniel, and H James "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000) [2] Akagi, Masato "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC 2009 [3] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach "Voice transformation using PSOLA technique." Speech Communication 11.2 (1992): 175-187 [4] Turk, Oytun, and Levent M Arslan "Subband based voice conversion."International Conference on Spoken Language Processing 2002 [5] Kawahara, Hideki "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6 (2006): 349-353 [6] Kain, Alexander, and Michael W Macon "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal Processing, 1998.Proceedings of the 1998 IEEE International Conference on.Vol 1.IEEE, 1998 [7] Qian, Yao, Frank K Soong, and Zhi-Jie Yan "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2 (2013): 280-290 [8] Nguyen, Binh Phu, and Masato Akagi "Phoneme-based spectral voice conversion using temporal decomposition and Gaussian mixture model." Second IEEE International Conference on Communications and Electronics, ICCE 2008 [9] Phung, Trung-Nghia, et al "Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 [10 Phung, Trung-Nghia."Multiple emotional voice conversion in Vietnamese HMM-based speech synthesis using non-negative factorization." INTERNATIONAL JOURNAL OF ADVANCED matrix AND APPLIED SCIENCES 4.8 (2017): 1-5 [11] Thi Duyen Ngo, The Duy Bui, (2009), When and how to smile: Emotional expression for 3D conversational agents Agent Computing and Multi-Agent Systems, volume 5044 of Lecture Notes in Computer Science, chapter 31, pages 349-358 Springer Berlin/Heidelberg, Berlin, Heidelberg [12] Thi Duyen Ngo, The Duy Bui, (2012), A study on prosody of Vietnamese emotional speech In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, pp 151-155 [13] Thi Duyen Ngo, Masato Akagi, The Duy Bui, (2014), Toward a RuleBased Synthesis of Vietnamese Emotional Speech In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp 129-142, Springer International Publishing [14] Aihara, Ryo, et al "GMM-based emotional voice conversion using spectrum and prosody features." American Processing 2.5 (2012): 134-138 Journal of Signal [15] Türk, Oytun, and Marc Schröder "A comparison of voice conversion methods for transforming voice quality in emotional speech synthesis." Ninth Annual Conference of the International Speech Communication Association 2008 ... vấn đề biến đổi cảm xúc người nói tiếng nói ứng dụng kỹ thuật phân rã ma trận không âm biến đổi cảm xúc người nói Vì vậy, luận văn nghiên cứu số phương pháp biến đổi cảm xúc người nói tiếng nói, ... thuyết kỹ thuật phân rã ma trận khơng âm - Trình bày phương pháp biến đổi cảm xúc người nói tiếng nói dùng kỹ thuật phân rã ma trận không âm [10] Chương Đánh giá thực nghiệm số phương pháp biến đổi. .. cảm xúc tiếng nói vấn đề biến đổi cảm xúc tiếng nói - Giới thiệu tổng quan cảm xúc tiếng nói, vấn đề biến đổi cảm xúc tiếng nói - Một số phương pháp biến đổi cảm xúc nói truyền thống như: + Phương

Ngày đăng: 16/12/2019, 15:18

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Jurafsky, Daniel, and H. James. "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000) Sách, tạp chí
Tiêu đề: Speech and language processing anintroduction to natural language processing, computational linguistics, andspeech
[2] Akagi, Masato. "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC 2009 Sách, tạp chí
Tiêu đề: Analysis of Production and Perception Characteristics ofNon-linguistic Information in Speech and Its Application to Inter-languageCommunications
[3] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach. "Voice transformation using PSOLA technique." Speech Communication 11.2 (1992):175-187 Sách, tạp chí
Tiêu đề: Voicetransformation using PSOLA technique
Tác giả: Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach. "Voice transformation using PSOLA technique." Speech Communication 11.2
Năm: 1992
[4] Turk, Oytun, and Levent M. Arslan. "Subband based voice conversion."International Conference on Spoken Language Processing. 2002 Sách, tạp chí
Tiêu đề: Subband based voiceconversion
[5] Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6 (2006): 349-353 Sách, tạp chí
Tiêu đề: STRAIGHT, exploitation of the other aspect ofVOCODER: Perceptually isomorphic decomposition of speechsounds
Tác giả: Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6
Năm: 2006
[6] Kain, Alexander, and Michael W. Macon. "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal Processing, 1998.Proceedings of the 1998 IEEE International Conference on.Vol. 1.IEEE, 1998 Sách, tạp chí
Tiêu đề: Spectral voice conversion fortext-to-speech synthesis
[7] Qian, Yao, Frank K. Soong, and Zhi-Jie Yan. "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2 (2013): 280-290 Sách, tạp chí
Tiêu đề: A unified trajectory tilingapproach to high quality speech rendering
Tác giả: Qian, Yao, Frank K. Soong, and Zhi-Jie Yan. "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2
Năm: 2013
[8] Nguyen, Binh Phu, and Masato Akagi. "Phoneme-based spectral voice conversion using temporal decomposition and Gaussian mixture model." Second IEEE International Conference on Communications and Electronics, ICCE 2008 Sách, tạp chí
Tiêu đề: Phoneme-based spectral voiceconversion using temporal decomposition and Gaussian mixturemodel
[9] Phung, Trung-Nghia, et al. "Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 Sách, tạp chí
Tiêu đề: Improving Naturalness of HMM-Based TTSTrained with Limited Data by Temporal Decomposition
Tác giả: Phung, Trung-Nghia, et al. "Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11
Năm: 2013
[14] . Aihara, Ryo, et al. "GMM-based emotional voice conversion using spectrum and prosody features." American Journal of Signal Processing 2.5 (2012): 134-138 Sách, tạp chí
Tiêu đề: GMM-based emotional voice conversion usingspectrum and prosody features
Tác giả: Aihara, Ryo, et al. "GMM-based emotional voice conversion using spectrum and prosody features." American Journal of Signal Processing 2.5
Năm: 2012
[15] . Tỹrk, Oytun, and Marc Schrửder. "A comparison of voice conversion methods for transforming voice quality in emotional speech synthesis." Ninth Annual Conference of the International Speech Communication Association. 2008 Sách, tạp chí
Tiêu đề: A comparison of voiceconversion methods for transforming voice quality in emotionalspeech synthesis
[11] Thi Duyen Ngo, The Duy Bui, (2009), When and how to smile:Emotional expression for 3D conversational agents. Agent Computing and Multi-Agent Systems, volume 5044 of Lecture Notes in Computer Science, chapter 31, pages 349-358. Springer Berlin/Heidelberg, Berlin, Heidelberg Khác
[12] Thi Duyen Ngo, The Duy Bui, (2012), A study on prosody of Vietnamese emotional speech. In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, pp. 151-155 Khác
[13] Thi Duyen Ngo, Masato Akagi, The Duy Bui, (2014), Toward a Rule- Based Synthesis of Vietnamese Emotional Speech. In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp. 129-142, Springer International Publishing Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w