1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian

70 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 732,03 KB

Nội dung

(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG ĐỖ XN TỒN NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN Chuyên ngành: Kỹ thuật viễn thông Mã số: 52 02 08 LUẬN VĂN THẠC SĨ KỸ THUẬT VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS PHÙNG TRUNG NGHĨA Thái Nguyên - 2021 LỜI CẢM ƠN Trong trình thực luận văn, nỗ lực thân, em nhận nhiều hỗ trợ, giúp đỡ Đầu tiên, em xin chân thành cảm ơn PGS.TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hồn thành luận văn Thầy tận tình hướng dẫn, giảng giải dẫn, với tài liệu, động viên thầy giúp em vượt qua nhiều khó khăn để hồn thiện luận văn Em xin cảm ơn thầy, giảng dạy chương trình cao học "Kỹ thuật viễn thông” truyền dạy kiến thức quý báu, kiến thức hữu ích giúp em nhiều thực nghiên cứu Đồng thời, Nhà trường thầy, cô tạo điều kiện thời gian, sở, phương tiện để em nghiên cứu Cuối cùng, em xin gửi lời cảm ơn tới gia đình bạn bè ln ủng hộ, động viên, giúp đỡ em suốt năm học vừa qua Thái Nguyên, ngày tháng năm 2021 Học viên Đỗ Xn Tồn LỜI CAM ĐOAN Tơi là: Đỗ Xuân Toàn - Học viên lớp cao học K18 - Kỹ thuật viễn thong - Trường đại học Công nghệ thông tin Truyền thông Thái Nguyên Tôi xin cam đoan: Luận văn “Nghiên cứu phương pháp biến đổi cảm xúc người nói tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian” cơng trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học PGS TS Phùng Trung Nghĩa Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa cơng bố hình thức Tôi xin chịu trách nhiệm nghiên cứu Học viên Đỗ Xn Tồn MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC BẢNG vi DANH MỤC HÌNH vii MỞ ĐẦU 1 Đặt vấn đề Đối tượng phạm vi nghiên cứu .2 Hướng nghiên cứu luận văn Những nội dung nghiên cứu Phương pháp nghiên cứu .4 Ý nghĩa khoa học luận văn CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NĨI VÀ VẤN ĐỀ BIẾN ĐỔI THƠNG TIN CẢM XÚC NGƯỜI NĨI TRONG TIẾNG NĨI 1.1 Thơng tin tiếng nói 1.2 Tín hiệu tiếng nói 1.3 Q trình tạo tiếng nói 1.4 Cơ quan thính giác 1.5 Xử lý tiếng nói 11 1.6 Thơng tin cảm xúc người nói tiếng nói 12 1.7 Biến đổi cảm xúc người nói tiếng nói ứng dụng 14 1.7.1 Phương pháp biến đổi thay đổi tham số trực tiếp 15 1.7.2 Biến đổi cảm xúc người nói dựa vào thay khung 17 1.7.3 Biến đổi thông tin người nói GMM 19 CHƯƠNG 2: BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN 24 2.1 Kỹ thuật phân rã tiếng nói theo thời gian .24 2.1.1 Phương pháp TD nguyên thủy 24 2.1.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 27 2.1.3 Phương pháp MRTD 29 2.2 Một số kỹ thuật biến đổi cảm xúc người nói dùng TD 34 2.2.1 Biến đổi cảm xúc người nói TD-GMM 34 2.2.2 Biến đổi cảm xúc người nói HTD [10] .36 CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI 43 3.1 Ngữ âm tiếng Việt 43 3.2 Cơ sở liệu tiếng nói tiếng Việt 45 3.3 Tổng hợp tiếng nói tiếng Việt 47 3.4 Lựa chọn sở liệu 48 3.5 Thực nghiệm phương pháp 48 3.6 Đánh giá phương pháp .49 3.6.1 Tiêu chí kết đánh giá khách quan 49 3.6.2 Tiêu chí kết đánh giá chủ quan 50 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 DANH MỤC BẢNG Bảng 3.1: Cấu trúc âm tiết tiếng Việt 44 Bảng 3.2: Sáu điệu tiếng Việt 45 Bảng 3.3: Các tham số thực nghiệm 45 Bảng3.4: Khoảng cách MCD trung bình mẫu 511 Bảng3.5: Độ sai lệch F0 trung bình mẫu 51 Bảng3.6: Kết đánh giá chủ quan ABX trung bình mẫu phương pháp TD-GMM (1); HTD (2) 51 DANH MỤC HÌNH Hình 1.1: Dạng sóng tiếng nói câu tiếng Việt Hình 1.2: Tiếng nói hữu Hình 1.3: Cấu trúc quan phát âm Hình 1.4: Hình dáng quan phát âm thay đổi trình phát âm Hình 1.5: Mơ hình hóa quan phát âm Hình 1.6: Biểu diễn mơ hình hóa quan phát âm đầy đủ máy tính .9 Hình 1.7: Mơ hình quan thính giác Hình 1.8: Thang tần số Bark 10 Hình 1.9: Ngưỡng nghe 10 Hình 1.10: Mặt nạ thời gian (che âm liền trước liền sau) .11 Hình 1.11: Mặt nạ tần số (che âm có tần số khác phát thời điểm) 11 Hình 1.12: Một số ứng dụng xử lý tiếng nói 12 Hình 1.13: Người nói khác có quan phát âm cách phát âm khác dẫn tới tiếng nói khác nói với cảm xúc khác .13 Hình 1.14: Đặc trưng phổ formant đặc trưng cho quan phát âm 13 Hình 1.15: Tính tốn vector đặc trưng 15 Hình 1.16 Mơ hình nguồn âm / lọc 15 Hình 1.17: Thuật tốn điều chỉnh trực tiếp tham số tiếng nói .17 Hình 1.18: Lựa chọn khung đích phù hợp thay khung nguồn 18 Hình 1.19: Hàm mật độ xác suất Gauss (Đường màu đỏ phân phối chuẩn chuẩn hóa) 19 Hình 1.20: Mơ hình thống kê GMM sử dụng để mơ hình hóa người nói: Các thành phần Gaussian (components); Mơ hình ước lượng (estimated model); Mơ hình hỗn hợp (mixture model) .19 Hình 2.1 Ví dụ hai hàm kiện liền kề 28 Hình 2.2 Hàm kiện có tính chất “hình học chuẩn” “hình học khơng chuẩn” 30 Hình 2.3 Hình vẽ hàm kiện nhận MRTD phân tích câu tiếng nói, số miền thời gian số khung 34 Hình 2.4 Phương pháp biến đổi TD-GMM 36 Hình 2.5 Mơ hình biến đổi giọng người nói HTD 37 Hình 2.6 Ví dụ phân tích / tái tạo tiếng nói MRTD với N khung K điểm kiện 39 Hình 3.1: Đường F0 sáu điệu tiếng Việt theo, dấu ?ở ngã đường F0 ngã không thống mẫu vùng .44 MỞ ĐẦU Đặt vấn đề Tiếng nói phương tiện giao tiếp người Tín hiệu tiếng nói mang nhiều thơng tin, thông tin ngôn ngữ, thông tin định danh người nói, thơng tin cảm xúc người nói,… Hầu hết hệ thống xử lý tiếng nói tập trung vào xử lý thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý hiểu [1] Tuy nhiên, để ứng dụng xử lý tiếng nói máy tính áp dụng rộng rãi thực tế, tính tự nhiên tiếng nói xử lý cần quan tâm quan tâm nghiên cứu thời gian gần [2] Để đảm bảo tiếng nói sau xử lý (như tiếng nói tổng hợp nhân tạo) tự nhiên, vấn đề quan trọng cần đảm bảo thơng tin cảm xúc người nói [3- 10] Các hệ thống tổng hợp tiếng nói nhân tạo thường tổng hợp tiếng nói số giọng nói thu sẵn (với cảm xúc trung tính) huấn luyện trước cho máy tính Trong nhiều ứng dụng truyền thông đa phương tiện đại, việc biến đổi cảm xúc người nói tín hiệu tiếng nói có vai trị quan trọng Một số ví dụ điển hình như: - Trong hệ thống đọc truyện online cần “phát viên ảo” nói với giọng có cảm xúc tự nhiên [4] - Trong clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát diễn viên theo cảm xúc cụ thể khác cao hơn, trầm hơn, giống với cảm xúc nhân vật hơn,… [4] - Đặc biệt, bỏ qua thông tin phi ngôn ngữ thơng tin người nói, cảm xúc nói mã hóa tiếng nói phương pháp kết hợp sử dụng hệ thống nhận dạng tổng hợp tiếng nói đầu cuối, tiếng nói truyền văn với tốc độ bit cực thấp [10] Khi sử dụng hiệu tối đa hạ tầng truyền thông, điều kiện tài nguyên hạn chế Tuy nhiên, để tiếng nói mã hóa theo phương pháp sử dụng hiệu thực tiễn, thông tin phi ngôn ngữ thông tin người nói, cảm xúc nói cần phải bổ sung đầu Nói cách khác, thơng tin tiếng nói mã hóa cần phải biến đổi theo người nói cảm xúc cụ thể Kỹ thuật phân rã tiếng nói theo thời gianlà kỹ thuật xử lý tín hiệu miền thời gian hiệu quả, áp dụng nhiều hệ thống xử lý tiếng nói gần áp dụng thành công hệ thống biến đổi cảm xúc người nói Trên giới có nhiều nghiên cứu biến đổi cảm xúc tiếng nói [3-10] Tại Việt Nam, có số nghiên cứu ban đầu cảm xúc người nói tiếng nói chưa có nhiều nghiên cứu đánh giá cách tổng hợp vấn đề biến đổi cảm xúc người nói tiếng nói ứng dụng kỹ thuật phân rã tiếng nói theo thời gian biến đổi cảm xúc người nói Vì vậy, luận văn nghiên cứu số phương pháp biến đổi cảm xúc người nói tiếng nói, tập trung vào phương pháp sử dụng kỹ thuật phân rã tiếng nói theo thời gian, đánh giá thực nghiệm phương pháp, đưa khuyến nghị Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận văn phương pháp biến đổi cảm xúc người nói tiếng nói Đây đối tượng nghiên cứu nhiều nhà nghiên cứu giới quan tâm thời gian gần Phạm vi luận văn bao gồm nghiên cứu tổng quan tín hiệu tiếng nói cảm xúc người nói tiếng nói, số phương pháp biến đổi cảm xúc người nói tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương pháp thay khung tiếng nói HTD [9], phương pháp TD-GMM [9], đặc biệt tập trung vào phương pháp sử dụng kỹ thuật phân rã tiếng nói theo Sử dụng công thức (2.31) (2.32), hàm kiện φ (n) trơn, k có đỉnh, hai hàm chồng lấp có tổng mơ tả hình 2.1 giải thích tường minh [8] Các tính chất hàm kiện dẫn tới chuyển dịch từ từ vector phổ yˆ(n) phù hợp với biến đổi chậm tự nhiên tiếng nói Sự thay đổi giá trị điểm kiện thưa ak trực tiếp ảnh hưởng đến tất khung tiếng nói khoảng mà hàm kiện φk ≠ Do đó, tiếng nói biến đổi cách linh hoạt quanh vị trí điểm kiện cụ thể miền thời gian cách biến đổi điểm kiện MRTD a [8] Sau hàm kiện ước lượng, điểm kiện ước lượng lại bước cuối q trình tối ưu cơng thức (2.33) để tối thiểu lỗi nội suy, T phép chuyển vị ma trận A = YΦT (ΦΦT )−1 (2.33) Cơng thức (2.33) có ý nghĩa điểm kiện đượcước lượng lại giá trị khởi tạo nó, làgiá trị vector đặc trưng khung tiếng nói vịtrí, hàm kiện khác ước lượng vị trí với điều kiện hội tụ tối thiểu lỗi tái tạo đảm bảo tính chất thứ tự phổ đường LSF Sau phân tích MRTD, hàm kiện giữ nguyên để đảm bảo tiếng nói sau biến đổi giữ độ trơn cần thiết để giữ nguyên đặc trưng ngôn ngữ không bị biến đổi Trong điểm kiện nguồn thay điểm kiện đích gần tìm thấy từ sở liệu giọng đích ứng với nhãn tiếng nói tương ứng Cuối cùng, phân tích/tái tạo tiếng nói STRAIGHT sử dụng để tổng hợp lại tiếng nói từ đặc trưng F0, phổ biến đổi c Thủ tục tìm kiếm thay điểm kiện Các điểm kiện thay đổi phương pháp đê xuất cách thay chúng với điểm kiện giống tiếng nói đích đơn vị tiếng nói âm vị Do cần thủ tục lề miền thời gian phù hợp Ở đây, kỹ thuật cố định số lượng điểm kiện âm vị đặt điểm kiện cách âm vị đề xuất chứng tỏ hiệu phương pháp biến đổi TD-GMM [4] Đây kỹ thuật biến đổi song song với âm vị điểm kiện theo thứ tự âm vị nguồn thay điểm kiện có thứ tự tương ứng âm vị đích Phát triển từ kỹ thuật này, âm vị phương pháp HTD chia thành khoảng nhau, điểm kiện đặt trung tâm khoảng Hình 2.6 Trong thử nghiệm chúng tơi tăng số lượng điểm kiện âm vị lớn không làm tăng chất lượng tiếng nói tái tạo, lại làm tăng kích thước liệu đích phải lưu trữ cho q trình tìm kiếm/thay Trong số lượng điểm kiện nhỏ làm giảm chất lượng tiếng nói tái tạo Điểm kiện đích gần với điểm kiện nguồn tìm kiếm thuật tốn tìm láng giềng gần NNS (Nearest Neighbor Search) với hàm khoảng cách d điểm kiện nguồn điểm kiện đích as at với vector phổ đường LSF có số chiều P định nghĩa công thức (2.34) P d =  (ai  )2 ts P i1 (2.34) N (d ) = µd (2.35) d− σd Hàm chi phí chuẩn hóa theo cơng thức (2.35) phân bố chuẩn với µd , σd giá trị kỳ vọng trung bình độ lệch chuẩn khoảng cách mẫu Trong phần cài đặt, trình lựa chọn điểm kiện đích để thay giám sát nhãn liệu tiếng nói âm vị để đảm bảo độ xác giảm thời gian tìm kiếm, điểm kiện với thứ tự xác định âm vị thay điểm kiện đích có thứ tự âm vị giọng đích Trong pha offline, sở liệu tiếng nói với giọng đích chuẩn bị trước với hai bước Trong bước thứ nhất, tất câu tiếng nói gán nhãn mức âm vị phân tích MRTD Trong bước thứ hai, điểm kiện câu tiếng nói phân tích trích xuất lưu trữ theo âm vị riêng để tăng tốc độ tìm kiếm pha online CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI Các phương pháp biến đổi thơng tin người nói hướng tới mơ hình độc lập ngơn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên, nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngơn ngữ cụ thể, chí khác đánh giá sở liệu khác Luận văn tập trung vào việc đánh giá phương pháp biến đổi cảm xúc tiếng nói tiếng Việt Qua đó, xác định phương pháp phù hợp với tiếng nói tiếng Việt lớp ứng dụng cụ thể 3.1 Ngữ âm tiếng Việt Tiếng Việt ngơn ngữ thức quốc ngữ Việt Nam Nó 90 triệu người Việt sử dụng hàng ngày Khoảng triệu người Việt nước thường xuyên sử dụng tiếng Việt Tóm tắt ngữ âm tiếng Việt trình bày tham khảo từ nghiên cứu Đoàn Thiện Thuật Hoàng Phê a Cấu trúc âm tiết tiếng Việt Tiếng Việt ngôn ngữ đơn âm có điệu điển hình Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 nhiên có khoảng 7000 âm tiết sử dụng giảm xuống 1200 âm tiết bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt mơ tả hình 3.1 Mỗi âm tiết xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần điệu tiếng Việt Phần đầu thông thường phụ âm (consonant), bị khuyết số âm tiết.Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần đuôi vần khơng tồn với số âm tiết cịn nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) nguyên âm đôi (diphthong) Đuôi vần phụ âm bán nguyên âm (semi-vowel) Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt b Thanh điệu tiếng Việt Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn ngơn ngữ có điệu Có sáu điệu phân biệt tiếng Việt bảng 3.2 hình 3.1 Mỗi điệu có đường tần số (F0) xác định Trong tiếng Việt, có hai loại âm tiết phân biệt âm đóng âm mở Âm tiết đóng kết thúc với vần /p/, /t/, /k/ kết hợp với sắc nặng âm tiết mở âm tiết đóng khác kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa Hình 3.1: Đường F0 sáu điệu tiếng Việt theo, dấu ?ở ngã đường F0 ngã không thống mẫu vùng Bảng 3.1: Cấu trúc âm tiết tiếng Việt Phần đầu âm tiết Thanh điệu Phần vần Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2: Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Ngang Huyền Ngã Hỏi Sắc Nặng Tên tiếng Anh Level Falling Broken Curve Rising Drop 3.2 Cơ sở liệu tiếng nói tiếng Việt Nghiên cứu xử lý tiếng nói tiếng Việt khoảng thập kỷ Tuy nhiên, số lượng nghiên cứu không nhiều Một lí dẫn tới phát triển nghiên cứu xử lý tiếng nói tiếng Việt chưa thực mạnh mẽ chưa có nhiều sở liệu tiếng nói tiếng Việt tin cậy chuẩn hóa Ở Việt Nam, thơng thường nhóm nghiên cứu tự xây dựng sở liệu tiếng nói để thực nghiệm Do giới hạn thời gian, kiến thức, kinh phí dẫn tới sở liệu thường không đủ lớn chất lượng chưa cao Ngoài ra, việc nhóm nghiên cứu sử dụng sở liệu riêng dẫn tới việc phối hợp nghiên cứu nhóm nghiên cứu khó khăn, nhiều Trong phần này, liệt kê số sở liệu tiếng nói tiếng Việt sử dụng phổ biến nghiên cứu xử lý tiếng nói tiếng Việt gần a Cơ sở liệu số điện thoại Cơ sở liệu tiếng nói xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam Định dạng âm PCM WAV với tần số lấy mẫu tần số lấy mẫu hệ thống điện thoại công cộng PSTN 8KHz Mã hóa 16 bit / mẫu Kích cỡ sở liệu nhỏ với 1541 từ mô tả số điện thoại Phần đầu bao gồm 170 người nói với 94 đàn ơng 76 phụ nữ đến từ địa phương khác khu vực miền Bắc Phần hai gồm 208 người nói bao gồm 130 đàn ông 78 phụ nữ đến từ địa phương khu vực miền Nam Cơ sở liệu gán nhãn mức âm vị b.Cơ sở liệu tiếng nói phát VOV Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam Bộ sở liệu gồm câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng RealAudio sưu tập từ website VOV chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân biệt khơng tính điệu 1646 bao phủ gần toàn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói phiên gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chưa có nhãn gán mức âm vị c Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit / mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Mặc dù kích cỡ nhỏ, xem sở liệu chất lượng cao việc thiết kế kịch văn đảm bảo độ cân âm cao việc gán nhãn mức âm vị xác d Cơ sở liệu MICA VNSpeech Đây sở liệu xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đươc nói 50 người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đảm bảo tốt Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả sở liệu tạo phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt e Cơ sở liệu đa cảm xúc Cho đến Việt Nam có 01 sở liệu đa cảm xúc tiếng Việt với liệu hạn chế, gồm 19 câu nói 01 giọng nam 01 giọng nữ, câu nói nói với cảm xúc nói: hạnh phúc (happiness), lạnh lùng (cold anger), buồn (sadness), nóng giận (hot anger), bình thường (neutral) [11-13] 3.3 Tổng hợp tiếng nói tiếng Việt Chuyển đổi thơng tin người nói xem nhánh nghiên cứu tổng hợp tiếng nói Do đó, phần điểm lại số nghiên cứu tổng hợp tiếng nói tiếng Việt Tổng hợp tiếng nói tiếng Việt bắt đầu nghiên cứu khoảng hai thập kỷ trở lại Hai tổng hợp tiếng nói tiếng Việt coi sơ khai VnSpeech sử dụng công nghệ tổng hợp formant VnVoice sử dụng kỹ thuât ghép nối đơn vị âm Chất lượng tổng hợp chưa cao, chúng gần không phát triển tiếp Một số tổng hợp tiếng nói tiếng Việt thương mại hóa tổng hợp tiếng nói phương Nam (VOS), Sao Mai, Hoa Súng Đây tổng hợp dựa kỹ thuật ghép nối mức âm tiết, hay mức từ Chúng tổng hợp tốt với giọng người nói sở liệu Tuy nhiên hệ thống chưa tích hợp khả chuyển đổi giọng người nói để tổng hợp nhiều giọng khác Gần đây, hệ thống tổng hợp tiếng nói dùng phương pháp thống kê HMM nghiên cứu phát triển, nhiên vấn đề chuyển đổi giọng người nói để tổng hợp nhiều giọng nói đầu khác với nhiều cảm xúc nói khác chưa quan tâm nghiên cứu 3.4 Lựa chọn sở liệu Do Việt nam chưa có liệu tiếng nói đa cảm xúc lớn xây dựng, sử dụng liệu tiếng nói tiếng Việt đa cảm xúc gồm 19 câu nói 01 giọng nam 01 giọng nữ, câu nói nói với cảm xúc nói: hạnh phúc (happiness), lạnh lùng (cold anger), buồn (sadness), nóng giận (hot anger), bình thường (neutral) [11-13] 3.5 Thực nghiệm phương pháp Phương pháp HTD thực nghiệm so sánh với phương pháp TDGMM Các tham số thực nghiệm sử dụng phương pháp cho bảng 3.3 Trong tổng số 19 câu sở liệu tiếng nói tiếng Việt đa cảm xúc, chúng tơi sử dụng 15 mẫu để huấn luyện mẫu để đánh giá Bảng 3.3: Các tham số thực nghiệm Tần số lấy mẫu DEMEN VOV-HMM lấy mẫu lại Chiều dài khung 11025 Hz ms Độ dịch khung Số chiều LSF Số thành phần GMM Số điểm kiện / âm vị ms 20 20 3.6 Đánh giá phương pháp 3.6.1 Tiêu chí kết đánh giá khách quan Giả sử tiếng nói nguồn nguyên x cần chuyển đổi để giống với tiếng nói đích ngun y, tiếng nói chuyển đổi x’, x’ giống y thể phương pháp chuyển đổi xác Để đo khoảng cách sai khác x’ y, sử dụng độ đo khoảng cách phổ Mel (Mel-cepstral distortion – MCD) lỗi trung bình bình phương (RMSE) F0 MCD tính sau MCD = 10 24 d )2 ln10 2 (mfcct d mˆ fcct (3.1) d 1 Trong mfccdt mˆ fcct hệ số thứ d-th đặc trưng phổ đích nguyên d , y phổ chuyển đổi từ x’ tương ứng MCD tính khung tiếng nói cảm xúc đích ngun khung tiếng nói chuyển đổi tương ứng với phương pháp chuyển đổi khác Các khung tiếng nói lề dùng thuật tốn thời gian động cặp câu nói nguồn đích song song MCD nhỏ phương pháp biến đổi tốt Kết đánh giá cho bảng 3.3 Kết đánh giá cho thấy sử dụng kỹ thuật HTD cho kết tốt TD-GMM Lỗi trung bình phương RMSE F0 sử dụng làm độ đo đặc trưng F0 n RMSE =  ( f ii  f 0' )2 n i1 (3.2) i-th Trong f f 0' giá trị F0 đích nguyên y chuyển đổi x’ thứ , RMSE F0 tính tốn tiếng nói cảm xúc đích ngun y tiếng nói cảm xúc bình thường biến đổi thành cảm xúc đích x’ RMSE nhỏ phương pháp biến đổi tốt Kết đánh giá cho bảng 3.4 cho thấy phương pháp HTD tốt TD-GMM 3.6.2 Tiêu chí kết đánh giá chủ quan Trong phương pháp đánh giá chủ quan, phương pháp áp dụng rộng rãi hệ thống chuyển đổi giọng nói có cảm xúc nguồn đích xác định phương pháp ABX [8] Trong A người nói nguồn, B người nói đích, X giọng nói chuyển đổi từ A thành B Người nghe nghe thử giọng nói A B trước Sau đánh giá nghe mẫu chuyển đổi đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ đến Điểm tức giọng chuyển đổi giống giọng nguồn A, điểm tức giọng chuyển đổi giống giọng đích B Phương pháp đánh giá áp dụng để đánh giá phương pháp chuyển đổi giọng với người nói nguồn đích xác định Trong trường hợp người nói đích khơng xác định, phương pháp ABX áp dụng có thay đổi, theo điểm giống giọng nguồn điểm khơng có nghĩa giống giọng đích mà “rất khác” giọng nguồn Trong luận văn này, phương pháp đánh giá chủ quan thực với 05 người đánh giá người Việt sinh viên độ tuổi 18 đến 20 trường Đại học Công nghệ thông tin truyền thơng, Đại học Thái Ngun, có khả nghe bình thường Điểm MOS đánh giá điểm ABX trung bình tất mẫu đánh giá Kết đánh giá ABX cho bảng 3.6 Kết tiếng nói cảm xúc chuyển đổi kỹ thuật HTD tốt TD-GMM Bảng3.4: Khoảng cách MCD trung bình mẫu MCD (dB) Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật TD- 7.24 GMM Giữa tiếng nói “giận dữ” đích tiếng nói chuyển 6.58 từ bình thường sang giận dùng kỹ thuật HTD Bảng3.5: Độ sai lệch F0 trung bình mẫu RMSE(F0) Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật TD-GMM Giữa tiếng nói “giận dữ” đích tiếng nói chuyển từ bình thường sang giận dùng kỹ thuật HTD 45.3 38.6 Bảng 3.6:Kết đánh giá chủ quan ABX trung bình mẫu phương pháp TD-GMM (1); HTD (2) (1) (2) 1.9 2.2 Kết đánh giá chủ quan cho thấy tiếng nói chuyển đổi từ cảm xúc bình thường thành “nóng giận” sử dụng kỹ thuật HTD gần với tiếng nói có cảm xúc nóng giận tự nhiên KẾT LUẬN Để đảm bảo tiếng nói sau xử lý (như tiếng nói tổng hợp) tự nhiên, vấn đề quan trọng cần đảm bảo thông tin cảm xúc nói Luận văn nghiên cứu trình bày vấn đề: tổng quan thơng tin cảm xúc nói tiếng nói, biến đổi thơng tin cảm xúc nói tiếng nói, số phương pháp biến đổi thơng tin cảm xúc nói tiếng nói bao gồm phương pháp biến đổi học máy TD-GMM, phương pháp kết hợp HTD Luận văn nghiên cứu cài đặt đánh giá thực nghiệm phương pháp với sở liệu tiếng Việt đa cảm xúc Các kết đánh giá thực nghiệm luận văn cho thấy phương pháp HTD có hiệu rõ rệt so với TD-GMM Do điều kiện thực tế khơng có sở liệu đa cảm xúc nói kịch nói lớn, kết đánh giá thực nghiệm nghiên cứu dừng lại với sở liệu nhỏ chưa đủ bao phủ tập âm vị tiếng Việt Khi có sở liệu lớn để thực nghiệm, đánh giá với tập liệu đánh giá lớn hơn, chia cặp liệu huấn luyện/đánh giá theo mức dựa phân tích chi tiết mật độ âm vị mức để đảm bảo kết đánh giá thực nghiệm tin cậy khách quan TÀI LIỆU THAM KHẢO [1] Jurafsky, Daniel, and H James "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000) [2] Akagi, Masato "Analysis of Production and Perception Characteristics of Nonlinguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC 2009 [3] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach "Voice transformation using PSOLA technique." Speech Communication 11.2 (1992): 175-187 [4] Turk, Oytun, and Levent M Arslan "Subband based voice conversion."International Conference on Spoken Language Processing 2002 [5] Kawahara, Hideki "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6 (2006): 349-353 [6] Kain, Alexander, and Michael W Macon "Spectral voice conversion for text-tospeech synthesis." Acoustics, Speech and Signal Processing, 1998.Proceedings of the 1998 IEEE International Conference on.Vol.1.IEEE, 1998 [7] Qian, Yao, Frank K Soong, and Zhi-Jie Yan "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2 (2013): 280-290 [8] Nguyen, Binh Phu, and Masato Akagi "Phoneme-based spectral voice conversion using temporal decomposition and Gaussian mixture model." Second IEEE International Conference on Communications and Electronics, ICCE 2008 [9] Phung, Trung-Nghia, et al "Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 [10 Phung, Trung-Nghia."Multiple emotional voice conversion in Vietnamese HMM-based speech synthesis using non-negative matrix factorization." INTERNATIONAL JOURNAL OF ADVANCED AND APPLIED SCIENCES 4.8 (2017): 1-5 [11] Thi Duyen Ngo, The Duy Bui, (2009), When and how to smile: Emotional expression for 3D conversational agents Agent Computing and Multi-Agent Systems, volume 5044 of Lecture Notes in Computer Science, chapter 31, pages 349358 Springer Berlin/Heidelberg, Berlin, Heidelberg [12] Thi Duyen Ngo, The Duy Bui, (2012), A study on prosody of Vietnamese emotional speech In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, pp 151-155 [13] Thi Duyen Ngo, Masato Akagi, The Duy Bui, (2014), Toward a Rule-Based Synthesis of Vietnamese Emotional Speech In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp 129-142, Springer International Publishing [14] Atal, B (1983, April) Efficient coding of LPC parameters by temporal decomposition In ICASSP'83 IEEE International Conference on Acoustics, Speech, and Signal Processing (Vol 8, pp 81-84) IEEE [15] Kim, S J., & Oh, Y H (1999) Efficient quantisation method for LSF parameters based on restricted temporal decomposition Electronics Letters, 35(12), 962-964 [16] Nguyen, P C., Ochi, T., & Akagi, M (2003) Modified restricted temporal decomposition and its application to low rate speech TRANSACTIONS on Information and Systems, 86(3), 397-405 coding IEICE ... trung nghiên cứu vấn đề lý thuyết cảm xúc người nói, phương pháp xử lý, biến đổi tín hiệu tiếng nói, kỹ thuật phân rã tiếng nói theo thời gian ứng dụng biến đổi cảm xúc người nói Luận văn nghiên cứu. .. gian biến đổi cảm xúc người nói Vì vậy, luận văn nghiên cứu số phương pháp biến đổi cảm xúc người nói tiếng nói, tập trung vào phương pháp sử dụng kỹ thuật phân rã tiếng nói theo thời gian, đánh... pháp biến đổi cảm xúc người nói tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian Chương Đánh giá thực nghiệm số phương pháp biến đổi cảm xúc tiếng nói - Cơ sở liệu tiếng nói có cảm xúc -

Ngày đăng: 30/03/2022, 08:38

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w