1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Một kỹ thuật biến đổi giọng người nói hiệu quả sử dụng kỹ thuật phân rã tiếng nói theo thời gian

9 38 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Nghiên cứu này đề xuất phương pháp biến đổi giọng người nói trong tiếng nói lai giữa hai phương pháp TD-GMM à phương pháp thay thế khung HTT [5], sử dụng kỹ thuật phân rã tiếng nói theo thời gian cải tiến MRTD.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 Một kỹ thuật biến đổi giọng ngƣời nói hiệu sử dụng kỹ thuật phân rã tiếng nói theo thời gian An Efficient Approach for Voice Transformation using Temporal Decomposition Phùng Trung Nghĩa Abstract: Voice transformation is an important issue in speech synthesis when we need to synthesize multiple output voices but not want to rebuid the synthesis system Speech transformed by the conventional method using Gaussian Mixture Model (GMM) is not high-quality due to the oversmoothness of GMM Therefore, a number of methods have been proposed to overcome the disadvantages of the conventional method using GMM Among them, Hidden Markov Model Trajectory Tiling (HTT) and Temporal Decomposition – GMM (TD-GMM) improve the effectiveness of voice transformation However, they still have drawbacks In this paper, a voice transformation method using the modified restricted TD (MRTD) is proposed The experimental results with Vietnamese and English corpus confirm the effectiveness of the proposed method compared with HTT and TD-GMM Keyword: Voice transformation, voice conversion, speech synthesis, temporal decomposition I GIỚI THIỆU Hầu hết hệ thống xử lý tiếng nói truyền thống tập trung vào xử lý thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý hiểu [1] Tuy nhiên để ứng dụng xử lý tiếng nói máy tính áp dụng rộng rãi thực tế, tính tự nhiên tiếng nói xử lý cần quan tâm [2] Để đảm bảo tiếng nói sau xử lý (như tiếng nói tổng hợp) tự nhiên, vấn đề quan trọng cần đảm bảo thông tin người nói, bao gồm thơng tin chung người nói giới tính, độ tuổi,…, đến thơng tin chi tiết thơng tin nhận danh xác người nói [3-7] Các hệ thống tổng hợp tiếng nói nhân tạo thường tổng hợp tiếng nói số giọng nói thu sẵn huấn luyện trước cho máy tính Để tổng hợp nhiều giọng nói đầu mà không cần xây dựng lại hệ thống tổng hợp tiếng nói cần đến hệ thống biến đổi giọng người nói [3-6] Trên giới có nhiều nghiên cứu biến đổi giọng người nói tiếng nói [3-6] Phương pháp truyền thống phương pháp sử dụng học máy thống kê dùng mơ hình Gaussian hỗn GMM [3] Do chất lượng tiếng nói tổng hợp / tái tạo mơ hình thống kê GMM có xu hướng bị trung bình hóa, q trơn chất lượng không cao, nhiều nghiên cứu đề xuất phương pháp biến đổi giọng người nói khác khắc phục nhược điểm phương pháp GMM truyền thống Trong số hai phương pháp có kết bật phương pháp lai GMM kỹ thuật phân rã tiếng nói theo thời gian TD có tên gọi TD-GMM [4], phương pháp ghép nối / thay khung có tên gọi HTT [5] Nghiên cứu đề xuất phương pháp biến đổi giọng người nói tiếng nói lai hai phương pháp TD-GMM [4] phương pháp thay khung HTT [5], sử dụng kỹ thuật phân rã tiếng nói theo thời gian cải tiến MRTD [8] Phương pháp đề xuất hai phương pháp TD-GMM HTT cài đặt đánh giá thực nghiệm với sở liệu tiếng nói tiếng Anh tiếng Việt -5- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT II PHƢƠNG PHÁP BIẾN ĐỔI TD-GMM Phương pháp biến đổi giọng người nói kinh điển phương pháp sử dụng mơ hình GMM để huấn luyện cặp người nói nguồn – đích với tập liệu huấn luyện song song kích cỡ nhỏ, sau sử dụng hàm biến đổi huấn luyện để biến đổi tiếng nói giọng nguồn thành tiếng nói giọng đích [3] Mặc dù phương pháp GMM chứng tỏ hiệu nhiều nghiên cứu, đặc biệt có ưu điểm sử dụng lượng nhỏ liệu huấn luyện, có nhiều hạn chế Do cấu trúc phổ ước lượng mơ hình GMM ứng với phổ trung bình tất liệu tập liệu huấn luyện (do mơ hình GMM sử dụng vector kỳ vọng trung bình làm sở), nên tiếng nói biến đổi mơ hình GMM thường q trung bình, hay q trơn (over-smooth) Việc tiếng nói bị biến đổi trơn làm đặc trưng chi tiết tiếng nói vốn mang nhiều thơng tin người nói bị q trình biến đổi Tập V-2, Số 16 (36), tháng 12/2016 phương pháp biến đổi GMM truyền thống với mong muốn biến đổi giọng người nói cách hiệu tiếng nói biến đổi có độ trơn phù hợp Các kết thực nghiệm cho thấy TD-GMM cho kết tốt phương pháp GMM truyền thống mặt chất lượng tiếng nói biến đổi [4] Mặc kết tốt mơ hình biến đổi GMM truyền thống, việc sử dụng mô hình GMM để huấn luyện biến đổi dẫn tới tiếng nói biến đổi TD-GMM có xu hướng trơn so với tiếng nói tự nhiên, dẫn tới chất lượng tiếng nói biến đổi chưa cao so với tiếng nói tự nhiên [4] Trong [4] sử dụng kỹ thuật phân rã tiếng nói theo thời gian TD kết hợp với mơ hình GMM dựa liệu gán nhãn mức âm vị phương pháp tên gọi TD-GMM để khắc phục hạn chế biến đổi tiếng nói q trơn bị thơng tin người nói phương pháp biến đổi giọng người nói GMM TD sử dụng để phân tích tiếng nói thành hai thành phần độc lập, thành phần “động”- hàm kiện (event functions) để đảm bảo cho tiếng nói có độ trơn cần thiết thành phần “tĩnh”- điểm kiện (event targets) giúp tiếng nói giữ thơng tin chi tiết để tiếng nói tái tạo từ hai thành phần có mức độ trơn phù hợp, không bị trơn [4] Một số nghiên cứu rằng, hàm kiện TD mang thông tin ngôn ngữ vốn quan trọng để hiểu tiếng nói, điểm kiện mang thơng tin phi ngơn ngữ thơng tin người nói hay cảm xúc nói [4, 8] Do vậy, phương pháp TD-GMM, thành phần điểm kiện huấn luyện biến đổi Hình 1, thành phần hàm kiện giữ nguyên, khác với việc biến đổi tất khung Hình Phương pháp biến đổi TD-GMM [4] III PHƢƠNG PHÁP BIẾN ĐỔI GIỌNG NGƢỜI NÓI DỰA VÀO THAY THẾ KHUNG Để khắc phục yếu điểm biến đổi tiếng nói trơn (quá trung bình) phương pháp sử dụng mơ hình GMM, bao gồm phương pháp GMM kinh điển [3] phương pháp TD-GMM [4], số phương pháp đề xuất Nổi bật số phương pháp biến đổi giọng người nói lai tổng hợp tiếng nói dùng mơ hình Markov ẩn (HMM) thay mẫu / ghép nối HTT tác giả Yao Qian cộng đề xuất năm 2013 [5] -6- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Trong phương pháp HTT, bước thứ tiếng nói tổng hợp mơ hình HMM với giọng nguồn Tiếp theo bước thứ hai, tiếng nói tổng hợp biến đổi thành tiếng nói giọng đích dựa kỹ thuật lựa chọn thay khung nguồn có độ dài ngắn 5ms khung đích phù hợp mơ tả Hình Nếu bỏ qua vấn đề tổng hợp giọng nguồn HMM, chất phương pháp biến đổi giọng người nói HTT khung tiếng nói giọng nguồn thay khung vật lý giống giọng đích âm vị Mặc dù việc lựa chọn thay mẫu tiếng nói giọng nguồn mẫu tiếng nói giọng đích đề xuất trước [7], hiệu biến đổi giọng người nói HTT vượt trội so với phương pháp thay mẫu khác việc sử dụng khung tiếng nói ngắn thay mẫu tiếng nói dài âm vị [7] tối ưu việc tìm khung/mẫu tiếng nói đích phù hợp Các kết thực nghiệm cho thấy phương pháp thay khung HTT cho chất lượng hiệu biến đổi giọng người nói cao [5] HTT thực nghiệm tiếng Anh, tiếng Trung đạt thứ hạng cao thi tổng hợp tiếng nói chuyển đổi giọng nói quốc tế Blizzard Challenge 2013 [5] Tuy nhiên phương pháp lựa chọn / thay khung HTT kế thừa tất nhược điểm tổng hợp ghép nối đòi hỏi liệu lớn, tốc độ thực thi khó đảm bảo thời gian thực, liệu cần lưu trữ online lớn Hình Lựa chọn khung đích phù hợp thay khung nguồn [5] Tập V-2, Số 16 (36), tháng 12/2016 IV PHƢƠNG PHÁP BIẾN ĐỔI GIỌNG NGƢỜI NÓI SỬ DỤNG KỸ THUẬT TD ĐỀ XUẤT IV.1 Đặt vấn đề Do hai phương pháp biến đổi giọng người nói TD-GMM HTT có ưu nhược điểm, nghiên cứu đề xuất phương pháp tận dụng ưu điểm hạn chế yếu điểm hai Điểm mạnh phương pháp TD-GMM kỹ thuật TD cho phép biến đổi thơng tin người nói hiệu với việc dùng biến đổi điểm kiện thay cho biến đổi khung tiếng nói Trong điểm yếu phương pháp việc mơ hình hóa GMM khiến tiếng nói biến đổi có xu hướng trơn Điểm mạnh phương pháp HTT chất lượng cao trình lựa chọn thay trực tiếp mẫu tiếng nói đích mẫu tiếng nói nguồn theo khoảng cách vật lý gần Trong điểm yếu phương pháp việc tìm kiếm thay tất khung tiếng nói ngắn đòi hỏi liệu đích để tìm kiếm lớn, tốc độ thực thi khó đảm bảo thời gian thực, liệu đích cần lưu trữ online lớn Do vậy, ý tưởng kết hợp phương pháp đề xuất nghiên cứu sử dụng kỹ thuật TD để phân rã tiếng nói thành hàm kiện điểm kiện Hàm kiện giữ nguyên TDGMM Việc huấn huyện biến đổi điểm kiện giọng nguồn thành điểm kiện giọng đích sử dụng học máy thống kê GMM thay việc tìm kiếm lựa chọn, thay trực tiếp điểm kiện giọng nguồn điểm kiện giọng đích gần mặt vật lý (giống nhất) Quá trình lựa chọn thay điểm kiện phương pháp đề xuất tương tự trình lựa chọn thay khung phương pháp HTT Tuy nhiên việc lựa chọn thay điểm kiện thưa thay tất khung ngắn HTT khắc phục yếu điểm HTT không gian tìm kiếm lớn, thời gian thay ghép nối lâu IV.2 Mơ hình phƣơng pháp đề xuất Mơ hình tổng thể phương pháp đề xuất thể Hình -7- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 y (n) tái tạo từ hàm kiện k điểm kiện ak Có tổng số K điểm kiện tổng số N khung với K  N , MRTD (hay TD nói chung) biểu diễn thưa tiếng nói Các hàm kiện hàm nội suy biểu diễn chuyển dịch miền thời gian kiện thưa K yˆ (n)   akk (n),1  n  N (1) k 1 Công thức (1) viết lại dạng ma trận công thức (2) với P số chiều tham số đặc trưng tiếng nói phân tích (ở phổ đường LSF) YˆPN  APK  K N (2) Hình vẽ ví dụ MRTD phân tích vector y(1: N ) , điểm kiện a(1: K ) , hàm kiện  (1: K ) Điểm kiện a hàm kiện  chưa biết Hình Mơ hình biến đổi giọng người nói đề xuất Tiếng nói giọng nguồn phân tích thành đặc trưng tần số (F0), hệ số độ lợi ứng với lượng tiếng nói, phổ đường (LSF) sử dụng phân tích / tái tạo tiếng nói chất lượng cao STRAIGHT [9] Đặc trưng F0 giọng nguồn biến đổi thành giống giọng đích mà khơng thay đổi tính chất điệu, ngữ điệu (thể qua đường vận động F0) cách biến đổi mức F0 trung bình Đặc trưng phổ đường LSF đặc trưng vector nhiều chiều đặc trưng mang thơng tin người nói quan trọng phân tích kỹ thuật MRTD, kỹ thuật TD cải tiến, đơn giản hóa [8] MRTD có nhiều ưu điểm so với kỹ thuật TD cổ điển có độ phức tạp tính tốn thấp, lỗi tái tạo nhỏ, hàm kiện trơn linh hoạt, dễ dàng biến đổi chứng tỏ nhiều nghiên cứu trước [4, 8] công thức (1), (2) cần ước lượng kỹ thuật tối ưu hóa để tối thiểu lỗi tái tạo Trong bước trình tối ưu MRTD, điểm kiện đặt vector đặc trưng khung tiếng nói vị trí cơng thức (3) ak  y(nk ) Ở đây, nk vị trí điểm kiện ak Giả sử vector phổ đường giọng nguồn LSF y (n) , MRTD phân rã y (n) thành K hàm kiện động k K điểm kiện tĩnh ak với k = K, Hình Ví dụ phân tích / tái tạo tiếng nói MRTD với N khung K điểm kiện công thức (1) Ở yˆ (n) vector xấp xỉ -8- (3) Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Trong bước trình tối ưu, hàm kiện MRTD ước lượng công thức (4) (5) Ở   ||.|| ứng với tích vector chuẩn vector   k 1 (n),if n k-1

Ngày đăng: 12/03/2020, 20:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w