Hệ tổng hợp tiếng nói HTS

Tổng hợp dựa trên HMM (Hiden Markov Model) [21] là một phương pháp sử dụng HMM để sinh lại các vector đặc trưng phổ. HTS là một thể hiện tiêu biểu của phương pháp tổng hợp dựa trên thống kê. Trong hệ thống này, phổ tần số của giọng nói, tần số cơ bản và thời lượng đều được mô phỏng cùng lúc bởi HMM. Dạng sóng của giọng nói được tạo từ mô hình HMM dựa trên tiêu chí khả thực cực đại [18][21].

Hình 2.2 là một sơ đồ tổng quan của hệ thống này. Nó bao gồm phần huấn luyện và phần tổng hợp [18]. Phần huấn luyện tương tự với phần huấn luyện đã được dùng trong các hệ thống nhận dạng tiếng nói. Khác biệt chính là cả tham số phổ (các hệ số mel-cepstral và các đặc trưng động của chúng) và tham số sự kích thích (các tần số cơ bản và các đặc trưng động của chúng) được trích chọn từ CSDL tiếng nói và được mô hình bởi các HMM phụ thuộc ngữ cảnh (các ngữ cảnh âm vị, ngôn ngữ, ngôn điệu đều được tính đến). Mỗi HMM có các hàm mật độ xác suất trường độ trạng thái (PDF - probability density function) để nắm bắt cấu trúc thời gian của tiếng nói. Như một kết quả, hệ thống mô hình hóa phổ, kích thích và trường độ trong một framework HMM thống nhất. Phần tổng hợp thực hiện thao tác đảo ngược của nhận dạng tiếng nói. Đầu tiên, một văn bản đưa ra tùy ý được chuyển đổi thành chuỗi các nhãn phụ thuộc ngữ cảnh. Sau đó, một HMM phát âm được tạo bởi việc ghép nối các HMM phụ thuộc ngữ cảnh theo chuỗi nhãn. Thứ hai, các trường độ trạng thái của HMM phát âm được xác định dựa trên các PDF trường độ trạng thái. Thứ ba, thuật toán sinh tham số tiếng nói sinh chuỗi các tham số phổ và kích thích mà cực đại các xác suất đầu ra của chúng. Cuối cùng, một sóng tiếng nói được tổng hợp trực tiếp từ các tham số phổ và kích thích được sinh dùng bộ lọc tổng hợp tiếng nói tương ứng.

Phần hấp dẫn nhất của hệ thống này là đặc thù giọng nói, kiểu nói hoặc cảm xúc có thể dễ dàng thay đổi bằng cách chuyển các tham số HMM sử dụng các công nghệ khác nhau như là sự mô phỏng, phép nội suy hoặc hồi quy phức tạp.

Hình 2.2: Tổng quan của một hệ tổng hợp tiếng nói dựa trên HMM [18]

Thành phần xử tín hiệu số