Phương pháp biến đổi thay đổi tham số trực tiếp- 123docz.net

6. Ý nghĩa khoa học của luận văn:

1.7. Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng

1.7.1. Phương pháp biến đổi thay đổi tham số trực tiếp

Trong phương pháp thay đổi tham số trực tiếp (là phương pháp đơn giản và cổ điển nhất), tiếng nói sẽ được phân tách thành các khung và tính vector đặc trưng theo các khung sử dụng mơ hình phân tích / tổng hợp nguồn âm / bộ lọc (source/filter). Mơ hình nguồn âm / bộ lọc đảm bảo tín hiệu sau khi phân tích thành các tham số có thể tái tạo tín hiệu trở lại từ các tham số đã phân tích. Các tham số liên quan đến yếu tố người nói như biên độ, trường độ, cao độ - tần số cơ bản, hay phổ sẽ được điều chỉnh cho phù hợp.

STRAIGHT [5] là cơng cụ cho phép phân tích / tái tạo tiếng nói theo mơ hình nguồn âm / bộ lọc. Đây cũng là bộ công cụ được sử dụng trong nhiều nghiên cứu về xử lý tiếng nói. Mơ hình STRAIGHT được mơ tả trong hình 1.20.

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Hình 1.10: Phân tích phổ, F0 và tái tạo bằng STRAIGHT

STRAIGHT được xây dựng trên mơ hình nguồn âm / bộ lọc cho phép điều chỉnh một cách linh hoạt các tham số tiếng nói. Trong đó các tham số như F0, tốc độ nói, độ dài vocal tract được điều chỉnh mà khơng có sự suy giảm chất lượng tiếng nói gây ra do q trình tái tạo tiếng nói từ tham số đã điều chỉnh [5]. STRAIGHT gồm 03 thành phần chính:

Bộ phân tích thơng tin nguồn: Tần số cơ bản F0 được ước lượng để làm trơn các hài tuần hoàn trong phổ thời gian ngắn sử dụng một bộ lọc thích nghi.

Bộ phân tích phổ thời gian – tần số được làm trơn: Sử dụng kỹ thuật đồng bộ cao độ Pitch-synchronous để ước lượng đường bao phổ được làm trơn. Đường bao phổ được ước lượng độc lập với tần số cơ bản F0.

Bộ tổng hợp: Bao gồm một bộ kích thích nguồn âm và một bộ lọc số biến đổi theo thời gian, thực hiện tái tạo tín hiệu tiếng nói từ các thành phần F0 và đường bao phổ bằng nhiều bước sử dụng thuật toán biến đổi Fourier nhanh FFT.

Bộ thư viện các hàm STRAIGHT viết trên MATLAB có thể tham khảo từ website cá nhân của tác giả:

http://www.wakayama-u.ac.jp/~kawahara/PSSws/

STRAIGHT được sử dụng để phân tích tiếng nói ra các đặc trưng cao độ (F0), biên độ dạng sóng trên miền thời gian và phổ tiếng nói. Qua đó với việc điều chỉnh trực tiếp các tham số trên bằng các hệ số tuyến tính (Kf0, Kt, Ks), chúng ta có thể điều chỉnh độc lập F0, tốc độ nói trên miền thời gian, chiều dài bộ lọc phát âm trên miền tần số với phương thức giống nhau là nhân với các hệ số tỷ lệ tuyến tính tương ứng Kf0, Kt, Ks.

Thuật toán điều chỉnh trực tiếp tham số được mơ tả trong hình 1.21.

Hình 1.21: Thuật tốn điều chỉnh trực tiếp tham số tiếng nói

Điều chỉnh tham số

Tính F0 và tần số đường bao phổ bằng STRAIGHT

Tái tạo tiếng nói

Kt Kf0 n3sgram (đường bao phổ mơ tả tuyến âm) F0 Ks Tiếng nói gốc

Tiếng nói đã được điều chỉnh để thay đổi giọng

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Phương pháp biến đổi thay đổi tham số trực tiếp

Tính tốn vector đặc trưng

Biến đổi thơng tin người nói bằng TD-GMM