Phương pháp phân rã tiếng nói theo thời gian giới- 123docz.net

6. Ý nghĩa khoa học của luận văn:

2.1. Kỹ thuật phân rã tiếng nói theo thời gian

2.1.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD

với N và K là tổng số khung và sự kiện bên trong mẫu tiếng nói. Cuối cùng, một thủ tục tinh chỉnh lặp được sử dụng để cải thiện hình ảnh hàm sự kiện để giảm lỗi tái tạo. Tập hợp các hàm sự kiện được cải thiện được đánh giá để tối thiểu hóa lỗi tái tạo, En của vector phổ

2 1 1 ( ( ) ( )) ,1 P K i ik k n k En y n a  n i P       (2.13) ( ) k n

 được sử dụng để có thể ước lượng sự kiện aktốt hơn. Thủ tục này được lặp lại tới khi cả k( )n và ak hội tụ tới một tập các giá trị.

Mặc dù việc thực thi thuật toán phân rã tiếng nói theo thời gian theo phương pháp ngun thủy của Atal có cơ sở tốn học chặt chẽ, chúng có một số yếu điểm:

(i) Chi phí tính tốn lớn, khiến khả nặng áp dụng thực tiễn không cao (ii) Số lượng và vị trí các điểm sự kiện khơng ổn định. Nói cách khác, chúng nhạy cảm với những thay đổi của các tham số được phân tích.

2.1.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD

Để giải quyết vấn đề chi phí tính tốn lớn của phương pháp phân rã tiếng nói theo thời gian của Atal, nhiều phương pháp đã được đề xuất [15-16]. Trong đó, được sử dụng nhiều nhất là phương pháp phân rã giới hạn RTD (Restricted TD) [15].

Giả sử hiện tượng đồng cấu âm (co-articulation) trong q trình tạo tiếng nói được mơ tả bằng các hàm sự kiện chồng lấp được giới hạn trong các sự kiện liền kề, mơ hình phân rã bậc hai được sử dụng khi chỉ có hai hàm sự kiện liền kề có thể chồng lấn như mơ tả trong hình vẽ 2.1 và cơng thức 2.14.

Hình 2.1. Ví dụ về hai hàm sự kiện liền kề

1 1 1

ˆ( ) k k( ) k k ( ), k k

y n a n a   n n  n n  (2.14)

Trong đó nk và nk1là các vị trí tương ứng của các sự kiện k và k+1.

Phương pháp phân rã giới hạn RTD bổ sung một ràng buộc đối với các hàm sự kiện trong mơ hình TD bậc hai là tất cả các hàm sự kiện tại một thời điểm có tổng bằng 1. Khi đó, cơng thức 2.14 được viết lại như sau:

1 1

ˆ( ) k k( ) k (1 k( )), k k

y n a  n a   n n  n n  (2.15)

Quá trình xác định hàm sự kiện:

Giả sử các vị trí nk và nk1của hai sự kiện liên tiếp đã biết. Khi đó, nửa

bên phải của hàm sự kiện thứ k và nửa bên trái của hàm sự kiện thứ k+1 có thể đánh giá bằng cách sử dụng ak  y n( k)và ak1  y n( k1). Lỗi tái tạo E(n) với vector phổ thứ n sẽ được tính trong cơng thức 2.16 khi nk  n nk1.

2 2

1 1

( ) ( ) ( ) ( ( ) k ) ( k k ) ( )k

Do đó, k( )n được xác định và E(n) được tối thiểu.

Tối ưu thuật toán phân rã với phổ đường LSF

Tham số phổ được sử dụng trong phương pháp phân rã nguyên thủy TD của Atal là tham số phổ log-area. Một số tham số phổ khác như tỷ lệ log area, phổ cepstrum cũng đã được thử nghiệm phân tích bằng TD. Do các vấn đề về độ ổn định của mơ hình phân tích, mã hóa tuyến tính LPC, khơng phải tất cả các thể hiện tham số có thể sử dụng. Lí do là nó khơng đảm bảo các tham số phổ được chọn lựa sẽ còn đúng qua phép biến đổi phân rã theo thời gian TD. Do đó, tham số phổ tần số theo đường LSF, tham số được sử dụng nhiều nhất trong mã hóa tiếng nói do rất phù hợp với q trình nội suy và lượng tự hóa, lại chưa thể được sử dụng trong thuật tốn TD ngun thủy của Atal.

Một tính chất quan trọng của LSFs (i) là nó được sắp thứ tự từ 0 đến pi như sau:

1 2

0   ... P  (2.17)

Cơng thức 2.17 có nghĩa rằng sự khác nhau giữa hai LSF liên tiếp (dLSF)

di  i i1với 1

1 1, P P

d  d     là ln lớn hơn 0.Tính chất thứ tự này cần

thiết để đảm bảo điều kiện ổn định của các bộ lọc tổng hợp tuyến tính LPC. Khi sử dụng phương pháp phân rã theo thời gian TD để phân tích các tham số LSF cần đảm bảo tính chất thứ tự của LSFs. Điều kiện này không được đảm bảo trong phương pháp nguyên thủy của Atal, do đó trong phương pháp cải tiến RTD đã ép các ràng buộc dLSF nhỏ nhất vào các vector sự kiện để đảm bảo tính chất thứ tự của tham số LSF.

Ban đầu, RTD được đề xuất cho tiếng nói băng hẹp nhưng sau đó cũng được sử dụng hiệu quả cho tiếng nói băng rộng.

Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD

Biến đổi cảm xúc người nói bằng TD-GMM

Biến đổi cảm xúc người nói bằng HTD [10]