6. Ý nghĩa khoa học của luận văn:
2.1.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD
với N và K là tổng số khung và sự kiện bên trong mẫu tiếng nói. Cuối cùng, một thủ tục tinh chỉnh lặp được sử dụng để cải thiện hình ảnh hàm sự kiện để giảm lỗi tái tạo. Tập hợp các hàm sự kiện được cải thiện được đánh giá để tối thiểu hóa lỗi tái tạo, En của vector phổ
2 1 1 ( ( ) ( )) ,1 P K i ik k n k En y n a n i P (2.13) ( ) k n
được sử dụng để có thể ước lượng sự kiện aktốt hơn. Thủ tục này được lặp lại tới khi cả ( )k n và ak hội tụ tới một tập các giá trị.
Mặc dù việc thực thi thuật toán phân rã tiếng nói theo thời gian theo phương pháp nguyên thủy của Atal có cơ sở toán học chặt chẽ, chúng có một số yếu điểm:
(i) Chi phí tính toán lớn, khiến khả nặng áp dụng thực tiễn không cao
(ii) Số lượng và vị trí các điểm sự kiện không ổn định. Nói cách khác, chúng nhạy cảm với những thay đổi của các tham số được phân tích.
2.1.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD
Để giải quyết vấn đề chi phí tính toán lớn của phương pháp phân rã tiếng nói theo thời gian của Atal, nhiều phương pháp đã được đề xuất [7-11].
Trong đó, được sử dụng nhiều nhất là phương pháp phân rã giới hạn RTD (Restricted TD) [7].
Giả sử hiện tượng đồng cấu âm (co-articulation) trong quá trình tạo tiếng nói được mô tả bằng các hàm sự kiện chồng lấp được giới hạn trong các sự kiện liền kề, mô hình phân rã bậc hai được sử dụng khi chỉ có hai hàm sự kiện liền kề có thể chồng lấn như mô tả trong hình vẽ 2.1 và công thức 2.14.
Hình 2.1: Ví dụ về hai hàm sự kiện liền kề
1 1 1
ˆ( ) k k( ) k k ( ), k k
y n a n a n n n n (2.14)
Trong đó nk và nk1là các vị trí tương ứng của các sự kiện k và k+1.
Phương pháp phân rã giới hạn RTD bổ sung một ràng buộc đối với các hàm sự kiện trong mô hình TD bậc hai là tất cả các hàm sự kiện tại một thời điểm có tổng bằng 1. Khi đó, công thức 2.14 được viết lại như sau:
1 1
ˆ( ) k k( ) k (1 k( )), k k
y n a n a n n n n (2.15) Quá trình xác định hàm sự kiện:
Giả sử các vị trí nk và nk1của hai sự kiện liên tiếp đã biết. Khi đó, nửa
bên phải của hàm sự kiện thứ k và nửa bên trái của hàm sự kiện thứ k+1 có thể đánh giá bằng cách sử dụng ak y n( k)và ak1 y n( k1). Lỗi tái tạo E(n) với vector phổ thứ n sẽ được tính trong công thức 2.16 khi nk n nk1.
2 2
1 1
ˆ
( ) ( ) ( ) ( ( ) k ) ( k k ) k( )
E n y n y n y n a a a n (2.16)
Do đó, ( )k n được xác định và E(n) được tối thiểu. Tối ưu thuật toán phân rã với phổ đường LSF
Tham số phổ được sử dụng trong phương pháp phân rã nguyên thủy TD của Atal là tham số phổ log-area [6]. Một số tham số phổ khác như tỷ lệ log area, phổ cepstrum cũng đã được thử nghiệm phân tích bằng TD [11]. Do các vấn đề về độ ổn định của mô hình phân tích, mã hóa tuyến tính LPC, không phải tất cả các thể hiện tham số có thể sử dụng. Lí do là nó không đảm bảo các tham số phổ được chọn lựa sẽ còn đúng qua phép biến đổi phân rã theo thời gian TD. Do đó, tham số phổ tần số theo đường LSF, tham số được sử dụng nhiều nhất trong mã hóa tiếng nói do rất phù hợp với quá trình nội suy và lượng tự hóa, lại chưa thể được sử dụng trong thuật toán TD nguyên thủy của Atal.
Một tính chất quan trọng của LSFs (i) là nó được sắp thứ tự từ 0 đến π như sau:
1 2
0 ... P (2.17)
Công thức 2.17 có nghĩa rằng sự khác nhau giữa hai LSF liên tiếp (dLSF) di i i1với 1
1 1, P P
d d là luôn lớn hơn 0. Tính chất thứ tự này cần thiết để đảm bảo điều kiện ổn định của các bộ lọc tổng hợp tuyến tính LPC. Khi sử dụng phương pháp phân rã theo thời gian TD để phân tích các tham số LSF cần đảm bảo tính chất thứ tự của LSFs. Điều kiện này không được đảm bảo trong phương pháp nguyên thủy của Atal, do đó trong phương pháp cải tiến RTD đã ép các ràng buộc dLSF nhỏ nhất vào các vector sự kiện để đảm bảo tính chất thứ tự của tham số LSF.
Ban đầu, RTD được đề xuất cho tiếng nói băng hẹp nhưng sau đó cũng được sử dụng hiệu quả cho tiếng nói băng rộng.