Phƣơng pháp phân rã tiếng nói theo thời gian giới hạn RTD

Một phần của tài liệu Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian (Trang 38 - 41)

5. Ý nghĩa khoa học và thực tiễn

2.2.Phƣơng pháp phân rã tiếng nói theo thời gian giới hạn RTD

Để giải quyết vấn đề chi phí tính toán lớn của phƣơng pháp phân rã tiếng nói theo thời gian của Atal, nhiều phƣơng pháp đã đƣợc đề xuất [5, 6, 7, 8, 9].

Trong đó, đƣợc sử dụng nhiều nhất là phƣơng pháp phân rã giới hạn RTD (Restricted TD) [5].

Giả sử hiện tƣợng đồng cấu âm (co-articulation) trong quá trình tạo tiếng nói đƣợc mô tả bằng các hàm sự kiện chồng lấp đƣợc giới hạn trong các sự kiện liền kề, mô hình phân rã bậc hai đƣợc sử dụng khi chỉ có hai hàm sự kiện liền kề có thể chồng lấn nhƣ mô tả trong hình vẽ 2.1 và công thức 2.14.

Hình 2.1. Ví dụ về hai hàm sự kiện liền kề

1 1 1

ˆ( ) k k( ) k k ( ), k k

y nana   n n  n n

(2.14)

Trong đó nknk1là các vị trí tƣơng ứng của các sự kiện k và k+1. Phƣơng pháp phân rã giới hạn RTD bổ sung một ràng buộc đối với các hàm sự kiện trong mô hình TD bậc hai là tất cả các hàm sự kiện tại một thời điểm có tổng bằng 1. Khi đó, công thức 2.14 đƣợc viết lại nhƣ sau:

1 1

ˆ( ) k k( ) k (1 k( )), k k

y nana   n n  n n  (2.15)

Quá trình xác định hàm sự kiện:

Giả sử các vị trí nknk1của hai sự kiện liên tiếp đã biết. Khi đó, nửa

thể đánh giá bằng cách sử dụng aky n( k)và ak1  y n( k1). Lỗi tái tạo E(n) với vector phổ thứ n sẽ đƣợc tính trong công thức 2.16 khi nk  n nk1.

2 2

1 1

ˆ

( ) ( ) ( ) ( ( ) k ) ( k k ) ( )k

E ny ny ny na   aa   n (2.16)

Do đó, ( )k n đƣợc xác định và E(n) đƣợc tối thiểu.

Tối ưu thuật toán phân rã với phổ đường LSF

Tham số phổ đƣợc sử dụng trong phƣơng pháp phân rã nguyên thủy TD của Atal là tham số phổ log-area [4]. Một số tham số phổ khác nhƣ tỉ lệ log area, phổ cepstrum cũng đã đƣợc thử nghiệm phân tích bằng TD [9]. Do các vấn đề về độ ổn định của mô hình phân tích, mã hóa tuyến tính LPC, không phải tất cả các thể hiện tham số có thể sử dụng. Lí do là nó không đảm bảo các tham số phổ đƣợc chọn lựa sẽ còn đúng qua phép biến đổi phân rã theo thời gian TD. Do đó, tham số phổ tần số theo đƣờng LSF, tham số đƣợc sử dụng nhiều nhất trong mã hóa tiếng nói do rất phù hợp với quá trình nội suy và lƣợng tự hóa, lại chƣa thể đƣợc sử dụng trong thuật toán TD nguyên thủy của Atal.

Một tính chất quan trọng của LSFs (i) là nó đƣợc sắp thứ tự từ 0 đến pi nhƣ sau:

1 2

0   ... P  (2.17)

Công thức 2.17 có nghĩa rằng sự khác nhau giữa hai LSF liên tiếp (dLSF) di  ii1với 1

1 1, P P

d  d     là luôn lớn hơn 0. Tính chất thứ tự này cần thiết để đảm bảo điều kiện ổn định của các bộ lọc tổng hợp tuyến tính LPC. Khi sử dụng phƣơng pháp phân rã theo thời gian TD để phân tích các tham số LSF cần đảm bảo tính chất thứ tự của LSFs. Điều kiện này không đƣợc đảm bảo trong phƣơng pháp nguyên thủy của Atal, do đó trong phƣơng pháp cải tiến RTD đã ép các ràng buộc dLSF nhỏ nhất vào các vector sự kiện để đảm bảo tính chất thứ tự của tham số LSF.

Ban đầu, RTD đƣợc đề xuất cho tiếng nói băng hẹp nhƣng sau đó cũng đƣợc sử dụng hiệu quả cho tiếng nói băng rộng.

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian (Trang 38 - 41)