Phương pháp MRTD

6. Ý nghĩa khoa học của luận văn

2.1. Kỹ thuật phân rã tiếng nói theo thời gian

2.1.3. Phương pháp MRTD

Cơng thức 2.17 có nghĩa rằng sự khác nhau giữa hai LSF liên tiếp (dLSF)

{d = ω − ω } với d = ω , d P+1 = π

−ω là ln lớn hơn 0.Tính chất thứ tự này cần

i i i−1 1 1 P

thiết để đảm bảo điều kiện ổn định của các bộ lọc tổng hợp tuyến tính LPC. Khi sử dụng phương pháp phân rã theo thời gian TD để phân tích các tham số LSF cần đảm bảo tính chất thứ tự của LSFs. Điều kiện này không được đảm bảo trong phương pháp nguyên thủy của Atal, do đó trong phương pháp cải tiến RTD đã ép các ràng buộc dLSF nhỏ nhất vào các vector sự kiện để đảm bảo tính chất thứ tự của tham số LSF.

Ban đầu, RTD được đề xuất cho tiếng nói băng hẹp nhưng sau đó cũng được sử dụng hiệu quả cho tiếng nói băng rộng.

2.1.3. Phương pháp MRTD

Phương pháp RTD cải tiến (MRTD) [16] là phương pháp phân rã tiếng nói theo thời gian tiếp theo được đề xuất nhằm tiếp tục cải thiện các vấn đề tồn tại đối với tham số phổ đường LSF.

Ràng buộc bổ sung với các hàm sự kiện

Dựa trên đặc tính hình học của phân rã theo thời gian, tính chất “hình học chuẩn” của hàm sự kiện được mô tả là hàm sự kiện chỉ có một đỉnh như trong hình 2.2. Hàm có tính chất “hình học chuẩn” là tốt cho phép lượng tử trong mã hóa tiếng nói cũng như trong biểu diễn sự biến đổi theo thời gian của tiếng nói do nó phù hợp với đặc tính tự nhiên của tiếng nói.

Hình 2.2. Hàm sự kiện có tính chất “hình học chuẩn” và “hình học khơng

chuẩn”

Tuy nhiên, việc xác định hàm sự kiện trong RTD khơng đảm bảo tính chất “hình học chuẩn”, tức hàm sự kiện có thể có nhiều đỉnh, làm giảm hiệu quả mã hóa tiếng nói do làm tăng lỗi lượng tử. Để khắc phục điều đó, trong MRTD, hàm sự kiện được xác định như sau trong công thức 2.18.

  φk(n) = min(φ 1− φk−1(n), if nk-1 <n<nk 1, if n=nk (n −1), max(0,φˆ (n))), if n <n<n (2.18)  k k  0, k k+1 n khác 

( y(n)  ak 1 ), (ak  ak 1 )

Với

φˆ (n)

= a − a 2 (2.19)

k k +1

Tinh chỉnh vector sự kiện

Vector sự kiện được ước lượng tương ứng với việc xác định hàm sự kiện dựa vào trung bình phương tối thiểu theo các công thức 2.20.

A = YΦT (ΦΦT )−1 (2.20)

Mặc dù khi đề xuất, phương pháp RTD được cho rằng đã đảm bảo tính chất thứ tự với tham số LSF.Các nghiên cứu sau đó đã chỉ ra rằng tính chất thứ tự vẫn chưa hoàn toàn được đảm bảo. Vector sự kiện ước lượng được có thể vi phạm tính chất thứ tự của tham số phổ đường LSF vì tiêu chuẩn lỗi khơng quan tâm tới tính chất này. Với giá trị nhỏ nhất ε của dLSF, vector sự kiện trong

RTD được ước lượng từ hệ số thấp đến cao nhất, thay thế ai−1,k và ai,k bằng

aˆi−1

,k và

aˆi,k = ai,k −1 +

tương ứng bất cứ khi nào

ai,k −1 +

aˆi,k .Xem xét sự

tăng của lỗi E với N n=1

y(n) − yˆ(n) gây ra bởi sự thay đổi này đã xác định được aˆi,k

−1

như sau:

aˆi,k −1 = ai−1,k + ai,k − ε 2

(2.21)

Ở đây, quá trình này chưa đảm bảo thứ tự của

ak vì aˆi−1,k <

ai−1,k

và khơng

có gì đảm bảo rằng quyết được điều này.

a1,k > 0

và

aP,k < π . Phương pháp cải tiến MRTD đã giải

Đầu tiên, một quá trình thay đổi J thành phần tổng quát hơn (1< J < P − i −1) :

ai,k , ai+1,k ,..., ai+J −1,k tới aˆi,k ,

aˆi+1,k = ai,k + ε ,..., aˆi+J

−1,k

= aˆi,k + (J −1)ε

tương ứng được thiết lập. Xem xét rằng sự tăng lỗi E gây ra bởi sự thay đổi này là:

J −1 ∆ = a + − (aˆ 2 +∑ lε φ (n)2 (2.22)  l =0 i l ,k i,k  k n Và

aˆi,k ≥ ai−1,k + ε ,

aˆi,k

cần được xác định để giảm thiểu ∆ như sau

aˆ = ai−1,k + ε , if ai,k <ai-1,k +ε

i,k  a , khác (2.23)  i,k Với J −1 ai+l ,k ai,k = l = 0 J − (J −1)ε 2 (2.24)

Tiếp theo, một thuật toán để chuẩn hóa các vector sự kiện ak được phát

triển. Để đảm bảo rằng đó

a1,k > 0 và aP,k <

π a, 0 và π được thêm vào

ak . Do

a = 0, a ,..., a T (2.25)

k  1,k P,k ,π 

Để đơn giản, 0 và π được gán

là a0,k và aP+1,k . Chú ý rằng a0, k

và aP+1,k

khơng thể thay đổi trong q trình chuẩn hóa. Tồn bộ thuật tốn được trình bày trong hình 2.3 và được mơ tả như sau:

Bước 1. Khởi tạo i ←0

Bước 2.Nếu i < P ai,k + ε ≤ ai+1,k

gán i ← i +1. Lặp lại bước này cho đến

khi i = P

hoặc ai,k +

ai+1,k , nếu i = P nhảy đến bước 6.

∑

gán Bước 3. Nếu i = 0 ,gán i ←1và j ← 2 . j ←1 vì

a0,k khơng thể thay đổi, nếu khơng,

Bước 4. Thay đổi ai,k ,..., ai+ j

−1,k

thành aˆi,k ,..., aˆi+ j −1,k sử dụng công

thức (9). Nếu

Bước 5. Nếu a

i+ j−1,k +

ai+ j,k khôi phục ak từ bước trước,

đặt

j ← j +1

và quay trở lại bước 4. Nếu không, đặt i ← i + j . Nhảy tới bước 2 nếu i < P . Bước 6. Nếu aP,k + ε ≤ aP+1,k , ak được chuẩn hóa. Nếu khơng, khơi phục i

và giá trị tương ứng của vector

từ bước trước,

đặt j ← P − i +1và trở lại bước

Ở bước 6, chú ý rằng nếu i là thành phần cuối cùng của một đoạn bị thay đổi, i sẽ được đặt vào đầu của đoạn. Nếu i = 0 ,vector

sẽ được đặt bằng

[0,π - Pε ,π - (P -1)ε ,...,π )T . Tuy nhiên trong thực tế trường hợp này hiếm khi xảy ra.

Trong kết quả, nếu các vị trí của các sự

kiện nk khi k =1,.., K đã được biết

và tương ứng với các vector sự kiện đã được khởi tạo với các mẫu của vector phổ đường LSF y(nk ) , chúng ta có thể tính tốn chính xác hàm sự kiện, vector

sự kiện. Ở đây chúng ta sử dụng thuật toán ước lượng cực tiểu cục bộ của tỷ lệ dịch phổ (SFTR) dựa vào các tham số phổ đường LSF như các vị trí khởi tạo của các sự kiện.

P 2 (2.26) Với i=1 ∑ myi (n + m) ci (n) = m =− M ,1 ≤ i ≤ P (2.27) ∑ m2 m=− M

Kích cỡ cửa sổ, 2M, của phân tích SFTR là tham số duy nhất ảnh hưởng tới số lượng và vị trí khởi tạo của các sự kiện. Ngồi ra, một sự kiện mới sẽ

SFTR : s(n) = ∑c (n) ,1 ≤ n ≤ N

được thêm vào khi lỗi tái tạo ban đầu e(n)

= y(n) − yˆ(n) 2 có một cực đại cục

Hình 2.3. Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu tiếng nói, chỉ số trên miền thời gian là số khung.

Phương pháp TD nguyên thủy

Biến đổi cảm xúc người nói bằng TD-GMM