Biến đổi cảm xúc người nói dựa vào thay thế khung

Một phần của tài liệu (Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian (Trang 25)

6. Ý nghĩa khoa học của luận văn

1.7. Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng

1.7.2. Biến đổi cảm xúc người nói dựa vào thay thế khung

Một trong những phương pháp biến đổi thơng tin người nói thành cơng nhất là phương pháp biến đổi cảm xúc người nói lai giữa tổng hợp tiếng nói dùng mơ hình Markov ẩn (HMM) và thay thế mẫu / ghép nối HTT được tác giả Yao Qian và cộng sự đề xuất năm 2013 [7].

Trong phương pháp HTT, ở bước thứ nhất tiếng nói tổng hợp bằng mơ hình HMM với giọng nguồn. Tiếp theo ở bước thứ hai, tiếng nói đã tổng hợp được biến

đổi thành tiếng nói với cảm xúc yêu cầu dựa trên kỹ thuật lựa chọn và thay thế các khung nguồn có độ dài rất ngắn 5ms bằng các khung đích phù hợp.

Nếu bỏ qua vấn đề tổng hợp giọng nguồn bằng HMM, bản chất của phương pháp biến đổi giọng người nói HTT là các khung của tiếng nói giọng nguồn được thay thế bằng các khung vật lý giống nhất của giọng đích trong cùng âm vị. Mặc dù việc lựa chọn và thay thế mẫu tiếng nói giọng nguồn bằng mẫu tiếng nói giọng đích đã được đề xuất trước đó, hiệu quả biến đổi giọng người nói trong HTT là vượt trội so với các phương pháp thay thế mẫu khác do việc sử dụng các khung tiếng nói rất ngắn thay thế các mẫu tiếng nói dài như âm vị sẽ tối ưu việc tìm được khung/mẫu tiếng nói đích phù hợp nhất.

Các kết quả thực nghiệm cho thấy phương pháp thay thế khung HTT cho chất lượng và hiệu quả biến đổi cảm xúc người nói rất cao [7]. HTT đã được thực nghiệm trên tiếng Anh, tiếng Trung và đã đạt thứ hạng cao trong cuộc thi về tổng hợp tiếng nói và chuyển đổi giọng nói quốc tế Blizzard Challenge 2013 [7]. Tuy nhiên các phương pháp lựa chọn/thay thế khung như HTT kế thừa tất cả các nhược điểm của tổng hợp ghép nối như địi hỏi dữ liệu lớn, tốc độ thực thi khó đảm bảo thời gian thực, dữ liệu cần lưu trữ online lớn.

1.7.3. Biến đổi thơng tin người nói bằng GMM

1.7.3.1. Phân bố Gauss

Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng

quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương

sai σ2).

Phân phối chuẩn chuẩn hóa (standard normal distribution) là phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 (đường cong màu đỏ trong hình bên phải). Phân phối chuẩn còn được gọi là đường cong chng (bell curve) vì đồ thị của mật độ xác suất có dạng chng.

Hình 1.19: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối chuẩn chuẩn hóa)

Hình 1.20: Mơ hình thống kê GMM được sử dụng để mơ hình hóa người nói: Các thành phần Gaussian (components); Mơ hình ước lượng (estimated

 2

sai σ2

Hàm mật độ xác suất của phân phối chuẩn với trung bình µ và phương (hay, độ lệch chuẩn σ ) là một ví dụ của một hàm Gauss,

1 (x-µ)2

f (x; µ,σ )

= exp(- 2σ 2

)

(1.1)

Nếu một biến ngẫu nhiên có phân phối này, ta kí hiệu là

1.7.3.2. Mơ hình Gaussian hỗn hợp

X ~ N (µ,σ 2 )

Mơ hình Gaussian hỗn hợp (Gaussian Mixture Model - GMM) là một hàm tham số mật độ xác suất được biểu diễn như là một tổng trọng số của các mật độ Gaussian thành phần. GMM được sử dụng rộng rãi như là một mơ hình tham số của phân phối xác suất của các phép đo liên tục hay tính năng trong một hệ thống sinh trắc học. Các tham số GMM được đánh giá từ việc huấn luyện dữ liệu sử dụng thuật tốn lặp cực đại hóa kỳ vọng (Expectation Maximization – EM) hoặc tối đa hậu nghiệm (Maximum A Posteriori – MAP)

Một mơ hình GMM là tổng thành phần của M thành phần mật độ Gaussian được cho bởi công thức:

p(x | λ) = ∑ωi g(x | µi ; ∑i

)

i=1

(1.2)

Trong đó M là số thành phần, mỗi thành phần mật độ là một hàm Gaussian như định nghĩa trong công thức 1.2.

ωi là trọng số của các thành phần thỏa mãn điều kiện ∑ωi = 1

i=1

1.7.3.3. Mơ hình hóa cảm xúc người nói bằng mơ hình GMM

Một kỹ thuật mơ hình hóa cảm xúc người nói được sử dụng phổ biến trong các hệ thống nhận dạng cảm xúc người nói khơng phụ thuộc từ khóa là kỹ thuật dùng mơ hình GMM [6, 8]. Đây là một phương pháp dựa trên thống kê, mơ hình hóa sự biến đổi về mặt thống kê của các vector đặc trưng. Do vậy, nó cung cấp sự biểu diễn về mặt thống kê mơ hình cảm xúc người nói tạo ra âm thanh như thế nào.

Một hàm mật độ Gausian là tổng có trọng số của các mật độ thành phần biểu diễn như công thức sau:

p(x) = N (x; µi ; ∑i ) i=1 (1.3) k M p(x) = N(x; µi ; ∑i i=1 ) = ∑αibi (x) i=1 (1.4)

Trong đó, M là số lượng các thành phần, x là một vector đặc trưng đa hướng, b

i (x) là các mật độ thành phần

pi là các xác suất tiền nghiệm. Mỗi mật độ thành phần được tính như sau:

b (x) = 1 exp - (x − µ ) −1(x − µ ) (1.5) i N /2 1/ 2  2 ii i  (2π ) ∑i  

Với N là số hướng của vector x,

µi là vector trung bình, ∑i là ma trận

hiệp phương sai của thành phần thứ i. Mỗi người nói được biểu diễn bằng mơ hình GMM, mơ hình GMM được tham số hóa bằng các vector trung bình, các ma trận hiệp phương sai và các trọng số pha trộn của tất cả các thành phần mật độ. Số lượng các thành phần M cần phải được xác định hoặc bằng các thuật toán phân cụm hoặc bằng kỹ thuật phân đoạn tiếng nói tự động. Một mơ hình khởi tạo nhận được bằng cách ước lượng các tham số của các vector đặc trưng được phân cụm trong khi các phần của vector trong mỗi cụm có thể xem như các trọng số pha trộn. Các giá trị trung bình và hiệp phương sai được ước lượng từ các vector trong mỗi cụm. Sau khi ước lượng, các vector đặc trưng có thể được ước lượng lại sử dụng các mật độ thành phần từ các mơ hình pha trộn đã được ước lượng. Quá trình này được lặp lại đến khi các tham số của mơ hình hội tụ.Thuật tốn này được gọi là thuật tốn “cực đại hóa kỳ vọng” (Expectation Maximum - EM).

1.7.3.4. Huấn luyện

Tiếng nói của giọng nguồn được trình bày bằng một vector

X = [x1, x2,..., xn ] , với

xi là một vector đặc trưng D chiều của khung thứ i,

x = x1, x2,..., xD

T .

i i i

Tiếng nói của giọng đích tương ứng cần biến đổi được trình bày bằng một vector Y = [ y , y ,..., y ] , với y = y1, y2,..., yD T . Vector kết hợp nguồn – đích Z = [z , z ,..., z ] với z = x T , y T T .

Hàm phân bố xác suất của Z cũng được mơ hình hóa bằng một GMM.

p(z) = ∑αm N(z, µm ,

∑m m=1

) = p(x, y) (1.6)

Với M là số lượng thành phần Gausian. N (z, µm ,

∑m ) là phân bố chuẩn

với kỳ vọng

µm và ma trận hiệp phương sai

m

. αm là xác suất hậu nghiệm

của z sinh ra thành phần m, và thỏa mãn 0 ≤ α

m ≤ 1, ∑αm = 1.Bộ tham số

m=1

m , µm , ∑m

)

EM.

cho hàm mật độ p(x, y) có thể được ước lượng bằng thuật toán

1.7.3.5. Biến đổi

Hàm biến đổi đặc trưng nguồn x sang đặc trưng đích y được cho trong cơng thức 1.7 F (x) = E( y | x) = ∫ yp( y | x)dy Do đó, (1.7) F(x) = ∑ p (x)(µ y + ∑yx (∑xx )−1(x − µm )) m m m m x m=1 Trong đó, (1.8) p (x) = α N (x; µx ; ∑xx ) 1 2 n i i i i 1 2 n i i i M M m m m

mM α N (x; µ x , ∑xx ) (1.9) µ µ x  µxx µxy  =  m , ∑ =  m m  và p (x) là xác suất x thuộc về thành phần m µy m µyx µyy mm   m m  Gaussian thứ m. m=1 m m

1.7.3.6. Ưu, nhược điểm của phương pháp

Ưu điểm của phương pháp biến đổi bằng huấn luyện thống kê là chỉ cần một lượng nhỏ dữ liệu đích, có thể biến đổi giọng nguồn tương đối giống giọng đích. Tuy nhiên, nhược điểm của phương pháp này là chất lượng kém phương pháp thay thế khung nếu có đủ dữ liệu. Ngồi ra, phương pháp này chỉ thích hợp để biến đổi các đặc trưng nhiều chiều như đặc trưng phổ mà không phù hợp để biến đổi các đặc trưng một chiều như F0, biên độ.

CHƯƠNG 2

BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN

2.1. Kỹ thuật phân rã tiếng nói theo thời gian

2.1.1. Phương pháp TD nguyên thủy

Kỹ thuật phân rã tiếng nói theo thời gian được đề xuất bởi Atal [14] và được coi như một phương pháp mã hóa tiếng nói tham số hiệu quả. Giả sử một chuỗi tiếng nói được tạo ra bởi K chuyển động thực hiện bởi K điểm sự kiện.

Chúng ta gọi các tham số tiếng nói tương ứng với điểm sự kiện thứ k là ak , và sự biến đổi theo thời gian của sự kiện này biểu diễn bằng một hàm φk . Khung tiếng nói thứ n đi từ 1 đến N. Khi phân rã tiếng nói theo thời gian, các tham số tiếng nói quan sát được y(n) được xấp xỉ bằng n , là một tổ hợp

tuyến tính của các điểm sự kiện như sau:

yˆ(n) = akφk (n),1 ≤ n ≤ N k =1 (2.1) ak = [a1k a 2k ...aPk ] (2.2) y(n) = [ y1 (n) y2 yˆ(n) =[ yˆ1(n) yˆ2 (n)...yP (n)... P (n)] T (n)] T (2.3) (2.4)

Chỉ số mũ T của vector hay ma trận là phép chuyển vị. Viết công thức trên dưới dạng ma trận như sau:

Yˆ = AΦ (2.5)

với P là số chiều của các tham số phổ.

Yˆ là một ma trận cỡ PxN với cột thứ n là

n . A là một ma trận PxK với cột thứ k là ak , và phi là một ma trận cỡ KxN với hàng thứ k là φk .

Ở công thức 2.1 cả điểm sự kiện và hàm chuyển dịch giữa các sự kiện là chưa biết và kỹ thuật phân rã theo thời gian phải xác định chúng khi một chuỗi tiếng nói đầu vào được đưa ra.

Ở công thức 2.1 và 2.5, chỉ Y là biết trước. Để xác định A và Phi, Y được phân rã bằng phép toán trực giao. Thủ tục phân tích trong phương pháp nguyên thủy của Atal được thực hiện bằng 2 bước:

Các vị trí của các điểm sự kiện được xác định bằng phép phân tích ma trận SVD

Các điểm sự kiện và hàm chuyển dịch sự kiện được xác định bằng phương pháp lặp tối thiểu khoảng cách (hoặc lỗi) giữa tiếng nói được tái tạo và tiếng nói gốc.

Phương pháp của Atal được thực thi như sau:

Đầu tiên, ma trận tham số phổ của một đoạn tiếng nói khoảng 200-300 ms được phân rã thành hai ma trận trực giao và một ma trận chéo của các giá trị riêng, sử dụng phân tích SVD.

YT = UDVT (2.6)

Với YT

là ma trận tham số phổ cỡ NxP, U là một ma trận trực giao NxP, V là một ma trận trực giao PxP, và D là một ma trận chéo của các giá trị riêng. N và P tương ứng là số các khung trong đoạn tiếng nói được phân tích và số chiều của tham số phổ. Do đó các hàm chuyển dịch sự kiện được biểu diễn là một tổ hợp tuyến tính của các hàm trực giao, và do đó cho phép số lượng điểm sự kiện M được cố định trong một đoạn tiếng nói được phân tích bằng cách chỉ lấy các giá trị riêng lớn. Thông thường, một cửa sổ vào khoảng 200- 300 ms sẽ cho M = 5.

φk (n) =∑bkiui

(n)

i=1

với ui (n) là phần tử thứ (n,i) của ma trận

U,

bk

i

(2.7) là một tạp các hệ số.

 N

n1(n  n ) 2 2 (n)

c

 Nn1 2(n)

Tiếp theo, hàm chuyển dịch sự kiện φ(n) gần nhất với trung tâm của đoạn tiếng nói được lấy cửa sổ hóa n0 sẽ được ước lượng bằng cách tối thiểu hóa khoảng cách đo

được θ (nc )

θ (nc ) = (2.8)

Tối thiểu hóa ln(θ (nc )) tương ứng với các hệ số bi dẫn tới vấn đề xác

định trị riêng của một ma trận R ∈ RKxK

Rb = λb

Khi phần tử (i, r) của ma trận R được tính như sau

(2.9)

Rir =∑(n - nc )2ui (n)ur (n)

n=1

(2.10)

b là vector của các hệ số bi. Giải pháp này ứng với giá trị riêng λ nhỏ nhất tối ưu b.

Để phân tích một chuỗi tiếng nói hồn chỉnh, thủ tục trình bày ở trên cần lặp lại với các cửa sổ tiếng nói. Phương pháp của Atal yêu cầu cửa sổ chuyển dịch một khoảng nhỏ, ví dụ như 1 khung, để đảm bảo khơng có hàm chuyển dịch nào bị mất. Do đó, nếu tổng số cửa sổ là L, SVD và vector riêng sẽ thực hiện L lần. SVD là một thủ tục tính tốn với chi phí tính tốn rất lớn được xem là lí do phương pháp của Atal có độ phức tạp tính tốn cao.

Vì cửa sổ được dịch mỗi lần một khoảng nhỏ, hàm chuyển dịch giống nhau sẽ được dịch theo thời gian từng khoảng nhỏ. Để tìm vị trí của các hàm chuyển dịch để giảm tổng số hàm chuyển dịch, một thuật toán dựa trên một tiêu chuẩn vượt ngưỡng 0 về hàm thời gian v(l) được sử dụng.

v(l) = N n=1(n − l)φ 2 (n) (2.11) N n=1φ2 (n) ∑ ∑

Hàm v(l) vượt qua ngưỡng v(l)=0 từ dương sang âm ở vị trí l ứng với vị trí của một trong các hàm φk (n) với k nào đó.

Điểm sự kiện phổ

ak được xác định bằng tối thiểu hóa sai số bình phương

giữa tham số phổ gốc và tham số phổ tái tạo.

E = ∑( y (n) − ∑a φ (n)2,1 ≤ i ≤ P (2.12) n=1 k =1

với N và K là tổng số khung và sự kiện bên trong mẫu tiếng nói. Cuối cùng, một thủ tục tinh chỉnh lặp được sử dụng để cải thiện hình ảnh hàm sự kiện để giảm lỗi tái tạo. Tập hợp các hàm sự kiện được cải thiện được đánh giá để tối thiểu hóa lỗi tái tạo, En của vector phổ

En = ∑( y (n) − ∑a φ (n))2,1 ≤ i ≤

P (2.13)

i ik k

n=1 k =1

φk (n) được sử dụng để có thể ước lượng sự kiện

ak tốt hơn. Thủ tục này được lặp lại tới khi cả φk (n) và

ak hội tụ tới một tập các giá trị.

Mặc dù việc thực thi thuật tốn phân rã tiếng nói theo thời gian theo phương pháp nguyên thủy của Atal có cơ sở tốn học chặt chẽ, chúng có một số yếu điểm:

(i) Chi phí tính tốn lớn, khiến khả nặng áp dụng thực tiễn khơng cao (ii) Số lượng và vị trí các điểm sự kiện khơng ổn định. Nói cách khác,

chúng nhạy cảm với những thay đổi của các tham số được phân tích.

2.1.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD

Để giải quyết vấn đề chi phí tính tốn lớn của phương pháp phân rã tiếng nói theo thời gian của Atal, nhiều phương pháp đã được đề xuất [15-16].

i i ik k

Trong đó, được sử dụng nhiều nhất là phương pháp phân rã giới hạn RTD (Restricted TD) [15].

Giả sử hiện tượng đồng cấu âm (co-articulation) trong q trình tạo tiếng nói được mơ tả bằng các hàm sự kiện chồng lấp được giới hạn trong các sự kiện liền kề, mơ hình phân rã bậc hai được sử dụng khi chỉ có hai hàm sự kiện liền kề có thể chồng lấn như mơ tả trong hình vẽ 2.1 và cơng thức 2.14.

Hình 2.1. Ví dụ về hai hàm sự kiện liền kề yˆ(n) = akφk (n) + ak +1φk

+1(n), nk ≤ n ≤ nk

+1

(2.14)

Trong đó nk nk +1 là các vị trí tương ứng của các sự kiện k và k+1.

Phương pháp phân rã giới hạn RTD bổ sung một ràng buộc đối với các hàm sự kiện trong mơ hình TD bậc hai là tất cả các hàm sự kiện tại một thời điểm có tổng bằng 1. Khi đó, cơng thức 2.14 được viết lại như sau:

yˆ(n) = akφk (n) + ak +1(1−φk (n)), nk Quá trình xác định hàm sự kiện: ≤ n ≤ nk +1 (2.15)

Giả sử các vị trí nk nk +1 của hai sự kiện liên tiếp đã biết. Khi đó, nửa

bên phải của hàm sự kiện thứ k và nửa bên trái của hàm sự kiện thứ k+1 có thể đánh giá bằng cách sử dụng

ak = y(nk )

ak +1 = y(nk +1) . Lỗi tái tạo E(n) với

vector phổ thứ n sẽ được tính trong cơng thức 2.16

Một phần của tài liệu (Luận văn thạc sĩ file word) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian (Trang 25)

Tải bản đầy đủ (DOCX)

(70 trang)
w