Các tham số thực nghiệm

Tần số lấy mẫu DEMEN và VOV-HMM được lấy mẫu lại

11025 Hz

Độ dịch khung 1 ms

Số chiều LSF 20

Số thành phần GMM 20

Số điểm sự kiện / âm vị 3

3.6. Đánh giá các phương pháp

3.6.1. Tiêu chí và kết quả đánh giá khách quan

Giả sử tiếng nói nguồn nguyên bản x cần được chuyển đổi để giống với tiếng nói đích ngun bản y, tiếng nói được chuyển đổi là x’, x’ càng giống y thể hiện phương pháp chuyển đổi càng chính xác. Để đo khoảng cách sai khác giữa x’ và y, chúng tôi sử dụng các độ đo khoảng cách phổ Mel (Mel-cepstral distortion – MCD) và lỗi trung bình bình phương (RMSE) của F0.

MCD được tính như sau.

24 2 1 10 2 ( ˆ ) ln10 t t d d d MCD mfcc mfcc     (3.1) Trong đó t d mfcc , ˆ t d

mfcc là hệ số thứ d-th của đặc trưng phổ đích nguyên bản y và phổ chuyển đổi từ x’ tương ứng.

MCD được tính giữa khung tiếng nói cảm xúc đích ngun bản và khung tiếng nói được chuyển đổi tương ứng với các phương pháp chuyển đổi khác nhau. Các khung tiếng nói được căn lề dùng thuật tốn thời gian động giữa cặp câu nói nguồn và đích song song. MCD nhỏ hơn chỉ ra rằng phương pháp biến đổi tốt hơn. Kết quả đánh giá được cho trong bảng 3.3. Kết quả đánh giá cho thấy sử dụng kỹ thuật HTD cho kết quả tốt hơn TD-GMM.

Lỗi trung bình phương RMSE của F0 được sử dụng làm độ đo đặc trưng F0. ' 2 1 1 ( 0 0 ) n i i i RMSE f f n     (3.2)

Trong đó f0, ' 0

f là các giá trị F0 đích nguyên bản y và chuyển đổi x’ thứ

i-th.

RMSE của F0 được tính tốn giữa tiếng nói cảm xúc đích ngun bản y và tiếng nói cảm xúc bình thường được biến đổi thành cảm xúc đích x’. RMSE nhỏ hơn chỉ ra rằng phương pháp biến đổi tốt hơn. Kết quả đánh giá được cho trong bảng 3.4 cho thấy phương pháp HTD tốt hơn TD-GMM.

3.6.2. Tiêu chí và kết quả đánh giá chủ quan

Trong các phương pháp đánh giá chủ quan, phương pháp được áp dụng rộng rãi trong các hệ thống chuyển đổi giọng nói có cảm xúc nguồn và đích xác định là phương pháp ABX [8]. Trong đó A là người nói nguồn, B là người nói đích, X là giọng nói chuyển đổi từ A thành B. Người nghe sẽ được nghe thử giọng nói A và B trước. Sau đó khi đánh giá sẽ nghe các mẫu chuyển đổi và đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ 1 đến 5. Điểm là 1 tức là giọng chuyển đổi rất giống giọng nguồn A, điểm là 5 tức là giọng chuyển đổi rất giống giọng đích B. Phương pháp đánh giá này được áp dụng để đánh giá các phương pháp chuyển đổi giọng với người nói nguồn và đích xác định.

Trong trường hợp người nói đích khơng xác định, phương pháp ABX cũng được áp dụng nhưng có sự thay đổi, theo đó điểm 1 là rất giống giọng nguồn và điểm 5 khơng có nghĩa là giống giọng đích mà là “rất khác” giọng nguồn.

Trong luận văn này, phương pháp đánh giá chủ quan được thực hiện với 05 người đánh giá người Việt là các sinh viên độ tuổi 18 đến 20 tại trường Đại học Công nghệ thông tin và truyền thông, Đại học Thái Ngun, có khả năng nghe bình thường. Điểm MOS đánh giá là điểm ABX trung bình của tất cả các mẫu đánh giá.

Kết quả đánh giá ABX được cho trong bảng 3.6. Kết quả này chỉ ra rằng tiếng nói cảm xúc được chuyển đổi bằng kỹ thuật HTD tốt hơn TD-GMM.

Biến đổi cảm xúc người nói bằng TD-GMM

Biến đổi cảm xúc người nói bằng HTD [10]