6. Ý nghĩa khoa học của luận văn:
3.6.1. Tiêu chí và kết quả đánh giá khách quan
Chúng tôi sử dụng khoảng cách phổ Mel (Mel-cepstral distortion – MCD) làm tiêu chí đánh giá khách quan đặc trưng phổ. MCD được tính như sau.
24 2 1 10 2 ( ˆ ) ln10 t t d d d MCD mfcc mfcc (3.1) Trong đó t d mfcc , ˆ t d
mfcc là hệ số thứd-thcủa đặc trưng phổ nguồn và phổ đích tương ứng.
MCD được tính giữa khung tiếng nói cảm xúc nguồn và khung tiếng nói được chuyển đổi tương ứng.Các khung tiếng nói được căn lề dùng thuật toán thời gian động giữa cặp câu nói nguồn và đích song song. MCD thấp hơn chỉ ra rằng phương pháp biến đổi tốt hơn.Kết quả đánh giá được cho trong bảng 1.Kết quả đánh giá cho thấy sử dụng kỹ thuật NMF cho kết quả tốt hơn 2 phương pháp HTD và TD-GMM.
Lỗi trung bình phương RMSE của F0 được sử dụng làm độ đo đặc trưng F0.
' 2 1 1 ( 0 0 ) n i i i RMSE f f n (3.2) Trong đó f0, ' 0
f là các giá trị F0 nguồn và đích thứ i-th.
RMSE của F0 được tính toán giữa tiếng nói cảm xúc đích và tiếng nói cảm xúc bình thường được biến đổi thành cảm xúc đích. RMSE nhỏ hơn chỉ ra rằng phương pháp biến đổi tốt hơn. Kết quả đánh giá được cho trong bảng 2 cho thấy phương pháp NMF tốt hơn 2 phương pháp HTD và TD-GMM.
3.6.2. Tiêu chí và kết quả đánh giá khách quan
Trong các phương pháp đánh giá chủ quan, phương pháp được áp dụng rộng rãi trong các hệ thống chuyển đổi giọng nói có cảm xúc nguồn và đích xác định là phương pháp ABX [8]. Trong đó A là người nói nguồn, B là người nói đích, X là giọng nói chuyển đổi từ A thành B. Người nghe sẽ được nghe thử giọng nói A và B trước. Sau đó khi đánh giá sẽ nghe các mẫu chuyển đổi và đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ 1 đến 5. Điểm là 1 tức là giọng chuyển đổi rất giống giọng nguồn A, điểm là 5 tức là giọng chuyển đổi rất giống giọng đích B. Phương pháp đánh giá này được áp dụng để đánh giá các phương pháp chuyển đổi giọng với người nói nguồn và đích xác định.
Trong trường hợp người nói đích không xác định, phương pháp ABX cũng được áp dụng nhưng có sự thay đổi, theo đó điểm 1 là rất giống giọng nguồn và điểm 5 không có nghĩa là giống giọng đích mà là “rất khác” giọng nguồn.
Trong luận văn này, phương pháp đánh giá chủ quan được thực hiện với 05 người đánh giá người Việt là các sinh viên độ tuổi 18 đến 20 tại trường Đại học Công nghệ thông tin và truyền thông, Đại học Thái Nguyên, có khả năng nghe bình thường. Điểm MOS đánh giá là điểm ABX trung bình của tất cả các mẫu đánh giá.
Kết quả đánh giá ABX được cho trong bảng 3.Kết quả này chỉ ra rằng tiếng nói cảm xúc được chuyển đổi bằng kỹ thuật NMF tốt hơn phương pháp HTD và TD-GMM.
Bảng3.3: Khoảng cách MCD
MCD (dB) Giữa tiếng nói “giận dữ” đích và tiếng nói chuyển
từ bình thường sang giận dữ dùng kỹ thuật TD- GMM
7.24
Giữa tiếng nói “giận dữ” đích và tiếng nói chuyển
từ bình thường sang giận dữ dùng kỹ thuật HTD 6.58
Giữa tiếng nói “giận dữ” đích và tiếng nói chuyển
từ bình thường sang giận dữ dùng kỹ thuật NMF 5.85
Bảng3.4: Độ sai lệch F0
RMSE(F0) Giữa tiếng nói “giận dữ” đích và tiếng nói chuyển từ
bình thường sang giận dữ dùng kỹ thuật TD-GMM 45.3
Giữa tiếng nói “giận dữ” đích và tiếng nói chuyển từ
bình thường sang giận dữ dùng kỹ thuật HTD 38.6
Giữa tiếng nói “giận dữ” đích và tiếng nói chuyển từ
bình thường sang giận dữ dùng kỹ thuật NMF 35.9
Bảng 3.5:Kết quả đánh giá chủ quan ABX giữa các phương pháp TD-GMM (1); HTD (2); và NMF (3)
ABX scores
1.9 2.2 3.2
Kết quả đánh giá chủ quan cho thấy tiếng nói được chuyển đổi từ cảm xúc bình thường thành “nóng giận” sử dụng kỹ thuật NMF gần nhất với tiếng nói có cảm xúc nóng giận tự nhiên.
KẾT LUẬN
Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tự nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về cảm xúc nói.Luận văn đã nghiên cứu và trình bày về các vấn đề: tổng quan về thông tin cảm xúc nói trong tiếng nói, biến đổi thông tin cảm xúc nói trong tiếng nói, một số phương pháp biến đổi thông tin cảm xúc nói trong tiếng nói bao gồm phương pháp biến đổi bằng học máy TD-GMM, phương pháp kết hợp HTD, phương pháp dùng kỹ thuật phân rã ma trận không âm NMF. Luận văn cũng nghiên cứu cài đặt và đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu tiếng Việt đa cảm xúc.
Các kết quả đánh giá thực nghiệm trong luận văn cho thấy phương pháp NMF có hiệu quả rõ rệt so với hai phương pháp TD-GMM và HTD.
Do điều kiện thực tế không có các bộ cơ sở dữ liệu đa cảm xúc nói cùng kịch bản nói lớn, các kết quả đánh giá thực nghiệm trong nghiên cứu này mới chỉ dừng lại với bộ cơ sở dữ liệu nhỏ chưa đủ bao phủ tập các âm vị tiếng Việt. Khi có các bộ cơ sở dữ liệu lớn hơn để thực nghiệm, chúng tôi sẽ đánh giá với tập dữ liệu đánh giá lớn hơn, chia cặp dữ liệu huấn luyện / đánh giá theo từng mức dựa trên phân tích chi tiết về mật độ âm vị giữa các mức để đảm bảo kết quả đánh giá thực nghiệm được tin cậy và khách quan hơn.
TÀI LIỆU THAM KHẢO
[1] Jurafsky, Daniel, and H. James. "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000).
[2] Akagi, Masato. "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language
Communications." Proceedings: APSIPA ASC 2009.
[3] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach. "Voice transformation using PSOLA technique." Speech Communication 11.2 (1992): 175-187.
[4] Turk, Oytun, and Levent M. Arslan. "Subband based voice conversion."International Conference on Spoken Language Processing. 2002. [5] Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of
VOCODER: Perceptually isomorphic decomposition of speech
sounds." Acoustical science and technology 27.6 (2006): 349-353.
[6] Kain, Alexander, and Michael W. Macon. "Spectral voice conversion for
text-to-speech synthesis." Acoustics, Speech and Signal Processing,
1998.Proceedings of the 1998 IEEE International Conference on.Vol. 1.IEEE, 1998.
[7] Qian, Yao, Frank K. Soong, and Zhi-Jie Yan. "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2 (2013): 280-290.
[8] Nguyen, Binh Phu, and Masato Akagi. "Phoneme-based spectral voice
conversion using temporal decomposition and Gaussian mixture
model." Second IEEE International Conference on Communications and Electronics, ICCE 2008.
[9] Phung, Trung-Nghia, et al. "Improving Naturalness of HMM-Based TTS
Trained with Limited Data by Temporal Decomposition." IEICE
TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426. [10 Phung, Trung-Nghia."Multiple emotional voice conversion in Vietnamese
HMM-based speech synthesis using non-negative matrix
factorization." INTERNATIONAL JOURNAL OF ADVANCED AND APPLIED SCIENCES 4.8 (2017): 1-5.
[11] Thi Duyen Ngo, The Duy Bui, (2009), When and how to smile: Emotional expression for 3D conversational agents. Agent Computing and Multi-Agent Systems, volume 5044 of Lecture Notes in Computer Science, chapter 31, pages 349-358. Springer Berlin/Heidelberg, Berlin, Heidelberg.
[12] Thi Duyen Ngo, The Duy Bui, (2012), A study on prosody of Vietnamese emotional speech. In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, pp. 151-155.
[13] Thi Duyen Ngo, Masato Akagi, The Duy Bui, (2014), Toward a Rule- Based Synthesis of Vietnamese Emotional Speech. In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp. 129-142, Springer International Publishing.
[14]. Aihara, Ryo, et al. "GMM-based emotional voice conversion using spectrum and prosody features." American Journal of Signal
Processing 2.5 (2012): 134-138.
[15]. Türk, Oytun, and Marc Schröder. "A comparison of voice conversion methods for transforming voice quality in emotional speech synthesis." Ninth Annual Conference of the International Speech