Tiêu chí và kết quả đánh giá chủ quan

6. Ý nghĩa khoa học của luận văn:

3.6.2.Tiêu chí và kết quả đánh giá chủ quan

Trong các phương pháp đánh giá chủ quan, phương pháp được áp dụng rộng rãi trong các hệ thống chuyển đổi giọng nói có cảm xúc nguồn và đích xác định là phương pháp ABX [8]. Trong đó A là người nói nguồn, B là người nói đích, X là giọng nói chuyển đổi từ A thành B. Người nghe sẽ được nghe thử giọng nói A và B trước. Sau đó khi đánh giá sẽ nghe các mẫu chuyển đổi và đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ 1 đến 5. Điểm là 1 tức là giọng chuyển đổi rất giống giọng nguồn A, điểm là 5 tức là giọng chuyển đổi rất giống giọng đích B. Phương pháp đánh giá này được áp dụng để đánh giá các phương pháp chuyển đổi giọng với người nói nguồn và đích xác định.

Trong trường hợp người nói đích không xác định, phương pháp ABX cũng được áp dụng nhưng có sự thay đổi, theo đó điểm 1 là rất giống giọng nguồn và điểm 5 không có nghĩa là giống giọng đích mà là “rất khác” giọng nguồn.

Trong luận văn này, phương pháp đánh giá chủ quan được thực hiện với 05 người đánh giá người Việt là các sinh viên độ tuổi 18 đến 20 tại trường Đại học Công nghệ thông tin và truyền thông, Đại học Thái Nguyên, có khả năng nghe bình thường. Điểm MOS đánh giá là điểm ABX trung bình của tất cả các mẫu đánh giá.

Kết quả đánh giá ABX được cho trong bảng 3.6. Kết quả này chỉ ra rằng tiếng nói cảm xúc được chuyển đổi bằng kỹ thuật HTD tốt hơn TD- GMM.

Bảng3.4: Khoảng cách MCD trung bình của 4 mẫu

M C G iữ a ti ế 7 G iữ a ti 6

Bảng3.5: Độ sai lệch F0 trung bình của 4 mẫu

R M G iữ a ti 4 5 G iữ a ti 3 8

Bảng 3.6:Kết quả đánh giá chủ quan ABX trung bình của 4 mẫu giữa các phương pháp TD-GMM (1); HTD (2)

( 1 (2 1 . 2.

Kết quả đánh giá chủ quan cho thấy tiếng nói được chuyển đổi từ cảm xúc bình thường thành “nóng giận” sử dụng kỹ thuật HTD gần hơn với tiếng nói có cảm xúc nóng giận tự nhiên.

KẾT LUẬN

Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tự nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về cảm xúc nói. Luận văn đã nghiên cứu và trình bày về các vấn đề: tổng quan về thông tin cảm xúc nói trong tiếng nói, biến đổi thông tin cảm xúc nói trong tiếng nói, một số phương pháp biến đổi thông tin cảm xúc nói trong tiếng nói bao gồm phương pháp biến đổi bằng học máy TD-GMM, phương pháp kết hợp HTD. Luận văn cũng nghiên cứu cài đặt và đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu tiếng Việt đa cảm xúc.

Các kết quả đánh giá thực nghiệm trong luận văn cho thấy phương pháp HTD có hiệu quả rõ rệt so với TD-GMM.

Do điều kiện thực tế không có các bộ cơ sở dữ liệu đa cảm xúc nói cùng kịch bản nói lớn, các kết quả đánh giá thực nghiệm trong nghiên cứu này mới chỉ dừng lại với bộ cơ sở dữ liệu nhỏ chưa đủ bao phủ tập các âm vị tiếng Việt. Khi có các bộ cơ sở dữ liệu lớn hơn để thực nghiệm, chúng tôi sẽ đánh giá với tập dữ liệu đánh giá lớn hơn, chia cặp dữ liệu huấn luyện/đánh giá theo từng mức dựa trên phân tích chi tiết về mật độ âm vị giữa các mức để đảm bảo kết quả đánh giá thực nghiệm được tin cậy và khách quan hơn.

TÀI LIỆU THAM KHẢO

[1] Jurafsky, Daniel, and H. James. "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000).

[2] Akagi, Masato. "Analysis of Production and Perception Characteristics of Non- linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC 2009.

[3] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach. "Voice transformation using PSOLA technique." Speech Communication 11.2 (1992): 175-187.

[4] Turk, Oytun, and Levent M. Arslan. "Subband based voice conversion."International Conference on Spoken Language Processing. 2002.

[5] Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6 (2006): 349-353.

[6] Kain, Alexander, and Michael W. Macon. "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal Processing, 1998.Proceedings of the 1998 IEEE International Conference on.Vol.1.IEEE, 1998.

[7] Qian, Yao, Frank K. Soong, and Zhi-Jie Yan. "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2 (2013): 280-290.

[8] Nguyen, Binh Phu, and Masato Akagi. "Phoneme-based spectral voice conversion using temporal decomposition and Gaussian mixture model." Second IEEE International Conference on Communications and Electronics, ICCE 2008.

[9] Phung, Trung-Nghia, et al. "Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426.

[10 Phung, Trung-Nghia."Multiple emotional voice conversion in Vietnamese HMM-based speech synthesis using non-negative matrix factorization." INTERNATIONAL JOURNAL OF ADVANCED AND APPLIED SCIENCES 4.8 (2017): 1-5.

[11] Thi Duyen Ngo, The Duy Bui, (2009), When and how to smile: Emotional expression for 3D conversational agents. Agent Computing and Multi-Agent Systems, volume 5044 of Lecture Notes in Computer Science, chapter 31, pages 349-358. Springer Berlin/Heidelberg, Berlin, Heidelberg.

[12] Thi Duyen Ngo, The Duy Bui, (2012), A study on prosody of Vietnamese emotional speech. In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, pp. 151-155.

[13] Thi Duyen Ngo, Masato Akagi, The Duy Bui, (2014), Toward a Rule-Based Synthesis of Vietnamese Emotional Speech. In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp. 129-142, Springer International Publishing.

[14] Atal, B. (1983, April). Efficient coding of LPC parameters by temporal decomposition. In ICASSP'83. IEEE International Conference on Acoustics, Speech, and Signal Processing (Vol. 8, pp. 81-84). IEEE.

[15] Kim, S. J., & Oh, Y. H. (1999). Efficient quantisation method for LSF parameters based on restricted temporal decomposition. Electronics Letters, 35(12), 962-964. [16] Nguyen, P. C., Ochi, T., & Akagi, M. (2003). Modified restricted temporal (adsbygoogle = window.adsbygoogle || []).push({});

decomposition and its application to low rate speech coding. IEICE TRANSACTIONS on Information and Systems, 86(3), 397-405.

Tiêu chí và kết quả đánh giá chủ quan

6. Ý nghĩa khoa học của luận văn:

3.6.2.Tiêu chí và kết quả đánh giá chủ quan

Mục lục