5. Ý nghĩa khoa học và thực tiễn
3.6.4. Nhận xét chung về kết quả đánh giá
Kết quả đánh giá trong bảng 3.4 và 3.5 cho thấy phương pháp thay thế khung có hiệu quả rõ rệt trong khi phương pháp GMM có tác dụng chuyển đổi giọng nói nhưng có hiệu quả vừa phải. Tất nhiên phải lưu ý rằng phương pháp thay thế khung có nhược điểm đòi hỏi cơ sở dữ liệu tìm kiếm phải đủ lớn còn phương pháp GMM không yêu cầu dữ liệu huấn luyện lớn như đã phân tích trong các phần 2.2 và 2.3.
Riêng phương pháp thay đổi tham số trực tiếp có thể biến đổi thông tin người nói với hiệu quả từ thấp đến cao tùy thuộc vào mức độ biến đổi các tham số. Tuy nhiên phương pháp này khó biến đổi giọng thành một giọng đích xác định do quá trình xác định các tham số của giọng đích là rất khó
khăn (các tham số này còn phụ thuộc vào bản thân nội dung văn bản được nói).
Luận văn đã nghiên cứu và trình bày về các vấn đề: tổng quan về thông tin người nói trong tiếng nói, biến đổi thông tin người nói trong tiếng nói, một số phương pháp biến đổi thông tin người nói trong tiếng nói bao gồm phương pháp biến đổi trực tiếp tham số, phương pháp thay thế khung, phương pháp biến đổi bằng học máy. Luận văn cũng nghiên cứu cài đặt và đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu tiếng Việt DEMEN567.
Các kết quả đánh giá thực nghiệm trong luận văn cho thấy phương pháp thay thế khung có hiệu quả rõ rệt trong khi phương pháp GMM có tác dụng chuyển đổi giọng nói nhưng có hiệu quả vừa phải với tập dữ liệu được chọn để đánh giá. Do vậy, dựa trên các kết quả nghiên cứu của luận văn có thể kết luận phương pháp thay thế khung tốt hơn phương pháp huấn luyện thống kê GMM khi yêu cầu có người nói đích cụ thể.
Tài liệu tiếng việt
[1] Hoàng Đình Chiến (2006), “Nhận dạng tiếng việt dùng mạng Neural kết hợp trích đặc trưng dùng LPC và AMDF”, tạp chí bưu chính viễn thông (chuyên san),Số 16, trang 109-113.
[2] Hoàng Phê (2003), Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15. [3] Đoàn Thiện Thuật (2003), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia.
Tài liệu tiếng anh
[4] Akagi, Masato (2009), "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC.
[5] H. Mixdor, D.T. Nguyen and T.W. Nghia (2005), “Duration Modeling in a Vietnamese Text-to-Speech System," Proc. SPECOM.
[6] Jurafsky, Daniel, and H. James (2000), "Speech and language processing an introduction to natural language processing, computational linguistics, and speech".
[7] Kain, Alexander, and Michael W. Macon (1998) "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal
Processing, 1998. Proceedings of the 1998 IEEE International Conference on. Vol. 1. IEEE.
[8] Kain, Alexander, and Michael W. Macon (1998), "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal
Processing, 1998. Proceedings of the 1998 IEEE International Conference on. Vol. 1. IEEE.
[9] Kawahara, Hideki (2006), "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6: 349-353.
[10] Kawahara, Hideki, Jo Estill, and Osamu Fujimura (2001), "Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system STRAIGHT."MAVEBA.
[11] V.B. Le, D.D. Tran, L. Besacier, E. Castelli, and J.F. Serignat (2005), “First steps in building a large vocabulary continuous speech recognition system for Vietnamese," Proc. RIVF05, pp. 330-333, pp. 21-24.
[12] L.C. Mai and D.N. Duc (2006), “Design of Vietnamese speech corpus and current status," Proc. ISCSLP-06, pp. 748-758.
[13] Moulines, Eric, and Francis Charpentier (1990), "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones." Speech communication 9.5: 453-467.
[14] Lê Hồng Minh (2003), “Some results in Research and Development of Text To Speech conversion system for Vietnamese language based on formant synthesis," Hội thảo ICT.RDA.
[15] Phung, Trung-Nghia (2013), et al. "Improving Naturalness of HMM- Based TTS Trained with Limited Data by Temporal Decomposition." IEICE
TRANSACTIONS on Information and Systems 96.11: 2417-2426.
[16] Nghia, Phung Trung, et al (2007), "A robust wavelet-based text- independent speaker identification." Conference on Computational Intelligence and Multimedia Applications, 2007. International Conference on.
Vol. 2. IEEE.
[17] Qian, Yao, Frank K. Soong, and Zhi-Jie Yan (2013), "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech,
[18] Qian, Yao, Frank K. Soong, and Zhi-Jie Yan (2013), "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech,
and Language Processing, IEEE Transactions on 21.2: 280-290.
[19] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-to- speech System," Tạp chí CNTT & TT.
[20] Sündermann, David (2007). “Voice conversion Matlab toolbox”.
Technical Report, Siemens Corporate Technology, Munich, Germany.
[21] Tokuda, Keiichi, et al (1998), "A very low bit rate speech coder using HMM-based speech recognition/synthesis techniques." Acoustics, Speech and
Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on. Vol. 2. IEEE.
[22] Turk, Oytun, and Levent M. Arslan (2002), "Subband based voice conversion."International Conference on Spoken Language Processing.
[23] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach (1992), "Voice transformation using PSOLA technique." Speech Communication 11.2: 175- 187.
[24] TT. Vu, MC. Luong and S. Nakamura (2009), “An HMM-based Vietnamese speech synthesis system, Speech Database and Assessments”,
Proc. COCOSDA-2009, pp. 116-121.
Tài liệu Online
[25] International Research Center MICA, Hoa Sung, [Online],
[26] Sao Mai Computer Center for the Blind SMCC, Sao Mai Voice, [Online], http://www.saomaicenter.org/