Nhận xét chung về kết quả

5. Ý nghĩa khoa học và thực tiễn

3.6. Nhận xét chung về kết quả

So với kết quả nghiên cứu đã công bố kết quả thử nghiệm trong luận văn này khá tương đồng. Điều đó một lần nữa khẳng định các phương pháp khôi phục tiếng nói có nhiễu bằng mô hình khôi phục LP-GMM là phương pháp tốt hơn so với các mô hình kinh điển trước đó. Và với phương pháp sử dụng mô hình LP-GMM này là phương pháp hiệu quả cần quan tâm nghiên cứu và thử nghiệm tiếp.

KẾT LUẬN

Luận văn đã nghiên cứu tổng quan về phương pháp nâng cao chất lượng tiếng nói có nhiễu sử dụng mô hình pha trộn GMM và phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển sử dụng kỹ thuật trừ phổ (Spectral subtraction). Luận văn cũng tiến hành đánh giá thực nghiệm các phương pháp trên bộ cơ sở dữ liệu tiếng Việt DEMEN567 và NOISEX-92.

Kết quả đánh giá thực nghiệm đã cho thấy Phương pháp nâng cao chất lượng tiếng nói có nhiêu sử dụng mô hình pha trộn GMM là tối ưu hơn cả. Phương pháp này đã đưa ra được tiếng nói không bị méo cũng như không bị mất mát thông tin, đạt được tính dễ nghe và dễ hiểu. Đặc biệt hơn nữa là phương pháp này có thể khắc phục những hạn chế mà những phương pháp truyền thống không làm được đó là áp dụng được cho môi trường nhiễu phức hợp.

Hướng nghiên cứu phát triển tiếp theo của luận văn: - Cải tiến mô hình GMM

- Xây dựng CSDL, thử nghiệm với bộ CSDL lớn hơn

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt

[1] Hoàng Phê (2003), Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15.

[2] Đoàn Thiện Thuật (2003), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia.

Tài liệu tiếng anh

[3]. K. Nakamura, T. Toda, H. Saruwatari, K. Shikano. “Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech”, Speech Communication, Vol. 54, No. 1, pp. 134-146 (2012). [4]. T. Hirahara, M. Otani, S. Shimizu, T. Toda, K. Nakamura, Y. Nakajima,

K. Shikano. “Silent-speech enhancement using body-conducted vocal- tract resonance signals” Speech Communication, Vol. 52, No. 4, pp. 301- 313, (2010).

[5]. V.-A. Tran, G. Bailly, H. Loevenbruck, T. Toda, “Improvement to a NAM-captured whisper-to-speech system”, Speech Communication, Vol. 52, No.4, pp. 314-326, (2010).

[6]. Trung Nghia Phung, Masashi Unoki and Masato Akagi, “Improving Bone-Conducted Speech Restoration in noisy environment based on LP scheme”, Proc. APSIPA 2010, (2010).

[7]. D. Huy-Khoi, P. Trung-Nghia, HC. Nguyen, VT. Nguyen, and QV. Thai, “A novel spectral conversion based approach for noisy speech enhancement”, International Journal of Information and Electronics Engineering, vol. 1, no. 3, 281-285, (2011).

[8]. A. Mouchtaris, J. V. Spiegel, P. Mueller, and Panagiotis Tsakalides, “A Spectral Conversion Approach to Single-Channel Speech Enhancement,”

“IEEE Trans On Audio, Speech, And Language Processing”, vol.15, no.4, May 2007

[9]. Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the Development of the INTEL Technique for Improving Speech Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific Corporation.

[10]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time Processing

of Speech Signals, New York : IEEE Press.

[11]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging,

IEEE Trans. Speech Audio Process., 9(8), 799-807.

[12]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 100.

[13].Hu, Y. and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal Process, I.

[14]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 2-7.

[15]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153- 170.

[16] T.T. Vu. K. Kimura, M.Unoki, and M. Akagi, “A study on Restoration of Bone – conducted Speech with MTF – based and LP – based Models ”, “journal of Signal Processing”, vol.10, no. 6, pp. 407 – 417, 2006.

[17] T. N. Phung, M. Unoki, and M. Akagi, “Comparative Evaluation of Bone – conducted – speech Restoration based on Linear Prediction Scheme”,

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

“IEICE Technical Report”, vol. 110, no. 71, pp. 53-58, June, 2010.

[18] H. K. DO and Q. V. THAI, “A new approach for speech denoising using spectral conversion”, “Proc. ICSPS 2011”, August, Yantai, China.

[19] A. Kain and M. W. Macon, “Spectral Voice Conversion For Text – To – Speech Synthesis”, “proc. ICASSP 1998”, vol. 1, pp. 285-288, 1998. [20] H.Hermansky., Perceptual linear predictive (PLP) analysis for speech. “J.

Acoust, Soc. Am”, pp. 1738-1752, 1990.

[21] J.S. Lim and A. V. Oppenheim, “Enhancement and band width compression of noisy speech”, “Proc. Of the IEEE”, Vol. 67, No. 12, 1586-1604, Dec. 1979.

[23] Lê Hồng Minh (2003), “Some results in Research and Development of Text To Speech conversion system for Vietnamese language based on formant synthesis," Hội thảo ICT.RDA.

[24] Phung, Trung-Nghia (2013), et al. "Improving Naturalness of HMM- Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11: 2417-2426.

[25] L.C. Mai and D.N. Duc (2006), “Design of Vietnamese speech corpus and current status," Proc. ISCSLP-06, pp. 748-758.

[26] V.B. Le, D.D. Tran, L. Besacier, E. Castelli, and J.F. Serignat (2005), “First steps in building a large vocabulary continuous speech recognition system for Vietnamese," Proc. RIVF05, pp. 330-333, pp. 21-24.

[27] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-to- speech System," Tạp chí CNTT & TT.

[28] Sündermann, David (2007). “Voice conversion Matlab toolbox”.

Technical Report, Siemens Corporate Technology, Munich, Germany.

[29]. S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. on Acoustics, Speech and Signal Proc, vol. 27 issue. 2, 113 – 120, (1979).

[30]. N. Bi and Y. Qi, “Application of speech conversion to alaryngeal speech enhancement”, IEEE Trans. on Speech and Audio Proc (1997).

Mô hình hóa tiếng nói

Thuật toántrừ phổđối với phổ biên độ