5. Ý nghĩa khoa học và thực tiễn
3.4. Cài đặt các phương pháp
3.4.1. Phương pháp trừ phổ
Lưu đồ phương pháp trừ phổ được thể hiện trong hình 3.2.
Hình
Hình 3.2: Lưu đồ thuật toán Spectral subtraction (trừ phổ)
Khi cài đặt, chúng tôi tham khảo và sử dụng thư viện mã nguồn mở của Esfandiar Zavarehei xây dựng năm 2005 cài đặt phương pháp trừ phổ kinh điển của Boll đề xuất năm 1979.
Y(w) (w)
Ước lượng, cập nhật nhiễu
Tín hiệu sau khi tăng cường FFT Pha của tín hiệu IFFT Tín hiệu bị nhiễu | . |p - 1/ | . | p ˆ |D(w) |p +
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3.4.2. Phương pháp biến đổi sử dụng học máy thống kê GMM
Cơ sở toán học của phương pháp đã được trình bày trong phần 2. Để cài đặt phương pháp này chúng tôi sử dụng thư viện STRAIGHT để phân tích tham số, thư viện Voice Conversion Toolbox cho các hàm thống kê GMM và thực hiện trên MATLAB [28].
Lưu đồ thuật toán của quá trình huấn luyện mô hình GMM cho tham số phổ tương ứng của cặp tiếng nói có nhiễu – tiếng nói sạch (A-B) được trình bày trong hình 3.3. Lưu đồ thuật toán của quá trình chuyển đổi tham số phổ tiếng nói có nhiễu A thành tham số tương ứng với tiếng nói sạch B được cho trong hình 3.4.
Hình 3.3: Huấn luyện mô hình GMM cho tham số phổ LSF
Tiếng nói nhiễu A Tiếng nói sạch B
STRAIGHT Rút gọn đường bao phổ Đường bao phổ Rút gọn đường bao phổ LSF A LSF B Huấn luyện GMM
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 3.4: Chuyển đổi mô hình GMM cho tham số phổ LSF
3.5. Đánh giá kết quả thực nghiệm
Tiếng nói sạch B STRAIGHT Rút gọn đường bao phổ Đường bao phổ LSF A GMM A-B Chuyển đổi phổ STRAIGHT
Tiếng nói nhiễu A
Trong phần này luận văn sẽ đánh giá tính khả thi của các mô hình nâng cao chất lượng tiếng nói có nhiễu. Mục đích chính của việc đánh giá là để kiểm tra xem liệu mô hình nghiên cứu có thể nâng cao chất lượng âm thanh tốt hơn và từ đó xác định mô hình hữu ích để áp dụng cho các hệ thống thính giác của con người và các hệ thống nhận dạng tự động ASR. Ở đây tác giả sử dụng các phương pháp đánh giá chủ quan MOS (người nghe đánh giá) và phương pháp đánh giá khách quan (máy đánh giá theo công thức) như LCD để đánh giá sự cải thiện của việc nâng cao chất lượng tiếng nói có nhiễu khi sử dụng các phương pháp Spectral subtraction (Trừ phổ) và phương pháp LP- GMM. Mỗi phương pháp có những ưu nhược điểm riêng.
Trong luận văn này tác giả lựa chọn bộ cơ sở dữ liệu tiếng Việt DEMEN567 và NOISEX-92 để thực hiện đánh giá kết quả.
3.5.1. Tiêu chí đánh giá chủ quan
Đánh giá chủ quan là tiêu chí sử dụng người nghe để đánh giá chất lượng tiếng nói. Việc đánh giá chủ quan được xem là quan trọng hơn do mục tiêu cuối cùng của tiếng nói sau khi được nâng cao chất lượng phải đảm bảo người nghe hiểu được và chấp nhận được. Tuy nhiên để đánh giá chủ quan thì tốn kém, mất thời gian vì cần thiết bị nghe và phòng nghe chuyên dụng để tránh nhiễu môi trường. Ngoài ra các phương pháp đánh giá chủ quan khó đảm bảo sự tin cậy do người nghe có thể mất tập trung, không chú tâm vào việc đánh giá hoặc cố tình cho điểm sai. Để khắc phục các yếu điểm đó thì cần tăng số lượng người nghe, số lượng phép test để đảm bảo các giá trị thống kê có sự ổn định và tin cậy.
Trong luận văn này chúng tôi sử dụng độ đo MOS - sử dụng để đo lường chất lượng tiếng nói sau khi khôi phục bằng việc đánh giá chấm điểm theo 5
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
mức cảm nhận của các đối tượng nghe. Các mức đánh giá được trình bày trong bảng 3.3.
Bảng 3.3: Mô tả mức điểm đánh giá
Mức đánh giá Chất lượng tiếng nói 5 4 3 2 1 Rất tốt Tốt Trung bình Kém
Không đạt yêu cầu
Phương pháp đánh giá chủ quan được thực hiện với 05 người là người Việt- là các sinh viên tại trường Đại học Công nghệ thông tin và truyền thông có độ tuổi từ 18 đến 20 và có khả năng nghe bình thường. Tất cả các tín hiệu tiếng nói của 567 câu tiếng Việt được lấy ngẫu nhiên từ bộ dữ liệu trong các bài kiểm tra đánh giá. Chúng tôi sử dụng 4 loại tín hiệu âm thanh: tín hiệu tiếng nói sạch, tín hiệu tiếng nói có nhiễu (nhiễu nhà máy) và 2 loại tín hiệu khôi phục sử dụng mô hình Spectral subtraction (trừ phổ) và LP-GMM. Mức điểm đánh giá MOS là điểm trung bình của tất cả các mẫu đánh giá.
3.5.2. Tiêu chí đánh giá khách quan
Nhằm khắc phục một phần các yếu điểm của việc đánh giá chủ quan, nhiều phương pháp đánh giá khách quan đã được xây dựng. Các phương pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu tiếng nói sạch và tín hiệu tiếng nói có nhiễu, tín hiệu tiếng nói sạch và tín hiệu sử dụng các phương pháp nâng cao chất lượng bằng LCD (khoảng cách LP). Những số đo mục tiêu đánh giá được tính toán theo công thức sau:
2 1 ( ( ) ( )) p x y i LCD i i (3.1)
Trong đó là các hệ số LP thứ i của tín hiệu với thứ tự LP được thiết lập P=20.
3.5.3. Kết quả đánh giá thực nghiệm
Luận văn đã sử dụng bộ cơ sở dữ liệu đánh giá DEMEN567 và bộ cơ sở dữ liệu NoiseEX 92. Ở đây nhiễu phức hợp sử dụng trong luận văn được nhân tạo bằng cách: Lấy tín hiệu nhiễu nhà máy SNR = -10 dB lấy trong bộ CSDL NoiseEX 92 cộng với tín hiệu tiếng nói sạch trong bộ CSDL DEMEN567. Trong luận văn đã sử dụng 66 trong tổng số 567 câu tiếng việt trong bộ CSDL DEMEN567 để đánh giá khách quan cũng như sử dụng 05 người là người Việt- là các sinh viên tại trường Đại học Công nghệ thong tin và truyền thông có độ tuổi từ 18 đến 20 và có khả năng nghe bình thường để đánh giá chủ quan (MOS).
Sau khi đo khoảng cách giữa các tín hiệu tiếng nói sạch với các tín hiệu: tiếng nói có nhiễu nhà máy và các tín hiệu tiếng nói khôi phục, chúng tôi đánh giá sự cải thiện của các tín hiệu khôi phục so với tín hiệu tiếng nói có nhiễu. Bảng 3.4 và 3.5 cho thấy những biến đổi trung bình của các phép đo khách quan và chủ quan. Kết quả cho thấy mô hình LP-GMM là mô hình tốt hơn cả cho tất cả các phép đo vì sự cải tiến gần như lớn nhất.
Bảng 3.4 : Kết quả đánh giá bằng phương pháp LCD
Phương pháp khôi phục LCD
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LP-GMM 0.1830
Nhiễu và Sạch 0.3838
Bảng 3.5 : Kết quả đánh giá bằng phương pháp MOS
Nhiễu Trừ phổ LP-GMM Sạch
MOS 1.19 1.28 3.83 4.21
3.6. Nhận xét chung về kết quả
So với kết quả nghiên cứu đã công bố kết quả thử nghiệm trong luận văn này khá tương đồng. Điều đó một lần nữa khẳng định các phương pháp khôi phục tiếng nói có nhiễu bằng mô hình khôi phục LP-GMM là phương pháp tốt hơn so với các mô hình kinh điển trước đó. Và với phương pháp sử dụng mô hình LP-GMM này là phương pháp hiệu quả cần quan tâm nghiên cứu và thử nghiệm tiếp.
KẾT LUẬN
Luận văn đã nghiên cứu tổng quan về phương pháp nâng cao chất lượng tiếng nói có nhiễu sử dụng mô hình pha trộn GMM và phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển sử dụng kỹ thuật trừ phổ (Spectral subtraction). Luận văn cũng tiến hành đánh giá thực nghiệm các phương pháp trên bộ cơ sở dữ liệu tiếng Việt DEMEN567 và NOISEX-92.
Kết quả đánh giá thực nghiệm đã cho thấy Phương pháp nâng cao chất lượng tiếng nói có nhiêu sử dụng mô hình pha trộn GMM là tối ưu hơn cả. Phương pháp này đã đưa ra được tiếng nói không bị méo cũng như không bị mất mát thông tin, đạt được tính dễ nghe và dễ hiểu. Đặc biệt hơn nữa là phương pháp này có thể khắc phục những hạn chế mà những phương pháp truyền thống không làm được đó là áp dụng được cho môi trường nhiễu phức hợp.
Hướng nghiên cứu phát triển tiếp theo của luận văn: - Cải tiến mô hình GMM
- Xây dựng CSDL, thử nghiệm với bộ CSDL lớn hơn
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt
[1] Hoàng Phê (2003), Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15.
[2] Đoàn Thiện Thuật (2003), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia.
Tài liệu tiếng anh
[3]. K. Nakamura, T. Toda, H. Saruwatari, K. Shikano. “Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech”, Speech Communication, Vol. 54, No. 1, pp. 134-146 (2012). [4]. T. Hirahara, M. Otani, S. Shimizu, T. Toda, K. Nakamura, Y. Nakajima,
K. Shikano. “Silent-speech enhancement using body-conducted vocal- tract resonance signals” Speech Communication, Vol. 52, No. 4, pp. 301- 313, (2010).
[5]. V.-A. Tran, G. Bailly, H. Loevenbruck, T. Toda, “Improvement to a NAM-captured whisper-to-speech system”, Speech Communication, Vol. 52, No.4, pp. 314-326, (2010).
[6]. Trung Nghia Phung, Masashi Unoki and Masato Akagi, “Improving Bone-Conducted Speech Restoration in noisy environment based on LP scheme”, Proc. APSIPA 2010, (2010).
[7]. D. Huy-Khoi, P. Trung-Nghia, HC. Nguyen, VT. Nguyen, and QV. Thai, “A novel spectral conversion based approach for noisy speech enhancement”, International Journal of Information and Electronics Engineering, vol. 1, no. 3, 281-285, (2011).
[8]. A. Mouchtaris, J. V. Spiegel, P. Mueller, and Panagiotis Tsakalides, “A Spectral Conversion Approach to Single-Channel Speech Enhancement,”
“IEEE Trans On Audio, Speech, And Language Processing”, vol.15, no.4, May 2007
[9]. Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the Development of the INTEL Technique for Improving Speech Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific Corporation.
[10]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time Processing
of Speech Signals, New York : IEEE Press.
[11]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging,
IEEE Trans. Speech Audio Process., 9(8), 799-807.
[12]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 100.
[13].Hu, Y. and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal Process, I.
[14]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 2-7.
[15]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153- 170.
[16] T.T. Vu. K. Kimura, M.Unoki, and M. Akagi, “A study on Restoration of Bone – conducted Speech with MTF – based and LP – based Models ”, “journal of Signal Processing”, vol.10, no. 6, pp. 407 – 417, 2006.
[17] T. N. Phung, M. Unoki, and M. Akagi, “Comparative Evaluation of Bone – conducted – speech Restoration based on Linear Prediction Scheme”,
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
“IEICE Technical Report”, vol. 110, no. 71, pp. 53-58, June, 2010.
[18] H. K. DO and Q. V. THAI, “A new approach for speech denoising using spectral conversion”, “Proc. ICSPS 2011”, August, Yantai, China.
[19] A. Kain and M. W. Macon, “Spectral Voice Conversion For Text – To – Speech Synthesis”, “proc. ICASSP 1998”, vol. 1, pp. 285-288, 1998. [20] H.Hermansky., Perceptual linear predictive (PLP) analysis for speech. “J.
Acoust, Soc. Am”, pp. 1738-1752, 1990.
[21] J.S. Lim and A. V. Oppenheim, “Enhancement and band width compression of noisy speech”, “Proc. Of the IEEE”, Vol. 67, No. 12, 1586-1604, Dec. 1979.
[22] L. Rabiner and B. H. Juang, “Fundamental of Speech Recognition”, Copyright 1993 by AT&T.
[23] Lê Hồng Minh (2003), “Some results in Research and Development of Text To Speech conversion system for Vietnamese language based on formant synthesis," Hội thảo ICT.RDA.
[24] Phung, Trung-Nghia (2013), et al. "Improving Naturalness of HMM- Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11: 2417-2426.
[25] L.C. Mai and D.N. Duc (2006), “Design of Vietnamese speech corpus and current status," Proc. ISCSLP-06, pp. 748-758.
[26] V.B. Le, D.D. Tran, L. Besacier, E. Castelli, and J.F. Serignat (2005), “First steps in building a large vocabulary continuous speech recognition system for Vietnamese," Proc. RIVF05, pp. 330-333, pp. 21-24.
[27] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-to- speech System," Tạp chí CNTT & TT.
[28] Sündermann, David (2007). “Voice conversion Matlab toolbox”.
Technical Report, Siemens Corporate Technology, Munich, Germany.
[29]. S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. on Acoustics, Speech and Signal Proc, vol. 27 issue. 2, 113 – 120, (1979).
[30]. N. Bi and Y. Qi, “Application of speech conversion to alaryngeal speech enhancement”, IEEE Trans. on Speech and Audio Proc (1997).