Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói x- 123docz.net

Nhận xét theo đồ thị đối với cả bốn phép đánh giá ta thấy đối với nhiễu người nói xung quanh thì SS có vẻ xử lý tốt hơn WF.

Nhưng đối với cả ba phương pháp đánh giá đầu tiên thì cả ba giá trị WSS, LLR, IS của các tín hiệu đã được xử lý so với tín hiệu sạch lại không tốt bằng giá trị của tín hiệu nhiễu chưa xử lý so với tín hiệu sạch (so sánh của tín hiệu đã xử lý có giá trị lớn hơn).

Riêng với phép đánh giá IS ta thấy thuật toán xử lý nhiễu có tác động tốt đối với nhiễu 0dB và 5dB. Bên cạnh đó variant còn lớn vì có một số file có giá trị so sánh lớn hơn giá trị của các file khác rất nhiều (điều này cũng xảy ra đối với car noise) được thể hiện trong bảng giá trị IS [matlab file]. Lý giải cho điều này là do một số tín hiệu bị nhiễu đột biến.

 Đánh giá SE

Khi thực hiện nghe đối với các file âm thanh bị nhiễu người nói xung quanh được xử lý bằng SS và WF thì có một số đoạn tiếng nói bị mất, chỉ nghe được nhiễu chứ không nghe được tiếng nói.

Điều này được lý giải là do nhiễu người nói xung quanh có mức năng lượng tương đương với mức năng lượng của tiếng nói nên một số file âm thanh có đoạn tiếng nói có mức năng lượng thấp hơn mức năng lượng của nhiễu thì tiếng nói đó sẽ bị trừ mất chỉ còn lại nhiễu.

 Nhận xét chung

Khi đem các thông số tối ưu để xử lý nhiễu xe hơi áp dụng với người nói xung quanh thì kết quả không tốt.

Đối với nhiễu người nói xung quanh thì thuật toán SS tác động tớt hơn WF.

1.27.5 Kết luận chương

Qua kết quả đánh giá bằng OE và SE đưa ra được kết luận là :

- Đối với từng loại nhiễu khác nhau thì tác động của các thuật toán tăng cường là khác nhau.

- Đối với từng mức nhiễu khác nhau thì thuật toán cũng tác động cũng khác nhau.

TÀI LIỆU THAM KHẢO

[1]. Ramabadran, T.,Ashley, J., and McLaughin, M.(1997), Background noise suppression for speech enhancement and coding, Proc. IEEE Workshop Speech Coding Telecommun.

[2]. Ths.Hoàng Lê Uyên Thục, Giáo trình xử lý tín hiệu số, Đại học Bách Khoa – Đại học Đà Nẵng.

[3].Hu, Y. and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal Process, I.

[4]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 2-7.

[5]. Long, M. (2005), Dinner Conversation (An oxymoron?), Acoustics Today,l(1), pp. 25-27.

[6]. Lombard, E.(1911), Le signe de lelevation de la voix, Ann. Mal. Oreil. Larynx.,37, 101-119.

[7]. Nguyễn Quốc Trung, Xử lý tín hiệu số - tập 1, NXB Khoa học kĩ thuật.

[8]. Lim, J. and Oppenheim, A.V.(1979), Enhancement and bandwidth compression of noisy speech, Proc. IEEE, 67(12),pp. 1586-1604.

[9]. Weiss, M., Aschkenasy, E., and Parsons, T.(1974), Study and the development of the INTEL technique for improving speech intelligibility, Technical Report NSC-FR/ 4023.

[10]. Boll, S.F. (1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans, Acoust. Speech Signal Process.,27(2), 113-120.

[10]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 46-57. [11] “Methods for Subjective Determination of Transmission Quality”, ITU_T Recommendation P.800, August 1996.

[12] Philipos C.Loizou, “Speech Enhancement Theory and Practice”, CRC Press, Taylor and Francis Group.

[13] Friedrich Schafer, “Artificial Bandwidth Extension of Narrowband Speech”, Signal Processing and Speech Communication Lab, Technical University Graz. [14] Hansen J. and Pellon B. , “An effective quality evaluation protocol for Speech Enhancement algorithms”, Proc. Int Conf. Spoken Language Process, 1998.

[16] Beey Y. , Shpiro Z. , Simchony T. , Shatz L. and Piasetzky J., “An efficient variable_bit_rate_low_delay (VBR_LP_CELP) code” , New York, Marcel Pekker, 1990.

[17] Yi Hu and Philipos C. Loizou, “Evaluation of Objective Quality Measures for Speech Enhancement”, IEEE.

[18] Klatt D., “Prediction of perceived phonetic distance from critical band spectra”, Proc IEEE Int. Conf. Acoust. Speech Signal Process.

[19] Kitawaki N., Nagabuchi H., and Itoh K., “Objective Evaluation for low bit_rate Speech Coding systems”, IEEE J, Sel. Areas Commun.

[20] Quackenbush S., Barnwell T. and Clements M., “Objective Measure of Speech Quality”, Englewood Cliffs NJ: Prenticư Hall.

[21]. Boll, S.F(1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoust. Speech Signal Process., 27(2), 113-120.

[22]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170.

[23]. Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the Development of the INTEL Technique for Improving Speech Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific Corporation.

[24]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time Processing of Speech Signals, New York : IEEE Press.

[25]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging, IEEE Trans. Speech Audio Process., 9(8), 799-807.

[26]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 100. [27]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170.

[28]. Lim, Oppenheim, Speech Enhancement Using a Soft-Decision noise Suppression EEE Trans. Acoustics, Speech and Signal Processing, vol. assp-28, no. 2, april 1980.

[29]. Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean- Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoustics, Speech and Signal Processing, vol. 32, no. 6, pp. 1109–1121, December 1984.

[30]. P. Scalart and J. Vieira-Filho, “Speech enhancement based on a priori signal to noise estimation,” in Proc. 21st IEEE Int. Conf. Acoust. Speech Signal Processing, Atlanta, GA, May 1996, pp. 629–632.

[31]. Dominic K. C. Ho, Speech Enhancement : concept and methodology, Demo prepared by Tong Wang, University of Missouri-Columbia.

[32] http://www.utdallas.edu/~loizou/speech/noizeus/

KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI

Chất lượng của tiếng nói bị suy giảm do sự tác động của nhiễu trong môi trường xung quanh là một vấn đề quan trọng cần phải được giải quyết. Việc tìm ra các phương pháp để triệt nhiễu và giảm nhiễu trong tiếng nói luôn luôn đề tài được quan tâm rất nhiều. Trong các dịch vụ truyền thông với phương tiện ngôn ngữ là tiếng nói thì việc tăng cường, cải thiện chất lượng tiếng nói đã bị nhiễu là rất thiết, giúp cho người nghe có thể nghe rõ và đúng những gì người nói đã nói.

Đồ án đã thực hiện được các vấn đề :

- Tìm hiểu và nghiên cứu các phương pháp cải thiện chất lượng tiếng nói, nhưng tập trung vào 2 thuật toán đã có trong Speech enhancement là : Spectral Subtraction và Wiener Filtering

- Xây dựng được chương trình thực hiện xử lý nhiễu trong các file âm thanh đã bị nhiễu dựa trên 2 thuật toán : Spectral Subtraction và Wiener Filtering.

- Thực hiện và đánh giá tính hiệu quả của 2 thuật toán trong các môi trường nhiễu và mức độ nhiễu khác nhau, từ đó đưa ra các biện pháp tối ưu hóa các thuật toán. Kết quả đạt được cho thấy WF là thuật toán

giảm nhiễu tốt hơn SS. Các thuật toán giảm nhiễu có hiệu quả khác nhau đối với từng môi trường nhiễu khác nhau

Tuy nhiên đồ án vẫn chưa giải quyết hết được các vấn đề trong Speech enhancement nên hướng phát triển của đề tài trong tương lai sẽ là :

- Tìm hiểu, nghiên cứu và xây dựng các chương trình thực hiện xử lý nhiễu trong tiếng nói dựa trên các thuật toán khác trong Speech enhancement.

- Nghiên cứu và đưa ra thuật toán mới về xử lý nhiễu và triệt nhiễu trong Speech enhancement.

Phát triển chương trình đã thực hiện đối với các dịch vụ ứng dụng thời gian thực và các dịch vụ trong lĩnh vực truyền thông đa phương tiện như : thoại, âm nhạc, truyền hình hội nghị.

PHỤ LỤC

Toàn bộ mã nguồn của chương trình thực hiện được lưu trữ trên đĩa CD đính kèm.

Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh

Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR Bảng 2.5. Thang đánh giá DCR

Hình 3.4 Phân tích tín hiệu thành các frame [31]