Bài viết tập trung nghiên cứu kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh. Việc xây dựng mô hình hồi quy với ma trận các hệ số ước lượng được thực hiện cho cả tín hiệu tiếng nói và nhiễu nhằm thay đổi cấu trúc của bộ lọc.
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 45 NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG BỘ LỌC KALMAN HIỆU CHỈNH A STUDY OF MEASURES FOR NOISE REDUCTION TO IMPROVE THE QUALITY OF SPEECH USING ADJUSTMENT KALMAN FILTER Dương Ngọc Pháp Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng; phapdn@gmail.com Tóm tắt - Bài báo tập trung nghiên cứu kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử dụng lọc Kalman hiệu chỉnh Việc xây dựng mơ hình hồi quy với ma trận hệ số ước lượng thực cho tín hiệu tiếng nói nhiễu nhằm thay đổi cấu trúc lọc Tín hiệu tiếng nói ban đầu bị tác động nhiễu xử lý trước đưa đến đầu vào lọc sử dụng phương pháp ước lượng tín hiệu, bao gồm việc xác định xác suất diện tiếng nói (SPP) kỹ thuật trừ phổ Kết mơ thực sở liệu NOIZEUS nhằm mô kỹ thuật nghiên cứu với loại nhiễu mức nhiễu khác Thông qua tiêu chí đánh giá, tiến hành so sánh mức độ hiệu kỹ thuật môi trường nhiễu với phương pháp nghiên cứu trước Abstract - The article focuses on noise reduction techniques for speech using the adjusment Kalman filter The construction of the regression model with matrix of estimated coefficients are made for both speech and noise to change the structure of the filter Original speech affected by noise is processed prior to the input filter using the signal estimation method including the determination of the speech presence probability (SPP) and spectral subtraction technique The simulation results are performed on the NOIZEUS database to simulate the studied technique with different kinds of noise and different noise levels Through the evaluation criteria, the article compares the technical efficiency on noise environments and the methods studied previously Từ khóa - lọc Kalman; giảm nhiễu; tiếng nói; xác suất diện tiếng nói; hồi quy Key words - Kalman filter; noise reduction; speech; speech presence probability; regression Đặt vấn đề môi trường chứa nhiễu lớn Như trình bày Hình 1, tín hiệu tiếng nói bị nhiễu y(n) nhận microphone thực chất tạo từ nguồn tín hiệu tiếng nói x(n) cộng với nhiễu v(n) Hầu hết chất lượng tiếng nói hệ thống truyền tin bị suy giảm tác động nhiễu Việc nghiên cứu đưa kỹ thuật nhằm loại bỏ nhiễu đóng vai trị quan trọng việc đảm bảo chất lượng tính dễ hiểu tín hiệu tiếng nói hệ thống thơng tin liên lạc Nâng cao chất lượng tiếng nói bao gồm cải thiện chất lượng, tính dễ hiểu giảm khó chịu cho người nghe cách giảm tối đa nhiễu tác động vào tiếng nói Các kỹ thuật nghiên cứu để giảm nhiễu cho tín hiệu tiếng nói trừ phổ (SS), ước lượng MMSE, lọc Wiener (WF), biến đổi Wavelet,… Nội dung báo tập trung nghiên cứu kỹ thuật giảm nhiễu cho tín hiệu tiếng nói dựa phương pháp tính tốn truy hồi, sử dụng biến thể lọc Kalman Kỹ thuật hiệu với loại nhiễu khác môi trường thực Kết nghiên cứu so sánh, đánh giá với kỹ thuật đề xuất Giảm nhiễu sử dụng lọc Kalman 3.1 Cấu trúc lọc Kalman Cấu trúc tự hồi quy lọc cho phép dự đoán trạng thái từ trạng thái trước mà khơng cần phải tốn nhớ để lưu trữ thông số [1][4] Phương trình sai phân tự hồi quy: x n Fn x n 1 w n ; n 1, 2, y n H n x n v n ; n 1, 2, (2) ˆ 0|0và P0|0 điều kiện đầu cho lọc Với giá trị x Sơ đồ thực lọc Kalman với có mặt phương trình tốn học biểu diễn Hình 2: Mơ hình nhiễu cộng Bài báo xem xét tín hiệu tiếng nói đơn kênh bị suy hao chế tác động nhiễu cộng âm học (additive acoustic noise) Đặc tính nhiễu cộng xếp chồng tín hiệu nhiễu lên tín hiệu tiếng nói miền thời gian lẫn miền tần số, nhiễu tác động lên tín hiệu tiếng nói với nhiều mức (SNR) khác Hình Mơ hình nhiễu cộng Nhiễu cộng tác động vào tín hiệu tiếng nói ghi âm (1) Và vector quan sát: Hình Sơ đồ thực lọc Kalman 46 Dương Ngọc Pháp 3.2 Sơ đồ khối hệ thống Bước Tín hiệu tiếng nói bị nhiễu đầu vào y phân khung (với độ dài cửa sổ W=256, hệ số chồng phổ 0,5 lọc Kalman miền thời gian W=80, hệ số chồng phổ 0,75 lọc Kalman miền tần số [11]) sử dụng cửa sổ Hanning Bước Ước lượng hệ số mơ hình hồi quy, ma trận hệ số xây dựng cho tín hiệu tiếng nói nhiễu ước lượng Bước Áp dụng lọc Kalman để lọc tín hiệu tiếng nói nhiễu từ tín hiệu ban đầu Tín hiệu đầu vào lọc miền thời gian biến đổi sang miền tần số (FFT STFT) Bước Thực ghép khung tín hiệu đầu 0 0 Q 0 0 0 0 u2 0 0 0 p 0 0 0 0 0 2 q H 0 0 1 p u (8) (9) q với σ σ giá trị phương sai ứng với ma trận J R sai lệch ước lượng tiếng nói nhiễu So với kỹ thuật giảm nhiễu sử dụng cấu trúc lọc Kalman [4], báo tác giả xây dựng ma trận mơ hình hồi quy sử dụng hệ số α β cho phép thu đầu sau thời điểm ứng với khung tín hiệu tín hiệu tiếng nói nhiễu ước lượng với lưu đồ thuật toán thực sau: Hình Sơ đồ khối hệ thống Mơ hình hệ thống theo lọc Kalman hiệu chỉnh [7][9] xây dựng với phương trình ước lượng quan sát có thay đổi cấu trúc ma trận: với vector x n x n =Фx n-1 +w n (3) y n =Hx n (4) w n có dạng là: x n xn - p 1 xn - p xn -1 xn - q 1vn - q -1vn w n 0 un 0 n T T (5) (6) ma trận Ф, Q H có dạng: p Φ 0 0 0 0 0 p 1 0 0 p 1 0 0 0 0 0 0 0 0 q q 1 q 2 0 0 0 0 0 1 (7) Hình Thuật tốn thực lọc Kalman 3.3 Ước lượng hệ số mơ hình Ứng với khung thứ i tín hiệu tiếng nói bị nhiễu, việc ước lượng hệ số mơ hình hồi quy thực thông qua bước sau: Bước Thực thiện FFT khung tín hiệu kích thước W ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN Bước Ước lượng cơng suất tín hiệu Pˆy' Bước Ước lượng công suất nhiễu Pˆv [2] Bước Ước lượng công suất tiếng nói Pˆx Bước Ước lượng hệ số bậc p bậc q cho tiếng nói nhiễu phương pháp hàm tương quan [5], [6] 47 theo chuẩn IEEE tín hiệu thoại Mỗi câu dài trung bình khoảng 2s Năm loại nhiễu chọn để nghiên cứu đề tài nhiễu ô tô (Car), nhiễu đám đông (Babble), nhiễu trắng (White), nhiễu từ tàu hỏa (Train) nhiễu đường phố (Street) 4.2 Tiêu chí đánh giá Các phương pháp đánh giá khách quan [3], [10] khảo sát để thực đánh giá chất lượng tín hiệu tiếng nói qua tiêu chí đánh giá, bao gồm: - Segmental Signal-to-Noise Ratio (SegSNR); - Log Likelihood Ratio (LLR); - Cepstrum Distance (CEP); - Perceptual Evaluation of Speech Quanlity (PESQ); - Weighted Spectral Slope (WSS) Hình Sơ đồ khối ước lượng hệ số mơ hình 3.4 Ước lượng nhiễu Sử dụng kỹ thuật ước lượng xác suất diện tiếng nói SPP [2] Các bước thực hiện: Bước Ước lượng công suất nhiễu khung tín hiệu ban đầu (coi tín hiệu nhiễu) Bước Tính tốn xác suất xuất tiếng nói sau (posteriori SPP) Bước Cập nhật xác suất với hệ số làm mượt α = 0,9 4.3 Kết đánh giá phân tích Bài báo thực đánh giá, so sánh kỹ thuật nghiên cứu NSS, MMSE LogMMSE ước lượng nhiễu sử dụng lọc phần trăm (PF) với kỹ thuật giảm nhiễu dùng lọc Kalman miền thời gian (Kalman-TD), miền tần số biến đổi Fourier nhanh (Kalman-FFT), miền tần số biến đổi Fourier thời gian ngắn (Kalman-STFT [8]) 4.3.1 Đánh giá theo phương pháp đo tỉ số tín hiệu nhiễu khung SegSNR Phương pháp đo SegSNR lựa chọn để đánh giá kỹ thuật giảm nhiễu (bao gồm kỹ thuật sử dụng lọc Kalman (Kalman-TD, Kalman-FFT, Kalman-STFT) kỹ thuật nghiên cứu NSS, MMSE logMMSE sử dụng lọc phần trăm (PF)) với mức nhiễu khác (0dB, +5dB, +10dB, +15dB) Kết thực với nhiễu xe Hình Bước Ước lượng cơng suất nhiễu với ngưỡng mềm xác suất diện tiếng nói tính tốn (ngưỡng chọn 0,99) Bước Cập nhật nhiễu với hệ số làm mượt β = 0,8 Hình Kết đánh giá SegSNR thuật tốn tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn tơ (Car) Hình Sơ đồ ước lượng công suất nhiễu Thực giảm nhiễu đánh giá kết 4.1 Cơ sở liệu Cơ sở liệu đánh giá lấy từ thư viện NOIZEUS [12] gồm 30 câu thoại ghi âm phịng thí nghiệm Các thuật tốn giảm nhiễu cho số SegSNR(dB) tốt nhiều so với tín hiệu ban đầu Các thuật tốn sử dụng lọc Kalman cho số SegSNR cao, khả giảm nhiễu tốt hẳn so với thuật toán khác gần với tỷ lệ nén nhiễu tương đồng cho loại nhiễu 4.3.2 Phương pháp đánh giá cảm quan chất lượng thoại PESQ Thực đánh giá PESQ cho kỹ thuật giảm nhiễu sử dụng lọc Kalman miền thời gian so sánh môi trường nhiễu khác Hình Kết đánh giá cho thấy ngồi nhiễu trắng loại 48 Dương Ngọc Pháp nhiễu khác cho số PESQ tốt, đặc biệt nhiễu tiếng ồn đám đông (babble) Điều chứng tỏ lọc Kalman thích hợp với việc giảm nhiễu màu cho tín hiệu tiếng nói cường sử dụng thuật tốn trình bày cho thấy tiêu chí đánh giá khác có thay đổi định môi trường nhiễu khác kỹ thuật giảm nhiễu khác Tuy nhiên, nhìn chung tín hiệu tiếng nói bị tác động nhiễu trắng cho kết sau tăng cường tốt có mật độ phổ phẳng Trong kỹ thuật giảm nhiễu sử dụng lọc Kalman, kỹ thuật giảm nhiễu miền thời gian điều chỉnh cho kết tốt Việc ước lượng nhiễu lớn gây ảnh hưởng đến phổ tiếng nói tăng cường, làm méo dạng tín hiệu cho kết đánh giá không tốt theo số WSS, PESQ, CEP TÀI LIỆU THAM KHẢO Hình Kết đánh giá hàm giảm nhiễu Kalman miền thời gian theo thông số PESQ cho môi trường nhiễu [1] Benesty, Jacob Springer handbook of speech processing Springer Science & Business Media, 2008 [2] Gerkmann, Timo, and Richard C Hendriks “Noise power estimation based on the probability of speech presence.” Applications of Signal Processing to Audio and Acoustics (WASPAA), 2011 IEEE Workshop on IEEE, 2011 [3] Hu, Yi, and Philipos C Loizou “Evaluation of objective quality measures for speech enhancement.” Audio, Speech, and Language Processing, IEEE Transactions on 16.1 (2008): 229-238 Paliwal, K., and A Basu “A Speech Enhancement Method Based on Kalman Filtering, proceedings of IEEE Int.” Conf Acoust Speech 1987 4.3.3 Đánh giá theo phương pháp đo LLR Thực đánh giá theo số LLR thuật toán khác với nhiễu trắng (white) [4] [5] Martin, Rainer “Noise power spectral density estimation based on optimal smoothing and minimum statistics.” Speech and Audio Processing, IEEE Transactions on 9.5 (2001): 504-512 [6] Martin, Rainer “Spectral subtraction based on minimum statistics.” power (1994): Berouti, M., R Schwartz, and John Makhoul “Enhancement of speech corrupted by acoustic noise.” Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'79 Vol IEEE, 1979 [7] [8] Paliwal, Kuldip, Kamil Wójcicki, and Belinda Schwerin “Singlechannel speech enhancement using spectral subtraction in the short-time modulation domain.” Speech communication 52.5 (2010): 450-475 [9] Hình Kết đánh giá LLR thuật tốn tăng cường chất lượng tiếng nói với loại nhiễu trắng (White) Kết đánh giá cho thấy với loại nhiễu có tính ổn định cao nhiễu trắng, thuật toán cho kết số LLR tốt hẳn với dải biến thiên rộng, đặc biệt thuật toán Kalman-TD Kết luận Kết đánh giá liệu tiếng nói sau tăng Popescu, Dimitrie C., and Ilija Zeljković “Kalman filtering of colored noise for speech enhancement.” Acoustics, Speech and Signal Processing, 1998 Proceedings of the 1998 IEEE International Conference on Vol IEEE, 1998 [10] Recommendation, I T U T “Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs.” ITU-T Recommendation (2001): 862 [11] So, Stephen, Kamil K Wójcicki, and Kuldip K Paliwal “Singlechannel speech enhancement using kalman filtering in the modulation domain.” IN TERSPEECH 2010 [12] http://ecs.utdallas.edu/loizou/speech/noizeus/ truy cập lần 20/05/2015 (BBT nhận bài: 27/07/2015, phản biện xong: 09/10/2015) cuối ... [11]) sử dụng cửa sổ Hanning Bước Ước lượng hệ số mơ hình hồi quy, ma trận hệ số xây dựng cho tín hiệu tiếng nói nhiễu ước lượng Bước Áp dụng lọc Kalman để lọc tín hiệu tiếng nói nhiễu từ tín hiệu. .. phương pháp đo tỉ số tín hiệu nhiễu khung SegSNR Phương pháp đo SegSNR lựa chọn để đánh giá kỹ thuật giảm nhiễu (bao gồm kỹ thuật sử dụng lọc Kalman (Kalman- TD, Kalman- FFT, Kalman- STFT) kỹ thuật nghiên. .. kỹ thuật giảm nhiễu sử dụng lọc Kalman, kỹ thuật giảm nhiễu miền thời gian điều chỉnh cho kết tốt Việc ước lượng nhiễu lớn gây ảnh hưởng đến phổ tiếng nói tăng cường, làm méo dạng tín hiệu cho